Beruflich Dokumente
Kultur Dokumente
PARTE DM
TEMA I: INTRODUCCIN
A LA MINERA DE DATOS
Ejemplos
AGENTE en un BANCO:
Debo conceder el crdito a este cliente?
GERENTE de un SUPERMERCADO:
Cundo se compran huevos, se suele comprar tambin
aceite?
Ejemplos
AGENTE en un BANCO:
Debo conceder el crdito a este cliente?
D-crdito C-crdito Salario Casa Cuentas Devuelve-
Idc
(aos) (euros) (euros) propia morosas crdito
101 15 60.000 2.200 s 2 no
102 2 30.000 3.500 s 0 s
histricos: 104
105
15
10
18.000
24.000
1.900
2.100
no
no
0
0
s
no
...
Minera de Datos
Ejemplos
GERENTE de un SUPERMERCADO:
Cundo se compran huevos, se suele comprar tambin aceite?
Idcesta Huevos Aceite Paales Vino Leche Mantequilla Salmn Endibias ...
1 s no no s no s s s ...
2 no s no no s no no s ...
3 no no s no s no no no ...
Datos 4 no s s no s no no no ...
histricos: 5
6
s
s
s
no
no
no
no
s
no
s
s
s
no
s
s
no
...
...
7 no no no no no no no no ...
8 s s s s s s s no ...
... ... ... ... ... ... ... ... ... ...
Minera de Datos
Patrn /
Modelo: Huevos Aceite : Confianza = 75%, Soporte = 12%
6
Ejemplos
DIRECTOR de RR.HH. de una EMPRESA:
Qu tipos de empleados tengo?
Id Sueldo Casado Coche Hijos Alq/Prop Sindicado Bajas/Ao Antigedad Sexo
1 10000 S No 0 Alquiler No 7 15 H
2 20000 No S 1 Alquiler S 3 3 M
3 15000 S S 2 Prop S 5 10 H
Datos 4
5
30000
10000
S
S
S
S
1
0
Alquiler
Prop
No
S
15
1
7
6
M
7 25000 No No 0 Alquiler S 0 8 H
8 20000 No S 0 Prop S 2 6 M
15 8000 No S 0 Alquiler No 3 2 H
... ... ... ... ... ... ... ... ... ...
Ejemplos
COMERCIAL de una EMPRESA DE COMERCIALIZACIN:
Cuntos televisores planos se estima vender el mes que
viene?
PRODUCTO MES-12 ... MES-4 MES-3 MES-2 MES-1 MES
Datos vdeo-dvd-recorder
discman
11
50
...
43
61
32
14
26
5
59
28
?
nevera 14 ... 27 2 25 12 ?
...
Minera de Datos
Patrn /
Modelo: Modelo lineal: Ventas Mes Siguiente TV planos:
Motivacin
Nuevas Necesidades del Anlisis
de Grandes Volmenes de Datos
Motivacin
La mayora de decisiones de empresas, organizaciones e
instituciones se basan tambin en informacin de experiencias
pasadas extradas de fuentes muy diversas.
las decisiones colectivas suelen tener consecuencias mucho
ms graves, especialmente econmicas, y, recientemente, se
deben basar en volmenes de datos que desbordan la
capacidad humana.
Motivacin
El usuario final no es un experto en aprendizaje
automtico ni en estadstica.
El usuario no puede perder ms tiempo analizando
los datos:
industria: ventajas competitivas, decisiones ms efectivas.
ciencia: datos nunca analizados, bancos no cruzados, etc.
personal: information overload...
visualizacin DM estadstica
teora de la gestin de
decisin organizaciones
13
+ +
++ -
- -
almacn vista minable patrones conocimiento decisiones
datos de datos
iniciales
Integracin y preparacin
modelado evaluacin despliegue
recopilacin de datos
revisin
24
Integracin de Datos
Recogida de Informacin
Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto Datos 2
HTML
Base de Datos
Transaccional 1
Fuentes
Externas
Informes
Fuentes
Internas
texto
Base de Datos
Transaccional 2
Repositorio o
Almacn de Datos
25
VISTA MINABLE
Outlook?
Sunny Rain
Overcast
NO YES NO YES
Ahora podemos utilizar este modelo para predecir si esta tarde
jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO.
34
Ejemplos de Tcnicas:
rboles de decisin.
Regresin logstica.
Redes neuronales.
Algoritmo APRIORI.
Kmedias.
42
rbol de regresin:
SI lluviaMediaSemana < 123,8 ENTONCES
MedianumUrgSemana = 0,0049 * SemanaAnyo - 2,57 * NumFestivos +
0,53 * MedianumUrgSemanaMenos1 10305,1
SI NO MedianumUrgSemana = 0,0052 * SemanaAnyo 3,20 * DasPuente +
0,67 * MedianumUrgSemanaMenos1 9823,7
Red neuronal
MedianumUrgSemana =
]MNdzD
43
Kohonen
Kmeans *
A Priori (asociaciones)
Estudios Factoriales,
anlisis multivariante
CN2
K-NN
RBF
Bayes Classifiers
45
Metodologa CRISP-DM
CRISP-DM (www.crisp-dm.org) (CRoss-Industry
Standard Process for Data Mining)
es un consorcio de empresas (inicialmente bajo una
subvencin inicial de la Comisin Europea), incluyendo
SPSS, NCR y DaimlerChrysler.
Comprensin Comprensin
del negocio de los datos
Preparacin
Despliegue de los datos
Modelado
Evaluacin
46
Metodologa CRISP-DM
Comprensin del negocio:
entender los objetivos y requerimientos del
proyecto desde una perspectiva de negocio.
Subfases:
establecimiento de los objetivos de negocio (contexto
inicial, objetivos y criterios de xito),
evaluacin de la situacin (inventario de recursos,
requerimientos, suposiciones y restricciones, riesgos y
contingencias, terminologa y costes y beneficios),
establecimiento de los objetivos de minera de datos
(objetivos de minera de datos y criterios de xito) y
generacin del plan del proyecto (plan del proyecto y
evaluacin inicial de herramientas y tcnicas).
47
Metodologa CRISP-DM
Comprensin de los datos:
recopilar y familiarizarse con los datos,
identificar los problemas de calidad de datos y
ver las primeras potencialidades o subconjuntos
de datos que puede ser interesante analizar
(segn los objetivos de negocio en la fase
anterior). Subfases:
recopilacin inicial de datos (informe de recopilacin),
descripcin de datos (informe de descripcin),
exploracin de datos (informe de exploracin) y
verificacin de calidad de datos (informacin de
calidad).
48
Metodologa CRISP-DM
Preparacin de los datos:
el objetivo de esta fase es obtener la vista
minable. Aqu se incluye la integracin,
seleccin, limpieza y transformacin. Subfases:
seleccin de datos (razones de inclusin / exclusin),
limpieza de datos (informe de limpieza de datos),
construccin de datos (atributos derivados, registros
generados),
integracin de datos (datos mezclados) y
formateo de datos (datos reformateados).
49
Metodologa CRISP-DM
Modelado:
es la aplicacin de tcnicas de modelado o de
minera de datos propiamente dichas a las vistas
minables anteriores. Subfases:
seleccin de la tcnica de modelado (tcnica de
modelado, suposiciones de modelado),
diseo de la evaluacin (diseo del test),
construccin del modelo (parmetros elegidos,
modelos, descripcin de los modelos) y
evaluacin del modelo (medidas del modelo, revisin de
los parmetros elegidos).
50
Metodologa CRISP-DM
Evaluacin:
es necesario evaluar (desde el punto de vista de
la finalidad) los modelos de la fase anterior. Es
decir, si el modelo nos sirve para responder a
algunos de los requerimientos del negocio.
Subfases:
evaluacin de resultados (evaluacin de los resultados
de minera de datos, modelos aprobados),
revisar el proceso (revisin del proceso) y
establecimiento de los siguientes pasos (lista de
posibles acciones, decisin).
51
Metodologa CRISP-DM
Despliegue:
se trata de explotar la potencialidad de los
modelos, integrarlos en los procesos de toma de
decisin de la organizacin, difundir informes
sobre el conocimiento extrado, etc. Subfases:
planificacin del despliegue (plan del despliegue),
planificacin de la monitorizacin y del mantenimiento
(plan de la monitorizacin y del despliegue),
generacin del informe final (informe final, presentacin
final) y
revisin del proyecto (documentacin de la
experiencia).
52
Metodologa CRISP-DM
Implantacin progresiva en una organizacin:
Planificacin y organizacin.
Identificar problemas de
minera de datos
Identificar Problemas
de Negocio
Extraccin de
Conocimiento
Iter. 1 Iter. 2
Evaluacin de
Resultados. Medida de
Difusin, Despliegue y Costes y Beneficios
Explotacin de Modelos
53
Herramientas
Paquetes de Minera de Datos:
Durante los 90, aparecen paquetes de minera de datos
desde diferentes mbitos:
como evolucin de paquetes o libreras de aprendizaje
automtico o reconocimiento de patrones: CART, See5,
Neuroshell, Weka, PRW, ..
como solucin de los grandes del anlisis de datos:
SPSS, SAS,
como complemento de las herramientas de business
intelligence y explotacin de datos: IBM, Oracle,
Microsoft, Teradata,
Incorporan tcnicas de preparacin de datos, de
modelado, de visualizacin y de evaluacin.
54
Herramientas
Elder Research,
www.datamininglab.com
55
Herramientas
Tipos de Herramientas:
Segn el acoplamiento:
Standalone: Los datos se deben exportar/convertir al formato
interno del sistema de DM: Angoss Knowledge Seeker, Weka, .
On-top: pueden funcionar sobre un sistema propietario (SPSS
Clementine sobre ODBC, ).
Embedded (funcionan integrados propietarios): Oracle Data
Miner, IBM...
Segn la extensibilidad y el uso directo en aplicaciones:
Se pueden aadir nuevos algoritmos fcilmente: Kepler, Weka,
Se puede (con paciencia): Clementine, Oracle
Complejo o imposible: SAS,
Segn la variedad de tcnicas:
Monotcnica: Neuroshell, CART, See5.0,
Suites: Clementine, Enterprise Miner, Oracle Data Miner
56
Herramientas
Costes:
Muy variables:
gratuito (p.ej. Weka, RapidMiner).
miles de euros (p.ej. SQL Server Data Mining)
decenas de miles euros (p.ej. IBM SPSS Modeler, Oracle, )
a cientos de miles de euros (inc. Hardware, p.ej. Teradata)
Herramientas
EJEMPLO: IBM SPSS Modeler (www.spss.com)
Antes de que IBM comprara SPSS se llamaba
Clementine
Herramienta que incluye:
fuentes de datos (ASCII, XLS, ODBC, ).
interfaz visual.
distintas tcnicas de minera de datos: redes
neuronales, reglas, clustering, .
evaluacin por particin,
manipulacin de datos (combinacin y separacin).
gestin de proyectos (CRISP-DM), exportacin de
modelos,
Incluye herramientas para flujo de proceso: trata en el
proceso KDD como un proceso y las fases se pueden repetir,
modificar y grabar.
58
Herramientas
EJEMPLO: IBM SPSS Modeler (www.spss.com)
59
Herramientas
EJEMPLO: SAS ENTERPRISE MINER (EM)
Herramienta completa. Incluye:
interfaz grfico.
conexin a bases de datos (a travs de ODBC y SAS
datasets).
evaluacin por particin,
distintas tcnicas: rboles de decisin, redes
neuronales, regresin y clustering.
conversin de los modelos en cdigo SAS.
Herramientas
EJEMPLO:
SAS
ENTERPRISE
MINER (EM)
(flujo del
proceso KDD)
61
Herramientas
Angoss Knowledge Seeker:
62
Herramientas
Oracle: Herramientas Business Intelligence y
Data Mining Oracle
Engine (Java DM) desde Oracle 9iEnterprise
Suite (OracleBi Data Miner). Planning &
Budgeting OracleActivity
Based
Oracle Definir Management
Modelar
Reports Hiptesis
Services Oracle
Balanced
Scorecard
OracleBI
OracleBI Warehouse
Data Miner Analizar Builder Actuar
Oracle Daily
Non-Oracle Business
sources Rastrear Intelligence
Oracle
OracleBI
E-Business
Discoverer
Fuente: IDC, 2004 Suite
63
Herramientas
OracleBI Data Miner
64
Herramientas
MS SQL SERVER: Analysis Services
Lenguaje DMX:
1. Crear el modelo
2. Entrenar el modelo
3. Realizar predicciones
Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
66
Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
67
Herramientas
RapidMiner (www.rapid-i.com)
68
Popularidad
Herramientas
Popularidad