Sie sind auf Seite 1von 14

Introduccin al Data Mining

Fernando Berzal, berzal@acm.org

Introduccin al Data Mining


Qu es la minera de datos? Aplicaciones KDD (Knowledge Discovery in Databases) (Knowledge Databases)
El proceso de extraccin de conocimiento Carcter multidisciplinar

Tcnicas de minera de datos


Modelos descriptivos y modelos predictivos Clasificacin de las tcnicas de minera de datos

Fuentes de datos Evaluacin de resultados Sistemas de minera de datos


1

Qu es la minera de datos?
Extraccin de patrones (conocimiento) en grandes bases de datos.

Qu es la minera de datos?
Extraccin de conocimiento en grandes bases de datos.

Requisitos No trivial Implcito Previamente desconocido Potencialmente til


3

Qu es la minera de datos?
Definiciones NonNon-trivial extraction of implicit, previously unknown and potentially useful information from data.
Frawley, PiatetskyFrawley, Piatetsky-Shapiro & Matheus: Matheus: Knowledge Discovery in Databases: An Overview. MIT Press, 1991.

Exploration and analysis, by automatic or semisemi-automatic means, of large quantities of data in order to discover meaningful patterns.
Berry & Linoff: Linoff: Data Mining Techniques. Wiley, 1997

Qu es la minera de datos?
How can I analyze this data?

Knowledge

Data rich, Information poor

Conocimiento (patrones interesantes)


5

Aplicaciones
Market basket analysis (compras) Perfiles de usuario en la Web Segmentacin de clientes Deteccin de fraudes / intrusos

KDD

(Knowledge Discovery in Databases) Databases)

Extraccin de conocimiento en bases de datos


7

KDD

(Knowledge Discovery in Databases) Databases)

El proceso de extraccin de conocimiento Limpieza de datos


(eliminacin de ruido e inconsistencias)

Integracin de datos
(combinacin de mltiples fuentes de datos)

Reduccin/Seleccin de datos
(identificacin de datos relevantes para el problema)

Transformacin de datos
(preparacin de los datos para su anlisis)

Minera de datos
(tcnicas de extraccin de patrones y medidas de inters)

Presentacin de resultados
(tcnicas de visualizacin y de representacin del conocimiento)
8

KDD

(Knowledge Discovery in Databases) Databases)

Extraccin de conocimiento en bases de datos:

KDD

(Knowledge Discovery in Databases) Databases)

Carcter multidisciplinar
Gestin de grandes cantidades de datos Evaluacin de resultados Resumen de datos

Bases de datos

Estadstica

Data Mining

IA
Aprendizaje Representacin del conocimiento

Visualizacin
Presentacin de resultados 10

KDD

(Knowledge Discovery in Databases) Databases)

I keep saying the sexy job in the next ten years will be statisticians. People think Im joking, but who wouldve guessed that computer engineers wouldve been the sexy job of the 1990s? The ability to take datato be able to data understand it, to process it, to extract value from it, to visualize it, to communicate itthats going to be a hugely it important skill in the next decades Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it. Hal R. Varian
Googles Chief Economist Professor of Information Sciences, Business, and Economics at the University of California at Berkeley
11

KDD

(Knowledge Discovery in Databases) Databases)

Extraccin de conocimiento en bases de datos:

12

Tcnicas de minera de datos


Modelos de minera de datos

13

Tcnicas de minera de datos


Clasificacin de los modelos de minera de datos En funcin de su propsito general: Modelos descriptivos (describen el comportamiento de los datos de forma que sea interpretable por un usuario experto). Modelos predictivos (adems de describir los datos, se utilizan para predecir el valor de algn atributo desconocido).
14

Tcnicas de minera de datos


Ejemplos Reglas de asociacin (modelo descriptivo)
Los compradores de paales tambin suelen comprar cerveza.

Clustering (modelo descriptivo)


Segmentacin de los clientes de un hipermercado: - Clientes ocasionales que gastan mucho. - Clientes habituales con presupuesto limitado. - Clientes ocasionales con presupuesto limitado.

Clasificacin (modelo predictivo):


- Datagramas que corresponden a intentos de intrusin. - Perfil de un cliente de alto riesgo para prstamos bancarios.
15

Tcnicas de minera de datos


Algunas tcnicas de minera de datos Caracterizacin o resumen Discriminacin o contraste Patrones frecuentes, asociaciones y correlaciones Clasificacin y prediccin Deteccin de agrupamientos (clustering) (clustering) Deteccin de anomalas (outliers) (outliers) Anlisis de tendencias (series temporales)

16

Tcnicas de minera de datos


Las tcnicas de minera de datos tambin se pueden clasificar atendiendo a el tipo de datos que hay que analizar el tipo de conocimiento que se obtiene el tipo de herramienta que se utiliza el dominio de aplicacin
17

Fuentes de datos
Fuentes de datos

18

Fuentes de datos
Fuentes de datos Bases de datos relacionales Bases de datos multidimensionales (DW) Bases de datos transaccionales Series temporales, secuencias y data streams Datos estructurados (grafos, redes sociales) Datos espaciales y espaciotemporales Textos e hipertextos (p.ej. Web) Bases de datos multimedia (p.ej. Imgenes)
19

Evaluacin de resultados
Evaluacin de resultados

20

Evaluacin de resultados
Un resultado es interesante si es comprensible (por seres humanos) es vlido con cierto grado de certeza es potencialmente til es novedoso o sirve para validar una hiptesis El inters de los resultados se puede evaluar objetivamente (criterios estadsticos) subjetivamente (perspectiva del usuario)
21

Sistemas de minera de datos


Interfaz de usuario Evaluacin de patrones Motor de minera de datos Base de datos o data warehouse
Base de conocimiento

Arquitectura tpica

Limpieza, integracin, seleccin y transformacin de datos

DB

DW

WWW

22

Sistemas de minera de datos


Descripcin de una tarea de minera de datos: Datos relevantes (lo que hay que analizar) Tipo de conocimiento (lo que se desea obtener) Conocimiento previo (background knowledge, para guiar el proceso) Medidas de inters (para evaluar los resultados obtenidos) Tcnicas de representacin (para representar los resultados obtenidos)
23

Sistemas de minera de datos


Software de minera de datos KNIME http://www.knime.org/ RapidMiner http://rapidminer.com/ Weka http://www.cs.waikato.ac.nz/ml/weka/ R http://www.rhttp://www.r-project.org/ SPSS Modeler http://www.spss.com/software/modeler/ SAS Enterprise Miner http://www.sas.com/

24

Temas de investigacin
Tcnicas eficientes de minera de datos
Escalabilidad Tcnicas incrementales Algoritmos paralelos

Incorporacin de conocimiento previo Evaluacin de resultados (inters) Interaccin con el usuario


Tcnicas interactivas (a distintos niveles de abstraccin) Tcnicas de presentacin y visualizacin de resultados

Anlisis de nuevos tipos de datos


Estructuras complejas (grafos, redes sociales) Bases de datos heterogneas
25

Bibliografa
PangPang-Ning Tan, Michael Steinbach & Vipin Kumar: Kumar: Introduction to Data Mining Addison-Wesley, Addison-Wesley, 2006. ISBN 0321321367 Jiawei Han & Micheline Kamber: Kamber: Data Mining: Mining: Concepts and Techniques Morgan Kaufmann, 2006. Kaufmann, ISBN 1558609016

26

Bibliografa (investigacin)
Revistas
ACM Transactions on Knowledge Discovery from Data (TKDD) IEEE Transactions on Knowledge and Data Engineering (TKDE) Data Mining and Knowledge Discovery (DMKD) ACM SIGKDD Explorations Data & Knowledge Engineering (DKE) (DKE) Knowledge and Information Systems (KAIS)

Congresos
KDD (ACM SIGKDD International Conference on KDD) ICDM (IEEE International Conference on Data Mining) Mining) SDM (SIAM Data Mining Conference) Conference) PKDD (Principles and Practices of KDD) SIGMOD (Management of Data) CIKM (Information and Knowledge Management) Management)

27

Das könnte Ihnen auch gefallen