Sie sind auf Seite 1von 18

Captulo 1

Introduccin al proceso de Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery from Databases KDD)

Objetivos
Conocer qu es el aprendizaje computacional, reas relacionadas y principales tcnicas y paradigmas Enumerar la utilidad y reas de aplicacin del proceso de KDD Describir las fases del proceso de KDD

Indice
1. 2.
Definiciones de aprendizaje El aprendizaje computacional

Definicin Principales estrategias Principales paradigmas

3. 4. 5. 6. 7.

Tipo de conocimiento en las B.D.s Para qu sirve el KDD? Aplicaciones Procesos de KDD Fases del KDD

Integracin y recopilacin Preprocesamiento Minera de datos Interpretacin y evaluacin Difusin y uso

8.

Sistemas

Definiciones de aprendizaje
Un cambio relativamente permanente en conducta o en potencia en conducta que resulta de la experiencia. (Psicologa: [Hengerhahn y Olson, 1993]). Un proceso mental por medio del cual el nio descubre y construye el conocimiento a travs de sus propias acciones y reflexiones que nacen al interactuar con los objetos, acontecimientos, fenmenos y situaciones que despierten su inters (Educacin: [Medina, 2000]). Es incorporar nuevas habilidades que posibilitan lograr objetivos que hasta el momento se hallaban fuera del alcance (Economa: [Kofman, 2001]). Un proceso que capacita a los organismos para modificar su conducta con cierta rapidez en una forma ms o menos permanente de modo que la misma modificacin no tiene que ocurrir una y otra vez en cada situacin nueva (Biologa: [Gagn, 1975]). Un cambio en la conducta, relativamente permanente, que ocurre como resultado de una experiencia. Al usar la expresin relativamente permanente [...], elimina la fatiga y los factores motivacionales como posibles causas del cambio. Al afirmar que el cambio se debe a la experiencia, tambin se excluyen como causa los factores madurativos (Psicologa: [Tarpy, 1977]).

Definiciones de aprendizaje
El aprendizaje tiene lugar como resultado de la interaccin entre el agente y el mundo, y de la observacin por parte del agente de sus propios procesos de toma de decisiones. El aprendizaje puede oscilar desde la trivial memorizacin de la experiencia .... a la creacin de teoras cientficas completas (Inteligencia Artificial: [Russell y Norvig, 1995]). El proceso de estimar una dependencia o estructura desconocida de un sistema usando un nmero limitado de observaciones (Inteligencia Artificial: [Cherkassky y Mulier, 1998]).

El aprendizaje computacional > Definicin


El estudio y modelacin computacional del proceso de aprendizaje en sus mltiples manifestaciones constituye el tema del aprendizaje computacional... El aprendizaje representa cambios en el sistema que son adaptativos en el sentido de que permiten al sistema hacer la misma tarea o tareas sobre la misma poblacin con ms eficiencia y eficacia la prxima vez ([Michalski et al., 1983], pgs. 1, 28).

El aprendizaje computacional > Definicin


Un programa de computadora se dice que aprende a partir de la experiencia E, con respecto a una clase de tareas T y medida de rendimiento P, si su rendimiento en las tareas en T, medido mediante P, mejora con la experiencia E ([Mitchell, 1997], pg. 2).

El aprendizaje computacional > Definicin


Aprendizaje computacional es un proceso que comienza con la identificacin del dominio de aprendizaje y finaliza evaluando y utilizando los resultados del aprendizaje ... Las partes principales en este proceso son el dominio de aprendizaje, el conjunto de entrenamiento, el sistema de aprendizaje y evaluar los resultados del proceso de aprendizaje ([Banzhaf et al., 1998], pg. 9).

El aprendizaje computacional > Areas relacionadas


Filosofa Biologa

Teora
Algoritmos genticos

Analoga

Matemticas
Grupo

Aprendizaje computacional
Redes neuronales

Estadstica

Induccin

Psicologa

Psicologa

[Grammerman, 1996]

El aprendizaje computacional > Principales estrategias


Aprendizaje Aprendizaje Aprendizaje Aprendizaje supervisado por refuerzo no supervisado hbrido

El aprendizaje computacional > Principales paradigmas. Tipo de inferencia


[Kamber, 1991]

Memorizacin de hechos Aprendizaje deductivo Aprendizaje inductivo o a partir de ejemplos Aprendizaje por analoga Aprendizaje basado en explicacin Aprendizaje hbrido

El aprendizaje computacional > Principales paradigmas. Tc. computacionales


[Honavar, 1994]

Sistemas de procesamiento simblico Redes neuronales Reconocimiento estadstico de patrones Reconocimiento sintctico de patrones Alg. genticos y programacin evolutiva

Tipo de conocimiento en las B.D.s

SQL: Structured Query Language OLAP: Online Analytical Processing KDD: Knowledge Discovery on Databases

Definicin del proceso de KDD


Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos.
[Fayrad et al., 1996]

reas relacionadas con el proceso de KDD

Sistemas expertos

Aprendizaje computacional

Base de datos

Descubrimiento de Conocimiento en B.D.

Estadstica

Visualizacin

Para qu sirve el KDD?


Punto de encuentro entre investigadores y hombres de negocios Mejorar el funcionamiento de la organizacin. Optimizar el manejo de sus bases de datos. Prediccin automatizada de tendencias y comportamientos. Obtener ventajas comerciales. Mejorar calidad de productos. Descubrimiento automatizado de modelos desconocidos. Descubrimiento de anomalas y acciones fraudulentas por parte de clientes.

Aplicaciones del proceso de KDD


Aplicaciones financieras y banca Anlisis de mercado, distribucin y comercio Seguros y salud privada Educacin Procesos industriales Medicina Biologa, bioingeniera, Telecomunicaciones Otras (e-mail, turismo, trfico, )

Modelos propuestos para KDD


CRISP -DM [Gam-01]
1. Comprensin del Problema 2. Comprensin de los Datos 3. Preparacin de los Datos 4. Modelacin 5. Evaluacin de los resultados 6. Despliegue de los Resultados
[Gam-01] [Ede-99]

Two Crows [Ede-99]


1. Definicin del Problema de Negocios 2. Construccin de la base de datos para Minera de Datos 3. Exploracin de los Datos 4. Preparacin de los Datos para Modelacin 5. Construccin de Modelos 6. Evaluacin del Modelo 7. Despliegue de Modelos y Resultados.

Gamberger D, Smuc Tomislay and Mari Ivan. Data Mining Server. Laboratory Information System Rudjer Boskovic Institute http://dms.irb.hr/tutorial/tut_intro.php. 2001 Edelstein Herbert. Introduction to Data Mining and Knowledge Discovery,Third Edition. Two Cows Corpration. USA. 1999.

Fases del KDD


Se trata de un proceso: Iterativo:
La salida de alguna fase puede volver a pasos anteriores Pueden ser necesarias varias iteraciones para extraer conocimiento de alta calidad El usuario (un experto en el dominio del problema) debe ayudar en la preparacin de los datos, validacin del conocimiento extrado,

Interactivo:

Fases del KDD


y n ci ta n re i rp ac te lu In eva
M a er in de

Decisiones

n si fu Di uso y

Conocimiento

Datos iniciales

Fases del KDD > Integracin y recop.


Dos tipos de procesamiento en los sistemas de informacin: OLPT (On-Line Transactional Processing):
Realizacin de actualizaciones y consultas a la base de datos con un objetivo operacional.

OLAP (On-Line Analytical Processing):


Operaciones exclusivamente de consulta en las que se requiere agregar y cruzar gran cantidad de informacin.

Pr m sa ce ro ep to ien
in n ac ci gr ila te p In reco y

++ ++ -

Almacn de datos (data warehousing)

da s to

- -

Patrones

Datos seleccionados

Fases del KDD > Integracin y recop.


Desventajas de realizar OLTP y OLAP sobre la base de datos transaccional: Las consultas OLAP perturban el trabajo transaccional diario. La base de datos est diseada para el trabajo transaccional, no para el anlisis de datos.

Fases del KDD > Integracin y recop.

Solucin: Crear un almacn de informacin integrada Proveniente de los sistemas de informacin transaccionales (Data Warehouse). DataMart: repositorio parcial de datos orientados a un rea de negocio.

Fases del KDD > Integracin y recop.


Un almacn de datos es una coleccin de datos: orientada a un dominio temtica integrada histrico (variante en el tiempo) no volatil para ayudar en la toma de decisiones.

Fases del KDD > Integracin y recop.


El almacn de datos: Facilita el anlisis de los datos en tiempo real (OLAP) No disturba el OLTP de las bases de datos originales.
Ojo: Podemos tener almacenes de datos sin OLAP
y viceversa.

Fases del KDD > Integracin y recop.


Sistema Operacional (OLTP)
- almacena datos actuales - almacena datos de detalle -bases de datos medianas (100Mb-1Gb) - los datos son dinmicos (actualizables) - los procesos (transacciones) son repetitivos - el nmero de transacciones es elevado - tiempo de respuesta pequeo (segundos) - dedicado al procesamiento de transacciones - orientado a los procesos de la organizacin - soporta decisiones diarias - sirve a muchos usuarios (administrativos)

Almacn de datos (DW)


- almacena datos histricos - almacena datos de detalle y datos agregados a distintos niveles - bases de datos grandes (100Gb-1Tb) - los datos son estticos - los procesos no son previsibles - el nmero de transacciones es bajo o medio - tiempo de respuesta variable (segundos-horas) - dedicado al anlisis de datos - orientado a la informacin relevante - soporta decisiones estratgicas - sirve a tcnicos de direccin

[J. Hernndez Orallo]

Fases del KDD > Integracin y recop.


El modelo multidimensional: El modelo conceptual ms extendido para los almacenes de datos.
Los datos se organizan en torno a hechos, que tienen unos atributos o medidas que pueden verse en mayor o menor detalle segn ciertas dimensiones.

Podemos obtener informacin sobre hechos a diferentes niveles de agregacin de forma sencilla

Fases del KDD > Integracin y recop.


Para obtener ms informacin sobre el tema de los almacenes de datos, aconsejamos la URL http://www.dsic.upv.es/~jorallo/cursoDWDM/ "Anlisis y Extraccin de Conocimiento en Sistemas de Informacin: Datawarehouse y Datamining" Profesor: Jos Hernndez Orallo

Fases del KDD > Preprocesamiento


Los datos del mundo real son: Incompletos Ruidosos Inconsistentes Los buenos resultados se obtienen con datos limpios y consistentes

Fases del KDD > Preprocesamiento


La fase de preparacin de los datos est dividida en: Seleccin de los datos Limpieza de los datos:
Normalizacin Discretizacin de campos numricos Tratamiento de los valores ausentes Reduccin del volumen de datos Suavizar datos con ruido

10

Fases del KDD > Preprocesamiento


La fase de preparacin de los datos est dividida en: Creacin de nuevos datos:
Generar campos nuevos a partir de otros existentes Fusin de tablas con atributos diferentes para el mismo objeto Agregacin de campos donde se resumen caractersticas de mltiples registros

Formateo de los datos (transformaciones sintcticas que no modifican su significado)

Fases del KDD > Preprocesamiento


Para obtener ms informacin sobre el tema de la preparacin de datos, aconsejamos el captulo 4 del libro Introduccin a la Minera de Datos J. Hernndez Orallo, M. J. Ramrez Quintana y C. Ferri Ramrez Ed. Pearson Prentice Hall

Fases del KDD > Minera de datos


Se obtiene un modelo a partir de los datos que puede usarse para: Hacer predicciones Entender mejor los datos Explicar situaciones pasadas

11

Fases del KDD > Minera de datos


Las tcnicas ms habituales de minera de datos distinguen dos tipos de datos: Numricos
Valores enteros o reales

Categricos o nominales
Pertenecen a un conjunto finito y preestablecido de categoras

Fases del KDD > Minera de datos


Los pasos en esta fase son: Determinar qu tipo de tarea de minera es el ms apropiado. Elegir el tipo de modelo. Elegir el algoritmo de minera que resuelva la tarea y obtenga el tipo de modelo deseado.

Fases del KDD > Minera de datos


Los modelos pueden ser: Predictivos
estiman valores futuros o desconocidos usando valores de campos de la B.D.

Descriptivos
Exploran las propiedades de los datos examinados

12

Fases del KDD > Minera de datos


Tareas de la minera de datos:
Predictiva

Clasificacin

Regresin

Fases del KDD > Minera de datos


Tareas de la minera de datos:
Descriptiva

Agrupamiento

Correlaciones Reglas de asoc.


SI bizcochos Y horchata ENTONCES galletas SI leche Y papilla infantil ENTONCES paales SI pan blanco ENTONCES NO pan integral

Fases del KDD > Minera de datos


Tareas
Clasificacin

Tcnicas
Mtodos de induccin de reglas rboles de Decisin K vecinos ms cercanos Razonamiento basado en casos Algoritmos genticos Anlisis de regresin rboles de regresin Redes neuronales K vecinos ms cercanos. Anlisis de Correlacin Anlisis de regresin Reglas de Asociacin Redes Bayesianas Programacin lgica inductiva Algoritmos genticos Tcnicas de Agrupacin Redes neuronales Tcnicas de visualizacin Algoritmos genticos

Prediccin

Anlisis de Dependencia

Segmentacin o Agrupacin

13

Fases del KDD >

Interpretacin y evaluacin

Los modelos obtenidos deben ser: Precisos Comprensibles Interesantes


Ojo: Hay ocasiones en las que puede interesar mejorar algn
criterio sacrificando ligeramente otro.

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > hold-out

hold-out
todos los datos conjunto de entrenamiento conj. de test

Qu ocurre si usamos el mismo conjunto de datos para entrenar y validar en modelo?

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Problemas de ajuste pobre o de sobreajuste

Desde grado 1 a grado 4

Desde grado 5 a grado 8

14

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Inconvenientes de mtodo hold-out

Descartamos una parte de los datos (problemtico cuando se dispone de una muestra pequea) Una divisin de los datos poco afortunada puede dar lugar a una mala estimacin de la bondad del modelo

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Solucin = Mtodos de remuestreo Mtodos que generan subconjuntos (mtodos de validacin cruzada o crossvalidation) Mtodos que generan submuestras (mtodos de bootstrap)

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Mtodos que generan subconjuntos:


random hold-out o MonteCarlo cross-validation
todos los datos divisin 1 divisin 2 divisin 3 dato del conjunto de test

...........
divisin n

15

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Mtodos que generan subconjuntos:


dejar uno fuera (leave-one-out)
todos los datos divisin 1 divisin 2 divisin 3 dato del conjunto de test

...........
divisin m

Fases del KDD >

Interpretacin y evaluacin

validacin cruzada con k pliegues (k-fold cross-validation)


todos los datos divisin 1 divisin 2 divisin 3 datos del conjunto de test

Tcnicas de evaluacin > Mtodos que generan subconjuntos:

...........
divisin k

Fases del KDD >

Interpretacin y evaluacin

Tcnicas de evaluacin > Mtodos que generan submuestras:


Bootstrap ([Efron, 1979])
conjunto de entrenamiento

c. validacin

todos los datos

...........

16

Fases del KDD >


Tareas
Clasificacin Prediccin

Interpretacin y evaluacin

Medidas de evaluacin ms utilizadas:


Medida
N de ejem. clasif. correctamente / N ejem. totales Error cuadrtico medio del valor predicho respecto al valor que se utiliza como validacin. Para cada regla se evala: Reglas de asociacin

Cobertura (o soporte): n de instancias a las que la regla se aplica y predice correctamente. Confianza: Proporcin de instancias que la regla predice correctamente (cobertura / n de instancias a las que se puede aplicar la regla)
Dependen del mtodo, pero suelen ser funcin de: la cohesin de los grupos: por ej., usar la distancia media de cada miembro al centro del grupo. la separacin entre grupos: por ej., usar la distancia media entre grupos

Segmentacin o Agrupacin

Fases del KDD >

Interpretacin y evaluacin

Otras medidas de evaluacin que tienen en cuenta el contexto donde se va a utilizar el modelo: Matriz de confusin Anlisis ROC (Receiver Operating Characteristic)

Fases del KDD >

Difusin y uso

Uso del modelo: Un analista recomiende acciones basndose en el modelo y en sus resultados. Aplicar el modelo a diferentes conjuntos de datos. Difundir e integrarlo en el conocimiento know-how de la organizacin Medir la evolucin del modelo

17

Sistemas
Producto Knowledge Seeker CART Clementine Data Surveyor GainSmarts Intelligent Miner Microstrategy Polyanalyst Darwin Enterprise Miner SGI MineSet Wizsoft/Wizwhy WEKA Compaa Angoss Salford Systems SPSS/Integral Solutions Limited (ISL) Data Distilleries Urban Science IBM Microstrategy Megaputer Oracle SAS Silicon Graphics Wizsoft gratuito

Algunos enlaces webs interesantes


http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996Fayyad.pdf http://www.monografias.com/trabajos/datamining/datamining.shtml http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mi neriaDatosBressan.htm http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://scalab.uc3m.es/~docweb/ad/transparencias/molina1102.pdf http://www.dsic.upv.es/~jorallo/master/ http://www.kdnuggets.com/ http://www.uni.edu/instrsch/dm/index.html http://www.eruditionhome.com/datamining/ http://www.cs.waikato.ac.nz/~ml/index.html

18

Das könnte Ihnen auch gefallen