Beruflich Dokumente
Kultur Dokumente
Introduccin al proceso de Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery from Databases KDD)
Objetivos
Conocer qu es el aprendizaje computacional, reas relacionadas y principales tcnicas y paradigmas Enumerar la utilidad y reas de aplicacin del proceso de KDD Describir las fases del proceso de KDD
Indice
1. 2.
Definiciones de aprendizaje El aprendizaje computacional
3. 4. 5. 6. 7.
Tipo de conocimiento en las B.D.s Para qu sirve el KDD? Aplicaciones Procesos de KDD Fases del KDD
8.
Sistemas
Definiciones de aprendizaje
Un cambio relativamente permanente en conducta o en potencia en conducta que resulta de la experiencia. (Psicologa: [Hengerhahn y Olson, 1993]). Un proceso mental por medio del cual el nio descubre y construye el conocimiento a travs de sus propias acciones y reflexiones que nacen al interactuar con los objetos, acontecimientos, fenmenos y situaciones que despierten su inters (Educacin: [Medina, 2000]). Es incorporar nuevas habilidades que posibilitan lograr objetivos que hasta el momento se hallaban fuera del alcance (Economa: [Kofman, 2001]). Un proceso que capacita a los organismos para modificar su conducta con cierta rapidez en una forma ms o menos permanente de modo que la misma modificacin no tiene que ocurrir una y otra vez en cada situacin nueva (Biologa: [Gagn, 1975]). Un cambio en la conducta, relativamente permanente, que ocurre como resultado de una experiencia. Al usar la expresin relativamente permanente [...], elimina la fatiga y los factores motivacionales como posibles causas del cambio. Al afirmar que el cambio se debe a la experiencia, tambin se excluyen como causa los factores madurativos (Psicologa: [Tarpy, 1977]).
Definiciones de aprendizaje
El aprendizaje tiene lugar como resultado de la interaccin entre el agente y el mundo, y de la observacin por parte del agente de sus propios procesos de toma de decisiones. El aprendizaje puede oscilar desde la trivial memorizacin de la experiencia .... a la creacin de teoras cientficas completas (Inteligencia Artificial: [Russell y Norvig, 1995]). El proceso de estimar una dependencia o estructura desconocida de un sistema usando un nmero limitado de observaciones (Inteligencia Artificial: [Cherkassky y Mulier, 1998]).
Teora
Algoritmos genticos
Analoga
Matemticas
Grupo
Aprendizaje computacional
Redes neuronales
Estadstica
Induccin
Psicologa
Psicologa
[Grammerman, 1996]
Memorizacin de hechos Aprendizaje deductivo Aprendizaje inductivo o a partir de ejemplos Aprendizaje por analoga Aprendizaje basado en explicacin Aprendizaje hbrido
Sistemas de procesamiento simblico Redes neuronales Reconocimiento estadstico de patrones Reconocimiento sintctico de patrones Alg. genticos y programacin evolutiva
SQL: Structured Query Language OLAP: Online Analytical Processing KDD: Knowledge Discovery on Databases
Sistemas expertos
Aprendizaje computacional
Base de datos
Estadstica
Visualizacin
Gamberger D, Smuc Tomislay and Mari Ivan. Data Mining Server. Laboratory Information System Rudjer Boskovic Institute http://dms.irb.hr/tutorial/tut_intro.php. 2001 Edelstein Herbert. Introduction to Data Mining and Knowledge Discovery,Third Edition. Two Cows Corpration. USA. 1999.
Interactivo:
Decisiones
n si fu Di uso y
Conocimiento
Datos iniciales
Pr m sa ce ro ep to ien
in n ac ci gr ila te p In reco y
++ ++ -
da s to
- -
Patrones
Datos seleccionados
Solucin: Crear un almacn de informacin integrada Proveniente de los sistemas de informacin transaccionales (Data Warehouse). DataMart: repositorio parcial de datos orientados a un rea de negocio.
Podemos obtener informacin sobre hechos a diferentes niveles de agregacin de forma sencilla
10
11
Categricos o nominales
Pertenecen a un conjunto finito y preestablecido de categoras
Descriptivos
Exploran las propiedades de los datos examinados
12
Clasificacin
Regresin
Agrupamiento
Tcnicas
Mtodos de induccin de reglas rboles de Decisin K vecinos ms cercanos Razonamiento basado en casos Algoritmos genticos Anlisis de regresin rboles de regresin Redes neuronales K vecinos ms cercanos. Anlisis de Correlacin Anlisis de regresin Reglas de Asociacin Redes Bayesianas Programacin lgica inductiva Algoritmos genticos Tcnicas de Agrupacin Redes neuronales Tcnicas de visualizacin Algoritmos genticos
Prediccin
Anlisis de Dependencia
Segmentacin o Agrupacin
13
Interpretacin y evaluacin
Interpretacin y evaluacin
hold-out
todos los datos conjunto de entrenamiento conj. de test
Interpretacin y evaluacin
14
Interpretacin y evaluacin
Descartamos una parte de los datos (problemtico cuando se dispone de una muestra pequea) Una divisin de los datos poco afortunada puede dar lugar a una mala estimacin de la bondad del modelo
Interpretacin y evaluacin
Tcnicas de evaluacin > Solucin = Mtodos de remuestreo Mtodos que generan subconjuntos (mtodos de validacin cruzada o crossvalidation) Mtodos que generan submuestras (mtodos de bootstrap)
Interpretacin y evaluacin
...........
divisin n
15
Interpretacin y evaluacin
...........
divisin m
Interpretacin y evaluacin
...........
divisin k
Interpretacin y evaluacin
c. validacin
...........
16
Interpretacin y evaluacin
Cobertura (o soporte): n de instancias a las que la regla se aplica y predice correctamente. Confianza: Proporcin de instancias que la regla predice correctamente (cobertura / n de instancias a las que se puede aplicar la regla)
Dependen del mtodo, pero suelen ser funcin de: la cohesin de los grupos: por ej., usar la distancia media de cada miembro al centro del grupo. la separacin entre grupos: por ej., usar la distancia media entre grupos
Segmentacin o Agrupacin
Interpretacin y evaluacin
Otras medidas de evaluacin que tienen en cuenta el contexto donde se va a utilizar el modelo: Matriz de confusin Anlisis ROC (Receiver Operating Characteristic)
Difusin y uso
Uso del modelo: Un analista recomiende acciones basndose en el modelo y en sus resultados. Aplicar el modelo a diferentes conjuntos de datos. Difundir e integrarlo en el conocimiento know-how de la organizacin Medir la evolucin del modelo
17
Sistemas
Producto Knowledge Seeker CART Clementine Data Surveyor GainSmarts Intelligent Miner Microstrategy Polyanalyst Darwin Enterprise Miner SGI MineSet Wizsoft/Wizwhy WEKA Compaa Angoss Salford Systems SPSS/Integral Solutions Limited (ISL) Data Distilleries Urban Science IBM Microstrategy Megaputer Oracle SAS Silicon Graphics Wizsoft gratuito
18