Sie sind auf Seite 1von 72



KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini

Knowledge Discovery in
Database (KDD)
y
Data Mining

- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Ing. Wilfrido Inchaustti


winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Concepto
Descubrimiento de Conocimiento en Base
de Datos (del ingls, KDD Knowledge
Discovery in Database)


"KDD es el proceso no trivial de identificar patrones en los datos,


en forma vlida, novedosa, potencialmente til y entendible"
En donde,

Algoritmos
- rb. de decisin.

Datos: es el conjunto de hechos F.

- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Patrn: es una expresin E en un lenguaje L que describe los


hechos en un subconjunto FE de F. E es denominado patrn si
es ms simple que la enumeracin de todos los hechos en FE.
Ej. Se considera f()=3x+x un patrn y f(x)=x+x un modelo.
-

Proceso: consiste en la preparacin de los datos, bsqueda de


patrones, evaluacin del conocimiento y refinamiento. El proceso
se asume como no trivial, en el sentido de que la bsqueda no
es autnoma.
-

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto

Concepto (cont.)
Vlido: el descubrimiento de patrones debe ser vlido sobre
los datos nuevos bajo un cierto grado de certeza.
-

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos

Novedoso: los patrones deben ser novedosos (al menos para


el sistema). La novedad puede ser medida con respecto a los
cambios en los datos (comparando los valores actuales, con
los anteriores o con los esperados) o en el conocimiento (cmo
un nuevo hallazgo se relaciona con los anteriores).
-

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

til: los patrones deben potencialmente conducir a alguna


accin til.
-

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Entendible: un objetivo del KDD es construir patrones


entendibles para los humanos en orden a facilitar un mejor
entendimiento de los datos.
-

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
Interpretacin/
Evaluacin

- Concepto
- Objetivos
- Tareas
Data Mining

- Tcnicas
- Tareas vs.
Tcnicas

Conocimiento
Transformacin

- Tcnicas vs. Input




Patrones

Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos

Datos

Datos
Transformados

Datos
Seleccionados

Experto

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Proceso interactivo e iterativo que


envuelve varios pasos y con decisiones
a ser tomadas por el usuario
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

Seleccin

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Datos

Datos
Seleccionados

- Definicin, anlisis y entendimiento del


dominio del problema.
- Entendimiento del universo de datos
disponible.
- Seleccin de datos (puede implicar un
nuevo repositorio de datos).
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

- Seleccin de columnas (tambin llamados variables o


atributos) para el anlisis.
- Eliminacin de registros repetidos.
- Operaciones bsicas de eliminacin de rudos en los datos.
- Definicin de estratgias en caso de campos ausentes en
los datos.
- Consideracin de secuencias temporales en los datos.

Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos

Datos

Datos
Seleccionados

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas

- Bsqueda de caractersticas tiles en los datos teniendo en cuenta los objetivos a


los que se enfocan. Ej. convertir una columna fecha del tipo 'dd/mm/yyyy hh24:mi' en
Dia_De_La_Semana, Mes, Hora. Discretizar valores numricos, por ejemplo, edad entre
13-18 es 'menor_de_edad', entre 19-25 es 'nivel_post_secundario', ...

- Tcnicas
- Tareas vs.
Tcnicas

Transformacin

- Tcnicas vs. Input




Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Datos

Datos
Seleccionados

Datos
Transformados

- Bsquedas de
representaciones
categricas para los
datos. Ej. agrupar los
nombres de productos por
categoras en un
supermercado, y no por
nombre real, en fin lo que
interesa es saber si el
cliente consumi paal y
cerveza y no exactamente
la marca para encontrar
una relacin inicial.

- Utilizacin de mtodos de
transformacin con vista a la reduccin
del nmero efectivo de variables en
consideracin. Ej. reducir el valor de tres
columnas en una sola mediante el uso
tcnicas del mximo-mnimo de fuzzy logic.

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
Data Mining

- Tcnicas
- Tareas vs.
Tcnicas

Transformacin

- Tcnicas vs. Input




Patrones

Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Datos

Datos
Seleccionados

Datos
Transformados

- Definicin de los algoritmos utilizados


basados en los objetivos definidos,
tareas y tcnicas embarcadas. Ej.
Prediccin usando tareas de Clasificacin
mediante tcnicas de rboles de Decisin
implementados por algoritmos C4.5 y
CART.Gini.

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
Interpretacin/
Evaluacin

- Concepto
- Objetivos
- Tareas
Data Mining

- Tcnicas
- Tareas vs.
Tcnicas

Conocimiento
Transformacin

- Tcnicas vs. Input




Patrones

Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Datos

Datos
Seleccionados

Datos
Transformados

-Interpretacin

y validacin del modelo


generado con un posible regreso a una de las
fases anteriores.
- Consolidacin del conocimiento descubierto
(Aplicacin del modelo). Ej. Incorporacin de los
patrones considerados conocimientos en el
sistema o elaboracin de reportes para las partes
interesadas.
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Proceso del KDD - [Fayyad et al.]

- Proceso


Data Mining
Interpretacin/
Evaluacin

- Concepto
- Objetivos
- Tareas
Data Mining

- Tcnicas
- Tareas vs.
Tcnicas

Conocimiento
Transformacin

- Tcnicas vs. Input




Patrones

Algoritmos
Preprocesamiento

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

...

Seleccin

Datos
Preprocesados

- Alg. Apriori


Tcnicas de
validacin de
Modelos

Datos

Datos
Transformados

Datos
Seleccionados

Experto

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Proceso interactivo e iterativo que


envuelve varios pasos y con decisiones
a ser tomadas por el usuario
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

Minera de Datos (del ingls, Data


Mining)
"Data Mining es un paso en el proceso del
KDD consistiendo de algoritmos particulares
que, bajo algunas limitaciones aceptables de
eficiencia
computacional,
produce
una
enumeracin particular de patrones Ej sobre F
De manera mas informal, es la bsqueda de
patrones de comportamientos y relaciones
entre los datos mediante el uso de tcnicas y
algoritmos especializados.

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining

Esfuerzo requerido por cada fase del


proceso del KDD

- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD

Agentes del KDD

- Concepto
- Proceso


Data Mining

Experto: es quien
conoce las
necesidades y
dificultades del
negocio y es quien
plantea el problema
basado en los
usuarios.

Analista: es quien
ejecuta todo el
proceso KDD y que
por ende debe tener
muy en claro todos
los pasos que ello
implica.

Usuario: quien no
necesita poseer
mucho conocimiento
pero es el que
despus de
terminado el proceso
utilizar el
conocimiento
extrado.

- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Roles en el KDD

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Metodologa CRISP-DM

- Proceso

http://www.crisp-dm.org/

Data Mining
- Concepto
- Objetivos
- Tareas

Mtodo standard que ha sido desarrollado para ayudar en la realizacin de


proyectos de DM. Fue creado por un consorcio de compaas, principalmente en
Europa, y se llam Cross-Industry Standard Process for Data Mining, o CRISPDM.

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Metodologa SEMMA

- Proceso

http://www.sas.com/technologies/analytics/datamining/miner/semma.html

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing

SAS Institute desarrollador de esta metodologa, la define como el


proceso de seleccin, exploracin y modelado de grandes cantidades
de datos para descubrir patrones de negocio desconocidos. El nombre
de esta terminologa es el acrnimo correspondiente a las cinco fases
bsicas del proceso.
Muestreo
(Sample)

Exploracin
(Explore)

Manipulacin
(Modify)

Modelado
(Model)

Valoracin
(Assess)

La metodologa SEMMA se centra ms en las caractersticas tcnicas


del desarrollo del proceso, mientras que la metodologa CRISP-DM,
mantiene una perspectiva ms amplia respecto a los objetivos
empresariales del proyecto. Esta diferencia se establece ya desde la
primera fase del proyecto de Data Mining donde la metodologa
SEMMA comienza realizando un muestreo de datos, mientras que la
metodologa CRISP-DM comienza realizando un anlisis del problema
empresarial para su transformacin en un problema tcnico

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

CRISP-DM vs. SEMMA

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas

La metodologa SEMMA slo es abierta en sus aspectos generales ya que est


muy ligada a los productos SAS donde se encuentra implementada. Por su parte
la metodologa CRISP-DM ha sido diseada como una metodologa neutra
respecto a la herramienta que se utilice para el desarrollo del proyecto de Data
Mining siendo su distribucin libre y gratuita.

- Tcnicas
- Tareas vs.
Tcnicas

SEMMA

- Tcnicas vs. Input




Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Muestreo
(Sample)
Exploracin
(Explore)

CRISP-DM
Anlisis
Problema
Anlisis
Datos

Manipulacin
(Modify)

Preparacin
Datos

Modelado
(Model)

Modelado

Valoracin
(Assess)

Evaluacin

Explotacin
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining

Objetivos del Data Mining


Los dos principales objetivos del Data Mining, en la prctica son:

- Concepto
- Objetivos
- Tareas

La Prediccin (Directed data mining): consiste en utilizar


algunas variables o campos de la Base de Datos para
predecir valores desconocidos o futuros de otras variables de
inters. Un modelo predictivo responde preguntas sobre
datos futuros. Ej. Cules sern las ventas el ao prximo?,
Es esta transaccin fraudulenta?, Qu tipo de seguro es
ms probable que contrate el cliente X?, Qu tipo de cliente
tender a abandonar el negocio?

La Descripcin (Undirected data mining): se centra en


encontrar patrones interpretables por el ser humano, a partir
de la descripcin de los datos. Un modelo descriptivo
proporciona informacin sobre las relaciones entre los datos
y sus caractersticas. Ej. a) Los clientes que compran
paales suelen comprar cerveza. b) El tabaco y el alcohol
son los factores ms importantes en la enfermedad Y. c) Los
clientes sin televisin y con bicicleta tienen caractersticas
muy diferenciadas del resto.

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tareas del Data Mining (I)

- Proceso


Data Mining
- Concepto

Los objetivos de la Prediccin y de la Descripcin son


alcanzados por el uso de un conjunto de tareas:

- Objetivos
- Tareas
- Tcnicas

Modelo de Dependencias (o Asociacin): consiste en


encontrar un modelo el cual describa las dependencias
significantes entre las variables. De otra manera, dado un
conjunto de datos, identificar las relaciones entre atributos,
de forma tal a identificar que la ocurrencia de cierto/s
patrn/es implica la ocurrencia de otro/s. Ej.: el 70% de los
clientes que consumen el producto A y B, tambin consumen
el producto C, D y E.

Clasificacin: se trata de obtener un modelo que permita


asignar un caso de clase desconocida a una clase concreta,
dicho de otra manera, se puede ver como el esclarecimiento
de una dependencia, en la que el atributo dependiente puede
tomar un valor entre varias clases, ya conocidas. Ej.: se sabe
(por un estudio de dependencias) que los atributos edad,
grado de miopas y astigmatismo han determinado los
pacientes para los que su operacin de ciruga ocular ha sido
satisfactoria. Podemos intentar determinar las reglas exactas
que clasifican un caso como positivo o negativo a partir de
esos atributos.

- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tareas del Data Mining (II)

- Proceso


Data Mining
- Concepto
- Objetivos

Agrupamiento (Clustering) o Segmentacin: divide a los


datos en diferentes grupos, el objetivo es encontrar una
agrupacin de datos de forma que los datos de un mismo
grupo sean muy similares y muy diferentes entre grupos
distintos. Se diferencia de la clasificacin en el que no se
conocen ni las clases ni su nmero (aprendizaje no
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.

Tendencias / Regresin: consiste en adquirir una funcin


que mapee un elemento de dato a una variable de prediccin
de valor real. Dicho de otro modo, se persigue la obtencin
de un modelo que permita predecir el valor numrico de
alguna variable. Ej. se intenta predecir el nmero de clientes,
los ingresos, llamadas, ganancias, costes, etc. a partir de los
resultados de semanas, meses o aos anteriores.

Visualizacin: consiste en generar modelos visuales que


permitan al usuario sacar meta-conocimientos de los
mismos. Ej. Mapas de temperaturas. Se divide en dos:
Visualizacin Previa (se utiliza para entender mejor los datos
y sugerir posibles patrones) y Visualizacin Posterior (se
utiliza para mostrar los patrones y entenderlos mejor).

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (I)

- Proceso


Data Mining
- Concepto

Las tcnicas ms comnmente usadas en Data Mining para cumplir con


algunas de las tareas ya descritas son:

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas

Redes neuronales artificiales: modelos predecibles no-lineales que


aprenden a travs del entrenamiento y semejan la estructura de una
red neuronal biolgica. Con frecuencia son usadas bajo tareas de
Clasificacin.
0.4

- Tcnicas vs. Input




Valores aj

Algoritmos
0.3

- rb. de decisin.
- J48 (C4.5)
- CART-Gini

- Comparaciones

Atributo
Valnor

Valor

- Alg. Apriori

Edad
No. Rec.
Repar
Clima
Cochera
Terreno
Construc.
Sector3

20
3
2
D
2
400
350

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

0.8234

0.15

0.79612
0.4
0.3
0.15
0.25
0.33
0.4
0.35

0.25

-0.24

0.71315

0.33
0.937

0.4

0.65

0.5824

$2,255,000

0.6136
1.23

0.35

0.65

-1.325

Pesos Wij
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (II)

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas

rboles de decisin: estructuras de forma de rbol que representan


conjuntos de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. Mtodos especficos de
rboles de decisin incluyen rboles de Clasificacin y Regresin.

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (II)

- Proceso


Data Mining
- Concepto

Regresin Lineal: consiste en dado un conjunto de puntos


encontrar una funcin lineal que aproxime los puntos.

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


f(x)

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (IV)

- Proceso


Data Mining
- Concepto
- Objetivos

Mtodo del vecino ms cercano: una tcnica que clasifica cada


registro en un conjunto de datos basado en una combinacin de las
clases del/de los k registro(s) ms similar/es.

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas

X2

Cluster 1
Cluster 3

- Tcnicas vs. Input




Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Cluster 2
X1
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (V)

- Proceso


Data Mining
- Concepto
- Objetivos

Regla de induccin: la extraccin de reglas if-then. La induccin de


reglas se refiere a la deteccin de tendencias de grupos de datos, o
"reglas" sobre los datos.

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

IF outlook = overcast
THEN play = yes (4.0)

Tcnicas de
validacin de
Modelos
- Training vs.
Testing

IF windy = TRUE AND


outlook = rainy
THEN play = no (2.0)
IF outlook = sunny AND
humidity > 75
THEN play = no (3.0)

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (VI)

- Proceso


Data Mining
- Concepto
- Objetivos

Visualizacin mediante mapas temticos SOM (Self-Organizing


Maps): sta tcnica hace uso de algoritmos de generacin de mapas
tipo SOM para descubrir tendencias y patrones de datos.

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Si el plan de mensaje es 700 (Plan De


Mensajes Pospago), el plan gprs es 729
(Plan Pospago Gprs Basico), la
antigedad por encima de los 42 meses,
la edad por encima de los 30 aos,
entonces el consumo promedio es de
entre los 100 y 500 mil Gs. y en algunos
casos cerca y por encima del milln de
Gs.
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas de Data Mining (VII)

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas

Visualizacin mediante grficos de dimensin: sta tcnica se


basa en la graficacin n-dimensional de todas las variables en
cuestin. N = a la cantidad de variables tratadas. El ms simple es
N=2, grficos de dos dimensiones.

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining

Objetivos, Tareas, Tcnicas y


Algoritmos

- Concepto
- Objetivos

Objetivos

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas

Prediccin
- Descripcin
-

Tareas
Clasificacin
- Regresin
- Agrupamiento
- Asociacin
- Visualizacin
-

Tcnicas
rbol de Decisin
- Reglas de
Induccin
- Redes Neuronales
- Algoritmos
Genticos
- Visualizacin
- Redes Bayesianas
- Mtodos del vecino
ms cercano
- Competitive
learning.
- Perceptron
Learning.
-Multilayer ANN
methods
-

Algoritmos
J48
- A priori
- PART
- CART.Gini
- k-NN
- k-means
- ID3
- C4.5
- CN2
- ILP
- SCIL
- Backpropagation
- OneR
- M5Rules
- ADTree
- Decision Stump
- NBTree
- EM
-

- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Eleccin de Tareas [Weiss & Indurkhya]

- Proceso


Data Mining
Objetivo del
Data Mining

- Concepto
- Objetivos
- Tareas

Prediccin
(Realizando decisiones)

Descripcin
(Soporte de decisin)

- Tcnicas
- Tareas vs.
Tcnicas

Mapeo de los
valores
categorizados o
reales predefinidos

- Tcnicas vs. Input




Mapeo de las
clases
categorizadas
indefinidas

Algoritmos
- rb. de decisin.

Categorizados

- J48 (C4.5)
- CART-Gini
- Comparaciones

Clasificacin

Real

Regresin

No
Si

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Resumen de
datos

Clustering
Si

No

Sumarizacin
Si

Describe la
dependencia a
lo largo de las
variables

No

- Medidas
- Tipos de
Herramientas

Modelo de
dependencia

Otras
tareas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tareas vs. Tcnicas [Moustakis et al.]

- Proceso


Data Mining
- Concepto

Tcnicas:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos
A6: Programacin lgica inductiva

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

Tareas:
C1: Clasificacin
C2: Resolucin de Problemas
C3: Ingeniera del conocimiento
C3: Ingeniera del conocimiento

- Alg. Apriori


Tcnicas de
validacin de
Modelos

A6

- Training vs.
Testing

A3

- Medidas

A2

- Tipos de
Herramientas

A1
A4

C1: Clasificacin

A5

C2: Resolucin de
problemas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas vs. Input [Adriaans et al.]

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Grupos:
D1={F1, F2, F3, F4}: Caractersticas del Input.
D2={F5, F6, F7}: Caractersticas del Input.
D3={F8, F9}: Eficiencia para aprender.
D4={F10, F11}: Eficiencia para aplicar el modelo.

Algoritmos:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos

Caractersticas:
F1: Habilidad
para manejar
gran nmero de
registros
F2: Habilidad
para manejar
gran nmero de
atributos
F3: Habilidad
para manejar
atributos
numricos
F4: Habilidad
para manejar
cadenas

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Tcnicas vs. Eficiencia [Adriaans et al.]

- Proceso


Data Mining

F5: Habilidad para


aprender reglas
transparentes
F6: Habilidad para
aprender
incrementalmente
F7: Habilidad para
estimar significancia
estadstica

- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

F8: Uso de espacio en


Disco/Memoria durante
la fase de aprendizaje
F9: Uso de tiempo de
CPU durante la fase de
aprendizaje
F10: Uso de espacio en
Disco/Memoria durante
la fase de aplicacin
F11: Uso de tiempo de
CPU durante la fase de
aplicacin
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos

Conjunto de ejemplos para una tarea


de Clasificacin
Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
atributos, tal como se muestra en la figura, se define una linea i
como el i-simo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-simo (j= 1, 2, ...,m) atributo Xj del ejemplo i. As, los
ejemplos son pares Ti= (xi1, xi2, ..., xim, yi) = (xi, yi), y el conjunto
de ejemplos est definido como (X, Y), donde la ltima columna, Y,
es un atributo especial, denominado clase (o atributo objetivo), el
cual se desea predecir en base a los otros X atributos, o sea,
Y=f(X).

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)

Algoritmos basados en Tcnicas de rbol de


Decisin
Formalmente un rbol de decisin es un grafo acclico dirigido en
el cual cada nodo es un nodo de decisin con dos o mas
sucesores, o un nodo hoja. El nodo de decisin contiene una
pregunta sobre un atributo concreto (con un hijo por cada posible
respuesta) y, el nodo hoja se refiere a una decisin y es etiquetado
con una clase.
Las diferencias principales entre los distintos algoritmos de
construccin de rboles de decisin radican en las estrategias de
poda y en la regla adoptada para particionar nodos.

- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Reglas adoptadas para particionar nodos

J48.J48 y J48.Part
- Entropa: Dado una distribucin de probabilidad P = (p1, p2, ...,
pn), se define la Entropa de P como la informacin que conlleva a
dicha distribucin, tal que:
I(P) = -(p1*log2(p1) + p2*log2(p2) + + pn*log2(pn))
- Info(T): Si un conjunto T de registros es particionado en un
conjunto disjunto de clases C1, C2, ..., Ck sobre la base de los
valores del atributo objetivo, entonces la informacin necesitada
para identificar las clases de un elemento de T es Info(T) = I(P),
donde P es la distribucin de probabilidad de las particiones (C1,
C2, ..., Ck):
P = (|C1|/|T|, |C2|/|T|, ..., |Cn|/|T| )
- Info(X, T): Si primeramente se particiona T en base a los valores
de los atributos no objetivos X en conjuntos T1, T2, ..., Tn entonces
la informacin necesitada para identificar la clase de un elemento
de T est definida como el promedio de la informacin necesitada
para identificar las clases de un elemento Ti:
Info(X, T) = i=1..n (|Ti| / |T|) * Info(Ti)
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)

Reglas adoptadas para particionar nodos

J48.J48 y J48.Part
Dado un conjunto de ejemplo sobre un juego de golf, con cuatro
atributos no objetivos (X1, X2, X3, X4) y una clase (Y) definida.
Info(T) = I(P) = I(p1, p2) = I(|C1|/|T|, |C2|/|T|) = I(9/14, 5/14) =
= - ((9/14)*log2(9/14) + (5/14)*log2(5/14)) = 0.94
Info(perspectiva, T) = 5/14*I(2/5, 3/5) + 4/14*I(4/4, 0) +
+ 5/14*I(3/5, 2/5) = 0.694

- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

Reglas adoptadas para particionar nodos

J48.J48 y J48.Part
- Ganancia: La ganancia est definida como la diferencia entre la
informacin necesitada para identificar un elemento de T y la
informacin necesitada para identificar un elemento de T despus de
la obtencin del valor del atributo X:
Gain(X,T) = Info(T) Info(X, T)
Por ejemplo,
Gain(perspectiva,T) = Info(T) Info(perspectiva, T) =
= 0.94 0.694 = 0.246
Gain(viento,T) = Info(T) Info(viento, T) =
= 0.94 - 0.892 = 0.048

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Reglas adoptadas para particionar nodos

J48.J48 y J48.Part
- Radio de Ganancia: La nocin de ganancia introduce tendencias
primitivas a favor de los atributos que tiene un gran nmero de
valores. Para compensar esto, el J48 hace uso de la definicin de
radio de ganancia, tal que:
GainRatio(D, T) = Gain(D,T) / SplitInfo(D, T)
donde la funcin SplitInfo(D, T) es la informacin necesaria para
dividir el conjunto T sobre la base del valor del atributo objetivo D.
As, SplitInfo(D, T) es:
I(|T1|/|T|, |T2|/|T|, ..., |Tm|/|T| )
donde {T1, T2, ..., Tm} es la particin de T inducida por el valor de D.
Por ejemplo,
GainRatio(perspectiva,T) = 0.246 / I(5/14, 4/14, 5/14) =
= 0.246 / 1.577 = 0.156
GainRatio(viento,T) = 0.048 / I(6/14, 8/14) =
= 0.048 / 0.985 = 0.049

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas

Reglas adoptadas para particionar nodos

CART-Gini
- Impureza: Se basa en una funcin para medir la impureza del nodo/s
del rbol generado, definida como:
i(t) = 1 - i=1..n (pi)2
donde pi es la probabilidad de ocurrencia de una clase dada. Cuando
un atributo es examinado, la impureza promedio del nodo/s
descendiente implicado es sustrado de la funcin i(t) y el atributo
que resulta de entre las impurezas mnimas es seleccionado.
Por ejemplo,
i(perspectiva = nublado) = 1 (4/4)2 = 0 (mnima impureza)
i(perspectiva != nublado) = 1 [(5/10)2 + (5/10)2)] = 0.5
i(perspectiva = lluvioso) = 1 [(2/5)2 + (3/5)2)] = 0.48
i(perspectiva = soleado) = 1 [(3/5)2 + (2/5)2)] = 0.48
i(temperatura > 73) = 1 [(2/6)2 + (4/6)2)] = 0.44
i(viento = no) = 1 [(2/8)2 + (6/8)2)] = 0.375

- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Resumen
J48

CART-Gini

- rboles de decisin binarios y


no binarios.

- rboles de decisin binarios.

- Utiliza una estrategia de poda


basada en el criterio de cun
informativo es un nodo.

- Utiliza una estrategia de poda


basada en el criterio de costecomplejidad.

- Basado en la definicin de
Radio de Ganancia para la
particin de los nodos.

- Basado en la definicin de la
funcin Inpureza para la
particin de los nodos.

- Trabaja con variables


continuas (enteros o reales) y
discretas (cadenas).

- Trabaja con variables


continuas (enteros o reales) y
discretas (cadenas).

- La clase debe ser una


variable discreta (cadena).

- La clase debe ser una


variable continua con valores
enteros.

- Criterio de parada basado en


el concepto de
representatividad.

- Criterio de parada basado en


el concepto de homogeneidad
o representatividad.
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Clasificacin

- Proceso


Data Mining

- Concepto

Otros algoritmos de rbol de Decisin y Reglas de


Induccin.

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)

OneR
Algoritmo de clasificacin que genera un rbol de decisin de un
nico nivel.
 Capaz de inferir reglas de clasificacin a partir de un conjunto de
instancias.
 Crea una regla para cada atributo en los datos de entrenamiento,
luego escoge la regla con la tasa de error[1] ms pequeo como su
"one rule". Para crear una regla para cada atributo debe
determinarse la clase ms frecuente para cada valor del atributo.


- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

[1] La tasa de error de una regla es el nmero de instancias de los datos


de entrenamiento en los que la clase del valor de un atributo no
concuerda con la asociacin que la regla le da al valor de ese
atributo.

DECISION STUMP
Consiste en la creacin de un rbol binario de profundidad la unidad.
Toda instancia inclasificable quedar colgada de una nueva rama
que se une al nodo raz.
 Parece obvio predecir que los errores que se cometern a la hora de
clasificar los datos sern elevados.




2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas

Conjunto de ejemplos para una tarea


de Asociacin o Agrupacin
Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
atributos, tal como se muestra en la figura, se define una linea i
como el i-simo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-simo (j= 1, 2, ...,m) atributo Xj del ejemplo i. As, los
ejemplos se definen como Ti= (xi1, xi2, ..., xim) = (xi).

- Tcnicas vs. Input




Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Asociacin

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.

A priori [Agrawal]
1) Identificacin de los conjuntos frecuentes (de tems) con
suporte >= MinSup
2) Construccin de reglas a partir de esos conjuntos con
confianza >= MinConf.
Conjuntos frecuentes (Large itemsets)
Todos los subconjuntos de cada transaccin son candidatos (en
el peor de los casos )

- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Asociacin

- Proceso


Data Mining
- Concepto

A priori [Agrawal]

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Asociacin

- Proceso


Data Mining
- Concepto

A priori [Agrawal]

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Asociacin

- Proceso


Data Mining
- Concepto

A priori [Agrawal]

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Asociacin

- Proceso


Data Mining

A priori [Agrawal]

- Concepto
- Objetivos
- Tareas

Conjuntos Frecuentes (Sup >= 0.4)

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini

Reglas (Conf >= 0.8)

- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini

1.) Determinar el nmero de clusters (claases) k


2.) Seleccionar k centroides iniciales
3.) Determinar las fronteras de cada cluster
4.) Asignar cada registro al cluster cuyo
centroide est ms cercano a ese registro
5.) Repetir los pasos 3 y 4 hasta que las fronteras de
los clusters no cambien significativamente

- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

X1
Datos iniciales. Nmero de clusters posibles K=3
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos

centroide 1

centroide 3

- rb. de decisin.
- J48 (C4.5)

centroide 2

- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

X1
Centroides iniciales, uno por cada cluster
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

Cluster 1
Cluster 3

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos

centroide 1

centroide 3

- rb. de decisin.
- J48 (C4.5)

centroide 2

- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Cluster 2

- Medidas
- Tipos de
Herramientas

X1
Asignar cada registro al centroide ms cercano
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

X1
Calcular las fronteras de cada cluster: trazar una recta entre
cada par de centroides y trazar una perpendicular a la recta
equidistance de ambos centroides

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

X1
Calcular las fronteras de cada cluster
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

Cluster 1

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Cluster 2
Cluster 2

- Medidas
- Tipos de
Herramientas

X1
Fronteras de los clusters
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

Cluster 1

Cluster 3

- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Cluster 2

- Medidas
- Tipos de
Herramientas

X1
Asignar cada registros a clusters . El registro R cambi
del cluster 2 al cluster 1
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

Cluster 1

- Tcnicas

Cluster 3

- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Cluster 2

- Medidas
- Tipos de
Herramientas

X1
Recalcular los centroides: promedio
en cada eje x1, x2
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Algoritmos utilizados - Agrupacin

- Proceso


Data Mining

Kmeans [J.B. MacQueen, 1967]

- Concepto
- Objetivos
- Tareas

X2

Cluster 1

- Tcnicas

Cluster 3

- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones

- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Cluster 2

- Medidas
- Tipos de
Herramientas

X1
Recalcular las fronteras de los clusters
El registro R est ahora en el cluster 2
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas

Tcnicas de Entrenamientos y
Evaluacin.



- Tareas vs.
Tcnicas

- Tcnicas vs. Input

Igual conjunto de entrenamiento y prueba.


Dividir el conjunto (en un porcentaje definido) para
entrenamiento y para prueba.
Diferentes conjuntos para entrenamiento y prueba.
Usar Validaciones Cruzadas. Uso de los Folds.

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

Validaciones de Modelos y Patrones






- Training vs.
Testing

- Medidas

- Tipos de
Herramientas

Validaciones Estadsticas.
Validaciones mediante el uso de SQL.
Matriz de Clasificacin o de Confusin y Medidas de
Validacin.
Lift Chart
ROC Chart
Validaciones de Reglas mediante Medidas de la Literatura.
Uso de Matriz de Contingencia.
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining

Matriz de Confusin o de
Clasificacin

- Concepto
- Objetivos
- Tareas
- Tcnicas

Dado un conjunto de reglas R y un conjunto de ejemplos T=(X,Y), la


matriz de confusin o de clasificacin define cuntos ejemplos Ti
T clasifican para una clase dada Ci por intermedio del conjunto R.

- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing

Donde Ci representa a los elementos de la primera columna y Cj a


los de la primera fila, teniendo que Ci y Cj pertenecen al conjunto de
clases de tamao z. Nij representa la cantidad de ejemplos en T,
con clase definida Ci, y que clasifican como Cj.

- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining

Matriz de Confusin o de
Clasificacin (Cont.)

- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos

Otra manera de ver la Matriz de Confusin es la mostrada en el


grfico ms abajo. En ella se definen cuatro valores o categoras en
la matriz. TP: True Positive (son para la clase estudiada los valores
que son predichos en forma correcta). FN: False Negative (valores
de la clase estudiada que clasifican hacia otra clase). FP: False
Positive (valores de otras clases que clasifican por la clase
estudiada). TN: True Negative (valores de otras clases que clasifican
para sus respectivas clases)

- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Medidas de validacin de Modelos

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Sensibilidad o TPR (True Positive Rate) o Recall (1): Esta medida est definida por el
cociente entre el nmero de ejemplos que clasifican correctamente para una clase y el
nmero total de ejemplos para la clase estudiada. Dicho de otra manera es la proporcin
de elementos que estn clasificados dentro de la clase Ci, de entre todos los elementos
que realmente son de la clase Ci. En la matriz de confusin es el elemento diagonal
dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades
pertinentes para cada ejemplo de clase tienda a 1, la matriz de Confusin tender a ser
una matriz diagonal.
TP Rate = TP / (TP + FN)
TP Rate (C1) = N11 / (N11 + N12 + + N1z)
TP Rate (C2) = N22 / (N21 + N22 + + N2z)

TP Rate (Cz) = Nzz / (Nz1 + Nz2 + + Nzz)


False Positive Rate (2): Es la proporcin de ejemplos que han sido clasificados dentro de la
clase Ci, pero pertenecen a una clase diferente. En la matriz de confusin es la suma de
la columna de la clase Ci menos el elemento diagonal dividido la suma de las filas del
resto de las clases.
FP Rate = FP / (FP + TN)
FP Rate (C1) = (N21 + N31 + + Nz1) /
[(N21 + + N2z ) + (N31 + + N3z ) + + (Nz1 + + Nzz )]
Precisin (3): Proporcin de ejemplos que realmente tienen clase Ci de entre todos los
elementos que se han clasificado dentro de la clase Ci. En la matriz de confusin es el
elemento diagonal dividido por la suma de la columna en la que estamos.
Prec (Modelo) = (N11 + N22 + + Nzz) / Total_de_ejemplos
Prec (C1) = N11 / (N11 + N21 + + Nz1)
Prec (C2) = N22 / (N12 + N22 + + Nz2)

Prec (Cz) = Nzz / (N1z + N2z + + Nzz)


2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Medidas de validacin de Modelos

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

False Negative Rate (4): es la proporcin de elementos que no clasifican para la clase Ci, de
entre todos los elementos que realmente son de la clase Ci. En la matriz de confusin es
la suma de todos los elementos de la fila excluyndole a la diagonal dividido por la suma
de todos los elementos de la fila.
FN Rate = 1 TPR = 1 [TP / (TP + FN)] = FN / (FN + TP)
FN Rate (C1) = [(N11 + + N1z) - N11] / (N11 + N12 + + N1z)
FN Rate (C2) = [(N21 + + N2z) - N22] / (N21 + N22 + + N2z)

FN Rate (Cz) = [(Nz1 + + Nzz) - Nzz] / (Nz1 + Nz2 + + Nzz)


True Negative Rate o Especificidad (5): Es la proporcin de ejemplos que han sido
clasificados dentro de las otras clases diferente a la clase Ci. En la matriz de confusin es
la suma de las diagonales menos el elemento de la clase Ci dividido la suma de las filas
del resto de las clases.
TN Rate = 1 FPR = 1 [FP / (FP + TN)] = TN / (TN + FP)
FP Rate (C1) = (N22 + N33 + + Nzz) /
[(N21 + + N2z ) + (N31 + + N3z ) + + (Nz1 + + Nzz )]
F-Measure (6): Es una medida que combina la Precisin con el Recall o TPR para la clase Ci.
F-Measure = (2 * Precisin * Recall) / (Precisin + Recall)

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Lift Chart (ver Excel)

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

ROC Chart (ver Excel)

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Matriz de Contingencia

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas

Dado una regla R: B H, y un ejemplo Ti = (xi, yi) con sus


respectivas clases yi, se puede aplicar la regla al ejemplo y
comparar el resultado previsto en H con la verdadera clase yi del
ejemplo. De dicha comparacin surge la matriz denominada
contingencia.

- Tcnicas vs. Input




Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Medidas de validacin de reglas

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

Precisin o Confianza (1): La precisin (consistencia o confidencia) es una medida de cuanto


una regla es especfica para el problema. La precisin puede ser definida como la
probabilidad condicional de H de ser verdadero dado que B es verdadero. Cuanto mayor,
ms precisamente una regla cubre la clase en cuestin.
Acc(R) = P(H\B) = P(HB)/ P(B) = fhb/fb
Error (2): El error de una regla es definido como 1 Acc( R ). Cuanto mayor es el error, con
menos precisin la regla cubre la clase en cuestin.
Err ( R ) = 1 Acc(r) = P(H\B) = fhb/fb
Confianza Negativa (3): Es lo correspondiente a precisin, pero para los ejemplos que no son
cubiertos por la regla. Es definida como la probabilidad condicional de H de ser falso dado
que B tambin es falso.
NegRel ( R ) = P (H\B) = P (HB)/P(B) = fhb/fb
Sensibilidad o TPR (True Positive Rate) (4): Sensibilidad es una medida de nmero (relativo)
de ejemplos de la clase prevista en H cubierto por la regla. Es definida como la
probabilidad condicional de B de ser verdadero dado que H es verdadero. Cuanto mayor
es la sensibilidad, mas ejemplos son cubiertos por la regla.
Sens ( R ) = P (B\H) = P(HB)/P(H) = fhb / fh = fhb / (fhb + fh b)
Especificidad o TNR (True Negative Rate) (5): es lo correspondiente a la completitud, pero
para los ejemplos que no son cubiertos por la regla. R. Es definida como la probabilidad
condicional de B de ser falso dado que H es falso.
Spec ( R ) = P (B\H) = P (HB)/P(H) =
fhb / fh = f hb / (f hb + f hb)

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas

Medidas de validacin de reglas


Cobertura o Representatividad (6): es una medida de nmero (relativo) de ejemplos cubiertos
por la regla R. Es definida como la probabilidad de B de ser verdadero. Cuanto mayor sea
la cobertura, mayor ser el nmero de ejemplos cubiertos por la relga R.
Cov ( R ) = P(B) = fb
Soporte (7): Soporte (frecuencia) es una medida de nmero (relativo) de ejemplos cubiertos
correctamente por la regla R. Es definido como la probabilidad de que H y B sean
verdaderos. Cuanto mayor es el soporte, es mayor el nmero de ejemplos de la clase en
cuestin que son cubiertos por la regla R.
Sup ( R ) = P(HB) = fhb
Novedad o Leverage o Rule Interest (8): puede ser definida como si la probabilidad de que B
y H ocurriesen juntos no puede ser inferidad por las probabilidades de B y H aisladamente,
esto es, B y H no son estadsticamente independientes. La medida de la novedad es
obtenida comparando el valor esperado P(HB) con los valores de P(H) y P(B). Cuanto ms
el valor esperado difiere de lo observado, mayor es la probabilidad que exista una
correlacin verdadera e inesperada entre B y H. Puede ser demostrado que 0,25 <
Nov(R) < 0,25, y cuanto mayor un valor positivo (ms proximo de 0,25), ms fuerte es la
asociacin entre B y H en cuanto que, cuanto mayor un valor negativo (ms prximo
0,25), ms fuerte es la asociacin entre B y H.
Nov ( R ) = P(HB) P(H) P(B) = fhb fh fb
Satisfaccin (9): Satisfaccin es el aumento relativo en la precisin entre la regla B
verdadero y la regla BH.
Sat ( R ) = [P(H) P(H\B)] / P(H) = [fh fhb/fb] / fh

- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Medidas de validacin de reglas

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

Precisin Relativa (10): La precisin relativa de una regla mide el grado de precisin obtenido
en relacin a la precisin de una regla padrn verdadero H, o sea, que valida B como
verdadero para todos los ejemplos. En ese caso, una regla slo interesa si mejora la
precisin de la regla padrn.
RAcc ( R ) = P(H\B) P(H) = fhb/fb fh
Confianza Negativa Relativa (11): Es lo anlogo a precisin relativa para los ejemplos que no
son cubiertos por la regla. En ese caso, la regla padrn es falso H.
RnegRel ( R ) = P(H\B) P(H) = fhb/fb fh
Sensibilidad Relativa (12): La sensibilidad relativa mide el grado de sensibilidad obtenido en
relacin a la sensibilidad de una regla padrn B verdadero, o sea, una regla que valida H
como verdadero para todos los ejemplos.
RSens ( R ) = P(B\H) P(B) = fhb/fh fb
Especificidad Relativa (13): Es lo anlogo a sensibilidad relativa para los ejemplos que no son
cubiertos por la regla. En ese caso, la regla padrn es B falso.
RSpec ( R ) = P(B\H) P(B) = fhb/fh fb

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Medidas de validacin de reglas

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)

Lift o Interest (14): Mide la mejora alcanzada por un modelo predictivo. Suele emplearse como
una medida para comparar diferentes modelos de Data Mining. Por definicin es el
cociente entre la Precisin y la Cobertura. Cuando tienda a 1 el inters ser mnimo, o sea
B y H son independientes. Si es mayor a 1, entonces B y H son positivamente
dependientes. Si es menor a 1, son negativamente dependientes. Esta medida varia entre
0 e infinito. Cuanto mayor sea el valor obtenido, mas interesante es la regla, pues B
aumenta H en una mejor categora.
Lift ( R ) = P(HB) / P(H) P(B) = fhb / fh fb
Conviction (15): Esta medida es dada por la inversa del Lift(B H). Indica la independencia
cuando es igual a 1. Reglas donde B nunca aparece sin H (Confianza del 100%) tendrn
un valor de conviccin tendiendo a infinito.
Conv ( R ) = 1 / [P(HB) / P(H) P(B)] = P(H) P(B) / P(HB) = f h fb / f hb

- CART-Gini
- Comparaciones
- Alg. Apriori


Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Definiciones

- Proceso


Data Mining
- Concepto

Se refiere a una regla extrada de un rbol de decisin y


generalmente ser representada en la forma:
R: Si <condicin> entonces <clase = Ci >
donde <condicin> toma valores entre los atributos o variables X de
la muestra, y Ci es uno de los posibles valores para la clase. De
manera simple R: B H, donde B es <condicin> y H es
<clase = Ci>

- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Regla

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas

Meta Reglas
Entindase por Meta Regla como la generalizacin de un conjunto
de reglas a partir de ciertos criterios de base. Formalmente, se
define una meta regla como una expresin RE en un lenguaje L, tal
que RE {Ei, Ei+1, ..., En, i definiendo un patrn y n > 1} y que RE
sea vlida para un subconjunto del conjunto de hechos F. Por
ejemplo, si se tienen n reglas Ei (i de 1 a n) que expresan
Si (x > 3) y .... y ( ... ), entonces f = 23,
entonces una posible meta regla RE de las n reglas es
Si (x > 3), entonces f = 23.

- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto

Definiciones

- Proceso


Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos

Representatividad de una regla


Se entiende por representatividad de las reglas (tambin
denominado participacin) como la cantidad de registros de
la muestra de datos que cumplen con una regla concreta.
Por ejemplo, dada una regla L expresada como sigue
Si (x > 3) y (z > 5), entonces f = 23,
y un conjunto de ejemplos de datos T conteniendo un total
de n registros con los valores de (x, z, f), y un sub-conjunto
Ti T con un total de m n registros; entonces la regla L
tiene una representatividad = m, si y solamente si los m
registros de Ti cumplen correctamente con la regla L.

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
- Concepto
- Proceso

Data Mining
- Concepto
- Objetivos

Clasificacin de las Herramientas de


KDD & Data Mining


Standalone: Los datos se deben exportar/convertir al


formato interno del sistema de data mining:
Knowledge Seeker IV (Angoss International Limited,
Groupe Bull, WEKA, Viscovery SOMine, ).

On-top: pueden funcionar sobre un sistema


propietario (Clementine sobre ODBC, microstrategy
sobre Oracle, WEKA sobre JDBC, SQL Server 2000,
).

Embedded (propietarios): Oracle Discoverer, Oracle


Darwin, SQL Server 2000, IBM...

Extensible (Tecnologa Plug-ins): proporcionan


unas herramientas mnimas de interfaz con los datos,
estadsticas y visualizacin, y los algoritmos de
aprendizaje se pueden ir aadiendo con plug-ins. (ej.
KEPLER).

- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input


Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori

Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Das könnte Ihnen auch gefallen