Beruflich Dokumente
Kultur Dokumente
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
Knowledge Discovery in
Database (KDD)
y
Data Mining
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Concepto
Descubrimiento de Conocimiento en Base
de Datos (del ingls, KDD Knowledge
Discovery in Database)
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
Concepto (cont.)
Vlido: el descubrimiento de patrones debe ser vlido sobre
los datos nuevos bajo un cierto grado de certeza.
-
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Transformados
Datos
Seleccionados
Experto
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Seleccin
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Seleccionados
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Transformacin
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Datos
Datos
Seleccionados
Datos
Transformados
- Bsquedas de
representaciones
categricas para los
datos. Ej. agrupar los
nombres de productos por
categoras en un
supermercado, y no por
nombre real, en fin lo que
interesa es saber si el
cliente consumi paal y
cerveza y no exactamente
la marca para encontrar
una relacin inicial.
- Utilizacin de mtodos de
transformacin con vista a la reduccin
del nmero efectivo de variables en
consideracin. Ej. reducir el valor de tres
columnas en una sola mediante el uso
tcnicas del mximo-mnimo de fuzzy logic.
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Transformacin
Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
Datos
Transformados
KDD
- Concepto
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
Datos
Transformados
-Interpretacin
KDD
- Concepto
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Transformados
Datos
Seleccionados
Experto
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
Experto: es quien
conoce las
necesidades y
dificultades del
negocio y es quien
plantea el problema
basado en los
usuarios.
Analista: es quien
ejecuta todo el
proceso KDD y que
por ende debe tener
muy en claro todos
los pasos que ello
implica.
Usuario: quien no
necesita poseer
mucho conocimiento
pero es el que
despus de
terminado el proceso
utilizar el
conocimiento
extrado.
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Roles en el KDD
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
Metodologa CRISP-DM
- Proceso
http://www.crisp-dm.org/
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
Metodologa SEMMA
- Proceso
http://www.sas.com/technologies/analytics/datamining/miner/semma.html
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Exploracin
(Explore)
Manipulacin
(Modify)
Modelado
(Model)
Valoracin
(Assess)
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
SEMMA
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Muestreo
(Sample)
Exploracin
(Explore)
CRISP-DM
Anlisis
Problema
Anlisis
Datos
Manipulacin
(Modify)
Preparacin
Datos
Modelado
(Model)
Modelado
Valoracin
(Assess)
Evaluacin
Explotacin
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Valores aj
Algoritmos
0.3
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Atributo
Valnor
Valor
- Alg. Apriori
Edad
No. Rec.
Repar
Clima
Cochera
Terreno
Construc.
Sector3
20
3
2
D
2
400
350
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
0.8234
0.15
0.79612
0.4
0.3
0.15
0.25
0.33
0.4
0.35
0.25
-0.24
0.71315
0.33
0.937
0.4
0.65
0.5824
$2,255,000
0.6136
1.23
0.35
0.65
-1.325
Pesos Wij
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
f(x)
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
X2
Cluster 1
Cluster 3
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Cluster 2
X1
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
IF outlook = overcast
THEN play = yes (4.0)
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
Prediccin
- Descripcin
-
Tareas
Clasificacin
- Regresin
- Agrupamiento
- Asociacin
- Visualizacin
-
Tcnicas
rbol de Decisin
- Reglas de
Induccin
- Redes Neuronales
- Algoritmos
Genticos
- Visualizacin
- Redes Bayesianas
- Mtodos del vecino
ms cercano
- Competitive
learning.
- Perceptron
Learning.
-Multilayer ANN
methods
-
Algoritmos
J48
- A priori
- PART
- CART.Gini
- k-NN
- k-means
- ID3
- C4.5
- CN2
- ILP
- SCIL
- Backpropagation
- OneR
- M5Rules
- ADTree
- Decision Stump
- NBTree
- EM
-
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
Objetivo del
Data Mining
- Concepto
- Objetivos
- Tareas
Prediccin
(Realizando decisiones)
Descripcin
(Soporte de decisin)
- Tcnicas
- Tareas vs.
Tcnicas
Mapeo de los
valores
categorizados o
reales predefinidos
Mapeo de las
clases
categorizadas
indefinidas
Algoritmos
- rb. de decisin.
Categorizados
- J48 (C4.5)
- CART-Gini
- Comparaciones
Clasificacin
Real
Regresin
No
Si
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Resumen de
datos
Clustering
Si
No
Sumarizacin
Si
Describe la
dependencia a
lo largo de las
variables
No
- Medidas
- Tipos de
Herramientas
Modelo de
dependencia
Otras
tareas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
Tcnicas:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos
A6: Programacin lgica inductiva
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Tareas:
C1: Clasificacin
C2: Resolucin de Problemas
C3: Ingeniera del conocimiento
C3: Ingeniera del conocimiento
- Alg. Apriori
Tcnicas de
validacin de
Modelos
A6
- Training vs.
Testing
A3
- Medidas
A2
- Tipos de
Herramientas
A1
A4
C1: Clasificacin
A5
C2: Resolucin de
problemas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Grupos:
D1={F1, F2, F3, F4}: Caractersticas del Input.
D2={F5, F6, F7}: Caractersticas del Input.
D3={F8, F9}: Eficiencia para aprender.
D4={F10, F11}: Eficiencia para aplicar el modelo.
Algoritmos:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos
Caractersticas:
F1: Habilidad
para manejar
gran nmero de
registros
F2: Habilidad
para manejar
gran nmero de
atributos
F3: Habilidad
para manejar
atributos
numricos
F4: Habilidad
para manejar
cadenas
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
J48.J48 y J48.Part
- Entropa: Dado una distribucin de probabilidad P = (p1, p2, ...,
pn), se define la Entropa de P como la informacin que conlleva a
dicha distribucin, tal que:
I(P) = -(p1*log2(p1) + p2*log2(p2) + + pn*log2(pn))
- Info(T): Si un conjunto T de registros es particionado en un
conjunto disjunto de clases C1, C2, ..., Ck sobre la base de los
valores del atributo objetivo, entonces la informacin necesitada
para identificar las clases de un elemento de T es Info(T) = I(P),
donde P es la distribucin de probabilidad de las particiones (C1,
C2, ..., Ck):
P = (|C1|/|T|, |C2|/|T|, ..., |Cn|/|T| )
- Info(X, T): Si primeramente se particiona T en base a los valores
de los atributos no objetivos X en conjuntos T1, T2, ..., Tn entonces
la informacin necesitada para identificar la clase de un elemento
de T est definida como el promedio de la informacin necesitada
para identificar las clases de un elemento Ti:
Info(X, T) = i=1..n (|Ti| / |T|) * Info(Ti)
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
J48.J48 y J48.Part
Dado un conjunto de ejemplo sobre un juego de golf, con cuatro
atributos no objetivos (X1, X2, X3, X4) y una clase (Y) definida.
Info(T) = I(P) = I(p1, p2) = I(|C1|/|T|, |C2|/|T|) = I(9/14, 5/14) =
= - ((9/14)*log2(9/14) + (5/14)*log2(5/14)) = 0.94
Info(perspectiva, T) = 5/14*I(2/5, 3/5) + 4/14*I(4/4, 0) +
+ 5/14*I(3/5, 2/5) = 0.694
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
J48.J48 y J48.Part
- Ganancia: La ganancia est definida como la diferencia entre la
informacin necesitada para identificar un elemento de T y la
informacin necesitada para identificar un elemento de T despus de
la obtencin del valor del atributo X:
Gain(X,T) = Info(T) Info(X, T)
Por ejemplo,
Gain(perspectiva,T) = Info(T) Info(perspectiva, T) =
= 0.94 0.694 = 0.246
Gain(viento,T) = Info(T) Info(viento, T) =
= 0.94 - 0.892 = 0.048
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
J48.J48 y J48.Part
- Radio de Ganancia: La nocin de ganancia introduce tendencias
primitivas a favor de los atributos que tiene un gran nmero de
valores. Para compensar esto, el J48 hace uso de la definicin de
radio de ganancia, tal que:
GainRatio(D, T) = Gain(D,T) / SplitInfo(D, T)
donde la funcin SplitInfo(D, T) es la informacin necesaria para
dividir el conjunto T sobre la base del valor del atributo objetivo D.
As, SplitInfo(D, T) es:
I(|T1|/|T|, |T2|/|T|, ..., |Tm|/|T| )
donde {T1, T2, ..., Tm} es la particin de T inducida por el valor de D.
Por ejemplo,
GainRatio(perspectiva,T) = 0.246 / I(5/14, 4/14, 5/14) =
= 0.246 / 1.577 = 0.156
GainRatio(viento,T) = 0.048 / I(6/14, 8/14) =
= 0.048 / 0.985 = 0.049
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
CART-Gini
- Impureza: Se basa en una funcin para medir la impureza del nodo/s
del rbol generado, definida como:
i(t) = 1 - i=1..n (pi)2
donde pi es la probabilidad de ocurrencia de una clase dada. Cuando
un atributo es examinado, la impureza promedio del nodo/s
descendiente implicado es sustrado de la funcin i(t) y el atributo
que resulta de entre las impurezas mnimas es seleccionado.
Por ejemplo,
i(perspectiva = nublado) = 1 (4/4)2 = 0 (mnima impureza)
i(perspectiva != nublado) = 1 [(5/10)2 + (5/10)2)] = 0.5
i(perspectiva = lluvioso) = 1 [(2/5)2 + (3/5)2)] = 0.48
i(perspectiva = soleado) = 1 [(3/5)2 + (2/5)2)] = 0.48
i(temperatura > 73) = 1 [(2/6)2 + (4/6)2)] = 0.44
i(viento = no) = 1 [(2/8)2 + (6/8)2)] = 0.375
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Resumen
J48
CART-Gini
- Basado en la definicin de
Radio de Ganancia para la
particin de los nodos.
- Basado en la definicin de la
funcin Inpureza para la
particin de los nodos.
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
OneR
Algoritmo de clasificacin que genera un rbol de decisin de un
nico nivel.
Capaz de inferir reglas de clasificacin a partir de un conjunto de
instancias.
Crea una regla para cada atributo en los datos de entrenamiento,
luego escoge la regla con la tasa de error[1] ms pequeo como su
"one rule". Para crear una regla para cada atributo debe
determinarse la clase ms frecuente para cada valor del atributo.
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
DECISION STUMP
Consiste en la creacin de un rbol binario de profundidad la unidad.
Toda instancia inclasificable quedar colgada de una nueva rama
que se une al nodo raz.
Parece obvio predecir que los errores que se cometern a la hora de
clasificar los datos sern elevados.
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
A priori [Agrawal]
1) Identificacin de los conjuntos frecuentes (de tems) con
suporte >= MinSup
2) Construccin de reglas a partir de esos conjuntos con
confianza >= MinConf.
Conjuntos frecuentes (Large itemsets)
Todos los subconjuntos de cada transaccin son candidatos (en
el peor de los casos )
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Datos iniciales. Nmero de clusters posibles K=3
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
centroide 1
centroide 3
- rb. de decisin.
- J48 (C4.5)
centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Centroides iniciales, uno por cada cluster
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
Cluster 3
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
centroide 1
centroide 3
- rb. de decisin.
- J48 (C4.5)
centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Asignar cada registro al centroide ms cercano
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Calcular las fronteras de cada cluster: trazar una recta entre
cada par de centroides y trazar una perpendicular a la recta
equidistance de ambos centroides
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Calcular las fronteras de cada cluster
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Fronteras de los clusters
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
Cluster 3
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Asignar cada registros a clusters . El registro R cambi
del cluster 2 al cluster 1
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
Cluster 3
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Recalcular los centroides: promedio
en cada eje x1, x2
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
Cluster 3
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Recalcular las fronteras de los clusters
El registro R est ahora en el cluster 2
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
Tcnicas de Entrenamientos y
Evaluacin.
- Tareas vs.
Tcnicas
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Validaciones Estadsticas.
Validaciones mediante el uso de SQL.
Matriz de Clasificacin o de Confusin y Medidas de
Validacin.
Lift Chart
ROC Chart
Validaciones de Reglas mediante Medidas de la Literatura.
Uso de Matriz de Contingencia.
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
Matriz de Confusin o de
Clasificacin
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
Matriz de Confusin o de
Clasificacin (Cont.)
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Sensibilidad o TPR (True Positive Rate) o Recall (1): Esta medida est definida por el
cociente entre el nmero de ejemplos que clasifican correctamente para una clase y el
nmero total de ejemplos para la clase estudiada. Dicho de otra manera es la proporcin
de elementos que estn clasificados dentro de la clase Ci, de entre todos los elementos
que realmente son de la clase Ci. En la matriz de confusin es el elemento diagonal
dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades
pertinentes para cada ejemplo de clase tienda a 1, la matriz de Confusin tender a ser
una matriz diagonal.
TP Rate = TP / (TP + FN)
TP Rate (C1) = N11 / (N11 + N12 + + N1z)
TP Rate (C2) = N22 / (N21 + N22 + + N2z)
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
False Negative Rate (4): es la proporcin de elementos que no clasifican para la clase Ci, de
entre todos los elementos que realmente son de la clase Ci. En la matriz de confusin es
la suma de todos los elementos de la fila excluyndole a la diagonal dividido por la suma
de todos los elementos de la fila.
FN Rate = 1 TPR = 1 [TP / (TP + FN)] = FN / (FN + TP)
FN Rate (C1) = [(N11 + + N1z) - N11] / (N11 + N12 + + N1z)
FN Rate (C2) = [(N21 + + N2z) - N22] / (N21 + N22 + + N2z)
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
Matriz de Contingencia
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Precisin Relativa (10): La precisin relativa de una regla mide el grado de precisin obtenido
en relacin a la precisin de una regla padrn verdadero H, o sea, que valida B como
verdadero para todos los ejemplos. En ese caso, una regla slo interesa si mejora la
precisin de la regla padrn.
RAcc ( R ) = P(H\B) P(H) = fhb/fb fh
Confianza Negativa Relativa (11): Es lo anlogo a precisin relativa para los ejemplos que no
son cubiertos por la regla. En ese caso, la regla padrn es falso H.
RnegRel ( R ) = P(H\B) P(H) = fhb/fb fh
Sensibilidad Relativa (12): La sensibilidad relativa mide el grado de sensibilidad obtenido en
relacin a la sensibilidad de una regla padrn B verdadero, o sea, una regla que valida H
como verdadero para todos los ejemplos.
RSens ( R ) = P(B\H) P(B) = fhb/fh fb
Especificidad Relativa (13): Es lo anlogo a sensibilidad relativa para los ejemplos que no son
cubiertos por la regla. En ese caso, la regla padrn es B falso.
RSpec ( R ) = P(B\H) P(B) = fhb/fh fb
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
Lift o Interest (14): Mide la mejora alcanzada por un modelo predictivo. Suele emplearse como
una medida para comparar diferentes modelos de Data Mining. Por definicin es el
cociente entre la Precisin y la Cobertura. Cuando tienda a 1 el inters ser mnimo, o sea
B y H son independientes. Si es mayor a 1, entonces B y H son positivamente
dependientes. Si es menor a 1, son negativamente dependientes. Esta medida varia entre
0 e infinito. Cuanto mayor sea el valor obtenido, mas interesante es la regla, pues B
aumenta H en una mejor categora.
Lift ( R ) = P(HB) / P(H) P(B) = fhb / fh fb
Conviction (15): Esta medida es dada por la inversa del Lift(B H). Indica la independencia
cuando es igual a 1. Reglas donde B nunca aparece sin H (Confianza del 100%) tendrn
un valor de conviccin tendiendo a infinito.
Conv ( R ) = 1 / [P(HB) / P(H) P(B)] = P(H) P(B) / P(HB) = f h fb / f hb
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
Definiciones
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Regla
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
Meta Reglas
Entindase por Meta Regla como la generalizacin de un conjunto
de reglas a partir de ciertos criterios de base. Formalmente, se
define una meta regla como una expresin RE en un lenguaje L, tal
que RE {Ei, Ei+1, ..., En, i definiendo un patrn y n > 1} y que RE
sea vlida para un subconjunto del conjunto de hechos F. Por
ejemplo, si se tienen n reglas Ei (i de 1 a n) que expresan
Si (x > 3) y .... y ( ... ), entonces f = 23,
entonces una posible meta regla RE de las n reglas es
Si (x > 3), entonces f = 23.
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
Definiciones
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas