KDD

KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
Knowledge Discovery in
Database (KDD)
y
Data Mining
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Ing. Wilfrido Inchaustti

winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Concepto
Descubrimiento de Conocimiento en Base
de Datos (del ingls, KDD Knowledge
Discovery in Database)
"KDD es el proceso no trivial de identificar patrones en los datos,

en forma vlida, novedosa, potencialmente til y entendible"
En donde,
Algoritmos
- rb. de decisin.
Datos: es el conjunto de hechos F.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Patrn: es una expresin E en un lenguaje L que describe los

hechos en un subconjunto FE de F. E es denominado patrn si
es ms simple que la enumeracin de todos los hechos en FE.
Ej. Se considera f()=3x+x un patrn y f(x)=x+x un modelo.
-
Proceso: consiste en la preparacin de los datos, bsqueda de

patrones, evaluacin del conocimiento y refinamiento. El proceso
se asume como no trivial, en el sentido de que la bsqueda no
es autnoma.
-
2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
- Concepto
- Proceso
Data Mining
- Concepto
Concepto (cont.)
Vlido: el descubrimiento de patrones debe ser vlido sobre
los datos nuevos bajo un cierto grado de certeza.
-
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
Novedoso: los patrones deben ser novedosos (al menos para

el sistema). La novedad puede ser medida con respecto a los
cambios en los datos (comparando los valores actuales, con
los anteriores o con los esperados) o en el conocimiento (cmo
un nuevo hallazgo se relaciona con los anteriores).
-
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
til: los patrones deben potencialmente conducir a alguna

accin til.
-
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Entendible: un objetivo del KDD es construir patrones

entendibles para los humanos en orden a facilitar un mejor
entendimiento de los datos.
-
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Proceso del KDD - [Fayyad et al.]
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
- Tcnicas vs. Input

Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Transformados
Datos
Seleccionados
Experto
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Proceso interactivo e iterativo que

envuelve varios pasos y con decisiones
a ser tomadas por el usuario
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Seleccin
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
- Definicin, anlisis y entendimiento del

dominio del problema.
- Entendimiento del universo de datos
disponible.
- Seleccin de datos (puede implicar un
nuevo repositorio de datos).
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
- Seleccin de columnas (tambin llamados variables o

atributos) para el anlisis.
- Eliminacin de registros repetidos.
- Operaciones bsicas de eliminacin de rudos en los datos.
- Definicin de estratgias en caso de campos ausentes en
los datos.
- Consideracin de secuencias temporales en los datos.
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Seleccionados
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Bsqueda de caractersticas tiles en los datos teniendo en cuenta los objetivos a

los que se enfocan. Ej. convertir una columna fecha del tipo 'dd/mm/yyyy hh24:mi' en
Dia_De_La_Semana, Mes, Hora. Discretizar valores numricos, por ejemplo, edad entre
13-18 es 'menor_de_edad', entre 19-25 es 'nivel_post_secundario', ...
- Tcnicas
- Tareas vs.
Tcnicas
Transformacin
- Tcnicas vs. Input

Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Datos
Datos
Seleccionados
Datos
Transformados
- Bsquedas de
representaciones
categricas para los
datos. Ej. agrupar los
nombres de productos por
categoras en un
supermercado, y no por
nombre real, en fin lo que
interesa es saber si el
cliente consumi paal y
cerveza y no exactamente
la marca para encontrar
una relacin inicial.
- Utilizacin de mtodos de
transformacin con vista a la reduccin
del nmero efectivo de variables en
consideracin. Ej. reducir el valor de tres
columnas en una sola mediante el uso
tcnicas del mximo-mnimo de fuzzy logic.
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Transformacin
- Tcnicas vs. Input

Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
Datos
Transformados
- Definicin de los algoritmos utilizados

basados en los objetivos definidos,
tareas y tcnicas embarcadas. Ej.
Prediccin usando tareas de Clasificacin
mediante tcnicas de rboles de Decisin
implementados por algoritmos C4.5 y
CART.Gini.
KDD
- Concepto
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
- Tcnicas vs. Input

Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Datos
Datos
Seleccionados
Datos
Transformados
-Interpretacin
y validacin del modelo

generado con un posible regreso a una de las
fases anteriores.
- Consolidacin del conocimiento descubierto
(Aplicacin del modelo). Ej. Incorporacin de los
patrones considerados conocimientos en el
sistema o elaboracin de reportes para las partes
interesadas.
KDD
- Concepto
- Proceso
Data Mining
Interpretacin/
Evaluacin
- Concepto
- Objetivos
- Tareas
Data Mining
- Tcnicas
- Tareas vs.
Tcnicas
Conocimiento
Transformacin
- Tcnicas vs. Input

Patrones
Algoritmos
Preprocesamiento
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
...
Seleccin
Datos
Preprocesados
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Datos
Datos
Transformados
Datos
Seleccionados
Experto
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Proceso interactivo e iterativo que

envuelve varios pasos y con decisiones
a ser tomadas por el usuario
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Minera de Datos (del ingls, Data

Mining)
"Data Mining es un paso en el proceso del
KDD consistiendo de algoritmos particulares
que, bajo algunas limitaciones aceptables de
eficiencia
computacional,
produce
una
enumeracin particular de patrones Ej sobre F
De manera mas informal, es la bsqueda de
patrones de comportamientos y relaciones
entre los datos mediante el uso de tcnicas y
algoritmos especializados.
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
Esfuerzo requerido por cada fase del

proceso del KDD
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
Agentes del KDD
- Concepto
- Proceso
Data Mining
Experto: es quien
conoce las
necesidades y
dificultades del
negocio y es quien
plantea el problema
basado en los
usuarios.
Analista: es quien
ejecuta todo el
proceso KDD y que
por ende debe tener
muy en claro todos
los pasos que ello
implica.
Usuario: quien no
necesita poseer
mucho conocimiento
pero es el que
despus de
terminado el proceso
utilizar el
conocimiento
extrado.
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Roles en el KDD
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Metodologa CRISP-DM
- Proceso
http://www.crisp-dm.org/
Data Mining
- Concepto
- Objetivos
- Tareas
Mtodo standard que ha sido desarrollado para ayudar en la realizacin de

proyectos de DM. Fue creado por un consorcio de compaas, principalmente en
Europa, y se llam Cross-Industry Standard Process for Data Mining, o CRISPDM.
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Metodologa SEMMA
- Proceso
http://www.sas.com/technologies/analytics/datamining/miner/semma.html
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
SAS Institute desarrollador de esta metodologa, la define como el

proceso de seleccin, exploracin y modelado de grandes cantidades
de datos para descubrir patrones de negocio desconocidos. El nombre
de esta terminologa es el acrnimo correspondiente a las cinco fases
bsicas del proceso.
Muestreo
(Sample)
Exploracin
(Explore)
Manipulacin
(Modify)
Modelado
(Model)
Valoracin
(Assess)
La metodologa SEMMA se centra ms en las caractersticas tcnicas

del desarrollo del proceso, mientras que la metodologa CRISP-DM,
mantiene una perspectiva ms amplia respecto a los objetivos
empresariales del proyecto. Esta diferencia se establece ya desde la
primera fase del proyecto de Data Mining donde la metodologa
SEMMA comienza realizando un muestreo de datos, mientras que la
metodologa CRISP-DM comienza realizando un anlisis del problema
empresarial para su transformacin en un problema tcnico
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
CRISP-DM vs. SEMMA
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
La metodologa SEMMA slo es abierta en sus aspectos generales ya que est

muy ligada a los productos SAS donde se encuentra implementada. Por su parte
la metodologa CRISP-DM ha sido diseada como una metodologa neutra
respecto a la herramienta que se utilice para el desarrollo del proyecto de Data
Mining siendo su distribucin libre y gratuita.
- Tcnicas
- Tareas vs.
Tcnicas
SEMMA
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Muestreo
(Sample)
Exploracin
(Explore)
CRISP-DM
Anlisis
Problema
Anlisis
Datos
Manipulacin
(Modify)
Preparacin
Datos
Modelado
(Model)
Modelado
Valoracin
(Assess)
Evaluacin
Explotacin
KDD
- Concepto
- Proceso
Data Mining
Objetivos del Data Mining

Los dos principales objetivos del Data Mining, en la prctica son:
- Concepto
- Objetivos
- Tareas
La Prediccin (Directed data mining): consiste en utilizar

algunas variables o campos de la Base de Datos para
predecir valores desconocidos o futuros de otras variables de
inters. Un modelo predictivo responde preguntas sobre
datos futuros. Ej. Cules sern las ventas el ao prximo?,
Es esta transaccin fraudulenta?, Qu tipo de seguro es
ms probable que contrate el cliente X?, Qu tipo de cliente
tender a abandonar el negocio?
La Descripcin (Undirected data mining): se centra en

encontrar patrones interpretables por el ser humano, a partir
de la descripcin de los datos. Un modelo descriptivo
proporciona informacin sobre las relaciones entre los datos
y sus caractersticas. Ej. a) Los clientes que compran
paales suelen comprar cerveza. b) El tabaco y el alcohol
son los factores ms importantes en la enfermedad Y. c) Los
clientes sin televisin y con bicicleta tienen caractersticas
muy diferenciadas del resto.
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tareas del Data Mining (I)
- Proceso
Data Mining
- Concepto
Los objetivos de la Prediccin y de la Descripcin son

alcanzados por el uso de un conjunto de tareas:
- Objetivos
- Tareas
- Tcnicas
Modelo de Dependencias (o Asociacin): consiste en

encontrar un modelo el cual describa las dependencias
significantes entre las variables. De otra manera, dado un
conjunto de datos, identificar las relaciones entre atributos,
de forma tal a identificar que la ocurrencia de cierto/s
patrn/es implica la ocurrencia de otro/s. Ej.: el 70% de los
clientes que consumen el producto A y B, tambin consumen
el producto C, D y E.
Clasificacin: se trata de obtener un modelo que permita

asignar un caso de clase desconocida a una clase concreta,
dicho de otra manera, se puede ver como el esclarecimiento
de una dependencia, en la que el atributo dependiente puede
tomar un valor entre varias clases, ya conocidas. Ej.: se sabe
(por un estudio de dependencias) que los atributos edad,
grado de miopas y astigmatismo han determinado los
pacientes para los que su operacin de ciruga ocular ha sido
satisfactoria. Podemos intentar determinar las reglas exactas
que clasifican un caso como positivo o negativo a partir de
esos atributos.
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tareas del Data Mining (II)
- Proceso
Data Mining
- Concepto
- Objetivos
Agrupamiento (Clustering) o Segmentacin: divide a los

datos en diferentes grupos, el objetivo es encontrar una
agrupacin de datos de forma que los datos de un mismo
grupo sean muy similares y muy diferentes entre grupos
distintos. Se diferencia de la clasificacin en el que no se
conocen ni las clases ni su nmero (aprendizaje no
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.
Tendencias / Regresin: consiste en adquirir una funcin

que mapee un elemento de dato a una variable de prediccin
de valor real. Dicho de otro modo, se persigue la obtencin
de un modelo que permita predecir el valor numrico de
alguna variable. Ej. se intenta predecir el nmero de clientes,
los ingresos, llamadas, ganancias, costes, etc. a partir de los
resultados de semanas, meses o aos anteriores.
Visualizacin: consiste en generar modelos visuales que

permitan al usuario sacar meta-conocimientos de los
mismos. Ej. Mapas de temperaturas. Se divide en dos:
Visualizacin Previa (se utiliza para entender mejor los datos
y sugerir posibles patrones) y Visualizacin Posterior (se
utiliza para mostrar los patrones y entenderlos mejor).
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tcnicas de Data Mining (I)
- Proceso
Data Mining
- Concepto
Las tcnicas ms comnmente usadas en Data Mining para cumplir con

algunas de las tareas ya descritas son:
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Redes neuronales artificiales: modelos predecibles no-lineales que

aprenden a travs del entrenamiento y semejan la estructura de una
red neuronal biolgica. Con frecuencia son usadas bajo tareas de
Clasificacin.
0.4
- Tcnicas vs. Input

Valores aj
Algoritmos
0.3
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Atributo
Valnor
Valor
- Alg. Apriori
Edad
No. Rec.
Repar
Clima
Cochera
Terreno
Construc.
Sector3
20
3
2
D
2
400
350
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
0.8234
0.15
0.79612
0.4
0.3
0.15
0.25
0.33
0.4
0.35
0.25
-0.24
0.71315
0.33
0.937
0.4
0.65
0.5824
$2,255,000
0.6136
1.23
0.35
0.65
-1.325
Pesos Wij
KDD
- Concepto
Tcnicas de Data Mining (II)
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
rboles de decisin: estructuras de forma de rbol que representan

conjuntos de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. Mtodos especficos de
rboles de decisin incluyen rboles de Clasificacin y Regresin.
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tcnicas de Data Mining (II)
- Proceso
Data Mining
- Concepto
Regresin Lineal: consiste en dado un conjunto de puntos

encontrar una funcin lineal que aproxime los puntos.
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
f(x)
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tcnicas de Data Mining (IV)
- Proceso
Data Mining
- Concepto
- Objetivos
Mtodo del vecino ms cercano: una tcnica que clasifica cada

registro en un conjunto de datos basado en una combinacin de las
clases del/de los k registro(s) ms similar/es.
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
X2
Cluster 1
Cluster 3
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Cluster 2
X1
KDD
- Concepto
Tcnicas de Data Mining (V)
- Proceso
Data Mining
- Concepto
- Objetivos
Regla de induccin: la extraccin de reglas if-then. La induccin de

reglas se refiere a la deteccin de tendencias de grupos de datos, o
"reglas" sobre los datos.
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
IF outlook = overcast
THEN play = yes (4.0)
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
IF windy = TRUE AND

outlook = rainy
THEN play = no (2.0)
IF outlook = sunny AND
humidity > 75
THEN play = no (3.0)
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tcnicas de Data Mining (VI)
- Proceso
Data Mining
- Concepto
- Objetivos
Visualizacin mediante mapas temticos SOM (Self-Organizing

Maps): sta tcnica hace uso de algoritmos de generacin de mapas
tipo SOM para descubrir tendencias y patrones de datos.
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Si el plan de mensaje es 700 (Plan De

Mensajes Pospago), el plan gprs es 729
(Plan Pospago Gprs Basico), la
antigedad por encima de los 42 meses,
la edad por encima de los 30 aos,
entonces el consumo promedio es de
entre los 100 y 500 mil Gs. y en algunos
casos cerca y por encima del milln de
Gs.
KDD
- Concepto
Tcnicas de Data Mining (VII)
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
Visualizacin mediante grficos de dimensin: sta tcnica se

basa en la graficacin n-dimensional de todas las variables en
cuestin. N = a la cantidad de variables tratadas. El ms simple es
N=2, grficos de dos dimensiones.
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
Objetivos, Tareas, Tcnicas y

Algoritmos
- Concepto
- Objetivos
Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
Prediccin
- Descripcin
-
Tareas
Clasificacin
- Regresin
- Agrupamiento
- Asociacin
- Visualizacin
-
Tcnicas
rbol de Decisin
- Reglas de
Induccin
- Redes Neuronales
- Algoritmos
Genticos
- Visualizacin
- Redes Bayesianas
- Mtodos del vecino
ms cercano
- Competitive
learning.
- Perceptron
Learning.
-Multilayer ANN
methods
-
Algoritmos
J48
- A priori
- PART
- CART.Gini
- k-NN
- k-means
- ID3
- C4.5
- CN2
- ILP
- SCIL
- Backpropagation
- OneR
- M5Rules
- ADTree
- Decision Stump
- NBTree
- EM
-
- Tipos de
Herramientas
KDD
- Concepto
Eleccin de Tareas [Weiss & Indurkhya]
- Proceso
Data Mining
Objetivo del
Data Mining
- Concepto
- Objetivos
- Tareas
Prediccin
(Realizando decisiones)
Descripcin
(Soporte de decisin)
- Tcnicas
- Tareas vs.
Tcnicas
Mapeo de los
valores
categorizados o
reales predefinidos
- Tcnicas vs. Input

Mapeo de las
clases
categorizadas
indefinidas
Algoritmos
- rb. de decisin.
Categorizados
- J48 (C4.5)
- CART-Gini
- Comparaciones
Clasificacin
Real
Regresin
No
Si
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Resumen de
datos
Clustering
Si
No
Sumarizacin
Si
Describe la
dependencia a
lo largo de las
variables
No
- Medidas
- Tipos de
Herramientas
Modelo de
dependencia
Otras
tareas
KDD
- Concepto
Tareas vs. Tcnicas [Moustakis et al.]
- Proceso
Data Mining
- Concepto
Tcnicas:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos
A6: Programacin lgica inductiva
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Tareas:
C1: Clasificacin
C2: Resolucin de Problemas
C3: Ingeniera del conocimiento
C3: Ingeniera del conocimiento
- Alg. Apriori
Tcnicas de
validacin de
Modelos
A6
- Training vs.
Testing
A3
- Medidas
A2
- Tipos de
Herramientas
A1
A4
C1: Clasificacin
A5
C2: Resolucin de
problemas
KDD
- Concepto
Tcnicas vs. Input [Adriaans et al.]
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Grupos:
D1={F1, F2, F3, F4}: Caractersticas del Input.
D2={F5, F6, F7}: Caractersticas del Input.
D3={F8, F9}: Eficiencia para aprender.
D4={F10, F11}: Eficiencia para aplicar el modelo.
Algoritmos:
A1: Vecino k-ms cercano
A2: rboles de Decisin
A3: Asociacin de Reglas
A4: Redes Neuronales
A5: Algoritmos Genticos
Caractersticas:
F1: Habilidad
para manejar
gran nmero de
registros
F2: Habilidad
para manejar
gran nmero de
atributos
F3: Habilidad
para manejar
atributos
numricos
F4: Habilidad
para manejar
cadenas
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Tcnicas vs. Eficiencia [Adriaans et al.]
- Proceso
Data Mining
F5: Habilidad para

aprender reglas
transparentes
F6: Habilidad para
aprender
incrementalmente
F7: Habilidad para
estimar significancia
estadstica
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
F8: Uso de espacio en

Disco/Memoria durante
la fase de aprendizaje
F9: Uso de tiempo de
CPU durante la fase de
aprendizaje
F10: Uso de espacio en
Disco/Memoria durante
la fase de aplicacin
F11: Uso de tiempo de
CPU durante la fase de
aplicacin
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
Conjunto de ejemplos para una tarea

de Clasificacin
Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
atributos, tal como se muestra en la figura, se define una linea i
como el i-simo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-simo (j= 1, 2, ...,m) atributo Xj del ejemplo i. As, los
ejemplos son pares Ti= (xi1, xi2, ..., xim, yi) = (xi, yi), y el conjunto
de ejemplos est definido como (X, Y), donde la ltima columna, Y,
es un atributo especial, denominado clase (o atributo objetivo), el
cual se desea predecir en base a los otros X atributos, o sea,
Y=f(X).
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Algoritmos utilizados - Clasificacin
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
Algoritmos basados en Tcnicas de rbol de

Decisin
Formalmente un rbol de decisin es un grafo acclico dirigido en
el cual cada nodo es un nodo de decisin con dos o mas
sucesores, o un nodo hoja. El nodo de decisin contiene una
pregunta sobre un atributo concreto (con un hijo por cada posible
respuesta) y, el nodo hoja se refiere a una decisin y es etiquetado
con una clase.
Las diferencias principales entre los distintos algoritmos de
construccin de rboles de decisin radican en las estrategias de
poda y en la regla adoptada para particionar nodos.
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Reglas adoptadas para particionar nodos
J48.J48 y J48.Part
- Entropa: Dado una distribucin de probabilidad P = (p1, p2, ...,
pn), se define la Entropa de P como la informacin que conlleva a
dicha distribucin, tal que:
I(P) = -(p1*log2(p1) + p2*log2(p2) + + pn*log2(pn))
- Info(T): Si un conjunto T de registros es particionado en un
conjunto disjunto de clases C1, C2, ..., Ck sobre la base de los
valores del atributo objetivo, entonces la informacin necesitada
para identificar las clases de un elemento de T es Info(T) = I(P),
donde P es la distribucin de probabilidad de las particiones (C1,
C2, ..., Ck):
P = (|C1|/|T|, |C2|/|T|, ..., |Cn|/|T| )
- Info(X, T): Si primeramente se particiona T en base a los valores
de los atributos no objetivos X en conjuntos T1, T2, ..., Tn entonces
la informacin necesitada para identificar la clase de un elemento
de T est definida como el promedio de la informacin necesitada
para identificar las clases de un elemento Ti:
Info(X, T) = i=1..n (|Ti| / |T|) * Info(Ti)
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
J48.J48 y J48.Part
Dado un conjunto de ejemplo sobre un juego de golf, con cuatro
atributos no objetivos (X1, X2, X3, X4) y una clase (Y) definida.
Info(T) = I(P) = I(p1, p2) = I(|C1|/|T|, |C2|/|T|) = I(9/14, 5/14) =
= - ((9/14)*log2(9/14) + (5/14)*log2(5/14)) = 0.94
Info(perspectiva, T) = 5/14*I(2/5, 3/5) + 4/14*I(4/4, 0) +
+ 5/14*I(3/5, 2/5) = 0.694
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
J48.J48 y J48.Part
- Ganancia: La ganancia est definida como la diferencia entre la
informacin necesitada para identificar un elemento de T y la
informacin necesitada para identificar un elemento de T despus de
la obtencin del valor del atributo X:
Gain(X,T) = Info(T) Info(X, T)
Por ejemplo,
Gain(perspectiva,T) = Info(T) Info(perspectiva, T) =
= 0.94 0.694 = 0.246
Gain(viento,T) = Info(T) Info(viento, T) =
= 0.94 - 0.892 = 0.048
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
J48.J48 y J48.Part
- Radio de Ganancia: La nocin de ganancia introduce tendencias
primitivas a favor de los atributos que tiene un gran nmero de
valores. Para compensar esto, el J48 hace uso de la definicin de
radio de ganancia, tal que:
GainRatio(D, T) = Gain(D,T) / SplitInfo(D, T)
donde la funcin SplitInfo(D, T) es la informacin necesaria para
dividir el conjunto T sobre la base del valor del atributo objetivo D.
As, SplitInfo(D, T) es:
I(|T1|/|T|, |T2|/|T|, ..., |Tm|/|T| )
donde {T1, T2, ..., Tm} es la particin de T inducida por el valor de D.
Por ejemplo,
GainRatio(perspectiva,T) = 0.246 / I(5/14, 4/14, 5/14) =
= 0.246 / 1.577 = 0.156
GainRatio(viento,T) = 0.048 / I(6/14, 8/14) =
= 0.048 / 0.985 = 0.049
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
CART-Gini
- Impureza: Se basa en una funcin para medir la impureza del nodo/s
del rbol generado, definida como:
i(t) = 1 - i=1..n (pi)2
donde pi es la probabilidad de ocurrencia de una clase dada. Cuando
un atributo es examinado, la impureza promedio del nodo/s
descendiente implicado es sustrado de la funcin i(t) y el atributo
que resulta de entre las impurezas mnimas es seleccionado.
Por ejemplo,
i(perspectiva = nublado) = 1 (4/4)2 = 0 (mnima impureza)
i(perspectiva != nublado) = 1 [(5/10)2 + (5/10)2)] = 0.5
i(perspectiva = lluvioso) = 1 [(2/5)2 + (3/5)2)] = 0.48
i(perspectiva = soleado) = 1 [(3/5)2 + (2/5)2)] = 0.48
i(temperatura > 73) = 1 [(2/6)2 + (4/6)2)] = 0.44
i(viento = no) = 1 [(2/8)2 + (6/8)2)] = 0.375
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Resumen
J48
CART-Gini
- rboles de decisin binarios y

no binarios.
- rboles de decisin binarios.
- Utiliza una estrategia de poda

basada en el criterio de cun
informativo es un nodo.
- Utiliza una estrategia de poda

basada en el criterio de costecomplejidad.
- Basado en la definicin de
Radio de Ganancia para la
particin de los nodos.
- Basado en la definicin de la
funcin Inpureza para la
particin de los nodos.
- Trabaja con variables

continuas (enteros o reales) y
discretas (cadenas).
- Trabaja con variables

continuas (enteros o reales) y
discretas (cadenas).
- La clase debe ser una

variable discreta (cadena).
- La clase debe ser una

variable continua con valores
enteros.
- Criterio de parada basado en

el concepto de
representatividad.
- Criterio de parada basado en

el concepto de homogeneidad
o representatividad.
KDD
- Concepto
- Proceso
Data Mining
- Concepto
Otros algoritmos de rbol de Decisin y Reglas de

Induccin.
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
OneR
Algoritmo de clasificacin que genera un rbol de decisin de un
nico nivel.
Capaz de inferir reglas de clasificacin a partir de un conjunto de
instancias.
Crea una regla para cada atributo en los datos de entrenamiento,
luego escoge la regla con la tasa de error[1] ms pequeo como su
"one rule". Para crear una regla para cada atributo debe
determinarse la clase ms frecuente para cada valor del atributo.
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
[1] La tasa de error de una regla es el nmero de instancias de los datos

de entrenamiento en los que la clase del valor de un atributo no
concuerda con la asociacin que la regla le da al valor de ese
atributo.
DECISION STUMP
Consiste en la creacin de un rbol binario de profundidad la unidad.
Toda instancia inclasificable quedar colgada de una nueva rama
que se une al nodo raz.
Parece obvio predecir que los errores que se cometern a la hora de
clasificar los datos sern elevados.

KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Conjunto de ejemplos para una tarea

de Asociacin o Agrupacin
Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
atributos, tal como se muestra en la figura, se define una linea i
como el i-simo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-simo (j= 1, 2, ...,m) atributo Xj del ejemplo i. As, los
ejemplos se definen como Ti= (xi1, xi2, ..., xim) = (xi).
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Algoritmos utilizados - Asociacin
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
A priori [Agrawal]
1) Identificacin de los conjuntos frecuentes (de tems) con
suporte >= MinSup
2) Construccin de reglas a partir de esos conjuntos con
confianza >= MinConf.
Conjuntos frecuentes (Large itemsets)
Todos los subconjuntos de cada transaccin son candidatos (en
el peor de los casos )
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
A priori [Agrawal]
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
Conjuntos Frecuentes (Sup >= 0.4)
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
Reglas (Conf >= 0.8)
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Algoritmos utilizados - Agrupacin
- Proceso
Data Mining
Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
1.) Determinar el nmero de clusters (claases) k

2.) Seleccionar k centroides iniciales
3.) Determinar las fronteras de cada cluster
4.) Asignar cada registro al cluster cuyo
centroide est ms cercano a ese registro
5.) Repetir los pasos 3 y 4 hasta que las fronteras de
los clusters no cambien significativamente
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Algoritmos utilizados Agrupacin
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Datos iniciales. Nmero de clusters posibles K=3
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
centroide 1
centroide 3
- rb. de decisin.
- J48 (C4.5)
centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Centroides iniciales, uno por cada cluster
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
Cluster 3
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
centroide 1
centroide 3
- rb. de decisin.
- J48 (C4.5)
centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Asignar cada registro al centroide ms cercano
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Calcular las fronteras de cada cluster: trazar una recta entre
cada par de centroides y trazar una perpendicular a la recta
equidistance de ambos centroides
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
X1
Calcular las fronteras de cada cluster
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Fronteras de los clusters
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
Cluster 3
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Asignar cada registros a clusters . El registro R cambi
del cluster 2 al cluster 1
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
Cluster 3
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Recalcular los centroides: promedio
en cada eje x1, x2
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
X2
Cluster 1
- Tcnicas
Cluster 3
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Cluster 2
- Medidas
- Tipos de
Herramientas
X1
Recalcular las fronteras de los clusters
El registro R est ahora en el cluster 2
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
Tcnicas de Entrenamientos y
Evaluacin.

- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Igual conjunto de entrenamiento y prueba.

Dividir el conjunto (en un porcentaje definido) para
entrenamiento y para prueba.
Diferentes conjuntos para entrenamiento y prueba.
Usar Validaciones Cruzadas. Uso de los Folds.
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Validaciones de Modelos y Patrones

- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Validaciones Estadsticas.
Validaciones mediante el uso de SQL.
Matriz de Clasificacin o de Confusin y Medidas de
Validacin.
Lift Chart
ROC Chart
Validaciones de Reglas mediante Medidas de la Literatura.
Uso de Matriz de Contingencia.
KDD
- Concepto
- Proceso
Data Mining
Matriz de Confusin o de
Clasificacin
- Concepto
- Objetivos
- Tareas
- Tcnicas
Dado un conjunto de reglas R y un conjunto de ejemplos T=(X,Y), la

matriz de confusin o de clasificacin define cuntos ejemplos Ti
T clasifican para una clase dada Ci por intermedio del conjunto R.
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
Donde Ci representa a los elementos de la primera columna y Cj a

los de la primera fila, teniendo que Ci y Cj pertenecen al conjunto de
clases de tamao z. Nij representa la cantidad de ejemplos en T,
con clase definida Ci, y que clasifican como Cj.
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
Matriz de Confusin o de
Clasificacin (Cont.)
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
Otra manera de ver la Matriz de Confusin es la mostrada en el

grfico ms abajo. En ella se definen cuatro valores o categoras en
la matriz. TP: True Positive (son para la clase estudiada los valores
que son predichos en forma correcta). FN: False Negative (valores
de la clase estudiada que clasifican hacia otra clase). FP: False
Positive (valores de otras clases que clasifican por la clase
estudiada). TN: True Negative (valores de otras clases que clasifican
para sus respectivas clases)
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Medidas de validacin de Modelos
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Sensibilidad o TPR (True Positive Rate) o Recall (1): Esta medida est definida por el
cociente entre el nmero de ejemplos que clasifican correctamente para una clase y el
nmero total de ejemplos para la clase estudiada. Dicho de otra manera es la proporcin
de elementos que estn clasificados dentro de la clase Ci, de entre todos los elementos
que realmente son de la clase Ci. En la matriz de confusin es el elemento diagonal
dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades
pertinentes para cada ejemplo de clase tienda a 1, la matriz de Confusin tender a ser
una matriz diagonal.
TP Rate = TP / (TP + FN)
TP Rate (C1) = N11 / (N11 + N12 + + N1z)
TP Rate (C2) = N22 / (N21 + N22 + + N2z)
TP Rate (Cz) = Nzz / (Nz1 + Nz2 + + Nzz)

False Positive Rate (2): Es la proporcin de ejemplos que han sido clasificados dentro de la
clase Ci, pero pertenecen a una clase diferente. En la matriz de confusin es la suma de
la columna de la clase Ci menos el elemento diagonal dividido la suma de las filas del
resto de las clases.
FP Rate = FP / (FP + TN)
FP Rate (C1) = (N21 + N31 + + Nz1) /
[(N21 + + N2z ) + (N31 + + N3z ) + + (Nz1 + + Nzz )]
Precisin (3): Proporcin de ejemplos que realmente tienen clase Ci de entre todos los
elementos que se han clasificado dentro de la clase Ci. En la matriz de confusin es el
elemento diagonal dividido por la suma de la columna en la que estamos.
Prec (Modelo) = (N11 + N22 + + Nzz) / Total_de_ejemplos
Prec (C1) = N11 / (N11 + N21 + + Nz1)
Prec (C2) = N22 / (N12 + N22 + + Nz2)
Prec (Cz) = Nzz / (N1z + N2z + + Nzz)

KDD
- Concepto
Medidas de validacin de Modelos
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
False Negative Rate (4): es la proporcin de elementos que no clasifican para la clase Ci, de
entre todos los elementos que realmente son de la clase Ci. En la matriz de confusin es
la suma de todos los elementos de la fila excluyndole a la diagonal dividido por la suma
de todos los elementos de la fila.
FN Rate = 1 TPR = 1 [TP / (TP + FN)] = FN / (FN + TP)
FN Rate (C1) = [(N11 + + N1z) - N11] / (N11 + N12 + + N1z)
FN Rate (C2) = [(N21 + + N2z) - N22] / (N21 + N22 + + N2z)
FN Rate (Cz) = [(Nz1 + + Nzz) - Nzz] / (Nz1 + Nz2 + + Nzz)

True Negative Rate o Especificidad (5): Es la proporcin de ejemplos que han sido
clasificados dentro de las otras clases diferente a la clase Ci. En la matriz de confusin es
la suma de las diagonales menos el elemento de la clase Ci dividido la suma de las filas
del resto de las clases.
TN Rate = 1 FPR = 1 [FP / (FP + TN)] = TN / (TN + FP)
FP Rate (C1) = (N22 + N33 + + Nzz) /
[(N21 + + N2z ) + (N31 + + N3z ) + + (Nz1 + + Nzz )]
F-Measure (6): Es una medida que combina la Precisin con el Recall o TPR para la clase Ci.
F-Measure = (2 * Precisin * Recall) / (Precisin + Recall)
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Lift Chart (ver Excel)
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
ROC Chart (ver Excel)
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Matriz de Contingencia
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
Dado una regla R: B H, y un ejemplo Ti = (xi, yi) con sus

respectivas clases yi, se puede aplicar la regla al ejemplo y
comparar el resultado previsto en H con la verdadera clase yi del
ejemplo. De dicha comparacin surge la matriz denominada
contingencia.
- Tcnicas vs. Input

Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Medidas de validacin de reglas
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
Precisin o Confianza (1): La precisin (consistencia o confidencia) es una medida de cuanto

una regla es especfica para el problema. La precisin puede ser definida como la
probabilidad condicional de H de ser verdadero dado que B es verdadero. Cuanto mayor,
ms precisamente una regla cubre la clase en cuestin.
Acc(R) = P(H\B) = P(HB)/ P(B) = fhb/fb
Error (2): El error de una regla es definido como 1 Acc( R ). Cuanto mayor es el error, con
menos precisin la regla cubre la clase en cuestin.
Err ( R ) = 1 Acc(r) = P(H\B) = fhb/fb
Confianza Negativa (3): Es lo correspondiente a precisin, pero para los ejemplos que no son
cubiertos por la regla. Es definida como la probabilidad condicional de H de ser falso dado
que B tambin es falso.
NegRel ( R ) = P (H\B) = P (HB)/P(B) = fhb/fb
Sensibilidad o TPR (True Positive Rate) (4): Sensibilidad es una medida de nmero (relativo)
de ejemplos de la clase prevista en H cubierto por la regla. Es definida como la
probabilidad condicional de B de ser verdadero dado que H es verdadero. Cuanto mayor
es la sensibilidad, mas ejemplos son cubiertos por la regla.
Sens ( R ) = P (B\H) = P(HB)/P(H) = fhb / fh = fhb / (fhb + fh b)
Especificidad o TNR (True Negative Rate) (5): es lo correspondiente a la completitud, pero
para los ejemplos que no son cubiertos por la regla. R. Es definida como la probabilidad
condicional de B de ser falso dado que H es falso.
Spec ( R ) = P (B\H) = P (HB)/P(H) =
fhb / fh = f hb / (f hb + f hb)
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas

Cobertura o Representatividad (6): es una medida de nmero (relativo) de ejemplos cubiertos
por la regla R. Es definida como la probabilidad de B de ser verdadero. Cuanto mayor sea
la cobertura, mayor ser el nmero de ejemplos cubiertos por la relga R.
Cov ( R ) = P(B) = fb
Soporte (7): Soporte (frecuencia) es una medida de nmero (relativo) de ejemplos cubiertos
correctamente por la regla R. Es definido como la probabilidad de que H y B sean
verdaderos. Cuanto mayor es el soporte, es mayor el nmero de ejemplos de la clase en
cuestin que son cubiertos por la regla R.
Sup ( R ) = P(HB) = fhb
Novedad o Leverage o Rule Interest (8): puede ser definida como si la probabilidad de que B
y H ocurriesen juntos no puede ser inferidad por las probabilidades de B y H aisladamente,
esto es, B y H no son estadsticamente independientes. La medida de la novedad es
obtenida comparando el valor esperado P(HB) con los valores de P(H) y P(B). Cuanto ms
el valor esperado difiere de lo observado, mayor es la probabilidad que exista una
correlacin verdadera e inesperada entre B y H. Puede ser demostrado que 0,25 <
Nov(R) < 0,25, y cuanto mayor un valor positivo (ms proximo de 0,25), ms fuerte es la
asociacin entre B y H en cuanto que, cuanto mayor un valor negativo (ms prximo
0,25), ms fuerte es la asociacin entre B y H.
Nov ( R ) = P(HB) P(H) P(B) = fhb fh fb
Satisfaccin (9): Satisfaccin es el aumento relativo en la precisin entre la regla B
verdadero y la regla BH.
Sat ( R ) = [P(H) P(H\B)] / P(H) = [fh fhb/fb] / fh
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Precisin Relativa (10): La precisin relativa de una regla mide el grado de precisin obtenido
en relacin a la precisin de una regla padrn verdadero H, o sea, que valida B como
verdadero para todos los ejemplos. En ese caso, una regla slo interesa si mejora la
precisin de la regla padrn.
RAcc ( R ) = P(H\B) P(H) = fhb/fb fh
Confianza Negativa Relativa (11): Es lo anlogo a precisin relativa para los ejemplos que no
son cubiertos por la regla. En ese caso, la regla padrn es falso H.
RnegRel ( R ) = P(H\B) P(H) = fhb/fb fh
Sensibilidad Relativa (12): La sensibilidad relativa mide el grado de sensibilidad obtenido en
relacin a la sensibilidad de una regla padrn B verdadero, o sea, una regla que valida H
como verdadero para todos los ejemplos.
RSens ( R ) = P(B\H) P(B) = fhb/fh fb
Especificidad Relativa (13): Es lo anlogo a sensibilidad relativa para los ejemplos que no son
cubiertos por la regla. En ese caso, la regla padrn es B falso.
RSpec ( R ) = P(B\H) P(B) = fhb/fh fb
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
Lift o Interest (14): Mide la mejora alcanzada por un modelo predictivo. Suele emplearse como
una medida para comparar diferentes modelos de Data Mining. Por definicin es el
cociente entre la Precisin y la Cobertura. Cuando tienda a 1 el inters ser mnimo, o sea
B y H son independientes. Si es mayor a 1, entonces B y H son positivamente
dependientes. Si es menor a 1, son negativamente dependientes. Esta medida varia entre
0 e infinito. Cuanto mayor sea el valor obtenido, mas interesante es la regla, pues B
aumenta H en una mejor categora.
Lift ( R ) = P(HB) / P(H) P(B) = fhb / fh fb
Conviction (15): Esta medida es dada por la inversa del Lift(B H). Indica la independencia
cuando es igual a 1. Reglas donde B nunca aparece sin H (Confianza del 100%) tendrn
un valor de conviccin tendiendo a infinito.
Conv ( R ) = 1 / [P(HB) / P(H) P(B)] = P(H) P(B) / P(HB) = f h fb / f hb
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
Definiciones
- Proceso
Data Mining
- Concepto
Se refiere a una regla extrada de un rbol de decisin y

generalmente ser representada en la forma:
R: Si <condicin> entonces <clase = Ci >
donde <condicin> toma valores entre los atributos o variables X de
la muestra, y Ci es uno de los posibles valores para la clase. De
manera simple R: B H, donde B es <condicin> y H es
<clase = Ci>
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Regla
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
Meta Reglas
Entindase por Meta Regla como la generalizacin de un conjunto
de reglas a partir de ciertos criterios de base. Formalmente, se
define una meta regla como una expresin RE en un lenguaje L, tal
que RE {Ei, Ei+1, ..., En, i definiendo un patrn y n > 1} y que RE
sea vlida para un subconjunto del conjunto de hechos F. Por
ejemplo, si se tienen n reglas Ei (i de 1 a n) que expresan
Si (x > 3) y .... y ( ... ), entonces f = 23,
entonces una posible meta regla RE de las n reglas es
Si (x > 3), entonces f = 23.
- Tipos de
Herramientas
KDD
- Concepto
Definiciones
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
Representatividad de una regla

Se entiende por representatividad de las reglas (tambin
denominado participacin) como la cantidad de registros de
la muestra de datos que cumplen con una regla concreta.
Por ejemplo, dada una regla L expresada como sigue
Si (x > 3) y (z > 5), entonces f = 23,
y un conjunto de ejemplos de datos T conteniendo un total
de n registros con los valores de (x, z, f), y un sub-conjunto
Ti T con un total de m n registros; entonces la regla L
tiene una representatividad = m, si y solamente si los m
registros de Ti cumplen correctamente con la regla L.
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas
KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
Clasificacin de las Herramientas de

KDD & Data Mining
Standalone: Los datos se deben exportar/convertir al

formato interno del sistema de data mining:
Knowledge Seeker IV (Angoss International Limited,
Groupe Bull, WEKA, Viscovery SOMine, ).
On-top: pueden funcionar sobre un sistema

propietario (Clementine sobre ODBC, microstrategy
sobre Oracle, WEKA sobre JDBC, SQL Server 2000,
).
Embedded (propietarios): Oracle Discoverer, Oracle

Darwin, SQL Server 2000, IBM...
Extensible (Tecnologa Plug-ins): proporcionan

unas herramientas mnimas de interfaz con los datos,
estadsticas y visualizacin, y los algoritmos de
aprendizaje se pueden ir aadiendo con plug-ins. (ej.
KEPLER).
- Tareas
- Tcnicas
- Tareas vs.
Tcnicas
- Tcnicas vs. Input
Algoritmos
- rb. de decisin.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Tcnicas de
validacin de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

KDD

Hochgeladen von

Copyright:

Verfügbare Formate

Ing. Wilfrido Inchaustti

"KDD es el proceso no trivial de identificar patrones en los datos,

Datos: es el conjunto de hechos F.

Patrn: es una expresin E en un lenguaje L que describe los

Proceso: consiste en la preparacin de los datos, bsqueda de

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Novedoso: los patrones deben ser novedosos (al menos para

til: los patrones deben potencialmente conducir a alguna

Entendible: un objetivo del KDD es construir patrones

Proceso del KDD - [Fayyad et al.]

- Tcnicas vs. Input

Proceso interactivo e iterativo que

Proceso del KDD - [Fayyad et al.]

- Definicin, anlisis y entendimiento del

Proceso del KDD - [Fayyad et al.]

- Seleccin de columnas (tambin llamados variables o

Proceso del KDD - [Fayyad et al.]

- Bsqueda de caractersticas tiles en los datos teniendo en cuenta los objetivos a

- Tcnicas vs. Input

Proceso del KDD - [Fayyad et al.]

- Tcnicas vs. Input

- Definicin de los algoritmos utilizados

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Proceso del KDD - [Fayyad et al.]

- Tcnicas vs. Input

y validacin del modelo

Proceso del KDD - [Fayyad et al.]

- Tcnicas vs. Input

Proceso interactivo e iterativo que

Minera de Datos (del ingls, Data

Esfuerzo requerido por cada fase del

Agentes del KDD

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Mtodo standard que ha sido desarrollado para ayudar en la realizacin de

SAS Institute desarrollador de esta metodologa, la define como el

La metodologa SEMMA se centra ms en las caractersticas tcnicas

CRISP-DM vs. SEMMA

La metodologa SEMMA slo es abierta en sus aspectos generales ya que est

- Tcnicas vs. Input

Objetivos del Data Mining

La Prediccin (Directed data mining): consiste en utilizar

La Descripcin (Undirected data mining): se centra en

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Tareas del Data Mining (I)

Los objetivos de la Prediccin y de la Descripcin son

Modelo de Dependencias (o Asociacin): consiste en

Clasificacin: se trata de obtener un modelo que permita

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Tareas del Data Mining (II)

Agrupamiento (Clustering) o Segmentacin: divide a los

Tendencias / Regresin: consiste en adquirir una funcin

Visualizacin: consiste en generar modelos visuales que

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Tcnicas de Data Mining (I)

Las tcnicas ms comnmente usadas en Data Mining para cumplir con

Redes neuronales artificiales: modelos predecibles no-lineales que

- Tcnicas vs. Input

Tcnicas de Data Mining (II)

rboles de decisin: estructuras de forma de rbol que representan

Tcnicas de Data Mining (II)

Regresin Lineal: consiste en dado un conjunto de puntos

2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Tcnicas de Data Mining (IV)

Mtodo del vecino ms cercano: una tcnica que clasifica cada