Tareas de La Minería de Datos, Clasificación PDF

Tareas de la minería de datos:
clasificación
CI-2352 Intr. a la minería de datos

Prof. Braulio José Solano Rojas
ECCI, UCR
clasificación
● Clasificación (discriminación)
● Empareja o asocia datos a grupos predefinidos
(aprendizaje supervisado).
● Encuentra modelos (funciones) que describen y
distinguen clases o conceptos para futuras
predicciones.
● Probablemente la tarea más familiar y más popular
de la minería de datos.
2 de 33
clasificación
● Ejemplos de aplicación: Calificación de crédito
(credit scoring), reconocimiento de imágenes y
patrones, diagnóstico médico, detección de fallos
en aplicaciones industriales, clasificar tendencias
de mercados financieros, ...
● Métodos: Análisis discriminante, árboles de

decisión, reglas de clasificación, redes neuronales.
clasificación
● Ejemplo simple:
● En EE.UU. los maestros clasifican a los estudiantes
en A, B, C, D o F según sus notas. Utilizando
simplemente límites (60, 70, 80, 90), las siguientes
clasificaciones son posibles:
90 <= nota A
80 <= nota <= 90 B
70 <= nota <= 80 C
60 <= nota < 70 D
Nota < 60 F
Clasificación contra predicción
● En alguna literatura de minería de datos se
considera a la clasificación como el
emparejamiento contra clases (etiquetas de
valores), mientras que la predicción está
asociada a valores continuos. Es decir, en el
conjunto de entrenamiento la variable objetivo
es una variable continua.
● Finalmente, clasificación y predicción vienen

siendo lo mismo, aunque se pueden hacer la
diferenciación según el tipo de variable.
Clasificación: aprendizaje
6 de 33
Clasificación: pruebas
7 de 33
Preparación de los datos para
clasificación y predicción
● Limpieza de los datos
● Tratamiento del ruido y de valores faltantes.
● Análisis de relevancia
● Algunos atributos en los datos pueden ser
irrelevantes o redundantes. Eliminar dichos
atributos mejora la eficiencia y la eficacia.
● Transformación de datos
● Se pueden hacer generalizaciones de los datos a
conceptos de mayor nivel. También se pueden
normalizar los datos.
8 de 33
Evaluación de métodos de
clasificación
● Precisión en la predicción
● Capacidad de predecir correctamente.
● Eficiencia
● Costos computacionales.
● Robustez
● Habilidad para funcionar con ruido y ausencia de
ciertos valores.
● Escalabilidad
● Habilidad para trabajar con grandes cantidades de
datos.
● Interpretabilidad
● Entendimiento y comprensión que brinda.
9 de 33
Clasificación: definición formal
● Dada una base de datos D = {t1, t2, …, tn} de
tuplas (elementos, registros) y un conjunto de
clases C = {C1, …, Cm}, el problema de
clasificación trata de definir un mapeo f : D → C
donde cada ti se asigna a una clase. Una clase
Cj contiene precisamente aquellas tuplas
mapeadas a ella; esto es, Cj = { ti | f(ti) = Cj,
1<=i<=n y ti ϵ D }.
10 de 33
Clasificación: algoritmos
● Estadísticos
● Regresión simple, regresión múltiple, bayes, ...
● Distancia
● k vecinos más cercanos, ...
● Árboles de decisión
● ID3, C4.5, CART, ...
● Redes neuronales
● Retropropagación, ...
● Reglas
● Reglas de asociación, ...
11 de 33
Clasificación por inducción de
árboles de decisión
● El aprendizaje por árboles de decisión es un
método comúnmente utilizado en minería de
datos. El objetivo es crear un modelo que prediga
el valor de una variable objetivo basándose en
varias variables de entrada. Se muestra un
ejemplo en las dos filminas siguientes. Cada nodo
interior corresponde a a una de las variables de
entrada. Hay aristas hacia un hijo para cada uno
de los posibles valores de dicha variable de
entrada. Cada hoja representa un valor de la
variable objetivo dados los valores de las variables
entrada representadas por el camino de la raíz a la
hoja.
12 de 33
edad ingreso estudiante calificación_crédito clase:compra_computador
<=30 alto no suficiente no
<=30 alto no excelente no
31...40 alto no suficiente sí
>40 medio no suficiente sí
>40 bajo sí suficiente sí
>40 bajo sí excelente no
31...40 bajo sí excelente sí
<=30 medio no suficiente no
<=30 bajo sí suficiente sí
>40 medio sí suficiente sí
<=30 medio sí excelente sí
31...40 medio no excelente sí
31...40 alto sí suficiente sí
>40 medio no excelente no
13 de 33
14 de 33
● Un árbol puede ser “aprendido” separando el
conjunto fuente en subconjuntos basados en
una prueba de valor de atributo. Este proceso
es repetido en cada subconjunto derivado de
una manera recursiva llamada particionamiento
recursivo. La recursión termina cuando el
subconjunto en un nodo tiene para todos sus
miembros el mismo valor de la variable objetivo
o cuando separar ya no agrega valor a la
predicción.
15 de 33
● Los datos vienen en registros de la forma:
(x,Y) = (x1, x2, x3, ..., xk, Y)
● La variable dependiente Y es la variable

objetivo que se está tratando de explicar,
clasificar o generalizar. El vector x está
compuesto de las variables de entrada The
vector x is composed of the input variables x1,
x2, x3, etc., que son usadas para la tarea de
minería.
16 de 33
17 de 33
Clasificación por los k vecinos más
cercanos (KNN)
● Esquema de clasificación común, basado en el
uso de medidas de distancia. Es un tipo de
“aprendizaje por analogía”.
● La técnica asume que el conjunto completo de

entrenamiento incluye no sólo los datos sino
también la clasificación deseada.
● Los datos de entrenamiento son entonces el

modelo.
18 de 33
cercanos (KNN)
● Cuando se va a clasificar un nuevo elemento (t)
se determina su distancia contra todos los
elementos en el conjunto de entrenamiento.
● Luego sólo se consideran los K elementos más

cercanos al nuevo elemento (t).
● El nuevo elemento (t) es entonces clasificado

en la clase mayoritaria de los vecinos cercanos.
19 de 33
cercanos (KNN)
● De manera más formal:
● El conjunto de entrenamiento es descrito por
atributos numéricos n-dimensionales.
● Cada individuo representa un punto en un espacio

n-dimensional.
● Así, el conjunto de entrenamiento es almacenado

en un espacio patrón n-dimensional.
● Cuando se clasifica un individuo nuevo se busca en

el espacio patrón los k individuos más cercanos al
nuevo individuo.
20 de 33
cercanos (KNN)
● La “cercanía” es usualmente definida en términos
de la distancia euclidiana, donde la distancia entre
dos puntos, X=(x1, x2, …, xn) y Y=(y1, y2, …, yn) es
√∑
n
2
d ( X , Y )= ( xi− yi )
i=1
● El nuevo individuo es asignado a la clase más

común o mayoritaria entre sus k vecinos más
cercanos.
● Cuando k=1 se asigna la clase del elemento más

cercano.
21 de 33
cercanos (KNN): ejemplo
22 de 33
cercanos (KNN): algoritmo
23 de 33
cercanos (KNN)
● La técnica KNN es muy sensible a la
escogencia de k. Una regla práctica es k
menor o igual a la raíz del número de
elementos de entrenamiento.
● Los clasificadores de vecinos más cercanos

son aprendizaje basados en instancia o
aprendizaje flojo (lazy learning). Tienen mayor
eficiencia en el entrenamiento. Sin embargo,
los costos computacionales pueden ser caros
en la clasificación si los individuos de
entrenamiento (el modelo) son muchos.
24 de 33
Regresión lineal simple
25 de 33
26 de 33
27 de 33
28 de 33
29 de 33
Clasificación bayesiana ingenua
● Sea X un conjunto de datos cuya clase es
desconocida. Sea H alguna hipótesis tal que el
conjunto de datos pertenece a una clase C. Se
desea entonces determinar P(H|X), la
probabilidad de que la hipótesis H sea válida
dados los datos observados en X.
● P(H|X) es la probabilidad posterior, o la

probabilidad a posteriori, de H condicionada en
X.
30 de 33
Clasificación bayesiana ingenua
● El teorema de Bayes es útil en el hecho de que
provee una manera de calcular la probabilidad
posterior, P(H|X), de P(H), P(X) y P(X|H).
● El teorema de Bayes adaptado a la

clasificación es:
P ( X∣H ) P ( H )
P ( H∣X )=
P(X )
31 de 33
Clasificación bayesiana ingenua:
ejemplo
edad ingreso estudiante calificación_crédito clase:compra_computador
<=30 alto no suficiente no
<=30 alto no excelente no
31...40 alto no suficiente sí
>40 medio no suficiente sí
>40 bajo sí suficiente sí
>40 bajo sí excelente no
31...40 bajo sí excelente sí
<=30 medio no suficiente no
<=30 bajo sí suficiente sí
31...40 medio sí suficiente sí
<=30 medio sí excelente sí
>40 medio no excelente sí
>40 alto sí suficiente sí
31...40 medio no excelente no
32 de 33
¡Gracias por su atención!
¿Preguntas?

Tareas de La Minería de Datos, Clasificación PDF

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tareas de La Minería de Datos, Clasificación PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Tareas de la minería de datos:

CI-2352 Intr. a la minería de datos

● Métodos: Análisis discriminante, árboles de

● Finalmente, clasificación y predicción vienen

(x,Y) = (x1, x2, x3, ..., xk, Y)

● La variable dependiente Y es la variable

● La técnica asume que el conjunto completo de

● Los datos de entrenamiento son entonces el

● Luego sólo se consideran los K elementos más

● El nuevo elemento (t) es entonces clasificado

● Cada individuo representa un punto en un espacio

● Así, el conjunto de entrenamiento es almacenado

● Cuando se clasifica un individuo nuevo se busca en

● El nuevo individuo es asignado a la clase más

● Cuando k=1 se asigna la clase del elemento más

● Los clasificadores de vecinos más cercanos

● P(H|X) es la probabilidad posterior, o la

● El teorema de Bayes adaptado a la

Das könnte Ihnen auch gefallen