Beruflich Dokumente
Kultur Dokumente
Miguel Crdenas-Montes
Los rboles de decisin son estructuras lgicas con amplia utilizacin en
la toma de decisin, la prediccin y la minera de datos.
Objetivos:
Entender como funcionan los algoritmos basados en rboles de decisin.
Conocer el uso prctico de la ganancia de informacin en estos algoritmos.
Introduccin
Temperatura
Humedad
Viento
Jugar
cubierto
cubierto
cubierto
cubierto
lluvia
lluvia
lluvia
lluvia
lluvia
soleado
soleado
soleado
soleado
soleado
fro
calor
calor
templado
fro
templado
fro
templado
templado
calor
calor
templado
fro
templado
normal
alta
normal
alta
normal
alta
normal
alta
normal
alta
alta
alta
normal
normal
verdad
falso
falso
verdad
verdad
verdad
falso
falso
falso
falso
verdad
falso
falso
verdad
s
s
s
s
no
no
no
s
s
no
no
no
s
s
Estas reglas son siempre de la forma IF...THEN..., y pueden aplicarse tanto a variables continuas como discretas. Cuando se implementa
una sola sola regla condicional el algoritmo se denomina 1-rule algorithm.
Un ejemplo sencillo de este tipo de algoritmo de una regla es:
IF humedad=normal THEN jugar=si
ELSE IF humedad=alta then jugar=no
Clas. Verdadero
Clas. Falso
5
2
3
4
Verdadero
Falso
+4 = 64 %. La
Con esta simple regla se obtiene un 64 % de acierto, 514
pregunta que se plantea a continuacin es cul es la mejor eleccin
(mejor regla) para obtener el mejor rbol de decisin (ms preciso)?.
Si se utiliza otro criterio, por ejemplo si no hace viento s se juega, y
si hace viento no se juega, entonces se obtiene el siguiente porcentaje
+3 = 57 %. Como puede apreciarse, esta regla produce una
de acierto 514
ms baja predecibilidad sobre los datos.
(1)
Figura 2: Para una nuestra con dos clases con 50 % de aparicin de cada una,
la entropa es x p x log2 ( p x ) = 0,5
log2 (0,5) 0,5 log2 (0,5) = 1. Esta muestra s es buena para el proceso de aprendizaje.
Algoritmo C4.5
4 Random Forest
La tcnica denominada Random Forest consiste en la aplicacin de
Random subspace a rboles de decisin. De esta forma se obtiene un
amplio conjunto de clasificadores cada uno de ellos con distintan calidad, y en algunos casos con diferente asignacin de clase. Para la
asignacin de la clase se establece un sistema de voto mayoritario. El
resto de objetos no seleccionados mediante Random subspace son utilizados para estimar el error.
Para medir el error de random forest se suele utilizar la tcnica denominada out-the-bag error. Para cada rbol se utiliza el conjunto de