Sie sind auf Seite 1von 15

TEMA:

Árboles de decisiones difusos


INTEGRANTES:
Berrocal Cabrera Marleni
Rivera Centeno Stalin
Reyna Vizcarra Pamela
Hipólito Alcalá Mayra
CURSO:
Lenguaje basado en conocimiento

|01|
Contenido
1. INTRODUCCIÓN .................................................................................................................... 3
2. ¿QUÉ ES? ¿EN QUÉ CONSISTE?............................................................................................. 4
3. CARACTERÍSTICAS ................................................................................................................. 4
4. VENTAJAS: ............................................................................................................................. 4
5. DESVENTAJAS ....................................................................................................................... 5
6. UTILIDAD: .............................................................................................................................. 5
7. APLICACIONES:...................................................................................................................... 5
8. CASOS PRÁCTICOS ................................................................................................................ 6
8.1. EJEMPLO 01................................................................................................................... 6
8.2. EJEMPLO 02................................................................................................................. 11
9. LINKOGRAFÌA: ..................................................................................................................... 15

|02|
1. INTRODUCCIÓN
Los métodos de árboles de decisión inductivo se introdujeron por primera vez con el concepto
de Sistema de aprendizaje en la década del sesenta. Desde entonces, se han seguido
desarrollando y aplicando estudios para clasificar objetos. De hecho, métodos importantes
incluyen particiones recursivas de algoritmo, y la técnica de Iterative Dichotomiser 3 (ID3). La
estructura de un árbol de decisión comienza con un nodo raíz, a partir del cual, todas las ramas
se originan. Una rama toma la forma de una serie de nodos donde las decisiones sobre los
valores de atributo de condición se realizan en cada nodo, lo que permite la progresión a través
del árbol. Una progresión se detiene en un nodo hoja, donde se da una clasificación de decisión.
Esto se basa en la regla asociada con la rama completa desde el nodo raíz al nodo de hoja
individual. Una característica clave de estos métodos tradicionales de árboles de decisión
inductivos, es que las decisiones de un nodo son clásicos (crisp). Por ejemplo, las sentencias
relativas a valores de atributos 'menos que', 'igual' o 'mayor que', que indican el camino por el
árbol. El resultado de los árboles de decisión es categórico; por ello, no cubren la incertidumbre
que pudiera existir en la clasificación. Éstos han tenido una serie de alteraciones para tratar con
el lenguaje y las incertidumbres de medición, con el objetivo de combinar los árboles simbólicos
de decisión con el razonamiento aproximado ofrecido por la representación difusa.

La intención es aprovechar las ventajas complementarias de ambos: la popularidad en las


aplicaciones para aprender de los ejemplos y la comprensión del conocimiento de los árboles de
decisión, y la capacidad de tratar con información inexacta e incierta de la representación difusa.
En este contexto, Yuan y Shaw, consideran que, en las sentencias clásicas, realizar pequeños
cambios en los valores de los atributos de un objeto pueden llevar a repentinas variaciones para
la decisión de asignar a una clase determinada. Por lo tanto, para superar estas deficiencias,
Quinlan sugiere un método probabilístico para construir árboles de decisión como clasificadores
probabilísticos. En ese sentido, para suavizar los límites de los nodos del árbol de decisiones, se
han desarrollado varias técnicas dentro de un ambiente difuso. Por ejemplo, el análisis de ID3
se ha extendido para incluir medidas de entropía difusa, cuyo objetivo es determinar el nivel de
incertidumbre de un conjunto difuso. Yuan y Shaw introdujeron un método de inducción de un
árbol de decisión difusa. El trabajo expone esta técnica en un contexto antropométrico para la
salud del escolar. Una de las razones para el uso de la teoría de conjuntos difusos es su
simplicidad y su similitud con el razonamiento humano. Esta similitud incluye el uso de términos
lingüísticos asociado al conjunto de las reglas difusas a través de la utilización de las funciones
de pertenencia específicas a un conjunto difuso. Una característica importante del método de
Yuan y Shaw es que permite el uso de atributos de condición continua y nominal, donde las
funciones de pertenencia convierten los atributos continuos en valores ordinales con términos
lingüísticos asociados. De otro lado, los árboles de decisión difusa se pueden utilizar como parte
de modelos híbridos que mejoren los resultados esperados. Mao propone una forma de sistema
de inferencia difusa basado en la estructura de árboles adaptativos mostrando que se requiere
menor cálculo y tiene una alta exactitud. Fan de desarrolla un modelo híbrido integrando un
método de agrupación de datos basado en casos y un árbol de decisiones difuso para la
clasificación de datos médicos. En general, un conjunto de reglas difusas (lingüísticas) es
construido a partir de un árbol de decisión difusa, que describe la variación en los atributos
antropométricos de una determinada muestra.

|03|
2. ¿QUÉ ES? ¿EN QUÉ CONSISTE?
En el trabajo de Yuan and Shaw (1995) indica que la mayoría de los métodos de inducción
de árboles de decisión utilizados para la extracción de conocimiento en problemas de
clasificación no se ocupan de las incertidumbres cognitivas como la vaguedad y
ambigüedad asociada con el pensamiento y la percepción humanas. En este trabajo las
incertidumbres cognitivas implicadas en problemas de clasificación se representan de
manera explícita, se miden y se incorporan en el proceso de inducción del conocimiento.
Se desarrollo un método de inducción de árbol de decisión difusa, que se basa en la
reducción de la ambigüedad de clasificación con evidencia difusa. Los arboles de decisión
difusas representan la clasificación de conocimiento más naturalmente a la forma del
pensar humano y son más robustos para tolerar la imprecisión, el conflicto y la falta de
información.
Nodos interiores: atributos
Arcos: posibles valores del nodo origen
Hojas: valor de clasificación (usualmente + ´o −, aunque podría ser cualquier conjunto de
valores, no necesariamente binario)
Representación de una función objetivo

3. CARACTERÍSTICAS
 Plantean el problema para que todas las opciones sean analizadas.
 Permiten analizar totalmente las posibles consecuencias de tomar una decisión.
 Proveen un esquema para cuantificar el costo de un resultado y la probabilidad
de que suceda.
 Ayuda a realizar las mejores decisiones sobre la base de la información existente
y de las mejores suposiciones.

4. VENTAJAS:
 Muestra los costos de oportunidad de los recursos y servicios, es decir lo que dejo
de utilizar o hacer por realizar la decisión que tomé.
 Proporciona un alto grado de comprensión.
 Otorga una estructura efectiva en la que se estima las opciones posibles y
consecuencias de seleccionar una de ellas.
 En cuanto a negocios, funciona para determinar políticas en la compañía.
 En el ámbito de administración financiera y gerencia es de gran ayuda puesto que
mide el riesgo y beneficios de las decisiones tomadas.
 Reduce el número de variables.
 Facilita la interpretación de la decisión adoptada.

|04|
5. DESVENTAJAS
 Sólo es recomendable para cuando el número de acciones es pequeño y no son
posibles todas las combinaciones.

6. UTILIDAD:
Son útiles cuando:
o Las alternativas o cursos de acción están bien definidas (por ejemplo: aceptar o
rechazar una propuesta, aumentar o no la capacidad de producción, construir o
no una nueva bodega, etc.)
o Las incertidumbres pueden ser cuantificadas (por ejemplo: probabilidad de éxito
de una campaña publicitaria, probable efecto en ventas, probabilidad de pasar de
etapas, etc.)
o Los objetivos están claros (por ejemplo: aumentar las ventas, maximizar
utilidades, minimizar costos, etc.)

7. APLICACIONES:
Ejemplo de caso real:
Aplicación de un árbol de decisión difusa con clasificación de ambigüedad para
determinar el exceso de peso en escolares.
La técnica del árbol de decisiones en las ciencias de la salud sirve para comprender las
correlaciones entre las descripciones de los pacientes y para clasificar de forma precisa
en diversas categorías. El objetivo del estudio fue analizar la exactitud de la clasificación
del exceso de peso de escolares mediante la aplicación de un árbol de decisión difusa,
utilizando una base de datos de Itaupú, Paraná (Brasil). Se utilizó la base de datos de una
muestra conformada por 5962 estudiantes (3024 del sexo femenino y 2938 del sexo
masculino), con un rango de edad entre los 6 a 17 años de edad. Las variables
consideradas fueron peso, estatura y el Índice de Masa Corporal (IMC). Para clasificar
los datos antropométricos de los escolares se utilizó un árbol de decisión difusa. Los
resultados del aprendizaje mostraron una clasificación correcta en el sexo femenino de
2688 y en el sexo masculino de 2471 registros respectivamente. En relación a la exactitud,
se determinó 84% en el sexo masculino y 89% en el sexo femenino. El Área Bajo la curva
mostró valores más altos en el método Difuso y en ambos sexos (0.965-0.983), mientras
que en el método clásico, fueron inferiores (0.804-0.895). De acuerdo a los resultados
calculados es posible aplicar el árbol de decisión difusa para la clasificación de escolares
con exceso de peso con una exactitud aceptable, además se presenta como una técnica
alternativa que puede ahorrar tiempo a la hora de analizar el estado nutricional, sin
embargo, no se realizó otros cálculos estadísticos que tengan que ver con la precisión y
exactitud a través de métodos estadísticos convencionales y comparar con la técnica de
árboles difusos.

|05|
8. CASOS PRÁCTICOS
8.1. EJEMPLO 01

 Árboles de decisión
 Nodos interiores: atributos
 Arcos: posibles valores del nodo origen
 Hojas: valor de clasificación (usualmente + ó −, aunque podrida ser
cualquier con- junto de valores, no necesariamente binario)
 Representación de una función objetivo

 Disyunción de reglas proposicionales:


(Cielo = Soleado ∧ Humedad = Alta → Jugar Tenis = −)
∨ (Cielo = Soleado ∧ Humedad = Normal → Jugar Tenis = +)
∨ (Cielo = Nublado → Jugar Tenis = +)
∨ (Cielo = Lluvioso ∧ Viento = Fuerte → Jugar Tenis = −)
∨ (Cielo = Lluvioso ∧ Viento = Débil → Jugar Tenis = +)
 Capaz de representar cualquier subconjunto de instancias

APRENDISAJE DE ÁRBOLES DE DECISIÓN

 Objetivo: aprender un árbol de decisión consistente con los ejemplos


 Para posteriormente clasificar ejemplos nuevos
 Ejemplos de conjuntos de entrenamiento:

|06|
Ej. Cielo Temperatura Humedad Viento Jugar tenis
D1 Sol Alta Alta Débil -
D2 Sol Alta Alta Fuerte -
D3 Nubes Alta Alta Débil +
D4 Lluvia Suave Alta Débil +
D5 Lluvia Baja Normal Débil +
D6 Lluvia Baja Normal Fuerte -
D7 Nubes Baja Normal Fuerte +
D8 Sol Suave Alta Débil -
D9 Sol Baja Normal Débil +
D10 Lluvia Suave Normal Débil +
D11 Sol Suave Normal Fuerte +
D12 Nubes Suave Alta Fuerte +
D13 Nubes Alta Normal Débil +
D14 Lluvia Suave Alta Fuerte -

Ej. Color Forma Tamaño Clase


O1 Rojo Cuadrado Grande +
O2 Azul Cuadrado Grande +
O3 Rojo Redondo Pequeño -
O4 Verde Cuadrado Pequeño -
O5 Rojo Redondo Grande +
O6 Verde Cuadrado Grande -

ALGORITMO ID3
ID3(Ejemplos, Atributo-objetivo, Atributos)
1. Si todos los Ejemplos son positivos, devolver un nodo etiquetado con +
2. Si todos los Ejemplos son negativos, devolver un nodo etiquetado con -
3. Si Atributos esta vació, devolver un nodo etiquetado con el valor más frecuente de
Atributo-objetivo en Ejemplos.
4. En otro caso:
4.1. Sea A el atributo de Atributos que MEJOR clasifica Ejemplos
4.2. Crear Árbol, con un nodo etiquetado con A.

|07|
4.3. Para cada posible valor v de A, hacer:
* Añadir un arco a Árbol, etiquetado con v.
* Sea Ejemplos(v) el subconjunto de Ejemplos con valor del atributo A igual a v.
* Si Ejemplos(v) es vació:
- Entonces colocar debajo del arco anterior un nodo etiquetado con el valor más
frecuente de Atributo-objetivo en Ejemplos.
- Si no, colocar debajo del arco anterior el subárbol ID3(Ejemplos(v), Atributo-
objetivo, Atributos-{A}).
4.4 Devolver Árbol
¿CÓMO SABER QUÉ ATRIBUTO CLASIFICA MEJOR?
 Entropía de un conjunto de ejemplos D (resp. de una clasificación):

donde P y N son, resp., los subconjuntos de ejemplos positivos y negativos de D

o Notación: Ent([p+, n−]), donde p = |P| y n = |N|


 Intuición:
o Mide la ausencia de “homogeneidad” de la clasificación
o Teoría de la Información: cantidad media de información (en bits)
necesaria para codificar la clasificación de un ejemplo de D
 Ejemplos:
o Ent([9+, 5−]) = − 9 14 · log2 9 14 − 5 14 · log2 5 14 = 0.94
o Ent([k+, k−]) = 1 (ausencia total de homogeneidad)
o Ent([p+, 0]) = Ent([0, n−]) = 0 (homogeneidad total)
GANANCIA DE INFORMACIÓN
 Preferimos nodos con menos entropía (árboles pequeños)
 Entropía esperada después de usar un atributo A en el árbol:

donde Dv es el subconjunto de ejemplos de D con valor del atributo A igual a v.

 Ganancia de información esperada después de usar un atributo A:

|08|
 En el algoritmo ID3, en cada nodo usamos el atributo con mayor ganancia de
información (considerando los ejemplos correspondientes al nodo)

ALGORITMO ID3 EJEMPLO 01

 Entropía inicial en el ejemplo Jugar tenis, Ent([9+, 5−]) = 0.94


 Selección del atributo para el nodo raíz:
o Ganancia(D, Humedad) = 0.94 − 7 /14 · 0.985 − 7 /14 · 0.592 = 0.151
o Ganancia(D, iento) = 0.94 − 8 /14 · 0.811 − 6 /14 · 1 = 0.048
o Ganancia(D, Cielo) = 0.94 – 5/ 14 · 0.970 − 4 /14 · 0 – 5/ 14 · 0.970 = 0.246
(mejor atributo)
o Ganancia(D, Temperatura) = 0.94 − 4 /14 · 1 − 6 /14 · 0.918 − 4 /14 · 0.811 =
0.02
o Se selecciona el atributo Cielo, que es el que produce mayor ganancia de
información
 Árbol parcialmente construido:

|09|
 Selección del atributo para el nodo Cielo = Sol:

o DSol = {D1, D2, D8, D9, D11} con entropía Ent([2+, 3−]) = 0.971
o Ganancia(DSol, Humedad) = 0.971 − 3 /5 · 0 − 2 /5 · 0 = 0.971 (mejor atributo)
o Ganancia(DSol, Temperatura) = 0.971 − 2 /5 · 0 − 2 /5 · 1 – 1/ 5 · 0 = 0.570
o Ganancia(DSol, Viento) = 0.971 – 2/ 5 · 1 – 3/ 5 · 0.918 = 0.019

 Selección del atributo para el nodo Cielo = Lluvia:

o DLluvia= {D4, D5, D6, D10, D14} con entropía Ent([3+, 2−]) = 0.971
o Ganancia(DLluvia, Humedad) = 0.971 – 2/ 5 · 1 − 3 /5 · 0.918 = 0.820
o Ganancia(DLluvia, Temperatura) = 0.971 − 3 /5 · 0.918 − 2 /5 · 1 = 0.820
o Ganancia(DLluvia, Viento) = 0.971 − 3 /5 · 0 − 2 /5 · 0 = 0.971 (mejor atributo)

 Árbol finalmente aprendido

|010|
8.2. EJEMPLO 02

 Entropía inicial en el ejemplo de los objetos, Ent([3+,3−]) = 1


 Selección del atributo para el nodo raiz:
o Ganancia(D,Color) = 1− 3/6 ·Ent([2+,1−])− 1 /6 ·Ent([1+,0−])− 2 /6 ·Ent([0+,2−])
= 0.543
o Ganancia(D,Forma) = 1− 4/ 6 ·Ent([2+,2−])− 2/ 6 ·Ent([1+,1−]) = 0
Ganancia(D,Tamano) = 1− 4 /6 ·Ent([3+,1−])− 2 /6 ·Ent([0+,2−]) = 0.459 uEl
atributo seleccionado es Color.
 Árbol parcialmente construido

 Selecci´on del atributo para el nodo Color = Rojo:

o DRojo ={O1,O3,O5} con entropía Ent([2+,1−]) = 0.914


o Ganancia(DRojo,Forma) = 0.914− 1/ 3 ·Ent([1+,0−])− 2/ 3 ·Ent([1+,1−]) = 0.247
Ganancia(DRojo,Tamano) = 0.914− 2 /3 ·Ent([2+,0−])− 1/ 3 ·Ent([0+,1−]) = 0.914
 El atributo seleccionado es Tamaño
 Árbol finalmente aprendido:

|011|
BÚSQUEDA Y SESGO INDUCTIVO

 Búsqueda en un espacio de hipótesis


o Espacio de hipótesis completo
o Un único árbol candidato en cada paso
o Sin retroceso (peligro de óptimos locales), búsqueda en escalada
o Decisiones tomadas a partir de conjuntos de ejemplos
 Sesgo inductivo
o Se prefieren arboles más cortos sobre los más largos
o Sesgo preferencial, implícito en la búsqueda
o Principio de la navaja de Occam

MEDIDA DEL RENDIMIENTO DEL APRENDIZAJE

 Conjunto de entrenamiento y conjunto de prueba


o Aprender con el conjunto de entrenamiento
o Medida del rendimiento: proporción de ejemplos bien clasificados en el
conjunto de prueba
 Repetición de este proceso
o Curva de aprendizaje
o Estratificación: cada clase correctamente representada en el entrenamiento y
en la prueba
 Validación cruzada
o Dividir en k partes, y hace k aprendizajes, cada uno de ellos tomando como
prueba una de las partes y entrenamiento el resto. Finalmente hacer la media
de los rendimientos.
o En la práctica: validación cruzada, con k = 10 y estratificación

|012|
SOBREAJUSTE Y RUIDO
 Una hipótesis h∈H sobreajuste los ejemplos de entrenamiento si existe h0 ∈H
que se ajusta peor que h a los ejemplos pero actúa mejor sobre la distribución
completa de instancias.
 Ruido: ejemplos incorrectamente clasificados. Causa sobreajuste
 Ejemplo: supongamos que, por error, se incluye el ejemplo < Verde, Redondo,
Pequeño > como ejemplo positivo
 El árbol aprendido en este caso sería (sobre justado a los datos):

SOBREAJUSTE Y RUIDO

 Otras causas de sobreajuste:


o Atributos que en los ejemplos presentan una aparente regularidad pero
que no son relevantes en realidad
o Conjuntos de entrenamiento pequeños
 Maneras de evitar el sobreajuste:
o Parar el desarrollo del árbol antes de que se ajuste perfectamente a todos
los datos
o Podar el árbol a posteriori
 Poda a posteriori, dos aproximaciones:
o Transformación a reglas, podado de las condiciones de las reglas
o Realizar podas directamente en el árbol
o Las podas se producen siempre que reduzcan el error sobre un conjunto
de prueba
PODADO DE ÁRBOLES
 Un algoritmo de poda para reducir el error
1. Dividir el conjunto de ejemplos en Entrenamiento y Prueba
2. Árbol=arbol obtenido por ID3 usando Entrenamiento
3. Medida = proporción de ejemplos en Prueba correctamente clasificados por Árbol
Continuar=True
4. Mientras Continuar:

|013|
* Por cada nodo interior N de Árbol:
- Podar temporalmente Árbol en el nodo N y sustituirlo por una hoja
etiquetada con la clasificación mayoritaria en ese nodo
- Medir la proporción de ejemplos correctamente clasificados en el
conjunto de prueba.
* Sea K el nodo cuya poda produce mejor rendimiento
* Si este rendimiento es mejor que Medida, entonces Árbol = resultado de podar
permanentemente Árbol en K * Si no, Continuar=Falso
5. Devolver Árbol
OTRA CUESTIÓN PRÁCTICA DEL ALGORITMO ID3
 Extensiones del algoritmo:
o Atributos con valores continuos
o Otras medidas para seleccionar atributos
o Otras estimaciones de error
o Atributos sin valores
 Atributos con coste x Algoritmos C4.5 y C5.0 (Quinlan)

|014|
9. LINKOGRAFÌA:

Recuperado el 27 de Junio del 2014, de https://fr.slideshare.net/rebkmontoya/arbol-de-


decisiones-30503409
Recuperado el 07 de Marzo del 2016, de https://www.gestiondeoperaciones.net/procesos/arbol-
de-decision/
Recuperado el 02 de Mayo del 2018, de http://www.scielo.org.mx/scielo.php?pid=S0188-
95322018000200128&script=sci_arttext
Mitchell, T.M. Machine Learning (McGraw-Hill, 1997)
. Cap. 3: “Decisión tree learning”
Russell, S. y Norvig, P. Inteligencia artificial (Un enfoque moderno)
(Prentice–Hall Hispanoamericana, 1996)
. Cap. 18: “Aprendiendo de observaciones”
Witten, I.H. y Frank, E. Data mining (Morgan Kaufmann Publishers, 2000)
. Cap. 3: “Output: Knowledge representation”
. Cap. 4: “Algorithms: The basic methods”
. Cap. 5: “Credibility: Evaluating what’s has been learned”
. Cap. 6: “Implementations: Real machine learning schemes”

Yuan Y., Shaw M.J. Induction of fuzzy decision trees. Fuzzy Sets and systems, vol.
69, n° 2, pp. 125-139, 1995. doi: 10.1016/0165-0114(94)00229-Z

Mitchell, T. M. Machine Learning – Texto: McGraw–Hill, 1997. Cap´ıtulo III. – Web:


http://www.cs.cmu.edu/~tom/mlbook.html

|015|

Das könnte Ihnen auch gefallen