Beruflich Dokumente
Kultur Dokumente
Tema:
Práctica 3 de Datamining: Arboles de decisión con Weka
Objetivos:
Predecir, en base al modelo generado, la compra o no de una bicicleta según los datos
ingresados de distintos clientes.
Marco teórico:
1. Las alternativas o cursos de acción están bien definidas (por ejemplo: aceptar o rechazar
una propuesta, aumentar o no la capacidad de producción, construir o no una nueva
bodega, etc.)
2. Las incertidumbres pueden ser cuantificadas (por ejemplo: probabilidad de éxito de una
campaña publicitaria, probable efecto en ventas, probabilidad de pasar de etapas, etc.)}
3. Los objetivos están claros (por ejemplo: aumentar las ventas, maximizar utilidades,
minimizar costos, etc.)
WEKA [2]
Características
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Clasificador J48
J48 es una implementación open source en lenguaje de programación Java del algoritmo C4.5
en la herramienta weka de minería de datos. Este algoritmo es usado para generar un árbol de
decisión.
Desarrollo de la práctica
Se dirige a la pestaña “Classify” y se selecciona el algoritmo que se utilizará para crear el árbol
de decisión, que en este caso es el clasificador J48. A continuación se escoge en “Test options”
la opción “Use training set” con el fin de que se escoja todo el conjunto de datos, ingresados en
el archivo arff, para el entrenamiento.
Otro punto importante que mencionar es que al final de esta información se presenta la “Matriz
de confusión”.
- 6 casos fueron clasificados como que los clientes no compraron la bicicleta cuando en
realidad no lo hicieron.
- 21 casos fueron clasificados como que los clientes compraron la bicicleta cuando en
realidad no lo hicieron.
- 1 caso fue clasificado como que el cliente no compro la bicicleta cuando en realidad si
lo hizo.
- 72 casos fueron clasificados como que los clientes compraron la bicicleta cuando en
realidad si lo hicieron.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Como se puede notar las únicas instancias bien clasificadas se encuentra en la diagonal
principal de la matriz.
Dar clic derecho en la opción “trees.J48”, presente en la sección “Result list”, y dar clic en
“Visualize tree”
Al observar el gráfico del árbol de decisión obtenido se puede obtener algunas reglas de
clasificación como por ejemplo las siguientes:
5. Preparar un nuevo archivo con datos para la clasificación con el modelo generado
Se crea un nuevo archivo arff con algunos datos para usarlos como prueba para el modelo
generado. Cabe recalcar que en la información correspondientes a bikebuyer se colocará un
signo de cierre de pregunta, tal como se muestra en la siguiente imagen:
6. Realizar la clasificación
Se dirige a la pestaña “Classify” y en la sección “Result list” se da clic derecho y se carga el modelo
generado en los anteriores pasos.
En "Test options", se tiene que seleccionar "Supplied test set", y una vez que el archivo está
cargado se selecciona "BikeBuyer" de la lista de atributos.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Luego, al hacer clic en "More Options ", se abre una nueva ventana y se elige “PlainText” en
“Output predicitions”.
Los resultados se muestran en el panel "Classifier output", en "Predicciones on user sets ".
Conclusiones y recomendaciones
- Se logró comprender que Weka es una herramienta muy útil en campos como
aprendizaje automático y minería de datos ya que posee una colección de herramientas
de visualización y algoritmos para análisis de datos y modelado predictivo que se unen
en interfaz gráfica para poder acceder fácilmente a sus funcionalidades.
- Se logró crear un modelo de árbol de decisión en base a la información obtenida de la
vista “targetedMail”. Sin embargo, al utilizar pocos datos de esta, la exactitud del
modelo no fue alta.
- Se logró comprender y analizar el funcionamiento y los resultados que se presentan en
la matriz de confusión, notando que las únicas instancias bien clasificadas se encuentran
en la diagonal principal de esta.
- Se recomienda usar todos los registros de la vista targetedMail con el fin de generar un
modelo más preciso.
Referencias
[1] Tutoriales, G. (2018). Árbol de Decisión . [en línea] Gestión de Operaciones. Disponible en:
https://www.gestiondeoperaciones.net/procesos/arbol-de-decision/ [Consultado el 29 de
junio de 2018].