Sie sind auf Seite 1von 11

CRISP DM

1. Comprensin del negocio

1.1 Determinar Objetivos del Negocio Objetivos del Negocio o Determinar patrones de compras de los productos en un supermercado a partir de su base de datos comprendido entre los aos 2007 y 2011. Criterios de xito o Se desea que el patrn de compra desconocido o inusual se manifieste en un 20% del total de las reglas.

1.2 Evaluacin de la Situacin Inventario de Recursos Hardware 2 Computadoras para el desarrollo y ejecucin de pruebas - HP Pavilion DV4. AMD Turion dual core 2.3Ghz. 4Gb de RAM. 320Gb disco duro. SO Windows 7. - Sony VAIO VGN-CS320J. Intel CoreDuo 2.1Ghz. 4Gb de RAM. 300Gb disco duro. SO Windows 7. Fuente de datos y conocimientos - Base de datos del supermercado local - Visitas y entrevista al gerente de marketing - Revisin de documentos bibliogrficos

Software Smart SVN 5 Assembla Gantt Project 2.0.10 Open Office 2007 Microsoft Office 2007 y 2010 SQL Express 2008 SQL Management Studio 2008

DTS Manager Weka 3.6 Rapidminer 5 Tanagra 1.4

Personales - Marcela Baukloh, Desarrolladora del sistema - Carina Yoshimura, Desarrolladora del sistema - Msc. Horacio Kuna, Director de tesis - Ing. AminMansuri, Asesor interno

Requerimientos, Suposiciones y Restricciones

El personal autorizado del supermercado local nos facilit la informacin necesaria para realizar el trabajo de minera de datos, en formato texto plano, planillas y copia de la base de datos del sistema administrativo, no se esperan problemas respecto a la disponibilidad de la informacin. Para el proyecto no se ha considerado un gasto financiero entonces se desconoce si puede surgir restricciones por problemas financieros. En cuanto al plazo de finalizacin se pretende terminar el trabajo en aproximadamente 5 meses. Se vio la manera de importar los datos a MS SQL Server Express 2008 por lo que se recurri a comandos SQL para importar los datos necesarios a partir de los archivos disponibles.

Riesgos y Contingencias

1- Riesgo: Perdida de los datos. Plan de accin: Realizar backupa de los datos. Plan de contingencia: Volver a conseguir los datos del supermercado. 2- Riesgo: Atraso en el desarrollo de las pruebas. Plan de accin: Trabajar como mnimo 4 horas diariamente. Plan de contingencia: Dedicar ms horas diarias al desarrollo. 3- Riesgo: Dificultad de comunicacin con el tutor o el asesor. Plan de accin: Obtener datos personales para facilitar la comunicacin. Plan de contingencia: Solicitar reunin con el tutor o asesor. 4- Riesgo: Conflicto entre los integrantes responsables del proyecto. Plan de accin: Tener una buena comunicacin. Plan de contingencia: Solicitar una reunin con el tutor. 5- Riesgo: Error en la definicin de requisitos. Plan de accin: Controlar los requisitos ya definidos. Plan de contingencia: Corregir los requisitos o reescribirlos. 6- Riesgo: Fallo de los equipos. Plan de accin: Mantenimiento preventivo por mes. Plan de contingencia. Inspeccin tcnica y reparacin o nueva adquisicin. 7- Riesgo: Dificultad de conseguir las herramientas necesarias para las pruebas. Plan de accin: Pedir apoyo al tutor. Plan de contingencia: Seleccionar otras herramientas. 8- Riesgo: Datos no confiables e incompletos para las pruebas. Plan de accin: Convertir a una base de datos ms fiable. Plan de contingencia: Buscar otra base de datos. 9- Riesgo: Aparicin de nuevos requisitos. Plan de accin: Redactar el nuevo requisito. Plan de contingencia: Redefinir los requisitos.

Terminologas (todava falta escribir los conceptos) Terminologa del Negocio o o o o o o o Anlisis de Canasta de Mercado Patrones Patrn de compra Incertidumbre Coste Economa Marketing

Terminologa de Minera de Datos o o o o o o o o o o o o o o o o o o Base de Datos Minera de Datos Informacin Conocimiento Explotacin de Informacin Algoritmos de asociacin Algoritmos de clasificacin Benchmarking Soporte Confianza rbol Regla Medida de Contenido de Informacin Clase Variable de intervalo Entropa Coeficiente de Gini Ganancia de Informacin

1.3 Determinar Objetivos de Minera de Datos Objetivos o Disear dos mecanismos de benchmarking para algoritmos de asociacin y algoritmos de clasificacin.

Criterios de xito o Porcentaje de xito o confianza de las pruebas, considerando que los algoritmos incluyen mtodos para evaluar el grado de confianza de las reglas resultantes.

1.4 Producir un Plan de Proyecto Plan de Proyecto Tareas por semana Redactar nota para pedir anulacin de la propuesta anterior y para presentar la nueva propuesta Redaccin de la documentacin segn CRISP DM Preparacin de los datos en una base de datos Preparacin de los datos en una base de datos Definicin del entorno tecnolgico y las herramientas a utilizar Realizar pruebas con las herramientas seleccionadas Estudio de las reglas de asociacin y clasificacin Estudio de benchmarking Redaccin del libro Seleccin de los parmetros de evaluacin de los algoritmos Probar los diferentes algoritmos para el anlisis de canasta de mercado Redaccin del libro Comparacin de los diferentes algoritmos Redaccin del libro Diseo del mecanismo de benchmarking Redaccin del libro Identificacin de patrones Redaccin del libro

Fecha 31/10/2011 06/11/2011

07/11/2011 13/11/2011 14/11/2011 4/12/2011 05/12/2011 15/01/2012 16/01/2012 10/02/2012 23/01/2012 22/02/2011 13/02/2012 29/02/2012

Evaluacin Inicial de Herramientas y Tcnicas Se utilizarn las herramientas anteriormente expuestas considerando las necesidades del proyecto: Smart SVN: cliente grfico para subversin Open Source. Assembla: provee espacios pblicos y gratuitos para la administracin de tareas. Gantt Project: manejador de planificacin. Open Office 2007: se utilizar para exportar archivos a pdf. Microsoft Office 2007 y 2010: se usar para el manejo de datos. SQL Express 2008: motor de base de datos a utilizar. SQL Management Studio 2008: administrador la base de datos.

DTS Manager: administrador para importar y exportar datos a de diferentes bases de datos. Weka: herramienta para realizar la explotacin de la informacin. Rapidminer: herramienta para realizar la explotacin de la informacin. Tanagra: herramienta para realizar la explotacin de la informacin.

Fase 2: Entendimiento de los datos

Recogida inicial de datos

Los datos que necesitamos para este proyecto son los datos de las transacciones de las ventas de un supermercado. Los datos necesarios para la minera de datos son los datos referentes a las transacciones de las ventas de un supermercado que son: Datos del ticket: Nro de ticket, Fecha, Producto, Marca, Seccin, Grupos, Divisiones, Pagos. Contamos con datos de las transacciones del supermercado casa central por un periodo de 5 aos.

Describir los datos Los datos fueron provedos en formato Excel, archivos txt, y una copia backup de la Base de datos del sistema administrativo del supermercado (tipo SQL Server 2008). Los datos fueron necesario extraer una parte del sistema administrativo y por otra parte del sistema de cajas, ya que estos trabajan de forma individual. Los datos de las transacciones de compras por ticket fueron extradas a partir del sistema de cajas en formato txt por el administrador de base de datos del supermercado. Posteriormente creamos una base de datos en SQL Server Express e importamos solo las tablas necesarias para el proceso de minera. Las tablas a utilizar son Articulos, Marca, Cuenta, Grupos, Divisiones, Secciones, Pagos, Forma_Pago, Ticket_Cabecera, Ticket_Detalle. Las dems tablas son irrelevantes, porque nuestro objetivo de minera se centra en la aplicacin de la regla de clasificacin y asociacin de patrones de compra, para lo cual utilizaremos los datos de transacciones de ventas por ticket.

Nombre pre_Codigo pre_Nombre

Descripcin PK de la presentacin Nombre de la presentacin del producto. Ejemplo: 200gr (Puede ser un paquete de pan de 200gr) PK del artculo Nombre del artculo

Tipo de dato smallint varchar(20)

Nombre Tabla Presentacion Presentacion

Rango 1 al 760 759 datos 759 tipos de presentaciones con unidades de medidas diferentes activos 1 al 78766 78726 nombres de artculos diferentes activos

art_Codigo art_Nombre

int varchar(100)

Articulo Articulo

art_Presentacion art_Marca art_Estado

Cdigo de la presentacin, FK Cdigo de la marca, FK Estado del producto. Activo o Inactivo Cdigo del proveedor del producto, FK Cdigo de las secciones, FK PK de la marca Nombre de la marca PK de proveedor Nombre del proveedor PK de los grupos. Es la familia a la que pertenece un producto. Nombre del grupo PK de las divisiones. Es el conjunto de la familia a la que pertenece un producto. Nombre de las divisiones. Cdigo del grupo, FK Cdigo de las secciones, PK. Se refiere a las ubicaciones fsicas de los productos. (gondolas) Nombre de la seccin Pagos

smallint smallint varchar(1)

Articulo Articulo Articulo A I

art_Proveedor

smallint

Articulo

art_Seccion mar_Codigo mar_Nombre

smallint smallint varchar(30)

Articulo Marcas Marcas 1 al 3092 3082 tipos de marcas diferentes activos 1 al 994 991 nombres de proveedores activos 1 al 99

cue_Codigo cue_Nombre

smallint varchar(100)

Cuentas Cuentas

grp_Codigo

varchar(2)

Grupos

grp_Nombre div_Codigo

varchar(50) varchar(4)

Grupos Divisiones

70 tipos de nombres activos 1 al 9903

div_Nombre div_Grupo sec_Codigo

varchar(50) varchar(2) smallint

Divisiones Divisiones Secciones

264 tipos de divisiones activos

1 al 75

sec_Nombre pagd_Cod_Comp

varchar(30) int

Secciones Pagos

74 tipos de secciones activos 6450833 pagos realizados activos

pagd_Nro_Comp pagd_Forma_Pa go pagf_Forma_Pag o pagf_Descripcion Tick_Nro_Local

Tick_Nro_Ticket Tick_Fecha_Tick et Tick_Hora_Ticket Tick_Nro_Caja Tick_Cant_Artic Tick_Total_Ticket Tcde_Nro_Ticket Tcde_Cod_Articul o Tcde_Cantidad Tcde_Precio_Unit Tcde_Total_Item Tcde_Desc_Abre v

Nmero de ticket Cdigo de forma de pago PK de forma de pago Nombre de la forma de pago Cdigo del local. Existe varios sucursales Cdigo del ticket, PK Fecha del ticket Hora del ticket Nmero de caja Cantidad de artculos Monto total por ticket Nmero de ticket, PK Cdigo del producto Cantidad por producto Precio unitario del producto Costo total por producto Descripcin abreviada del producto

int int int varchar(30) int

Pagos Pagos Pagf_Forma_Pa go Pagf_Forma_Pa go TICKET_CABE CERA TICKET_CABE CERA TICKET_CABE CERA TICKET_CABE CERA TICKET_CABE CERA TICKET_CABE CERA TICKET_CABE CERA TICKET_DETAL LE TICKET_DETAL LE TICKET_DETAL LE TICKET_DETAL LE TICKET_DETAL LE TICKET_DETAL LE 1 al 9 8 formas de pagos activos 1 al 9

int varchar(50) varchar(50) int int float int int float float float varchar(50)

1 al 859267223 2007 al 2011

1 al 12 1 al 1386