Sie sind auf Seite 1von 50

Proyectos de Ingeniera de Sistemas II Minera de Datos

Facultad de Ingeniera Industrial y de Sistemas


Carrera Profesional de Ingeniera de Sistemas

Minera de datos aplicados a las


ventas con tarjeta de crdito clsica
realizados en las tiendas Saga
Falabella en la ciudad de Lima.
PROYECTO DE TESIS
Presentada por: Hober Willy Siccha Vega
Asesorado por: Ing. Pedro Chvez Farfn
Lima Per
2012

Proyectos de Ingeniera de Sistemas II Minera de Datos

INDICE DE CONTENIDO

INTRODUCCION............................................................................................................7
CAPITULO I: ASPECTOS GENERALES.......................................................................8
1.1 Definicin del problema........................................................................................................ 8
1.2 Definicin de los objetivos................................................................................................. 10
1.3 Justificacin del Proyecto.................................................................................................. 10
1.4 Alcance del Proyecto........................................................................................................... 11

CAPITULO II: FUNDAMENTO TEORICO....................................................................12


2.1 Minera de Datos (Data Mining)..........................................................................................12
2.1.1 Definicin de Minera de Datos........................................................................................... 12
2.1.2 Principales caractersticas y objetivos de la Minera de Datos.............................................13
2.1.3 Fases de un Proyecto de Minera de Datos........................................................................13
2.1.4 Tcnicas de Minera de Datos............................................................................................ 14
2.1.5 Aplicaciones de Minera de Datos.......................................................................................16
2.2 Plataforma Microsoft SQL Server (Minera de Datos).......................................................17
2.2.1 Microsoft SQL Server.......................................................................................................... 17
2.2.2 Caractersticas de Microsoft SQL Server............................................................................17
2.3 Metodologa de Validacin del Modelo de Minera de Datos (MS SQL Server)................19
2.3.1 Realizar particiones de los datos en conjuntos de aprendizaje y de prueba........................19
2.3.2 Validacin cruzada de modelos de minera de datos...........................................................19
2.3.3 Medir la precisin del modelo de minera de datos (Analysis Services)...............................20
2.3.3.1 Grfico de elevacin........................................................................................................ 20
2.3.3.2 Grfico de beneficios....................................................................................................... 21
2.3.3.3 Grfico de dispersin....................................................................................................... 22
2.3.3.4 Matriz de clasificacin...................................................................................................... 22
2.3.3.5 Informe de validacin cruzada......................................................................................... 23
2.4 Estrategias de mercado...................................................................................................... 24

Proyectos de Ingeniera de Sistemas II Minera de Datos

CAPITULO III: MINERIA DE DATOS A LAS VENTAS REALIZADAS CON TARJETA


DE CREDITO CLASICA EN SAGA FALABELLA EN LIMA.........................................26
3.1 Implementacin de Modelos de Minera de Datos (MS SQL Server)................................26
3.1.1 Crear conexin a la base de datos......................................................................................26
3.1.2 Crear una vista al Data Source........................................................................................... 26
3.1.3 Construir un modelo de Minera de Datos...........................................................................28
3.1.3.1 Arboles de Decisin (Microsoft Decision Trees)................................................................28
3.1.3.2 Clustering (Microsoft Clustering)......................................................................................33
3.2 Validacin de los Modelos de Minera de Datos (MS SQL Server)....................................38
3.2.1 Validacin del modelo rbol de Decisiones.........................................................................38
3.2.1.1 Medir la mejora respecto al modelo (Grfico de Elevacin)..............................................38
3.2.1.2 Generar matriz de clasificacin........................................................................................ 39

CONCLUSIONES.........................................................................................................41
REFERENCIAS............................................................................................................ 42

Proyectos de Ingeniera de Sistemas II Minera de Datos

INDICE DE ILUSTRACIONES

FIGURA Nro. 1: Fases del Proyecto de M.D..................................................................13


FIGURA Nro. 2: Conexin de la plataforma de M.D. con la base de datos.....................26
FIGURA Nro. 3: Vista de la tabla MaeCliente (Maestro de clientes)...............................27
FIGURA Nro. 4: Creacin de la estructura de M.D. utilizando la tcnica de Arboles de
decisiones.................................................................................................................... 28
FIGURA Nro. 5: Especificacin de los campos de entrada, claves y de prediccin........29
FIGURA Nro. 6: Determinacin del contenido y el tipo de datos seleccionados.............29
FIGURA Nro. 7: Implementacin del modelo de minera de datos.................................30
FIGURA Nro. 8: Leyenda del modelo de minera de datos............................................30
FIGURA Nro. 9: Red de dependencias del modelo de minera de datos........................31
FIGURA Nro. 10: Modelo final de minera de datos utilizando la tcnica de Arboles de
decisiones.................................................................................................................... 32
FIGURA Nro. 11: Creacin de la estructura de M.D. utilizando la tcnica de Clustering. 33
FIGURA Nro. 12: Especificacin de los campos de entrada, claves y de prediccin......34
FIGURA Nro. 13: Determinacin del contenido y el tipo de datos seleccionados...........34
FIGURA Nro. 14: Implementacin del modelo de minera de datos...............................34
FIGURA Nro. 15: Modelo final de minera de datos utilizando la tcnica de Clustering. .35
FIGURA Nro. 16: Caractersticas del clster Nro. 7.......................................................36
FIGURA Nro. 17: Perfiles del clster Nro. 7...................................................................37

Proyectos de Ingeniera de Sistemas II Minera de Datos

INDICE DE GRAFICOS

GRAFICO Nro. 1: Nmero de transacciones de compras con tarjeta de crdito clsica


realizados en las tiendas en la ciudad de Lima...............................................................8
GRAFICO Nro. 2: Ventas con tarjeta de crdito clsica realizados en las tiendas en la
ciudad de Lima............................................................................................................... 9
GRAFICO Nro. 3: Grfico de elevacin de minera de datos.........................................21
GRAFICO Nro. 4: Grfico de beneficios de minera de datos........................................21
GRAFICO Nro. 5: Grfico de dispersin de minera de datos........................................22
GRAFICO Nro. 6: Grfico de elevacin de M.D. para el modelo ArbDecMaeCliente......38
GRAFICO Nro. 7: Matriz de clasificacin de M.D. para el modelo ArbDecMaeCliente. . .39

Proyectos de Ingeniera de Sistemas II Minera de Datos

INDICE DE TABLAS

TABLA I: Tabla de matriz de clasificacin de minera de datos.......................................22


TABLA II: Estructura de la tabla MaeCliente (Maestro de Clientes)................................27

Proyectos de Ingeniera de Sistemas II Minera de Datos

Introduccin
El desarrollo tecnolgico al que hemos llegado, el aumento desbordante del nmero de
consumidores, la capacidad de compra del consumidor, la enorme demanda de productos,
la diversidad de productos en el mercado, la gran cantidad de servicios que se ofrecen en
todos los giros comerciales, la gran variedad de perfiles del consumidor moderno, la cada
vez mayor exigencia del cliente que demanda nuevos productos de mayor calidad, ms
funcionales, con mayor capacidad de resolucin, con mayor capacidad de respuesta y a
mejor precio, por todo esto y ms en la actualidad se estn creando grandes montaas de
datos, bases de datos de enorme tamao, millones de datos que se han estado
almacenando o que siguen almacenndose, cada da los cerros de informacin en forma
de datos numricos, han planteado a los investigadores y analistas de datos nuevos retos
para el manejo de los mismos y de su anlisis para luego extraer de ellos conocimiento,
sobre todo de la fuente que los gener, el consumidor.
Los mineros entran a las entraas de la tierra, en las montaas se abren camino entre las
rocas, tierra, arcilla, lodo, en busca de la esencia, el metal precioso hasta que encuentran la
veta de oro y plata de entre las toneladas de escombro, piedra y lodo, y extraen el material
realmente valioso.
De la misma manera, el analista entra a las montaas de datos en bsqueda de la esencia
de la informacin sobre las variables del problema. A diario se generan grandes cantidades
de datos dando lugar a inmensas bases de datos, que en su interior contienen informacin
muy valiosa, esencial para el descubrimiento del conocimiento que permita tomar
decisiones sobre el presente y futuro de las organizaciones.
Con la enormidad de las montaas de datos que actualmente se generan, ya no solo es
viable el uso de las tcnicas estadsticas tradicionales para su anlisis y bsqueda de
fundamentos como: probar hiptesis, el muestreo, la teora de lmite central, la teora de la
estimacin, la regresin, el anlisis de varianza, el diseo de experimentos.

Proyectos de Ingeniera de Sistemas II Minera de Datos


Las cantidades de informacin en la actualidad son tan enormes que es prcticamente
imposible su asimilacin por una sola persona, por lo que se hace necesario contar con
nuevos mtodos de procesamiento de datos, nuevas tecnologas que nos permitan y nos
faciliten el proceso de bsqueda del conocimiento escondido al interior de las enormes
montaas de datos existentes y que nos proporcionen la esencia contenida en la base de
datos.
El inters de esta investigacin es determinar el comportamiento a futuro y la naturaleza de
los datos histricos de ventas con tarjeta de crdito clsica en las tiendas de Saga
Falabella de la ciudad de Lima a travs de la explotacin de las tcnicas de minera de
datos, con la finalidad de ayudar a los miembros de la alta direccin a analizar los hbitos
de los clientes a fin de satisfacer mejor su demanda, mejorar la administracin de los
inventarios de los productos que estn asociados a las transacciones de ventas y mejorar
los volmenes de ventas.

CAPITULO I: ASPECTOS GENERALES


1.1

Definicin del Problema


1.1.1

Descripcin del Problema

Saga Falabella es una de las empresas ms grandes del Per y forma parte del Grupo
Falabella que agrupa las cadenas de tiendas por departamentos ms importantes de
Sudamrica, con presencia en Per, Chile, Argentina y Colombia. (5)
En el Per Falabella desarrolla su actividad comercial a travs de varias reas de
negocio, las principales son las tiendas por departamento. (5) Al cierre del presente trabajo
Saga Falabella cuenta con 19 tiendas, 9 de ellas en provincia y espera duplicar sus
operaciones para finales del ao 2015, para lo cual planea inaugurar durante dicho
periodo entre 15 y 20 tiendas ms.

Proyectos de Ingeniera de Sistemas II Minera de Datos


Entre el 2007 y el 2012 el nmero de transacciones y las ventas con tarjeta de crdito
clsica han sufrido un incremento considerable. Esto debido al incremento del poder
adquisitivo de la poblacin, la expansin de la economa y la mayor cobertura geogrfica
de los locales. (2,4)

Grfico Nro. 1: Nmero de transacciones de compras con tarjeta de crdito clsica


realizados en las tiendas en la ciudad de Lima.
Fuente: Empresa Saga Falabella

250000
201059
200000
150000
100000
50000

64439
12771

17333

21452

2007

2008

2009

34773

0
2010

2011

2012

Ventas tarj. clasica

Grfico Nro. 2: Ventas con tarjeta de crdito clsica


realizados en las tiendas en la ciudad de Lima (mill. S/.).
Fuente: Empresa Saga Falabella

Proyectos de Ingeniera de Sistemas II Minera de Datos

De lo dicho anteriormente en los ltimos aos, los datos grabados de la empresa Saga
Falabella en la base de datos han ido incrementndose considerablemente. Esta
informacin, de gran importancia estratgica para la empresa Saga Falabella, se accede
a travs del uso de tcnicas clsicas como son sentencias SQL y los procedimientos
almacenados. Por tal motivo existe demora en la recuperacin y el anlisis de la
informacin para la elaboracin de informes, formularios y reportes de gestin solicitados
por la alta direccin.
As es necesaria la utilizacin de mtodos analticos ms avanzados, como es la minera
de datos para la explotacin de datos con la finalidad de ayudar a los miembros de la alta
direccin a la toma de decisiones.

1.1.2 Formulacin del Problema


Cul es el comportamiento en el futuro y la naturaleza de las operaciones con tarjeta de
crdito clsica en las tiendas de Saga Falabella en la ciudad de Lima?

1.2 Definicin de los Objetivos


1.2.1 Objetivo General
Determinar el comportamiento a futuro y la naturaleza de los datos histricos de ventas
con tarjeta de crdito clsica de Saga Falabella en la ciudad de Lima, a travs de las
tcnicas de minera de datos.

1.2.2 Objetivos Especficos

Disear la plataforma de minera de datos para el proceso de transacciones de


compras de tarjeta de crdito clsica de Saga Falabella.

Proyectos de Ingeniera de Sistemas II Minera de Datos

Disear el modelo de datos que se usar para la plataforma de minera de datos.

Disear las tcnicas de validaciones que permitan comprobar la calidad de las


predicciones encontradas en el presente trabajo.

Disear estrategias de mercado para el departamento de tarjeta de crdito de Saga


Falabella en la ciudad de Lima basado en las tcnicas de minera de datos.

1.3 Justificacin del Proyecto


Debido a que los volmenes de operaciones de ventas con tarjeta de crdito clsica han
crecido consistentemente y representan actualmente el 65% del total de las ventas de
Saga Falabella.

(2,4)

La empresa cuenta con tcnicas clsicas de anlisis de datos,

originando demora en la recuperacin y el anlisis de la informacin solicitados por los


miembros de la alta direccin.

El presente proyecto es importante porque permitir determinar el comportamiento a


futuro y la naturaleza de los datos histricos de ventas realizadas con tarjeta de crdito
clsica de Saga Falabella en la ciudad de Lima, utilizando tcnicas de minera de datos.
Con la finalidad de ayudar a los miembros de la alta direccin a analizar los hbitos de
los clientes a fin de satisfacer mejor su demanda, mejorar la administracin de los
inventarios de los productos que estn asociados a las transacciones de ventas y mejorar
los volmenes de ventas realizados con la tarjeta de crdito clsica en las tiendas de
Saga Falabella en la ciudad de Lima.

1.4 Alcance del Proyecto


El presente trabajo abarca el estudio de las transacciones en el rea de tarjeta de crdito
de Saga Falabella basado en las tcnicas de minera de datos. Las transacciones a
contemplar son las compras con tarjeta de crdito tipo CMR clsica realizadas por los
consumidores en las tiendas retail de Saga Falabella en la ciudad de Lima. Dichas

Proyectos de Ingeniera de Sistemas II Minera de Datos


transacciones fueron extradas de la base de datos de la sede central en Lima ubicado
en Av. Navarrete Nro. 798 San Isidro y tienen la informacin histrica del ao 2007
hasta finales del ao 2012.
Es preciso sealar que la plataforma que se emplear para el anlisis es la de Microsoft
SQL Server 2008 R2.

Proyectos de Ingeniera de Sistemas II Minera de Datos

CAPITULO II: FUNDAMENTO TEORICO


2.1 Minera de Datos (Data Mining)
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y
colectar datos, debido bsicamente al gran poder de procesamiento de las mquinas como a
su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos
existe una gran cantidad de informacin oculta, de gran importancia estratgica, a la que no
se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El
descubrimiento de esta informacin oculta es posible gracias a la Minera de Datos, para
encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos,
pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga
de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan
un significado a estos patrones encontrados. (7)
Bsicamente, el KDD est compuesto por los pasos de seleccin de datos (los datos
relevantes para el anlisis se recuperan de la base de datos), el preprocesamiento de los
datos (limpiar y preparar los datos), data mining (construir modelos descriptivos/predictivos)
y evaluacin del modelo (conseguir los modelos descriptivos/predictivos que mejor
solucionen el problema). (10)
As el valor real de los datos reside en la informacin que se puede extraer de ellos,
informacin que ayude a tomar decisiones o mejorar la comprensin de los fenmenos que
nos rodean. Hoy, ms que nunca, los mtodos analticos avanzados son el arma secreta de
muchos negocios exitosos. Empleando mtodos analticos avanzados para la explotacin de
datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen
costos y mejoran la satisfaccin del cliente. (7)

2.1.1 Definicin de Minera de Datos


La minera de datos es un conjunto de herramientas y tcnicas de anlisis de datos que por
medio de la identificacin de patrones extrae informacin interesante, novedosa y
potencialmente til de grandes bases de datos que puede ser utilizada como soporte para la
toma de decisiones. Normalmente, estos patrones no se pueden detectar mediante la
exploracin tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos. Una gran parte de estas tcnicas son una combinacin directa
de madurez en tecnologa de bases de datos y data warehousing, con tcnicas de
aprendizaje automtico y de estadstica. (3,8)

Proyectos de Ingeniera de Sistemas II Minera de Datos


Para descubrir conocimiento de la informacin se pueden utilizar varias formas de anlisis
por medio de las cuales se puede llegar a identificar patrones y reglas en los datos para
luego crear escenarios, esta informacin se puede representar por medio de modelos
matemticos sobre datos histricos y con esto se crea un modelo de minera de datos.
Despus de haber creado un modelo de minera de datos, se puede examinar nueva
informacin a travs del modelo evaluando si se apega a los patrones o reglas definidos. (3)

2.1.2 Principales caractersticas y objetivos de la Minera de Datos (7)

Explorar los datos que se encuentran en las profundidades de las bases de datos, como
los almacenes de datos, que algunas veces contienen informacin almacenada durante
varios aos.

Las herramientas de la minera de datos ayudan a extraer la informacin.

Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y


procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta
necesario usar procesamiento en paralelo para la minera de datos.

La minera de datos produce cinco tipos de informacin: asociaciones, secuencias,


clasificaciones, agrupamientos y pronsticos.

2.1.3 Fases de un Proyecto de Minera de Datos (7)


En la figura 3 se ilustra las fases del proyecto de MD, los pasos a seguir para la realizacin
de un proyecto de minera de datos son siempre los mismos, independientemente de la
tcnica especfica de extraccin de conocimiento usada.

Figura Nro. 1: Fases del Proyecto de M.D.


Fuente: Vallejos, 2006. Minera de Datos

El proceso de minera de datos pasa por las siguientes fases:

Proyectos de Ingeniera de Sistemas II Minera de Datos

Filtrado de datos: El formato de los datos contenidos en la fuente de datos (base de datos,
Data Warehouse) nunca es el idneo, y la mayora de las veces no es posible ni siquiera
utilizar ningn algoritmo de minera sobre los datos en bruto.
Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores
incorrectos, no vlidos, desconocidos, segn las necesidades y el algoritmo a usar), se
obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del
proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering entre
otros).

Seleccin de Variables: An despus de haber sido pre-procesados, en la mayora de los


casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el
tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas
sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del problema,
Y aquellos que buscan variables independientes mediante test de sensibilidad, algoritmos
de distancia o heursticos.

Extraccin de Conocimiento: Mediante una tcnica de minera de datos, se obtiene un


modelo de conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociacin entre dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un pre-procesado diferente de los datos.

Interpretacin y Evaluacin: Una vez obtenido el modelo, se debe proceder a su validacin,


comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se
deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los
pasos anteriores para generar nuevos modelos.

2.1.4 Tcnicas de la Minera de Datos


Los modelos descriptivos se rigen por un proceso de aprendizaje no supervisado: el objetivo
es identificar patrones en los datos sin indicadores externos que guen al algoritmo (es decir,
sin conocer la realidad a priori). En este sentido, los modelos descriptivos sirven para

Proyectos de Ingeniera de Sistemas II Minera de Datos


explorar las propiedades de los datos examinados. El clustering y las reglas de asociacin
(RA) son las herramientas ms representativas de la Minera de Datos. (10)
Por otro lado, los modelos predictivos requieren de un proceso de aprendizaje supervisado:
la tcnica supervisa en el modelo en construccin el grado de ajuste a la realidad conocida.
En este sentido, dichos modelos pretenden estimar valores futuros o desconocidos de una
variable respuesta. Entre las tcnicas de prediccin ms utilizadas se encuentran Redes
bayesianas (NB), como una moderna tcnica estadstica, y las Redes Neuronales Artificiales
(RNA) y los rboles de Decisin (AD). (10)
A continuacin explicaremos las tcnicas de Minera de Datos:
2.1.4.1 Reglas de Asociacin
Como ya se ha comentado, los modelos de aprendizaje no supervisado se usan cuando el
resultado de inters no es conocido y el sistema debe aprender directamente de los datos.
Una de las herramientas ms populares incluidas en el aprendizaje no supervisado son las
Reglas de Asociacin. Las RA recogen relaciones interesantes entre un gran conjunto de
informacin. Un ejemplo tpico de esta aplicacin consiste en encontrar asociaciones entre
los artculos comprados en los grandes almacenes (anlisis de la cesta de la compra).
Este tipo de informacin es muy valiosa para situar estratgicamente los productos en los
grandes almacenes o planificar las promociones de determinados artculos, y su uso se ha
generalizado a cualquier mbito en el que se disponga de grandes cantidades de
informacin almacenada. (10)
2.1.4.2 Tcnicas de clustering.
Son tcnicas que parten de una medida de proximidad entre individuos y a partir de ah,
buscar los grupos de individuos ms parecidos entre s, segn una serie de variables
mesuradas. (1)
2.1.4.3 Redes bayesianas
Est basado en el teorema de Bayes, que puede predecir la probabilidad de que un caso
dado pertenezca a una clase determinada.

(10)

Consiste en representar todos los posibles

sucesos en que estamos interesados mediante un grafo de probabilidades condicionales de


transicin entre sucesos. Permite establecer relaciones causales y efectuar predicciones. (1)
2.1.4.4 rboles de decisin.

Proyectos de Ingeniera de Sistemas II Minera de Datos


Los rboles de decisin (AD) permiten representar de forma grfica una serie de reglas
sobre la decisin que se debe tomar en la asignacin de un valor de salida a un determinado
registro. Su principal ventaja es la facilidad de interpretacin. (1,10)
2.1.4.5 Redes neuronales.
Inspiradas en el modelo biolgico, son generalizaciones de modelos estadsticos clsicos.
Su novedad radica en el aprendizaje secuencial, el hecho de utilizar transformaciones de las
variables originales para la prediccin y la no linealidad del modelo. Permite aprender en
contextos difciles, sin precisar la formulacin de un modelo concreto. Su principal
inconveniente es que para el usuario son una caja negra. (1)
Un enriquecimiento de las posibilidades de anlisis son los sistemas hbridos, esto es, la
combinacin de dos o ms tcnicas para mejorar la eficiencia en la resolucin de un
problema, como por ejemplo, utilizar un algoritmo gentico para inicializar una red neuronal,
o bien utilizar un rbol decisin como variable de entrada en una regresin logstica. (1)

2.1.5 Aplicaciones de Minera de Datos (11)


En la actualidad, la implantacin de la Minera de Datos para recuperar informacin en las
diversas organizaciones as como en el mbito empresarial es una tcnica habitual.
Tradicionalmente, quienes ms han empleado las tcnicas de la Minera de Datos para
recuperar informacin han sido las relacionadas con la publicidad y con los negocios de la
distribucin. Sin embargo, existen multitud de reas que han integrado en su actividad las
tcnicas de la Minera de Datos para recuperar informacin.
Algunos ejemplos de uso de la Minera de Datos: en los negocios, hbitos de compra en
supermercados, patrones de fuga, fraudes, recursos humanos, comportamiento en internet,
terrorismo, juegos, ciencia e ingeniera, gentica, entre otros.

Proyectos de Ingeniera de Sistemas II Minera de Datos

2.2 Plataforma Microsoft SQL Server


2.2.1 Microsoft SQL Server(9)
Microsoft SQL Server ofrece un entorno integrado para crear modelos de minera de datos y
trabajar con ellos. La solucin SQL Server Data Mining permite el acceso a la informacin
necesaria para tomar decisiones inteligentes sobre problemas empresariales complejos.
Microsoft SQL Server permite implementar el resto de funcionalidades de un sistema de
Business Intelligence:
- Data Warehouse: los datos se pueden almacenar en tablas relacionales de SQL Server o
generar bases de datos multidimensionales (cubos OLAP).
- ETL: DTS (Data Transformation Services) permite extraer datos de diversos orgenes,
manipularlos, y almacenarlos en SQL Server.
- Base de datos multidimensional y servidor OLAP: SQL Server puede guardar datos en
bases de datos multidimensionales utilizando los servicios de SQL Server Analysis
Services, implementando a su vez el servidor OLAP asociado.
- Data Mining: El mismo servicio de Analysis Services tambin ofrece la posibilidad de
aplicar algoritmos de Data Mining.
- Generacin de informes: Reporting Services, la ms importante novedad de la plataforma
SQL Server 2000, que se puede descargar del sitio de Microsoft.
- Alertas: SQL Server Notification Services es otro mdulo adicional que se puede
descargar del sitio de Microsoft para desarrollar aplicaciones de envo de alertas.
- Otras opciones: aunque por el momento no estn pensadas para hacer la competencia a
otras herramientas mejores de otros fabricantes, existen complementos basados en Office
y en Sharepoint Portal Services como clientes de bases de datos multidimensionales.

2.2.2. Caractersticas de Microsoft SQL Server


- El procesamiento de los modelos de una misma estructura de minera ocurre en paralelo,
en una sola lectura de los datos.
- Suministra ms de 12 visores de resultados para los algoritmos que ayudarn a
comprender mejor los patrones encontrados en el proceso de minera.
- Proporciona grficos de elevacin, de beneficios y una matriz de clasificacin que permite
establecer una comparacin de lo real con lo previsto; para contrastar y comparar la calidad
de los modelos.

Proyectos de Ingeniera de Sistemas II Minera de Datos


- Posee un lenguaje para la creacin de consultas de minera (DMX) similar al SQL que
facilita la tarea de creacin de aplicaciones de minera de datos. Posee una interfaz grfica
para generar las consultas DMX.
- Cuenta con los algoritmos de minera ms avanzados: Naive Bayes, Clustering, Clsteres
de Secuencia, rboles de Decisin, Redes Neuronales, Series Temporales, Reglas de
Asociacin, Regresin Logstica, y Regresin Lineal y minera de textos.

Proyectos de Ingeniera de Sistemas II Minera de Datos

2.3 Metodologa de Validacin del Modelo de Minera de Datos (Microsoft SQL


Server)(8)
La validacin es el proceso de evaluar cul sera el rendimiento de sus modelos de minera
de datos con datos reales. Es importante que se validen los modelos de minera de datos
entendiendo su calidad y sus caractersticas antes de implementarlos en un entorno de
produccin.
Existen muchos enfoques a la hora de evaluar la calidad y las caractersticas de un modelo
de minera de datos.

Usar varias medidas de validez estadstica para determinar si existen problemas en los
datos o en el modelo.

Separar los datos en conjuntos de entrenamiento y de prueba con el fin de probar la


precisin de predicciones.
SQL Server 2008 admite varios enfoques relativos a la validacin de soluciones de minera
de datos que admitan todas las fases de la metodologa de desarrollo de la minera de datos.

2.3.1 Realizar particiones de los datos en conjuntos de aprendizaje y de


prueba
Particionar los datos en conjuntos de entrenamiento y prueba es una tcnica comn para
preparar los datos para su evaluacin. Se puede reservar para la prueba una parte del
conjunto de datos de entrenamiento, utilizando el resto de los datos para el entrenamiento.
Una vez completado el modelo, ste se utilizar para realizar las predicciones en funcin del
conjunto de prueba. Dado que los datos del conjunto de entrenamiento se seleccionan de
forma aleatoria a partir de los mismos datos utilizados para el entrenamiento, es poco
probable que las mtricas de precisin que se derivan de la prueba se vean afectadas por
discrepancias en los datos, y por tanto, reflejarn mejor las caractersticas del modelo.

2.3.2 Validacin cruzada de modelos de minera de datos


La validacin cruzada es una herramienta estndar de anlisis que resulta muy til a la hora
de desarrollar y ajustar los modelos de minera de datos.

Proyectos de Ingeniera de Sistemas II Minera de Datos


La validacin cruzada se usa despus de crear una estructura de minera de datos y los
modelos de minera de datos relacionados para determinar la validez del modelo. La
validacin cruzada tiene las aplicaciones siguientes:
- Validar la solidez de un modelo de minera de datos determinado.
- Evaluar varios modelos de una instruccin nica.
- Generar varios modelos e identificar a continuacin el mejor modelo basndose en
estadsticas.
Al crear un informe de validacin cruzada, Analysis Services divide el conjunto de datos en
varias secciones transversales, crea y entrena automticamente varios modelos en los
subconjuntos y, a continuacin, calcula la precisin de todos los modelos. Si revisa las
estadsticas que se generan, puede evaluar hasta qu punto un modelo se generaliza bien
para diferentes conjuntos de datos, o determinar cul de los diversos modelos de una
estructura se comporta mejor.

2.3.3 Medir la precisin del modelo de minera de datos (Analysis


Services - Minera de datos)
SQL Server Analysis Services proporciona diversas maneras de determinar si los modelos
de minera de datos son precisos.
- Utilizar grficos para representar visualmente la precisin de un modelo de minera de
datos: un grfico de elevacin compara la exactitud de las predicciones de cada modelo.
Un grfico de beneficios muestra el aumento terico en las ganancias asociadas a la
utilizacin de cada modelo. Un grfico de dispersin compara los valores reales con los
valores previstos y se utiliza para los modelos de regresin u otros modelos que predicen
atributos continuos utilizando entradas continuas.
- Utilizar una matriz de clasificacin para tabular las predicciones precisas y las predicciones
inexactas.
- Utilizar la validacin cruzada para validar estadsticamente la confiabilidad de un modelo de
minera de datos.

Las herramientas grficas de precisin de modelos de Minera de datos que est disponible
en SQL Server Analysis Services, sirven para validar los modelos de minera de datos.

Proyectos de Ingeniera de Sistemas II Minera de Datos


2.3.3.1 Grfico de elevacin
Un grfico de elevacin representa los resultados de las consultas de prediccin de un
conjunto de datos de prueba en funcin de valores conocidos de la columna de
prediccin que existe en el conjunto de datos. El grfico muestra los resultados del
modelo de minera de datos, junto con una representacin de los resultados que
generara un modelo ideal, as como una representacin de los resultados de previsin
aleatoria. Cualquier mejora por encima de la lnea aleatoria se denomina mejora
respecto al modelo predictivo. Cuanta ms elevacin muestre el modelo, ms efectivo
es. En un grfico de elevacin, slo pueden compararse los modelos de minera de datos
que contienen atributos de prediccin. (8)

Grfico Nro. 3. Grfico de elevacin de minera de datos


Fuente: http://technet.microsoft.com/es-es/library/ms175428(v=sql.100).aspx

2.3.3.2 Grfico de beneficios


Un grfico de beneficios es una variante del grfico de elevacin que integra informacin
sobre el costo empresarial de la utilizacin de las predicciones generadas por un modelo.
Despus de escribir los hechos relacionados con los costos, como por ejemplo los cargos
por envo, Analysis Services muestra una curva que representa la mejora respecto al
modelo predictivo que proporciona el modelo y tambin calcula las ganancias de la
inversin cuando se utiliza el modelo.

Proyectos de Ingeniera de Sistemas II Minera de Datos

Grfico Nro. 4. Grfico de beneficios de minera de datos


Fuente: http://technet.microsoft.com/es-es/library/cc645870(v=sql.100).aspx

Proyectos de Ingeniera de Sistemas II Minera de Datos


2.3.3.3 Grfico de dispersin
Un grfico de dispersin representa la precisin de un modelo que predice un atributo
continuo, comparando los valores reales con los valores previstos para cada caso. Se
generar un grfico de dispersin en lugar de un grfico de elevacin siempre que los
atributos de prediccin tengan valores continuos.

Grfico Nro. 5. Grfico de dispersin de minera de datos


Fuente: SQL Server, 201http://technet.microsoft.com/es-es/library/bb895169(v=sql.100).aspx2

2.3.3.4 Matriz de clasificacin


Una matriz de clasificacin es otro modo de examinar la precisin con que los modelos
de minera de datos de una estructura crean predicciones. Para generar una matriz de
clasificacin, Analysis Services cuenta el nmero de predicciones buenas y errneas,
utilizando los valores reales existentes en el conjunto de datos de prueba. La matriz es
una herramienta valiosa porque no slo muestra la frecuencia con que el modelo predice
un valor correctamente, sino que tambin muestra qu valores predice incorrectamente.
Una matriz de clasificacin muestra el recuento real de verdaderos positivos, falsos
positivos, verdaderos negativos y falsos negativos para cada atributo de prediccin.

Tabla I. Tabla de matriz de clasificacin de minera de datos

Proyectos de Ingeniera de Sistemas II Minera de Datos


Fuente: http://technet.microsoft.com/es-es/library/ms174811(v=sql.100).aspx

Proyectos de Ingeniera de Sistemas II Minera de Datos


2.3.3.5 Informe de validacin cruzada
La validacin cruzada es una tcnica avanzada de minera de datos que ayuda a medir la
validez de un modelo. Al crear un informe de validacin cruzada, Analysis Services divide
el conjunto de datos en varias secciones transversales, crea y entrena automticamente
varios modelos en los subconjuntos y, a continuacin, calcula la precisin de todos los
modelos. Si revisa las estadsticas que se generan, puede evaluar hasta qu punto un
modelo se generaliza bien para diferentes conjuntos de datos, o determinar cul de los
diversos modelos de una estructura se comporta mejor.

Proyectos de Ingeniera de Sistemas II Minera de Datos

2.3 Estrategias de mercado


Una empresa comercial siempre est organizada para producir algo de valor econmico. Debe
satisfacer alguna necesidad, o sea, poder justificar su existencia slo si fabrica y distribuye lo que
los compradores (el mercado) necesitan y prefieren. Es por ello que la mercadotecnia es el punto
ms importante del esfuerzo comercial. Esta es la razn para lo cual el concepto de
mercadotecnia es utilizado en todas las instituciones clave, tan diversas como bancos para servir
a sus clientes de manera ms eficiente, partidos polticos para llevar a cabo sus campaas de
elecciones y muchas otras.

(14)

Las necesidades de la mercadotecnia actual tienen que ver con saber de antemano lo que el
cliente desea comprar y no simplemente los artculos que se considere conveniente
comercializar; organizar un sistema de distribucin que se acople a los hbitos del comprador y
no a los hbitos de la industria o empresa que genera o promueve el producto, as como tomar
decisiones de distribucin, sobre la base de retroalimentacin proveniente del lugar del mercado.
Se puede tener xito en la comercializacin si se proporciona al cliente lo que desea, en el lugar
adecuado, haciendo que se halle disponible y en la cantidad precisa que se necesite.

(14)

En condiciones de libre mercado, la demanda de un producto y de una empresa puede ser


estimulada a travs de la aplicacin de estrategias de mercadeo, las cuales son parte integral de
un plan de mercadeo.

(13)

Un plan de mercadeo debe sustentarse en una investigacin de la situacin actual del mercado y
las tendencias que afectan el futuro de la organizacin. En particular, se deben evaluar los
problemas y las oportunidades que representan compradores, competidores, costos y cambios en
las regulaciones. Adicionalmente, se deben identificar las fortalezas y debilidades de la empresa
misma.
Con un anlisis completo de la situacin, quienes toman las decisiones deben entonces
establecer los objetivos que la empresa quiere alcanzar, de acuerdo a la evaluacin descrita
anteriormente.

(13)

En un plan de mercadeo se disean las estrategias sobre precio, plaza, producto y promocin,
que ayudarn a la empresa a alcanzar sus metas y objetivos.
-

(13)

Las estrategias de precios buscan atacar al mercado, con precios bajos, precios
similares o ms altos que la competencia, polticas de precios para ventas al contado o al

Proyectos de Ingeniera de Sistemas II Minera de Datos


crdito, etc. Es decir, decisiones sobre los precios que se impondrn a los productos y
servicios de la compaa y sobre las posibles modificaciones que se le harn.
-

Las estrategias de plaza determinan los mejores canales y redes de distribucin, para
hacer llegar los productos al consumidor final.

Las estrategias de producto son aquellas que se ocupan de las caractersticas propias
del producto y del servicio. Dichas estrategias estn enfocadas en la calidad, sabor,
variedad y empaque de sus productos.

En las estrategias de promocin, lo que interesa son las metas y mtodos de


comunicar a los clientes del mercado objetivo los aspectos de la compaa y sus ofertas.
Estn destinadas a estimular, de una forma ms rpida y directa, las ventas o consumo
del producto. Entre stas se pueden mencionar: muestras gratis, premios, bonificaciones,
descuentos en precios, etc.

Todas estas estrategias tienen como objetivo estimular un crecimiento en la demanda, lo que trae
consigo un aumento en las ventas y finalmente un aumento en los niveles de produccin. (13)

Proyectos de Ingeniera de Sistemas II Minera de Datos

CAPITULO III: MINERIA DE DATOS A LAS VENTAS REALIZADAS CON


TARJETA DE CREDITO CLASICA EN SAGA FALABELLA EN LIMA.
3.1 Implementacin de Modelos de Minera de Datos (Microsoft SQL Server)
A continuacin se va a describir el procedimiento que se ha implementado en la plataforma
Microsoft SQL Server 2008 R2 para la ejecucin de los modelos de Minera de Datos con las
transacciones de tarjeta de crdito clsica de Saga Falabella en la ciudad de Lima.

3.1.1 Crear conexin a la base de datos


Primero se establecer la conexin de la plataforma de DM con la fuente de datos externa, que
en este caso es la base de datos Northwind, que es donde residen los datos fuentes para mi
anlisis.

Figura Nro. 2: Conexin de la plataforma de DM con la base de datos


Fuente: Plataforma Minera de Datos

3.1.2 Crear una vista al Data Source creado previamente que incluya la tabla
MaeCliente(dbo)
A continuacin definimos una vista de la base de datos Northwind que contiene los datos
especficos para nuestro anlisis y que viene dado por la tabla MaeCliente (Maestro de Clientes).

Proyectos de Ingeniera de Sistemas II Minera de Datos

Figura Nro. 3: Vista de la tabla MaeCliente (Maestro de clientes)


Fuente: Plataforma Minera de Datos

La tabla MaeCliente (Maestro de Clientes) presenta la siguiente estructura:

Item

Campos

Descripcin

Tipo de dato

1 cuenta

Cuenta

integer

2 tipo_identidad

Tipo de documento de identidad

integer

3 nro_identidad

Nmero de documento de identidad

integer

4 ap_paterno

Apellido paterno

varchar(50)

5 ap_materno

Apellido materno

varchar(50)

6 nombre

Nombres

varchar(50)

7 diredomi

Direccin domicilio

varchar(50)

8 dptodomi

Departamento domicilio

varchar(50)

9 diretrab

Direccin trabajo

varchar(50)

10 dptotrab

Departamento trabajo

varchar(50)

11 sexo

Sexo

12 estcivil

Estado civil

13 edad

Edad

14 condicion

Condicin habitacional

15 renta

Renta

integer

16 lin_credito

Lnea de crdito

integer

17 consumo

Consumo histrico (5 aos)

char(1)
varchar(11)
integer
varchar(10)

decimal(9,2)

Proyectos de Ingeniera de Sistemas II Minera de Datos


Tabla II: Estructura de la tabla MaeCliente (Maestro de Clientes)
Fuente: Elaboracin propia

Proyectos de Ingeniera de Sistemas II Minera de Datos

3.1.3 Construir un modelo de Minera de Datos usando las siguientes tcnicas:


La plataforma de Minera de Datos proporciona diversos modelos de anlisis. La presente
investigacin solo estudiar los siguientes modelos: rboles de decisin y Clustering.

3.1.3.1 rboles de Decisin (Microsoft Decision Trees)


Los rboles de decisin son modelos que permiten construir rutas basadas en sucesos de
variables (datos de anlisis) para la realizacin de un evento (variable a predecir) basadas en la
teora de probabilidades y en la correlacin entre los datos.
El presente anlisis est basado en determinar los condicionantes que se dan para las compras
con tarjeta de crdito clsica de nuestros clientes en funcin de su estado civil, que es la variable
de anlisis a predecir. De esto modo el sistema nos dir cules son las condiciones ms
frecuentes que se dan cuando nuestros clientes compran con tarjeta de crdito dependiendo de
su estado civil.

- Crear la estructura de minera de datos.


El primer paso reside en seleccionar el modelo de minera a emplear.

Figura Nro. 4: Creacin de la estructura de DM utilizando la tcnica de Arboles de Decisiones.


Fuente: Plataforma Minera de Datos

Proyectos de Ingeniera de Sistemas II Minera de Datos

- Se debe especificar los campos de entrada, claves y de prediccin para el


anlisis del modelo de rboles de Decisin.

Figura Nro. 5: Especificacin de los campos de entrada, claves y de prediccin


Fuente: Plataforma Minera de Datos

Para este caso la variable a predecir es el estado civil, el cual tiene como estados
casado, conviviente, divorciado, separado y soltero. Adems presenta como variables de
entrada (input) a la condicin habitacional, el consumo, el distrito del domicilio, el distrito
del trabajo, la edad, la lnea de crdito, la renta y el sexo.
Esto nos determinar la ruta de los escenarios con mayor probabilidad de ocurrencias, en
que las transacciones de compras con tarjeta de crdito clsica en Saga Falabella en la
ciudad de Lima sean realizadas por los clientes de estado civil casado, conviviente,
divorciado, separado o soltero.

- Se deben determinar el contenido y el tipo de datos seleccionados en el paso


anterior, ya que el tipo de datos determina el tratamiento que recibe en el anlisis.
Segn sea el caso los datos pueden ser: Discretos o continuos.

Proyectos de Ingeniera de Sistemas II Minera de Datos


Figura Nro. 6: Determinacin del contenido y el tipo de datos seleccionados
Fuente: Plataforma Minera de Datos

- Implementar el modelo de minera de datos (creacin de todos los objetos de


minera de datos necesarios para ejecutar el modelo)

Figura Nro. 7: Implementacin del modelo de minera de datos


Fuente: Plataforma Minera de Datos

Resultados:
El modelo muestra que de todos los datos procesados la mayor probabilidad de ocurrencia para
la variable a predecir, esta en los clientes solteros con un 59.66% de ocurrencia en todos los
escenarios encontrados (93,349 escenarios), y le sigue los clientes casados con un 35.62% de
ocurrencias en todos los escenarios encontrados (55,731 escenarios).

Proyectos de Ingeniera de Sistemas II Minera de Datos


Figura Nro. 8: Leyenda del modelo de minera de datos
Fuente: Plataforma Minera de Datos

La red de dependencias muestra que las variables que estan mas correlacionadas con la variable
a predecir, dicho de otro modo son aquellas variables que mas influyen en la determinacin del
valor de la variable a predecir. En nuestro caso el estado civil de nuestros clientes viene
determinado por su edad, sexo y condicin de vivienda.

Figura Nro. 9: Red de dependencias del modelo de minera de datos


Fuente: Plataforma Minera de Datos

Proyectos de Ingeniera de Sistemas II Minera de Datos

Figura Nro. 10: Modelo final de minera de datos utilizando la tcnica de rboles de Decisiones
Fuente: Plataforma Minera de Datos

De acuerdo al anlisis del sistema el escenario conformado por clientes que tienen una edad
entre 27 a 35 aos y que habitan en casa de sus padres son los que con mayor probabilidad son
solteros y efectan compras con tarjeta de crdito clsica en las tiendas de Saga Falabella en la
ciudad de Lima.

Proyectos de Ingeniera de Sistemas II Minera de Datos

3.1.3.2 Clustering (Microsoft Clustering)


Este modelo se basa en el anlisis iterativo y recurrente de las ocurrencias de los datos. El
modelo de agrupamiento va a clasificar aquellos atributos que tienen un comportamiento
recurrente y/o similar de modo de identificarlos para desarrollar una estrategia conjunta para
todos ellos.

- Crear la estructura de minera de datos


Similarmente al anterior modelo debemos seleccionar la tcnica a aplicar para la minera de los
datos a estudiar. En este caso es Clustering

Figura Nro. 11: Creacin de la estructura de DM utilizando la tcnica de Clustering.


Fuente: Plataforma Minera de Datos

- Se debe especificar los campos de entrada, claves y de prediccin para el


anlisis del modelo de Clustering

Proyectos de Ingeniera de Sistemas II Minera de Datos

Figura Nro. 12: Especificacin de los campos de entrada, claves y de prediccin


Fuente: Plataforma Minera de Datos

- Se deben determinar el contenido y el tipo de datos que conforman los datos de


anlisis.

Figura Nro. 13: Determinacin del contenido y el tipo de datos seleccionados


Fuente: Plataforma Minera de Datos

- Implementar el modelo de minera de datos (creacin de todos los objetos de


minera de datos necesarios para ejecutar el modelo)

Figura Nro. 14: Implementacin del modelo de minera de datos

Proyectos de Ingeniera de Sistemas II Minera de Datos


Fuente: Plataforma Minera de Datos

Proyectos de Ingeniera de Sistemas II Minera de Datos

Resultados:
El sistema permite que se seleccione la variable o campo con mayor densidad de ocurrencia
dentro de los grupos. Al seleccionar el sistema establece el o los grupos que tienen una mayor
densidad de ocurrencia de la variable seleccionada colorendolos con un tono ms intenso.

Figura Nro. 15: Modelo de minera de datos final utilizando la tcnica de Clustering
Fuente: Plataforma Minera de Datos

La variable a predecir es el estado civil, con el parmetro soltero. El grupo que tiene mayor
porcentaje de ocurrencias de esta variable y estado es el cluster Nro. 7 (SOLTERO: 90%).

Proyectos de Ingeniera de Sistemas II Minera de Datos

Figura Nro. 16: Caractersticas del clster Nro. 7


Fuente: Plataforma Minera de Datos

En esta grfica podemos ver los niveles de probabilidad de ocurrencia de los distintos estados de
las variables de anlisis para el cluster elegido.
Como vemos efectivamente el nivel de probabilidad de la variable seleccionada (en este caso
estado civil = Soltero) tiene un nivel de probabilidad alta. En segundo lugar la condicin de
vivienda es la que tiene igualmente un alto nivel de probabilidad de ocurrencia para el
estado=D/Padres o casa de los padres, y as sucesivamente.

Proyectos de Ingeniera de Sistemas II Minera de Datos

Proyectos de Ingeniera de Sistemas II Minera de Datos


Figura Nro. 17: Perfiles del clster Nro. 7
Fuente: Plataforma Minera de Datos

Analizando en forma particular el Cluster 7 se tiene los siguientes resultados:


Los clientes de estado civil soltero que realizan compras con tarjeta de crdito en las tiendas de
Saga Falabella en la ciudad de lima tienen el siguiente perfil: 1) Edad promedio de 37 aos de
edad 2) Renta promedio de 2,000 nuevos soles 3) Condicin habitacional, viven en casa de los
padres 4) Distrito domicilio en Stgo. de Surco, San Martin de Porres y Los Olivos 5) Sexo
femenino ligeramente en mayor proporcin 6) Distrito trabajo en San Isidro, Miraflores y Lima 7)
Lnea de Crdito promedio de 6,500 nuevos soles 8) Consumo histrico promedio de 2,6000
nuevos soles.
De esta manera se considera a este agrupamiento con similar comportamiento que tiene un
mayor porcentaje de ocurrencias en las transacciones de compra con tarjeta de crdito en las
tiendas de Saga Falabella en la ciudad de Lima, sean realizadas por los clientes de estado civil
soltero.

Proyectos de Ingeniera de Sistemas II Minera de Datos

3.2 Validacin de los Modelos de Minera de Datos (Microsoft SQL Server)


Los modelos de validacin permiten determinar los mrgenes de distorsin. La plataforma de
Minera de Datos proporciona diversos modelos de validacin, la presente investigacin solo
validar el modelo Arbol de Decisin empleando los siguientes modelos de validacin: Grfico de
elevacin y Matriz de clasificacin.
A continuacin se va a describir el procedimiento que se ha implementado en la plataforma
Microsoft SQL Server 2008 para la validacin de los modelos de Minera de Datos implementados
con las transacciones de tarjeta de crdito clsica de Saga Falabella en la ciudad de Lima.

3.2.1 Validacin del modelo rbol de Decisin


3.2.1.1 Grfico de Elevacin:
El grfico de elevacin permitir representar los resultados que generara un modelo ideal, asi
como los resultados de previsin aleatoria. La mejora respecto a la lnea aleatoria nos indicar
una mejora respecto al modelo predictivo.
El procedimiento para la implementacin es la siguiente:
- Se debe utilizar la ficha Seleccin de entrada para configurar el modelo de destino (Grfico de
Elevacin) y elegir un conjunto de datos de prueba.
- Hacer clic en la ficha Grfico de elevacin y seleccionar Grfico de elevacin en la lista Tipo de
grfico.

Grfico Nro. 6: Grfico de elevacin de M.D. para el modelo ArbDecMaeCliente

Proyectos de Ingeniera de Sistemas II Minera de Datos


Fuente: Plataforma Minera de Datos

Proyectos de Ingeniera de Sistemas II Minera de Datos


Resultados:
- El grfico muestra en el eje X el porcentaje del conjunto de datos de prueba que se usa para
comparar las predicciones, y en el eje Y representa el porcentaje de valores de prediccin.
- En el grfico muestra una lnea de color rojo para el modelo ideal, asimismo una lnea de color
azul que es la lnea base con la que se evala la elevacin. Entre estas dos lneas anteriormente
descritas se muestra una lnea de color verde, que significa la elevacin real o mejora en los
resultados.
- Del grfico adems se muestra que la lnea ideal alcanza el mximo cerca del 55%, lo que
significa que si tuviera un modelo perfecto podra llegar al 100% de los clientes destino enviando
correo nicamente al 55% de la poblacin total.
- Del grfico la elevacin real para el modelo al destinarse al 55% de la poblacin est entre el 70
y 80%, lo que significa que se podra llegar al 70 o 80% de los clientes destino enviando correo al
55% de la poblacin total de clientes.

3.2.1.2 Matriz de clasificacin:


La matriz de clasificacin permitir representar no slo la frecuencia con que el modelo predice
un valor en forma correcta, sino tambin mostrar que valores predice de manera incorrecta
El procedimiento para la implementacin es la siguiente:
- Se debe utilizar la ficha Seleccin de entrada para configurar el modelo de destino (Matriz de
clasificacin) y elegir un conjunto de datos de prueba.
- Hacer clic en la ficha Matriz de clasificacin.

Proyectos de Ingeniera de Sistemas II Minera de Datos


Grfico Nro. 7: Matriz de clasificacin de M.D. para el modelo ArbDecMaeCliente
Fuente: Plataforma Minera de Datos

Resultados:
-

Del grfico la celda que contiene el valor de 31,737 indica el numero de verdaderos positivos
para el valor destino SOLTERO. En otras palabras, 31,737 casos el modelo predijo
correctamente que las transacciones de compras con tarjeta de crdito clsica en Saga

Falabella en la ciudad de Lima sean realizados por los clientes de estado civil soltero.
Adems la celda con valor 15,505 nos indica que 15,505 casos el modelo predijo
correctamente que las transacciones de compras con tarjeta de crdito clsica en Saga

Falabella en la ciudad de Lima sean realizados por los clientes de estado civil casado.
Existen valores errados como son 7,992 casos en que el modelo predijo como estado civil
casado pero que realmente era soltero, tambin existen 8,566 casos en que el modelo predijo
como estado civil soltero pero que realmente era casado.

Proyectos de Ingeniera de Sistemas II Minera de Datos

CONCLUSIONES
El modelo rbol de decisin trabajado en la plataforma Microsoft SQL Server 2008 R2, nos
permiti construir rutas con mayores probabilidades que se dan para las transacciones de
compras con tarjeta de crdito clsica de los clientes en funcin al estado civil.
El modelo clustering trabajado en la plataforma Microsoft SQL Server 2008 R2, nos permiti
clasificar las variables que tienen un comportamiento recurrente o similar para asi poder
desarrollar estrategias de mercado conjunta.
Los modelos de validacin de las tcnicas de Minera de Datos aplicadas a las transacciones de
ventas con tarjeta de crdito clsica para Saga Falabella, mostraron un rendimiento ptimo. Tal es
el caso que en el grfico de elevacin el modelo se encuentra por encima del modelo aleatorio,
de la misma manera se encontr en la matriz de clasificacin que la relacin entre los valores
verdaderos positivos y los valores errados es mayor que 1.
Despus de analizar las transacciones de ventas con tarjeta de crdito clsica realizados en la
ciudad de Lima a travs de las tcnicas de Minera de Datos, podemos disear algunas
estrategias de mercado como son las estrategias de distribucin y de comunicacin:
- Enviar encartes o folletos especiales con las ofertas del mes, a los clientes de estado civil
soltero con mayor probabilidad de compras, cuya caracterstica presentan una edad de 27 a 35
aos y que habiten en la casa de sus padres.
- Ofrecer cupones o vales de descuentos a los clientes de estado civil soltero con mayor
probabilidad de compras, de los resultados obtenidos estos vales de descuentos se sugieren que
sean dirigidos a los padres de familia como son artefactos elctricos, decoraciones de la casa,
etc.
- Crear spots publicitarios de la empresa Saga Falabella en medios de comunicacin como radio
y/o televisin, para as llegar al agrupamiento que contiene el cluster Nro. 7 identificado en el
anlisis del presente trabajo.

Proyectos de Ingeniera de Sistemas II Minera de Datos

Referencias
(1). Aluja, 2001. La Minera de Datos, entre la estadstica y la inteligencia artificial.
URL: http://www.idescat.cat/sort/questiio/questiiopdf/25.3.4.Aluja.pdf
(2). Biznews.pe. Diario digital de negocios
URL:http://biznews.pe/noticias-empresariales-nacionales/saga-falabella-incrementa-sus-ventas205-pero-cae-su-utilidad-neta
(3). Caldern, 2006. Minera de Datos una herramienta para la toma de decisiones
URL:http://biblioteca.usac.edu.gt/tesis/08/08_0307_CS.pdf
(4). Gestin. El diario de economa y negocios del Per
URL:http://gestion.pe/noticia/419695/saga-falabella-superaria-us-600-millones-ventas-este-ano
(5). La Empresa Saga Falabella
URL: http://cybertesis.upc.edu.pe/upc/2008/garcia_ck/pdf/garcia_ck-TH.3.pdf
(6).Perversi, 2007. Aplicacin de Minera de Datos para la exploracin y deteccin de
patrones delictivos en Argentina.
URL: http://ai.bpa.arizona.edu/research/coplink/index.htm
(7). Vallejos, 2006. Minera de Datos
URL:http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejo
s.pdf
(8). SQL Server 2012
URL:http://msdn.microsoft.com/es-es/library/ms174493.aspx
(9).Business Intelligence y Data Warehousing en Windows, 2005
URL: http://www.danysoft.com/free/BIyDW.pdf
(10). La metodologa del Data Mining. Una aplicacin al consumo de alcohol en
adolescentes, 2008
URL: http://www.adicciones.es/files/65-80%20palmer.pdf

Proyectos de Ingeniera de Sistemas II Minera de Datos


(11). Aplicaciones de la Minera de Datos para recuperar informacin.
URL: http://www.monografias.com/trabajos81/5-ejemplos-aplicacion-mineria-datos/5-ejemplosaplicacion-mineria-datos.shtml
(12). Conceptos y ejemplos de estrategias de marketing.
URL: http://www.crecenegocios.com/concepto-y-ejemplos-de-estrategias-de-marketing/
(13). Rivera, 2002. Tesis de grado: La planificacin del mercadeo y el crecimiento en la
pequea industria panadera de la ciudad de San Salvador
URL: http://www.conamype.gob.sv/biblio/pdf/1262.pdf
(14). Esparza, 2000. Rediseo de un programa de mercadotecnia en un supermercado.
URL: http://eprints.uanl.mx/1471/1/1020131112.PDF

Das könnte Ihnen auch gefallen