Sie sind auf Seite 1von 35

Ing.

Andrs Eyherabide
@aeyherabide

www.datalytics.com

Posgrado BI UTN - Introduccin al Data Mining

Que es Datalytics?

Fundada en el ao 2007, Datalytics es una empresa de servicios profesionales


independiente, orientada exclusivamente a las prcticas de:

Data Integration

Business Intelligence

Data Mining

Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medelln (COL).

Equipo de trabajo interdisciplinario, con +30 profesionales de diversas reas.

Implementaciones en Argentina, Chile, Brasil, Colombia, Espaa y USA.

Nuestros servicios incluyen la consultora, capacitacin, implementacin y el apoyo


necesario para asegurar una solucin exitosa que soporte los procesos de negocios.

Datalytics ha certificado su Sistema de Gestin de calidad para la Provisin de Servicios


de Business Intelligence y Data Mining bajo la norma ISO 9001:2008 por Bureau
Veritas. Recertificacin Septiembre 2012 aprobada.

Introduccin

Data Mining es la exploracin y el anlisis, por medios automticos o semi-automticos,


de grandes volmenes de datos con la finalidad de descubrir reglas y patrones
significativas.

El objetivo es brindar informacin al negocio asistiendo a las empresas a mejorar sus


operaciones por medio de un mayor entendimiento de su entorno:

Que clientes es ms probable que acepte una oferta?

Que cliente tiene mayor probabilidad de dejar de pagar?

Que cliente tiene alta probabilidad de pedir la baja del servicio?

Que demanda puedo esperar de mis productos para el prximo trimestre?

Estos anlisis se basan en que los datos pasados sirven para predecir el futuro.

La calidad de los datos y el conocimiento del negocio son crticos en el anlisis.

Los datos deben ser entendidos como un activo que le permitir a las organizaciones
diferenciarse proporcionando proporcionar ms y mejores servicios.

Por que minar datos?

Enormes volmenes de datos estn siendo recolectados y almacenados minuto a minuto:

Datos generados en la nube, redes sociales.

Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,


etc.

Transacciones bancarias / Tarjetas de Crdito.

Machine generated data: sensores, web logs, etc.

Frecuentemente hay informacin oculta en los datos que no es directamente evidente a


los ojos de un analista, o simplemente es tal el volumen de informacin que nunca llega a
ser analizada.

El GAP entre el volumen de informacin y el nmero de analista crece exponencialmente.

La presin competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitir a las organizaciones proporcionar ms y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.

El ciclo de vida de los datos


Data Mining

Datos
Transaccionales

Operacionales
Demogrficos
Financieros
Econmicos
Gubernamentales
Asociaciones

Informacin
Extraccin,

transformacin y carga
Limpieza y calidad
Almacenamiento
Acceso en tiempo y forma
Transformar datos en informacin

Conocimiento / Accin
Programas

de retencin
Optimizacin acciones de MKT
Anlisis de riesgo y rentabilidad
Deteccin de fraudes

Que NO es Data Mining?

No es un producto de SW que se compra sino una disciplina que debe ser dominada.

No es una solucin mgica ni mucho menos instantnea a los problemas de negocio.

No es un fin en s mismo, sino un proceso.

No es un dogma de fe, es una disciplina con sustento matemtico y estadstico.

Algunos ejemplos de lo que NO es Data Mining:

Buscar en una base de datos todas las personas mayores a 20 aos que viven en Medelln y no
han cursado estudios universitarios.

Determinar la bebida gaseosa ms vendida en cada departamento.

Armar el forecast de ventas para el prximo ao fiscal basado en polticas y reglas del negocio
(por ejemplo, ventas * 1,17).

Que SI es Data Mining?

Determinar la probabilidad de que un cliente solicite la baja de su servicio en los


prximos 3 meses.

Determinar que clientes son ms propensos a responder afirmativamente a una


determinada accin de MKT con una oferta determinada.

Antes de otorgar un prstamo, determinar la probabilidad de que esa persona no pueda


hacer frente al pago del mismo en tiempo y forma, cayendo en mora.

Segmentar nuestra cartera de clientes para encontrar grupos de clientes con


caractersticas de comportamiento similares.

Analizar el comportamiento de compras de nuestros clientes para la confeccin de


ofertas de productos.

Donde encaja Data Mining?


DW

ETL

OLAP & Reporting

VSAM
MQSeries
AS/400

DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML
Archivos Planos
FTP

Web Logs

Pentaho,
Oracle/Hyperion,
Microstrategy,
SAS, Etc.

Extract
Transform
Clean
Load
Datastage
Informatica
Oracle DI
Pentaho DI
SAS DIS
Etc.

DW
ODS
Oracle
IBM DB2
SQL Server
Teradata
Sybase IQ
Etc.

Data Mart

Data Mining
SAS, SPSS,
Rapid Miner

Metodologas de Trabajo
1. Conocimiento del Negocio
Objetivos / Entorno
Supuestos, restricciones, riesgos y
contingencias
Definir anlisis a realizar

2. Conocimiento de los datos


Recoleccin y entendimiento de los datos.
Exploracin, evaluacin de la calidad

3. Preparacin de los datos


6. Implementacin
Desarrollo de plan de
implementacin
Auditora de implementacin
Mantenimiento

5. Evaluacin
Evaluar e interpretar resultados
Auditar el proceso
Definir prximos pasos

Seleccin, limpieza ,
personalizacin y agregacin
de los datos

4. Anlisis & Modelado


Definir la tcnica ms
adecuada de Data Mining
Desarrollo del modelo /
solucin

Orgenes del Data Mining

Extrae ideas de Aprendizaje Automtico (machine learning/AI), pattern recognition,


estadstica y sistemas de bases de datos.

Las tcnicas tradicionales pueden ser inadecuadas debido a:

Gran volumen de datos

Alta dimensionalidad de los datos

Naturaleza heterognea y distribuida de los datos

Estadstica
DM

Bases de
Datos

Int.
Artificial

Orgenes del Data Mining

Data Mining y la Estadstica:

Los mtodos estadsticos son la base de muchas de las tcnicas de minera de datos.

Originalmente muchas de estas tcnicas fueron diseadas con propsitos confirmatorios.

La estadstica exploratoria aparece en los 70 con los aportes de J. Tuckey.

En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones


entre ellas.

Los algoritmos estadsticos fueron adaptados para el procesamiento de grandes volmenes de


datos.

Data Mining y la Inteligencia Artificial:

La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.

Se utilizan para construir modelos predictivos no lineales que aprenden a travs de


entrenamiento y que se asimilan a los modelos de redes de neuronas biolgicas.

Predictivos

Redes Neuronales

Regresiones Logisticas

Series de Tiempo

Clusters

Arboles de Decision

Promedios Mviles
Distribuciones
Varianza
Desvo Standard

Anlisis Multivariados
Tablas de Contingencia
Correlaciones
Rankings, Percentiles, etc.

Inteligencia (Valor Agregado)

Data Mining

Regresiones Lineales

Descriptivos

Tipos de Anlisis del Data Mining

Procesos de Modelado Predictivo


Actualidad

Datos Histricos

Horizonte
Prediccin

Datos Histricos

Entrenamiento y
Validacin

Horizonte
Prediccin
Corrida real

Modelado: Tipos de Variables


Var. Descriptivas

Var. de Clase
/ Target

Entrenamiento
En base a informacin histrica
se generan distintos modelos
Clasifica
Modelo

Entrenamiento del Modelo


Datos de
entrenamiento
Sexo

Edad

Estado
Civil

Ingreso
Anual

$
Credito

#
Cuotas

Mora

24

Casado

120K

20K

Si

36

Casado

240K

34K

12

No

28

Casado

180K

60K

Si

32

Soltero

120K

12K

No

29

Soltero

134K

56K

12

No

46

Casado

182K

128K

14

No

34

Soltero

227K

134K

Si

44

Casado

132K

240K

12

No

Construir y entrenar
el modelo

Y luego predecir
Sexo

Edad

Estado
Civil

Ingreso
Anual

$
Credito

#
Cuotas

Mora

29

Casado

134K

27K

46

Casado

182K

41K

12

34

Casado

72K

26K

10

44

Soltero

152K

42K

Resumen de Modelado
Preparacin Datos

Definicin de Set de Datos


Tratamiento de Valores
Missing
Divisin de Poblacin
Training Validacin Test
Deteccin de Outliers
(errores)

Preseleccin de Variables

Anlisis Exploratorio
Personalizacin de Variables.
Transformacin de Variables
Buscar patrones
(multivariados)

Desarrollo

Construccin de
Modelo
Evaluacin del
Modelo

Implementacin

Construccin de un
Score
Presentar Resultados

Scoring

Anlisis Desriptivo: Clustering

Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:

Los objetos en un cluster son ms similares entre s.

Los objetos en clusters separados sean lo ms distintos posibles entre s.


Minimizar la distancia intracluster

Maximizar la distancia intercluster

Clustering: Segmentacin de Mercado

Una segmentacin muy conocida de clientes es la segmentacin RFM:

Recency: cuando fue la ltima vez que compr?

Frequency: cuantas veces compr?

Monetary Value: cuanto dinero gast?

En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su


comportamiento de consumo.

Caso real: el 78% de la facturacin se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autnomos con
ingresos superiores a $ 10.800.

Anlisis Predictivo: rboles de Decisin

Dado un conjunto de registros, Cada registro se define por un conjunto de variables,


siendo una de ellos la clase (tambin llamada target).

Objetivo: hallar un modelo para determinar la variable target como una funcin de los
valores de las otras variables.

El training set se usa para determinar la precisin del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.

Desafo: el modelo debe ser capaz de generalizar. Es decir: determinar de manera


aceptable la variable target para registros desconocidos y nuevos casos.

Anlisis Predictivo: rboles de Decisin

Beneficios:

Fcil Interpretacin e implementacin

Las ramas del rbol definen directamente las reglas de asignacin

Los resultados son operativos de forma inmediata

Minimiza el pre-tratamiento de los datos (no hay problema de outliers)


Antigedad cliente

% Saldo Financiado
Respuesta: 65%

% Utilizacin
ltimos 3 meses
Respuesta: 35%

10 -60%
Respuesta:5%

Respuesta: 13%

Respuesta:47%

Respuesta: 5%

Respuesta:30%

Caractersticas de modelos Predictivos


Tcnicas de
Modelizacin

rbol de
Decisin

Regresin
Logstica

Regresin Lineal

Tipo de Variable
Target

Discreta

Discreta

Continua

Tipo de
prediccin

Discreta

Continua

Continua

Continua

Poder de
Prediccin

Regular

Bueno

Bueno

Muy Bueno

Rapidez de
Modelizacin

Rpido

Mediano

Mediano

Mediano

Facilidad de
Interpretacin

Fcil

Mediano

Mediano

Difcil

Manejo de
Valores Missing

Muy Bueno

Regular

Regular

Regular

Robustez ante
outliers

Muy Bueno

Bueno

Bueno

Bueno

Red Neuronal
Continua y
Discreta

Presentacin Caso de Negocio

Compaa financiera fundada en 2003, una de las ms especializadas del mercado de


Factoring.

Presencia en Estados Unidos y Latinoamrica, bajo cuatro Unidades de Negocios y seis


reas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).

Promotores de la legislacin que favorece la unificacin de la factura como ttulo valor


con libre negociabilidad.

La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).

Para maximizar el valor de la compaa, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visin a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relacin estratgica a lo largo del tiempo.

Quien es quien?

La compaa decidi llevar adelante un proceso de segmentacin de clientes basada en


modelos de minera de datos, y alinear la estrategia comercial de la compaa a dicha
segmentacin.

Por su tiempo de implementacin acelerado y la facilidad para interpretar los resultados,


se recurri a una segmentacin basada en el comportamiento denominada RFM:
Recency, Frequency, Money Value.

Definiciones previas:

Cliente activo: al menos 1 negocio en los ltimos 180 das.

Cliente inactivo: sin negocios en los ltimos 180 das.

Cliente recurrente: ms de 1 negocio.

Principales mtricas usadas:

Cantidad de Negocios (frecuencia y recurrencia).

Total Valor $, Valor $ Promedio (money value)

Fecha ltimo Negocio (status), Fecha de primer Negocio (fidelidad).

Anlisis Exploratorio

Activos vs. Inactivos y Recurrencia

# Clientes Activos = 70,31% del total de cuentas desde el 2010

# Clientes Activos no Recurrentes = 5,74%

# Negocios Clientes Activos = 5,37%

Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)

# Clientes

Valor $ (Millones)

# Negocios
5%

14%
30%
Activos

Activos

Activos

Inactivos

Inactivos

Inactivos

70%
95%

85%

VADs Activos

Fidelidad vs. Status

Estrategia de Segmentacin

Segmentar por $ Valor (4 segmentos):

Segmentar por Fidelidad y Actividad (4 segmentos):

Cruzar ambos segmentos, y fusionar segmentos poco significativos.

Resultado Final

Resultado Final

0 En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 das
desde el primer negocio. Se destaca un pequeo subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.

1 Valor Bajo: clientes con +150 das de antigedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.

2 Valor Medio: clientes con +150 das de antigedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.

3 Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor


antigedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.

4 Valor Alto: clientes con +1 ao de antigedad, importante # negocios y valor $ Alto.


Ej.: C.I. Agrodex S.A.

5 Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.

El Minero

Es el vnculo entre las reas de tecnologa informtica y las reas de negocios.

Traduce los requerimientos de informacin en preguntas apropiadas para su anlisis con


las herramientas de minera.

Realimenta el Data Warehouse de la compaa con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicacin ms efectivo, etc..

Habilidades:

Fuerte enfoque analtico con visin de negocio. No debe perder de vista el objetivo!

Conocimientos de estadstica avanzada.

Conocimiento de tcnicas de minera y anlisis exploratorio.

Conocimiento de tcnicas de manipulacin de datos (SQL u otros).

Pero por sobre todo curiosidad y creatividad.

Y paciencia...

Desafos

El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.

El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y


puesto en prctica por los usuarios.

La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:

Pocos datos

Poca historia

Ruido, valores anmalos

Valores incompletos

Eficiencia y escalabilidad de algoritmos de Data Mining.

Y por ltimo pero no menos importante

BIG DATA

Que es BIG DATA?

Big Data es el nombre que se le da a conjuntos de informacin que crecen de una


manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
mtodos o tcnicas tradicionales del mundo de base de datos relacionales.

Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos


mviles, machine generated data (logs, sensores, etc.) pero tambin sist. transaccionales.

Big Data son tres Vs y una C:

Velocidad: los datos se generan a un ritmo exponencial.

Volumen: la irrupcin de Big Data dej en el


pasado el Terabyte para hablar de Petabytes y
Zetabytes.

Variedad: datos estructurados y no estructurados,


proveniente de la web 2.0, sensores, logs, etc.

Complejidad: volumen de datos tal que no


permite procesarlo con tcnicas tradicionales

El desafo de BIG DATA


40

LOS DATOS SE
DUPLICAN CADA 2 AOS

80%
DE LA INFORMACIN ES NO
ESTRUCTURADA

35
30

(Gartner, December 2011)

ZB

25

20

LAS EMPRESAS MANEJARN


50X MS DATOS

15
10
5

EN LA PRXIMA DCADA
2005

2010

2015

2020
(IDC Digital Universe Study, June 2011)

0
(IDC Digital Universe Study, June 2011)

El aumento exponencial en la cantidad de informacin disponible ha hecho


que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos.
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011

Muchas Gracias!

Das könnte Ihnen auch gefallen