Beruflich Dokumente
Kultur Dokumente
Andrs Eyherabide
@aeyherabide
www.datalytics.com
Que es Datalytics?
Data Integration
Business Intelligence
Data Mining
Introduccin
Estos anlisis se basan en que los datos pasados sirven para predecir el futuro.
Los datos deben ser entendidos como un activo que le permitir a las organizaciones
diferenciarse proporcionando proporcionar ms y mejores servicios.
La presin competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitir a las organizaciones proporcionar ms y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.
Datos
Transaccionales
Operacionales
Demogrficos
Financieros
Econmicos
Gubernamentales
Asociaciones
Informacin
Extraccin,
transformacin y carga
Limpieza y calidad
Almacenamiento
Acceso en tiempo y forma
Transformar datos en informacin
Conocimiento / Accin
Programas
de retencin
Optimizacin acciones de MKT
Anlisis de riesgo y rentabilidad
Deteccin de fraudes
No es un producto de SW que se compra sino una disciplina que debe ser dominada.
Buscar en una base de datos todas las personas mayores a 20 aos que viven en Medelln y no
han cursado estudios universitarios.
Armar el forecast de ventas para el prximo ao fiscal basado en polticas y reglas del negocio
(por ejemplo, ventas * 1,17).
ETL
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML
Archivos Planos
FTP
Web Logs
Pentaho,
Oracle/Hyperion,
Microstrategy,
SAS, Etc.
Extract
Transform
Clean
Load
Datastage
Informatica
Oracle DI
Pentaho DI
SAS DIS
Etc.
DW
ODS
Oracle
IBM DB2
SQL Server
Teradata
Sybase IQ
Etc.
Data Mart
Data Mining
SAS, SPSS,
Rapid Miner
Metodologas de Trabajo
1. Conocimiento del Negocio
Objetivos / Entorno
Supuestos, restricciones, riesgos y
contingencias
Definir anlisis a realizar
5. Evaluacin
Evaluar e interpretar resultados
Auditar el proceso
Definir prximos pasos
Seleccin, limpieza ,
personalizacin y agregacin
de los datos
Estadstica
DM
Bases de
Datos
Int.
Artificial
Los mtodos estadsticos son la base de muchas de las tcnicas de minera de datos.
Predictivos
Redes Neuronales
Regresiones Logisticas
Series de Tiempo
Clusters
Arboles de Decision
Promedios Mviles
Distribuciones
Varianza
Desvo Standard
Anlisis Multivariados
Tablas de Contingencia
Correlaciones
Rankings, Percentiles, etc.
Data Mining
Regresiones Lineales
Descriptivos
Datos Histricos
Horizonte
Prediccin
Datos Histricos
Entrenamiento y
Validacin
Horizonte
Prediccin
Corrida real
Var. de Clase
/ Target
Entrenamiento
En base a informacin histrica
se generan distintos modelos
Clasifica
Modelo
Edad
Estado
Civil
Ingreso
Anual
$
Credito
#
Cuotas
Mora
24
Casado
120K
20K
Si
36
Casado
240K
34K
12
No
28
Casado
180K
60K
Si
32
Soltero
120K
12K
No
29
Soltero
134K
56K
12
No
46
Casado
182K
128K
14
No
34
Soltero
227K
134K
Si
44
Casado
132K
240K
12
No
Construir y entrenar
el modelo
Y luego predecir
Sexo
Edad
Estado
Civil
Ingreso
Anual
$
Credito
#
Cuotas
Mora
29
Casado
134K
27K
46
Casado
182K
41K
12
34
Casado
72K
26K
10
44
Soltero
152K
42K
Resumen de Modelado
Preparacin Datos
Preseleccin de Variables
Anlisis Exploratorio
Personalizacin de Variables.
Transformacin de Variables
Buscar patrones
(multivariados)
Desarrollo
Construccin de
Modelo
Evaluacin del
Modelo
Implementacin
Construccin de un
Score
Presentar Resultados
Scoring
Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:
Caso real: el 78% de la facturacin se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autnomos con
ingresos superiores a $ 10.800.
Objetivo: hallar un modelo para determinar la variable target como una funcin de los
valores de las otras variables.
El training set se usa para determinar la precisin del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.
Beneficios:
% Saldo Financiado
Respuesta: 65%
% Utilizacin
ltimos 3 meses
Respuesta: 35%
10 -60%
Respuesta:5%
Respuesta: 13%
Respuesta:47%
Respuesta: 5%
Respuesta:30%
rbol de
Decisin
Regresin
Logstica
Regresin Lineal
Tipo de Variable
Target
Discreta
Discreta
Continua
Tipo de
prediccin
Discreta
Continua
Continua
Continua
Poder de
Prediccin
Regular
Bueno
Bueno
Muy Bueno
Rapidez de
Modelizacin
Rpido
Mediano
Mediano
Mediano
Facilidad de
Interpretacin
Fcil
Mediano
Mediano
Difcil
Manejo de
Valores Missing
Muy Bueno
Regular
Regular
Regular
Robustez ante
outliers
Muy Bueno
Bueno
Bueno
Bueno
Red Neuronal
Continua y
Discreta
La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
Para maximizar el valor de la compaa, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visin a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relacin estratgica a lo largo del tiempo.
Quien es quien?
Definiciones previas:
Anlisis Exploratorio
# Clientes
Valor $ (Millones)
# Negocios
5%
14%
30%
Activos
Activos
Activos
Inactivos
Inactivos
Inactivos
70%
95%
85%
VADs Activos
Estrategia de Segmentacin
Resultado Final
Resultado Final
0 En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 das
desde el primer negocio. Se destaca un pequeo subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.
1 Valor Bajo: clientes con +150 das de antigedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.
2 Valor Medio: clientes con +150 das de antigedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
5 Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.
El Minero
Realimenta el Data Warehouse de la compaa con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicacin ms efectivo, etc..
Habilidades:
Fuerte enfoque analtico con visin de negocio. No debe perder de vista el objetivo!
Y paciencia...
Desafos
La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:
Pocos datos
Poca historia
Valores incompletos
BIG DATA
LOS DATOS SE
DUPLICAN CADA 2 AOS
80%
DE LA INFORMACIN ES NO
ESTRUCTURADA
35
30
ZB
25
20
15
10
5
EN LA PRXIMA DCADA
2005
2010
2015
2020
(IDC Digital Universe Study, June 2011)
0
(IDC Digital Universe Study, June 2011)
Muchas Gracias!