Beruflich Dokumente
Kultur Dokumente
La Minera de Datos de la A a la Z:
Cmo Descubrir Conocimientos y Crear Mejores Oportunidades
Contenido
Introduccin.................................................................. 1
El Ciclo de Vida Analtico de SAS: Combinando
Datos, el Descubrimiento y la Implementacin....... 2
Qu Puede Ayudarle a Descubrir la Minera de
Datos? ........................................................................... 3
Un Vistazo al ROI de la Minera de Datos en el
Proceso de Descubrimiento....................................... 5
Paso 1: Convierta una Pregunta de Negocio en
una Hiptesis Analtica........................................... 5
Paso 2: Prepare los Datos para la Minera de
Datos ........................................................................ 5
Paso 3: Explore los Datos...................................... 5
Paso 4: Modele los Datos...................................... 6
Soluciones de Minera de Datos de SAS................ 6
Usando SAS Enterprise Miner para la
Minera de Datos y Machine Learning................ 6
Usando SAS Factory Miner para la
Automatizacin de la Minera de Datos.............. 8
Escalando su Proceso de Descubrimiento para
Manejar Big Data y los Problemas Complejos .. 8
La Integracin Facilita la Implementacin de
Modelos, el Monitoreo y la Gestin.................. 10
Conclusin................................................................... 11
Ms Informacin......................................................... 11
1
Introduccin
Hay tantos datos y una gran cantidad de decisiones que tomar. Las
organizaciones de todo el mundo se estn enfrentando a este dilema.
Los datos estn creciendo, pero y su capacidad para tomar decisiones
de acuerdo con esos enormes volmenes de datos? Tambin estn
creciendo? Para muchos, desafortunadamente, la respuesta es NO.
Los datos fluyen a velocidades y volmenes nunca antes vistos, y de
todas partes. Pero tomar decisiones basadas en hechos no depende
de la cantidad de datos que uno tenga. De hecho, tener tantos datos
puede ser un obstculo. Por dnde comenzar? Su xito depender
de lo rpido que pueda descubrir conocimientos en todos esos datos
y utilizar dichos conocimientos para llevar a cabo mejores acciones
dentro de su organizacin.
Es ah donde la analtica predictiva, la minera de datos, el machine
learning y la gestin de decisiones entran en accin. La analtica
predictiva ayuda a evaluar lo que suceder en el futuro. La minera
de datos (Data Mining) busca los patrones ocultos en los datos
que pueden utilizarse para predecir el comportamiento futuro. Las
empresas, los cientficos y los gobiernos han utilizado este enfoque
por aos para transformar los datos en conocimientos proactivos.
La gestin de decisiones convierte esos conocimientos en acciones
que se utilizan en sus procesos operativos. De modo que mientras se
puedan seguir aplicando hoy los mismos enfoques, necesitan suceder
ms rpidamente y a una mayor escala, utilizando las tcnicas ms
modernas disponibles actualmente.
Las organizaciones innovadoras utilizan la minera de datos y la analtica
predictiva para detectar los fraudes y los problemas de seguridad
ciberntica, para gestionar los riesgos, anticipar las demandas
de recursos, aumentar las tasas de respuesta de las campaas de
marketing, generar las prximas mejores ofertas, reducir el abandono
de los clientes e identificar efectos adversos que tendran los
medicamentos durante las pruebas clnicas, entre otras muchas cosas.
Debido a que pueden producir conocimientos predictivos a partir
de datos diversos y de gran volumen, las metodologas de minera
de datos, el machine learning y el modelado analtico avanzado
son esenciales para identificar los factores que pueden mejorar el
desempeo organizacional y, cuando se automatiza en las decisiones
de todos los das, crear una ventaja competitiva. Y hoy que hay mucho
ms de todo (datos, poder de cmputo, preguntas de negocio, riesgos
y consumidores), la capacidad de aumentar su poder analtico es
esencial para adelantarse a su competencia.
Descubrimiento
Implementacin
Datos
2
El Ciclo de Vida Analtico de
SAS: Combinando Datos, el
Descubrimiento y la Implementacin
Si bien gran parte de este documento se enfoca en utilizar la minera
de datos para descubrir conocimientos, echemos un vistazo al ciclo de
vida analtico iterativo completo, porque eso es lo que hace posible el
descubrimiento predictivo y le da ms valor a las acciones que de l se
derivan.
Haga una pregunta de negocio. Todo comienza aqu. El proceso
de descubrimiento se da al hacer preguntas de negocio que
impulsen la innovacin. El primer paso se enfoca en explorar
lo que usted necesita saber, cmo puede aplicar la analtica
predictiva a sus datos para resolver un problema o mejorar un
proceso.
Prepare los datos. Actualmente recolectar datos no es un
problema provienen de todos lados. Tecnologas como
Hadoop y computadoras ms rpidas y ms accesibles han
permitido almacenar y utilizar ms datos, y ms tipos de datos,
que nunca antes. Pero an persiste el problema de unir los datos
en diferentes formas de diferentes fuentes y la necesidad de
transformar los datos brutos en datos que puedan utilizarse como
una entrada a la minera de datos. Los cientficos de datos an
pasan mucho de su tiempo lidiando con estas tareas.
Explorar los datos. Las herramientas de visualizacin interactivas
necesitan servir a una amplia gama de usuarios en una
organizacin (desde el analista de negocio sin conocimientos
analticos hasta un cientfico de datos) para permitir hacer
bsquedas de relaciones, tendencias y patrones para entender
ms a fondo la informacin capturada por variables en los datos.
En este paso, la hiptesis formulada en la fase inicial del proyecto
se refinar y las ideas de cmo afrontar el problema de negocio
desde una perspectiva analtica se desarrollan y se prueban.
Mientras examina sus datos, puede surgir la necesidad de crear,
seleccionar y transformar algunos datos para crear modelos
enfocados con mayor precisin. Las herramientas interactivas
veloces ayudan a hacer de ste un proceso interactivo, el cual es
crucial para identificar las mejores preguntas y respuestas.
Modele los datos. En esta etapa, el cientfico de datos aplica
varios algoritmos de modelado analtico a los datos para
identificar representaciones robustas de las relaciones de los
datos que ayuden a responder a la pregunta de negocio. Las
herramientas analticas buscan una combinacin de datos y de
tcnicas de modelado que predigan de manera confiable un
resultado deseado. Para encontrar la respuesta ms confiable,
la clave es la experimentacin, y crear un modelo automtico
puede ayudar a reducir el tiempo para obtener los resultados
y aumentar la productividad de los equipos analticos. En el
3
Implementar
Descubrimiento
M o d ela
Preguntar
Datos
Implementacin
Ev a l u
Actuar
Explorar
Preparar
ar
Figura 2: El ciclo de vida analtico es un proceso iterativo de hacer descubrimientos en sus datos y aplicar nuevos conocimientos para mejorar
continuamente los modelos predictivos y sus resultados.
Pregunte una vez ms. Debido a que los datos estn creciendo
y cambiando continuamente, las relaciones de los datos que
utilizan sus modelos para las predicciones tambin cambian con
el tiempo. La evaluacin constante de sus resultados analticos
identificar la degradacin de la precisin de los modelos.
Incluso los modelos ms precisos tendrn que renovarse con el
tiempo, y las organizaciones necesitarn pasar por los pasos de
descubrimiento e implementacin una vez ms. Es un proceso
constante y en evolucin.
SAS ofrece una plataforma analtica completa e integrada que maneja
cada paso del ciclo de vida analtico iterativo. Este es recordatorio
de que el documento se enfocar en la parte del descubrimiento de
datos del ciclo de vida - y las herramientas de minera de datos que
usted necesitar para crear rpidamente los modelos predictivos ms
precisos posible.
4
Utilizando estos segmentos, usted puede crear modelos para cada
grupo para predecir la siguiente mejor oferta o actividad a la cual
probablemente respondern. Para asegurar que usted slo llega a los
clientes que quiere, puede complementar el modelo de adquisicin
con un modelo de calificacin de riesgos para averiguar quin es un
buen riesgo de crdito y que vale la inversin para adquirirlo o
retenerlo.
Otro uso importante para la minera de datos y machine-learning es
ayudar a detectar los fraudes, lo que es importante a medida que los
defraudadores desarrollan tcticas ms sofisticadas. Pueden construirse
modelos para cruzar datos de una amplia variedad de fuentes,
correlacionar variables no obvias con caractersticas conocidas para
identificar nuevos patrones de actividades fraudulentas.
Aplicacin
Qu se predice?
Perfiles y segmentacin.
Qu producto/servicio recomendar?
Adquisicin y retencin.
Gestin de campaas.
Aplicacin
Qu se predice?
5
Un Vistazo al ROI de la Minera de Datos
en el Proceso de Descubrimiento
necesitar tomar una muestra de los datos esto es, crear un subconjunto ms pequeo de los datos que representan al conjunto de datos
que ya estn presentes en los datos, por lo que la muestra debe ser
representativa y lo suficientemente grande para contener la informacin
importante. La tabla base de analtica tambin se divide generalmente
en por lo menos dos conjuntos: el de capacitacin y el conjunto de
prueba. El primero se utiliza para capacitar a el algoritmo (s) de minera
de datos y de machine-learning, al tiempo que el segundo se utiliza
para verificar la precisin de los patrones encontrados.
6
Paso 4: Modele los Datos
Despus de explorar y preparar cuidadosamente sus datos
de entrada, usted est listo para crear modelos predictivos o
supervisados para buscar una combinacin de los datos que
predigan de modo confiable un resultado deseado. Dependiendo
de los datos y los problemas que se tengan, usted puede escoger
de una variedad de tcnicas modernas estadsticas y de machinelearning para resolver su problema incluyendo la clasificacin, la
regresin, las redes neuronales, los bosques aleatorios, la mquina de
vectores de soporte, la respuesta gradual o la minera de datos por
series de tiempo as como tcnicas de industrias especficas como la
calificacin de crdito en banca o primas para seguros.
La seleccin de las tcnicas ms adecuadas depende de varios
factores: Es importante tener un modelo que prediga su resultado
deseado con la mayor precisin o es tambin (o incluso ms)
importante tener transparencia en las relaciones de datos que
impulsan las predicciones? Las tcnicas de machine-learning
automtica a menudo son demasiado complejas para permitir la
exploracin de los factores de negocio a partir de los resultados
de los modelos, mientras que otras tcnicas estadsticas como la
regresin y los rboles de decisiones son ms transparentes y las
industrias reguladas las prefieren.
Para obtener al valor mximo de sus modelos predictivos, usted
querr evaluar constantemente la utilidad y la confiabilidad de los
hallazgos de sus procesos de minera de datos. No todos los patrones
encontrados por los algoritmos de la minera de datos sern vlidos.
Los algoritmos podran encontrar patrones en el conjunto de datos
de capacitacin que no estn presentes en el conjunto de datos
general. (A esto se le llama sobreajuste overfitting). Con el fin de
solucionar esta preocupacin, los patrones son validados con un
conjunto de datos de prueba. Los patrones aprendidos en los datos
de capacitacin se aplicarn al conjunto de prueba, y el resultado se
compara con el resultado deseado (o conocido).
Por ejemplo, un algoritmo de minera de datos que ha sido
capacitado para distinguir transacciones con tarjetas de crdito
fraudulentas de las legtimas se aplicara al conjunto de prueba de
transacciones en las que no haba sido capacitado. La precisin de los
patrones puede entonces medirse a partir de cuntas transacciones
con tarjetas de crdito se clasificaron correctamente. Si los patrones
aprendidos no cumplen con los estndares deseados, se hacen
modificaciones a las tcnicas de pre-procesamiento y de minera
de datos hasta que el resultado sea satisfactorio y los patrones
aprendidos puedan aplicarse exitosamente a los sistemas operativos.
Los cientficos de datos y los mineros de datos necesitan experimentar
con varios algoritmos de modelado predictivo y de machine-learning
con el fin de encontrar uno que funcione mejor para su problema
especfico. Los torneos de modelado automtico donde los usuarios
6
pueden experimentar para identificar rpidamente la estrategia
de modelado ganadora pueden ayudar a ahorrar mucho tiempo.
Cuando usted est satisfecho con los resultados de sus esfuerzos
de modelado, entonces comienza el proceso de implementacin.
Pero ya que es un proceso completamente iterativo, hay exmenes
y ajustes constantes. Como se dijo anteriormente, el proceso de
desarrollo sigue varios pasos (vea la seccin Ciclo de Vida Analtico de
SAS en la pgina 2). Para consultar ms informacin sobre el proceso
de implementacin, lea Desde los Datos hasta la Decisin: Cmo
SAS Decision Manager Automatiza las Decisiones Operativas. Para
saber ms sobre minera de datos y el descubrimiento, siga leyendo!
7
para calificar datos en SAS as como en otros entornos. El cdigo de
calificacin tambin se entrega automticamente como una funcin
en la base de datos para calificar dentro de Hadoop as como en
bases de datos lderes de la industria como Teradata, IBM, Oracle,
Pivotal, Aster Data, SAP HANA, etc., para cada interaccin con
aplicaciones de negocio y rpidos resultados operativos.
Adems de generar cdigo de calificacin en diferentes lenguajes
y formatos, SAS Enteprise Miner tambin genera muchos activos
que permiten la implementacin, gestin y monitoreo sencillos
de modelos predictivos como parte de los procesos de negocio
operativos. Todos estos activos son soportados por metadatos
para brindar la documentacin importante alrededor del proceso
completo.
El proceso de minera de datos de SAS Enterprise Miner es guiado
por un diagrama de flujo de procesos que usted puede modificar,
guardar y compartir. La GUI de arrastrar y colocar le permite a los
analistas con poca experiencia estadstica navegar por el proceso de
minera de datos, mientras que el experto cuantitativo puede afinar
los modelos analticos en segundo plano.
Figura 3: Los rboles de decisiones son slo una de las muchas tcnicas de modelado que se incluyen con SAS Enterprise Miner. Pueden
desarrollarse interactivamente o en un modo en lote. Varias grficas de evaluacin ayudan a medir la estabilidad general de los rboles.
8
Usando SAS Factory Miner para la
Automatizacin de la Minera de Datos
A medida que las organizaciones aplican analticas ms dirigidas
a sus crecientes segmentos de clientes y de negocio, hay una
necesidad de crear modelos an ms predictivos a niveles ms
granulares. Por ejemplo, en lugar de desarrollar un modelo para la
base de clientes completa, los departamentos de marketing quieren
crear modelos especficos para muchos segmentos de clientes. Una
tienda tal vez quiera desarrollar modelos de ventas cruzadas para
un gran nmero de categoras de productos. O una compaa de
transporte querr crear modelos de mantenimiento predictivos para
diferentes componentes de los vehculos que tiene en operacin. Y
si bien esto hace necesario crear muchos ms modelos, la mayora
de los analistas y cientficos de datos no tienen mucho tiempo para
eso.
Con SAS Factory Minter, usted tiene un entorno de modelado
predictivo interactivo que hace extremadamente sencillo crear,
modificar y evaluar cientos, o incluso miles, de modelos muy
rpidamente. Con solo unos clics, usted puede acceder, modificar
y transformar sus datos, elegir qu tcnicas de machine-learning
quiere aplicar y ejecutar los modelos en un entorno de torneo
automtico de modelos para identificar rpidamente al mejor para
cada segmento. Las tcnicas de modelado incluidas en SAS Factory
Miner son:
Redes bayesianas.
rboles de decisiones.
Potenciacin de gradientes.
Redes neuronales.
Bosques aleatorios.
Mquinas de vectores de soporte.
Modelos lineales generalizados
Regresin Logstica
Los usuarios pueden identificar fcilmente las excepciones de
modelado (segmentos en los que el enfoque automtico no
genera modelos que cumplan con los criterios de aceptacin).
El diseo de caja blanca de SAS Factory Miner permite que los
usuarios modifiquen fcilmente las lneas de modelado predictivo
y afinen los parmetros de los componentes de las lneas para
mejores resultados cuando es necesario. Pueden incluso crear
sus propias lneas de modelado a la medida para sus proyectos
analticos favoritos, incluyendo la preparacin de datos, ingeniera
de caractersticas y algoritmos de seleccin y de aprendizaje, y
compartirlos con otros usuarios para crear un repositorio de mejores
prcticas organizacionales. Esta colaboracin en toda la organizacin
puede ayudar a ampliar la reserva de talento acadmico en su
organizacin. El cientfico de datos acta como el productor de las
lneas de modelado de mejores prcticas organizacionales para
Figura 4: Las tcnicas de evaluacin personalizables de SAS Factory Miner le permiten generar modelos campeones para cada
segmento de sus datos.
un cluster Hadoop. El proceso se realiza completamente en la
memoria cada vez que es posible, incluyendo la comunicacin
entre las unidades de procesamiento (CPUs), lo que hace a este
proceso realmente rpido.
El proceso analtico en-memoria distribuido de SAS aprovecha
una infraestructura analtica altamente escalable y confiable
incluyendo dispositivos de bases de datos como Pivotal Grenplum,
Teradata, Oracle y SAP HANA y hardware estndar que utilice
Hadoop de cdigo abierto, o Hadoop Cloudera y distribuciones
de Hortsonworks. Para los usuarios, no cambia mucho. Pueden
trabajar desde la misma interfaz conocida para sus proyectos
de minera de datos, de analtica predictiva y de machinelearning, mientras que SAS In-Memory Analytics se encarga de la
distribucin ptima de cargas de trabajo en el sistema disponible.
SAS High-Performance Data Mining le permite analizar grandes
volmenes de datos diversos usando una interfaz de arrastrar y
10
La Integracin Facilita la Implementacin de
Modelos, el Monitoreo y la Gestin
Si bien este documento se enfoca en la minera de datos y en el
proceso de descubrimiento analtico, usted realmente no puede
terminar una conversacin sobre minera de datos y machine
learning para las aplicaciones de negocio sin abordar lo que sucede
despus de que se crean los modelos predictivos y se eligen los
modelos campeones. Entonces, qu sucede? Usted pasa a la fase de
implementacin (vea la Figura 2).
Despus de que se ha seleccionado el modelo campen, tiene
que implementarse en el entorno de produccin correcto. Las
organizaciones utilizan modelos predictivos de diferentes maneras.
Por ejemplo, podran utilizarse para seleccionar a clientes para las
campaas de marketing al ejecutar un proceso de calificacin en
lote y entregar a marketing una lista de los clientes seleccionados.
Un nmero cada vez mayor de organizaciones estn recurriendo a
procesos ms integrados y automticos para hacer que los resultados
de los modelos predictivos estn disponibles para tomar decisiones
operativas. En lugar de hacer que el proceso de calificacin se ejecute
en lote, les gustara que el modelo d las respuestas bajo demanda
como parte de una aplicacin de negocio. Las organizaciones tambin
podran querer respuestas en tiempo real del flujo de datos (por
ejemplo, para la deteccin automtica de fraudes o el mantenimiento
predictivo).
Figura 5: SAS Decision Manager ayuda a acelerar el proceso de implementacin de modelos. Integra la automatizacin del desarrollo
de modelos con SAS Factory Miner y acelera las tareas manuales comunes, como la definicin de reglas de negocio y la generacin
automtica de vocabularios.
11
Conclusin
Ms Informacin