Sie sind auf Seite 1von 12

M

M
e
e
t
t
o
o
d
d
o
o
l
l
o
o
g
g

a
a
p
p
a
a
r
r
a
a
e
e
l
l

D
D
e
e
s
s
a
a
r
r
r
r
o
o
l
l
l
l
o
o
d
d
e
e

P
P
r
r
o
o
y
y
e
e
c
c
t
t
o
o
s
s
e
e
n
n

M
M
i
i
n
n
e
e
r
r

a
a
d
d
e
e
D
D
a
a
t
t
o
o
s
s

C
C
R
R
I
I
S
S
P
P
-
-
D
D
M
M

EPB 603 Sistemas del Conocimiento


8asado en |a 1es|s: "Metodo|og|a para |a Def|n|c|n de kequ|s|tos en royectos de Data M|n|ng
(Lk-DM)" de Ios A|berto Ga||ardo Aranc|b|a.



2

Modelos de proceso para proyectos de Data Mining (DM)

Son diversos los modelos de proceso que han sido propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS, 2003],
DMAMC (Definir, Medir, Analizar, Mejorar, Controlar) [Isixsigma, 2005], o CRISP-DM
(Cross Industry Standard Process for Data Mining) [CRISP-DM, 2000], sin embargo uno de los
modelos principalmente utilizados en los ambientes acadmico e industrial es el modelo CRISP-
DM.

CRISP-DM (Cross Industry Standard Process for Data Mining)

CRISPDM [CRISP-DM, 2000], es la gua de referencia ms ampliamente utilizada en el
desarrollo de proyectos de Data Mining, como se puede constatar en la grfica presentada en la
figura 2.3. Esta grfica, publicada el ao 2007 por kdnuggets.com, representa el resultado
obtenido en sucesivas encuestas efectuadas durante los ltimos aos, respecto del grado de
utilizacin de las principales guas de desarrollo de proyectos de Data Mining. En ella se puede
observar, que a pesar de que el uso de aun frente a otras, la gua de referencia ms ampliamente
utilizada.

Los orgenes de CRISP-DM, se remontan hacia el ao 1999 cuando un importante consorcio de
empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA
(Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de
KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,
1996], [Fayyad, 1996], el desarrollo de una gua de referencia de libre distribucin denominada
CRISP-DM (Cross Industry Standard Process for Data Mining).

Figura No. 2.3. Metodologas utilizadas en Data Mining ([kdnuggets, 2007]).
3

CRISP-DM, est dividida en 4 niveles de abstraccin organizados de forma jerrquica (figura
2.4) en tareas que van desde el nivel ms general, hasta los casos ms especficos y organiza el
desarrollo de un proyecto de Data Mining, en una serie de seis fases (figura 2.5):

Figura No. 2.4. Esquema de los 4 niveles de CRISP-DM ([CRISP-DM, 2000]).
La sucesin de fases no es necesariamente rgida. Cada fase es estructurada en varias tareas
generales de segundo nivel. Las tareas generales se proyectan a tareas especficas, donde
finalmente se describen las acciones que deben ser desarrolladas para situaciones especficas,
pero en ningn momento se propone como realizarlas.

4


Figura No. 2.5. Modelo de proceso CRISPDM ([CRISP-DM, 2000]).
A continuacin se describen cada una de las fases en que se divide CRISP-DM.

1. Fase de comprensin del negocio o problema

La primera fase de la gua de referencia CRISP-DM, denominada fase de comprensin del
negocio o problema (figura 2.6), es probablemente la ms importante y aglutina las tareas de
comprensin de los objetivos y requisitos del proyecto desde una perspectiva empresarial o
institucional, con el fin de convertirlos en objetivos tcnicos y en un plan de proyecto. Sin lograr
comprender dichos objetivos, ningn algoritmo por muy sofisticado que sea, permitir obtener
resultados fiables. Para obtener el mejor provecho de Data Mining, es necesario entender de la
manera ms completa el problema que se desea resolver, esto permitir recolectar los datos
correctos e interpretar correctamente los resultados. En esta fase, es muy importante la capacidad
de poder convertir el conocimiento adquirido del negocio, en un problema de Data Mining y en
un plan preliminar cuya meta sea el alcanzar los objetivos del negocio. Una descripcin de cada
una de las principales tareas que componen esta fase es la siguiente:

Determinar los objetivos del negocio. Esta es la primera tarea a desarrollar y tiene como metas,
determinar cul es el problema que se desea resolver, por qu la necesidad de utilizar Data
Mining y definir los criterios de xito. Los problemas pueden ser diversos como por ejemplo,
detectar fraude en el uso de tarjetas de crdito, deteccin de intentos de ingreso indebido a un
sistema, asegurar el xito de una determinada campaa publicitaria, etc. En cuanto a los criterios
de xito, estos pueden ser de tipo cualitativo, en cuyo caso un experto en el rea de dominio,
3

califica el resultado del proceso de DM, o de tipo cuantitativo, por ejemplo, el nmero de
detecciones de fraude o la respuesta de clientes ante una campaa publicitaria.



Figura No. 2.6. Fase de comprensin del negocio ([CRISP-DM, 2000]).

Evaluacin de la situacin. En esta tarea se debe calificar el estado de la situacin antes de
iniciar el proceso de DM, considerando aspectos tales como: cul es el conocimiento previo
disponible acerca del problema?, se cuenta con la cantidad de datos requerida para resolver el
problema?, cul es la relacin coste beneficio de la aplicacin de DM?, etc. En esta fase se
definen los requisitos del problema, tanto en trminos de negocio como en trminos de Data
Mining.

Determinacin de los objetivos de DM. Esta tarea tiene como objetivo representar los objetivos
del negocio en trminos de las metas del proyecto de DM, como por ejemplo, si el objetivo del
negocio es el desarrollo de una campaa publicitaria para incrementar la asignacin de crditos
hipotecarios, la meta de DM ser por ejemplo, determinar el perfil de los clientes respecto de su
capacidad de endeudamiento. Produccin de un plan del proyecto. Finalmente esta ltima tarea
de la primera fase de CRISP-DM, tiene como meta desarrollar un plan para el proyecto, que
describa los pasos a seguir y las tcnicas a emplear en cada paso.

2. Fase de comprensin de los datos

La segunda fase (figura 2.7), fase de comprensin de los datos, comprende la recoleccin inicial
de datos, con el objetivo de establecer un primer contacto con el problema, familiarizndose con
ellos, identificar su calidad y establecer las relaciones ms evidentes que permitan definir las
6

primeras hiptesis. Esta fase junto a las prximas dos fases, son las que demandan el mayor
esfuerzo y tiempo en un proyecto de DM. Por lo general si la organizacin cuenta con una base
de datos corporativa, es deseable crear una nueva base de datos ad-hoc al proyecto de DM, pues
durante el desarrollo del proyecto, es posible que se generen frecuentes y abundantes accesos a la
base de datos a objeto de realizar consultas y probablemente modificaciones, lo cual podra
generar muchos problemas.


Figura No. 2.7. Fase de comprensin de los datos ([CRISP-DM, 2000]).

Las principales tareas a desarrollar en esta fase del proceso son:

Recoleccin de datos iniciales. La primera tarea en esta segunda fase del proceso de CRISP-DM,
es la recoleccin de los datos iniciales y su adecuacin para el futuro procesamiento. Esta tarea
tiene como objetivo, elaborar informes con una lista de los datos adquiridos, su localizacin, las
tcnicas utilizadas en su recoleccin y los problemas y soluciones inherentes a este proceso.

Descripcin de los datos. Despus de adquiridos los datos iniciales, estos deben ser descritos.
Este proceso involucra establecer volmenes de datos (nmero de registros y campos por
registro), su identificacin, el significado de cada campo y la descripcin del formato inicial.

Exploracin de datos. A continuacin, se procede a su exploracin, cuyo fin es encontrar una
estructura general para los datos. Esto involucra la aplicacin de pruebas estadsticas bsicas, que
revelen propiedades en los datos recin adquiridos, se crean tablas de frecuencia y se construyen
grficos de distribucin. La salida de esta tarea es un informe de exploracin de los datos.

7

Verificacin de la calidad de los datos. En esta tarea, se efectan verificaciones sobre los datos,
para determinar la consistencia de los valores individuales de los campos, la cantidad y
distribucin de los valores nulos, y para encontrar valores fuera de rango, los cuales pueden
constituirse en ruido para el proceso. La idea en este punto, es asegurar la completitud y
correccin de los datos.

3. Fase de preparacin de los datos

En esta fase y una vez efectuada la recoleccin inicial de datos, se procede a su preparacin para
adaptarlos a las tcnicas de Data Mining que se utilicen posteriormente, tales como tcnicas de
visualizacin de datos, de bsqueda de relaciones entre variables u otras medidas para
exploracin de los datos. La preparacin de datos incluye las tareas generales de seleccin de
datos a los que se va a aplicar una determinada tcnica de modelado, limpieza de datos,
generacin de variables adicionales, integracin de diferentes orgenes de datos y cambios de
formato.

Esta fase se encuentra relacionada con la fase de modelado, puesto que en funcin de la tcnica
de modelado elegida, los datos requieren ser procesados de diferentes formas. Es as que las
fases de preparacin y modelado interactan de forma permanente. La figura 2.8, ilustra las reas
de que se compone sta, e identifica sus salidas. Una descripcin de las tareas involucradas en
esta fase es la siguiente: Seleccin de datos. En esta etapa, se selecciona un subconjunto de los
datos adquiridos en la fase anterior, apoyndose en criterios previamente establecidos en las
fases anteriores: calidad de los datos en cuanto a completitud y correccin de los datos y
limitaciones en el volumen o en los tipos de datos que estn relacionadas con las tcnicas de DM
seleccionadas. Limpieza de los datos. Esta tarea complementa a la anterior, y es una de las que
ms tiempo y esfuerzo consume, debido a la diversidad de tcnicas que pueden aplicarse para
optimizar la calidad de los datos a objeto de prepararlos para la fase de modelacin. Algunas de
las tcnicas a utilizar para este propsito son: normalizacin de los datos, discretizacin de
campos numricos, tratamiento de valores ausentes, reduccin del volumen de datos, etc.

Estructuracin de los datos. Esta tarea incluye las operaciones de preparacin de los datos tales
como la generacin de nuevos atributos a partir de atributos ya existentes, integracin de nuevos
registros o transformacin de valores para atributos existentes.

8


Figura No. 2.8. Fase de preparacin de los datos ([CRISP-DM, 2000]).

Integracin de los datos. La integracin de los datos, involucra la creacin de nuevas estructuras,
a partir de los datos seleccionados, por ejemplo, generacin de nuevos campos a partir de otros
existentes, creacin de nuevos registros, fusin de tablas campos o nuevas tablas donde se
resumen caractersticas de mltiples registros o de otros campos en nuevas tablas de resumen.

Formateo de los datos. Esta tarea consiste principalmente, en la realizacin de transformaciones
sintcticas de los datos sin modificar su significado, esto, con la idea de permitir o facilitar el
empleo de alguna tcnica de DM en particular, como por ejemplo la reordenacin de los campos
y/o registros de la tabla o el ajuste de los valores de los campos a las limitaciones de las
herramientas de modelacin (eliminar comas, tabuladores, caracteres especiales, mximos y
mnimos para las cadenas de caracteres, etc.).





9

4. Fase de modelado

En esta fase de CRISP-DM, se seleccionan las tcnicas de modelado ms apropiadas para el
proyecto de Data Mining especfico. Las tcnicas a utilizar en esta fase se eligen en funcin de
los siguientes criterios:

o Ser apropiada al problema.
o Disponer de datos adecuados.
o Cumplir los requisitos del problema.
o Tiempo adecuado para obtener un modelo.
o Conocimiento de la tcnica.



Figura No. 2.9. Fase de modelado ([CRISP-DM, 2000]).

Previamente al modelado de los datos, se debe determinar un mtodo de evaluacin de los
odelos que permita establecer el grado de bondad de ellos. Despus de concluir estas tareas
genricas, se procede a la generacin y evaluacin del modelo. Los parmetros utilizados en la
generacin del modelo, dependen de las caractersticas de los datos y de las caractersticas de
precisin que se quieran lograr con el modelo. La figura 2.9 ilustra las tareas y resultados que se
obtienen en esta fase. Una descripcin de las principales tareas de esta fase es la siguiente:

Seleccin de la tcnica de modelado. Esta tarea consiste en la seleccin de la tcnica de DM ms
apropiada al tipo de problema a resolver. Para esta seleccin, se debe considerar el objetivo
principal del proyecto y la relacin con las herramientas de DM existentes. Por ejemplo, si el
10

problema es de clasificacin, se podr elegir de entre rboles de decisin, k-nearest neighbour o
razonamiento basado en casos (CBR); si el problema es de prediccin, anlisis de regresin,
redes neuronales; o si el problema es de segmentacin, redes neuronales, tcnicas de
visualizacin, etc.

Generacin del plan de prueba. Una vez construido un modelo, se debe generar un
procedimiento destinado a probar la calidad y validez del mismo. Por ejemplo, en una tarea
supervisada de DM como la clasificacin, es comn usar la razn de error como medida de la
calidad. Entonces, tpicamente se separan los datos en dos conjuntos, uno de entrenamiento y
otro de prueba, para luego construir el modelo basado en el conjunto de entrenamiento y medir la
calidad del modelo generado con el conjunto de prueba.

Construccin del Modelo. Despus de seleccionada la tcnica, se ejecuta sobre los datos
previamente preparados para generar uno o ms modelos. Todas las tcnicas de modelado tienen
un conjunto de parmetros que determinan las caractersticas del modelo a generar. La seleccin
de los mejores parmetros es un proceso iterativo y se basa exclusivamente en los resultados
generados. Estos deben ser interpretados y su rendimiento justificado.

Evaluacin del modelo. En esta tarea, los ingenieros de DM interpretan los modelos de acuerdo
al conocimiento preexistente del dominio y los criterios de xito preestablecidos. Expertos en el
dominio del problema juzgan los modelos dentro del contexto del dominio y expertos en Data
Mining aplican sus propios criterios (seguridad del conjunto de prueba, perdida o ganancia de
tablas, etc...).

5. Fase de evaluacin

En esta fase se evala el modelo, teniendo en cuenta el cumplimiento de los criterios de xito del
problema. Debe considerarse adems, que la fiabilidad calculada para el modelo se aplica
solamente para los datos sobre los que se realiz el anlisis. Es preciso revisar el proceso,
teniendo en cuenta los resultados obtenidos, para poder repetir algn paso anterior, en el que se
haya posiblemente cometido algn error. Considerar que se pueden emplear mltiples
herramientas para la interpretacin de los resultados. Las matrices de confusin =Edelstein,
1999?son muy empleadas en problemas de clasificacin y consisten en una tabla que indica
cuantas clasificaciones se han hecho para cada tipo, la diagonal de la tabla representa las
clasificaciones correctas. Si el modelo generado es vlido en funcin de los criterios de xito
establecidos en la fase anterior, se procede a la explotacin del modelo. La figura 2.10 detalla las
tareas que componen esta fase y los resultados que se deben obtener. Las tareas involucradas en
esta fase del proceso son las siguientes:

Evaluacin de los resultados. En los pasos de evaluacin anteriores, se trataron factores tales
como la exactitud y generalidad del modelo generado. Esta tarea involucra la evaluacin del
modelo en relacin a los objetivos del negocio y busca determinar si hay alguna razn de
negocio para la cual, el modelo sea deficiente, o si es aconsejable probar el modelo, en un
problema real si el tiempo y restricciones lo permiten. Adems de los resultados directamente
relacionados con el objetivo del proyecto, es aconsejable evaluar el modelo en relacin a otros
objetivos distintos a los originales?, esto podra revelar informacin adicional.
11


Proceso de revisin. El proceso de revisin, se refiere a calificar al proceso entero de DM, a
objeto de identificar elementos que pudieran ser mejorados.


Figura No. 2.10. Fase de evaluacin ([CRISP-DM, 2000]).

Determinacin de futuras fases. Si se ha determinado que las fases hasta este momento han
generado resultados satisfactorios, podra pasarse a la fase siguiente, en caso contrario podra
decidirse por otra iteracin desde la fase de preparacin de datos o de modelacin con otros
parmetros. Podra ser incluso que en esta fase se decida partir desde cero con un nuevo proyecto
de DM.

6. Fase de implementacin

En esta fase (figura 2.11), y una vez que el modelo ha sido construido y validado, se transforma
el conocimiento obtenido en acciones dentro del proceso de negocio, ya sea que el analista
recomiende acciones basadas en la observacin del modelo y sus resultados, ya sea aplicando el
modelo a diferentes conjuntos de datos o como parte del proceso, como por ejemplo, en anlisis
de riesgo crediticio, deteccin de fraudes, etc. Generalmente un proyecto de Data Mining no
concluye en la implantacin del modelo, pues se deben documentar y presentar los resultados de
manera comprensible para el usuario, con el objetivo de lograr un incremento del conocimiento.
Por otra parte, en la fase de explotacin se debe asegurar el mantenimiento de la aplicacin y la
posible difusin de los resultados. Las tareas que se ejecutan en esta fase son las siguientes:

Plan de implementacin. Para implementar el resultado de DM en la organizacin, esta tarea
toma los resultados de la evaluacin y concluye una estrategia para su implementacin. Si un
procedimiento general se ha identificado para crear el modelo, este procedimiento debe ser
documentado para su posterior implementacin. Monitorizacin y Mantenimiento. Si los
modelos resultantes del proceso de Data Mining son implementados en el dominio del problema
12

como parte de la rutina diaria, es aconsejable preparar estrategias de monitorizacin y
mantenimiento para ser aplicadas sobre los modelos. La retroalimentacin generada por la
monitorizacin y mantenimiento pueden indicar si el modelo est siendo utilizado
apropiadamente.


Figura No. 2.11. Fase de implementacin ([CRISP-DM, 2000]).

Informe Final. Es la conclusin del proyecto de DM realizado. Dependiendo del plan de
implementacin, este informe puede ser slo un resumen de los puntos importantes del proyecto
y la experiencia lograda o puede ser una presentacin final que incluya y explique los resultados
logrados con el proyecto. Revisin del proyecto: En este punto se evala qu fue lo correcto y
qu lo incorrecto, qu es lo que se hizo bien y qu es lo que se requiere mejorar.

Das könnte Ihnen auch gefallen