Sie sind auf Seite 1von 13

Mtodo de Minera de datos para tratamiento de Datos de Cncer

Todo Proyecto requiere de la aplicacin de una metodologa estructurada para la


obtencin de resultados ptimos y exitosos. Una metodologa facilitar la
planificacin y direccin de un proyecto, as como su seguimiento [De Luca, 2006].
Existen diversos modelos de proceso propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS,
2003], o CRISP-DM (Cross Industry Standard Process for Data Mining) [CRISP-DM,
2000] basados en la divisin del proyecto de minera en fases, sin embargo, uno de
los modelos principalmente utilizados en los ambientes acadmico e industrial es el
modelo CRISP-DM [Gallardo, 2009]. Se describirn las metodologas SEMMA y
CRISP-DM con el propsito de enmarcar las diferencias existentes entre las misma
y describir porque la metodologa CRISP-DM es la ms viable para la elaboracin
de la investigacin.

Metodologa SEMMA

Metodologa de Minera de Datos desarrollada por SAS; su nombre es


correspondiente a las iniciales de sus cinco fases principales (Samples,Explore,
Modify, Assess), detalladas a continuacin:

Fase de muestreo: Extrae una muestra representativa de la poblacin a estudiar y


sobre lo cual se realizar el anlisis. La representatividad de la muestra es
fundamental para este mtodo, ya que de no cumplirse se invalidarn todos los
resultados del modelo de datamining. Esta metodologa exige calcular el nivel de
confianza de cada muestra considerada en el estudio de datamining.

Exploracin de los Datos: Luego de escoger la muestra representativa se debe


iniciar una exploracin de la informacin con el propsito de simplificacin del
problema; consiguiendo la simplificacin mediante el uso de herramientas de
P g i n a 1 | 13

despliegue de los datos, y mediante tcnicas estadsticas que establecen la


correlacin entre las variables explicativas.

Fase de Manipulacin de los datos: Luego de finalizada la exploracin de los


datos se procede a darles el formato adecuado para poder alimentar el modelo que
se desarrolle en la siguiente fase.

Fase de modelado: se alimenta de las variables explicativas definidas y


formateadas en las fases anteriores, permitiendo encontrar una relacin entre
dichas variables y aquellas que se desea predecir, para la realizacin de inferencias
con cierto nivel de confianza. La tcnica utilizada para establecer la relacin entre
variables incluye mtodos estadsticos tradicionales tales como el anlisis
discriminante, mtodos de agrupamiento y anlisis de regresin, as como mtodos
de IA, redes neuronales, lgica difusa y rboles de decisin.

Fase de Evaluacin de los resultados: Se evala la validez de los resultados


obtenidos en la fase anterior, para ello se utilizan test de bondad de ajuste, al igual
que otros mtodos estadsticos que contrastan los resultados obtenidos en la
muestra usada en fases anteriores con los resultados obtenidos de muestras
distintas [De Luca, 2006].

Metodologa CRISP-DM

Esta metodologa contiene un conjunto de actividades seleccionadas en base a la


experiencia de ensayo y error recogida a travs de numerosos proyectos por
profesionales. Los orgenes de CRISP-DM, se remontan hacia el ao 1999 cuando
un importante consorcio de empresas europeas tales como NCR (Dinamarca),
AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y DaimerChrysler, proponen a partir de diferentes versiones de KDD (Knowledge Discovery
in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman, 1996], [Fayyad, 1996],

P g i n a 2 | 13

desarrollo una gua de referencia de libre distribucin denominada CRISP-DM


(Cross Industry Standard Process for Data Mining)[Gallardo, 2009].
En la cual las actividades estn ordenadas horizontalmente en fases que recorren
la vida de un proyecto de minera de datos, desde la definicin de los objetivos del
negocio que se pretende obtener y el mantenimiento del modelo que se proponga
e implemente. Cada una de esa fase se ha subdividido en tareas ordenadas en un
esquema jerrquico, desde un mayor a menor nivel de detalle [De Luca, 2006].
CRISPDM [CRISP-DM, 2000], es la gua de referencia ms ampliamente utilizada
en el desarrollo de proyectos de Data Mining.

Metodologas utilizadas en Data Mining [kdnuggets, 2007].

Esta grfica representa el resultado obtenido en sucesivas encuestas efectuadas


durante los ltimos aos, respecto al grado de utilizacin de las principales guas de
desarrollo de proyectos de Data Mining [Gallardo, 2009].
CRISP-DM, est dividida en 4 niveles de abstraccin organizados de forma
jerrquica en tareas que van desde el nivel ms general, hasta los casos ms
especficos y organiza el desarrollo de un proyecto de Data Mining, en una serie de
seis fases:

P g i n a 3 | 13

Esquema de los 4 niveles de CRISP-DM [CRISP-DM, 2000].

La sucesin de fases no es necesariamente rgida. Cada fase es estructurada en


varias tareas generales de segundo nivel. Las tareas generales se proyectan a
tareas especficas, donde finalmente se describen las acciones que deben ser
desarrolladas para situaciones especficas, pero en ningn momento se propone
como realizarlas [Gallardo, 2009].

Modelo de proceso CRISPDM [lvaro, 2010].


P g i n a 4 | 13

Comprensin del negocio:


Es una de las fases ms importantes del proceso de minera de datos. La
comprensin del negocio contiene la determinacin de objetivos comerciales, la
evaluacin de la situacin, la determinacin de los objetivos de la minera de datos
y la produccin de un plan del proyecto [De Luca, 2006], [IBM, 2010]. Para obtener
el mejor provecho de Data Mining, es necesario entender de la manera ms
completa el problema que se desea resolver, esto permitir recolectar los datos
correctos e interpretar correctamente los resultados [Gallardo, 2009].
o Determinar los objetivos globales
o Evaluar la situacin actual
o Elaborar un plan de desarrollo [lvaro, 2010].
Comprensin de los datos.
Los datos proporcionan el "material sin procesar" de la minera de datos.
Comprende los orgenes de los datos y las caractersticas de dichos orgenes
[CRISP-DM, 2000].
o Recopilacin o recoleccin de los datos iniciales
o Descripcin
o Exploracin
o verificacin de la calidad de datos [lvarez, 2010].
Preparacin de datos:
Despus de catalogar los orgenes de los datos, ser necesario que los prepare
para su anlisis.
o Extraer los datos de diferentes fuentes
o Fundir varias tablas de datos en una sola
o Combinar datos de distintas fuentes
o Identificar datos perdidos, anmalos o valores
o Seleccionar los datos de inters
P g i n a 5 | 13

o Reestructurar los datos en el formato requerido


o Transformar los datos en otros nuevos [lvarez, 2010].
Modelado:
Aplicacin de mtodos de anlisis para la extraccin de la informacin de los datos.
Esta fase implica la seleccin de las tcnicas de modelado, la generacin de diseos
de comprobacin y la generacin de modelos de evaluacin [IBM,2010].
Evaluacin:
Una vez elegidos los modelos, ya est preparado para evaluar la forma en que los
resultados del anlisis pueden ayudarle a lograr los objetivos comerciales.
o evaluacin de los resultados
o revisin del proceso de minera de datos
o determinacin de los siguientes pasos [De Luca, 2006].
Despliegue:
Integracin de los nuevos conocimientos en el proceso comercial diario a fin de
resolver el problema original comercial. Esta fase incluye el despliegue, el control y
el mantenimiento del plan, la produccin de un informe final, as como la revisin
del proyecto [lvarez, 2010], [CRISP-DM, 2000].

Porque utilizar CRISP-DM y no SEMMA u otra metodologa?

CRISP-DM est enfocada ampliamente a los objetivos de negocio del proyecto;


similar a un anlisis de requerimientos estructurado pues estos tienen en
consideracin los objetivos del negocio a alcanzar. Omitir la fase de anlisis de
requerimiento puede provocar el desarrollo de sistemas intiles para el usuario por
lo cual la convierte en una metodologa diseada al apoyo del datamining, mientras
que SEMMA est centrada ms a las caractersticas estadsticas del desarrollo de
un modelo de minera de datos, desarrollada como agregado de SAS para el
muestreo de los datos [De Luca, 2006].
P g i n a 6 | 13

REFERENCIAS

lvarez Munarriz, Luis. Fundamentos de la inteligencia artificial.


[Alvarez,

Universidad de Murcia, 1994.Secretariado de publicaciones. Ed II.

1994]

books.google.com.mx/books?isbn=8476845634

Beekman, George. Introduccin a la computacin. Mxico, 2000.


[Beekman,

Editorial; Pearson.

2000]

https://books.google.com.mx/books?isbn=9684442823

Berry, Michael J.A., & Linoff, Gordon S.; Data Mining Techniques. Wiley,
[Berry, 1997]

1997.
books.google.com.mx/books?id=AyQfVTDJypUC&printsec=frontcover&
dq=Data+Mining+Techniques+berry

Bourcier,

Daniele.

Inteligencia

artificial

derecho.

[Bourcier,

2003.Editorial; UOC.

2003]

https://books.google.com.mx/books?isbn=8483189747

Barcelona,

Camps Par, Rafael., Escofet, Carme Martn & Marc Gibert Ginest,
[Camps,

Dolors Costal Costa, Luis Alberto Casillas Santilln, Oscar Prez Mora.

2005]

Bases de Datos; Eureca Media, 2005.


books.google.com.mx/books?isbn=8484298949

Castillo, Enrique., Gutirrez, Jos Manuel & Hadi, Ali S. Sistemas


[Castillo,

Expertos y modelos de redes probabilsticas. Universidad de Cantabria,

2000]

2000.
http://personales.unican.es/gutierjm/papers/BookCGH.pdf

P g i n a 7 | 13

Escolano, Francisco., Cazorla, Miguel ngel, Alfonso, Mara Isabel.,


[Escolano,

Colomina, Otto & Lozano, Miguel ngel. Inteligencia Artificial: Modelos,

2003]

Tcnicas y reas de aplicacin. Departamento de ciencia de la


computacin e IA; Universidad de Alicante, 2003. Editorial; Paraninfo.
books.google.com.mx/books?isbn=8497321839

Garca Serrano, Alberto. Inteligencia Artificial. Fundamentos, prcticas y


[Garcia,

aplicaciones. Madrid, 2012.Editorial; RC Libros.

2012]

books.google.com.mx/books?isbn=8493945021

Russell Stuart J. Peter Norving. Inteligencia Artificial: ONU Enfoque


[Russell,

moderno. Pearson Educacin, 2004. Biblioteca UAP TIANGUISTENCO

2004]

UAEM.

Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda.


[Villena,

Inteligencia en redes de comunicaciones. Madrid, 2001.

2001]

http://ocw.uc3m.es/ingenieria-telematica/inteligencia-en-redes-decomunicaciones/material-de-clase-1/07-mineria-de-datos

[Barcel,

Barcel Garca, Miquel. Inteligencia Artificial. Universidad virtual, 2001.

2001]

books.google.com.mx/books?isbn=8484298930

[Benavides,

Benavides Venegas, Liliana., Martnez Hamon, Sandra Marcela & Nio

2012]

Ortiz, Diana Paola. Sistemas Expertos. Bogot, 2012.


https://sig2012.wikispaces.com/file/view/SISTEMAS+EXPERTOS.pdf

[Brookshear,

Brookshear J. Glenn. Introduccin a la Computacin; Editorial: Pearson,

2012]

2012. Biblioteca Unidad Acadmica Profesional Tianguistenco.

P g i n a 8 | 13

[Conessa,

Conessa Caralt, Jordi & Curto Daz, Josep. Introduccin al Business

2010]

Intelligence. Barcelona, 2010. Editorial; El ciervo 96.


books.google.com.mx/books?isbn=8497889797

[Date, 2001]

Date, C. J. Introduccin a las bases de datos; Editorial: Pearson, 2001.


http://es.scribd.com/doc/15923538/C-J-Date-Intro-Duc-Ion-a-LosSistemas-de-Bases-de-Datos#scribd

[EImasri,
2007]

EImasri Ramez & Shamkant B. Navathe. Fundamentos de sistemas de


bases de datos. Editorial: Pearson, 2007.
books.google.com.mx/books?isbn=8478290850

[Frawley,
1991]

Frawley, Piatetsky-Shapiro & Matheus: Knowledge Discovery in


Databases: An Overview. MIT Press, 1991.
books.google.com.mx/books?id=wIsECAAAQBAJ&pg=PA373&dq=Kno
wledge+Discovery+in+Databases+frawley

[Gmez,
1998]

Gmez Martin, Jos Antonio & Puerta Callejn, Jos Miguel. Sistemas
Experto Probabilsticos. Editorial; Ediciones de la universidad de CatillaLa Mancha, 1998.
books.google.com.mx/books?isbn=8489958351

[Gmez,
1998]

Gmez Martin, Jose Antonio., & Puerta Callejon, Jose Miguel.Sistemas


Expertos probabilisticos. Editorial; Ediciones Universidad de la CastillaLa Mancha, 1998.
https://books.google.com.mx/books?isbn=8489958351

[Garca,
2006]

Garca Molina, Hctor. Avances en informtica y Sistemas


computacionales. Tomo I Universidad Jurez Autnoma de Tabasco
Conais 2006.
books.google.com.mx/books?isbn=9685748985

[Garca,
2007]

Garca Molina, Hctor. Avances en informtica y Sistemas


computacionales. Tomo II Universidad Jurez Autnoma de Tabasco
Conais 2007.
books.google.com.mx/books?isbn=9689024566

[Garca,
2009]

Garca, Gervilla E., Jimnez Lpez, R., Montao Moreno, J. J., Ses
Abad, A., Cajal Blasco, B., & Palmer Pol, A. (2009). La
metodologa del Data Mining. Una aplicacin al consumo de
alcohol en adolescentes. (e. A. Sociedad Cientfica Espaola de
Estudios sobre el Alcohol, Ed.) Adicciones, 21(1), 65-80.

P g i n a 9 | 13

[Garzn,
2000]

Garzn Gaitn, Carlos Alberto. Sistemas Integrados de informacin para


la produccin. Facultad de ingeniera departamento de Qumica; Bogot,
2000.Editorial; Universidad Nacional de Colombia.
books.google.com.mx/books?isbn=9587010361

[Gelbukh,
2010]
[Gmez,
2008]

Gelbukh, A. (Enero-Junio de 2010). Procesamiento de Lenguaje Natural


sus Aplicaciones . (S. M. Articial, Ed.) Komputer Sapiens, I, 6-32.
Gmez de silva Garza Andrs, Ania Briseo Ignacio de Jess.
Introduccin a la Computacin. Editorial: Cengage Learning Editores,
2008, Mxico. Biblioteca Unidad Acadmica Profesional Tianguistenco.

[GonzlezBaales,
2012]

Gonzlez-Baales, Dora Luz., Gutirrez Reyes & Leyva Alans. Las


fuerzas competitivas de mercado y su influencia en la incorporacin de
las TIC en las PYME. Un estudio explortorio.
books.google.com.mx/books?isbn=1326275968

[Guil, 2009]

Guil Reyes, Gabriel Francisco. Minera de patrones temporales basados


en redes de restriccin. Almera: Universidad Politcnica Almera,
2009.Tesis doctoral de lenguajes y computacin.
books.google.com.mx/books?isbn=8482409255

[Harmon,
1998]

[Haugeland,1

Harmon, Paul & King, David. Sistemas Expertos: Aplicaciones de la


inteligencia artificial en la actividad empresarial. Madrid, 1998.Editorial;
Daz de Santos, S.A.
https://books.google.com.mx/books?isbn=848625194X
Haugeland, John. La Inteligencia Artificial. Mxico, D.F., 1988.Editorial;

988]

Siglo Veintiuno.
books.google.com.mx/books?isbn=9682314119

[Hernndez,
2004]

Hernndez Orallo, Jos., Ramrez Quintana, M. Jos., & Ferri Ramrez,


Cesar. Introduccin a la minera de datos. Espaa, 2004. Editorial;
Pearson Hill. Biblioteca Unidad Acadmica Profesional Tianguistenco.

[Inmon, 1994] Inmon, W. H.; Hackathorn; Richard D. Using the Data Warehouse. New
York: John Wiley & Sons. ISBN: 0-471-05966. 1994.
http://fit.hcmute.edu.vn/Resources/Docs/SubDomain/fit/ThayTuan/Data
WH/Bulding%20the%20Data%20Warehouse%204%20Edition.pdf
[Jiawei, 2006] Jiawei Han & Micheline Kamber: Data Mining: Concepts and Techniques
Morgan Kaufmann, 2006.
books.google.com.mx/books?id=pQws07tdpjoC&pg=PR6&dq=Data+Mi
ning:+Concepts+and+Techniques+Morgan+Kaufmann
[Kimball,
2008]

Kimball, Ralph., Margy, Ross., Thornthwaite, Warren & Mundy, Joy. The
Data Warehouse Lifecycle Toolkit. Indiana, 2008.Editorial; Wiley
Publishing.

P g i n a 10 | 13

books.google.com.mx/books?id=ONQio9do_70C&printsec=frontcover&
dq=The+Data+Warehouse+Lifecycle+Toolkit
[Len, 2007].

[Lpez, 2005]

[Molero,
2008]

Len Quintanar, Tomas. Sistemas expertos y sus aplicaciones.


Universidad Autnoma del estado de Hidalgo, Pachuca, 2007.
http://www.uaeh.edu.mx/docencia/Tesis/icbi/licenciatura/documentos/Si
stemas%20expertos%20y%20sus%20aplicaciones.pdf
Lpez Takeyas, Bruno. Sistemas Expertos.
http://www.itnuevolaredo.edu.mx/takeyas/Apuntes/Inteligencia%20Artific
ial/Apuntes/Filminas_Sistemas_Expertos/SistemasExpertos5.PDF
Molero Castillo, Guillermo Gilberto. Tesis, Desarrollo de un modelo
basado en tcnicas de minera de datos para clasificar zonas
climatolgicamente similares en el estado de Michoacn. Universidad
Autnoma de Mxico.
http://www.geologiafeflow.unam.mx/documentos/tesis%20mineria%20de%20datos.pdf

[Norton,
2006]

Norton Peter. Introduccin a la Computacin; Editorial: Mc Graw Hill


Interamericana 2006. Biblioteca Unidad Acadmica Profesional
Tianguistenco.

[Pan-Ning,
2006]

Pang-Ning Tan, Michael Steinbach & Vipin Kumar: Introduction to Data


Mining. Addison-Wesley, 2006.
http://www.paulallen.ca/documents/2015/01/kumar-v-introduction-todata-mining-instructors-solution-manual.pdf
Parra Iglesias, Enrique. Tecnologas de la Informacin en el control de
gestin. Espaa; Madrid, 1998.Editorial; Diaz de Santos.
books.google.com.mx/books?isbn=8479783699

[Parra, 1998]

[Prez, 2007]

Prez Lpez, Cesar. & Santn Gonzlez, Daniel. Minera de Datos.


Tcnicas y herramientas. Madrid, 2007. Paraninfo S.A.
books.google.com.mx/books?isbn=8497324927

[Perin,
2012]

Perin Pascual, C. (Diciembre de 2012). En defensa del procesamiento


del lenguaje natural fundamentado en la lingstica terica. (P. U.
Chile, Ed.) Onomzein, 2(26), 13-48.
Perversi, Ignacio. Aplicacin de minera de datos para la exploracin y
deteccin de patrones delictivos en argentina. Tesis, Instituto tecnolgico
de buenos aires.
http://www.iidia.com.ar/rgm/tesistas/PERVERSItesisdegradoeningenieria.pdf

[Perversi,
2007]

[Piedra,
2005]

Piedra Fernndez, Jos Antonio. Tesis Aplicacin de los sistemas


neurodifusos a la interpretacin automtica de imgenes de satlite.
Universidad de Almera 2005.
books.google.com.mx/books?isbn=8482407848

P g i n a 11 | 13

[Pino, 2001]

Pino Diez, Ral., Gmez Gmez, Alberto & de Abajo Martnez, Nicols.
Introduccin a la inteligencia artificial: Sistemas Expertos, Redes
Neuronales Artificiales y Computacin Evolutiva. Editorial; Universidad
de Oliviedo.
books.google.com.mx/books?isbn=8483172496

[Pujari, 2001]

Pujari, Arun K., Data Mining, Techniques. India, 2001.Editorial:


Universities Press.
books.google.com.mx/books?id=dH2KQhJboSYC&printsec=frontcover&
dq=Data+M

[RauchRauch-Hindin. Wendy B. Aplicaciones de la inteligencia artificial en la


Hindin, 1989 ] actividad
empresarial
la
ciencia
y
la
industria
(Fundamentos_Aplicaciones). Madrid, 1989.Editorial; Diaz de Santos,
S.A.
books.google.com.mx/books?isbn=8487189075

[Reparaz,
2008]

Reparaz, Diego. Tesis, Aplicacin de minera de datos para determinar


la eficacia de la braquiterapia en el tratamiento de cncer de prstata.
Instituto tecnolgico de buenos aires.
http://www.iidia.com.ar/rgm/tesistas/REPARAZtesisdegradoeningenieria-2008.pdf

[Riquelme,
2006]

Riquelme, J. C., Ruiz, R., & Gilbert, K. (2006). Minera de Datos:


Conceptos y Tendencias. (A. E. Artificial, Ed.) Inteligencia
Artificial. Revista Iberoamericana, 10(29), 11-18.
Rodrguez R., J. E., Barrera F., H. A., & Bautista M., S. P. (Marzo de
2011). Software para el filtrado de pginas web pornogrficas
basado en el clasificador KNN - UDWEBPORN. (U. N. Colombia,
Ed.) Avances en Sistemas e Informtica, 8(1), 43-49.
Rodrguez Fernndez, Luis Eduardo, 2010. Diseo y desarrollo de una
interfaz de sistema operativo mediante una identidad de inteligencia
artificial con soporte para leguaje natural.
/books.google.com.mx/books?isbn=1445723689

[Rodrguez,
2011]

[Rodriguez;
2010]

[Rojas, 2009]

Rojas, Mariana Isabel. Monografa de Adscripcin: Data Warehouse.


Corrientes, Argentina.2009. Universidad Nacional del Nordeste Facultad
de Ciencias Exacta y Naturales.
http://exa.unne.edu.ar/informatica/SO/MonoAdsDiseno.pdf

[Sesmero,
2013]

Sesmero Fernndez, Ainhoa & Pinero Snchez, Sandra. Sistemas


Expertos: MYCIN. Madrid, 2013.
http://www.it.uc3m.es/jvillena/irc/practicas/11-12/02mem.pdf

[Silberschatz,
2002]

Silberschatz Abraham, Henry F. Korth & S. Sudarshan. Fundamentos de


Base de Datos; Editorial: Mc Graw Hill, 2002.
books.google.com.mx/books?isbn=8448146441

P g i n a 12 | 13

[Sperley,
1999]

Sperley E. The Enterprise Data Warehouse: Planning, Building, and


Implementation.; 1999.
http://monografias.umcc.cu/monos/2006/Informatica/Importancia%20de
%20la%20utilizacin%20de%20un%20Data%20Warehouse.pdf

[Tllez, 2009]

Tllez Valero, A., Montes y Gmez, M., & Villaseor Pineda, L.


(Septiembre de 2009). Using Machine Learning for Extracting
Information from Natural Disaster News Reports. (IPN, Ed.)
Computacin y Sistemas, 13(1), 33-44.
Chavez Torrez, A. (Diciembre de 2012). Procesamiento del lenguaje
natural, un reto de la inteligencia artificial. (U. N. Distancia, Ed.)
Matices Tecnolgicos, 4, 1-5.
Trujillo, Juan Carlos., Mazn, Jos Norberto & Pardillo, Jess. Diseo y
explotacin de almacenes de datos. Conceptos Bsicos del Modelado
Multidimensional. Alicante, 2000.Editorial; ECU Editorial Club
Universitario.
books.google.com.mx/books?isbn=8499485464

[Torrez,
2012]
[Trujillo,
2000]

[Vieira, 2009]

Vieira Braga, Luis Paulo., Ortiz Valencia, Luis Ivn. & Ramrez Carvajal,
Santiago Segundo. Introduccin a la Minera de Datos. Rio de Janeiro,
2009. Editorial; E-papers.
books.google.com.mx/books?isbn=8576502313

P g i n a 13 | 13