Sie sind auf Seite 1von 10

Minera de Datos (Data Mining)

Salvador Barrera Rodrguez Universidad de Guadalajara, Centro Universitario de Ciencias Econmico Administrativas, Departamento de Sistemas de Informacin, Perifrico Norte 799, C.P. 45100, Ncleo los Belenes, Zapopan, Jalisco, Mxico. Sachavir@cucea.udg.mx , http://www.cucea.udg.mx/~sachavir .
Resumen: En este articulo se pretende divulgar el concepto de minera de datos, su relacin con otras herramientas de soporte a la toma de decisiones, aplicaciones de la minera (o extraccin) de datos, Explicar y ejemplificar las principales tcnicas de minera de datos, tanto directas(D), como Indirectas (I) como son: el anlisis de la canasta de compra (I),Razonamiento Basado en casos (D),.Deteccin automtica de agrupamientos(I),.Anlisis de Relaciones (I),Clasificacin (rboles de decisin) (D), Redes neuronales artificiales (D) (I), Algoritmos genticos (D) Y proporcionar recursos sobre fabricantes, revistas y sitios en lnea , as como bibliografa disponible del tema. Palabras clave: Minera de datos, extraccin de datos, Data Mining, el anlisis de la canasta de compra, Razonamiento Basado en casos, agrupamientos, Anlisis de Relaciones, Clasificacin ,rboles de decisin, Redes neuronales artificiales , Algoritmos genticos . Abstract: This paper wish make public the data mining concept, their relation with other tools of Decisions Support Systems, Data Mining Applications, Teach and show the main data mining techniques, Direct (D) and indirect (I) as: Market Basket Analysis (I), Memory reasoning (D) Automatic Detection of clusters (I), Relationships Analysis (I), Decisions trees (D) , Artificial neural networks (D) (I), Genetic Algorithms (D) and show many resources about: companies, magazines and websites, as book references available of the theme. Keywords: Data Mining, Market Basket Analysis, Memory reasoning, Automatic Detection of clusters, Relationships Analysis, Decisions trees , Artificial neural networks, Genetic Algorithms.

1. Introduccin
DESVANECIMIENTO DE ENTRADA (FADE IN) Interior SALA DE CONFERENCIAS DE CASA CENTRAL DE UN IMPORTANTE BANCO DE DA. Vestidos con ropa formal y sentados alrededor de una larga mesa de caoba se encuentran MARIANNE, una gerente de producto; SHANE, una analista de Marketing; CHARLIE, un administrador de base de datos que toma una gaseosa a grandes sorbos, y JILL, una consultora de data warehousing. Dando grandes zancadas ingresa el SR. B., vicepresidente de mercadotecnia (MDT). Sacude con toda prisa la mano de Jill, se deposita a la cabecera de la mesa y se inclina hacia delante. SR. B: Jill, Ha sido muy amable en venir. Cmo estuvo el vuelo? JILL: Eh, estuvo...

SR. B: Bien.La razn por la hoy hemos hecho venir es porque necesitamos que nos de algunos consejos. Acabo de leer un artculo en una revista que me mantuvo despierto dos noches seguidas. Uno de nuestros competidores empez a hacer algn tipo de anlisis de datos que me tiene preocupado. JILL: Qu clase de anlisis? SR. B: Qu era lo que estaban haciendo, Shane? SHANE: Data mining SR. B: Eso! Data Mining. Queremos hacer data mining. Y queremos que nos diga cmo empezar. JILL: Perfecto. Y dgame: qu clase de data mining hacan? SR. B: qu clase de data mining hacan, Marianne? MARIANNE: Dado un cierto producto nuevo, eran capaces de predecir cuales de sus clientes lo compraran. Entonces, generaban listas de nombres y las usaban para enviar la propaganda de los productos. JILL: Marketing directo inteligente. Genial ! Ahora cunteme acerca del tipo de MDT directo que actualmente estn haciendo ustedes. Todos se miran entre s. JILL: Bueno, vamoslo de otra forma: dnde guardan los datos de sus clientes? Todos miran a Charlie CHALIE: Eh... los datos de qu clientes? JILL: Ya sabe, los clientes de la empresa. Cmo acceden a esa informacin? CHALIE: Bueno, una parte est en nuestro sistema de facturacin. Y otra parte en nuestro sistema de anlisis de Marketing. Y los clientes de menos de un mes de antigedad quedan en nuestro sistema de pedidos y suministros hasta que podemos procesarlos... Y adems tenemos algunos ex clientes en una base de datos de Access en la notebook de Craig... JILL: Y a cules de esos clientes desearan venderles sus nuevos productos? Todos se miran entre s. MARIANNE: Bueno, lo ideal sera a todos. SR. B: Por supuesto! A todos! JILL: As que cuando necesitan informacin acerca de las compras de un determinado cliente, o acerca de cmo van las ventas de un producto en una cierta rea geogrfica qu hacen? SHANE: (timidamente) Lo llamamos a Charlie. Todos vuelven a mirar a Charlie. Charlie toma un gran sorbo de su gaseosa y la derrama sobre la mesa. JILL: (sacandose el saco) Cunto tiempo tenemos? DESVANECIMIENTO DE SALIDA (FADE OUT)[5] 1. 1. Sinnimos de Minera de datos Data Mining, Extraccin de datos, Descubrimiento del conocimiento en bases de datos (KDD), paleo de datos, extraccin del conocimiento, arqueologa de datos, exploracin de datos, procesamiento de patrones de datos, dragado de datos y cosechamiento de la informacin.

1.2 Conceptos de Minera de datos La extracin de datos es el proceso de elegir, explorar y modelar grandes cantidades de datos para descubrir pautas desconocidas con el fin de ganar una ventaja comercial[13] es la exploracin y anlisis, por medios automticos o semiautoma-ticos, de grandes cantidades de datos en orden de descubrir patrones significativos y reglas. [2] La Minera de datos esta relacionado con el Descubrimiento del Conocimiento en Bases de datos (KDD) que es el proceso no trivial de identificar en los datos patrones vlidos, novedosos potencialmente tiles y compresibles, y el DM es un paso particular del proceso de KDD, el de aplicar algoritmos especficos para extraer patrones (modelos) a partir de los datos. [10]

2. Evolucin del anlisis del soporte a la decisin


El siguiente grfico indica a que se le puede llamar minera de datos, de las diferentes herramientas de anlisis del soporte a las decisiones:[5]

Sin hipotesis hipotesis ligeras

DC Segmentacin Modelado

Mneria de datos DC : Descubrimiento de conocimiento

hipotesis moderadas Multidimensional hipotesis fuertes Consultas estndar


Fuente: Baseline Consulting Group

2.1 Consultas y Anlisis Multidimensional( no es DM) Las consultas del tipo qu psara s...? O parametrizadas, es el mtodo de anlisis ms difundido.El anlisis multidimensional a travs de un cubo OLAP (Procesamiento Anlitico en Lnea), es similar a las tablas dinmicas de Excel, ofreciendo diferentes perspectivas de los datos, con analisis de profundidad (drill-down) y Slicing and dicing la capacidad de adaptar un conjunto de respuestas a gusto del usuario.

2.2 Modelado (DM) Los modelos pueden darle a una compaa una forma prefijada y sencilla de determinar el comportamiento futuro de sus clientes, as como su viabilidad a largo plazo. Ejemplos: Valor de por vida del cliente: cules son los atributos que afectan la rentabilidad y el valor del cliente para la empresa a largo Plazo? Desgaste del cliente: cul es la probabilidad de que un cliente especfico se vaya? Modelado Predictivo: cmo afectara el mal tiempo a las ventas del producto este verano?

2.3 Segmentacin (DM) Puede ser servir para clasificar y reclasificar a los clientes de acuerdo a caractersticas demgraficas, patrones de compra, propensin a la compra etc. Permite discernir el trato que la empresa debera darle a una franja de clientes separada y responder a: A que grupo inicial de clientes se debera apuntar un nuevo servicio? Qu clientes es ms probable que cometan fraude? Qu clientes es ms probable que respondan a descuentos? 2.4 Descubrimiento del conocimiento no dirigido Como afinidades entre mltiples productos y anlisis de secuencia de compras. Ejemplos: Ciertos productos disparadores afectan otras compras. Se puede descubrir la prxima compra probable Se pueden discernir patrones reconocibles en las compras o cancelacin de servicios Qu caractersticas del cliente afectan el ciclo de vida de un producto?

3. Tcnicas de Minera de datos


Puede ser Directa (D) o Indirecta (I), de acuerdo a si la salida del modelo esta preestablecida o no. [2] 1.Anlisis de la canasta de compra (I) 2.Razonamiento Basado en casos (D) 3.Deteccin automtica de agrupamientos(I) 4.Anlisis de Relaciones (I) 5.Clasificacin (rboles de decisin) (D) 6.Redes neuronales artificiales (D) (I) 7.Algoritmos genticos (D)

3.1 Anlisis de la canasta de compra Es una forma de agrupamiento usado para encontrar grupos de artculos que ocurren juntos en un transaccin o canasta de compra. El modelo se construye dando la afinidad de diferentes productos, que son comprados juntos y que pueden expresarse en reglas. Muy til es supermercados, cuentas bancarias y servicios telefnicos. Ejemplo: por qu sera que ponen la cerveza cerca de los paales? O las sugerencias de libros de Amazon.com 3.2 Razonamiento Basado en casos Memory-based reasoning usa casos histricos para reconocer patrones. Por ejemplo, los clientes de Cognitive Systems Inc., lo usan en su Centro de atencin a Clientes; con una biblioteca de 50,000 casos de preguntas. Los casos nuevos se asocian rpidamente en relacin con las muestras de la biblioteca, proporcionando ms de un 90% de exactitud y respuestas automticas a las preguntas. 3.3 Deteccin de agrupamientos Consiste en agrupar conjuntos de datos similares, partiendo de un conjunto ms grande de datos. Contrario a la clasificacin, descubre las agrupaciones a medida que trabaja con los datos de entrada. Una vez identificados se pueden descubrir generalizaciones, patrones y tendencias basadas en sus caractersticas. Utilidad: Conocer un conjunto de personas que pueden formar un nicho de mercado en concreto. 3.4 Anlisis de Relaciones Sigue las relaciones entre registros para desarrollar modelos basado en patrones de las relaciones. Tomado de la teora de los grafos. Una rea de aplicacin actual es en Telecomunicaciones, cada llamada de un cliente, se enlaza otro (cliente potencial), y puede servir de base para campaas exitosas de MDT, como la de una compaa telefnica de 1$ la llamada con tus padres o novia(o). 3.5 Clasificacin (rboles de decisin) E induccin de reglas. Usadas para DM directa particularmente en clasificacin. Dividen los registros en el conjunto de entrenamiento en subconjuntos separados, cada uno de los cuales es descrito por una regla simple. Un ejemplo sencillo es las caractersticas de una persona para acceder a un crdito o a obtener un tarjeta de crdito, Su ingreso, su edad, su trabajo etc.

3.6 Redes neuronales Es un mtodo de mquina de aprendizaje por medio del cual se examinan los datos histricos para reconocer patrones, los cuales pueden usarse para efectuar predicciones y apoyar decisiones. Y pueden por ejemplo: Identificar a los consumidores potenciales de un nuevo producto. Wal-Mart Busca artculos particulares de almacenes individuales para decidir el perfil de venta estacional de cada artculo.

3.7 Algoritmos genticos DM directa: aplica el mecanismo de la gentica y la seleccin natural para la bsqueda de conjuntos ptimos de parmetros que tengan un funcin predictiva. Usan la seleccin, cruza y mutacin para evolucionar sucesivas generaciones de soluciones, y conforme avanzan, la mejor prediccin sobrevive, hasta llegar a la solucin ptima. Se usa para mejorar el razonamiento basado en casos y redes neuronales.

4. Conclusiones

4.1 Cmo la definen los no tcnicos Gerentes de empresas la definen por medio de las aplicaciones de la tecnologa de almacenaje para resolver los problemas de negocios: Rentabilidad del cliente Retencin del cliente Segmentacin del cliente Predisposicin del cliente Optimizacin de los canales Marketing por objetivos Administracin del riesgo Prevencin de fraudes Anlisis de la canasta de mercado Pronstico de demandas Optimizacin de precios 4.2 Comentarios El data mining (DM) no es tanto un tipo de anlisis como una clase variada de tipos de anlisis.

Muchos proveedores de software, ansiosos por probar la dulce fruta del incremento de las ventas, de hecho embarraron el campo de juego al declarar sus productos como herramientas de Minera de Datos, Algunos ms ambiciosos, reemplazan el trmino Soporte de decisin con Minera de datos. El objetivo del DM es permitir mejorar a la empresa su mercadotecnia, ventas y servicio al cliente, a travs de entender mejor a sus clientes. Y son igualmente aplicables a campos como Criminologa, radioastronoma, medicina, y control de procesos industriales. Ha sido histricamente sinnimo de anlisis estadstica, algo que hacen personas con un doctorado para lograr una compresin ms precisa de datos detallados. Los proveedores de herramientas DM han hecho cada vez ms fcil su uso por parte de personas no versadas en estadsticas, no solamente para detectar patrones interesantes en los datos, si no tambin para aplicar los resultados 4.3 Compaas que usan DM

Alamo Rent-a-Car Burlington Coat Factory Au Bon Pain Company Spalding Sports Bank of America AT&T y MCI Chicago Tribune Marriot Club Internacional

4.4 Caso: Hoteles Marriot Problema: tenia una base de datos con millones de nombres, sola enviar publicidad a todos los clientes de la base de datos, aun gran costo, pero la respuesta resultaba mnima. Solucin: Identificar en su lista los clientes con mayores probabilidades de responder, empleando redes neuronales en la minera de datos, con datos socioeconmicos e incremento su tasa de respuesta a 33%.[10]

5. Apndice:

5.1 El mercado de Data Mining Herramientas que trabajan sobre pequeos volmenes de datos. Acceden a datos situados en un servidor, pero efectan el proceso de descubrimiento en un puesto local. Cuando se trabaja con estas herramientas se deben tomas mltiples muestras para asegurarse de que los modelos descubiertos son fiables.Ejemplos de estas herramientas: Predict y SPSS. Herramientas que trabajan sobre datos situados en un DW. La necesidad de mquinas potentes para implementar estas herramientas lleva a Silicon Graphics e IBM a proponer ofertas en este mercado. Herramientas como Knowledge Seeker y Datamind se sitan a medio camino de las dos anteriores. rboles de decisin: AC2 y Alice de Isoft, Knowlege Seeker de Angoss y SPSS Chaid. Redes neuronales y modelos funcionales: Datamind, Neural connection de SPSS y Predict de NeuralWare. La herramienta IDIS de IDIS Software es una de las dominantes en el proceso de descubrimiento de reglas. [8] 5.2 Soluciones de Minera de Datos:

Red Brick Datamind hoy, Informix de IBM http://www3.ibm.com/software/data/informix/redbrick/ Neovistas Decision Series hoy JDA software group http://www.jda.com/

SAS Enterprise y Text miner http://www.sas.com/technologies/data_mining/

Mas herramientas en: http://www.dbmsmag.com/9807mbg.html

Cognos 4Thought, Scenario http://www.cognos.com/products/4thought/index.html Microstrategy 7i Data Mining http://www.strategy.com/Software/Mining.asp Pilot analisis Server (OLAP) http://www.pilotsw.com/solutions/business_pilot_analysis.htm
Otros en DM Review, seccin data mining www.Dmreview.com

Referencias
[1] Adriaans , Pieter; Data mining, Syllogic: Addison-Wesley, Harlow 1996, 158 pages. [2] Berry,Michael;Linoff, Gordon ;Data Mining Tecniques,for Marketing, Sales and Customer Support, USA 1997, Wiley Computer Publishing, 454 pags. [3] Bhavari Thuraisingham, Data Mining Technologies, Tecniques, Tools and Trends, CRC Press LLC. Boca Raton 1999, 270 pages. [4] Corey y Abbey, Oracle Data Warehousing, Ed. McGrawHill, Espaa 1997, 313 pgs. [5] Dyche, Jill ,E-dataTransformando datos en Informacin con Data Warehousing, Argentina 2001, Ed. Prentice Hall, 374 pgs. [6] Escorsa y Maspons, De la Vigilancia Tecnlogica a la Inteligencia Competitiva, Ed. Prentice Hall, 165 pgs. [7] Han, J. & Kamber, M., Data Mining, Concepts and techniques, Morgan Kaufmann Publishers, San Diego CA. 2001, 550 pages. [8] Joan Torres, Modulo de Tecnologas de e-business, del Master en Direccin de empresas digitales y desarrollo de negocios en Internet en la Universidad Abierta de Catalua (UOC). [9] Marakas George M, Decision support systems in the twenty-first century ,Prentice Hall, Upper Saddle River (N.J.) 1999 ,506 pages. [10] Reynoso Lobato y otros, Aplicaciones de la Inteligencia Artificial,Publicado por la Universidad de Guadalajara, Mxico 2002, 425 pgs. [11] Smith y otros, Comercio Electrnico fcil!, Mxico 2001, Ed. Prentice Hall, 365 pgs. [12] Stanley A. Brown, Administracin de las Relaciones con los Clientes, Mxico 2001, Oxford University Press,352 pginas. [13] Swift, Ronald S, CRM: como mejorar las relaciones con los clientes, Mexico 2002, Ed. Prentice Hall, 479 pginas. [14] Turban, McClean y Wetherbe Tecnologa de Informacin para la administracin, Ed. CECSA, Mxico 2001, 945 pgs. [15] Vicente, M. Dolores,La aplicacin de agentes inteligentes a la minera de web, Trabajo final de la carrera de Documentacin de la UOC,Marzo 2002 http://www.uoc.edu/web/esp/art/uoc/vicente0302/tfc/index1.html [16] Weiss, S. & Indurkhya, N., Predictive Data Mining... A practical guide,Morgan Kaufmann Publishers; San Fco. CA. 1998, 228 pages. [17] Westphal, C. & Blaxtron, T.,Data mining Solutions, Ed. Wiley, USA 1998, 617 pages. [18] Witten,I. & Eibe, F. Data Mining , Practical Machine Learning tools and techniques with Java Implementations, Morgan Kaufmann Publishers; San Diego CA. 2000, 377 pages.

Sitios web de Data Mining

Portal Data Mining de DM review http://www.dmreview.com/portal_ros.cfm?NavID=9&Topic=1&PortalID=9 Data Mining Tecniques (Mkt) www.data-miners.com Predictive data minig www.data-miner.com Data Mining, Practical learning machine... www.mkp.com/datamining

Descubrimiento del conocimiento (Sitio antiguo y el nuevo) www.andypryke.com/university/TheDataMine.html www.the_data_mine.com

Ligas recomendadas en libro de George Marakas DSS in en 21st century http://cwx.prenhall.com/bookbind/pubbooks/marakas/chapter12/destinations1/deluxecontent.html

Asociaciones relevantes

Data Mining Group http://www.dmg.org/ Internacional Data Warehouse Association http://www.idwa.org/ The Data Warehousing Institute http://www.dw-institute.com/ The Data Management Association http://www.dama.org/

Revistas en lnea

Revista de Inteligencia de Negocios www.bi-magazine.com Artculos sobre Minera de datos www.lania.mx/spanish/actividades/newsletters/1997-otoo-invierno/index.htm http://www.lania.mx/spanish/actividades/newsletters/1999-otono-invierno/index.html Internet,conocimiento y negocios www.Ecommdigital.com/esphera

Das könnte Ihnen auch gefallen