Data Mining

Data mining: torturando a los datos hasta que confiesen[*] Luis Carlos Molina Flix Resumen: El ttulo de este
artculo es una explicacin informal de la actividad que realiza una tecnologa denominada data mining (minera de datos). Lo que se pretende con esta tecnologa es descubrir conocimiento oculto a partir de grandes volmenes de datos. Desde la dcada pasada, debido a los grandes avances computacionales, se ha ido incorporando a las organizaciones para constituirse en un apoyo esencial al momento de tomar decisiones. Organizaciones tales como empresas, clubes profesionales deportivos, universidades y gobiernos, entre otros, hacen uso de esta tecnologa como ayuda en la toma de sus decisiones. Algunos de estos ejemplos sern citados en el presente trabajo. 1. Introduccin Cada da generamos una gran cantidad de informacin, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos informacin cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crdito o cuando reservamos un billete de avin. Otras veces no nos damos cuenta de que generamos informacin, como cuando conducimos por una va donde estn contabilizando el nmero de automviles que pasan por minuto, cuando se sigue nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro al haber pasado cerca de una oficina gubernamental. Con qu finalidad queremos generar informacin? Son muchos los motivos que nos llevan a generar informacin, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos. La informacin por s misma est considerada un bien patrimonial. De esta forma, si una empresa tiene una prdida total o parcial de informacin provoca bastantes perjuicios. Es evidente que la informacin debe ser protegida, pero tambin explotada. Qu nos ha permitido poder generar tanta informacin? En los ltimos aos, debido al desarrollo tecnolgico a niveles exponenciales tanto en el rea de cmputo como en la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacin. Sin duda existen cuatro factores importantes que nos han llevado a este suceso: 1. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente. 2. El incremento de las velocidades de cmputo en los procesadores. 3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de datos. 4. El desarrollo de sistemas administradores de bases de datos ms poderosos. Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacin en las bases de datos. Podemos decir que algunas empresas almacenan un cierto tipo de datos al que hemos denominado dato-escritura, ya que slo se guarda (o escribe) en el disco duro, pero nunca se hace uso de l. Generalmente, todas las empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer consultas dirigidas. Un nuevo tipo de dato al cual hemos denominado dato-escritura-lectura-anlisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con tecnologas que nos ayuden a explotar el potencial de este tipo de datos. La cantidad de informacin que nos llega cada da es tan inmensa que nos resulta difcil asimilarla. Basta con ir al buscador Altavista[url2] y solicitar la palabra information para ver que existen 171.769.416 sitios donde nos pueden decir algo al respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada pgina, tardaramos entonces 326 aos en visitarlas todas. Esto es imposible, y, por lo tanto, existe una clara necesidad de disponer de tecnologas que nos ayuden en nuestros procesos de bsqueda y, an ms, de tecnologas que nos ayuden a comprender su contenido. El data mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin del confronto entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1 se ilustra la jerarqua que existe en una base de datos entre dato, informacin y conocimiento (Molina, 1998). Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.
Figura 1. Relacin entre dato, informacin y conocimiento (Molina, 1998). 2. Data mining: conceptos e historia Aunque desde un punto de vista acadmico el trmino data mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, as como en este trabajo, ambos trminos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definicin tradicional es la siguiente: "Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Desde nuestro punto de vista, lo definimos como "la integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin" (Molina y otros, 2001). La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. 3. Aplicaciones de uso Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos. Podemos decir que "en data mining cada caso es un caso". Sin embargo, en trminos generales, el proceso se compone de cuatro etapas principales: 1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. 2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. 4. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
A continuacin se describen varios ejemplos donde se ha visto involucrado el data mining. Se han seleccionado de diversos dominios y con diversos objetivos para observar su potencial. Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan principalmente rboles y reglas de decisin, reglas de asociacin, redes neuronales, redes bayesianas, conjuntos aproximados (rough sets), algoritmos de agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y lgica difusa. 3.1. En el gobierno El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin.[4] Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros.[5] La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin. 3.2. En la empresa Deteccin de fraudes en las tarjetas de crdito. En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager[6] es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito.[7] El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar.[8] La versin final se desempea tan bien como un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales. 3.3. En la universidad Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II,[9] en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad. 3.4. En investigaciones espaciales Proyecto SKYCAT: Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles de encontrar y permiten saber ms acerca de los orgenes del universo. 3.5. En los clubes deportivos El AC de Miln utiliza un sistema inteligente para prevenir lesiones. Esta temporada el club comenzar a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin.[10] El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol. Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout[11] es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje.
La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes. 4. Extensiones del data mining 4.1. Web mining Una de las extensiones del data mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama web mining (minera de web) (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automticamente almacenan en una bitcora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining. Normalmente, el web mining puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo con la naturaleza de los datos: 1. Web content mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. 2. Web structure mining (minera de estructura web). Es el proceso de inferir conocimiento de la organizacin del WWW y la estructura de sus ligas. 3. Web usage mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web. Algunos de los resultados que pueden obtenerse tras la aplicacin de los diferentes mtodos de web mining son: El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden tambin a /productos/historias_suceso.html. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa. Los clientes que hacen una compra en lnea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. Esto podra resultar en proponer diversas ofertas a este sector para potenciar ms sus compras. El sesenta por ciento de los clientes que hicieron una compra en lnea en /compra/producto1.html tambin compraron en /compra/producto4.html despus de un mes. Esto indica que se podra recomendar en la pgina del producto 1 comprar el producto 4 y ahorrarse el costo de envo de este producto. Los anteriores ejemplos nos ayudan a formarnos una pequea idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con mtodos variados y visualizaciones grficas excelentes. Para ms informacin, ver Mena (1999). 4.2. Text mining Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En ocasiones se confunde el text mining con la recuperacin de la informacin (Information Retrieval o IR) (Hearst, 1999). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En cambio, el text mining se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber partido de algo (Nasukawa y otros, 2001). Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica
pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron: El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. La depresin cortical diseminada (DCD) est implicada en algunas migraas. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria. Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson (Swanson y otros, 1994), estudios posteriores han probado experimentalmente esta hiptesis obtenida por text mining con buenos resultados. 5. Conclusiones: Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. Las herramientas comerciales de data mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. Como se ha visto a lo largo del este artculo, son muchas las reas, tcnicas, estrategias, tipos de bases de datos y personas que intervienen en un proceso de data mining. Los negocios requieren que las soluciones tengan una integracin transparente en un ambiente operativo. Esto nos lleva a la necesidad de establecer estndares para hacer un ambiente interoperable, eficiente y efectivo. Esfuerzos en este sentido se estn desarrollando actualmente. En Grossman y otros (2002) se exponen algunas iniciativas para estos estndares, incluyendo aspectos en: Modelos: para representar datos estadsticos y de data mining. Atributos: para representar la limpieza, transformacin y agregacin de atributos usados como entrada en los modelos. Interfaces y API: para facilitar la integracin con otros lenguajes o aplicaciones de software y API. Configuracin: para representar parmetros internos requeridos para construir y usar los modelos. Procesos: para producir, desplegar y usar modelos. Datos remotos y distribuidos: para analizar y explorar datos remotos y distribuidos. En resumen, el data mining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra "toma de decisiones".

Data Mining

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Data Mining

Hochgeladen von

Copyright:

Verfügbare Formate

Data mining: torturando a los datos hasta que confiesen[*] Luis Carlos Molina Flix Resumen: El ttulo de este

Das könnte Ihnen auch gefallen