Beruflich Dokumente
Kultur Dokumente
Resumen
Introduccin: hoy en da, la cantidad de datos que ha sido almacenada, excede nuestra habilidad para reducir y analizar los datos sin el uso de tcnicas automticas. Muchas bases de datos transaccionales y cientficas crecen en una gran proporcin. Metodologa: una manera de analizar los datos eficientemente es con la aplicacin de tcnicas automticas de minera de datos, siguiendo el proceso de obtencin de conocimiento kdd. Este artculo muestra cmo se aplic el kdd por medio de la tcnica A priori: primero se caracteriz el proceso de kdd, la tcnica de reglas de asociacin, luego se mostr la funcionalidad de la tcnica, y posteriormente se aplic la tcnica en un caso de investigacin especfico del 2009. Resultados: las reglas de asociacin se obtienen por el algoritmo, la red de dependencias, y el anlisis de los resultados. Conclusiones: la tcnica A priori es una de las ms aplicadas en la bsqueda de reglas de asociacin, ya que permite generar resultados y datos interesantes. Palabras clave: algoritmo, conocimiento, innovacin, minera de datos, reglas de asociacin.
Abstract
Introduction: Nowadays, the amount of data that is stored exceeds our ability to reduce and analyze data without the use of automated techniques. Many transactional and scientific databases grow at great rates. Methodology: One way to analyze data efficiently is the application of automated techniques of data mining, through the kdd process for acquiring knowledge. This paper shows how the kdd was applied through the a priori technique: first we characterized the kdd process, the association rules technique. Afterwards we showed the functionality of the technique, and then we applied it in a specific research case from 2009. Results: We obtained association rules through an algorithm, a dependency network, and results analysis. Conclusions: The a priori technique is one of the most applied methods for the search of association rules, since it can obtain results and interesting facts. Keywords: algorithm, knowledge, innovation, data mining, association rules.
Cmo citar este artculo: Giraldo Meja, Juan Camilo; Norea Cardona, Paola Andrea y Montoya Quintero, Diana Mara (2012), Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin, en Revista Memorias, vol. 10, nm. 18, pp. 36-46.
1
Ingeniero de Sistemas de la Universidad Cooperativa de Colombia, sede Medelln. Magster en Ingeniera de Sistemas de la Universidad Nacional de Colombia, Medelln. Docente del Tecnolgico de Antioquia. Correo electrnico: jgiraldo1@tdea.edu.co. Ingeniera de Sistemas de la Universidad Cooperativa de Colombia, sede Medelln. Maestrante en Ingeniera de Sistemas de la Universidad Nacional de Colombia. Docente del Tecnolgico de Antioquia. Correo electrnico: panorena@tdea.edu.co. Licenciada en Sistemas de la Universidad de Medelln. Magster en Ingeniera de Sistemas de la Universidad Nacional de Colombia. Docente del Instituto Tecnolgico Metropolitano. Correo electrnico: dmmontoya@hotmail.com.
Artculo de investigacin resultado del proyecto de investigacin Caracterizacin de algunas tcnicas algortmicas de la inteligencia artificial para el descubrimiento de asociaciones entre variables y su aplicacin en un caso de investigacin especfico, adelantada entre el 2009 y el 2010 en el Tecnolgico de Antioquia, por el grupo de investigacin giista.
**
***
36
Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero
Introduccin
l anlisis de la informacin recopilada en un experimento cientfico, por ejemplo, habitualmente es un proceso manual, basado por lo general en tcnicas estadsticas. Sin embargo, cuando la cantidad de datos arrojados por la investigacin aumenta, el manejo manual del problema se hace muy complejo, y es aqu donde entra en juego el conjunto de tcnicas de anlisis automtico de la denominada minera de datos.
Existe una gran variedad de tcnicas para realizar agrupamientos y asociaciones sobre los datos, y es posible que los analistas expertos desconozcan las propiedades de cada una de ellas, y por eso la tarea de aplicacin de la tcnica apropiada en un caso particular, se convierte en todo un problema.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
El kdd (Knowledge Discovery in Databases) es el proceso completo de extraccin de informacin que se encarga, adems de la preparacin de los datos, de la interpretacin de los resultados obtenidos. El kdd se ha definido como el proceso no trivial de identificacin en los datos de patrones vlidos, nuevos, potencialmente tiles, y finalmente comprensibles (fayy96). Tareas comunes en el kdd son la obtencin de reglas de asociacin y el agrupamiento, o clustering. La minera de datos es un trmino genrico que abarca resultados de investigacin, tcnicas y herramientas usadas para extraer informacin til de grandes bases de datos.
37
revelar, descubrir y representar adecuadamente conocimiento de los datos (Othman et al., 2010). El proceso de kdd se inicia con la identificacin de los datos. Para ello es necesario imaginar qu datos se necesitan, dnde se pueden encontrar y cmo conseguirlos.
Una vez se tienen los datos adecuados, se procede a la minera de datos, proceso en el que se seleccionarn las herramientas y tcnicas adecuadas para lograr los objetivos pretendidos; y tras este proceso llega el anlisis de resultados, con lo que se obtiene el conocimiento pretendido (figura 1).
Knowledge
Patterns
Transformed Data
La etapa de seleccin de la informacin consiste en obtener desde los diferentes orgenes los datos relevantes para obtener conocimiento. Los orgenes tienen diferentes formatos, como bases de datos de Excel, archivos planos o sistemas gestores de bases de datos. El propsito de seleccionar los datos es consolidarlos en un repositorio de gran tamao, una bodega de datos, o DataWareHouse. La informacin que se encuentra all tuvo un preprocesamiento de datos por medio de una etapa de transformacin que busca la consistencia de los datos. Dicha consistencia garantiza la simetra de la informacin que se pasa de un origen a un destino.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
Cuando los datos se encuentran en la bodega, ya transformados, se procede a realizar la explotacin de la informacin, buscando obtener conocimiento, lo cual se logra por medio de tcnicas de minera de datos. La aplicacin de minera de datos consiste en utilizar diferentes tcnicas algortmicas entre ellas agrupamiento o clustering y reglas de asociacin (algoritmo A priori), las cuales extraen conocimiento a partir de modelos especficos; sobre dichos modelos se hace la interpretacin de los resultados desde figuras o tablas dinmicas (figura 2).
38
Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
70% 60% 50% 40% 30% 20% 10% 0% Entendimiento del dominio Preparacin de los datos Data Mining Interpretacin y consolidacin del conocimiento
Figura 2. Esfuerzo requerido por cada fase del proceso kdd Fuente: Rosete, Acosta y Rodrguez, 2009
Como se observa en la figura 2, gran parte del esfuerzo del proceso de kdd recae sobre la fase de preparacin de los datos, fase crucial para tener xito, como ya se coment anteriormente.
Minera de datos
En el proceso de anlisis de datos, la minera de datos busca organizar las relaciones identificadas por patrones entre los campos relacionales de grandes bases de datos. La minera de datos tiene como resultado el descubrimiento de conocimiento y se compone de la inteligencia de negocios, la identificacin de los requerimientos de los datos, el modelado y su verificacin (Rajagopalan e Isken, 2001). Es as como la minera de datos contribuye en el proceso de descubrimiento de conocimiento en bases de datos y en el proceso global de descubrir conocimiento til a partir de los datos. El objetivo de unificar el kdd con la minera de datos es la extraccin de alto nivel de conocimiento a partir de conjuntos de datos de gran tamao en los que el aprendizaje sea automtico y exista un patrn de reconocimiento (Lobur et al., 2008).
39
Reglas de asociacin
Las reglas de asociacin son una poderosa tcnica de minera de datos, y son utilizadas para buscar por medio de conjuntos de datos reglas que revelan la naturaleza de las relaciones o asociaciones entre datos de las entidades. Las asociaciones resultantes pueden ser utilizadas para filtrar la informacin, para analizarlas y posiblemente para definir un modelo de prediccin basado en la observacin del comportamiento (Luo, 2008). Este tipo de tcnicas se emplea para establecer las posibles relaciones o correlaciones entre distintas acciones o sucesos aparentemente independientes, permitiendo reconocer cmo la
ocurrencia de un suceso o accin puede inducir o generar la aparicin de otros (Agrawal, 1993). Gracias a sus caractersticas, estas tcnicas tienen una gran aplicacin prctica en muchos campos, como por ejemplo el comercial, ya que son especialmente interesantes a la hora de comprender los hbitos de compra de los clientes y constituyen un pilar bsico tanto en la concepcin de las ofertas y ventas cruzadas, como del merchandising (Ramaswamy, 1998). Por lo general, esta forma de extraccin de conocimiento se fundamenta en tcnicas estadsticas como el anlisis de correlacin. Uno de los algoritmos que permite obtener reglas de asociacin es el A priori, cuyo flujo de informacin se muestra en la figura 3.
Seleccionar Iniciar
Convertir a nmeros
Vericar frecuencia
NO
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
Descartar atributo
S Juntar valores
Enviar atributos
Descartar atributo
NO
S Generar tripleta
NO Terminar
S Recibir datos
40
Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero
Resultados
Aplicacin de la tcnica en un caso especfico
El problema se orienta a la carencia de innovacin y desarrollo tecnolgico que presenta nuestro pas, lo cual se refleja en algunas empresas, concretamente en los productos que se colocan en el mercado.
La aplicacin y validacin del modelo conceptual propuesto se hizo utilizando algunas variables y datos obtenidos de la Encuesta Anual Manufacturera, el cual versa que la innovacin y el desarrollo tecnolgico son pilares reconocidos de competitividad y factores clave para transformar el conocimiento en riqueza econmica, bienestar social y desarrollo humano. Para ello, se utilizaron las herramientas sql Server 2005 como repositorio de informacin, y sql Server Business Intelligence Development Studio, para crear los orgenes y vistas de datos. Asimismo se utiliz la tecnologa Microsoft para generar reglas de asociacin, y una red de dependencias con el algoritmo de asociacin. Este algoritmo es una implementacin de la tcnica A priori. Igualmente se aplic el algoritmo de regresin logstica el cual gener grficos de elevacin y visor de redes probabilsticas. En este artculo solo se muestran los resultados obtenidos con la tcnica de reglas de asociacin.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
Objetivos de la investigacin
General
Realizar un modelo conceptual sobre algunas de las tcnicas de asociacin de la minera de datos que le sirva a los analistas de informacin expertos (mineros de datos) en el momento de necesitar aplicarlas, indicando sus caractersticas y funcionalidad para el estudio de objetos de inters sobre un dominio especfico.
Especficos
Identificar y seleccionar algunas tcnicas de la minera de datos ofrecidas por la inteligencia artificial para el descubrimiento de reglas de asociacin entre los datos de un dominio especfico.
41
Caracterizar las tcnicas seleccionadas, con el fin de conocer sus propiedades, funcionalidad y estructura. Presentar los resultados estructurales de cada tcnica en trminos de recomendaciones o comentarios, fortalezas y limitaciones, funcionalidad, desde una propuesta conceptual Unified Modeling Language (uml). Aplicar el modelo obtenido en un caso de investigacin especfico, proyecto de investigacin que apoya el descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las Encuestas de Innovacin y Desarrollo Tecnolgico, la Encuesta Anual Manufacturera, y la base de datos Scienti.
Variable I 107
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
Variable IV402_02
Variable independiente. Indica los productos nuevos como resultado de actividades de innovacin. Variable independiente. Indica productos nuevos asociados con nuevos procesos productivos. Corresponde al identificador de cada uno de los 198 registros que se tomaron como muestra de la poblacin total.
Variable IV402_03
Si = 1 No = 2
ncuest
885
42
Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero
Muestra poblacional
De 885 registros correspondientes a la poblacin total de empresas encuestadas, se tom una muestra de 198 registros para aplicar la tcnica de asociacin. En la tabla 2 se visualizan algunos de estos registros.
Tabla 2. Muestra poblacional
ncuest 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 I107 4 4 10 10 10 10 10 10 4 10 10 10 4 10 4 10 1 4 10 4 10 4 10 4 IVA_2_3 IV4_3_3 IVA401 2 2 2 2 2 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 1 1 2 1
1 1 1 1
1 2 2 2
Las reglas de asociacin obtenidas se generaron a partir de una frecuencia o probabilidad de 0,5, y un soporte de 0,6. Lo que se espera es obtener las reglas de asociacin ms interesantes que muestren la tendencia de haber colocado nuevos productos en el mercado desde 1993 hasta la fecha. La idea es que las reglas generadas superen la frecuencia inicial o mnima frecuencia, teniendo en este caso un tope de frecuencia de 1, es decir el valor mximo establecido en el parmetro de frecuencia para el algoritmo, lo que indica que se generarn reglas entre 0,5 y 1. En la tabla 3 se muestran las reglas de asociacin generadas, con las variables de Probabilidad, Importancia y Regla, cuyo anlisis es el siguiente: Probabilidad: indica la frecuencia que acompaa la regla obtenida. Es de resaltar que en el caso de las dos reglas del ejemplo la mayor probabilidad es 1, mientras en las dems reglas (ver tabla 3), se ve que la frecuencia se reduce paralelamente a la importancia de la regla obtenida. Importancia: indica la relevancia del inters que tiene la regla respecto a las otras. El procesamiento de los datos a partir del algoritmo de Asociacin ha generado las reglas de asociacin que muestran los siguientes resultados: la tabla 3 tiene una columna que identifica el tipo de empresa, luego aparece la variable dependiente, es decir nuevos productos colocados en el mercado desde 1993, luego el valor de la variable, despus la relacin entre variables, y por ltimo aparece el indicador de importancia de esa relacin (ver tabla 3). El mayor porcentaje o frecuencia es hacia el valor de 1, es decir que s se han colocado nuevos productos en el mercado desde 1993. Solo la variable Tipo de empresa , con valor unipersonal, muestra valor de 0, lo cual indica que las empresas clasificadas como unipersonales no han colocado nuevos productos en el mercado desde 1993.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
2 1 1 2 1 1
2 2 2 2 2 2
1 2 1
2 2 2
Reglas obtenidas
Teniendo en cuenta los antecedentes de nuestro pas respecto a innovacin tecnolgica, y los datos utilizados desde las bases de datos construidas a partir de la Encuesta sobre Desarrollo Tecnolgico en el establecimiento industrial colombiano, los resultados son similares a los obtenidos a partir del Modelo de Reglas de Asociacin.
43
Las reglas de asociacin muestran que las empresas de tipo annima y la obtencin de nuevos productos a partir de nuevos procesos, han permitido la colocacin de nuevos productos en el mercado. La variable Nuevo producto actividades innovacin , que en este caso es no, significa que no se han realizado actividades innovadoras en la creacin de productos; sin embargo la tendencia, aunque con menor importancia, muestra que s se han colocado nuevos productos en el mercado desde 1993.
tienen mayor importancia que las empresas de tipo unipersonal que no han realizado actividades innovadoras, como premisas, para colocar nuevos productos en el mercado desde 1993. Con una mejor probabilidad y mayor importancia aparecen las empresas de tipo empresa industrial , comandita por acciones , sucursal extranjera , sociedad colectiva , sin nimo de lucro y comandita , cuya premisa es haber hecho nuevos productos a partir de actividades innovadoras, como soporte para la conclusin de colocar nuevos productos en el mercado desde 1993. Con menos importancia, algunas empresas de tipo comandita por acciones , comandita , sin nimo de lucro y empresa industrial , han colocado nuevos productos en el mercado desde 1993, utilizando procesos innovadores.
Las empresas clasificadas como limitadas muestran que han colocado nuevos productos en el mercado desde 1993, con el soporte de actividades y procesos innovadores para producir nuevos elementos. Las empresas unipersonales que han realizado procesos innovadores para obtener productos,
1,00
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
0,34
1,00
0,33
1,00
0,33
1,00
0,32
1,00
0,31
0,30
44
Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero
Red de dependencias
Permite ver las relaciones entre las variables de entrada y la variable que se evala, en este caso la variable de prediccin. Se muestra claramente que la tendencia de no haber colocado nuevos productos en el mercado desde 1993 es de las empresas unipersonales, lo cual se confirma con el valor de 0, es decir la respuesta que corresponde a no. En el caso contrario, el modelo indica que las empresas que han colocado nuevos productos en el mercado, apoyadas en nuevos procesos e innovaciones, son las de tipo unipersonal, comandita, comandita por acciones, limitada, colectiva, empresa industrial y sucursal extranjera (ver figura 4).
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
NUEVOSPRODUCTOSENELMERCADO1993=0
EMPRESAUNIPERSONAL
NUEVOSPRODUCTOACTIVIDADESINNOVACION=SI TIPOEMPRESA=COMANDITA TIPOEMPRESA=SUCURSALEXTRAJERA TIPOEMPRESA=UNIPERSONAL NUEVOSPRODUCTOSENELMERCADO1993=1 TIPOEMPRESA=INDUSTRIAL TIPOEMPRESA=ANONIMA NUEVOPRODUCTOPROCESOINNOVACION=NO TIPOEMPRESA=SOCIEDADCOLECTIVA Figura 4. Red de dependencias Fuente: Giraldo, 2009 TIPOEMPRESA=SINANIMOLUCRO TIPOEMPRESA=COMANDITAPORACCIONES
NUEVOPRODUCTOPROCESOINNOVACION=NO
Conclusiones
La tcnica de Asociacin se caracteriz por ser la que se presenta como una de las ms aplicadas en la bsqueda de reglas de asociacin, adems de que se encuentra implementada en diferentes herramientas de software libre y licenciado.
La aplicacin de esta tcnica en el proyecto de investigacin Descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las encuestas de innovacin y desarrollo tecnolgico, ha permitido generar resultados, y en ellos datos interesantes que indican el estado en que se encuentra nuestro pas en materia de innovacin, investigacin y desarrollo de nuevas tecnologas.
45
En este modelo se visualizan los objetos y se resaltan los que generan los grafos o redes de dependencias, las reglas de asociacin, que muestran los patrones o elementos interesantes entre variables, e indican las probabilidades relacionadas con el objeto en estudio. Se resalta que la bsqueda en bases de datos es compleja, en el sentido de que no es posible partir de una hiptesis, sin embargo, restringindose a un subconjunto de datos por medio de la utilizacin de la tcnica de minera de datos denominada Reglas de Asociacin, se puede obtener informacin de presunta relacin entre ellos.
Luo, Q. (2008), Advancing Knowledge Discovery and Data Mining, en Knowledge Discovery and Data Mining, wkdd 2008, First International Workshop on, pp. 3-5. Lutfi, M.; Aris, I.; Abdullah, S.M.; Ali, M.L. y Othman, M.R. (2010), Knowledge Discovery in Distance Relay Event Report: A Comparative Data-Mining Strategy of Rough Set Theory With Decision Tree, en Power Delivery, ieee Transactions on, vol. 25, nm. 4, pp. 2264-2287. Prez, C. y Santn, D. (2007), Minera de datos, tcnicas y herramientas, Espaa, Thomson Paraninfo S.A. Rajagopalan, B. y Isken, M.W. (2001), Exploiting data preparation to enhance mining and knowledge discovery, Systems, Man, and Cybernetics, Part C: Applications and Reviews, en ieee Transactions on, vol. 31, nm. 4, pp. 460-467. Ramaswamy, S.; Mahajan, S. y Silberschatz, A. (1998), On the discovery of interesting patterns in association rules, en Proc. 1998 Int. Conf Very Large Databases (vldb98), pp. 368-379. Rennolls, K. (2005), An intelligent framework (o-sse) for data mining, knowledge discovery and business intelligence, Database and Expert Systems Applications, 2005. Proceedings, en Sixteenth International Workshop on, pgs. 22-26, 715-719. Robledo, J. (2007), Descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las Encuestas de Innovacin y Desarrollo Tecnolgico, la Encuesta Anual Manufacturera y la base de datos ScienTI, Bogot, Universidad Nacional de Colombia. Rosete-Surez, A.; Acosta, R. y Rodrguez. A. (2009) Prediccin de pacientes diabticos, preprocesado de minera de datos, en Revista Electrnica Cubana de Informtica Mdica [en lnea], disponible en: http://www.rcim.sld.cu/revista_18/ articulos_htm/prediccionpaciente.htm, recuperado: 20 de agosto del 2011.
Referencias
Adomavicius, G. y Bockstedt, J. (2008), c-trend: Temporal Cluster Graphs for Identifying and Visualizing Trends in Multiattribute Transactional Data, en Knowledge and Data Engineering, IEEE Transactions on, vol. 20, nm. 6, pp. 721-735. Agrawal, R., Imielinski, T. y Swami, A. (1993), Minera de reglas de asociacin entre los conjuntos de productos en grandes bases de datos, en Actas de 1993 acm Internacional sigmod, Conferencia sigmod, Washington, D.C, pp. 207-216 [en lnea], disponible en: http://dl.acm.org/citation. cfm?doid=170035.170072, recuperado: 12 de septiembre del 2011.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012
Fica, E. (2011), Data Mining, concepto bit de la semana, Chile, Facultad de Ingeniera e Informacin, Universidad de Chile. Giraldo, J. (2009), Caracterizacin de algunas tcnicas algortmicas de la inteligencia artificial para el descubrimiento de asociaciones entre variables y su aplicacin en un caso de investigacin especfico (tesis de maestra), Medelln, Universidad Nacional de Colombia, Facultad de Minas. Lobur, M.; Stekh, Yu.; Kernytskyy, A. y Sardieh, F.M.E. (2008), Some trends in Knowledge Discovery and Data Mining, Perspective Technologies and
46