Sie sind auf Seite 1von 11

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin1

Application of the data mining association technique in a research case


Juan Camilo Giraldo Meja* Paola Andrea Norea Cardona** Diana Mara Montoya Quintero***
Presentado: 29 de febrero del 2012 Aprobado: 5 de mayo del 2012

Resumen
Introduccin: hoy en da, la cantidad de datos que ha sido almacenada, excede nuestra habilidad para reducir y analizar los datos sin el uso de tcnicas automticas. Muchas bases de datos transaccionales y cientficas crecen en una gran proporcin. Metodologa: una manera de analizar los datos eficientemente es con la aplicacin de tcnicas automticas de minera de datos, siguiendo el proceso de obtencin de conocimiento kdd. Este artculo muestra cmo se aplic el kdd por medio de la tcnica A priori: primero se caracteriz el proceso de kdd, la tcnica de reglas de asociacin, luego se mostr la funcionalidad de la tcnica, y posteriormente se aplic la tcnica en un caso de investigacin especfico del 2009. Resultados: las reglas de asociacin se obtienen por el algoritmo, la red de dependencias, y el anlisis de los resultados. Conclusiones: la tcnica A priori es una de las ms aplicadas en la bsqueda de reglas de asociacin, ya que permite generar resultados y datos interesantes. Palabras clave: algoritmo, conocimiento, innovacin, minera de datos, reglas de asociacin.

Abstract
Introduction: Nowadays, the amount of data that is stored exceeds our ability to reduce and analyze data without the use of automated techniques. Many transactional and scientific databases grow at great rates. Methodology: One way to analyze data efficiently is the application of automated techniques of data mining, through the kdd process for acquiring knowledge. This paper shows how the kdd was applied through the a priori technique: first we characterized the kdd process, the association rules technique. Afterwards we showed the functionality of the technique, and then we applied it in a specific research case from 2009. Results: We obtained association rules through an algorithm, a dependency network, and results analysis. Conclusions: The a priori technique is one of the most applied methods for the search of association rules, since it can obtain results and interesting facts. Keywords: algorithm, knowledge, innovation, data mining, association rules.

Cmo citar este artculo: Giraldo Meja, Juan Camilo; Norea Cardona, Paola Andrea y Montoya Quintero, Diana Mara (2012), Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin, en Revista Memorias, vol. 10, nm. 18, pp. 36-46.
1

Ingeniero de Sistemas de la Universidad Cooperativa de Colombia, sede Medelln. Magster en Ingeniera de Sistemas de la Universidad Nacional de Colombia, Medelln. Docente del Tecnolgico de Antioquia. Correo electrnico: jgiraldo1@tdea.edu.co. Ingeniera de Sistemas de la Universidad Cooperativa de Colombia, sede Medelln. Maestrante en Ingeniera de Sistemas de la Universidad Nacional de Colombia. Docente del Tecnolgico de Antioquia. Correo electrnico: panorena@tdea.edu.co. Licenciada en Sistemas de la Universidad de Medelln. Magster en Ingeniera de Sistemas de la Universidad Nacional de Colombia. Docente del Instituto Tecnolgico Metropolitano. Correo electrnico: dmmontoya@hotmail.com.

Artculo de investigacin resultado del proyecto de investigacin Caracterizacin de algunas tcnicas algortmicas de la inteligencia artificial para el descubrimiento de asociaciones entre variables y su aplicacin en un caso de investigacin especfico, adelantada entre el 2009 y el 2010 en el Tecnolgico de Antioquia, por el grupo de investigacin giista.

**

***

36

Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero

Introduccin

l anlisis de la informacin recopilada en un experimento cientfico, por ejemplo, habitualmente es un proceso manual, basado por lo general en tcnicas estadsticas. Sin embargo, cuando la cantidad de datos arrojados por la investigacin aumenta, el manejo manual del problema se hace muy complejo, y es aqu donde entra en juego el conjunto de tcnicas de anlisis automtico de la denominada minera de datos.

Existe una gran variedad de tcnicas para realizar agrupamientos y asociaciones sobre los datos, y es posible que los analistas expertos desconozcan las propiedades de cada una de ellas, y por eso la tarea de aplicacin de la tcnica apropiada en un caso particular, se convierte en todo un problema.

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Descubrimiento de conocimiento kdd


El descubrimiento de conocimiento (kdd) es una de las actividades intelectuales ms importantes de la mente humana y de la sociedad. La intuicin y el conocimiento son elementos necesarios para los verdaderos descubrimientos. La Interpretacin y la apreciacin del significado son necesarias para comprender y utilizar el conocimiento. La minera de datos (dm) y el almacenamiento de datos, han promovido el principal medio de kdd con el objetivo de utilizar los conocimientos descubiertos para la toma de decisiones ptimas, es decir, Inteligencia de Negocios (bi) (Rennolls, 2005).

El kdd (Knowledge Discovery in Databases) es el proceso completo de extraccin de informacin que se encarga, adems de la preparacin de los datos, de la interpretacin de los resultados obtenidos. El kdd se ha definido como el proceso no trivial de identificacin en los datos de patrones vlidos, nuevos, potencialmente tiles, y finalmente comprensibles (fayy96). Tareas comunes en el kdd son la obtencin de reglas de asociacin y el agrupamiento, o clustering. La minera de datos es un trmino genrico que abarca resultados de investigacin, tcnicas y herramientas usadas para extraer informacin til de grandes bases de datos.

Proceso de descubrimiento de conocimiento


La teora del conocimiento tiene tres objetivos principales: llegar a una definicin satisfactoria de los conocimientos, determinar qu tipo de proposiciones pueden ser ciertas, y explicar cmo estas proposiciones pueden ser verdaderas; esto se aplica al proceso de descubrimiento de conocimiento y necesita ser desarrollado con el fin de que se pueda tener confianza en que el kdd suministre conocimiento. Si el kdd contiene conocimiento y ciencia, necesita de un almacn de datos construido para fusionar una amplia gama de recursos de bases de datos con relaciones desconocidas entre las variables que han sido extradas de diferentes fuentes. Esta es la tarea de la relacin descubrimiento de conocimiento kdd y minera de datos dm, para

Metodologa - aspectos generales


Inteligencia de negocios
Con la aplicacin de la inteligencia de negocios, se presenta una importante oportunidad para las tcnicas de minera de datos que ayudan a las empresas a recopilar y analizar informacin acerca de su desempeo, clientes, competencia de mercado y entorno empresarial. El conocimiento de herramientas de representacin y visualizacin de datos constituye una forma de las tcnicas de inteligencia de negocios que presentan informacin a los usuarios y apoyan a las empresas en la toma de decisiones (Adomavicius y Bockstedt, 2008).

37

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin

revelar, descubrir y representar adecuadamente conocimiento de los datos (Othman et al., 2010). El proceso de kdd se inicia con la identificacin de los datos. Para ello es necesario imaginar qu datos se necesitan, dnde se pueden encontrar y cmo conseguirlos.

Una vez se tienen los datos adecuados, se procede a la minera de datos, proceso en el que se seleccionarn las herramientas y tcnicas adecuadas para lograr los objetivos pretendidos; y tras este proceso llega el anlisis de resultados, con lo que se obtiene el conocimiento pretendido (figura 1).

Interpretation/ Evaluation Data Mining Transformation Preprocessing Selection


xxx xxx xxx xxx xxx xxx xxx xxx xxx

Knowledge

Patterns

Preprocessed Data Data Target Date

Transformed Data

Figura 1. Metodologa para el descubrimiento de conocimiento Fuente: Fica, 2011

La etapa de seleccin de la informacin consiste en obtener desde los diferentes orgenes los datos relevantes para obtener conocimiento. Los orgenes tienen diferentes formatos, como bases de datos de Excel, archivos planos o sistemas gestores de bases de datos. El propsito de seleccionar los datos es consolidarlos en un repositorio de gran tamao, una bodega de datos, o DataWareHouse. La informacin que se encuentra all tuvo un preprocesamiento de datos por medio de una etapa de transformacin que busca la consistencia de los datos. Dicha consistencia garantiza la simetra de la informacin que se pasa de un origen a un destino.

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Cuando los datos se encuentran en la bodega, ya transformados, se procede a realizar la explotacin de la informacin, buscando obtener conocimiento, lo cual se logra por medio de tcnicas de minera de datos. La aplicacin de minera de datos consiste en utilizar diferentes tcnicas algortmicas entre ellas agrupamiento o clustering y reglas de asociacin (algoritmo A priori), las cuales extraen conocimiento a partir de modelos especficos; sobre dichos modelos se hace la interpretacin de los resultados desde figuras o tablas dinmicas (figura 2).

38

Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

70% 60% 50% 40% 30% 20% 10% 0% Entendimiento del dominio Preparacin de los datos Data Mining Interpretacin y consolidacin del conocimiento

Figura 2. Esfuerzo requerido por cada fase del proceso kdd Fuente: Rosete, Acosta y Rodrguez, 2009

Como se observa en la figura 2, gran parte del esfuerzo del proceso de kdd recae sobre la fase de preparacin de los datos, fase crucial para tener xito, como ya se coment anteriormente.

Tcnicas de la minera de datos


Las tcnicas de la minera de datos persiguen el descubrimiento automtico del conocimiento contenido en la informacin almacenada de modo ordenado en grandes bases de datos, y tienen como objetivo descubrir patrones, perfiles y tendencias por medio del anlisis de los datos, utilizando tecnologas de reconocimiento (Prez y Santn, 2007). Las tcnicas de la minera de datos pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes, y pueden ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y sean desarrollados nuevos productos. Cuando las herramientas de la minera de datos son implementadas en sistemas de procesamiento paralelo de alto rendimiento, pueden analizar bases de datos masivas en minutos. Cuanto mayor sea la dimensin del problema, mejores soluciones ofrecer la minera de datos. Cuantas ms variables entren en el problema, ms difcil resultar encontrar hiptesis de partida interesantes, o an cuando pudiera, el tiempo necesario no justificar la inversin.

Minera de datos
En el proceso de anlisis de datos, la minera de datos busca organizar las relaciones identificadas por patrones entre los campos relacionales de grandes bases de datos. La minera de datos tiene como resultado el descubrimiento de conocimiento y se compone de la inteligencia de negocios, la identificacin de los requerimientos de los datos, el modelado y su verificacin (Rajagopalan e Isken, 2001). Es as como la minera de datos contribuye en el proceso de descubrimiento de conocimiento en bases de datos y en el proceso global de descubrir conocimiento til a partir de los datos. El objetivo de unificar el kdd con la minera de datos es la extraccin de alto nivel de conocimiento a partir de conjuntos de datos de gran tamao en los que el aprendizaje sea automtico y exista un patrn de reconocimiento (Lobur et al., 2008).

39

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin

Reglas de asociacin
Las reglas de asociacin son una poderosa tcnica de minera de datos, y son utilizadas para buscar por medio de conjuntos de datos reglas que revelan la naturaleza de las relaciones o asociaciones entre datos de las entidades. Las asociaciones resultantes pueden ser utilizadas para filtrar la informacin, para analizarlas y posiblemente para definir un modelo de prediccin basado en la observacin del comportamiento (Luo, 2008). Este tipo de tcnicas se emplea para establecer las posibles relaciones o correlaciones entre distintas acciones o sucesos aparentemente independientes, permitiendo reconocer cmo la

ocurrencia de un suceso o accin puede inducir o generar la aparicin de otros (Agrawal, 1993). Gracias a sus caractersticas, estas tcnicas tienen una gran aplicacin prctica en muchos campos, como por ejemplo el comercial, ya que son especialmente interesantes a la hora de comprender los hbitos de compra de los clientes y constituyen un pilar bsico tanto en la concepcin de las ofertas y ventas cruzadas, como del merchandising (Ramaswamy, 1998). Por lo general, esta forma de extraccin de conocimiento se fundamenta en tcnicas estadsticas como el anlisis de correlacin. Uno de los algoritmos que permite obtener reglas de asociacin es el A priori, cuyo flujo de informacin se muestra en la figura 3.

Act Activity Diagram Base de Datos Conjunto de tem Sets


<column>

Seleccionar Iniciar

Convertir a nmeros

Vericar frecuencia

NO

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Descartar atributo

Tiene frecuencia y soporte altos?

S Juntar valores

Enviar atributos

Existen ms atributos para evaluar

Descartar atributo

NO

Tiene frecuencia y soporte altos?

S Generar tripleta

NO Terminar

Existen ms atributos para evaluar

S Recibir datos

Se repite el ciclo hasta el nal de las transacciones

Figura 3. Flujo de informacin del algoritmo A priori Fuente: Giraldo, 2009

40

Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero

Resultados
Aplicacin de la tcnica en un caso especfico
El problema se orienta a la carencia de innovacin y desarrollo tecnolgico que presenta nuestro pas, lo cual se refleja en algunas empresas, concretamente en los productos que se colocan en el mercado.

Contextualizacin del problema de investigacin


Colombia tiene graves problemas de competitividad que, sin duda alguna, atentan contra su integracin exitosa en los mercados mundiales. Estos problemas se han puesto de manifiesto con mayor fuerza a partir del cambio del modelo de desarrollo econmico colombiano que, desde comienzos de los aos noventa, dejo atrs la sustitucin de importaciones y las polticas proteccionistas por un esquema de apertura comercial financiera. Estos movimientos aperturistas de los noventa seguirn profundizando hacia el futuro, probablemente en el marco de tratados de libre comercio, bilateral y multilateral. En tales escenarios, la competitividad se convierte en elemento fundamental para que un pas logre insertarse de manera efectiva y beneficiosa en la economa mundial (Robledo, 2007). Para solucionar esta problemtica se propone un modelo que muestra las propiedades fundamentales de las tcnicas de asociacin y regresin logstica y funcionalidad al minero de datos, cuando de descubrir patrones frecuentes e interesantes o relacin de variables se trate. El modelo se obtuvo a partir de la caracterizacin de las dos tcnicas en mencin: A priori y regresin logstica, estableciendo sus atributos o caractersticas fundamentales y el flujo de informacin a partir de los mtodos de cada caso.

La aplicacin y validacin del modelo conceptual propuesto se hizo utilizando algunas variables y datos obtenidos de la Encuesta Anual Manufacturera, el cual versa que la innovacin y el desarrollo tecnolgico son pilares reconocidos de competitividad y factores clave para transformar el conocimiento en riqueza econmica, bienestar social y desarrollo humano. Para ello, se utilizaron las herramientas sql Server 2005 como repositorio de informacin, y sql Server Business Intelligence Development Studio, para crear los orgenes y vistas de datos. Asimismo se utiliz la tecnologa Microsoft para generar reglas de asociacin, y una red de dependencias con el algoritmo de asociacin. Este algoritmo es una implementacin de la tcnica A priori. Igualmente se aplic el algoritmo de regresin logstica el cual gener grficos de elevacin y visor de redes probabilsticas. En este artculo solo se muestran los resultados obtenidos con la tcnica de reglas de asociacin.

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Objetivos de la investigacin
General
Realizar un modelo conceptual sobre algunas de las tcnicas de asociacin de la minera de datos que le sirva a los analistas de informacin expertos (mineros de datos) en el momento de necesitar aplicarlas, indicando sus caractersticas y funcionalidad para el estudio de objetos de inters sobre un dominio especfico.

Especficos
Identificar y seleccionar algunas tcnicas de la minera de datos ofrecidas por la inteligencia artificial para el descubrimiento de reglas de asociacin entre los datos de un dominio especfico.

41

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin

Caracterizar las tcnicas seleccionadas, con el fin de conocer sus propiedades, funcionalidad y estructura. Presentar los resultados estructurales de cada tcnica en trminos de recomendaciones o comentarios, fortalezas y limitaciones, funcionalidad, desde una propuesta conceptual Unified Modeling Language (uml). Aplicar el modelo obtenido en un caso de investigacin especfico, proyecto de investigacin que apoya el descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las Encuestas de Innovacin y Desarrollo Tecnolgico, la Encuesta Anual Manufacturera, y la base de datos Scienti.

Origen de los datos


La Facultad de Minas de la Universidad Nacional de Colombia, sede Medelln, aplic una encuesta a algunas empresas, con el fin de conocer el nivel de desarrollo e innovacin tecnolgica que estas aportan con la colocacin de sus productos en el mercado. En la base de datos se cont con algunas preguntas de la encuesta y su respectiva codificacin, las cuales se convierten en las variables utilizadas en la aplicacin de la tcnica de asociacin de la minera de datos.

Descripcin de las variables


Las variables utilizadas contienen los resultados de la innovacin y el impacto de la innovacin (tabla 1).

Tabla 1. Descripcin de variables


Variable Descripcin Valores 1. = empresa unipersonal, 2. = sociedad en comandita simple, 3. = entidad sin nimo de lucro, 4. = sociedad annima, 5. = sociedad de hecho, 6. = sociedad comandita por acciones, 7. = sucursal extranjera, 8. = economa solidaria, 9. = sociedad colectiva, 10. = sociedad limitada, 11. = empresa industrial del Estado, 12. = empresa de economa mixta. Si = 1 No = 2

Variable I 107

Identifica la naturaleza jurdica de la empresa.

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Variable IV402_02

Variable independiente. Indica los productos nuevos como resultado de actividades de innovacin. Variable independiente. Indica productos nuevos asociados con nuevos procesos productivos. Corresponde al identificador de cada uno de los 198 registros que se tomaron como muestra de la poblacin total.

Variable IV402_03

Si = 1 No = 2

ncuest

885

Fuente: Giraldo, 2009

42

Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero

Muestra poblacional
De 885 registros correspondientes a la poblacin total de empresas encuestadas, se tom una muestra de 198 registros para aplicar la tcnica de asociacin. En la tabla 2 se visualizan algunos de estos registros.
Tabla 2. Muestra poblacional
ncuest 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 I107 4 4 10 10 10 10 10 10 4 10 10 10 4 10 4 10 1 4 10 4 10 4 10 4 IVA_2_3 IV4_3_3 IVA401 2 2 2 2 2 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 1 1 2 1

1 1 1 1

1 2 2 2

Las reglas de asociacin obtenidas se generaron a partir de una frecuencia o probabilidad de 0,5, y un soporte de 0,6. Lo que se espera es obtener las reglas de asociacin ms interesantes que muestren la tendencia de haber colocado nuevos productos en el mercado desde 1993 hasta la fecha. La idea es que las reglas generadas superen la frecuencia inicial o mnima frecuencia, teniendo en este caso un tope de frecuencia de 1, es decir el valor mximo establecido en el parmetro de frecuencia para el algoritmo, lo que indica que se generarn reglas entre 0,5 y 1. En la tabla 3 se muestran las reglas de asociacin generadas, con las variables de Probabilidad, Importancia y Regla, cuyo anlisis es el siguiente: Probabilidad: indica la frecuencia que acompaa la regla obtenida. Es de resaltar que en el caso de las dos reglas del ejemplo la mayor probabilidad es 1, mientras en las dems reglas (ver tabla 3), se ve que la frecuencia se reduce paralelamente a la importancia de la regla obtenida. Importancia: indica la relevancia del inters que tiene la regla respecto a las otras. El procesamiento de los datos a partir del algoritmo de Asociacin ha generado las reglas de asociacin que muestran los siguientes resultados: la tabla 3 tiene una columna que identifica el tipo de empresa, luego aparece la variable dependiente, es decir nuevos productos colocados en el mercado desde 1993, luego el valor de la variable, despus la relacin entre variables, y por ltimo aparece el indicador de importancia de esa relacin (ver tabla 3). El mayor porcentaje o frecuencia es hacia el valor de 1, es decir que s se han colocado nuevos productos en el mercado desde 1993. Solo la variable Tipo de empresa , con valor unipersonal, muestra valor de 0, lo cual indica que las empresas clasificadas como unipersonales no han colocado nuevos productos en el mercado desde 1993.

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

2 1 1 2 1 1

2 2 2 2 2 2

1 2 1

2 2 2

Fuente: Giraldo, 2009

Reglas obtenidas
Teniendo en cuenta los antecedentes de nuestro pas respecto a innovacin tecnolgica, y los datos utilizados desde las bases de datos construidas a partir de la Encuesta sobre Desarrollo Tecnolgico en el establecimiento industrial colombiano, los resultados son similares a los obtenidos a partir del Modelo de Reglas de Asociacin.

43

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin

Las reglas de asociacin muestran que las empresas de tipo annima y la obtencin de nuevos productos a partir de nuevos procesos, han permitido la colocacin de nuevos productos en el mercado. La variable Nuevo producto actividades innovacin , que en este caso es no, significa que no se han realizado actividades innovadoras en la creacin de productos; sin embargo la tendencia, aunque con menor importancia, muestra que s se han colocado nuevos productos en el mercado desde 1993.

tienen mayor importancia que las empresas de tipo unipersonal que no han realizado actividades innovadoras, como premisas, para colocar nuevos productos en el mercado desde 1993. Con una mejor probabilidad y mayor importancia aparecen las empresas de tipo empresa industrial , comandita por acciones , sucursal extranjera , sociedad colectiva , sin nimo de lucro y comandita , cuya premisa es haber hecho nuevos productos a partir de actividades innovadoras, como soporte para la conclusin de colocar nuevos productos en el mercado desde 1993. Con menos importancia, algunas empresas de tipo comandita por acciones , comandita , sin nimo de lucro y empresa industrial , han colocado nuevos productos en el mercado desde 1993, utilizando procesos innovadores.

Las empresas clasificadas como limitadas muestran que han colocado nuevos productos en el mercado desde 1993, con el soporte de actividades y procesos innovadores para producir nuevos elementos. Las empresas unipersonales que han realizado procesos innovadores para obtener productos,

Tabla 3. Algunas reglas de asociacin generadas


Probabilidad 1,00 1,00 Importancia 0,50 0,43 Regla NUEVOPRODUCTOPROCESOINNOVACION=SI NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOPROCESOINNOVACION=NO NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOPROCESOINNOVACION=NO, TIPOEMPRESA=ANONIMA NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOACTIVIDADESINNOVACION=NO, TIPOEMPRESA=ANONIMA NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOPROCESOINNOVACION=SI , NUEVOPRODUCTOACTIVIDADESINNOVACION=NO NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOACTIVIDADESINNOVACION=SI, TIPOEMPRESA=ANONIMA NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOPROCESOINNOVACION=SI , NUEVOPRODUCTOACTIVIDADESINNOVACION=SI NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1 NUEVOPRODUCTOPROCESOINNOVACION=SI, TIPOEMPRESA=LIMITADA NUEVOSPRODUCTOSCOLOCADOSMERCADO1993=1

1,00
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

0,34

1,00

0,33

1,00

0,33

1,00

0,32

1,00

0,31

1,00 Fuente: Giraldo, 2009

0,30

44

Juan Camilo Giraldo Meja - Paola Andrea Norea Cardona - Diana Mara Montoya Quintero

Red de dependencias
Permite ver las relaciones entre las variables de entrada y la variable que se evala, en este caso la variable de prediccin. Se muestra claramente que la tendencia de no haber colocado nuevos productos en el mercado desde 1993 es de las empresas unipersonales, lo cual se confirma con el valor de 0, es decir la respuesta que corresponde a no. En el caso contrario, el modelo indica que las empresas que han colocado nuevos productos en el mercado, apoyadas en nuevos procesos e innovaciones, son las de tipo unipersonal, comandita, comandita por acciones, limitada, colectiva, empresa industrial y sucursal extranjera (ver figura 4).

Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

NUEVOSPRODUCTOSENELMERCADO1993=0

EMPRESAUNIPERSONAL

NUEVOSPRODUCTOACTIVIDADESINNOVACION=SI TIPOEMPRESA=COMANDITA TIPOEMPRESA=SUCURSALEXTRAJERA TIPOEMPRESA=UNIPERSONAL NUEVOSPRODUCTOSENELMERCADO1993=1 TIPOEMPRESA=INDUSTRIAL TIPOEMPRESA=ANONIMA NUEVOPRODUCTOPROCESOINNOVACION=NO TIPOEMPRESA=SOCIEDADCOLECTIVA Figura 4. Red de dependencias Fuente: Giraldo, 2009 TIPOEMPRESA=SINANIMOLUCRO TIPOEMPRESA=COMANDITAPORACCIONES

NUEVOPRODUCTOPROCESOINNOVACION=NO

Conclusiones
La tcnica de Asociacin se caracteriz por ser la que se presenta como una de las ms aplicadas en la bsqueda de reglas de asociacin, adems de que se encuentra implementada en diferentes herramientas de software libre y licenciado.

La aplicacin de esta tcnica en el proyecto de investigacin Descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las encuestas de innovacin y desarrollo tecnolgico, ha permitido generar resultados, y en ellos datos interesantes que indican el estado en que se encuentra nuestro pas en materia de innovacin, investigacin y desarrollo de nuevas tecnologas.

45

Aplicacin de la tcnica de asociacin de la minera de datos en un caso de investigacin

En este modelo se visualizan los objetos y se resaltan los que generan los grafos o redes de dependencias, las reglas de asociacin, que muestran los patrones o elementos interesantes entre variables, e indican las probabilidades relacionadas con el objeto en estudio. Se resalta que la bsqueda en bases de datos es compleja, en el sentido de que no es posible partir de una hiptesis, sin embargo, restringindose a un subconjunto de datos por medio de la utilizacin de la tcnica de minera de datos denominada Reglas de Asociacin, se puede obtener informacin de presunta relacin entre ellos.

Methods in mems Design (conferencia, mayo 21),


memstech 2008, International Conferencee, iiee.

Luo, Q. (2008), Advancing Knowledge Discovery and Data Mining, en Knowledge Discovery and Data Mining, wkdd 2008, First International Workshop on, pp. 3-5. Lutfi, M.; Aris, I.; Abdullah, S.M.; Ali, M.L. y Othman, M.R. (2010), Knowledge Discovery in Distance Relay Event Report: A Comparative Data-Mining Strategy of Rough Set Theory With Decision Tree, en Power Delivery, ieee Transactions on, vol. 25, nm. 4, pp. 2264-2287. Prez, C. y Santn, D. (2007), Minera de datos, tcnicas y herramientas, Espaa, Thomson Paraninfo S.A. Rajagopalan, B. y Isken, M.W. (2001), Exploiting data preparation to enhance mining and knowledge discovery, Systems, Man, and Cybernetics, Part C: Applications and Reviews, en ieee Transactions on, vol. 31, nm. 4, pp. 460-467. Ramaswamy, S.; Mahajan, S. y Silberschatz, A. (1998), On the discovery of interesting patterns in association rules, en Proc. 1998 Int. Conf Very Large Databases (vldb98), pp. 368-379. Rennolls, K. (2005), An intelligent framework (o-sse) for data mining, knowledge discovery and business intelligence, Database and Expert Systems Applications, 2005. Proceedings, en Sixteenth International Workshop on, pgs. 22-26, 715-719. Robledo, J. (2007), Descubrimiento de conocimiento sobre la innovacin en Colombia a partir de las Encuestas de Innovacin y Desarrollo Tecnolgico, la Encuesta Anual Manufacturera y la base de datos ScienTI, Bogot, Universidad Nacional de Colombia. Rosete-Surez, A.; Acosta, R. y Rodrguez. A. (2009) Prediccin de pacientes diabticos, preprocesado de minera de datos, en Revista Electrnica Cubana de Informtica Mdica [en lnea], disponible en: http://www.rcim.sld.cu/revista_18/ articulos_htm/prediccionpaciente.htm, recuperado: 20 de agosto del 2011.

Referencias
Adomavicius, G. y Bockstedt, J. (2008), c-trend: Temporal Cluster Graphs for Identifying and Visualizing Trends in Multiattribute Transactional Data, en Knowledge and Data Engineering, IEEE Transactions on, vol. 20, nm. 6, pp. 721-735. Agrawal, R., Imielinski, T. y Swami, A. (1993), Minera de reglas de asociacin entre los conjuntos de productos en grandes bases de datos, en Actas de 1993 acm Internacional sigmod, Conferencia sigmod, Washington, D.C, pp. 207-216 [en lnea], disponible en: http://dl.acm.org/citation. cfm?doid=170035.170072, recuperado: 12 de septiembre del 2011.
Revista Nacional de Investigacin - Memorias Volumen 10, Nmero 18 / julio-diciembre del 2012

Fica, E. (2011), Data Mining, concepto bit de la semana, Chile, Facultad de Ingeniera e Informacin, Universidad de Chile. Giraldo, J. (2009), Caracterizacin de algunas tcnicas algortmicas de la inteligencia artificial para el descubrimiento de asociaciones entre variables y su aplicacin en un caso de investigacin especfico (tesis de maestra), Medelln, Universidad Nacional de Colombia, Facultad de Minas. Lobur, M.; Stekh, Yu.; Kernytskyy, A. y Sardieh, F.M.E. (2008), Some trends in Knowledge Discovery and Data Mining, Perspective Technologies and

46

Das könnte Ihnen auch gefallen