Beruflich Dokumente
Kultur Dokumente
Resumen
I. INTRODUCCIN
La informatizacin de las empresas, organizaciones e
instituciones ha generado un gran incremento de la
informacin almacenada en las bases de datos, la cual es de
gran utilidad cuando se quiere explicar el pasado, entender el
presente y predecir la informacin futura, por lo que se hace
necesario analizar la misma para la obtencin de informacin
til para la organizacin.
Anteriormente estos anlisis se realizaban manualmente
mediante tcnicas estadsticas, sin embargo esta forma de
actuar es lenta, cara, altamente subjetiva y con el incremento
del volumen de datos es prcticamente imposible el anlisis sin
la ayuda de herramientas o tcnicas potentes.
Una de las tcnicas ms usadas para obtener conocimiento
analizando los datos presentes en las bases de datos es la
minera de datos, que permite obtener patrones o modelos a
partir de los datos recopilados. Esta tcnica se aplica en todo
tipo de entornos, como por ejemplo en la rama biolgica, en
aplicaciones educacionales, financieras, procesos industriales,
policiales y polticas.
Dentro de la minera de datos existen diversas tcnicas
entre las cuales se encuentran la de induccin de reglas y
rboles de decisin, las cuales segn
diversos estudios
realizados se encuentran entre las ms utilizadas. (Moreno,
2007) (Heughes Escobar, 2007)
Para la aplicacin de estas tcnicas existen numerosas
herramientas independientes del sistema gestor de bases de
datos que permiten aplicarlas a grandes volmenes de datos,
sin embargo, la mayora de stas son propietarias como SPSS
Clementine, SAS Enterprise Miner y MATLAB las cuales no
estn al alcance de las organizaciones cubanas ya que son
altamente costosas y otras como WEKA o YALE Rapid Miner
TCA2012
TCA2012
TCA2012
Las tablas creadas por la funcin tendrn como nombre la
concatenacin de mster ms el antiguo nombre de la tabla
para el caso de la tabla padre y para las hijas es la
concatenacin del antiguo nombre de la tabla ms el valor de
la clase por la cual se creo la particin.
TCA2012
deliberadamente una o ms variables independientes
(supuestas causas) para analizar las consecuencias que la
manipulacin tiene sobre una o ms variables dependientes
(supuestos efectos), dentro de una situacin de control para el
investigador". (Martnez Valenzuela, 2007)
El primer paso para disear un experimento es definir las
variables independientes y las variables dependientes.
La variable independiente es aquella que identifica la
causa en una relacin entre variables y la dependiente expresa
el efecto que puede causar una variacin en la variable
independiente.
En este caso se definieron como variables independientes
la cantidad de registro y la herramienta utilizada para aplicar la
minera de datos. Como variables dependiente se identificaron
el tiempo de respuesta y el resultado de los algoritmos.
Luego de haber definido las variables se define la
operacionalizacin o definicin operacional que es especificar
la manera en que se manipularn las variables independientes,
es decir qu se va a entender por esa variable en el
experimento.
Los niveles de la variable cantidad de registro sern bajos,
medios y altos. En el primer caso las tablas a analizar tendrn
una cantidad total de 100002 registros, en el segundo 500000
y en el tercer caso 1 000000.
En la variable herramienta las modalidades son Weka y
PostgreSQL donde en el primer caso se realizarn los anlisis
de los algoritmos mediante el uso de la herramienta Weka y en
el segundo caso se utilizar los algoritmos integrados al SGBD
PostgreSQL desarrollados por el autor de la investigacin.
El cuarto paso es definir cmo se van a medir las variables
dependientes.la variables del tiempo de respuesta se va a
medir por intervalos de tiempo en segundos y en el caso de
los resultados del algoritmo en grado de acuerdos (si o no).
Para un mejor entendimiento del diseo del experimento se
resume en las tablas 1 y 2 la definicin operacional.
Tabla 1: Operacionalizacin de las variables
independientes.
TCA2012
TCA2012
SGBD PostgreSQL lo que contribuye a la soberana
tecnolgica del pas y a que el gestor sea ms competitivo.
En la investigacin tambin se desarroll una funcin que
permite aprovechar uno de los mecanismos de optimizacin
del gestor para mejorar los resultados de respuesta del los
algoritmos implementados.
Se realiz la validacin de los algoritmos implementados
utilizando un diseo de experimento en el cual se observ que
los tiempos de anlisis de los algoritmos integrados al SGBD
son menores que los resultados de la herramienta Weka.
REFERENCIAS
Chesevar, C. I. (2009). Datamining y aprendizaje
automatizado. Obtenido de
http://cs.uns.edu.ar/~cic/dm2009/downloads/transparencias/05
_dm%20(Learning_rules).pdf
Heughes Escobar, V. (2007). Minera Web de Uso y perfiles
de Usuario:Aplicaciones con Lgica Difusa. Tesis de
Doctorado .
HOLTE, R. C. (1993). Very Simple Classification Rules
Perform Well on Most Commonly Used Datasets. Machine
Learning .
Martnez Valenzuela, V. (octubre de 2007). Diseo
Experimental. Obtenido de
http://www.slideshare.net/hayimemaishte/diseo-experimental