Beruflich Dokumente
Kultur Dokumente
PROYECTO INTEGRADOR 11
SISTEMAS INFORMATICOS
PARALELO U
INTEGRANTES:
QUEVEDO 2016-2017
Contenido
PORTADA..................................................................................................................................1
RESUMEN EJECUTIVO..........................................................................................................3
INTRODUCCIN.-...................................................................................................................4
PROBLEMATIZACIN.-------------------------------------------------------------------------------------- 5
DIAGNOSTICO.------------------------------------------------------------------------------------------------- 5
SISTEMATIZACIN.------------------------------------------------------------------------------------------ 5
JUSTIFICACIN......................................................................................................................6
1.- OBJETIVOS..........................................................................................................................7
1.1.- GENERAL-------------------------------------------------------------------------------------------------- 7
1.2.- ESPECIFICO----------------------------------------------------------------------------------------------- 7
Referencias...................................................................................................................................8
KERNEL---------------------------------------------------------------------------------------------------------- 9
SVMs.................................................................................................................................15
Rapid Miner---------------------------------------------------------------------------------------------------- 26
KNIME----------------------------------------------------------------------------------------------------------- 28
Orange----------------------------------------------------------------------------------------------------------- 31
WEKA------------------------------------------------------------------------------------------------------------ 33
CONCLUSIONES--------------------------------------------------------------------------------------------- 34
RESUMEN EJECUTIVO
Por ello en presente proyecto se investigar de manera minuciosa y detallada el uso del
Mtodo De Mquinas Vectoriales De Soporte.
INTRODUCCIN. -
Las tareas de clasificacin en los procesos productivos, muy a menudo son efectuadas
por personas que han sido capacitadas y entrenadas. Por lo general estas tareas se
convierten en montonas y repetitivas, causando fatiga y reflejndose en la prdida del
criterio de clasificacin.
Dentro del concepto de aprendizaje supervisado existen diferentes algoritmos que parten
de planteamientos lgicos y matemticos distintos, siendo quizs el ms empleado el de
las redes neuronales que simulan la sinapsis del cerebro. En este caso se emplear el de
las mquinas de soporte vectorial (SVM, del ingls support vector machine) tipo
clasificacin.
PROBLEMATIZACIN: DIAGNSTICO, FORMULACIN Y
SISTEMATIZACIN DEL PROBLEMA.
PROBLEMATIZACIN. -
Al manejar gran volumen de Datos y almacenarlos resulta difcil que se han procesadas
y utilizadas de forma correcta y que se trabaje con ella de una forma rpida y ptima.
DIAGNOSTICO. -
Existen diferentes mtodos para el tratamiento de la Minera de Datos y el De Mquinas
Vectoriales De Soporte ofrece con su particularidad mostrarnos los Datos de una forma
minimizada y paralela.
SISTEMATIZACIN. -
Basndonos desde de la Minera de Datos y complementando con la inteligencia
Artificial se realizar un Estudio y Anlisis del Mtodo escogido en nuestro proyecto el
mismo que dar por escoger los procedimiento ms sencillos y rpidos para el
tratamiento de los Datos.
JUSTIFICACIN
Los Datos necesitan ser el capital ms importante en cualquier mbito es por ello que
nace la necesidad de crear diferentes ramas de la Investigacin basndose en la Minera
de Datos y sus diferentes metodologas aplicarlas cada una ella est enfocada a un
determinado tipo de informacin en este caso, investigaremos al Mtodo de Maquinas
Vectoriales de Soporte Las SVM son mquinas de aprendizaje que utilizan el mtodo de
los vectores soporte (Support Vector o SV), este es un mtodo general para la resolucin
de problemas de clasificacin , y regresin .
Cuyos mtodos tiene una sola finalidad simplificar el proceso de la utilizacin de datos,
dando importancia que se merece a cada uno de ellos ya que para su compresin y
utilizacin deben estar clasificados segn la rama que representan para poder aplicar la
herramientas y mtodo para ser aplicados.
1.2.- ESPECIFICO
Estudiar las ventajas e inconvenientes del empleo de SVM para el
reconocimiento y clasificacin.
Evaluar si resulta aplicable el mtodo de las SVM en la Minera de Datos.
Investigar las formas de representar los Datos con SVM.
Puede visualizarse tambin como un proceso analtico, diseado para explorar grandes
cantidades de datos, con el objetivo de encontrar relaciones entre las diferentes
variables, para aplicarlas a nuevos conjuntos de datos.
Referencias
MICROSOFT. (2016). MSDN. Obtenido de https://msdn.microsoft.com/es-
es/library/dn282377(v=sql.120).aspx
KERNEL
Las funciones kernel son funciones matemticas que se emplean en las Mquinas de
Soporte Vectorial. Estas funciones son las que le permiten convertir lo que sera un
problema de clasificacin no-lineal en el espacio dimensional original, a un sencillo
Seleccin problema de clasificacin lineal en un espacio dimensional mayor.
REFERENCIA: RESENDIZ, J. A. Las Mquinas de Soporte Vectorial para
identificacin en Lnea. Maestra, Control Automtico. Instituto Politcnico Nacional,
2006.
Interpretacin / Evaluacin
Minera de Datos
Transformacin
Preprocesado
Qu podramos afirmar si x vale 3?5 o 1.3? y si vale 3.6 o 1.2? Este razonamiento
lleva a usar lgicas distintas de la clsica como son la lgica borrosa o difusa (fuzzy) o
los menos conocidos rough sets. Relacionado con esto aparece un ltimo concepto:
softcomputing, para referirse al conjunto de tcnicas computacionales (lgica borrosa,
razonamiento probabilstico, algoritmos evolutivos,) que posibilitan las herramientas de
aprendizaje.
Softcomputing se refiere a la caracterstica de imprecisin o incertidumbre que
acompaa por su propia naturaleza al concepto de MD. Todos los conceptos
presentados en esta seccin (modelo, tipo de datos, lgica, funcin de bondad y tcnica
de bsqueda) convenientemente hibridizados han dado lugar a infinidad de
metodologas en MD. As es fcil encontrar referencias a redes neuronales borrosas
para datos numricos entrenadas mediante algoritmos evolutivos, clustering mediante
rough sets aplicando una bsqueda dispersa, definicin de una mtrica para bsqueda
tab de reglas que clasifiquen texto, etc.
[ CITATION UNE \l 12298 ]
Ffigura 3
Para tener un panorama claro de cmo las elecciones posibles de hiperplanos diferentes
afectan los errores de generalizacin, consideremos los dos lmites de decisin, B1 y B2
mostrados en la figura 4.
b21 B2 b22
b11 B1 b12
Figura 4
Ambos lmites de decisin pueden separar los ejemplos de entrenamiento en sus clases
respectivas sin cometer ningn error de mala clasificacin. Cada lmite de decisin Bi
est asociado con un par de hiperplanos, denotados como bi1 y bi2, respectivamente.
El hiperplano bi1 se obtiene moviendo un hiperplano paralelo lejos del lmite de decisin
hasta que toca el/los cuadrados/s ms cercano/s mientras que bi2 se obtiene moviendo el
hiperplano hasta que toca a l/los crculos/s ms cercano/s.
La distancia entre estos dos hiperplanos es conocido como el margen del clasificador.
Desde el diagrama mostrado en la figura 4, observe que el margen para B1 es
considerablemente mayor que para B2. En este ejemplo B1, llega a ser el margen mximo
del hiperplano para los ejemplos de entrenamiento.
Los lmites de decisin con mrgenes grandes tienden a tener menores errores de
generalizacin que aquellos con mrgenes pequeos. Intuitivamente, si el margen es
pequeo, entonces cualquier leve perturbacin del lmite de decisin puede tener un
impacto significativo en su clasificacin. Los clasificadores que producen lmites de
decisin con pequeos mrgenes son por lo tanto ms susceptibles de modelar sobre
ajustadamente y tienden a una generalizacin pobre en ejemplos no vistos previamente.
Un clasificador que cumple este requerimiento son las Mquinas de Vectores Soporte.
Las Mquinas Lineales de Vectores Soporte son una tcnica de clasificacin que busca
un hiperplano separador con el mayor margen.
El lmite de decisin del clasificador lineal puede ser escrito de la siguiente forma
wx+b=0 (1.3)
wx+b=0
x1 x 2
d
x1
x2 w
wx+b=1
wx+b=-1
Figura 5
Ningn ejemplo debe estar colocado a lo largo del lmite de decisin, es decir, satisfacer
la ecuacin 1.3.
Para cualquier cuadrado xs ubicado por encima del lmite de decisin, tenemos que
w xs + b = k, (1.4)
donde k > 0. Del mismo modo, para cualquier circulo xc ubicado por debajo del lmite
de decisin, podemos afirmar que
w xc + b = k, (1.5)
donde k < 0, Si denominamos a todos los cuadrados como clase +1 y a todos los
crculos como clase 1, entonces podemos predecir la denominacin de clase y para
cualquier ejemplo de prueba z de la siguiente manera:
(1.6)
Podemos obtener los parmetros w y b del lmite de decisin de manera que los dos
hiperplanos paralelos bi1 y bi2 puedan ser expresados como sigue
(1.7)
El margen del lmite de decisin est dado por la distancia entre estos dos hiperplanos.
Los parmetros deben ser elegidos de tal manera que sean cumplidas las siguientes
condiciones
(1.9)
(1.10)
(1.11)
DEFINICIN. La tarea de aprendizaje con las SVM puede ser formalizada como el
siguiente problema de optimizacin con restricciones:
sujeto a
Como la funcin objetivo es cuadrtica y las restricciones son lineales en los parmetros
w y b, puede ser resuelto usando el mtodo de multiplicadores de Lagrange.
Primero debemos rescribir la funcin objetivo de forma que incluya las restricciones
impuestas a la solucin. La nueva funcin objetivo es conocida como Lagrangiano
(1.12)
Es fcil mostrar que la funcin objetivo original dada en la ecuacin 1.11 es minimizada
cuando w = 0, un vector nulo cuyos componentes son todos ceros. Esta solucin, viola
(1.13)
(1.14)
(1.17)
Las diferencias claves entre los Lagrangianos primal (original) y dual son las siguientes:
Para conjuntos de datos grandes el problema de optimizacin dual puede ser resuelto
usando tcnicas numricas tales como programacin no lineal. Una vez que las i`s sean
encontradas, podemos usar la ecuacin 1.13 y 1.14 para obtener posibles soluciones
para w y b. El lmite de decisin puede ser expresado como sigue
(1.18)
El valor b se obtiene resolviendo la ecuacin 1.16 para los vectores soporte. Puesto que
las is se calculan numricamente y pueden tener errores numricos, el valor computado
para b puede no ser nico, y depende del vector soporte usado en la ecuacin 1.16. En la
prctica, el valor promedio para b es elegido para ser el parmetro del lmite de
decisin.
Una vez que los parmetros del lmite de decisin sean encontrados, un caso de prueba z
se clasifica como sigue:
Muestra un conjunto de datos que es similar a la figura 4, excepto que tiene dos nuevos
ejemplos, P y Q. Mientras que el lmite de decisin B1 no clasifica a los nuevos
ejemplos, B2 los clasifica correctamente, esto no significa que B2 es un lmite de
decisin mejor que B1 porque los nuevos ejemplos tal vez correspondan al ruido en los
datos de entrenamiento. B1 todava debera ser preferido por encima del B2 porque tiene
un margen ms ancho, y de este modo, es menos susceptible a sobreajustes.
b21 B2 b22
b11 B1 b12
El mtodo que presentamos en esta seccin, conocido como el enfoque del margen
suavizado (soft-margin), permite a las SVM construir un lmite de decisin lineal en
situaciones donde las clases no son linealmente separables, tolerando errores de
entrenamiento menores. Para hacer esto, el algoritmo de aprendizaje de las SVM debe
considerar la contrapartida entre el ancho del margen y el nmero de errores de
entrenamiento cometidos por el lmite de decisin lineal.
(1.19)
donde
Figura 8
Para evitar este problema, la funcin objetivo debe ser modificada para penalizar el
lmite de decisin para grandes valores de sus variables de holgura. La funcin objetivo
modificada est dada por la siguiente ecuacin:
(1.21)
(1.22)
=0 (1.23)
(1.24)
(1.25)
(1.26)
(1.27)
El mismo tiende a ser idntico al Lagrangiano dual para casos linealmente separables
(ver ecuacin 1.17).
Sin embargo, las restricciones impuestas a los multiplicadores de Lagrange i`s son
ligeramente diferentes que para los conjuntos separables linealmente. Los
multiplicadores de Lagrange deben cumplir la condicin de ser no negativos, . Y
adems la ecuacin 1.26 indica que i no debe exceder C (considerados no
negativos). Por tanto, los multiplicadores de Lagrange para datos conjuntos no
separables linealmente son restringidos a .
Seguidamente presentamos una metodologa para aplicar las SVM a conjuntos de datos
que tienen un lmite de decisin no lineal. El truco aqu es transformar los datos de su
espacio de coordenadas original x a un nuevo espacio (x) de modo que el lmite de
decisin lineal pueda ser usado para separar los casos en el espacio transformado.
Despus de hacer la transformacin, podemos aplicar las metodologas para Mquinas
Lineales de Vectores Soporte.
Figura 10
Una dificultad potencial con este mtodo es el que puede acarrear la denominada
maldicin de la dimensin, frecuente en el manejo de datos de grandes dimensiones.
Las Mquinas No lineales de Vectores Soporte evitan este problema usando el mtodo
conocido como truco kernel.
Para ilustrar estos aspectos y examinar las maneras en que pueden ser abordados
podemos asumir que existe una funcin apropiada, (x), para transformar un conjunto
de datos previstos.
Despus de la transformacin, necesitamos construir un lmite de decisin lineal que
separe los casos es sus respectivas clases. El lmite de decisin lineal en el espacio
transformado tiene la siguiente forma w.(x) + b = 0.
sujeto a
La principal diferencia con las Mquinas Lineales de Vectores Soporte es, que en vez de
usar los atributos originales x, se utilizan los atributos transformados .
(1.30)
Una vez obtenidas las usando tcnicas de programacin no lineal, los parmetros w
y b pueden ser encontrados usando las siguientes ecuaciones:
(1.31)
(1.32)
Las cuales son anlogas a las ecuaciones 1.13 y 1.16 de las Mquinas Lineales de
Vectores Soporte. Finalmente, un caso de prueba z se puede clasificar utilizando la
siguiente ecuacin:
(1.33)
Salvo la ecuacin 1.31, podemos notar que los dems clculos (ecuaciones 1.32 y 1.33)
requieren el clculo de producto escalar de pares de vectores en el espacio transformado
. Tales clculos pueden ser bastante engorrosos y acarrear dificultades
propias de la alta dimensin de un problema.
Una solucin a este problema es el mtodo conocido como truco kernel o ncleo.
TRUCO KERNEL
El producto escalar es a menudo considerado como una medida de similitud entre dos
vectores dados. Anlogamente, el punto escalar (xi) (xj), tambin puede ser
considerado como una medida de similitud entre dos casos, xi y xj en el espacio
transformado.
(1.34)
Este anlisis muestra que el producto escalar en el espacio transformado puede ser
expresado en trminos de una funcin de similitud en el espacio original.
(1.35)
El Teorema de Mercer demuestra que las funciones kernel pueden ser siempre
expresadas como el producto escalar entre dos vectores dados en algn espacio
altamente dimensional. El espacio transformado mediante funciones Kernel de
Mquinas No Lineales de Vectores Soporte, es llamado
La figura 11 muestra un lmite de decisin no lineal obtenido mediante las SVM, usando
la funcin kernel polinomial dada en la ecuacin 1.35. Un caso de prueba x es
clasificada de acuerdo a la siguiente ecuacin:
(1.36)
0,8
0,6
0,4
0 ,2
Figura 11
El requisito principal para que la funcin kernel pueda ser usada con Mquinas No
Lineales de Vectores Soporte, es que debe existir una transformacin tal que la funcin
kernel calculada para un par de vectores sea equivalente al producto escalar entre esos
vectores en el espacio transformado y viceversa. Este requisito puede ser formalmente
planteado mediante el teorema de Mercer.
si y solo si, para cualquier funcin g(x) tal que es finita, entonces.
Las funciones kernel que satisfacen el Teorema de Mercer son llamadas funciones
kernel positivo definidas. Ejemplos de estas funciones se listan a continuacin:
. Funcin kernel polinomial (1.38)
(1.39)
(1.40)
ellos.
XLMiner
Realizacin de predicciones.
Redes neuronales.
Posee un buen manual que se encuentra dentro de la seccin ayuda, que describe
los distintos mtodos y parmetros.
Existen muchos videos tutoriales para los distintos mtodos que indican paso a
paso qu se necesita hacer.
Se debe pagar por tener acceso a la versin que no limita el tamao de la base de
datos.
http://www.solver.com/xlminer/
Matlab
MATLAB (abreviatura de MATrix LABoratory) es un entorno de
computacin y desarrollo de aplicaciones totalmente integrado
orientado para llevar a cabo proyectos en donde se encuentren
implicados elevados clculos matemticos y la visualizacin
grfica de los mismos.
Las redes neuronales son herramientas de gran alcance en situaciones donde sera difcil
o imposible el anlisis formal, por ejemplo, el reconocimiento de patrones y la
identificacin y el control no lineal del sistema. La Neuronal Network Toolbox tambin
proporciona una interfaz grfica que permite disear y manejar las redes que el usuario
desee. El diseo modular, abierto, y extensible de la Neuronal Network Toolbox
simplifica la creacin de funciones y de redes. En resumen, como principales
caractersticas presenta:
Finalmente, se trata de un programa comercial por lo que para su uso se ha de pagar una
licencia. Para obtener ms informacin sobre MATLAB se puede acceder a la pgina
oficial de esta herramienta:
http://www.mathworks.es/products/matlab/
IBM SPSS es una empresa reconocida como lder en anlisis predictivo. Sus
aplicaciones tienen una buena visibilidad y fuerza de ventas en el mercado y es
considerada por algunos expertos como uno de los mejores proveedores de software de
minera de datos.
Con IBM SPSS Modeler se puede visualizar grficamente el proceso llevado a cabo, as
como crear nuevas funciones que se aaden a las ya implementadas. Adems, se provee
de una serie de mdulos que permiten realizar un anlisis de minera de datos con
grandes volmenes de datos.
http://www-01.ibm.com/software/analytics/spss/products/modeler/
para grandes volmenes de datos. Ofrece una sencilla interfaz grfica que integra el
conjunto de herramientas necesario para la toma de decisiones.
Un entorno dinmico e interactivo que est optimizado para visualizar los datos
y comprender sus relaciones.
Ofrece uno de los conjuntos ms completos de algoritmos avanzados de
modelado predictivo y descriptivo, incluyendo rboles de decisin, splines de
regresin, redes neuronales, regresin lineal y logstica, regresin por mnimos
cuadrados parciales, y muchos ms. Tambin se incluyen modelos especficos de
la industria tales como la puntuacin de crdito y ratemaking para el seguro.
En resumen, se trata de una de las herramientas con ms potencia del mercado desde el
punto de vista de trabajar con grandes bases de datos; sin embargo, contrasta con el alto
precio que se ha de pagar por su licencia.
http://www.sas.com/technologies/analytics/datamining/miner/
Salford Systems Data Mining
http://www.salfordsystems.com/
ODM ofrece dos versiones, una en la que a travs de una interfaz grfica los usuarios
podrn aplicar las tcnicas de mineras de datos que consideren necesarias y una versin
en la que los desarrolladores podrn utilizar la API de SQP para crear aplicaciones a
medida.
http://www.oracle.com/products/database/options/advancedanalytics/index.html
Rapid Miner
Es multiplataforma.
A travs de un GUI.
En lnea de comandos.
En batch (lotes)
Extensible.
Adems, esta aplicacin ofrece ms de 500 operadores para todos los principales
procedimientos de mquina de aprendizaje, y tambin combina esquemas de
http://rapidi.com/content/view/181/190/
KNIME
KNIME ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberas de
datos, ejecutar selectivamente algunos o todos los pasos de anlisis, y luego estudiar los
resultados, modelos y vistas interactivas.
Para ello, KNIME proporciona distintos nodos agrupados en fichas, como, por ejemplo:
Por otro lado, a travs de plugins, los usuarios pueden aadir mdulos de texto,
imgenes, procesamiento de series de tiempo y la integracin de varios proyectos de
cdigo abierto, tales como el lenguaje de programacin R, WEKA, el kit de desarrollo
de Qumica y LIBSVM.
http://www.knime.org/
Rattle: que ofrece al usuario una interfaz grfica para aplicar tcnicas de minera
de datos a grandes bases de datos.
Interfaz de Rattle
Caret: que, ms all de integrar diversos algoritmos, incluye funciones auxiliares
tiles para seleccionar modelos, comparar la importancia de funciones, realizar
validaciones cruzadas, etc., utilizando una sintaxis coherente y homognea.
http://www.rproject.org/.
Orange
http://orange.biolab.si/.
WEKA
WEKA, acrnimo de Waikato Environment for
Knowledge Analysis, es un conjunto de libreras JAVA
para la extraccin de conocimiento desde bases de datos.
Est constituido por una serie de paquetes de cdigo
abierto con diferentes tcnicas de preprocesado, clasificacin, agrupamiento, asociacin
y visualizacin.
: http://www.cs.waikato.ac.nz/ml/weka/.
Introduccin a WEKA
Introduccin
El potencial usuario podr descargar e instalar WEKA siguiendo las directrices del
manual de referencia. Una vez la instalacin se haya realizado de forma correcta podr
acceder a la herramienta cuya interfaz de inicio se muestra a continuacin:
WEKA utiliza un formato de datos denominado arff (Attribute Relation File Format).
donde se tendr una lnea para cada registro, los valores estarn separados por comas
y los valores perdidos se representan mediante el carcter?
Simple CLI
Pestaa Preprocces
Esta es la primera pestaa de la aplicacin y es imprescindible para realizar cualquier
tipo de anlisis pues es en ella donde introduciremos los datos con los que vamos a
trabajar, bien a travs de un fichero (Open file), bien a travs de una url (Open URL),
bases de datos (Open Database) o bien introduciendo la informacin directamente en la
aplicacin (Generate)
(Selected attribute)
Por otro lado, las herramientas de preprocesamiento se denominan filtro (Filter) y cada
filtro acta en uno de los siguientes niveles:
Para visualizar los filtros bastara pulsar el botn Choose dentro de la seccin Filter. Es
ah donde seleccionaremos que filtro utilizar en funcin de nuestro objetivo. Los filtros
se dividen en:
Pestaa Classify
En esta pestaa se podr definir y resolver un problema de clasificacin. Puede ocurrir
que, en ocasiones, el problema de clasificacin se formule como un refinamiento en el
anlisis, una vez que se han aplicado algoritmos no supervisados de agrupamiento y
asociacin para describir relaciones de inters en los datos.
Al pulsar sobre la pestaa aparece por defecto el clasificador ZeroR, si bien podr
seleccionarse otro pulsando el botn Choose.
Use training set: En esta opcin se entrenar el mtodo con todos los datos
disponibles y luego se aplicar sobre los mismos.
Pestaa Cluster
WEKA ofrece distintas posibilidades de aplicar algoritmos de clustering (o
clasificacin no supervisada) sobre los datos. Las tcnicas de clustering se utilizan en
bases de datos no supervisadas en las que la variable clase no existe (o no se ha
definido). As pues, el objetivo fundamental de esta tcnica es descubrir (class
discovery) dichas clases o estructuras diferenciadas en los datos de estudio. El
programa WEKA ofrece en la pestaa Cluster varios algoritmos de cluster, entre ellos
el de Kmedias y el EM.
Pestaa Cluster
Pestaa Associate
En esta pestaa el usuario podr realizar diferentes algoritmos de asociacin. Estos
algoritmos permiten la bsqueda automtica de reglas que relacionan conjuntos de
atributos entre s. Son algoritmos no supervisados, en el sentido de que no existen
relaciones conocidas a priori con las que contrastar la validez de los resultados, sino
que se evala si esas reglas son estadsticamente significativas.
Pestaa Associate
Una vez seleccionado alguno de estos mtodos podremos determinar la forma en que
seleccionaran los atributos (usando un conjunto completo de entrenamiento o mediante
validacin cruzada) en la seccin Attribute Selection Mode.
Finalmente pulsando sobre cada grfico podemos verlo ampliado y modificar sus
atributos a travs de las opciones que existen al respecto, as como guardar en un
fichero arff los datos all visualizados.
Experimenter
Se trata de otra de las herramientas que aparecen en la interfaz inicial de WEKA y con
ella trataremos de comparar el rendimiento de los distintos algoritmos implementados
en la aplicacin. Adems, permite aplicar diferentes algoritmos sobre diferentes
conjuntos de datos, lo que resulta muy til para realizar contrastes de hiptesis o
elaborar indicadores estadsticos; resultando de gran importancia en problemas de
clasificacin y regresin.
Al acceder a esta herramienta se visualizan, en la parte superior, tres pestaas que
analizamos a continuacin:
Pestaa Setup
En ella, Experimenter se puede configurar de dos formas, Simple o Advanced:
Configuracin Simple:
Es la configuracin que aparece por defecto cuando se pulsa la pestaa
Experimenter. En ella habr que definir un fichero configuracin que contendr
todos los ajustes, ficheros involucrados, notas, etc, pertenecientes al experimento y
un fichero de salida donde se guardarn los resultados.
Configuracin Advanced:
Esta configuracin est orientada a realizar tareas especficas ms concretas que
las obtenidas a travs de un experimento sencillo. A travs de esta opcin es
posible repetir el experimento variando el tamao del conjunto de datos, distribuir
la ejecucin del experimento entre varios ordenadores o realizar experimentos de
modo incremental.
Pestaa Run
En esta pestaa el usuario ejecutar o detendr el experimento. En la seccin Log
aparecer cierta informacin sobre el proceso de ejecucin (hora de inicio, finalizacin,
posibles errores, etc.)
Pestaa Run
Pestaa Analyse
En esta pestaa analizaremos los datos; es decir, podremos ver los resultados de los
experimentos, realizar contrastes estadsticos, etc.
Pestaa Analyse
Una vez seleccionados, en la seccin Source, los datos de los resultados (pulsando File,
Database o Experiment) se define el test que queremos realizar en la seccin
Configure test; que tendr como opciones:
Row: Define los atributos que actuarn como filas en la matriz de resultados.
Sorting (asc.) by: Obtener los resultados ordenados de forma ascendente segn
un atributo.
KnowledgeFlow
Interfaz de KnowledgeFlow
En la parte superior de la pantalla aparecen un conjunto de pestaas:
Para aadir las especificaciones de cada uno de los elementos que hayamos introducido
en el panel de trabajo habr que hacer doble click sobre cada uno de ellos. Ahora bien,
si queremos conectar dos elementos de ese panel de trabajo nos situaramos sobre uno
de ellos y haciendo click con el botn derecho del ratn estableceremos la orden que
vamos a realizar y grficamente seleccionaremos sobre qu elemento vamos a
aplicarlo.
Una vez que hemos introducido el fichero con el que vamos a trabajar en el elemento
Arff Loader y dejado por defecto la configuracin de CrossValidation conectamos
ambos elementos pulsando el botn derecho sobre el elemento Arff Loader y
seleccionamos Dataset y seguidamente lo asignamos a CrossValidation. Este proceso
se visualiza en la siguiente imagen:
Interfaz de KnowledgeFlow una vez introducidos dos elementos
Siguiendo este proceso podremos construir un proceso completo y finalmente, si
queremos ejecutar el experimenter seleccionaremos la opcin Start Loading en
ArffLoader tal que al ejecutarse podremos ver los resultados obtenidos en cualquiera
de los dos visores finales.
a) rea Visualization:
b) rea Evaluation:
CONCLUSIONES
La minera de datos es el proceso de exploracin, anlisis, extraccin y refinamiento de
grandes volmenes de informacin de manera automatizada, con el fin de descubrir
conocimiento, es decir informacin que ayude a la toma de decisiones. El conocimiento
es descubierto con la aplicacin de tcnicas de minera de datos que permiten revelar
modelos en los datos tomando en cuenta patrones esenciales que ayuden a cumplir con
la meta de la minera de datos
La meta del proyecto es al aplicar el proceso de minera de datos se busca que a partir
de un conjunto de datos se descubran uno o varios modelos que determinen los perfiles
profesionales mediante la aplicacin de tcnicas de minera de datos. Los datos se los ha
recopilado enfocados de dos formas: datos cualitativos y cuantitativos. Los datos
cuantitativos engloban los datos que se pueden aplicar como datos de una empresa,
mientras que los datos cualitativos correspondes a los obtenidos de un test que se ha
desarrollado para obtener los intereses, las capacidades, habilidades e inters de cada
uno.