Sie sind auf Seite 1von 75

PORTADA

UNIVERSIDAD TECNICA ESTATAL DE QUEVEDO

PROYECTO INTEGRADOR 11

SISTEMAS INFORMATICOS

PARALELO U

TEMA: ANLISIS DE MINERA DE DATOS PREDICTIVA BASADO


EN EL MTODO DE MQUINAS VECTORIALES DE SOPORTE

INTEGRANTES:

TOLAMBO VELASCO EDGAR ROLANDO

QUEVEDO 2016-2017

Contenido
PORTADA..................................................................................................................................1
RESUMEN EJECUTIVO..........................................................................................................3

INTRODUCCIN.-...................................................................................................................4

PROBLEMATIZACIN: DIAGNSTICO, FORMULACIN Y SISTEMATIZACIN


DEL PROBLEMA......................................................................................................................5

PROBLEMATIZACIN.-------------------------------------------------------------------------------------- 5

DIAGNOSTICO.------------------------------------------------------------------------------------------------- 5

SISTEMATIZACIN.------------------------------------------------------------------------------------------ 5

JUSTIFICACIN......................................................................................................................6

1.- OBJETIVOS..........................................................................................................................7

1.1.- GENERAL-------------------------------------------------------------------------------------------------- 7

1.2.- ESPECIFICO----------------------------------------------------------------------------------------------- 7

2.- FUNDAMENTACIN TERICA......................................................................................8

CONCEPTO DE MINERA DE DATOS-------------------------------------------------------------------8

Referencias...................................................................................................................................8

Mquinas de Soporte Vectorial-----------------------------------------------------------------------------9

KERNEL---------------------------------------------------------------------------------------------------------- 9

REAS DE INVESTIGACIN APLICABLES A LA MINERA DE DATOS.................10

TCNICAS USADAS POR LA MINERA DE DATOS...................................................10

MQUINAS DE SOPORTE VECTORIAL----------------------------------------------------------13

SVMs.................................................................................................................................15

Caso linealmente separable................................................................................................15

Software disponible para aplicar tcnicas de minera de datos---------------------------------15

IBM SPSS Modeler------------------------------------------------------------------------------------------- 19

SAS Enterprise Miner---------------------------------------------------------------------------------------20

Oracle Data Mining------------------------------------------------------------------------------------------ 24

Rapid Miner---------------------------------------------------------------------------------------------------- 26

KNIME----------------------------------------------------------------------------------------------------------- 28

Orange----------------------------------------------------------------------------------------------------------- 31
WEKA------------------------------------------------------------------------------------------------------------ 33

CONCLUSIONES--------------------------------------------------------------------------------------------- 34

RESUMEN EJECUTIVO

En la actualidad el tratamiento de los Datos se lo enfoca como un patrimonio primordial


es por ello que se han creado nuevas tecnologas y metodologas, siendo la Minera de
Datos uno de los Principales procesadores de datos para la optimizacin es necesario
analizar cada uno de los mtodos que nos ofrece la Inteligencia Artificial para obtener
resultados satisfactorios, en los cuales nos permita definir el tipo de algoritmo con las
caractersticas adecuadas para el analice de los Datos.

Por ello en presente proyecto se investigar de manera minuciosa y detallada el uso del
Mtodo De Mquinas Vectoriales De Soporte.
INTRODUCCIN. -
Las tareas de clasificacin en los procesos productivos, muy a menudo son efectuadas
por personas que han sido capacitadas y entrenadas. Por lo general estas tareas se
convierten en montonas y repetitivas, causando fatiga y reflejndose en la prdida del
criterio de clasificacin.

Matemticamente las tareas de clasificacin pueden ser ejecutadas por mtodos de


aprendizaje como las mquinas de vector soporte (SVMs) y redes neuronales. Estos
mtodos han sido implementados inicialmente en software bajo plataformas
secuenciales, limitando el desempeo de los mismos. En la actualidad, se busca lograr
un mayor rendimiento utilizando sistemas digitales que requieren gran capacidad de
procesamiento, como lo son: los procesadores en paralelo y los dispositivos lgicos
programables, entre otros.

Dentro del concepto de aprendizaje supervisado existen diferentes algoritmos que parten
de planteamientos lgicos y matemticos distintos, siendo quizs el ms empleado el de
las redes neuronales que simulan la sinapsis del cerebro. En este caso se emplear el de
las mquinas de soporte vectorial (SVM, del ingls support vector machine) tipo
clasificacin.
PROBLEMATIZACIN: DIAGNSTICO, FORMULACIN Y
SISTEMATIZACIN DEL PROBLEMA.

PROBLEMATIZACIN. -
Al manejar gran volumen de Datos y almacenarlos resulta difcil que se han procesadas
y utilizadas de forma correcta y que se trabaje con ella de una forma rpida y ptima.

DIAGNOSTICO. -
Existen diferentes mtodos para el tratamiento de la Minera de Datos y el De Mquinas
Vectoriales De Soporte ofrece con su particularidad mostrarnos los Datos de una forma
minimizada y paralela.

SISTEMATIZACIN. -
Basndonos desde de la Minera de Datos y complementando con la inteligencia
Artificial se realizar un Estudio y Anlisis del Mtodo escogido en nuestro proyecto el
mismo que dar por escoger los procedimiento ms sencillos y rpidos para el
tratamiento de los Datos.
JUSTIFICACIN

Los Datos necesitan ser el capital ms importante en cualquier mbito es por ello que
nace la necesidad de crear diferentes ramas de la Investigacin basndose en la Minera
de Datos y sus diferentes metodologas aplicarlas cada una ella est enfocada a un
determinado tipo de informacin en este caso, investigaremos al Mtodo de Maquinas
Vectoriales de Soporte Las SVM son mquinas de aprendizaje que utilizan el mtodo de
los vectores soporte (Support Vector o SV), este es un mtodo general para la resolucin
de problemas de clasificacin , y regresin .

Fue propuesto originalmente por Vladimir Vapnik en el reconocimiento de patrones para


la solucin de problemas de clasificacin binarios en los que las clases son linealmente
separables.

Cuyos mtodos tiene una sola finalidad simplificar el proceso de la utilizacin de datos,
dando importancia que se merece a cada uno de ellos ya que para su compresin y
utilizacin deben estar clasificados segn la rama que representan para poder aplicar la
herramientas y mtodo para ser aplicados.

El mtodo de Maquinas Vectoriales de Soporte cuenta con algunas aplicaciones


informticas entre ellas.
1.- OBJETIVOS
1.1.- GENERAL
Analizar el Mtodo de Mquinas Vectoriales de Soporte.

1.2.- ESPECIFICO
Estudiar las ventajas e inconvenientes del empleo de SVM para el
reconocimiento y clasificacin.
Evaluar si resulta aplicable el mtodo de las SVM en la Minera de Datos.
Investigar las formas de representar los Datos con SVM.

2.- FUNDAMENTACIN TERICA

CONCEPTO DE MINERA DE DATOS


Existen varias definiciones para el concepto de Minera de Datos, pero la esencia de
stas se fundamenta en el concepto de escarbar en la informacin almacenada para
descubrir elementos de utilidad desde grandes cantidades de datos almacenadas, con el
objetivo de detectar patrones de comportamiento consistentes, o relaciones entre los
diferentes campos de una base de datos para aplicarlos a nuevos conjuntos de datos.

Puede visualizarse tambin como un proceso analtico, diseado para explorar grandes
cantidades de datos, con el objetivo de encontrar relaciones entre las diferentes
variables, para aplicarlas a nuevos conjuntos de datos.

Referencias
MICROSOFT. (2016). MSDN. Obtenido de https://msdn.microsoft.com/es-
es/library/dn282377(v=sql.120).aspx

REDALYC. (2003). CONCIENCIA TECNOLOGICA. Obtenido de


www.redalyc.org/pdf/944/94402303.pdf

REDALYC-UTP. (2005). UNIVERSIDAD TECNOLOGICA DE PEREIRA. Obtenido de


www.redalyc.org/articulo.oa?id=84911698014

UNED. (s.f.). Obtenido de polar.lsi.uned.es/revista/index.php/ia/article/view/479/463


Mquinas de Soporte Vectorial
Las Mquinas de Soporte Vectorial (MSV) son una moderna y efectiva tcnica de IA,
que ha tenido un formidable desarrollo en los ltimos aos, a continuacin, se
presentarn los fundamentos tericos que definen estos sistemas de aprendizaje.

Uno de los conceptos fundamentales en esta tcnica es el algoritmo Vector de Soporte


(VS) es una generalizacin no-lineal del algoritmo Semblanza Generalizada,
desarrollado en la Rusia en los aos sesenta. El desarrollo de los VS trae consigo el
surgimiento de las Mquinas de Soporte Vectorial. Estas son sistemas de aprendizaje
que usan un espacio de hiptesis de funciones lineales en un espacio de rasgos de mayor
dimensin, entrenadas por un algoritmo proveniente de la teora de optimizacin.

La Minimizacin del Riesgo Emprico y la [[Dimensin de Vapnik-Chervonenkis]] son


fundamentales en las Mquinas de Soporte Vectorial. Dicho de manera ms sencilla el
algoritmo se enfoca en el problema general de aprender a discriminar entre miembro
positivos y negativos de una clase de vectores de n-dimensional dada. Las MSV
pertenecen a la familia de clasificadores lineales. Mediante una funcin matemtica
denominada kernel, los datos originales se redimensionan para buscar una separabilidad
lineal de los mismos. Una caracterstica de las MSV es que realiza un mapeo de los
vectores de entrada para determinar la linealidad o no de los casos los cuales sern
integrados a los Multiplicadores de Lagrange para minimizar el Riesgo Emprico y la
Dimensin de Vapnik-Chervonenkis. De manera general, las Mquinas de Soporte

REFERENCIA: RESENDIZ, J. A. Las Mquinas de Soporte Vectorial para


identificacin en Lnea. Maestra, Control Automtico. Instituto Politcnico Nacional,
2006.

[ CITATION ECU \l 3082 ]

KERNEL
Las funciones kernel son funciones matemticas que se emplean en las Mquinas de
Soporte Vectorial. Estas funciones son las que le permiten convertir lo que sera un
problema de clasificacin no-lineal en el espacio dimensional original, a un sencillo
Seleccin problema de clasificacin lineal en un espacio dimensional mayor.
REFERENCIA: RESENDIZ, J. A. Las Mquinas de Soporte Vectorial para
identificacin en Lnea. Maestra, Control Automtico. Instituto Politcnico Nacional,
2006.

Interpretacin / Evaluacin

Minera de Datos

Transformacin

Preprocesado

[ CITATION ECU \l 3082 ]

REAS DE INVESTIGACIN APLICABLES A LA MINERA DE DATOS


Para llegar al conocimiento de los datos la Minera de Datos hace uso de las siguientes
reas de investigacin: la Inteligencia Artificial, las Bases de Datos, la Estadstica y la
Visualizacin de Datos

[ CITATION RED03 \l 12298 ]

La minera de datos es el proceso de detectar patrones significativos en los datos. La


minera de datos es un complemento natural al proceso de explorar y entender los datos
a travs de BI tradicional. Los algoritmos automticos pueden procesar cantidades de
datos muy grandes y detectar patrones y tendencias que, de lo contrario, estaran
ocultos.[ CITATION MSD \l 12298 ]
TCNICAS USADAS POR LA MINERA DE DATOS

La Minera de Datos se podra abstraer como la construccin de un modelo que ajustado


a unos datos proporciona un conocimiento. Por tanto, podemos distinguir dos pasos en
una tarea de MD, por un lado, la eleccin del modelo y por otro el ajuste final de ste a
los datos.
La eleccin del modelo viene determinada bsicamente por dos condicionantes: el tipo
de los datos y el objetivo que se quiera obtener. As por ejemplo no sera apropiado
aplicar regresin a unos datos constituidos por texto o modelos basados en distancia a
datos simblicos.
En cuanto a la relacin modelo-objetivo, la literatura presenta un catlogo de distintos
modelos para los diferentes objetivos. As, si se tiene un problema de clasificacin se
utilizarn mquinas de vectores soporte o rboles de decisin, si es un problema de
regresin se pueden usar rboles de regresin o redes neuronales, si se desea hacer
clustering se puede optar por modelos jerrquicos o interrelacionados, etc.
Tambin es importante en esta eleccin el nivel de comprensibilidad que se quiera
obtener del modelo final, ya que hay modelos fciles de explicar al usuario como por
ejemplo las reglas de asociacin y otros que entraan claras dificultades como las redes
neuronales o los vectores soporte.
El segundo paso consiste en realizar una fase de aprendizaje con los datos disponibles
para ajustar el modelo anterior a nuestro problema particular. As si tenemos una red
neuronal habr que definir su arquitectura y ajustar los valores de los pesos de sus
conexiones. Si vamos a obtener una recta de regresin hay que hallar los valores de los
coeficientes y si usamos los k-vecinos ms cercanos necesitamos fijar una mtrica y k,
etc.
Esta fase de aprendizaje ajusta el modelo buscando unos valores que intenten maximizar
la bondad del mismo. Esta cuestin nos vuelve a plantear dos problemas: uno Cmo
se define la bondad de un modelo para unos datos? Y dos, Cmo realizar esa
bsqueda?
Respecto a la primera, normalmente todo modelo debe venir acompaado por una
funcin de adaptacin que sea capaz de medir el ajuste (en ingls se emplea el concepto
de fitness funcin). Esto es fcil en numerosos casos, por ejemplo, en problemas de
clasificacin o regresin, sin embargo, puede plantear serios retos en otros como el
clustering.
Adems, relacionado con este concepto se encuentra un fenmeno conocido como
sobreajuste, es decir, que se aprendan los datos de entrenamiento, pero no se
generalice bien para cuando vengan nuevos casos. Existen numerosos estudios en la
literatura sobre distintas formas de separar convenientemente datos de entrenamiento de
datos de prueba. En cuanto a la bsqueda de los valores que maximizan la bondad, se
dispone de un importante nmero de posibilidades: desde la clsica procedente del
anlisis matemtico cuando la funcin de bondad se conoce completamente hasta las
heursticas que proporciona la investigacin operativa, pasando por tcnicas como los
Algoritmos Evolutivos (sin duda una de las ms presentes en la literatura), bsqueda
tab, bsquedas dispersas, etc.
Debido a que esta bsqueda u optimizacin est presente en todos los procesos de MD,
a menudo se confunden, pudiendo presentarse por ejemplo los algoritmos evolutivos
como un modelo de MD, cuando realmente es una tcnica que se puede usar para
ajustarlo.
Por ltimo, otro factor a tener en cuenta junto con los anteriores es el tratamiento que
deseamos dar a la incertidumbre que el propio modelo genera. Por ejemplo,
supongamos un modelo basado en reglas que define una as:
Si x [1.4, 3.4] entonces y [-2.1, 6.5]

Qu podramos afirmar si x vale 3?5 o 1.3? y si vale 3.6 o 1.2? Este razonamiento
lleva a usar lgicas distintas de la clsica como son la lgica borrosa o difusa (fuzzy) o
los menos conocidos rough sets. Relacionado con esto aparece un ltimo concepto:
softcomputing, para referirse al conjunto de tcnicas computacionales (lgica borrosa,
razonamiento probabilstico, algoritmos evolutivos,) que posibilitan las herramientas de
aprendizaje.
Softcomputing se refiere a la caracterstica de imprecisin o incertidumbre que
acompaa por su propia naturaleza al concepto de MD. Todos los conceptos
presentados en esta seccin (modelo, tipo de datos, lgica, funcin de bondad y tcnica
de bsqueda) convenientemente hibridizados han dado lugar a infinidad de
metodologas en MD. As es fcil encontrar referencias a redes neuronales borrosas
para datos numricos entrenadas mediante algoritmos evolutivos, clustering mediante
rough sets aplicando una bsqueda dispersa, definicin de una mtrica para bsqueda
tab de reglas que clasifiquen texto, etc.
[ CITATION UNE \l 12298 ]

[CITATION RED05 \l 12298 ]

MQUINAS DE VECTORES SOPORTE

La tcnica de clasificacin Mquinas de Vectores Soporte (SVM Support Vector


Machines) tiene sus races en la teora del aprendizaje estadstico y ha demostrado
resultados satisfactorios en muchas aplicaciones prcticas. Funciona muy bien con datos
de grandes dimensiones, evitando las complicaciones que acarrea la denominada mal
accin en la dimensin. Otro aspecto nico de esta tcnica es que representa los lmites
de decisiones usando un subconjunto de ejemplos de entrenamiento, conocidos como
vectores soporte.

MARGEN HIPERPLANO MXIMO

La grfica de un conjunto de ejemplos que pertenecen a dos diferentes clases,


representados como cuadrados y crculos. Diremos que un conjunto de datos es
linealmente separable, si podemos encontrar un hiperplano tal que todos los cuadrados
residan en un lado del hiperplano y todos los crculos residan en otro lado.

Como se muestra en la figura 3 existen infinitos hiperplanos posibles. Aunque sus


errores de entrenamiento fueran cero, no hay garanta de que los hiperplanos respondan
igualmente bien en ejemplos no vistos previamente.
Por tanto, para representar su lmite de decisin, el clasificador debe elegir uno de estos
hiperplanos, con la intencin de que responda acertadamente con los ejemplos de
prueba, es decir posea un error de generalizacin mnimo.

Ffigura 3

Para tener un panorama claro de cmo las elecciones posibles de hiperplanos diferentes
afectan los errores de generalizacin, consideremos los dos lmites de decisin, B1 y B2
mostrados en la figura 4.

b21 B2 b22

b11 B1 b12

Figura 4

Ambos lmites de decisin pueden separar los ejemplos de entrenamiento en sus clases
respectivas sin cometer ningn error de mala clasificacin. Cada lmite de decisin Bi
est asociado con un par de hiperplanos, denotados como bi1 y bi2, respectivamente.
El hiperplano bi1 se obtiene moviendo un hiperplano paralelo lejos del lmite de decisin
hasta que toca el/los cuadrados/s ms cercano/s mientras que bi2 se obtiene moviendo el
hiperplano hasta que toca a l/los crculos/s ms cercano/s.

La distancia entre estos dos hiperplanos es conocido como el margen del clasificador.
Desde el diagrama mostrado en la figura 4, observe que el margen para B1 es
considerablemente mayor que para B2. En este ejemplo B1, llega a ser el margen mximo
del hiperplano para los ejemplos de entrenamiento.

RAZONES PARA UN MARGEN MAXIMO

Los lmites de decisin con mrgenes grandes tienden a tener menores errores de
generalizacin que aquellos con mrgenes pequeos. Intuitivamente, si el margen es
pequeo, entonces cualquier leve perturbacin del lmite de decisin puede tener un
impacto significativo en su clasificacin. Los clasificadores que producen lmites de
decisin con pequeos mrgenes son por lo tanto ms susceptibles de modelar sobre
ajustadamente y tienden a una generalizacin pobre en ejemplos no vistos previamente.

Una explicacin ms formal relacionada con el margen de un clasificador lineal y el


error de generalizacin, est dado por un principio de aprendizaje estadstico conocido
como riesgo de minimizacin estructural (SRM). Este principio provee un lmite
superior al error de generalizacin de un clasificador (R) en trminos de su error de
entrenamiento (Re), el nmero de ejemplos de entrenamiento (N) y la complejidad del
modelo, conocida tambin como su capacidad (h).

Ms especficamente, con una probabilidad de 1 - n, el error de generalizacin del


clasificador puede ser como mximo

donde es una funcin creciente montona de la capacidad h.

Con esta consideracin, el riesgo de minimizacin estructural SRM expresa el error de


generalizacin R en relacin al error de entrenamiento y la capacidad del modelo .

La capacidad de un modelo lineal es inversamente proporcional a su margen. Los


modelos con mrgenes pequeos tienen capacidades mayores porque son ms flexibles
y pueden encajar con varios conjuntos de entrenamiento distinto a los modelos con
mrgenes grandes.

De acuerdo al principio SRM, si aumenta la capacidad, el lmite de error de


generalizacin tambin aumentar. Por lo tanto, es deseable disear clasificadores
lineales que maximicen los mrgenes de sus lmites de decisin, que a su vez
minimizar la capacidad del modelo, asegurando que los errores de generalizacin
tambin sean mnimos.

Un clasificador que cumple este requerimiento son las Mquinas de Vectores Soporte.

MQUINAS LINEALES DE VECTORES SOPORTE


CONJUNTO SEPARABLE LINEALMENTE

Las Mquinas Lineales de Vectores Soporte son una tcnica de clasificacin que busca
un hiperplano separador con el mayor margen.

Consideremos el problema de clasificacin binaria consistente en N ejemplos de


entrenamiento. Cada ejemplo est indicado por una tupla (xi, yi) (i = 1, 2, N); donde xi =
T
(xi1, xi2, xid) corresponde al conjunto de atributos para el ejemplo i, y la
denominacin de clase est indicada por yi {-1,1}.

El lmite de decisin del clasificador lineal puede ser escrito de la siguiente forma

wx+b=0 (1.3)

donde w y b son parmetros del modelo.

Muestra un conjunto de entrenamiento en dos dimensiones. Un lmite de decisin que


divide los ejemplos de entrenamiento en sus respectivas clases est ilustrado como una
lnea slida.

wx+b=0
x1 x 2
d
x1
x2 w

wx+b=1

wx+b=-1

Figura 5

Ningn ejemplo debe estar colocado a lo largo del lmite de decisin, es decir, satisfacer
la ecuacin 1.3.

Sean xa y xb dos puntos ubicados en el lmite de decisin; entonces {w xa + b = 0; w


xb + b = 0}. Substrayendo las dos ecuaciones dar como resultado w (xa - xb) = 0,
donde xa - xb es un vector paralelo al lmite de decisin y tiene direccin desde xa hacia
xb. Puesto que el producto escalar es cero, la direccin de w debe ser perpendicular al
lmite de decisin.

Para cualquier cuadrado xs ubicado por encima del lmite de decisin, tenemos que

w xs + b = k, (1.4)

donde k > 0. Del mismo modo, para cualquier circulo xc ubicado por debajo del lmite
de decisin, podemos afirmar que

w xc + b = k, (1.5)

donde k < 0, Si denominamos a todos los cuadrados como clase +1 y a todos los
crculos como clase 1, entonces podemos predecir la denominacin de clase y para
cualquier ejemplo de prueba z de la siguiente manera:

(1.6)

Consideremos el cuadrado y el crculo ms cercano al lmite de decisin. Puesto que el


cuadrado est ubicado por encima del lmite de decisin, debe satisfacer a la ecuacin
1.4, para algn valor positivo k, mientras que el crculo debe satisfacer la ecuacin 1.5
para algn valor negativo k.

Podemos obtener los parmetros w y b del lmite de decisin de manera que los dos
hiperplanos paralelos bi1 y bi2 puedan ser expresados como sigue

(1.7)

El margen del lmite de decisin est dado por la distancia entre estos dos hiperplanos.

Para calcular el margen, sea x1 un punto colocado en y un punto colocado en


como se muestra en la figura 5; al sustituir estos puntos en las ecuaciones 1.7 el margen
d puede ser calculado sustrayendo la segunda ecuacin de la primera ecuacin:
(1.8)

APRENDIZAJE ESTADSTICO CON UN MODELO DE MQUINAS


LINEALES DE VECTORES SOPORTE

La fase de aprendizaje de las SVM contempla la estimacin de los parmetros w, b y del


lmite de decisin con los datos de entrenamiento.

Los parmetros deben ser elegidos de tal manera que sean cumplidas las siguientes
condiciones

(1.9)

Estas condiciones imponen los requerimientos de que todos los ejemplos de


entrenamientos de la clase y = 1 (ej.: los cuadrados) deben estar colocados en o por
encima del hiperplano , mientras que los ejemplos de la clase y = 1 (ej.:

los crculos) deben estar ubicados en o por debajo del hiperplano


Ambas inecuaciones pueden ser resumidas en una forma ms compacta como sigue:

(1.10)

Aunque las condiciones precedentes son tambin aplicables a cualquier clasificador


lineal, las SVM imponen un requerimiento adicional de que el margen de su lmite de
decisin debe ser mximo. Maximizar los mrgenes, es equivalente a minimizar la
siguiente funcin objetivo:

(1.11)

DEFINICIN. La tarea de aprendizaje con las SVM puede ser formalizada como el
siguiente problema de optimizacin con restricciones:

sujeto a
Como la funcin objetivo es cuadrtica y las restricciones son lineales en los parmetros
w y b, puede ser resuelto usando el mtodo de multiplicadores de Lagrange.

Primero debemos rescribir la funcin objetivo de forma que incluya las restricciones
impuestas a la solucin. La nueva funcin objetivo es conocida como Lagrangiano

(1.12)

Donde los parmetros i son los multiplicadores de Lagrange. El primer trmino de la


del Lagrangiano es el mismo que el de la funcin objetivo original, mientras el segundo
trmino toma las restricciones.

Es fcil mostrar que la funcin objetivo original dada en la ecuacin 1.11 es minimizada
cuando w = 0, un vector nulo cuyos componentes son todos ceros. Esta solucin, viola

las restricciones dadas en la definicin y las soluciones para w y b son imposibles de


obtener, por ejemplo, s .

El Lagragiano dado en la ecuacin (1.12) incorpora la restriccin substrayndola de la


funcin objetivo original. Asumiendo que i 0, est claro que cualquier solucin no
factible puede solo aumentar el valor del Lagrangiano.

Para minimizar el Lagrangiano, tomamos la derivada de Lp con respecto a w y b, y las


hacemos igual a 0.

(1.13)

(1.14)

Como los multiplicadores son desconocidos, todava no podemos resolver para w y b.


Usando las N restricciones transformadas a igualdades, junto con las ecuaciones 1.13 y
1.14 podremos encontrar soluciones factibles para w, b y i.

Pero transformar las restricciones de desigualdades a igualdades, solo es posible si los


multiplicadores Lagrange son limitados a ser no negativos.

Lo precedente nos conduce a las siguientes restricciones con multiplicadores de


Lagrange, conocidas como condiciones Karush- Kuhn- Tucker (KKT):
i 0 (1.15) i = 0 (1.16)

Muchos de los multiplicadores Lagrange se convertirn en cero despus de aplicar la


restriccin dada en la ecuacin 1.16. Esta restriccin plantea que el multiplicador
Lagrange i debe ser cero a no ser que el caso de entrenamiento xi satisfaga la ecuacin
. Con i > 0 el punto correspondiente a dicho caso estar ubicado a lo
largo de los hiperplanos bi1 o bi2 y es conocido como Vector Soporte.

Los puntos de entrenamiento que no residen a lo largo de estos hiperplanos tienen i = 0.


Las ecuaciones 1.13 y 1.14 tambin sugieren que los parmetros w, b y i definen el
lmite de decisin considerando nicamente los vectores soporte.

El problema puede ser simplificado transformando el Lagrangiano en una funcin de


multiplicadores Lagrange solamente (esto es conocido como el problema dual o forma
dual del problema). Para hacer esto, primero sustituimos las ecuaciones 1.13 y 1.14 en
la ecuacin 1.12. Esto conducir a la siguiente formulacin dual del problema de
optimizacin

(1.17)

Las diferencias claves entre los Lagrangianos primal (original) y dual son las siguientes:

1- El Lagrangiano dual incluye solamente los multiplicadores Lagrange y los datos


de entrenamiento, mientras que el Lagrangiano primal incluye tanto a los
multiplicadores Lagrange como a los parmetros del lmite de decisin. Sin
embargo, la optimizacin para ambos problemas de optimizacin son
equivalentes

2- El termino cuadrtico en la ecuacin 1.17 tiene un signo negativo, lo cual


significa que el problema de minimizacin original que incluye al Lagrangiano
primal, Lp, se ha convertido en un problema de maximizacin incluyendo el
Lagrangiano dual, LD

Para conjuntos de datos grandes el problema de optimizacin dual puede ser resuelto
usando tcnicas numricas tales como programacin no lineal. Una vez que las i`s sean
encontradas, podemos usar la ecuacin 1.13 y 1.14 para obtener posibles soluciones
para w y b. El lmite de decisin puede ser expresado como sigue
(1.18)

El valor b se obtiene resolviendo la ecuacin 1.16 para los vectores soporte. Puesto que
las is se calculan numricamente y pueden tener errores numricos, el valor computado
para b puede no ser nico, y depende del vector soporte usado en la ecuacin 1.16. En la
prctica, el valor promedio para b es elegido para ser el parmetro del lmite de
decisin.

Una vez que los parmetros del lmite de decisin sean encontrados, un caso de prueba z
se clasifica como sigue:

Si, entonces el caso de prueba es clasificado como una de clase positiva; de


otro modo est clasificada como de clase negativa.

CONJUNTO NO SEPARABLE LINEALMENTE

Muestra un conjunto de datos que es similar a la figura 4, excepto que tiene dos nuevos
ejemplos, P y Q. Mientras que el lmite de decisin B1 no clasifica a los nuevos
ejemplos, B2 los clasifica correctamente, esto no significa que B2 es un lmite de
decisin mejor que B1 porque los nuevos ejemplos tal vez correspondan al ruido en los
datos de entrenamiento. B1 todava debera ser preferido por encima del B2 porque tiene
un margen ms ancho, y de este modo, es menos susceptible a sobreajustes.

b21 B2 b22

b11 B1 b12
El mtodo que presentamos en esta seccin, conocido como el enfoque del margen
suavizado (soft-margin), permite a las SVM construir un lmite de decisin lineal en
situaciones donde las clases no son linealmente separables, tolerando errores de
entrenamiento menores. Para hacer esto, el algoritmo de aprendizaje de las SVM debe
considerar la contrapartida entre el ancho del margen y el nmero de errores de
entrenamiento cometidos por el lmite de decisin lineal.

Aunque la funcin objetivo original dada en la ecuacin 1.11 es todava aplicable, el


lmite de decisin B1 ya no satisfar todas las restricciones dadas en la ecuacin 1.10.
Las desigualdades por lo tanto deben estar restringidas a acomodar datos separables no
linealmente. Esto puede ser hecho introduciendo variables de holgura de valores
positivos en las restricciones del problema de optimizacin, como se muestra en las
siguientes ecuaciones:

(1.19)

donde

Para interpretar el significado de las variables i, consideremos el diagrama mostrado en


la figura 8. El crculo P es uno de los casos que viola las restricciones dadas en la
ecuacin 1.9. Denotemos como una lnea paralela al lmite de
decisin que pasa a travs del punto P. Se puede demostrar que la distancia entre esta

lnea y el hiperplano. Donde, rovee una estimacin


el error del lmite de decisin con respecto al ejemplo de
entrenamiento P.
P

Figura 8

En principio podemos aplicar la misma funcin objetivo anterior imponiendo las


condiciones dadas en la ecuacin 1.19 para encontrar el lmite de decisin.

Al no existir restricciones en el nmero de errores que puede cometer un lmite de


decisin, el algoritmo de aprendizaje puede encontrar un lmite de decisin con un
ancho margen que clasifique errneamente muchos de los ejemplos de entrenamiento.

Para evitar este problema, la funcin objetivo debe ser modificada para penalizar el
lmite de decisin para grandes valores de sus variables de holgura. La funcin objetivo
modificada est dada por la siguiente ecuacin:

Donde C y k son parmetros arbitrarios que representan la penalidad de la clasificacin


errnea de los casos de entrenamiento. Para simplificar el problema generalmente se
asume k =1. El parmetro C puede ser elegido basado en el rendimiento del modelo en
el conjunto de validacin.

El Lagrangiano para este problema de optimizacin incorporando las restricciones


respectivas se escribe como sigue:
Donde los dos primeros trminos corresponden a la funcin objetivo a ser minimizada,
el tercer trmino representa las restricciones de desigualdades asociadas con las
variables de holgura y el ltimo termino resulta de los requerimientos de no negatividad
para los valores de i`s.

Transformadas las restricciones de desigualdades en restricciones de igualdad, tenemos


las siguientes condiciones KKT:

(1.21)

(1.22)

=0 (1.23)

Los multiplicadores de Lagrange i dado en la ecuacin 1.22 desaparecen nicamente si


los casos de entrenamiento se encuentran a lo largo de las lneas o
tienen i > 0. Por otro lado, los multiplicadores de Lagrange dados en la ecuacin
1.23 son cero para todos los casos de entrenamiento mal clasificadas (es decir, tenien o i
> 0).

Igualando las derivadas de primer orden de L con respecto a w, b y i a cero, resultan en


las siguientes ecuaciones:

(1.24)

(1.25)

(1.26)

Sustituyendo las ecuaciones 1.24, 1.25 y 1.26 en el Lagrangiano primal, se obtendr el


siguiente Lagrangiano dual:

(1.27)
El mismo tiende a ser idntico al Lagrangiano dual para casos linealmente separables
(ver ecuacin 1.17).

Sin embargo, las restricciones impuestas a los multiplicadores de Lagrange i`s son
ligeramente diferentes que para los conjuntos separables linealmente. Los
multiplicadores de Lagrange deben cumplir la condicin de ser no negativos, . Y
adems la ecuacin 1.26 indica que i no debe exceder C (considerados no
negativos). Por tanto, los multiplicadores de Lagrange para datos conjuntos no
separables linealmente son restringidos a .

El problema dual puede entonces ser resuelto numricamente usando tcnicas de


programacin no lineal para obtener los multiplicadores de Lagrange i. Estos
multiplicadores pueden ser remplazados en la ecuacin 1.24 y en las condiciones KKT
para obtener los parmetros del lmite de decisin.

MQUINAS NO LINEALES DE VECTORES SOPORTE

Seguidamente presentamos una metodologa para aplicar las SVM a conjuntos de datos
que tienen un lmite de decisin no lineal. El truco aqu es transformar los datos de su
espacio de coordenadas original x a un nuevo espacio (x) de modo que el lmite de
decisin lineal pueda ser usado para separar los casos en el espacio transformado.
Despus de hacer la transformacin, podemos aplicar las metodologas para Mquinas
Lineales de Vectores Soporte.

Figura 10

Una transformacin no lineal es necesaria para transformar los datos de su espacio


caracterstico tradicional a un nuevo espacio donde el lmite de decisin se haga lineal.
Por ejemplo, dada la siguiente transformacin:

En el espacio transformado, podemos encontrar los parmetros tal


que:

Una dificultad potencial con este mtodo es el que puede acarrear la denominada
maldicin de la dimensin, frecuente en el manejo de datos de grandes dimensiones.
Las Mquinas No lineales de Vectores Soporte evitan este problema usando el mtodo
conocido como truco kernel.

APRENDIZAJE ESTADSTICO CON UN MODELO DE MQUINAS NO


LINEALES DE VECTORES SOPORTE

A pesar que las aproximaciones de la funcin de transformacin parecen prometedoras,


su implementacin suscita varias preguntas.

No est claro qu clase de funcin de transformacin debera usarse para


asegurar que el lmite de decisin lineal pueda ser construido en el espacio
transformado.

Aunque la funcin de transformacin apropiada sea conocida, resolver el


problema de optimizacin con restricciones en un espacio altamente dimensional
es una tarea complicada en lo referente a los clculos que deben realizarse.

Para ilustrar estos aspectos y examinar las maneras en que pueden ser abordados
podemos asumir que existe una funcin apropiada, (x), para transformar un conjunto
de datos previstos.
Despus de la transformacin, necesitamos construir un lmite de decisin lineal que
separe los casos es sus respectivas clases. El lmite de decisin lineal en el espacio
transformado tiene la siguiente forma w.(x) + b = 0.

La tarea de aprendizaje con Mquinas No Lineales de Vectores Soporte puede ser


formalizada como el siguiente problema de optimizacin

sujeto a

La principal diferencia con las Mquinas Lineales de Vectores Soporte es, que en vez de
usar los atributos originales x, se utilizan los atributos transformados .

Siguiendo el enfoque utilizado para Mquinas Lineales, podemos obtener el siguiente


Lagrangiano dual para el problema de optimizacin con restricciones:

(1.30)

Una vez obtenidas las usando tcnicas de programacin no lineal, los parmetros w
y b pueden ser encontrados usando las siguientes ecuaciones:

(1.31)

(1.32)

Las cuales son anlogas a las ecuaciones 1.13 y 1.16 de las Mquinas Lineales de
Vectores Soporte. Finalmente, un caso de prueba z se puede clasificar utilizando la
siguiente ecuacin:

(1.33)
Salvo la ecuacin 1.31, podemos notar que los dems clculos (ecuaciones 1.32 y 1.33)
requieren el clculo de producto escalar de pares de vectores en el espacio transformado
. Tales clculos pueden ser bastante engorrosos y acarrear dificultades
propias de la alta dimensin de un problema.

Una solucin a este problema es el mtodo conocido como truco kernel o ncleo.

TRUCO KERNEL
El producto escalar es a menudo considerado como una medida de similitud entre dos
vectores dados. Anlogamente, el punto escalar (xi) (xj), tambin puede ser
considerado como una medida de similitud entre dos casos, xi y xj en el espacio
transformado.

El truco kernel es un mtodo para calcular similitud en el espacio transformado usando


el conjunto de atributos original.

Consideremos la siguiente funcin de transformacin:

El producto escalar entre dos vectores dados u y v en el espacio transformado sera


como sigue:

(1.34)

Este anlisis muestra que el producto escalar en el espacio transformado puede ser
expresado en trminos de una funcin de similitud en el espacio original.

(1.35)

La funcin de similitud, K, que puede ser calculada en el espacio de atributo original es


conocida como la funcin kernel.

El truco kernel ayuda a aclarar algunos de los conceptos acerca de cmo


implementamos las Mquinas No Lineales de Vectores Soporte.

1. No necesitamos saber exactamente el tipo de funcin de transformacin


porque las funciones kernel usadas en las Mquinas No Lineales de Vectores
Soporte deben satisfacer un principio matemtico conocido como Teorema de
Mercer.

El Teorema de Mercer demuestra que las funciones kernel pueden ser siempre
expresadas como el producto escalar entre dos vectores dados en algn espacio
altamente dimensional. El espacio transformado mediante funciones Kernel de
Mquinas No Lineales de Vectores Soporte, es llamado

Reproduccin Kernel del Espacio Hilbert (RKHS).

2. Computar los productos escalares usando funciones kernel es considerablemente


menos complicado que usar el conjunto de atributos transformado (x).

3. Como los clculos se desarrollan en el espacio original, las dificultades


asociadas a la dimensionalidad del problema pueden ser evitadas.

La figura 11 muestra un lmite de decisin no lineal obtenido mediante las SVM, usando
la funcin kernel polinomial dada en la ecuacin 1.35. Un caso de prueba x es
clasificada de acuerdo a la siguiente ecuacin:

(1.36)

Donde b es el parmetro obtenido utilizando la ecuacin 1.32.

0,8

0,6

0,4

0 ,2

0,2 0,4 0,6 0,8

Figura 11
El requisito principal para que la funcin kernel pueda ser usada con Mquinas No
Lineales de Vectores Soporte, es que debe existir una transformacin tal que la funcin
kernel calculada para un par de vectores sea equivalente al producto escalar entre esos
vectores en el espacio transformado y viceversa. Este requisito puede ser formalmente
planteado mediante el teorema de Mercer.

Teorema de Mercer. Una funcin kernel K puede ser expresada como

si y solo si, para cualquier funcin g(x) tal que es finita, entonces.

Las funciones kernel que satisfacen el Teorema de Mercer son llamadas funciones
kernel positivo definidas. Ejemplos de estas funciones se listan a continuacin:
. Funcin kernel polinomial (1.38)

(1.39)

(1.40)

ALGUNAS CARACTERSTICAS DE LAS MQUINAS DE VECTORES


SOPORTE

1- Las Mquinas de Vectores Soporte al maximizar el margen del lmite de


decisin, determinan la tarea de aprendizaje, no obstante, el usuario todava debe
proveer otros parmetros tales como el tipo de funcin kernel a usar y la
penalidad asociada a la funcin C.

2- Las SVM pueden ser aplicadas a datos categricos introduciendo variables


ficticias (dummy). Por ejemplo, si Se o toma dos valores; Masculino,
Femenino, podemos introducir una variable binaria para cada valor del atributo
Sexo.

3- La formulacin de Mquinas de Vectores Soporte presentada en este trabajo, es


realizada para problemas de Clasificacin Binaria.
Software disponible para aplicar tcnicas de minera de datos
Actualmente existen varios paquetes y complementos, cada uno con sus propias
caractersticas, que permiten aplicar diferentes tcnicas de minera de datos al conjunto
de datos con el que trabajemos. Presentamos en este captulo algunos de

ellos.

XLMiner

XLMiner es un complemento para Excel, con


funcionamiento mediante macros, que permite muchos
tipos de anlisis tanto para datos de tipo corte
transversal, como secuencias temporales.

Entre las principales caractersticas de XLMiner se encuentran:

Manejo de bases de datos, con imputacin de datos faltantes.

Realizacin de predicciones.

Modelos ARIMA, Holt winters, Polinomiales.


Arboles de decisin, anlisis clster.

Facilidad para la entrega de informes.

Redes neuronales.

A favor de este programa se puede decir que:

Posee un buen manual que se encuentra dentro de la seccin ayuda, que describe
los distintos mtodos y parmetros.

Presenta opciones de configuracin y trabajo (interface) amigables para cada


mtodo.

Los formatos de presentacin de resultados como grficos tablas e indicadores


de cambios son muy ordenados y tienen buen formato.

Existen muchos videos tutoriales para los distintos mtodos que indican paso a
paso qu se necesita hacer.

En contra de este programa tenemos que:

XLMiner es accesible como herramienta de prueba por un periodo limitado de


30 das.

Se debe pagar por tener acceso a la versin que no limita el tamao de la base de
datos.

No posee indicadores de errores claros. Como XLMiner trabaja en base a


macros de Excel, al parametrizar alguna operacin con datos inadecuados, la
operacin se interrumpe, siendo imposible de recuperar lo ltimo realizado.
Finalmente el programa puede descargarse desde la web del
creador

http://www.solver.com/xlminer/

Matlab
MATLAB (abreviatura de MATrix LABoratory) es un entorno de
computacin y desarrollo de aplicaciones totalmente integrado
orientado para llevar a cabo proyectos en donde se encuentren
implicados elevados clculos matemticos y la visualizacin
grfica de los mismos.

Este programa dispone tambin de un amplio abanico de programas de apoyo


especializado, denominados Toolboxes, que extienden significativamente el nmero de
funciones incorporadas en el programa principal. Estos Toolboxes cubren en la
actualidad prcticamente casi todas las reas principales en el mundo de la ingeniera y
la simulacin.

MATLAB tambin se provee de un lenguaje de programacin propio, similar al de otros


lenguajes como Fortran o C. A travs de este lenguaje, el usuario puede realizar
cualquier tipo de regresin disponible o bien crear un proceso de validacin cruzada a
medida.

En relacin a este trabajo destacaremos las siguientes Toolboxes:

Statistics Toolbox: Combina algoritmos estadsticos con interfaces grficas


interactivas.

Nnet: Herramientas para el procesado de redes neuronales. Se subdivide


principalmente en:

nnet\nnet Neural Network Toolbox:

La Neural Network Toolbox es un paquete de Matlab que contiene una serie de


funciones para crear y trabajar con redes neurolales artificiales. As pues, proporciona
las herramientas para el diseo, la puesta en prctica, la visualizacin, y la simulacin
de redes neuronales.

Las redes neuronales son herramientas de gran alcance en situaciones donde sera difcil
o imposible el anlisis formal, por ejemplo, el reconocimiento de patrones y la
identificacin y el control no lineal del sistema. La Neuronal Network Toolbox tambin
proporciona una interfaz grfica que permite disear y manejar las redes que el usuario
desee. El diseo modular, abierto, y extensible de la Neuronal Network Toolbox
simplifica la creacin de funciones y de redes. En resumen, como principales
caractersticas presenta:

Interfaz grfica (GUI) para crear, entrenar, y simular a sus redes


neuronales, as como ayuda al usuario de las arquitecturas de redes
supervisadas y no supervisadas ms comunes.

Un sistema sencillo para realizar el entrenamiento y creacin de


funciones de aprendizaje.

Representacin modular de la red, permitiendo un nmero ilimitado


de la entrada que fija capas, e interconexiones de la red, as como
funciones para mejorar el entrenamiento, funcionamiento y
visualizacin de la misma.

nnet\nncontrol Neural Network Toolbox Control System Functions:

Provee un conjunto de funciones para medir y controlar el sistema de redes neuronales


construido.

nnet\nndemos Neural Network Demonstrations: Conjunto de muestras de redes


neuronales.

Finalmente, se trata de un programa comercial por lo que para su uso se ha de pagar una
licencia. Para obtener ms informacin sobre MATLAB se puede acceder a la pgina
oficial de esta herramienta:

http://www.mathworks.es/products/matlab/

IBM SPSS Modeler


Se trata de un producto de la empresa IBM SPSS que permite,
mediante una interfaz grfica, aplicar tcnicas de minera de
datos para descubrir patrones y tendencias en datos
estructurados o no estructurados.

IBM SPSS es una empresa reconocida como lder en anlisis predictivo. Sus
aplicaciones tienen una buena visibilidad y fuerza de ventas en el mercado y es
considerada por algunos expertos como uno de los mejores proveedores de software de
minera de datos.

Con IBM SPSS Modeler se puede visualizar grficamente el proceso llevado a cabo, as
como crear nuevas funciones que se aaden a las ya implementadas. Adems, se provee
de una serie de mdulos que permiten realizar un anlisis de minera de datos con
grandes volmenes de datos.

Diagrama de flujo del proceso con SPSS Modeler

En lo referido a tcnicas de minera de datos, esta herramienta proporciona diferentes


mtodos segn el proceso que vayamos a realizar; algunas de ellas son:
Segmentacin: Kmedias, Kohonen, Bietpico, Anomala.

Asociacin: A priori, GRI, CARMA y Anlisis de Secuencia.

Clasificacin: Factorial, Discriminante, Red Neuronal, C5.0, GLM, Mquinas de


Vectores de Soporte, Redes Bayesianas, Modelos de auto aprendizaje, Vecino
ms prximo, rboles, Listas de Decisin, Seleccin de caractersticas, etc.

Prediccin: Regresin Lineal, Series Temporales, Regresin de Cox, Regresin


Logstica.

Automticos: Auto numrico, Auto clasificador, Auto Agrupacin, Modelizador


ARIMA automtico.

Finalmente, y al igual que en los programas anteriores se trata de un programa


comercial y se ha de pagar una licencia para su uso.

http://www-01.ibm.com/software/analytics/spss/products/modeler/

SAS Enterprise Miner


SAS Enterprise Miner agiliza el proceso de
minera de datos para crear modelos
predictivos y descriptivos de alta precisin

para grandes volmenes de datos. Ofrece una sencilla interfaz grfica que integra el
conjunto de herramientas necesario para la toma de decisiones.

La solucin Enterprise Miner se basa en la metodologa SEMMA (Sample, Explore,


Modify, Model, Assess) desarrollada por SAS Institute y puede definirse de la siguiente
forma:

Muestra (Sample): Consiste en identificar los datos.

Explora (Explore): Su funcin se traduce en explorar los conjuntos de datos para


observar huellas inesperadas, relaciones, patrones, u observaciones inusuales,
con nodos para representar los datos, generar una amplia variedad de anlisis,
identificar las variables importantes, o realizar anlisis de asociacin.
Modificar (Modify): Consiste en preparar los datos para el anlisis. Los nodos
pueden crear variables adicionales o transformar las variables existentes para el
anlisis mediante la modificacin o la transformacin de la forma en la que las
variables se utilizan en el anlisis, filtrar los datos, sustituir los valores perdidos,
condensar y contraer los datos en preparacin para el modelado de series, o
realizar anlisis de conglomerados.

Modelo (Model): Donde se adapta el modelo estadstico. Los nodos predicen la


variable objetivo en funcin de las variables de entrada mediante el uso de
cualquier mtodo: mnimos cuadrados o regresin logstica, rboles de decisin,
redes neuronales, redes dmneural, definido por el usuario, conjunto, vecino ms
cercano, o el modelado de dos etapas.

Evaluar (Asses): Donde es posible comparar la exactitud entre los modelos


estadsticos, con nodos para comparar el desempeo de los diversos modelos de
clasificacin mediante la visualizacin de las estimaciones de probabilidad en
competencia de los grficos de elevacin, grficos ROC y tablas de umbral. Para
diseos de modelado predictivo, el rendimiento de cada modelo y los supuestos
del modelo pueden ser verificados a partir de las parcelas de prediccin y
grficos de diagnstico.

Entre las principales caractersticas de esta herramienta destacan:

El acceso a los datos, la gestin y la limpieza se integran a la perfeccin, por lo


que es ms fcil de preparar los datos para el anlisis.

Alta integracin con otras bases de datos debido a la gran experiencia de la


empresa para operar con grandes volmenes de datos.

Proporciona slidas herramientas de modificacin y seleccin de los datos lo


que redundar en una mejora de su calidad, en un mejor modelado y en
resultados ms fiables.

Un entorno dinmico e interactivo que est optimizado para visualizar los datos
y comprender sus relaciones.
Ofrece uno de los conjuntos ms completos de algoritmos avanzados de
modelado predictivo y descriptivo, incluyendo rboles de decisin, splines de
regresin, redes neuronales, regresin lineal y logstica, regresin por mnimos
cuadrados parciales, y muchos ms. Tambin se incluyen modelos especficos de
la industria tales como la puntuacin de crdito y ratemaking para el seguro.

En resumen, se trata de una de las herramientas con ms potencia del mercado desde el
punto de vista de trabajar con grandes bases de datos; sin embargo, contrasta con el alto
precio que se ha de pagar por su licencia.

Resultado de aplicar un anlisis Cluster con SAS Enterprise Miner

http://www.sas.com/technologies/analytics/datamining/miner/
Salford Systems Data Mining

Salford Systems es una empresa especializada, entre


otras tareas, en la elaboracin de software de minera
de datos y consultora. A este respecto ofrece los
siguientes productos:

Software CART: ofrece una clasificacin multiplataforma robusta, con una


amplia variedad de anlisis de alta precisin de minera de datos. Es la nica
herramienta basada en rboles de decisin segn la metodologa desarrollada por
la Universidad de Stanford y la Universidad de Berkeley en California.

Ventana de resultados en CART


TreeNet: Basada en rboles de decisiones impulsadas. TreeNet es un sistema de
aproximacin de funciones y que tambin sirve como herramienta de
exploracin inicial de los datos.

RandomForests: Ofrece modelos predictivos de alto rendimiento e incorpora


nuevos anlisis de clster de mtrica libre.

SPM Salford Predictive Modeler: Cuenta con caractersticas adicionales


orientadas a mejorar los modelos predictivos.

Para utilizar cada uno de estos programas se ha de pagar su correspondiente licencia.

http://www.salfordsystems.com/

Oracle Data Mining

Oracle Data Mining (ODM) es una herramienta de software


desarrollada por la empresa Oracle para aplicar tcnicas de
minera de datos a grandes volmenes de datos.

A travs de esta herramienta se realizar el proceso de importacin de los datos, su


preparacin, as como el desarrollo y despliegue del modelo.

La herramienta ODM est basada en un esquema de flujo de trabajo, similar a otras


herramientas de minera de datos, siendo una extensin del SQLDeveloper, permitiendo
analizar los datos, explorar los datos, construir y evaluar modelos y aplicar estos
modelos a nuevos datos, as como compartir estos modelos en aplicaciones en lnea
entregando resultados en tiempo real. La herramienta integra todas las etapas del
proceso de la minera de datos y permite integrar los modelos en otras aplicaciones con
objetivos similares.
ODM funciona dentro de la base de datos de Oracle, as que no hay necesidad de
exportar los archivos a un paquete de software estadstico fuera de la base de datos, lo
que reduce los costos y mejorar la eficiencia. Con un lenguaje de procedimiento
integrado/ lenguaje de consulta estructurado (PL / SQL) e interfaces de Java de
programacin de aplicaciones (API), Oracle DM permite a los usuarios construir
modelos.

ODM ofrece dos versiones, una en la que a travs de una interfaz grfica los usuarios
podrn aplicar las tcnicas de mineras de datos que consideren necesarias y una versin
en la que los desarrolladores podrn utilizar la API de SQP para crear aplicaciones a
medida.

Ventana principal de Oracle Data Miner

Se trata de la herramienta ms potente para trabajar con bases de datos de Oracle, si


bien habr que pagar una licencia por su uso.

http://www.oracle.com/products/database/options/advancedanalytics/index.html
Rapid Miner

Esta herramienta forma parte del proyecto Rapidi. Este


proyecto naci en 2006 como SpinOff de la Universidad de
Dortmund, donde se inaugur la primera versin del software
en 2001.

Rapidi cuenta con dos componentes:

RapidMiner: Versin standalone para analistas. Implementa todos los


operadores de data mining, modelos predictivos, modelos descriptivos,
transformacin de datos, series de tiempo, etc.

RapidAnalytics: Versin Servidor de RapidMiner. Permite trabajo colaborativo,


escalable y concurrente de mltiples usuarios, capacidad de delegar en bases de
datos (InDatabase Mining) y otras mejoras de funcionalidad como: plataforma
Web de publicacin de informes, implementacin de sistemas de scoring, diseo
y navegacin Web de informes, Singlesign on e integracin va Servicios Web,
entre otras.

RapidMiner permite el desarrollo de procesos de anlisis de datos mediante el


encadenamiento de operadores a travs de un entorno grfico.

Entre las caractersticas principales de RapidMiner destacamos que:

Est desarrollado en Java.

Es multiplataforma.

Representacin interna de los procesos de anlisis de datos en ficheros XML.

Permite a los experimentos componerse de un gran nmero de operadores


anidables arbitrariamente, que se detallan en archivos XML.
Permite el desarrollo de programas a travs de un lenguaje de script.

Puede usarse de diversas maneras:

A travs de un GUI.

En lnea de comandos.

En batch (lotes)

Desde otros programas, a travs de llamadas a sus bibliotecas.

Extensible.

Incluye grficos y herramientas de visualizacin de datos.

Dispone de un mdulo de integracin con R.

Software de cdigo abierto.

Adems, esta aplicacin ofrece ms de 500 operadores para todos los principales
procedimientos de mquina de aprendizaje, y tambin combina esquemas de

aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka.

rboles de decisin con Rapidminer

http://rapidi.com/content/view/181/190/
KNIME

KNIME (Konstanz Information Miner) es una plataforma


de cdigo abierto de fcil uso y comprensible para
integracin de datos, procesamiento, anlisis y
exploracin.

Esta herramienta fue desarrollada originalmente en el departamento de Bioinformtica y


Minera de Datos de la Universidad de Constanza, Alemania, bajo la supervisin del
profesor Michael Berthold. En la actualidad, la empresa KNIME.com, radicada en
Zrich, Suiza, contina su desarrollo, adems de prestar servicios de formacin y
consultora.

KNIME ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberas de
datos, ejecutar selectivamente algunos o todos los pasos de anlisis, y luego estudiar los
resultados, modelos y vistas interactivas.

Est desarrollado sobre la plataforma Eclipse y programado, esencialmente, en Java.


Como otros entornos de este tipo, su uso se basa en el diseo de un flujo de ejecucin
que plasme las distintas etapas de un proyecto de minera de datos.

Para ello, KNIME proporciona distintos nodos agrupados en fichas, como, por ejemplo:

a) Entrada de datos [IO > Read]

b) Salida de datos [IO > Write]

c) Preprocesamiento [Data Manipulation], para filtrar, discretizar, normalizar,


filtrar, seleccionar variables, etc.

d) Minera de datos [Mining], para construir modelos (reglas de asociacin,


clustering, clasificacin, MDS, PCA)
e) Salida de resultados [Data Views] para mostrar resultados en pantalla (ya sea de
forma textual o grfica)

Por otro lado, a travs de plugins, los usuarios pueden aadir mdulos de texto,
imgenes, procesamiento de series de tiempo y la integracin de varios proyectos de
cdigo abierto, tales como el lenguaje de programacin R, WEKA, el kit de desarrollo
de Qumica y LIBSVM.

rboles de decisin con KNIME

http://www.knime.org/

R es un entorno estadstico tremendamente potente y completo. Las


llamadas a R se realizan en lnea de comando, si bien existen algunas
interfaces grficas (Rcommander, etc) que facilitan el uso de este
programa. Fue desarrollado inicialmente por el Departamento de
Estadstica de la Universidad de Auckland, Nueva Zelanda, en 1993.
R es un lenguaje de programacin y entorno de software de cdigo abierto para
computacin y grficos estadsticos. Proporciona mltiples tcnicas para simulacin,
modelado lineal y no lineal, anlisis de series temporales, pruebas estadsticas clsicas,
clasificacin, agrupacin en clsteres, etc.

El entorno de R se caracteriza por su flexibilidad e incluye, entre otros:

Un buen gestor de datos.

Un conjunto de operadores para clculos en arrays (vectores de gran tamao)

Un conjunto integrado de herramientas de anlisis de datos.

Funciones grficas para anlisis y visualizacin de los datos.

Un lenguaje de programacin simple que incluye condicionales, bucles,


funciones recursivas definidas por el usuario y capacidades de entrada y salida.

En relacin al proceso de minera de datos, R posee gran cantidad de paquetes


estadsticos tiles para realizar este proceso; en especial, destacaremos:

Rattle: que ofrece al usuario una interfaz grfica para aplicar tcnicas de minera
de datos a grandes bases de datos.

Interfaz de Rattle
Caret: que, ms all de integrar diversos algoritmos, incluye funciones auxiliares
tiles para seleccionar modelos, comparar la importancia de funciones, realizar
validaciones cruzadas, etc., utilizando una sintaxis coherente y homognea.

RDataMining. El objetivo de sus promotores es incluir en l algoritmos


publicados que no tengan todava implementacin en R.

Se trata de un software libre, distribuido bajo licencia GPL, muy extendido en la


comunidad universitaria y que est llamado a cobrar un papel cada vez ms relevante en
el mundo de las aplicaciones profesionales y de la empresa.

http://www.rproject.org/.

Orange

Se trata de una suite para minera de datos y aprendizaje


automtico, desarrollado en la Facultad de Informtica de la

Universidad de Ljubljana (Eslovenia)

Esta herramienta cuenta con un fcil y potente, rpido y verstil frontend de


programacin visual para el anlisis exploratorio de datos y visualizacin, y librerias
para Python y secuencias de comando.

Contiene un completo juego de componentes desarrollados en C++. para


preprocesamiento de datos, caractersticas de puntuacin y filtrado, modelado,
evaluacin del modelo y tcnicas de exploracin. A estos componentes se puede acceder
de dos formas:

Por medio de scripts desde Python.

Por medio de widgets (componentes GUI), desde CANVAS.

Se trata de una aplicacin multiplataforma y se distribuye bajo licencia GPL.


Adems, orange proporciona componentes para:

Entrada/salida de datos, soportando los formatos C4.5, assistant, retis y tab


(nativo)

Preprocesamiento de datos: seleccin, discretizacin, etc.

Modelado predictivo: rboles de clasificacin, regresin logstica, clasificador


de Bayes, reglas de asociacin, etc.

Mtodos de descripcin de los datos: mapas autoorganizados, kmeans


clustering, etc.

Tcnicas de validacin del modelo, como la validacin cruzada.

Flujo de trabajo y Clustering con Orange

http://orange.biolab.si/.

WEKA
WEKA, acrnimo de Waikato Environment for
Knowledge Analysis, es un conjunto de libreras JAVA
para la extraccin de conocimiento desde bases de datos.
Est constituido por una serie de paquetes de cdigo
abierto con diferentes tcnicas de preprocesado, clasificacin, agrupamiento, asociacin
y visualizacin.

Se trata de un software desarrollado en la Universidad de Waikato (Nueva Zelanda) bajo


licencia GNUGPL lo cual ha impulsado que sea una de las suites ms utilizadas en el
rea en los ltimos aos. Se trata de una herramienta de gran potencia, si bien no tiene
implementados, a fecha de hoy, algoritmos para la realizacin de un modelado de
secuencias.

: http://www.cs.waikato.ac.nz/ml/weka/.
Introduccin a WEKA

Introduccin

WEKA, acrnimo de Waikato Environment for Knowledge Analysis, es un entorno


para experimentacin de anlisis de datos que permite aplicar, analizar y evaluar las
tcnicas ms relevantes de anlisis de datos, principalmente las provenientes del
aprendizaje automtico, sobre cualquier conjunto de datos del usuario.

Este programa se distribuye como software de libre distribucin (licencia GNUGPL)


desarrollado en Java y dispone de tres entornos de trabajo grficos y un entorno en
modo consola, permitiendo la implementacin de algoritmos para preprocesamiento de
datos, clasificacin, regresin, clustering, seleccin de atributos, reglas de asociacin,
etc.

El desarrollo de WEKA se inici en 1993 en la Universidad de Waikato (Nueva


Zelanda) siendo la primera versin pblica Weka 2.1 la del ao 1996. Actualmente, la
ltima versin de WEKA es la 3.6 estando disponible para los principales sistemas
operativos tanto libres como comerciales.

WEKA se puede descargar en la web de la Universidad de Waikato a travs del enlace


http://www.cs.waikato.ac.nz/ml/weka/. Se puede consultar desde el manual de
referencia para la aplicacin y otras publicaciones relacionadas, como descargar
ejemplos para realizar ensayos con esta herramienta:
Web de WEKA

El potencial usuario podr descargar e instalar WEKA siguiendo las directrices del
manual de referencia. Una vez la instalacin se haya realizado de forma correcta podr
acceder a la herramienta cuya interfaz de inicio se muestra a continuacin:

Interfaz principal de WEKA

A travs de la interfaz se puede acceder a las distintas aplicaciones que componen


WEKA; esto es, Simple Clic, Explorer, Experimenter y Knowledge Flow. Todas estas
herramientas se explicarn en los siguientes puntos de este captulo.
Los datos

WEKA utiliza un formato de datos denominado arff (Attribute Relation File Format).

Cada uno de estos ficheros consta de 3 partes:

Cabecera. Definida por: @relation <nombreconjuntodedatos>


Declaracin de atributos o variables. A travs de:
@attribute <nombrevariable> <tipo>
siendo el valor de tipo: string, numeric, integer, date o nominal.
Seccin de datos. Definidos de la siguiente forma:
@data

donde se tendr una lnea para cada registro, los valores estarn separados por comas
y los valores perdidos se representan mediante el carcter?

Adems, es posible escribir comentarios en ese fichero, precedidos del carcter %.

Imagen 12: Ejemplo de fichero de datos arff

Simple CLI

Se trata de una de las aplicaciones a la que se puede acceder a travs de la interfaz


principal de WEKA.
Imagen 13: Interfaz de Simple CLI

Simple CLI es la abreviatura de Simple CommandLine Interface (Interfaz Simple de


Lnea de Comandos) y se define como una ventana de comandos java. Nace con la
primera versin de WEKA y a travs de ella se ejecutan las clases all implementadas.
Hoy da y debido a la aparicin de las otras aplicaciones que componen WEKA es
menos utilizada, ya que estas nuevas herramientas constan de interfaces grficas que
facilitan su uso por parte del usuario.

En la interfaz se pueden ejecutar los siguientes comandos:

java <nombredelaclase><args>: Permite ejecutar una determinada clase de


WEKA.
break: Detiene la tarea actual.
kill: Finaliza la tarea actual.
cls: Limpia el contenido de la consola.
history: Muestra el historial de ordenes ejecutadas.
exit: Sale de la aplicacin.

help <comando>: Proporciona una breve descripcin de cada mandato.


Explorer

Se trata de otra de las aplicaciones a la que se accede a travs de la interfaz principal de


WEKA. Esta herramienta permite, entre otras tareas, llevar a cabo la ejecucin de los
algoritmos de anlisis implementados sobre los ficheros de entrada. A estas
funcionalidades se puede acceder a travs de las siguientes pestaas:

Preprocess: permite la visualizacin y preprocesado de los datos (aplicacin de


filtros)
Classify: til para la aplicacin de algoritmos de clasificacin y regresin.
Cluster: conjunto de tcnicas de agrupacin.
Associate: mtodos de asociacin.
Select Attributes: seleccin de atributos.
Visualize: visualizacin de los datos por parejas de atributos.

Al entrar en la aplicacin, la interfaz aparecer vaca, mientras que la pestaa


Preprocess est seleccionada.
Imagen 14: Interfaz de Explorer con la pestaa Preprocess activada

Pestaa Preprocces
Esta es la primera pestaa de la aplicacin y es imprescindible para realizar cualquier
tipo de anlisis pues es en ella donde introduciremos los datos con los que vamos a
trabajar, bien a travs de un fichero (Open file), bien a travs de una url (Open URL),
bases de datos (Open Database) o bien introduciendo la informacin directamente en la
aplicacin (Generate)

Si en la web de WEKA hemos descargado previamente el fichero weather. arff, ahora


podremos cargarlo pulsando el botn Open file, siendo el resultado de ello el que se
muestra en la siguiente imagen.

Pestaa Preprocess con el fichero weather. arff cargado


Una vez cargado el fichero se visualizan los atributos o variables del fichero y para
aquellos que seleccionemos (Attributes) podremos ver un resumen estadstico

(Selected attribute)

Por otro lado, las herramientas de preprocesamiento se denominan filtro (Filter) y cada
filtro acta en uno de los siguientes niveles:

Atributos: Actan en vertical en la base de datos, modificando un atributo


completo. Ejemplo: Filtro de discretizacin.
Instancias: Actan en horizontal, seleccionando un grupo de registros
(instancias). Ejemplo: Filtro de seleccin aleatoria.

Para visualizar los filtros bastara pulsar el botn Choose dentro de la seccin Filter. Es
ah donde seleccionaremos que filtro utilizar en funcin de nuestro objetivo. Los filtros
se dividen en:

No supervisados: en su funcionamiento no interviene ningn algoritmo externo.


Supervisados: actan en conjuncin con clasificadores para analizar su efecto y
guiar su actuacin.

Por ejemplo, el filtro no supervisado Discretice divide el recorrido del atributo


numrico en intervalos, que pueden ser de la misma amplitud o con el mismo nmero
de observaciones (aproximadamente). Adems, se crea un atributo nominal en el que
cada categora corresponde a un intervalo.
Seleccin del tipo de filtro en la pestaa Preprocess

Pestaa Classify
En esta pestaa se podr definir y resolver un problema de clasificacin. Puede ocurrir
que, en ocasiones, el problema de clasificacin se formule como un refinamiento en el
anlisis, una vez que se han aplicado algoritmos no supervisados de agrupamiento y
asociacin para describir relaciones de inters en los datos.

Adems, se busca construir un modelo que permita predecir la categora de las


instancias en funcin de una serie de atributos de entrada. En el caso de WEKA, la
clase es simplemente uno de los atributos simblicos disponibles, que se convierte en
la variable objetivo a predecir. Por defecto, es el ltimo atributo (ltima columna) a no
ser que se indique otro explcitamente.
Pestaa Classify

Al pulsar sobre la pestaa aparece por defecto el clasificador ZeroR, si bien podr
seleccionarse otro pulsando el botn Choose.

En la parte inferior (Test options) se podrn incluir y modificar los parmetros


asociados al clasificador a travs de las opciones:

Use training set: En esta opcin se entrenar el mtodo con todos los datos
disponibles y luego se aplicar sobre los mismos.

Supplied test set: Marcando esta opcin tendremos la oportunidad de


seleccionar un fichero de datos con el que se probar el clasificador obtenido
con el mtodo de clasificacin usado y los datos iniciales.

Crossvalidation: La herramienta realizar una validacin cruzada estratificada


del nmero de particiones dado (Folds).

Percentage split: Se define un porcentaje de los datos con el que se construir el


clasificador y con la parte restante se realizarn las pruebas.
Para introducir ms opciones (Output Model, Output perclass stats, Output entropy
evaluation mesures, Output confusion matrix) pulsaramos el botn More options.
Finalmente, y pulsando el botn Start se podrn visualizar los resultados en la seccin
Classifier output en funcin del que hayamos seleccionado en la seccin Result list.

Pestaa Cluster
WEKA ofrece distintas posibilidades de aplicar algoritmos de clustering (o
clasificacin no supervisada) sobre los datos. Las tcnicas de clustering se utilizan en
bases de datos no supervisadas en las que la variable clase no existe (o no se ha
definido). As pues, el objetivo fundamental de esta tcnica es descubrir (class
discovery) dichas clases o estructuras diferenciadas en los datos de estudio. El
programa WEKA ofrece en la pestaa Cluster varios algoritmos de cluster, entre ellos
el de Kmedias y el EM.

Pestaa Cluster

La distribucin de las secciones y opciones de la seccin Cluster es muy similar al de


la pestaa Classify. Por lo tanto, una vez elegido el mtodo de clustering, se
seleccionan las opciones pertinentes, con el botn Start se ejecuta el proceso y en las
secciones Result list y Clusterer ouput se visualizarn los resultados.

Pestaa Associate
En esta pestaa el usuario podr realizar diferentes algoritmos de asociacin. Estos
algoritmos permiten la bsqueda automtica de reglas que relacionan conjuntos de
atributos entre s. Son algoritmos no supervisados, en el sentido de que no existen
relaciones conocidas a priori con las que contrastar la validez de los resultados, sino
que se evala si esas reglas son estadsticamente significativas.

Pestaa Associate

Pulsando el botn Choose elegiremos el algoritmo de asociacin que deseemos y


pulsando Start obtendremos los resultados que se podrn visualizar a travs de las
secciones Result list y Associator output.

Pestaa Select attributes


En esta pestaa trataremos de determinar qu atributos formarn parte del modelo; es
decir, eliminaremos aquellos atributos que resulten redundantes e irrelevantes.
Adems, si hay un nmero excesivo de atributos puede conllevar a obtener un modelo
demasiado complejo y se produzca sobreajuste.
En WEKA, la seleccin de atributos se puede hacer de varias maneras, siendo la ms
directa la que se realiza a travs de esta pestaa. En ella tenemos que seleccionar:

El mtodo de evaluacin (Attribute Evaluator): es la funcin que determina la


calidad del conjunto de atributos para discriminar la clase. Se pueden distinguir
entre los mtodos que directamente utilizan un clasificador especfico para
medir la calidad del subconjunto de atributos a travs de la tasa de error del
clasificador y los que no.
El mtodo de bsqueda (Search Method): es la manera de realizar la bsqueda
de conjuntos de forma eficiente.

Una vez seleccionado alguno de estos mtodos podremos determinar la forma en que
seleccionaran los atributos (usando un conjunto completo de entrenamiento o mediante
validacin cruzada) en la seccin Attribute Selection Mode.

Finalmente, los resultados obtenidos se podrn visualizar a travs de las secciones


Result list y Associator output.

Pestaa Select attributes


Pestaa Visualize
En ltimo lugar, aunque su utilizacin puede ser recomendable en las primeras etapas
del proceso de anlisis, se encuentra la pestaa Visualize.

La herramienta de visualizacin de WEKA permite presentar grficos 2D interactivos


que relacionen pares de atributos, con la opcin de utilizar adems los colores para
aadir informacin de un tercer atributo. Adems, permite detectar grficamente la
existencia de asociaciones y correlaciones entre atributos, as como seleccionar
instancias de forma grfica, que pueden ser almacenadas posteriormente en formato
arff.

Al pulsar sobre la pestaa, aparecern los grficos correspondientes a todas las


combinaciones posibles de atributos. Debajo de ellos aparecen varias opciones de
edicin de grficos:

Plot size: indica el tamao del grfico en pxeles.


Point Size: define el tamao del punto en pxeles.
Jitter: Crea un ruido aleatorio a las muestras, de manera que espacia las
muestras que estn fsicamente muy prximas, esto tiene utilidad cuando se
concentran tanto los puntos que no es posible discernir la cantidad de stos en
un rea.
Color: Indica los colores que se utilizarn para las clases de los atributos.

Podremos visualizar los cambios efectuados en el diseo de los grficos pulsando


Update, modificar el nmero de atributos que se van a representan eligindolos a travs
del botn Select attributes e indicar el tamao de la submuestra (SubSample)
Pestaa Visualize

Finalmente pulsando sobre cada grfico podemos verlo ampliado y modificar sus
atributos a travs de las opciones que existen al respecto, as como guardar en un
fichero arff los datos all visualizados.

Experimenter

Se trata de otra de las herramientas que aparecen en la interfaz inicial de WEKA y con
ella trataremos de comparar el rendimiento de los distintos algoritmos implementados
en la aplicacin. Adems, permite aplicar diferentes algoritmos sobre diferentes
conjuntos de datos, lo que resulta muy til para realizar contrastes de hiptesis o
elaborar indicadores estadsticos; resultando de gran importancia en problemas de
clasificacin y regresin.
Al acceder a esta herramienta se visualizan, en la parte superior, tres pestaas que
analizamos a continuacin:

Pestaa Setup
En ella, Experimenter se puede configurar de dos formas, Simple o Advanced:

Configuracin Simple:
Es la configuracin que aparece por defecto cuando se pulsa la pestaa
Experimenter. En ella habr que definir un fichero configuracin que contendr
todos los ajustes, ficheros involucrados, notas, etc, pertenecientes al experimento y
un fichero de salida donde se guardarn los resultados.

Seguidamente en la seccin Experiment Type se introducir el tipo de validacin


que tendr el experimento; esto es, validacincruzada estratificada, entrenamiento
con un porcentaje de la poblacin tomando ese porcentaje de forma aleatoria y
entrenamiento con un porcentaje de la poblacin tomando el porcentaje de forma
ordenada.

En la seccin Datasets indicaremos qu archivos de datos formarn parte del


experimento y debajo se encuentra la opcin Use relative paths, que se utiliza para
que las referencias a los ficheros sean relativas.
Pestaa Setup con configuracin Simple

En la seccin Iteration Control se introducir el nmero de repeticiones del


experimento, especificando si se quiere que se realicen primero los archivos de
datos o los algoritmos. Debajo de la seccin Algoritms el usuario podr introducir,
modificar o eliminar el algoritmo que desee.

Configuracin Advanced:
Esta configuracin est orientada a realizar tareas especficas ms concretas que
las obtenidas a travs de un experimento sencillo. A travs de esta opcin es
posible repetir el experimento variando el tamao del conjunto de datos, distribuir
la ejecucin del experimento entre varios ordenadores o realizar experimentos de
modo incremental.

Para comenzar a trabajar se ha de introducir el fichero configuracin, un fichero de


resultados e introducir y configurar el mtodo generador de resultados que vamos
a utilizar. WEKA permite los siguientes mtodos:
CrossValidationResultProducer: Genera resultados fruto de una validacin
cruzada.
AveragingResultProducer: Toma los resultados de un mtodo generador de
resultados y se calculan los promedios de los resultados.
LearningRateResultProducer: Llama a un mtodo generador de resultados
para ir repitiendo el experimento variando el tamao del conjunto de datos.
RandomSplitResultProducer: Crea un conjunto de entrenamiento y de prueba
aleatorio para un mtodo de clasificacin dado.
DatabaseResultProducer: A partir de una base de datos toma los resultados
que coinciden con los obtenidos con un mtodo generador de resultados.

Pestaa Setup con configuracin Advanced.

Una vez seleccionado el generador de resultados podemos editar algunas de sus


propiedades, adems de aadir algoritmos, en la seccin Generator properties,
mientras que en la seccin Runs se puede seleccionar las iteraciones con la que se
realizar el experimento.

Una de las caractersticas ms interesantes del modo experimentador es que


permite distribuir la ejecucin de un experimento entre varios ordenadores
mediante Java RMI. Esta tarea se llevar a cabo en la seccin Distribute
experiment.
Otras secciones de la herramienta son Iteration control, que es donde se establece
el orden de la iteracin y Datasets, donde se definen los conjuntos de datos sobre
los que actuarn los algoritmos de aprendizaje.

Pestaa Run
En esta pestaa el usuario ejecutar o detendr el experimento. En la seccin Log
aparecer cierta informacin sobre el proceso de ejecucin (hora de inicio, finalizacin,
posibles errores, etc.)

Pestaa Run

Pestaa Analyse
En esta pestaa analizaremos los datos; es decir, podremos ver los resultados de los
experimentos, realizar contrastes estadsticos, etc.
Pestaa Analyse
Una vez seleccionados, en la seccin Source, los datos de los resultados (pulsando File,
Database o Experiment) se define el test que queremos realizar en la seccin
Configure test; que tendr como opciones:

Testing with: Seleccin del test que vamos a aplicar.

Row: Define los atributos que actuarn como filas en la matriz de resultados.

Column: Define los atributos que actuarn como columnas en la matriz de


resultados.

Comparison fields: El atributo que va a ser comparado en el contraste.

Significance: Nivel de significacin para realizar el contraste estadstico.

Sorting (asc.) by: Obtener los resultados ordenados de forma ascendente segn
un atributo.

Test base: Seleccionamos qu algoritmo de los utilizados se usa de base para


realizar el test.

Displayed Columns: Columnas que se van a mostrar.

Show std. Deviations: Marcamos si queremos que se muestren las desviaciones


tpicas.
Output Format: Si deseamos almacenar los resultados del experimento.

Finalmente pulsando Perform test realizaremos el experimento cuyos resultados se


visualizarn en la seccin Test output.

KnowledgeFlow

La herramienta KnowledgeFlow (flujo de conocimiento) muestra de una forma grfica


el desarrollo del experimento que se realiza en WEKA. As pues, se basa en situar en el
panel de trabajo (Knowledge Flow Layout), elementos base (situados en la seccin
superior) de manera que creemos un circuito o flujo que defina nuestro experimento.

Interfaz de KnowledgeFlow
En la parte superior de la pantalla aparecen un conjunto de pestaas:

Data Sources: Donde elegiremos el fichero de entrada de datos. Existen varias


opciones y para seleccionarlas bastara con marcarlas con el botn izquierdo y
marcar el lugar donde la vamos a situar dentro del panel de trabajo.

Data Sinks: Donde elegiremos dnde se almacenarn los resultados del


experimento. La forma de seleccionarlos es anloga a la anteriormente descrita.
Filters: Donde definiremos los filtros que aplicaremos a los datos.

Classifiers: En este caso estableceremos algoritmos de clasificacin y


regresin.

Associations: Se aplicarn mtodos de asociacin a los datos.

Evaluation: Donde establecer distintas tcnicas de evaluacin de los resultados.

Visualize: Se podrn realizar los resultados y los grficos asociados al


experimento.

Para aadir las especificaciones de cada uno de los elementos que hayamos introducido
en el panel de trabajo habr que hacer doble click sobre cada uno de ellos. Ahora bien,
si queremos conectar dos elementos de ese panel de trabajo nos situaramos sobre uno
de ellos y haciendo click con el botn derecho del ratn estableceremos la orden que
vamos a realizar y grficamente seleccionaremos sobre qu elemento vamos a
aplicarlo.

Por ejemplo, si queremos realizar un proceso de validacin cruzada sobre un conjunto


de datos almacenados en un fichero arff, deberemos introducir esos dos elementos en
el panel de trabajo, uno a travs de la pestaa DataSources (seleccionando Arff Loader)
y el otro a travs de la pestaa Evaluation (seleccionando CrossValidation).

Una vez que hemos introducido el fichero con el que vamos a trabajar en el elemento
Arff Loader y dejado por defecto la configuracin de CrossValidation conectamos
ambos elementos pulsando el botn derecho sobre el elemento Arff Loader y
seleccionamos Dataset y seguidamente lo asignamos a CrossValidation. Este proceso
se visualiza en la siguiente imagen:
Interfaz de KnowledgeFlow una vez introducidos dos elementos
Siguiendo este proceso podremos construir un proceso completo y finalmente, si
queremos ejecutar el experimenter seleccionaremos la opcin Start Loading en
ArffLoader tal que al ejecutarse podremos ver los resultados obtenidos en cualquiera
de los dos visores finales.

Finalmente, y a modo indicativo, algunas de las componentes ms utilizadas en las


reas de visualizacin y evaluacin son:

a) rea Visualization:

DataVisualizer: Visualiza datos en 2D.

AtributteSummarizer: Histogramas, uno por atributo.

ModelPerformanceChart: Curvas ROC.

TextViewer: Visualiza datos o modelos en texto.

GraphViewer: Visualiza modelos de rboles.

b) rea Evaluation:

CrossValidationFoldMaker: Divide datasets en folds.

TrainTestSplitMaker: Divide un dataset en train/test.

ClassAsigner: Asigna un atributo como clase.

ClassValuePicker: Elige un valor como clase positiva.

ClassifierPerformanceEvaluator: Recolecta estadsticas para evaluacin batch.


IncrementalClassifierEvaluator: Recolecta estadsticas para
evaluacin incremental.

ClustererPerformanceEvaluator: Recolecta estadsticas para clustering.

PreddictionAppender: Aade predicciones de un clasificador a un dataset.

En conclusin, la aplicacin KnowledgeFlow proporciona una alternativa a Explorer


para aquellos que piensan en trminos de cmo los datos fluyen a travs del sistema.

CONCLUSIONES
La minera de datos es el proceso de exploracin, anlisis, extraccin y refinamiento de
grandes volmenes de informacin de manera automatizada, con el fin de descubrir
conocimiento, es decir informacin que ayude a la toma de decisiones. El conocimiento
es descubierto con la aplicacin de tcnicas de minera de datos que permiten revelar
modelos en los datos tomando en cuenta patrones esenciales que ayuden a cumplir con
la meta de la minera de datos
La meta del proyecto es al aplicar el proceso de minera de datos se busca que a partir
de un conjunto de datos se descubran uno o varios modelos que determinen los perfiles
profesionales mediante la aplicacin de tcnicas de minera de datos. Los datos se los ha
recopilado enfocados de dos formas: datos cualitativos y cuantitativos. Los datos
cuantitativos engloban los datos que se pueden aplicar como datos de una empresa,
mientras que los datos cualitativos correspondes a los obtenidos de un test que se ha
desarrollado para obtener los intereses, las capacidades, habilidades e inters de cada
uno.

A su vez para alcanzar la meta o propsito se ha planteado algunas fases como:


Investigar las caractersticas y variables ms anuentes de las fuentes de datos a utilizar,
comparar y seleccionar la tcnica de minera de datos de acuerdo al ambiente de
estudio, disear el modelo de minera de datos en base a las tcnicas seleccionadas,
interpretar y evaluar el modelo de minera de datos aplicado en un contexto real.

Das könnte Ihnen auch gefallen