Sie sind auf Seite 1von 56

Pgina 1

Tabla de contenidos
INTRODUCTION...................................................................................................................
...........................................2
DATOS
PREPARATION.....................................................................................................................
...............................3
V
Isualize
D
ATA
...................................................................................................................................................
..........3
D
ATA IMPORTACIN
...................................................................................................................................................
...............6
D
ATA EXPORTACIN
...................................................................................................................................................
.............11
F
ILE
F
ORMATS
...................................................................................................................................................
............16
DATOS CVS ARCHIVO
FORMAT...................................................................................................................................
...16
TXT y TVS FORMATO DE DATOS ARCHIVO
.......................................................................................................................17
PRN FORMATO DE DATOS ARCHIVO
.....................................................................................................................................18
DIF FORMATO DE DATOS ARCHIVO
......................................................................................................................................20

C4.5 DATOS ARCHIVO


FORMAT...................................................................................................................................
..22
DATOS EXCEL ARCHIVO
FORMAT.................................................................................................................................2
4
DATOS WEKA ARCHIVO
FORMAT..................................................................................................................................
25
XML DATOS ARCHIVO
FORMAT...................................................................................................................................
..27
HTML FORMATO DE DATOS ARCHIVO
..................................................................................................................................32
D
ATA
P
ARTITION
...................................................................................................................................................
........36
E
DIT
D
ATA
...................................................................................................................................................
..................37
DISEO EXPERIMENTO
................................................................................................................................................4
0
C
ONFIGURACIN DE EXPERIMENTOS
................................................................................................................................41
S
ELECCIN DE LOS CONJUNTOS DE DATOS
..............................................................................................................................................42
E
Xperiment

G
RAPH
...................................................................................................................................................
...45
Datos
sets.............................................................................................................................................
......................46
Preprocesamiento
methods.....................................................................................................................................
........48
Estndar
methods.....................................................................................................................................
................49
Mtodos de postprocesado
...........................................................................................................................................50
Estadstico
tests............................................................................................................................................
..............51
Visualizacin
modules.....................................................................................................................................
..........52
Connections...............................................................................................................................
...............................53
G
RAPH
M
GESTIN
...................................................................................................................................................
55
LA
LGORITHM PARMETROS DE CONFIGURACIN
..................................................................................................................56
G
Eneration DE
E
Xperimentos
.....................................................................................................................................57

M
ENU BAR
...................................................................................................................................................
..................59
T
OOL BAR
...................................................................................................................................................
...................62
S
STADO BAR
...................................................................................................................................................
................63
CARRERA
KEEL........................................................................................................................................
...............................64
L
AUNCHING
R
Naciones Unidas
K
ANGUILA
..................................................................................................................................................
64
V
RESULTADOS IEW
...................................................................................................................................................
............64
EDUCATIONAL.....................................................................................................................
.........................................65
YO
NTRODUCCIN
...................................................................................................................................................
...........65
M
ENU
B
Arkansas

...................................................................................................................................................
..................65
T
OOL BAR
...................................................................................................................................................
...................68
S
STADO BAR
...................................................................................................................................................
................69
C
ONFIGURACIN DE EXPERIMENTOS
................................................................................................................................70
S
ELECCIN DE LOS CONJUNTOS DE DATOS
..............................................................................................................................................71
E
Xperiment
G
RAPH
...................................................................................................................................................
...73
Datos
sets.............................................................................................................................................
......................74
Preprocesamiento
methods.....................................................................................................................................
........76
Estndar
methods.....................................................................................................................................
................77
Connections...............................................................................................................................
...............................78
G
RAPH
M
GESTIN

...................................................................................................................................................
79
LA
LGORITHM PARMETROS DE CONFIGURACIN
..................................................................................................................80
R
EXPERIMENTO ONU
...................................................................................................................................................
.......81

Pgina 2
2
INTRODUCCIN
QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes
modelos de minera de datos. Nos gustara
remarcar que esta es la primera herramienta de software de este tipo que contiene un cdigo
libre biblioteca de Java
Algoritmos Evolutivos aprendizaje. Las principales caractersticas de la quilla son:

Contiene algoritmos pre-procesamiento: transformacin, discretizacin, selecciones de


instancia y
selecciones de caractersticas.

Tambin contiene un conocimiento Extraccin Algoritmos Biblioteca, supervisado y no


supervisado,
destacando la incorporacin de mltiples algoritmos de aprendizaje evolutivo.

Cuenta con una biblioteca de anlisis estadstico para analizar algoritmos.

Contiene una interfaz fcil de usar, orientado al anlisis de algoritmos.

El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de
datos para utilizarlos en
futuros anlisis.
Podemos distinguir tres partes en el entorno grfico:

La preparacin de la parte Bases de datos permite a los usuarios crear diferentes particiones
de su propia
bases de datos o las bases de datos disponibles en la web quilla. Adems, es posible editar,
aplicar
transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o
una vista detallada
parcelas sobre un conjunto de datos concreto.


El Diseo de Experimentos parte tiene el objetivo de disear los experimentos deseados
utilizando
una interfaz grfica. Despus del experimento est diseado, la interfaz genera un archivo
.ZIP
que contiene una estructura de directorio con todos los archivos necesarios necesario para
ejecutar esos experimentos
en el equipo local.
La interfaz tambin permite al usuario aadir sus propios algoritmos para el ser la
experimentacin
diseado. El nico requisito es aceptar el formato de archivo de entrada de la quilla.
Incluso, no es
necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto
proporciona una muy
de manera flexible para el usuario comparar sus propios mtodos con los que est en quilla.

La Generacin de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear


sus propios algoritmos evolutivos utilizando una interfaz grfica. En esta versin de la
quilla, este
parte no se ha implementado.
Page 3
3
DATOS DE PREPARACIN
Las siguientes tareas son posibles de llevar a cabo en esta seccin:
Visualizar los datos: Esta opcin le permite visualizar conjuntos de datos de formato
QUILLA existentes.
Importacin de datos: Esta opcin le permite exportar archivos de formato QUILLA a
otros formatos.
Exportacin de datos: Esta opcin le permite importar otros archivos de formato a
formato QUILLA.
Hacer particiones: Esta opcin le permite realizar particiones de bases de datos KEEL
existentes.
Editar datos: Esta opcin le permite editar los conjuntos de datos de formato QUILLA
existentes.
Visualizar datos
Opcin Visualizar le permite ver informacin detallada sobre un conjunto de datos de
formato QUILLA existente.
Hay diferentes opciones para mostrar la informacin, se puede ver el contenido del
conjunto de datos, especfica
informacin sobre los atributos y comparar por medio de cartas dos atributos.
Figura 1. Proceso de visualizacin de datos.
Pgina 4
4

La Figura 1 muestra la ventana principal de esta opcin. En primer lugar, debe seleccionar
la ruta de datos de origen
conjunto (en formato QUILLA) que desea visualizar (ver Figura 2). Cuando se carga el
archivo, distinta
informacin sobre el conjunto de datos se muestra de acuerdo con la opcin seleccionada.
Figura 2. Cargar conjunto de datos para ver su contenido.
Vista de conjunto de datos. Si selecciona para visualizar esta informacin, usted puede
visualizar el contenido del conjunto de datos
seleccionado. La informacin no puede ser modificado; slo se puede visualizar (ver Figura
3).
Figura 3. Visualizar el contenido del conjunto de datos.
Atributo Info. En esta opcin, se puede obtener informacin detallada sobre los atributos
definidos en
establecen los datos. La informacin mostr en la parte superior de las ventanas es: tipo de
atributo (entero, real o
Nominal) y si el atributo es de entrada o de salida. Aparece Ms informacin en la parte
inferior izquierda de
la ventana. La informacin mostr depende del tipo de atributo, en el caso de entero o real
atribuir los valores de rango, la media y la varianza se muestran. En el caso de atributo
nominal, se
Slo ver sus posibles valores. Por ltimo, en la parte derecha inferior de la ventana, un
cuadro con la
distribucin de los valores del atributo se muestra tambin. La figura 4 muestra la
informacin de un verdadero atributo
y la Figura 5 muestra la informacin de un atributo nominal.
Figura 4. General y la informacin grfica sobre el atributo real.
Pgina 5
5
Figura 5. General y la informacin grfica sobre el atributo nominal.
Grficos 2D. En esta opcin, usted puede comparar los diferentes atributos. En primer
lugar, usted tiene que seleccionar los dos
atributos que desea comparar, para cada atributo que tiene disponible una lista con todos los
atributos de
conjunto de datos (ver Figura 6).
Figura 6. Seleccione los atributos para comparar.
Una vez seleccionados los atributos, lo que tienes que hacer clic en el botn "Ver tabla" y
un grfico se muestra.
Si usted necesita incluir el grfico generado en otro documento, puede utilizar los botones:
"Convertir a
PNG ": esta opcin guarda el grfico como una imagen PNG y" Conver a PDF ": esta
opcin guarda la
grfico como un documento PDF.
Figura 7. Grfico de comparar el atributo dos seleccionados
Figura 8. Grficas Visualizar 2D

Page 6
6
Importacin de datos
Opcin Importar le permite transformar tus archivos en diferentes formatos (txt, Excel,
XML, etc.) para QUILLA
formato. Tenga en cuenta que si usted desea utilizar sus propios conjuntos de datos, el
diseo de los experimentos slo se har
el uso de conjuntos de datos segn el formato QUILLA, se requerir, por tanto, un paso
previo de importacin.
Figura 1. Dos posibilidades para llevar a cabo el proceso de importacin.
La Figura 1 muestra las dos posibles opciones para importar conjuntos de datos. Una
opcin consiste en la importacin de una
conjunto de datos, la otra opcin consiste en la importacin de un conjunto de particiones
que tienes disponible en otra
formatos diferentes a formato quilla. En la continuacin, se muestra el proceso de las dos
opciones.
1. Importe conjunto de datos. Seleccione esta opcin si desea importar un solo archivo
desde otros formatos a
Formato de quilla. La Figura 2 muestra la ventana para esta opcin.
Figura 2. opcin Importar conjunto de datos.
Pgina 7
7
Para importar un conjunto de datos, es necesario los siguientes partes:
Paso 1. Seleccione Formato de entrada. En primer lugar, debe seleccionar el formato de
archivo de origen de la
conjunto de datos. El formato admitido son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList y Weka.
Las diferentes opciones se muestran en la Figura 3.
Figura 3. Formato admitido a convertir a formato QUILLA.
El botn "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 4. Especifique determinadas opciones de formato de archivo de origen.
Paso 2. Seleccione el archivo de origen. Despus de especificar el formato de archivo
utilizado en el archivo de origen, el camino de
este archivo se debe especificar (un navegador conocido de muchos otros Programms GUI
es
utilizado para definir este camino).
Figura 5. Especifique la ruta del archivo fuente.
Pgina 8
8
Paso 3. Guarde los archivos. Una vez que el tipo de conversin y el archivo de origen han
sido
configurado, debe hacer click en el botn Siguiente y, a continuacin, el original y el
archivo importado es

se muestra (vase la Figura 6).


Figura 6. El archivo original e importado.
Si estamos de acuerdo con la conversin hecho, hay dos opciones para guardar el archivo
importado:
1. Seleccione la importacin a la seccin de experimentos: si marca esta opcin y haga clic
en Guardar
botn, el conjunto de datos convertida ser incluido como opcin en los experimentos
quilla. Este
conjunto de datos estar disponible para ejecutar con los mtodos de la quilla.
2. No seleccione la importacin a la seccin de experimentos: si no selecciona esta opcin,
cuando
hacer clic en el botn Guardar, usted tiene que seleccionar el directorio de destino para la
establecen datos transformados.
2. Particiones de importacin. Seleccione esta opcin si tiene particiones de un conjunto
de datos realizado previamente en
otros formatos y que desea importar a la quilla formato. Esta opcin permite seleccionar un
conjunto de
formacin y archivos de prueba por separado. La Figura 7 muestra la ventana con respecto
a esta opcin.
Figura 7. opcin Importar particiones.
Para importar las particiones, es necesario los siguientes partes:
Paso 1. Seleccionar formato de entrada. En primer lugar, debe seleccionar el formato de
archivo de origen de la
conjunto de datos. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList y
Weka. Las diferentes opciones se muestran en la Figura 8.
Page 9
9
Figura 8. Formato admitido a convertir a formato QUILLA.
El botn "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 9. Especifique determinadas opciones de formato de archivo de origen.
Paso 2. Seleccione el archivo de origen. Despus de especificar el formato de archivo
utilizado en el archivo de origen, el camino de
este archivo debe ser especificado. Usted tiene que usar las flechas para incluir los archivos
en la formacin o la prueba
correctamente.
Pgina 10
10
Figura 10. Especifique las rutas de los archivos de origen.
Paso 3. Guarde los archivos. Una vez que el tipo de conversin y archivo de origen se han
configurado,
Debe hacer clic en el botn Siguiente y se muestran el original y el archivo importado (ver
Figura 11).

Figura 11. El archivo original e importado.


Si estamos de acuerdo con la conversin hecho, hay dos opciones para guardar el archivo
importado:
1. Seleccione la importacin a la seccin de experimentos: Si marca esta opcin, dos
nuevas opciones
estn disponibles. Con esta opcin se configura si el conjunto de datos es un conjunto de
datos reales o de laboratorio
y las particiones que usted est acostumbrado. Dos particiones son aplicables: k veces o
cruz 5x2
validacin. Entonces, cuando se selecciona el botn Guardar, y el conjunto de datos que os
volvis
se incluir como opcin en los experimentos quilla.
2. No seleccione la importacin a la seccin de experimentos: si no selecciona Importar a
la
seccin de experimentos, al hacer clic en el botn de guardar, usted tiene que seleccionar el
destino
directorio para los conjuntos de datos transformados.
Pgina 11
11
Exportacin de datos
Exportacin de datos le permite transformar los conjuntos de datos en formato QUILLA al
formato deseado (txt, Excel,
xml, html mesa, etc.).
Figura 1. Dos posibilidades para llevar a cabo el proceso de exportacin.
La Figura 1 muestra las dos posibles opciones para exportar conjuntos de datos. Una opcin
consiste en exportar uno
conjunto de datos, la otra opcin consiste en exportar un conjunto de particiones que tienes
disponible en otra
formatos diferentes a formato quilla. En la continuacin, se muestra el proceso de las dos
opciones.
1. Exportacin conjunto de datos. Seleccione esta opcin si desea exportar slo un nico
archivo de formato de quilla hasta
otro formato (vase la Figura 2).
Figura 2. opcin Exportar conjunto de datos.
Pgina 12
12
Esta opcin consiste en las siguientes partes:
Paso 1. Seleccione el archivo de origen. En primer lugar, se debe especificar la ruta de
acceso de archivo de origen (un
comnmente conocido navegador de muchos otros Programms GUI se usa para definir este
camino).
Figura 3. Especifique la ruta del archivo fuente.
Paso 2. Seleccionar formato de entrada. Despus de elegir el archivo, debe seleccionar el
formato de

archivo de destino. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList
y Weka. Las diferentes opciones se muestran en la Figura 4.
Figura 4. Formato admiti convertir de formato de quilla.
El botn "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 5. Especifique determinadas opciones de formato de archivo de destino.
Paso 3. Guarde los archivos. Una vez que el tipo de conversin y la ruta del archivo se
han configurado,
debe hacer clic en el botn Siguiente y, a continuacin, se muestra la original y el archivo
exportado (ver Figura
6).
Pgina 13
13
Figura 6. Previsualizacin del archivo original y exportado.
Si estamos de acuerdo con la conversin hecho, hace clic en el botn Guardar y usted
puede seleccionar el
directorio de destino para el conjunto de datos transformado.
2. Exportar particiones. Seleccione esta opcin si ha realizado previamente las particiones
en QUILLA
formatear y desea exportarlos a otro formato. Esta opcin permite seleccionar un conjunto
de entrenamiento
y la prueba de los archivos por separado. La Figura 7 muestra la ventana con respecto a esta
opcin.
Figura 7. opcin Exportar particiones.
Pgina 14
14
Esta opcin consiste en las siguientes partes:
Paso 1. Seleccione los archivos de origen. En primer lugar, se debe especificar la ruta de
acceso del archivo de origen. Usted
tener que usar las flechas para incluir los archivos en la formacin o la prueba
correctamente.
Figura 8. Especifique las rutas de los archivos de origen.
Paso 2. Seleccionar formato de entrada. Despus de elegir el archivo, debe seleccionar el
tipo de conversin.
Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif, PropertyList y Weka. Los
diferentes opciones se muestran en la Figura 9.
Figura 9. Formato admitido a convertir a formato QUILLA.
El botn "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 10. Especifique determinadas opciones de formato de archivo de destino.
Pgina 15
15

Paso 3. Guarde los archivos. Una vez que el tipo de conversin y la ruta del archivo se
han configurado,
debe hacer clic en el botn Siguiente y se muestra la original y el archivo exportado (vase
la Figura 11).
Figura 11. Previsualizacin del archivo original y exportado.
Si estamos de acuerdo con la conversin hecho, hace clic en el botn Guardar y usted
puede seleccionar el
directorio de destino para el conjunto de datos transformado.
Pgina 16
16
Formatos de archivo
Hay diferentes formatos de los datos con los que se puede trabajar en la herramienta
QUILLA. Despus, lo haremos
mostrar los diferentes formatos disponibles.
CVS FORMATO DE DATOS ARCHIVO
El archivo CSV (separados por comas-valores). CSV es una implementacin de un archivo
de texto delimitado,
que utiliza una coma para separar los valores. El formato de archivo CSV es muy simple y
con el apoyo de
casi todas las hojas de clculo y sistemas de gestin de bases de datos
Las caractersticas de estos archivos son los siguientes:
El primer registro en un archivo CSV puede ser un nombre que contiene registro de
encabezado de las columnas.
Cada registro en un archivo puede tener menos campos que el nmero de cabeceras de
las columnas. En este caso,
valores vacos se consideran valores perdidos.
Cada fila debe tener el mismo nmero de campos separados por comas.
Dos comas adyacente o coma al principio o al final de la lnea (espacio-caracteres)
indicar los valores nulos.
La separacin del todo y la parte fraccionaria de los nmeros reales se realiza a travs de
un
punto en lugar de una coma.
El smbolo de la separacin de los nmeros decimales es un punto en lugar de una coma.
iniciales y finales espaciales personajes adyacentes a separadores de campo coma se
ignoran.
Cada registro es una lnea terminada por un carcter de nueva lnea o un retorno de carro.
sern ignorados Las lneas en blanco.
Los campos que contienen caracteres de doble cotizacin debe estar rodeado de comillas
dobles, y
las dobles comillas incrustadas debern estar representados cada uno por un par de doble
consecutivo
citas.
Los campos con espacios iniciales o finales o comas debe delimitarse con comillas
dobles
personajes.

El delimitador de los valores puede ser otro personaje distinto al coma. Muchos
implementaciones de CSV permiten un separador alternativo para ser utilizado, tales como
el carcter pestaa
y el formato resultante es TSV (valores separados Tab).
El ltimo registro de un archivo se puede acabar o no con el carcter de fin de lnea.
Estos archivos se almacenan, por defecto, con la extensin. "CSV".
Pgina 17
17
Los (valores separados por comas-CSV) archivos de datos deben tener el siguiente
formato:
Un ejemplo de archivo CSV vlido es:
En este ejemplo podemos ver el uso de ciertas reglas explic antes, como valor nulo
expresado en dos comas consecutivo, el uso de la coma decimal como separador para los
nmeros reales
y el uso de comillas dobles para utilizar el valor de la coma simple como parte de los datos
y no como una
separador.
Otro ejemplo de archivo CSV vlido es:
TXT y TVS FORMATO DE DATOS ARCHIVO
El TXT (texto separado por aqu) o TSV (Valores separados por tabulaciones), es un dato
de texto simple que
permite a los datos tabulares a intercambiar entre las aplicaciones con un formato interno
diferente. Valores
separados por pestaas se han registrado oficialmente como un tipo MIME (Multipurpose
Internet Mail
Extensiones) bajo el texto / nombre de la ficha de valores separados.
Las caractersticas de estos archivos son los siguientes:
Un archivo en formato TXT consiste en lneas. Cada lnea contiene campos separados el
uno del otro
por el carcter de tabulacin (tab horizontal, HT, control de cdigo 9 en ASCII).
atributo
1
, Atribuir
2
, ..., Atributo
N
valor
11
, El valor
12
, ..., Valor
1N
...
valor
M1

, El valor
M2
, ..., Valor
Minnesota
Nombre, Apellido, Empresa, EmailAddress
Johnathan, Doe, "Compaa ABC", "johndoe@abccompany.com"
Harrie, Wong, "Company Inc.", "Hwong@myprovider.com"
Mara, "Jo Smith", "Cualquier Corp.", "Mjsmith@myprovider.com"
OBS, CAREXPEND, DISPOSINC, DOLLARVALUE, SALARIOS
"1960: 1", 14.2,362,, 270.7
"1960: 2", 14.1,365.9,, 273.4
"1960: 3", 14.6,367.6,, 273.9
"1960: 4", 13.2,369.2,, 273.3
"1961: 1", 10.8,72.9,, 273.7
"1961: 2", 11.7,378.4,, 277.6
"1961: 3", 12.2,385.1,, 282.2
"1961: 4", 13.7,393.2,, 288.4
Pgina 18
18
Los campos puede ser cualquier cadena de caracteres, excluyendo pestaas. Sin
embargo, las pestaas por lo general no aparecen en
elementos de datos que desea para tabular, as que esto es rara vez una restriccin. Hay
varios otros
formatos que son muy similares a TSV, pero utilizan un separador diferente, como por
comas
Valores separados (CSV), que utiliza la coma como separador. Las comas, espacios, y otra
personajes a menudo se utilizan como separadores en formatos aparecen con bastante
frecuencia en los datos para ser
tabulada, al menos en los campos de cabecera.
Cada lnea debe contener el mismo nmero de campos.
La primera lnea contiene el nombre de los campos o atributos, es decir, los encabezados
de columna.
Un valor vaco se muestra como un campo vaco entre las pestaas.
Estos archivos pueden ser ledos y editados por cualquier editor de texto.
Aunque TSV es un formato de texto, este tipo de formato no se espera que aparece con
un bonito
formato tabular cuando se imprime con un editor oa la izquierda de la pantalla.
La extensin de este tipo de archivo es. "Txt" 'o ". Tsv.
El TXT (texto separado por tabuladores) o TSV (valores de texto / Separado Tab)
archivos de datos debe
tener el siguiente formato:
Un ejemplo de TXT vlida o archivo TSV es el siguiente:
PRN FORMATO DE DATOS ARCHIVO
Este formato tiene las mismas caractersticas y limitaciones que el formato CSV, la
diferencia es el

separador entre campos en formato PRN son espacios. Sin embargo, los espacios en
formato PRN tienen una
diferente papel que en los archivos de CVS.
atributo
1
<TAB> atributo <TAB> ... <TAB> atributo
N
valor
11
<TAB> Valor
12
<TAB> ... <TAB> Valor
1N
...
valor
M1
<TAB> Valor
M2
<TAB> ... <TAB> Valor
Minnesota
FirstName <TAB> Apellido <TAB> Empresa <TAB> EmailAddress
Johnathan <TAB> Doe <TAB> Compaa ABC <TAB> johndoe@abccompany.com
Harrie <TAB> Wong <TAB> Empresa <TAB> Inc. hwong@myprovider.com
Mara <TAB> Jo Smith <TAB> Cualquier <TAB> Corp <TAB>
mjsmith@myprovider.com "
Pgina 19
19
Las caractersticas de estos archivos son los siguientes:
El primer registro en un archivo PRN puede ser un nombre que contiene registro de
encabezado de las columnas.
Cada registro en un archivo con las cabeceras de las columnas puede tener menos
campos que el nmero de
cabeceras. En este caso, los valores vacos se consideran valores perdidos.
Cada fila debe tener el mismo nmero de campos separados por espacios.
Varios espacios juntos sern tratados como un solo espacio.
Los espacios al comienzo o al final de la lnea indican valores nulos.
El smbolo de la separacin de los nmeros decimales es un punto en lugar de una coma.
Cada registro es una lnea terminada por un carcter de nueva lnea o un retorno de carro.
sern ignorados Las lneas en blanco.
Los campos pueden contener cita doble, retorno de carro (o cualquier otro carcter).
Los campos que contienen carcter de espacio como valor debe estar rodeado por
comillas dobles.
Un registro con un solo campo sin ningn valor debe tener los requisitos de tipo texto a
prevenir que no se ignora.
El ltimo registro de un archivo se puede acabar o no con el fin del smbolo de lnea.

Estos archivos se almacenan por defecto, con la extensin ".prn".


Los archivos PRN tienen los datos separados por espacios en blanco. Por lo tanto, estos
archivos de datos deben tener la
siguiente formato:
Un ejemplo de un archivo PRN vlida es la siguiente:
atributo
1
atributo
2
... Atributo
N
valor
11
valor
12
... Valor
1N
...
valor
M1
valor
M2
... Valor
Minnesota
OBS DELL GE YAHOO
1 26,99 48,5 22,92
2 26 49,93 20,83
3 26,24 49,96 20,13
4 25,76 49,48 19,98
5 26,73 49,43 19,74
6 24,93 49,83 18,86
7 25,84 49,01 18,23
8 25,91 49,73 17,79
9 24.6 50.15 17.1
Pgina 20
20
DIF FORMATO DE DATOS ARCHIVO
DIF (Data Interchange Format) es un archivo de texto que se utiliza para importar /
exportar entre diferentes
programas de hojas de clculo como Excel, StarCalc, dBase, y as sucesivamente.
Este tipo de formato se almacena con la extensin ". Dif"
Las caractersticas de estos archivos son los siguientes:
El formato consta de una cabecera seguida de un bloque de datos. El encabezado
comienza con un archivo con
Formato de texto ASCII.

o cadena es cualquier cadena, a menudo es el nombre de archivo u otra informacin.


o columnas es el nmero de columnas de una hoja de clculo de Excel mediante el nombre.
o filas indica el nmero de filas de una hoja de clculo de Excel mediante el nombre.
La cabecera termina con lo siguiente:
Esta cabecera es seguida por las clulas y los registros de la hoja de clculo con el
informacin.
La estructura del registro de datos tiene el siguiente formato:
MESA
0,1
"Cuerda"
VECTORES
0, columnas
""
TUPLAS
0, filas
""
DATOS
0,0
""
DATOS
0,0
""
de tipo de datos, los datos
"Cuerda"
Pgina 21
21
donde tipo de datos admite varios tipos: ESPECIAL, numricos y CADENA,
representada por -1, 0 y 1, respectivamente.
o Tipo ESPECIAL
donde BOT y EOD son cadenas sin comillas. BOT representa el inicio
de la tabla y EOD final de la seccin de datos.
o tipo numrico
donde el valor del indicador indica el tipo de datos almacenados en los datos:
- VERDADERO: 1.
- FALSO: 0.
- V: cualquier valor numrico.
- NA: valor faltante.
- ERROR: 0.
o tipo STRING
donde cadena es cualquier carcter de texto.
Un ejemplo de un archivo DIF vlida es la siguiente:
-1,0
BOT
...
.1,0

EOD
0, los datos de
Valor-Indicador
1,0
"Cuerda"
Mes
Semana
Vehculo
Cantidad
Enero
1
Auto
105.000
Enero
1
Camin
1,050
Enero
1
Autobs
1,575
Enero
1
Camin
2,100
Enero
1
Moto 583
Pgina 22
22
El formato de archivo interno DIF generado es el siguiente:
C4.5 FORMATO DE DATOS ARCHIVO
Los archivos se codifican de acuerdo al formato C4.5. Este formato consta de dos archivos,
uno de ellos es un
el nombre de archivo con extensin ".names", el otro es un archivo de datos con extensin
".data".
Las caractersticas de los archivos de nombres son los siguientes:
El archivo .names contiene una serie de entradas que describen las clases, atributos y
valores de
el conjunto de datos. Cada registro se termina con un punto, pero el punto se puede omitir
si sera
han sido el ltimo carcter de una lnea). Cada nombre se compone de una cadena de
caracteres sin
comas, comillas o de colon (a menos que escaparon por una barra vertical, |).

Un nombre puede contener un punto, pero este punto debe ser seguido por un espacio en
blanco.
espacios en blanco incrustados se permite sino mltiples espacios en blanco se sustituyen
por un nico
espacio.
MESA
0,1
"EXCEL"
VECTORES
0,6
""
TUPLAS
0,4
""
DATOS
0,0
""
-1,0
BOT
1,0
"Mes"
1,0
"Wek"
1,0
"Vehculo"
1,0
"Cantity"
-1,0
BOT
1,0
"Enero"
0,1
V
1,0
"Auto"
0,105.000
V
-1,0
BOT
1,0
"Enero"
0,1
V
1,0
"Camin"
0,1.050

V
-1,0
BOT
1,0
"Enero"
0,1
"Bus"
0,1.575
V
-1,0
BOT
1,0
"Enero"
0,1
"Camin"
0,2.100
V
-1,0
BOT
1,0
"Enero"
0,1
V
1,0
"Moto"
0583
V
-1,0
EOD
Pgina 23
23
El primer registro del archivo se enumeran los nombres de las clases, separados por
comas y
terminada por un punto. Cada lnea sucesiva entonces define un atributo, en el orden en que
que aparecern en los archivos .data, con el siguiente formato:
<Atributo de nombre: de tipo atributo>.
El nombre-atributo es un identificador seguido de dos puntos. El tipo de atributo
que debe ser uno de:
continua: si el atributo tiene unos valores continuos.
discreta <n>: la palabra 'discreta' seguido de un nmero entero que
indica cuntos valores puede tomar el atributo.
ignorar: indica que este atributo debe ser ignorada.
A | (barra vertical) significa que el resto de la lnea debe ser considerada como un
comentario.
Estos archivos se almacenan, por defecto, con la extensin. "Nombres".

El formato del archivo '.name' es el siguiente:


Las caractersticas de los archivos de datos son los siguientes:
El archivo contiene una lnea por el objeto. Cada lnea contiene los valores de los
atributos ordenados
de acuerdo con archivo .names, seguido por la clase de objeto, con todas las entradas
separadas por
comas.
El formato es el mismo que el archivo CVS (valores separados por comas), explica en
archivos CVS datos
Formato.
A los valores perdidos se indican con '?'.
Estos archivos se almacenan, por defecto, con la extensin. "Datos".
El formato del archivo '.data' es el siguiente:
clase 1, clase 2, ..., clase-N.
caracterstica-1: dominio.
caracterstica-2: dominio.
...
caracterstica-M: dominio.
valor
11
, El valor
12
, ..., Valor
1N
valor
21
, El valor
22
, ..., Valor
2N
...
valor
M1
, El valor
M2
, ..., Valor
Minnesota
Pgina 24
24
Un ejemplo de un archivo de datos C4.5 es la siguiente
contenido del archivo '.name':
contenido del archivo '.data':
FORMATO EXCEL DATOS ARCHIVO
Microsoft Excel es un programa de hoja de clculo escrito y distribuido por Microsoft. Es
actualmente el

ms utilizado hoja de clculo para sistemas operativos Microsoft Windows y Apple


Macintosh. Es
integrado como parte de Microsoft Office.
Una hoja de clculo es un programa que permite manipular datos numricos y
alfanumricos.
Las hojas de clculo estn dispuestos en filas y columnas. La interseccin de una fila /
columna se llama celda
Cada celda puede contener datos o una frmula que puede referirse al contenido de otras
clulas. Una hoja de clculo
contiene 256 columnas, que estn etiquetados con las letras (de la A a IV) y las filas con
nmeros
(1 a 65,536), haciendo un total de 16.777.216 clulas mediante hoja de clculo.
| En primer lugar el nombre de clases
bueno malo.
| Entonces los atributos
dur: continua.
wage1: continua.
wage2: continua.
wage3: continua.
cola: tc, ninguno, tcf.
hora: continuas.
pensiones: contr empl, allw ret, ninguno.
stby_pay: continua.
shift_diff: continua.
educ_allw: s, no.
festivos: continuas.
vacaciones: normal, generoso, por debajo del promedio.
lngtrm_disabil: s, no.
dntl_ins: medio, ninguno, lleno.
el duelo: s, no.
empl_hplan: medio, lleno, ninguno.
2,5.0,4.0,?, Ninguno, 37,?,?, 5, no, 11, debajo de la media, s, lleno, s, lleno, buena
3,2.0,2.5,?,?, 35, ninguno,?,?,?, 10, promedio,?,?, S, lleno, mal
3,4.5,4.5,5.0, ninguno, 40,?,?,?, No, 11, promedio,?, Media,?,?, Bueno
3,3.0,2.0,2.5, tc, 40, ninguno,?, 5, no, 10, debajo de la media, s, un medio, s, lleno, mal
Pgina 25
25
Debido a la versatilidad de las hojas de clculo modernas, se utilizan a veces para hacer
ms pequea
bases de datos, informes, y otros usos.
Formato de Microsoft Excel tiene extensin ".xls".
Un ejemplo de un archivo EXCEL vlido es:
WEKA FORMATO DE DATOS ARCHIVO
Los archivos de datos dbiles estn en el siguiente formato:

Encabezado. El nombre de la relacin se define como la primera lnea del archivo


ARFF. El formato es:
@ Relacin <nombre-de-relacin>
donde <relacin-name> es una cadena. La cadena debe ser citado si el nombre incluye
espacios.
Declaracin de atributos. Declaraciones de atributos toman la forma de una secuencia
de orderd
declaracionesattribute. Cada atributo en el conjunto de datos tiene su propia declaracin
queattribute
define de forma exclusiva el nombre de ese atributo y su tipo de datos. La orden de los
atributos son
declar indica la posicin de la columna en la seccin de datos del archivo. Por ejemplo, si
una
atributo es el tercero declar entonces Weka espera que todo lo que atribuye valores habr
encontrado en la columna tercera delimitado por comas. El formato de la
declaracinattribute es:
@ Atributo <atributo-name> <tipo de datos>
<Atributo-name>: debe comenzar con un carcter alfabtico. Si los espacios son para ser
incluido en el nombre y luego el nombre completo debe ser citado.
<Tipo de datos>: puede ser cualquiera de los cuatro tipos Actualmente (versin 3.2.1) con
el apoyo de
Weka:
Pgina 26
26
1) NUMERIC o REAL. Atributo numrico puede ser nmeros reales.
2) INTEGER. Atributo entero puede ser nmeros enteros.
3) FECHA. Fecha atributo es una cadena opcional que especifica cmo los valores de
fecha debe
ser analizado e impreso. La cadena de formato predeterminado acepta la norma ISO-8601
fecha y hora combinada formato: "aaaa-MM-dd'T'HH: mm: ss".
4) STRING. Atributos de Cuerda nos permiten crear atributos que contienen arbitraria
valores textuales.
5) enumerar. Enumerar atributo consiste en un conjunto de valores posibles
separados por comas (caracteres o cadenas), que puede tomar el atributo. Por
ejemplo, si tenemos un atributo que indica el tiempo podr'a Express:
@ Tiempo atributo {soleado, lluvioso, nublado}
Seccin de datos. La seccin de datos del archivo contiene la lnea de declaracin de
datos y el real
lneas de instancia. La declaracindata es una sola lnea que denota el comienzo del
segmento de datos
en el archivo. El formato es:
@ Datos
X11, X12, ..., X1n
X21, x22, ..., X2N

Cada instancia se representa en una sola lnea, con retornos de carro que denotan el final de
la
instancia.
Los valores de atributo para cada instancia estn delimitados por comas. Deben aparecer en
el orden
que fueron declarados en la seccin de encabezado (es decir, los datos correspondientes a la
n-sima
declaracinattribute es siempre el campo de n-simo del atributo).
Los valores perdidos estn representados por un nico signo de interrogacin, como en:
data
4.4,?, 1,5,?, Iris-setosa
Algunas de las especificaciones de este formato son:
o El nombre de la relacin y los atributos son de tipo cadena. Este tipo de cadena es el
mismo que
tipo de cadena utilizado en Java.
o Si cualquier nombre contiene espacios, es necesario incluir comillas dobles.
o Si usted necesita para indicar un valores perdidos, usted tiene que utilizar el smbolo "?".
o El smbolo de la separacin de los nmeros decimales es un punto en lugar de una coma.
o El smbolo de la separacin de datos en la seccin de datos es @ coma.
o Un smbolo% significa que el resto de la lnea debe ser considerada como un comentario.
o Estos archivos son las tiendas, por defecto, con la extensin ".arff".
Pgina 27
27
Los archivos de datos WEKA deben tener el siguiente formato:
Un ejemplo de un archivo de WEKA vlido es:
XML FORMATO DE DATOS ARCHIVO
XML (Extensible Markup Language) es un conjunto de reglas para definir etiquetas
semnticas que organizan un
documento en diferentes partes. XML es un metalenguaje que define la sintaxis para definir
otra
lenguajes de etiquetas estructurados.
Vamos a explicar el formato XML a seguir para convertir el archivo de datos
correctamente:
La primera lnea debe seguir la siguiente estructura:
<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes">
Usted puede tener varios atributos, algunos obligatorios y otros no lo son:
relation <relacin-name>
attribute <atributo-name-1> <tipo de datos>
...
attribute <atributo de nombre-N> <tipo de datos>
data
valor
11
, El valor
12

, El valor
1N
...
valor
M1
, El valor
M2
, El valor
Minnesota
% Comentario
tiemporelation
perspectivasattribute soleado, nublado, lluvioso
verdadera temperaturaattribute
verdadera humedadattribute
attribute viento VERDADERO, FALSO
juegoattribute s, no
data
soleado, 85,85, FALSO, no
soleado, 80,90, TRUE, sin
cubierto, 83,86, FALSO, s
lluvioso, 70,96, FALSO, s
lluvioso, 68,80, FALSO, s
Pgina 28
28
o Versin: indica la versin XML utilizado en el documento. Este campo es obligatorio.
o codificacin: indica la forma en que se ha codificado el documento. La opcin por
defecto es
UTF-8, pero podra haber otros, como UTF-16, US-ASCII, ISO-8859-1, etc. Este campo no
es
obligatorio salvo.
o independiente: especifica si otros documentos, como un DTD, estn obligados a
procesar el documento. El valor predeterminado es no "..
documentos XML deben seguir una estructura jerrquica por medio de etiquetas.
Elementos XML
puede contener otros elementos. Los elementos tambin pueden tener atributos, estos
siempre se expresan
como pares nombre-valor en la etiqueta de apertura del elemento.
Un documento bien formado debe ajustarse a las siguientes reglas:
Los nombres de elementos entre maysculas y minsculas, es decir, el siguiente es un
juego bien formada
par: <step> ... <step>, mientras que esto no es <step> ... </ paso>.
Los elementos no vacos estn delimitados por tanto una etiqueta de comienzo y una
etiqueta final.
Los valores de atributos siempre deben ser citados, utilizando comillas simples o dobles, y
cada

nombre de atributo debe aparecer slo una vez en cualquier elemento


Todos los espacios y retornos de carro se tienen en cuenta en los elementos.
Los nombres de los elementos no deben comenzar con las letras "xml".
Los nombres de los elementos no deben utilizar el carcter ":".
A pesar de que es permisible usar los caracteres "." Y "-" en los nombres de elementos, no
es
recomendada porque el archivo XML de procesamiento aplicacin puede interpretar estos
signos
como operadores. Por lo tanto estos caracteres se sustituirn en nuestra herramienta
por el carcter "_".
Caracteres No se debe utilizar "\" en los nombres de los elementos.
Los nombres pueden contener cualquier carcter alfanumrico, pero no pueden empezar
con una
carcter numrico o puntuacion.
Los caracteres especiales pueden ser representados ya sea mediante referencias a
entidades, o por medio de numrico
referencias de caracteres. Un ejemplo de una referencia de carcter numrico es "& #
x20AC;", que
se refiere al smbolo del euro a travs de su punto de cdigo Unicode en hexadecimal.
Una referencia de entidad es un marcador de posicin que representa esa entidad. Se
compone de la entidad de
nombre precedido por un signo ("
Y
") Y seguido por un punto y coma ("
;
"). XML tiene cinco
entidades declarar con anterioridad:
Y (ampersand) & amp;
<(menor que) & lt;
> (mayor que) & gt;
'(apstrofe) y apos;
"(comillas) & quot;
Pgina 29
29
comentarios se pueden colocar en cualquier parte del rbol, incluyendo en el texto si el
contenido de la
elemento es texto. Comentarios XML comienzan con <! - y terminan con -> .
<! - Esto es un comentario. ->
XML requiere que los elementos pueden anidar correctamente, es decir, elementos no
pueden solaparse. Por
ejemplo, el cdigo de abajo no es XML bien formado, debido a que el <em > y <strong >
elementos se superponen:
<! - FALSO! NO BIEN FORMADO XML! ->
<P> normal <em> subrayado <strong> fuerte subrayado </ em> fuerte </ strong> </ p>

Todos los documentos XML deben contener un nico par de etiquetas para definir el
elemento raz. Todos los dems
elementos deben estar anidados dentro del elemento raz. Todos los elementos pueden tener
sub (nios)
elementos. Sub elementos deben estar en pares y correctamente anidado dentro de su
elemento padre.
La etiqueta <root> indica el punto de inicio de los datos. Esta etiqueta puede tener
cualquier nombre. Si todo el
hijos de <root> no tienen el mismo nombre en la etiqueta <row>, el usuario debe introducir
el
nombre de esta etiqueta, de lo contrario, se supone que todos los nios tienen el mismo
valor.
Cada etiqueta <row> es padre de que existen etiquetas como atributos. El nombre en la
etiqueta de cada uno de
estos nios sern el nombre del atributo y el valor de la etiqueta es el valor de los datos de
la
atribuir.

Hay como etiquetas <fila> como filas de datos.


Un formato XML vlido para la quilla es la siguiente:
<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>
<Root>
<Fila1>
<Nombre-atributo-1> atributo-valor-11 </ attribute-name-1>
<Nombre-atributo-2> atributo-valor-12 </ attribute-name-2>
<Nombre-atributo-N> atributo-valor-1N </ attribute-name-N>
</ Fila1>
...
<RowM>
<Nombre-atributo-1> atributo-valor-M1 </ attribute-name-1>
<Nombre-atributo-2> atributo-valor-M2 </ attribute-name-2>
<Nombre-atributo-N> atributo-valor-MN </ attribute-name-N>
</ RowM>
</ Root>
Pgina 30
30
Otro formato XML vlido para Quilla es la siguiente:
Un ejemplo de un archivo XML vlido es el siguiente:
En este ejemplo hay:
9 atributos: Identificacin, curso, nombre, resumen, la numeracin, disableprintg,
customtitles, timecreated
y timemodified.
2 casos con estas 9 atributos.
La etiqueta principal es <root>

La etiqueta <cliente> contiene cada instancia. En xml archivo de datos de exportacin a


nuestra herramienta, el nombre de
esta etiqueta ser el mismo que el nombre de tiendas de relacin de datos en formato quilla.
<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>
<Root>
<Fila1>
<Nombre del campo = "atributo de nombre-1"> atributo-valor-11 </ field>
<Nombre del campo = "atributo de nombre-2"> atributo-valor-12 </ field>
<Nombre del campo = "atributo de nombre-N"> atributo-valor-1N </ field>
</ Fila1>
...
<RowM>
<Nombre del campo = "atributo de nombre-1"> atributo-valor-M1 </ field>
<Nombre del campo = "atributo de nombre-2"> atributo-valor-M2 </ field>
<Nombre del campo = "atributo de nombre-N"> atributo-valor-MN </ field>
</ RowM>
</ Root>
Pgina 31
31
<? Xml version = "1.0" encoding = "UTF-8"?>
<Root>
<Clientes>
<Id> 5 </ id>
<Curso> 66 </ curso>
<Nombre> Mi libro </ name>
<Summary> Resumen del libro </ summary>
<Numeracin> 2 </ numeracin>
<Disableprinting> 0 </ disableprinting>
<Customtitles> 1 </ customtitles>
<Timecreated> 1114095924 </ timecreated>
<Timemodified> 1114097355 </ timemodified>
</ Clientes>
<Clientes>
<Id> 6 </ id>
<Curso> 207 </ curso>
<Nombre> Mi libro </ name>
<Summary> Un resumen de la prueba </ summary>
<Numeracin> 1 </ numeracin>
<Disableprinting> 0 </ disableprinting>
<Customtitles> 0 </ customtitles>
<Timecreated> 1114095966 </ timecreated>
<Timemodified> 1114095966 </ timemodified>
</ Clientes>
</ Root>

Pgina 32
32
El siguiente ejemplo tiene otra estructura XML, pero los mismos datos que el ejemplo
anterior.
Se puede ver que hay 9 atributos y 2 casos de esto.
HTML FORMATO DE DATOS ARCHIVO
HTML, una extensin de Hypertext Markup Language, es el lenguaje de marcado
predominante para la web
pginas. Proporciona un medio para describir la estructura de la informacin basada en
texto en un documento
(Que denota cierto texto como encabezados, prrafos, listas, etc.) y para complementar el
texto con
formularios interactivos , incrustadas imgenes y otros objetos. HTML se escribe en forma
de etiquetas
(Conocidos como etiquetas), rodeado por parntesis angulares.
HTML es una aplicacin del SGML de acuerdo con la norma internacional ISO 8879.
XHTML es una
reformulacin de HTML 4 como aplicacin XML 1.0, y permite la compatibilidad con las
aplicaciones de usuario
ya admitidas HTML 4 siguiendo un conjunto de reglas.
Las etiquetas HTML bsicas son:
<HTML>: es la etiqueta que define el principio del documento.
<HEAD>: define la cabecera del documento, esta cabecera normalmente Contiene
informacin
sobre la pgina, como el ttulo, las etiquetas META para correcta indexacin de motores de
bsqueda, ESTILO
etiquetas, que determinan el diseo de la pgina, y JavaScript de codificacin para los
efectos especiales. Dentro
la cabecera <HEAD> encontramos:
<? Xml version = "1.0" encoding = "UTF-8"?>
<Root>
<Row>
<Field name = "id"> 5 </ field>
<Field name = "supuesto"> 66 </ field>
<Nombre del campo = "nombre"> Mi libro </ field>
<Nombre del campo = "resumen"> resumen del libro </ field>
<Field name = "numeracin"> 2 </ field>
<Field name = "disableprinting"> 0 </ field>
<Campo name = "customtitles"> 1 </ field>
<Nombre del campo = "timecreated"> 1114095924 </ field>
<Nombre del campo = "timemodified"> 1114097355 </ field>
</ Row>
<Row>
<Field name = "id"> 6 </ field>
<Field name = "supuesto"> 207 </ field>
<Nombre del campo = "nombre"> Mi libro </ field>

<Nombre del campo = "resumen"> Un resumen de la prueba </ field>


<Field name = "numeracin"> 1 </ field>
<Field name = "disableprinting"> 0 </ field>
<Campo name = "customtitles"> 0 </ field>
<Nombre del campo = "timecreated"> 1114095966 </ field>
<Nombre del campo = "timemodified"> 1114095966 </ field>
</ Row>
</ Root>
Pgina 33
33
o <TITLE>: define el ttulo de la pgina. Este ser visible en la barra de ttulo de la
navegador de los espectadores.
o <link>: define algunas caractersticas avanzadas, por ejemplo, hojas de estilo utilizadas
para la
el diseo de la pgina.
<BODY>: contiene el contenido principal o cuerpo del documento, aqu es donde usted
comenzar
escribir su documento y la colocacin de sus cdigos HTML. Se define comunes a
propiedades
toda la pgina, como el color y los mrgenes de fondo. Dentro del cuerpo puede <BODY>
usted
puede utilizar una gran variedad de etiquetas. La etiqueta que utilizamos en nuestra
herramienta es
o <TABLE>: Esta etiqueta define el comienzo de una tabla (el <TR> representa filas
y <TD> representa las clulas).
El formato se ha explicado anteriormente corresponde a una pgina de HTML es:
<HTML>
<HEAD>
...
</ HEAD>
<BODY>
...
<TABLE>
...
</ TABLE>
....
</ BODY>
</ HTML>
Tag <TABLE>
El modelo de tablas de HTML permite a los autores para organizar datos - texto, texto
preformateado, imgenes, enlaces,
formularios, campos de formulario, otras tablas, etc. - en filas y columnas de celdas.
Las tablas se definen con la etiqueta <table>. Una tabla se divide en filas (con la etiqueta
<tr>), y cada

fila se divide en celdas de datos (con la etiqueta <td>). Las cartas td gradas para "datos de
la tabla", que es el
contenido de una celda de datos. Una celda de datos puede contener texto, imgenes, listas,
prrafos, formas, lneas horizontales,
mesas, etc.
Diferentes etiquetas que definirn la estructura de la tabla para la obtencin de un archivo
de datos vlidos son:
o TR: La etiqueta <TR> nos permitir insertar filas en la tabla.
o TH: La etiqueta <TH> nos permitir definir la mesa principal tabla.
o TD: La etiqueta <TD> nos permitir insertar celdas en cada fila. Podemos insertar
cualquier elemento:
imgenes, listas, texto con formato e incluso otras mesas.
Pgina 34
34
El formato HTML vlido para Quilla es la siguiente:
<Table>
<Tr>
<Th> Encabezado 1 </ th>
<Th> Encabezado 2 </ th>
<Th> Encabezado 3 </ th>
</ Tr>
<Tr>
<Td> Valor 1 </ td>
<Td> Valor 2 </ td>
<Td> Valor 3 </ td>
</ Tr>
<Tr>
<Td> Valor 4 </ td>
<Td> Valor 5 </ td>
<Td> Valor 6 </ td>
</ Tr>
</ Table>
Un ejemplo de un archivo HTML vlido es el siguiente:
<Html>
<Head>
<h1 align = "center"> VEHCULOS </ h1>
</ Head>
<Body>
<Table border = "1" cellspacing = "1" cellpadding = "0">
<Tr align = "center">
<Td> Mes </ td>
<Td> Semana </ td>
<Td> Vehculo </ td>
<Td> Importe </ td>
</ Tr>

<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Coche </ td>
<Td> 105.0 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Camin </ td>
<Td> 1,05 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Moto </ td>
Pgina 35
35
<Td> 1.575 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Coche </ td>
<Td> 2.1 </ td>
</ Tr>
</ Table>
</ Body>
</ Html>
Pgina 36
36
Particin de datos
Particin de datos le permite realizar particiones de cualquier conjunto de datos de formato
QUILLA existente. Figura 1 muestra
la ventana principal de esta opcin.
Figura 1. Proceso de hacer particiones.
El proceso de particin se compone de las siguientes partes:
Paso 1. Seleccione Archivo. En primer lugar, usted debe elegir el camino del conjunto
completo de datos (en QUILLA
formato) que desea realizar particiones de la misma (ver figura 2).
Figura 2. Elige establecidos para hacer particiones de datos.
Paso 2. Tipo de particin . Una vez seleccionado el archivo, usted tiene que elegir el tipo
de particin.
Los diferentes tipos considerados son:

1. K veces la validacin cruzada: esta particin le permite configurar el nmero de veces


que
las particiones (si desea configurar las diferentes opciones, usted tiene que hacer clic en
Botn "Opciones").
2. 5x2 validacin cruzada: esta particin no permite configurar opciones.
3. Hold-Out: esta particin le permite configurar el nmero de particiones y el
porcentajes de capacitacin y de prueba (si desea configurar las diferentes opciones,
tienes que hacer clic en el botn "Opciones").
Figura 3. Tipo de Particin.
Pgina 37
37
Paso 3. Semilla . Para hacer las particiones del conjunto de datos, es necesario especificar
el azar
generador de ver para realizar el proceso de divisin.
Figura 4. Seleccione la semilla.
Paso 4: Hacer las particiones . Una vez que los pasos anteriores se han configurado, el
particiones se llevarn a cabo cuando se hace clic en el botn "Dividir". Los archivos
generados durante
el proceso de particin se almacenan en el directorio especificado en el paso 1 y el nombre
de ellos
archivos se da automticamente y depende del tipo de la particin seleccionada.
Editar Datos
Editar datos le permite editar cualquier conjunto de datos de formato QUILLA existentes
con el fin de aadir nuevos atributos, a
eliminar otros, para corregir algunos errores, etc.
Figura 1. Proceso de edicin de datos.
La Figura 1 muestra la ventana principal de esta opcin. En primer lugar, debe seleccionar
la ruta de datos de origen
conjunto (en formato QUILLA) que desea editar (ver Figura 2).
Figura 2. Cargar conjunto de datos para editar su contenido.
Una vez cargado el archivo, aparece su contenido sobre la mesa. Las modificaciones
pueden llevarse a cabo tanto
en los casos y en variables. En siguiente, se muestran las dos opciones.
1. Datos Edicin . En esta opcin nuevas instancias se podran aadir o instancias
existentes podran ser borrados
o modificado (vase la Figura 3).
Pgina 38
38
Figura 3. Datos Edition.
El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes
operaciones:

Modificar el contenido de la celda : si desea modificar el contenido de la celda que tiene


que hacer clic en

la celda que desea cambiar. A continuacin, slo tiene que escribir el nuevo valor, y si
es vlida, el contenido de la celda se modifica. De lo contrario, se muestra un dilogo de
error.

Eliminar una instancia : si desea eliminar una instancia, usted tiene que hacer clic en
cualquier celda
que corresponde a la instancia (fila) que desea eliminar. Entonces, un "Borrar
Se activa el botn instace ". Al hacer clic en l, se eliminar la instancia completa.

Aadir una nueva instancia: si desea agregar una nueva instancia, usted tiene que hacer
clic en la opcin "Agregar
Botn de Instancia ". A continuacin, se aade una nueva instancia, si se ha seleccionado
una celda, el nuevo
se aade ejemplo en la parte superior de la instancia en que haca la celda seleccionada. Si
no celular era
seleccionado, se aade una nueva instancia de la parte inferior de la tabla. La nueva
instancia tiene
valores vacos y las diferentes variables pueden ser llenadas haciendo click en los diferentes
las clulas.
2. Edicin de variables. En esta opcin de diferentes modificaciones en las variables
pueden ser llevadas a cabo (ver
La Figura 4).
Figura 4. Variable Edition.
El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes
operaciones:
Pgina 39
39

Aadir nuevas variables : si desea agregar nuevas variables, el "Agregar variable" botn
tiene
a hacer clic en. A continuacin, se aade una nueva fila a la parte inferior de la mesa y el
diferentes caractersticas pueden ser llenados.

Aadir nuevas variables : si quieres eliminar una variable, primero una variable tiene que
ser seleccionado
y luego en el botn "Eliminar Variable" se tiene que hacer clic.

Cambie los valores de rango : si desea cambiar los valores de rango, un real o entero
variable tiene que ser seleccionado. Si la variable seleccionada es "entero" o "Real", puede
modificar los valores de rango y, a continuacin, haga clic en el botn "Cambiar Range"
para cambiar el
informacin.

Cambie los valores nominales : si desea cambiar los valores nominales, un nominal

variable tiene que ser seleccionado. Si la variable seleccionada es nominal, se puede aadir
o
quitar los valores permitidos para esa variable mediante la lista y "Borrar" y "Agregar"
botn.

Cambio de atributos de tipo : si desea cambiar el tipo de variable, lo que tienes que hacer
clic en
la celda que desea cambiar de la columna "Tipo". A continuacin, puede modificar el
tipo de variable a travs de la lista especificando cualquier otro tipo.

Cambie el atributo "funcin" : si desea cambiar la funcin de atributo, usted tiene


hacer clic en la celda que desea cambiar de la columna "Funcin". Entonces puedes
modificar la "funcin" variable a travs de la lista especificando si se trata de "entrada" o
"Salida".
Cuando haya realizado todos los cambios, puede guardarlos en un archivo pulsando el
botn "Guardar".
Pgina 40
40
DISEO EXPERIMENTO
La parte Experimentos diseo tiene el objetivo de disear los experimentos deseados
utilizando un
interfaz grfica. Sin duda, esta es la herramienta ms innovadora integrada en este
programa. Los
objetivo es utilizar conjuntos de datos y algoritmos disponibles para generar una estructura
de directorio con toda la
archivos necesarios necesarios para ejecutar los experimentos diseados en el equipo local
seleccionado por el usuario.
Ahora, usted puede olvidarse de scripts y otros archivos de parmetros que hicieron ardua
el diseo de un
experimentar, y comenzar a utilizar las nuevas ventanas interfaz basada.
Con este programa, slo tiene que seleccionar los datos de entrada (conjuntos de datos), los
algoritmos que desee utilizar
y para hacer las conexiones oportunas entre ellos. Tambin es posible concatenar mtodos,
inserte pruebas estadsticas, etc ...
La tarea que es ms simplificado es probablemente la configuracin de los parmetros; todo
lo puede
hacerse desde un dilogo sencillo y sin necesidad de archivos de configuracin externos.
Esta parte de la quilla tiene dos objetivos principales: por un lado, puede utilizar el software
como una prueba y
herramienta de evaluacin durante el desarrollo de un algoritmo. Por otro lado, tambin es
una buena opcin
con el fin de comparar los nuevos desarrollos con algoritmos estndar ya implementado y
disponible
en Keel 1.0.

La interfaz permite al usuario aadir nuevos algoritmos para el experimento est diseado.
El nico
requisito es aceptar el formato de entrada y salida del archivo QUILLA (referirse a ellos en
el QUILLA
Manual de referencia ). Esto proporciona una forma muy flexible para el usuario comparar
con nuevos mtodos
los de KEEL 1.0.
Pgina 41
41
Configuracin de los experimentos
Cuando el experimentos se selecciona la opcin, la ventana principal del mdulo de
experimentos aparecer:
En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones
para emplear; la
opciones seleccionadas determinarn el tipo de mtodos y conjuntos de datos que estar
disponible para disear el
experimento.
Los tipos de particiones disponibles son los siguientes:
validacin cruzada k veces (el valor de k se debe especificar)
validacin cruzada 5x2
sin validacin
Pgina 42
42
Actualmente, el mdulo de experimentos KEEL ofrece los siguientes tipos de
experimentos:
Clasificacin
Regresin
El aprendizaje no supervisado
Cuando el tipo de experimento se ha seleccionado, el panel de seleccin de conjuntos de
datos se mostrar,
permitiendo continuar el diseo de experimentos.
Seleccin de conjuntos de datos
El comit de seleccin de conjuntos de datos muestra los conjuntos de datos disponibles
para el experimento actual. Sus contenidos
depender del tipo de experimento ya seleccionado:
Pgina 43
43
El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones
Seleccionar todo y Invertir
permite realizar la seleccin de fcil:
El botn Importar permite importar un puesto en el medio ambiente QUILLA datos
existentes, listo para ser

seleccionado para el experimento actual. Al hacer clic en l, la ventana principal de la


Herramienta de importacin de datos
se mostrar. El proceso para importar un nuevo conjunto de datos puede se describe en la
Gestin de Datos
seccin del mdulo del manual.
Si se aade un nuevo conjunto de datos, aparecern nuevos botones que permite al usuario
Invierte la seleccin actual
de los datos del usuario se pone, o para Seleccionar todo de ellos. Adems, es posible
aadir incluso ms conjuntos de datos
(Con la importacin de botn), o para Retire los conjuntos de datos seleccionados.
Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseo de
experimento puede continuar. Para hacer eso,
el usuario debe hacer clic en el panel grfico en blanco para establecer el nodo de conjuntos
de datos del experimento.
Pgina 44
44
En este punto, el mdulo de experimentos KEEL se compruebe si todas las particiones
necesarias de la actual
los conjuntos de datos seleccionados estn presentes. Si se encuentran algunas particiones
que faltan (por ejemplo, si el usuario selecciona un valor de k
diferente de los juegos disponibles en la distribucin estndar), la herramienta le pedir la
siguiente
mensaje:
Al hacer clic en s resultar en la generacin de las particiones que faltan dentro de la quilla
ambiente. Si el usuario selecciona No generar las particiones, esta advertencia se mostrar
de nuevo
antes de la generacin de la grfica experimento.
Pgina 45
45
Experimento Grfico
El grfico experimento muestra los componentes del experimento actual y describe la
relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el men de
la izquierda:
Este men tiene las siguientes categoras disponibles:
Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.
Mtodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.
Mtodos estndar: mtodos de minera de datos.
Mtodos de postprocesado: Post-proceso en los resultados de los mtodos estndar.
Las pruebas estadsticas: Los procedimientos estadsticos para contrastar los resultados
obtenidos en el experimento.
Mdulos de visualizacin: Mostrar los resultados de los experimentos de una forma
mejorada.
Conexiones: Vnculos entre los componentes del experimento.

Pgina 46
46
Los conjuntos de datos
Este mdulo permite al usuario editar los conjuntos de datos actuales seleccionados para el
experimento.
Como en el Select conjuntos de datos de panel, el usuario puede Aadir y Eliminar
conjuntos de datos para el experimento (de
los que ya estn registrados en el entorno QUILLA). Adems, todava es posible importar
nuevos conjuntos de datos.
Adems, el botn Editar permite al usuario indicar que las particiones (formacin y prueba)
deseos
usar. De esta manera, es posible alterar temporalmente los archivos que se incluirn en el
experimento.
Pgina 47
47
Este cuadro de dilogo muestra los archivos iniciales del conjunto de datos. A partir de ella,
es posible Retire un par de la formacin de un
par de archivos de entrenamiento / prueba, para quitar todos los archivos.
Adems, el dilogo permite a Aadir un nuevo pares de archivos de entrenamiento y de
prueba. Para ello, deben ser seleccionados
mediante el uso de los botones de bsqueda:
Por ltimo, tambin es posible aadir un conjunto completo de archivos de validacin
cruzada k-pliegue seleccionando el
nmero adecuado de pliegues y pulsando el botn Aadir cv k veces .
Pgina 48
48
Mtodos de preprocesamiento
Esta categora incluye varios mtodos de preprocesamiento
Transformar datos: Mtodos para transformar el formato de los datos: Nominal a
binario, decimal
escalamiento ....
Discretizers: Mtodo para convertir los datos reales o numricos en datos nominales.
Seleccin de caractersticas: Mtodos para seleccionar caractersticas de los datos.
Generacin Instancia: Mtodos para generar nuevas instancias de los casos originales
del
conjunto de datos.
Seleccin de instancia: Los mtodos para seleccionar los casos de los datos.
Valores perdidos: Mtodos para evaluar los datos que contienen valores perdidos.
Para aadir cualquier mtodo de preprocesamiento para el experimento actual, slo se
necesita para seleccionarla y haga clic en
en el grfico del experimento:
Pgina 49

49
Los mtodos estndar
Esta categora incluye los mtodos de minera de datos incluidos en la herramienta de la
quilla:
Reglas de asociacin : Los mtodos para la extraccin de reglas de asociacin de datos.
algoritmos de agrupamiento : La agrupacin de mtodos
rboles de decisin : Los mtodos para la construccin de rboles de decisin.
Aprendizaje Regla Fuzzy : Los mtodos para realizar el aprendizaje basado en reglas
difusas.
Hyperrectangles Aprendizaje : Los mtodos que utilizan hyperrectangles para extraer
conocimiento a partir de
datos.
Lazy aprendizaje : mtodos que no construyen un modelo en su fase de entrenamiento
Aprender.
Las redes neuronales : redes neuronales artificiales.
Aprendizaje Regla : Los mtodos para realizar el aprendizaje basado en normas.
Los clasificadores estadsticos : clasificadores basados en modelos estadsticos.
Modelos Estadsticos : Construccin de modelos estadsticos basados en datos.
Descubrimiento Subgrupo : Mtodos para el descubrimiento de subgrupos.
SVM : mquinas de vectores soporte.
regresin simblica : Los mtodos para la realizacin de procedimientos de regresin
simblicos.
Para aadir cualquier mtodo para el experimento actual, slo se necesita para seleccionarlo
y haga clic en el grfico de
el experimento:
Pgina 50
50
Mtodos de postprocesado
Esta categora incluye los mtodos de postprocesado incluidos en la herramienta de la
quilla:
postprocesado Regla Fuzzy : Los mtodos para la realizacin de una fase de postproceso
en los resultados
de un mtodo de extraccin Regla Fuzzy
Para aadir cualquier mtodo de postprocesado para el experimento actual, slo se necesita
para seleccionarla y haga clic en
en el grfico del experimento:
Pgina 51
51
Las pruebas estadsticas
Esta categora incluye varios mdulos estadsticos disponibles para contrastar experimentos
realizados con
la herramienta de software QUILLA:
Las pruebas de clasificacin : procedimientos estadsticos para contrastar los resultados
de la clasificacin

experimentos.
Las pruebas de regresin : procedimientos estadsticos para contrastar los resultados de
la regresin
experimentos.
Para aadir cualquier procedimiento estadstico para el experimento actual, slo se necesita
para seleccionarlo y haga clic en
la grfica del experimento:
Pgina 52
52
Mdulos de visualizacin
Esta categora incluye varios mdulos de visualizacin desarrolladas para analizar y
resumir la
resultados obtenidos en los experimentos:
Mostrar resultados (de clasificacin) : Mdulos para que resumen los resultados
obtenidos en la clasificacin
problemas.
Mostrar resultados (regresin) : Mdulos para que resumen los resultados obtenidos en
la regresin
problemas.
Mltiples Resultados (Clasificacin) : Mdulos para analizar los resultados obtenidos en
la clasificacin
problemas con mltiples algoritmos.
Mltiples Resultados (regresin) : Mdulos para analizar los resultados obtenidos en la
regresin
problemas con mltiples algoritmos.
Para aadir cualquier mdulo de visualizacin para el experimento actual, slo se necesita
para seleccionarlo y haga clic en
la grfica del experimento:
Pgina 53
53
Conexiones
Las conexiones permiten terminar el diseo del experimento, mediante la conexin de los
incluidos
mdulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar
tanto como
entradas o salidas de los mdulos.
1. Inserte conexin: para hacer una conexin, seleccione la
botn de la barra de herramientas de la izquierda. Entonces,
haga clic en el nodo de origen y, finalmente, haga clic en el nodo de destino.
2. Restricciones: hay algunas restricciones que deben ser considerados al realizar las
conexiones
entre los diferentes elementos:

Un conjunto de datos no puede tener entradas.


Los algoritmos de pre-procesamiento slo pueden recibir aportaciones de un conjunto de
datos u otro premtodo de proceso.

Mtodos de extraccin de conocimientos pueden recibir un flujo de un conjunto de datos, a


partir de una prealgoritmo de procesamiento o de un mtodo anterior.

Los mdulos de prueba y visualizacin deben recibir datos de entrada procedentes de un


mtodo o de una
algoritmo de post-procesamiento.

Mdulos de prueba y visualizacin no pueden tener salidas.

El grfico no puede tener ningn ciclo.


Pgina 54
54
Todas estas restricciones se verifican en tiempo de ejecucin cuando se ha creado una
conexin. Si uno de
estas conexiones no se permite, la aplicacin mostrar un mensaje de error. En siguientes
figuras algunos
ejemplos de grficos incorrectos se muestran:
Pgina 55
55
Gestin Grfico
El grfico permite realizar las siguientes operaciones de ms de sus elementos:
1. Men contextual: es posible acceder al men contextual haciendo clic con el botn
derecho
del ratn sobre un determinado nodo en la zona de dibujo. Este men depende del objeto
seleccionado
y nos permite eliminar objetos, para configurar los parmetros de algoritmos, etc ...
2. Seleccin objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con el
botn izquierdo del
ratn sobre l. Pero es posible seleccionar varios elementos, al hacer clic en una zona vaca
de la
rea y arrastrando el ratn hasta cubrir todos los objetos deseados dibujar.
3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de
la izquierda
botn del ratn, arrastrndolos hasta la posicin deseada. Otra forma es utilizar el
cursores del teclado.
4. Retire los objetos: Para eliminar un mdulo, seleccionarla y pulsar Supr clave. Tambin
es posible
y eliminar por el men de contexto, de la barra de herramientas.

Pgina 56
56
Configuracin de los parmetros del algoritmo
Una vez que un mdulo ha sido insertado en el grfico, es posible configurar el valor de sus
parmetros.
Para ello, el usuario tiene que hacer doble clic sobre el smbolo algoritmo y un cuadro de
dilogo se mostrar; adems,
este cuadro de dilogo puede demostrar a travs del men emergente que aparecer cuando
el botn derecho del
ratn se presiona (opcin Mostrar parmetros).
En la parte superior de este dilogo es posible establecer el nmero de veces que se
ejecutar el algoritmo
(Slo disponible para los mtodos aleatorios). Cada ejecucin se realizar mediante una
semilla generada a partir de la
semilla inicial. La segunda lista permite especificar en que los datos establece los
parmetros sern cambiados.
En la tabla se encuentra en el centro de la ventana, todos los parmetros del algoritmo se
establecen para su
valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores sern
apropiados para la
mtodo concreto; de lo contrario, aparecer un mensaje de error:
Por ltimo, el Default Values botn permite regresar todos los parmetros a sus valores por
defecto.
Pgina 57
57
Generacin de experimentos
Una vez que un experimento ha sido diseado, el usuario puede generar a travs de la
opcin Experimento Run
del men "Herramientas". Adems, es posible utilizar el botn de herramientas bar.
En este punto, la herramienta de software realizar varias pruebas acerca de la integridad
del experimento.
En primer lugar, si detecta que hay que faltan particiones para algunos de los conjuntos de
datos empleadas, la
siguiente dilogo se mostrar, lo que permite a regenerarlos:
Esta es la ltima oportunidad para generarlos. Else, el experimento se generar de forma
incorrecta.
En segundo lugar, si algunos de los elementos de la grfica no estn conectados por flujos,
la siguiente advertencia
ser pronta, y los nodos aislados sern descartados.
Si todo es correcto, el usuario tendr que seleccionar una ruta para el archivo zip del
experimento:
Pgina 58
58

El proceso de generacin genera un archivo ZIP que contiene todos los elementos
necesarios para ejecutar el
experimento. Si la generacin experimento se ha completado con xito, el siguiente
mensaje ser
se muestra.
El experimento debe ejecutarse mediante el RunKeel archivo jar situada en "experimento /
scripts"
En la siguiente imagen, podemos ver un ejemplo de la estructura de directorios que se crea.
Nosotros
ver que cuatro directorios se crean:

exe directorio : contiene todos los archivos jar de los algoritmos introducidos en el
experimento.

scripts de directorio : contiene los archivos de configuracin segn algoritmo. Adems,


contiene el
RunKeel.jar archivo que se utiliza para ejecutar el experimento.

conjuntos de datos de directorio: contiene el utilizado en el experimento. Un directorio


para cada conjunto de datos es
creado.

resultados directorio: contiene los archivos de salida generados por cada algoritmo.
Pgina 59
59
Barra de mens
Cada elemento de la barra de men contiene diferentes submens. Estas son las diferentes
opciones disponibles:
Men 1. Archivo

Nueva Experimento: crea un nuevo experimento.

Cargar Experimento: abre un experimento existente. En el cuadro de dilogo Abrir,


seleccione un
nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en
formato XML.

Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la primera


vez
que se guarda el experimento, se le pregunt acerca de la ruta de destino.

Guardar Experimento Como: ahorra experimento actual en un archivo XML. Se le pedir


sobre la ruta de destino.

Salir: cierra la herramienta de diseo de experimento. Si el experimento no se ha guardado


an,
usted puede hacerlo en este momento.
2. Men Ver

Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).
Inicialmente, es
activo.

Cuadrcula: muestra / oculta la cuadrcula de alineacin. Ayuda al usuario para facilitar la


alineacin de
los elementos insertados en el rea de drenaje. Inicialmente, es inactivo.

Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.

Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos
de datos / algoritmos.
Inicialmente, es activo.
Pgina 60
60
3. Men Editar

Deshacer: con esta opcin el usuario puede deshacer algunas acciones.

Rehacer: con este usuario opcin puede rehacer algunas acciones deshechas.

Seleccionar: permite a los usuarios seleccionar uno o ms elementos en la zona de dibujo.


4. Men Herramientas

Inserte flujo de datos: permite la conexin de las salidas del algoritmo (o conjunto de
datos) a las entradas de
otro algoritmo, la creacin de un flujo de datos que se ejecutar despus. Esta opcin es
tambin
disponible en la barra de la izquierda a travs del botn

Importacin de paquetes QUILLA algoritmo: el fin de insertar el mtodo de un usuario,


seleccione esta
opcin y explorar el camino para elegir el mtodo.

Instantnea: es posible guardar el diseo de experimentos en un archivo de formato de


imagen
(JPEG). De esta manera le permite insertar en cualquier documento, artculo, etc ...

Experimento Ejecutar: cuando experimento est totalmente diseado, utilice esta opcin
para crear una postal

archivo que contiene una estructura de directorio con todos los archivos necesarios para
ejecutar el diseo
experimento en el equipo local seleccionado por el usuario.

Semilla: establece el valor de la semilla utilizada por el generador de nmeros aleatorios.


Si hay
cualquier algoritmo (insertado en el experimento) que necesita para generar nmeros
aleatorios, se
se llevar en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede
establecer
Pgina 61
61
automticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el
de dilogo impulsada por esta opcin:

Opciones de ejecucin: permite seleccionar algunas opciones de rendimiento para aplicar


a la
experimento. En esta versin, la opcin definida es el siguiente:

Montn de Java Tamao : Indique el nmero de MB que se asignar en cada


la ejecucin del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer
una mayor
valor que la cantidad real de memoria RAM. El mnimo valor aceptado ha sido
establece en 32 MB.
5. Men de ayuda

Contenido: mostrar un cuadro de dilogo de ayuda que contiene informacin acerca de


cmo utilizar este
programa.

Acerca de ...: muestra un cuadro de dilogo con informacin bsica sobre el programa
como nombre,
autores, versin, etc ...
Pgina 62
62
Barra de herramientas
Para ayudar al usuario a encontrar las operaciones ms relevantes, la herramienta de
software Experimentos KEEL
proporciona una barra de herramientas con accesos directos a ellos.
La mayora de ellos tambin aparecen en la barra de men (por lo tanto, se refieren a la
seccin de la barra de mens para obtener adicional
informacin sobre ellos). La nica opcin que an no aparece en la barra de men es:
Eliminar : Esta opcin permite al usuario eliminar el mdulo seleccionado.

Pgina 63
63
Barra de estado
La barra de estado es una forma sencilla para proporcionar la informacin til de usuario
durante la generacin de
experimentos.
Se encuentra en la parte inferior de la ventana. Aqu aparecer informacin sobre el
bienestar de accin
llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o
botn. Varios
ejemplos se muestran a continuacin:
Pgina 64
64
RUN QUILLA
RunKeel Lanzamiento
Cuando el usuario se disea un experimento, se obtendr un archivo .ZIP que contiene
todos los archivos necesarios para
ejecutar el experimento en cualquier equipo que tenga una mquina virtual Java instalada.
Es necesario para
extraer el contenido del archivo comprimido y luego obtendr un directorio llamado
"experimento"
(Como lo haba llamado el experimento). En su interior, hay un nuevo directorio llamado
"scripts" en el que se
puede iniciar la aplicacin RunKEEL escribiendo java -jar RunKeel.jar en una consola.
Entonces la
experimento comienza a correr.
Cuando termine, el usuario obtendr en el smbolo del sistema el mensaje
EXPERIMENTO "
COMPLETADO SATISFACTORIAMENTE "
Ver resultados
Una vez que el plazo de experimento ha terminado, los archivos de resultados se pueden
encontrar en el resultado \ directorio.
Dependiendo del tipo de los mtodos utilizados en el experimento, los siguientes
directorios y archivos sern
disponible:
Mtodos : Para cada combinacin de un mtodo y un conjunto de datos, habr un
directorio, llamado
<MethodName> . <DataSetName>.
En el interior, se pueden encontrar los archivos de salida del mtodo (por lo general, una
formacin y una prueba
archivo de salida para cada particin, adems de todos los archivos de salida adicional
definido por el mtodo). Por
mayor referencia, consulte el Manual de Referencia QUILLA .
Exmenes: Para cada mdulo de prueba empleado, un nuevo directorio llamado con el
nombre de la prueba se

estar disponible. Este directorio contiene los archivos de salida obtenidos como resultado
de la
aplicacin del mtodo de ensayo.
Por otro lado, tenga en cuenta que los nuevos conjuntos de datos obtenidos como resultado
de la ejecucin de una
mtodo de pre-procesamiento se colocar en los conjuntos de datos \ directorio del
experimento, para permitir una mayor
el empleo de ellos con mtodos vinculados en el mismo experimento.
Pgina 65
Sesenta y cinco
EDUCATIVO
Introduccin
QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes
modelos de minera de datos. Nos gustara
remarcar que esta es la primera herramienta de software de este tipo que contiene un cdigo
libre biblioteca de Java
Algoritmos Evolutivos aprendizaje. Las principales caractersticas de la quilla son:

Contiene algoritmos pre-procesamiento: transformacin, discretizacin, selecciones de


instancia y
selecciones de caractersticas.

Tambin contiene un conocimiento Extraccin Algoritmos Biblioteca, supervisado y no


supervisado,
destacando la incorporacin de mltiples algoritmos de aprendizaje evolutivo.

Cuenta con una biblioteca de anlisis estadstico para analizar algoritmos.

Contiene una interfaz fcil de usar, orientado al anlisis de algoritmos.

El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de
datos para utilizarlos en
futuros anlisis.
Podemos distinguir tres partes en el entorno grfico:

La preparacin de la parte Bases de datos permite a los usuarios crear diferentes particiones
de su propia
bases de datos o las bases de datos disponibles en la web quilla. Adems, es posible editar,
aplicar
transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o
ver datailed
parcelas sobre un conjunto de datos concreto.

El Diseo de Experimentos parte tiene el objetivo de disear los experimentos deseados


utilizando

una interfaz grfica. Despus del experimento est diseado, la interfaz genera un archivo
.ZIP
que contiene una estructura de directorio con todos los archivos necesarios necesario para
ejecutar esos experimentos
en el equipo local
La interfaz tambin permite al usuario aadir sus propios algoritmos para el ser
experimentacin
diseado. El nico requisito es aceptar el formato de archivo de entrada de la quilla.
Incluso, no es
necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto
proporciona una muy
de manera flexible para el usuario comparar sus propios mtodos con los que est en quilla.

La Generacin de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear


sus propios algoritmos evolutivos utilizando una interfaz grfica. En esta versin de la
quilla, este
parte no se ha implementado.
Barra de mens
Cada elemento de la barra de men contiene diferentes submens. Estas son las diferentes
opciones disponibles:
Men 1. Archivo
Pgina 66
66
2. Nueva Experimento: crea un nuevo experimento.
3. Experimento de carga: se abre un experimento existente. En el cuadro de dilogo Abrir,
seleccione un
nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en
formato XML.
4. Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la
primera vez
que se guarda el experimento, se le pregunt acerca de la ruta de destino.
5. Guardar Como Experimento: ahorra experimento actual en un archivo XML. Se le
pedir
sobre la ruta de destino.
6. Salir: cierra la herramienta de diseo de experimento. Si el experimento no se ha
guardado an,
usted puede hacerlo en este momento.
3. Men Ver

Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).
Inicialmente, es
activo.

Cuadrcula: muestra / oculta la cuadrcula de alineacin. Ayuda al usuario para facilitar la


alineacin de

los elementos insertados en el rea de drenaje. Inicialmente, es inactivo.

Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.

Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos
de datos / algoritmos.
Inicialmente, es activo.
4. Men Editar

Deshacer: con esta opcin el usuario puede deshacer algunas acciones.

Rehacer: con este usuario opcin puede rehacer algunas acciones deshechas.
Pgina 67
67

Seleccionar: permite a los usuarios seleccionar uno o ms elementos en la zona de dibujo.


5. Men Herramientas

Inserte flujo de datos: permite la conexin de las salidas del algoritmo (o conjunto de
datos) a las entradas de
otro algoritmo, la creacin de un flujo de datos que se ejecutar despus. Esta opcin es
tambin
disponible en la barra de la izquierda a travs del botn

Importacin de paquetes QUILLA algoritmo: el fin de insertar el mtodo de un usuario,


seleccione esta
opcin y explorar el camino para elegir el mtodo.

Instantnea: es posible guardar el diseo de experimentos en un archivo de formato de


imagen
(JPEG). De esta manera le permite insertar en cualquier documento, artculo, etc ...

Experimento Ejecutar: cuando experimento est totalmente diseado, utilice esta opcin
para ejecutar la
experimento diseado y ver los resultados.

Semilla: establece el valor de la semilla utilizada por el generador de nmeros aleatorios.


Si hay
cualquier algoritmo (insertado en el experimento) que necesita para generar nmeros
aleatorios, se
se llevar en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede
establecer
automticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el
de dilogo impulsada por esta opcin:

Pgina 68
68

Opciones de ejecucin: permite seleccionar algunas opciones de rendimiento para aplicar


a la
experimento. En esta versin, la opcin definida es el siguiente:

Montn de Java Tamao : Indique el nmero de MB que se asignar en cada


la ejecucin del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer
una mayor
valor que la cantidad real de memoria RAM. El mnimo valor aceptado ha sido
establece en 32 MB.
6. Men de ayuda

Contenido: mostrar un cuadro de dilogo de ayuda que contiene informacin acerca de


cmo utilizar este
programa.

Acerca de ...: muestra un cuadro de dilogo con informacin bsica sobre el programa
como nombre,
autores, versin, etc ...
Barra de herramientas
Para ayudar al usuario a encontrar las operaciones ms relevantes, la herramienta de
software Experimentos KEEL
proporciona una barra de herramientas con accesos directos a ellos.
Pgina 69
69
La mayora de ellos tambin aparecen en la barra de men (por lo tanto, se refieren a la
seccin de la barra de mens para obtener adicional
informacin sobre ellos). La nica opcin que an no aparece en la barra de men es:
Eliminar : Esta opcin permite al usuario eliminar el mdulo seleccionado.
Barra de estado
La barra de estado es una forma sencilla para proporcionar la informacin til de usuario
durante la generacin de
experimentos.
Se encuentra en la parte inferior de la ventana. Aqu aparecer informacin sobre el
bienestar de accin
llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o
botn. Varios
ejemplos se muestran a continuacin:
Pgina 70
70
Configuracin de los experimentos

Cuando la Educacin se selecciona la opcin, la ventana principal del mdulo de


experimentos aparecer:
En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones
para emplear; la
opciones seleccionadas determinarn el tipo de mtodos y conjuntos de datos que estar
disponible para disear el
experimento.
Los tipos de particiones disponibles son los siguientes:
validacin cruzada k veces (el valor de k se debe especificar)
validacin cruzada 5x2
sin validacin
Actualmente, el mdulo de experimentos KEEL ofrece los siguientes tipos de
experimentos:
Pgina 71
71
Clasificacin
Regresin
Cuando el tipo de experimento se ha seleccionado, el panel de seleccin de conjuntos de
datos se mostrar,
permitiendo continuar el diseo de experimentos.
Seleccin de conjuntos de datos
El comit de seleccin de conjuntos de datos muestra los conjuntos de datos disponibles
para el experimento actual. Sus contenidos
depender del tipo de experimento ya seleccionado:
El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones
Seleccionar todo y Invertir
permite realizar la seleccin de fcil:
Pgina 72
72
El botn Importar permite importar un puesto en el medio ambiente QUILLA datos
existentes, listo para ser
seleccionado para el experimento actual. Al hacer clic en l, la ventana principal de la
Herramienta de importacin de datos
se mostrar. El proceso para importar un nuevo conjunto de datos puede se describe en la
Gestin de Datos
seccin del mdulo del manual.
Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseo de
experimento puede continuar. Para hacer eso,
el usuario debe hacer clic en el panel grfico en blanco para establecer el nodo de conjuntos
de datos del experimento.
Pgina 73
73
Experimento Grfico

El grfico experimento muestra los componentes del experimento actual y describe la


relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el men de
la izquierda:
Este men tiene las siguientes categoras disponibles:
Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.
Mtodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.
Mtodos estndar: mtodos de minera de datos.
Conexiones: Vnculos entre los componentes del experimento.
Pgina 74
74
Los conjuntos de datos
Este mdulo permite al usuario editar los conjuntos de datos actuales seleccionados para el
experimento.
Como en el Select conjuntos de datos de panel, el usuario puede Aadir y Eliminar
conjuntos de datos para el experimento (de
los que ya estn registrados en el entorno QUILLA). Adems, todava es posible importar
nuevos conjuntos de datos.
Adems, el botn Editar permite al usuario indicar que las particiones (formacin y prueba)
deseos
usar. De esta manera, es posible alterar temporalmente los archivos que se incluirn en el
experimento.
Pgina 75
75
Este cuadro de dilogo muestra los archivos iniciales del conjunto de datos. A partir de ella,
es posible Retire un par de la formacin de un
par de archivos de entrenamiento / prueba, para quitar todos los archivos.
Adems, el dilogo permite a Aadir un nuevo pares de archivos de entrenamiento y de
prueba. Para ello, deben ser seleccionados
mediante el uso de los botones de bsqueda:
Por ltimo, tambin es posible aadir un conjunto completo de archivos de validacin
cruzada k-pliegue seleccionando el
nmero adecuado de pliegues y pulsando el botn Aadir cv k veces .
Pgina 76
76
Mtodos de preprocesamiento
Esta categora incluye varios mtodos de preprocesamiento
Discretizers: Mtodo para convertir los datos reales o numricos en datos nominales.
Seleccin de caractersticas: Mtodos para seleccionar caractersticas de los datos.
Generacin Instancia: Mtodos para generar nuevas instancias de los casos originales
del
conjunto de datos.
Para aadir cualquier mtodo de preprocesamiento para el experimento actual, slo se
necesita para seleccionarla y haga clic en

en el grfico del experimento:


Pgina 77
77
Los mtodos estndar
Esta categora incluye los mtodos de minera de datos incluidos en la herramienta de la
quilla:
rboles de decisin : Los mtodos para la construccin de rboles de decisin.
Aprendizaje Regla Fuzzy : Los mtodos para realizar el aprendizaje basado en reglas
difusas.
Las redes neuronales : redes neuronales artificiales.
Aprendizaje Regla : Los mtodos para realizar el aprendizaje basado en normas.
Los clasificadores estadsticos : clasificadores basados en modelos estadsticos.
Modelos Estadsticos : Construccin de modelos estadsticos basados en datos.
SVM : mquinas de vectores soporte.
Para aadir cualquier mtodo para el experimento actual, slo se necesita para seleccionarlo
y haga clic en el grfico de
el experimento:
Pgina 78
78
Conexiones
Las conexiones permiten terminar el diseo del experimento, mediante la conexin de los
incluidos
mdulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar
tanto como
entradas o salidas de los mdulos.
1. Inserte conexin: para hacer una conexin, seleccione la
botn de la herramienta de la izquierda
bar. A continuacin, haga clic en el nodo de origen y, finalmente, haga clic en el objetivo
node.
2. Restricciones: hay algunas restricciones que deben ser considerados al hacer
conexiones entre los diferentes elementos:
1. Un conjunto de datos no puede tener entradas.
2. Los algoritmos de pre-procesamiento slo pueden recibir aportaciones de un conjunto de
datos u otro
mtodo de pre-proceso.
Mtodos de extraccin 3. Conocimiento pueden recibir un flujo de un conjunto de datos, a
partir de una prealgoritmo de procesamiento o de un mtodo anterior.
4. El grfico no puede tener ningn ciclo.
Todas estas restricciones se verifican en tiempo de ejecucin cuando es resultado de una
conexin
creado. Si no se permite una de estas conexiones, la aplicacin mostrar un error
mensaje. En siguientes figuras se pueden ver algunos ejemplos de grficos incorrectos.

Pgina 79
79
Gestin Grfico
El grfico permite realizar las siguientes operaciones de ms de sus elementos:
1. Men contextual: es posible acceder al men contextual haciendo clic con el derecho
botn del ratn sobre un determinado nodo en la zona de dibujo. Este men depende de la
seleccionada
objetar y nos permite eliminar los objetos, para configurar los parmetros de algoritmos, etc
...
Seleccin 2. Objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con
el botn izquierdo del
ratn sobre l. Pero es posible seleccionar varios elementos, al hacer clic en una zona vaca
de la
rea y arrastrando el ratn hasta cubrir todos los objetos deseados dibujar.
3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de
la
botn izquierdo del ratn, arrastrndolos hasta la posicin deseada. Otra forma es utilizar el
cursores del teclado.
4. Retire los objetos: Para eliminar un mdulo, seleccionarla y pulsar Supr clave. Tambin
es posible
y eliminar por el men de contexto, de la barra de herramientas.
Pgina 80
80
Configuracin de los parmetros del algoritmo
Una vez que un mdulo ha sido insertado en el grfico, es posible configurar el valor de sus
parmetros.
Para ello, el usuario tiene que hacer doble clic sobre el smbolo algoritmo y un cuadro de
dilogo se mostrar; adems,
este cuadro de dilogo puede demostrar a travs del men emergente que aparecer cuando
el botn derecho del
ratn se presiona (opcin Mostrar parmetros).
En la parte superior de este dilogo es posible establecer el nmero de veces que se
ejecutar el algoritmo
(Slo disponible para los mtodos aleatorios). Cada ejecucin se realizar mediante una
semilla generada a partir de la
semilla inicial. La segunda lista permite especificar en que los datos establece los
parmetros sern cambiados.
En la tabla se encuentra en el centro de la ventana, todos los parmetros del algoritmo se
establecen para su
valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores sern
apropiados para la
mtodo concreto; de lo contrario, aparecer un mensaje de error:
Por ltimo, el Default Values botn permite regresar todos los parmetros a sus valores por
defecto.

Pgina 81
81
Ejecutar experimento
Una vez que un experimento ha sido diseado, el usuario puede generar a travs de la
opcin Experimento Run
del men "Herramientas". Adems, es posible utilizar el botn de herramientas bar.
En este punto, nueva ventana nos permite ejecutar el experimento.
Si se pulsa el botn de inicio se llevar a cabo el experimento y los resultados se mostrarn
en el "Informe
seccin de rea ". En esta seccin, la informacin reportada es el porcentaje total de
aciertos
teniendo en cuenta todas las particiones, el porcentaje de aciertos en cada particin y la
matriz de confusin.
Esta informacin est indicada tanto para la formacin y el conjunto de datos de prueba.
Por otra parte, en la seccin de
"rea de particin", se especifica el tiempo de clculo para cada particin. Un ejemplo es la
ejecucin
se muestra en la siguiente figura.
Pgina 82
82

Das könnte Ihnen auch gefallen