Sie sind auf Seite 1von 5

Tema: Minería de Datos

Objetivos:
 Utilizar Rapid Miner para realizar las tareas de limpieza y transformación de los datos
proporcionados por el docente.

Introducción:
La tabla adult_train.exe tiene un formato equivalente a la tabla adult_data.xls vista en clase.
Visualice los metadatos correspondientes a la información almacenada en adult_train.xls y
verifique que:

Hay atributos con datos faltantes

 El atributo “Sex” correspondiente al sexo de la persona censada contiene más de 2


valores.
 El atributo “Age” posee valores inválidos. Las edades deben pertenecer al intervalo
[17,80].
 El nivel educativo de la persona está indica

Desarrollo:
a) Utilice dos operadores Replace Missing Values: uno para completar los valores
faltantes de los atributos “Education_num” y “Capital_Lost” con el valor mínimo y
otro para completar el resto de los atributos que presenten valores faltantes con su
correspondiente valor promedio. Verifique observando los metadatos que todos los
atributos poseen valor.
b) Utilice el operador Generate Attributes para generar dos atributos nuevos: o Un
nuevo atributo “Edad” que contenga los valores de las edades del atributo “Age” que
se encuentran dentro del intervalo [17,80]. Para los casos en que “Age” es inferior a
17, “Edad” vale 17. Por el contrario, si “Age” es superior a 80, “Edad” vale 80.
Nota: La expresión a utilizar es: if( Age80, 80, Age)) o Un atributo “Sexo” que contenga
sólo dos valores. Aquí se trata de uniformar la notación. Puede asignar el par de
etiquetas que prefiera

PÁGINA 1
c) Utilice el operador Select Attributes para seleccionar los atributos: “Edad”,
“Education_num”, “Hours_per_week” y “Class”. Ejecute el proyecto y realice todos los
posibles diagramas de dispersión utilizando la opción Scatter Matrix tomando al
atributo “clase” como atributo para colorear. Analice los distintos diagramas y relacione
los atributos. Por ejemplo, ¿puede afirmar que las personas que poseen un nivel
educativo por debajo de 8 y que trabajan menos de 40 horas no ganan más de 50 mil
dólares por año? ¿existe alguna relación entre el nivel educativo y el hecho de ganar
más de 50 mil dólares por año? ¿Esto último tiene alguna relación con la cantidad de
horas trabajadas?

PÁGINA 2
PÁGINA 3
Conclusiones:
 Rapid Miner es una herramienta que simplifica las tareas de minado con operaciones
que permiten trabajar directamente con los datos obtener resultados específicos con
la posibilidad de ser interpretados en gráficos estadísticos.

Recomendaciones:
 Las operaciones se pueden usar en simultaneo para optimizar el resultado de la
minería de datos

Bibliografía:
[1] Documentación entregada por el docente

PÁGINA 4

Das könnte Ihnen auch gefallen