Sie sind auf Seite 1von 22

ii

TABLA DE CONTENIDOS
PORTADA................................................................ Error! Bookmark not defined.
TABLA DE CONTENIDOS....................................................................................... ii
LISTA DE FIGURAS ............................................................................................... iii
LISTA DE TABLAS ................................................................................................. iii
1 INTRODUCCIN.............................................................................................. 1
1.1. Motivacin.................................................................................................. 1
1.2. Objetivos.................................................................................................... 1
2 DESARROLLO................................................................................................. 2
2.1 Importancia del Preprocesamiento ............................................................ 2
2.1.1 Datos Incompletos............................................................................... 2
2.1.2 Los Datos Presentan Ruido................................................................. 2
2.1.3 Datos Inconsistentes ........................................................................... 3
2.2 Tareas de Preprocesamiento de Datos...................................................... 3
2.2.1 Limpieza de Datos (Data Cleaning)..................................................... 4
2.2.2 Integracin de Datos ........................................................................... 8
2.2.3 Transformacin de los Datos............................................................... 9
2.2.4 Reduccin de los Datos..................................................................... 10
3 CONCLUSIONES........................................................................................... 18
4 RECOMENDACIONES................................................................................... 19
5 REFERENCIAS.............................................................................................. 20
iii
LISTA DE FIGURAS
Figura 2.2.1 Tareas del Preprocesamiento de datos .............................................. 4
Figura 2.2.2 Aplicacin de Clustering...................................................................... 7
Figura 2.2.3 Histograma mostrando Outliers........................................................... 8
Figura 2.2.4 Mtodo de agregados ....................................................................... 11
Figura 2.2.5 Compresin de datos........................................................................ 13
Figura 2.2.6 Concepto de Jerarqua...................................................................... 17
LISTA DE TABLAS
Tabla 2.1-1 Conjunto de datos mostrando datos incompletos ................................ 2
Tabla 2.1-2 Tabla mostrando outliers en los datos ................................................. 3
Tabla 2.1-3 Tabla mostrando inconsistencia en los datos ...................................... 3
1
1 INTRODUCCIN
1.1. Motivacin
Actualmente las bases de datos son altamente susceptibles a tener ruido en
los datos, datos perdidos o datos inconsistentes, debido principalmente a su
enorme tamao (a menudo varios gigabytes o ms) y a su probable origen de
fuentes mltiples y heterogneas. Una baja calidad de los datos dar lugar a una
baja calidad en los resultados de minera [1].
Las decisiones de calidad, se basan en datos con calidad. Este concepto es
lo que me motiva a conocer y aprender de las diferentes tcnicas usadas para
preprocesamiento de datos, en las cuales me puedo apoyar para preprocesar los
datos a usar durante el desarrollo de mi monografa.
1.2. Objetivos
El preprocesamiento de los datos durante el proceso de extraccin del
conocimiento, es una de las partes fundamentales ya que de este
preprocesamiento depender la calidad de los datos a minar y por tanto la
obtencin de un modelo confiable y aplicable a la solucin del problema
El objetivo de esta tarea es entender y analizar en profundidad las tcnicas
de preprocesamiento de datos disponibles con el fin de incrementar la calidad de
los datos previo a su procesamiento, principalmente.
2
2 DESARROLLO
2.1 Importancia del Preprocesamiento
El preprocesamiento de los datos es de suma importancia ya que los datos
reales estn sucios, y pueden presentar diferentes problemas como: Datos
Incompletos, inconsistentes o con ruido.
2.1.1 Datos Incompletos
Se tienen datos incompletos por que se han perdido valores de atributos,
atributos de inters o los datos estn resumidos. Esto puede ser causado por que
se desconoca el valor al momento de ser registrado, por problemas de software,
hardware o humanos. Un ejemplo de esto se muestra en la Tabla 2.1-1, en donde
los datos incompletos aparecen sombreados:
Sexo Edad Fecha Nacimiento Estado Civil Salario
F 30 01/12/1978 Soltero 15,000
M 40 01/12/1968 8,000
Hombre 26 01/12/1982 Casado 10,000
Mujer 22 01/12/1986 Soltera - 5,000
Hombre 33 01/12/1975 13,000
H 28 01/12/1980 Casado
M 34 01/12/1974 Casada 10,000
Tabla 2.1-1 Conjunto de datos mostrando datos incompletos
2.1.2 Los Datos Presentan Ruido
El ruido en los datos proviene desde el proceso de recoleccin de datos, en
la entrada de datos o en la transmisin de datos. Los datos contienen errores y
outliers, es decir que no se ajustan al comportamiento general de los datos.
3
Estos datos pueden representar errores o pueden estar correctos y simplemente
son diferentes a los dems. Un ejemplo de outliers se muestra en la Tabla 2.1-2,
en donde los outliers se aparecen sombreados:
Sexo Edad Fecha Nacimiento Estado Civil Salario
F 30 01/12/1978 Soltero 15,000
M 40 01/12/1968 Casado 8,000
Hombre 26 01/12/1982 Casado 10,000
Mujer 22 01/12/1986 Soltera - 5,000
Hombre 33 01/12/1975 Soltero 13,000
H 28 01/12/1980 Vivo 8,000
M 34 01/12/1974 Casada 10,000
Tabla 2.1-2 Tabla mostrando outliers en los datos
2.1.3 Datos Inconsistentes
Existen discrepancias en los nombres y/o en los valores, esto puede ser
causado por diferentes orgenes de datos o violacin a la dependencia funcional
de los datos (ver Tabla 2.1-3)
Sexo Edad Fecha Nacimiento Estado Civil Salario
F 30 01/12/1997 Soltero 15,000
M 40 01/12/1968 Casado 8,000
Hombre 26 01/12/1982 Casado 10,000
Mujer 22 01/12/1986 Soltera - 5,000
Hombre 33 01/12/1975 Soltero 13,000
H 28 01/12/1980 Casado 8,000
M 34 01/12/1974 Casada 10,000
Tabla 2.1-3 Tabla mostrando inconsistencia en los datos
2.2 Tareas de Preprocesamiento de Datos
Las principales tareas en el preprocesamiento de datos son: Limpieza,
integracin, transformacin, reduccin y discretizacin de los datos (ver Figura
2.2.1).
4
Limpieza de datos. Completar valores perdidos o nulos, eliminar el
ruido en datos, identificar o remover los outliers y resolver
inconsistencias.
Integracin de los datos. Integrar mltiples bases de datos, cubos de
datos, archivos, etc.
Transformacin de los datos. Normalizacin y agregacin.
Reduccin de datos. Obtener una representacin reducida en volumen
pero que produce el mismo resultado analtico.
Discretizacin de datos. Es una parte de la reduccin de datos pero
con una importancia en particular, es especial para datos numricos.
Figura 2.2.1 Tareas del Preprocesamiento de datos
2.2.1 Limpieza de Datos (Data Cleaning)
La limpieza de datos es uno de los 3 grandes problemas en el
almacenamiento de datos Ralph Kimball
5
La limpieza de datos es el problema nmero uno en el almacenamiento de
datos DCI Survey
Como se mencion anteriormente las principales tares de la limpieza de
datos son: Completar valores nulos, identificar outliers para suavizar el ruido y
corregir inconsistencias. Para cada uno de estos problemas se toman diferentes
acciones.
Valores Nulos. Un mtodo comn para los valores perdidos o nulos es
simplemente omitir del anlisis los registros o campos con valores perdidos. Sin
embargo esto puede ser peligroso, ya que el patrn de valores que falta puede
estar hecho sistemticamente, y al borrar los registros con valores perdidos dara
lugar a un conjunto sesgado de los datos. Adems sera un desperdicio omitir
informacin de los otros campos. Por tanto los analistas de datos han recurrido a
mtodos para reemplazar la falta de valores o los valores nulos con valores
sustitutos de acuerdo a diferentes criterios, entre los que se encuentran:
Reemplazar el valor perdido con alguna constante, especificada por el
analista.
Reemplazar el valor perdido con la media o usar la media dentro de la
clase de ese dato (para valores numricos) o usar la moda (para
valores nominales).
Reemplazar el valor perdido con un valor generado aleatoriamente
para la variable de distribucin observada.
Datos con Ruido u Outliers. Como se mencion anteriormente el ruido en
los datos se puede deber a valores incorrectos por captura, transformacin, etc. Lo
que nos puede causar tambin registros duplicados. Entre los mtodos para tratar
el ruido estn:
6
a) Mtodo de los cubos (binning)
b) Clustering
c) Regresin
d) Mtodos Grficos
a. Mtodo de los cubos (binning). Se ordenan los datos y se dividen en
cubos de igual longitud. Despus se suaviza cada cubo por la media, la mediana,
la varianza, los lmites del cubo, etc. Algunos mtodos de binning son: Suavizado
por la media, suavizado por la mediana y suavizado por fronteras.
Suavizado por la media. Cada valor en un intervalo es reemplazado por el
valor medio del intervalo. Ejemplo: Supongamos el siguiente grupo de datos para
el precio: 4, 8, 15, 21, 21, 24, 25, 28, 34. Ordenamos y dividimos el cubo en igual
frecuencia:
Intervalo 1: 4, 8, 15
Intervalo 2: 21, 21, 24
Intervalo 3: 25, 28, 34
Si aplicamos el suavizado por la media quedara de la siguiente forma:
Intervalo 1: 9, 9, 9
Intervalo 2: 22, 22, 22
Intervalo 3: 29, 29, 29
Suavizado por la mediana. Cada valor en un intervalo es reemplazado por el
valor de la mediana del intervalo.
7
Suavizado por fronteras. Se calculan los valores mnimo y mximo para cada
intervalo, los cuales se identifican como valores de frontera y cada valor en el
intervalo es reemplazado por el valor de frontera ms cercano. Considerando los
datos del ejercicio anterior quedara de la siguiente forma:
Intervalo 1: 4, 4, 15
Intervalo 2: 21, 21, 24
Intervalo 3: 25, 25, 34
b. Clustering. A travs del clustering se pueden detectar y eliminar los
outliers. Valores similares son organizados en grupos o clusters, por intuicin los
valores que estn afuera de estos grupos son considerados outliers (ver Figura
2.2.2)
Figura 2.2.2 Aplicacin de Clustering
c. Regresin. La regresin suaviza el ruido ajustando los datos a una
funcin obtenida, como puede ser la regresin. La regresin lineal implica la
bsqueda de la mejor lnea que se ajusta a dos atributos (o variables), en donde
un atributo puede ser usado para predecir otro. La regresin lineal mltiple es una
8
variante de la regresin lineal, en donde ms de dos atributos estn implicados y
los datos son ajustados a una superficie multidimensional.
d. Mtodos Grficos. Se pueden utilizar mtodos grficos para identificar
outliers, como por ejemplo un histograma de la variable. La Figura 2.2.3 muestra
el histograma generado para una variable en donde se observa en el extremo
izquierdo que aparecen valores muy solos y distintos al resto.
Figura 2.2.3 Histograma mostrando Outliers
2.2.2 Integracin de Datos
La integracin de datos combina datos de diversas fuentes en un almacn de
datos (datawarehousing). Estas fuentes pueden incluir mltiples bases de datos,
cubos de datos o archivos planos.
9
Hay una serie de cuestiones a considerar durante la integracin de datos.
Cmo se puede saber que las entidades de mltiples fuentes de datos estn
amarradas o tienen concordancia? Por ejemplo, cmo puede el analista de
datos estar seguro que el Customer_Id en una base de datos, y el cust_number en
otra se refieren a la misma entidad?
La redundancia es otra cuestin importante, las inconsistencias en la
dimensin o nombre de un atributo pueden causar redundancia en el resultado del
set de datos. El mismo atributo tiene distintos nombres, un atributo es un atributo
derivado en otra tabla, como por ejemplo el beneficio anual.
Algunas redundancias pueden ser detectadas por medio de un anlisis de
correlacin, el cual nos indicar cuando dos variables estn asociadas y nos
cuantifica ese grado de asociacin. Si el coeficiente de correlacin es mayor que
0, entonces A y B estn correlacionados positivamente. Cuanto ms alto sea el
valor, cada atributo implica ms al otro. Si el resultado de la ecuacin es igual a 0,
entonces A y B son independientes y no hay correlacin entre ellos. Si el resultado
es menor que 0, entonces A y B estn correlacionados negativamente.
Otra cuestin importante a considerar durante la integracin es la deteccin y
resolucin de conflicto entre valores de datos. Por ejemplo para una misma
entidad, con valores de atributos de diferentes fuentes pueden diferir. Esto
representa diferencias en la representacin, escala o codificacin. Para una
instancia un atributo de peso puede estar almacenado en unidades mtricas en un
sistema y en unidades imperiales en otro.
2.2.3 Transformacin de los Datos
Aqu los datos son transformados o consolidados en formas apropiadas para
poder ser minados. La transformacin de datos puede involucrar lo siguiente:
10
Suavizado (smoothing). Se utiliza para eliminar el ruido en los datos. Incluye
tcnicas como el binning, regresin y clustering.
Agregacin. Se pueden aplicar resumen u operaciones de agregacin a los
datos. Por ejemplo, las ventas diarias pueden ser sumadas a fin de calcular los
totales mensual y anual.
Generalizacin. Es cuando los datos de bajo nivel o "primitivos" (raw data) se
sustituyen por conceptos de ms alto nivel a travs de la utilizacin de concepto
de jerarquas. Por ejemplo, conceptos como calle pueden ser generalizados a un
nivel ms alto usando conceptos como ciudad o pas.
Normalizacin. Cuando un atributo se escala de modo que entran dentro de
un pequeo rango, como -1.0 a 1.0, o 0.0 a 1.0.
Construccin de atributos (o construccin de caractersticas). Se construyen
nuevos atributos y se aaden al set de datos, para ayudar al proceso de la
minera.
2.2.4 Reduccin de los Datos
Las tcnicas de reduccin de datos pueden ser aplicadas para obtener una
representacin reducida del set de datos que es de mucho menor volumen, sin
embargo mantiene la integridad de los datos. Esto implica que la minera en el
conjunto de datos debe ser ms eficiente con el mismo (o casi el mismo)
resultado analtico.
Entre las estrategias de reduccin de datos se incluyen: Agregacin,
seleccin de un subconjuto de atributos, reduccin de dimensiones, reduccin de
la numerosidad y e. Discretizacin y generacin de jerarquas de conceptos.
11
a. Agregados. Las operaciones de agregacin son aplicadas a los datos en
la construccin de un cubo de datos. Un ejemplo de agregacin se muestra en la
Figura 2.2.4
Figura 2.2.4 Mtodo de agregados
b. Seleccin de un subconjunto de atributos. Aqu lo irrelevante, poco
relevante, o redundante de los atributos o dimensiones pueden ser detectados y
eliminados. El objetivo de la seleccin de atributos es encontrar el mnimo set de
atributos como resultado de la distribucin probabilstica de las clases de datos,
llegando lo ms cerca posible a la distribucin original usando todos los atributos.
El minado de un set reducido de atributos tiene un beneficio adicional.
Reduce el nmero de atributos que aparecen en el descubrimiento de patrones,
ayuda a crear patrones fciles y entendibles.
Existen mtodos heursticos para la seleccin de caractersticas, los mejores
atributos (y los peores) pueden ser determinados usando test estadsticos de
significancia, en donde se asume que atributos son independientes de otros. Los
mtodos heursticos bsicos para la seleccin del set de atributos incluyen las
siguientes tcnicas:
12
Seleccin hacia adelante (Stepwise forward selection). El procedimiento se
inicia con un conjunto vaco de atributos como el conjunto reducido. Lo mejor de
los atributos se determina y se aadir al conjunto reducido. En cada iteracin, lo
mejor de los restantes atributos originales se aaden al conjunto.
Seleccin hacia atrs (Stepwise backward elimination). Este procedimiento
inicia con el set completo de atributos, en cada paso se van removiendo los
atributos malos.
Combinacin de Estrategias. Las ltimas dos estrategias pueden ser
combinadas de manera que, en cada paso, el procedimiento selecciona el mejor
atributo y elimina el peor de entre el resto de atributos.
rboles de Decisin. Los algoritmos de rboles de decisin como ID3, C4.5 y
CART eran originalmente destinados a la clasificacin. El rbol de decisin
construye un diagrama de flujo donde cada nodo interno (nonleaf) denota un nodo
de prueba sobre un atributo, cada rama corresponde a un resultado de la prueba,
y cada nodo externo (leaf) denota una clase de prediccin. En cada nodo, el
algoritmo elige el "mejor" atributo para particin de los datos en clases
individuales.
Cuando el rbol de decisin es usado en la seleccin de un subconjunto de
atributos, los atributos que no aparecen en el rbol se asume que son irrelevantes.
El set de atributos que aparecen en el rbol forma el subconjunto reducido de
atributos.
c. Reduccin de dimensiones (Compresin de datos). Mecanismos de
codificacin se utilizan para reducir el tamao de los datos. En la reduccin de
dimensin la codificacin o transformaciones son aplicados para obtener una
13
representacin compacta de los datos originales. Las tcnicas de codificado o
transformacin de datos mostradas en la Figura 2.2.5 son:
Sin prdida de informacin (lossless)
Con prdida de informacin (lossy)
Figura 2.2.5 Compresin de datos
Transformada Wavelet Discreta (DWT). Tcnica de procesamiento lineal de
seal que aplicada a un vector D lo transforma a otro vector numricamente
diferente D de coeficientes, donde los 2 vectores tienen la misma longitud. El
vector D se puede truncar y se mantiene una aproximacin comprimida de los
datos almacenando los coeficientes ms fuertes.
Tambin se utiliza para reducir ruido sin perjudicar los elementos principales
de los datos. Dado un conjunto de coeficientes, se puede calcular una
aproximacin a los datos originales aplicando la inversa de la DWT utilizada
14
"Cmo esta tcnica puede ser til para la reduccin de datos, si los datos
transformados de onda son de la misma longitud que los datos originales?" La
utilidad radica en el hecho de que la onda transformada de datos se puede
truncar. Una aproximacin comprimida de los datos pueden ser retenidos por el
almacenamiento de una pequea fraccin de los coeficientes de onda ms fuertes
Esta tcnica es similar a la transformacin discreta de Fourier (DFT), pero
con mejor perdida de compresin, localizada en el espacio.
Anlisis de componentes principales (ACP). El Anlisis de Componentes
Principales (ACP) es una tcnica estadstica de sntesis de la informacin, o
reduccin de la dimensin (nmero de variables). Es decir, ante un banco de datos
con muchas variables, el objetivo ser reducirlas a un menor nmero perdiendo la
menor cantidad de informacin posible. Los nuevos componentes principales o
factores sern una combinacin lineal de las variables originales, y adems sern
independientes entre s.
Tcnicamente, el ACP busca la proyeccin segn la cual los datos queden
mejor representados en trminos de mnimos cuadrados. En trminos menos
formales, puede usarse para determinar el nmero de factores subyacentes
explicativos tras un conjunto de datos, que expliquen la variabilidad de dichos
datos
d. Reduccin de la Numerosidad. Reducir el volumen de los datos
eligiendo una forma alternativa de representacin (ms pequea). Estos pueden
ser:
Paramtricos. Se utiliza un modelo para estimar los datos, solo se
almacenan algunos parmetros de los datos en lugar de todos los datos. Algunas
15
tcnicas paramtricas son los modelos de regresin y Log-lineales usados para
aproximar los datos dados.
Regresin Lineal. Se modelan los datos para ajustarse a una lnea recta:
Y = + X
, son los coeficientes de regresin, Y es la variable de respuesta, X es la
variable de prediccin.
Regresin mltiple. Extensin de la regresin lineal permitiendo modelar la
variable de respuesta Y como una funcin lineal de un vector multidimensional de
caractersticas.
Log-lineal. Aproximan distribuciones de probabilidad multidimensionales
discretas
No Paramtricos. Utilizando tcnicas de estadstica como pueden ser
histogramas, clustering y muestreo.
Reduccin con Histogramas. Divide los datos en grupos y guardar una
representacin de cada grupo (suma, cantidad, etc.)
Equi-width (histograma con barras que tienen el mismo ancho)
Equi-depth (histograma con barras que tienen la misma altura)
V-optimal (histograma con la menor varianza count
b
* value
b
)
MaxDiff (balde con lmites definidos por umbral definido por el usuario)
Reduccin por Clustering. Considera tuplas como objetos, particiona los
objetos en grupos o clusters. Un objeto en un grupo es similar a los objetos de ese
16
grupo y diferente a los objetos de otro grupo. Existe similaridad basada en una
funcin de distancia, La calidad del clster se puede representar con su dimetro.
La distancia al centroide es otra medida de calidad definida como la distancia
promedio de cada objeto del clster del centroide. Se utilizan las representaciones
de los datos agrupados para reemplazar los datos.
Muestreo. El muestreo es usado como tcnica de reduccin de datos porque
permite que un set de datos largos sea representado por una muestra aleatoria
mucho ms pequea de los datos.
SRSWOR (Muestreo simple aleatorio sin reemplazo) de tamao n.
Tomar n de las N tuplas de D (n<N), la probabilidad de tomar una
tupla en D es 1/N.
SRSWR (Muestreo simple aleatorio con reemplazo) de tamao n.
Parecido al anterior pero cada que se toma una tupla es
reemplazada.
Muestra clster. Primero se hace un agrupamiento y despus se
utiliza alguna de las tcnicas anteriores en uno de los grupos.
Muestra estratificada. D se divide en partes mutuamente disjuntas
llamados estratos, se toma una SRS de cada estrato (por ejemplo,
estratos divididos por edades de clientes).
e. Discretizacin y generacin de jerarquas de conceptos. La
discretizacin se usa para reducir el nmero de valores para un atributo continuo,
dividiendo el rango del atributo en intervalos. Las etiquetas de los intervalos se
usan para reemplazar los valores reales de los datos, esto se puede observar en
la Figura 2.2.6.
Algunos algoritmos de minera de datos solamente aceptan atributos
categricos y no pueden manejar un rango de valores continuos. Para datos
17
numricos hay gran diversidad de rangos de valores posibles y frecuentes
actualizaciones. Es difcil construir jerarquas de conceptos para atributos
numricos La generacin automtica de jerarqua de conceptos se basa en el
anlisis de la distribucin de los datos.
Figura 2.2.6 Concepto de Jerarqua
18
3 CONCLUSIONES
El preprocesamiento de datos es importante tanto para almacenamiento de
datos como en el proceso de minera de datos, dado que los datos en bases de
datos tienden a estar incompletos, con ruido e incoherentes, representan una gran
ayuda y apoyo para obtener una vista minable de calidad, que nos permita generar
un modelo los ms sencillo, entendible y aproximado a explicar el problema.
El preprocesamiento de datos suele ser una necesidad cuando se trabaja
con una aplicacin real, con datos obtenidos directamente del problema.
Una ventaja: El preprocesamiento de datos permite aplicar los modelos de
Aprendizaje/Minera de Datos de forma ms rpida y sencilla, obteniendo
modelos/patrones de ms calidad: precisin e/o interpretabilidad.
Un inconveniente: El preprocesamiento de datos no es un rea totalmente
estructura con una metodologa concreta de actuacin para todos los problemas.
Cada problema puede requerir una actuacin diferente, utilizando diferentes
herramientas de preprocesamiento.
19
4 RECOMENDACIONES
Aun y cuando numerosos mtodos para el preprocesamiento de los datos se
han desarrollado, el preprocesamiento de datos sigue siendo un rea activa de
investigacin, debido a la gran cantidad de datos sucios o incoherente y la
complejidad de los problemas.
Es recomendable tener un amplio conocimiento del tipo de problema que se
quiere solucionar con la minera de datos, ya que esto nos ayudar de
sobremanera para poder seleccionar la/las tcnicas adecuadas para preprocesar
los datos y poder obtener un set de datos confiable y de una alta calidad.
20
5 REFERENCIAS
LIBROS:
[1] Han, Jiawei. Kamber, Micheline. (2006). Data Mining Concepts & Techniques,
Morgan Kaufmann Publishers, Estados Unidos.
Larose, Daniel T. (2005). Discovering Knowledge in Data An Introduction to Data
Mining, John Wiley & Sons, Inc. Publication, Estados Unidos.
Hernandez, Orallo Jos. Ramrez, Quintana Ma. Jos. Ferri, Ramrez Csar.
(2004). Introduccin a la Minera de Datos, Pearson Educacin, S.A., Espaa.
OTROS:
Herrera, Francisco. Riquelme, Jos. Ruiz, Roberto. Preprocesamiento de Datos.
Mayo 2004.

Das könnte Ihnen auch gefallen