Sie sind auf Seite 1von 2

Etapas del KDD.

Cabe notar que Uno de los procesos ms importantes dentro de KDD es el usuario, ya que es l
quien determina el dominio de la aplicacin o sea, decide cmo y qu datos se utilizarn en el
proceso. Por lo tanto, los pasos en el proceso global del KDD no estn claramente
diferenciados Por ser un proceso iterativo e interactivo con el usuario experto. Las interacciones
entre las Decisiones tomadas en diferentes pasos, as como los parmetros de los mtodos
utilizados Y la forma de representar el problema suelen ser extremadamente complejos.

Generalmente se consideran las siguientes etapas en el proceso:

1.Seleccin de datos. Consiste en buscar el objetivo y las herramientas del proceso

de minera, identificando los datos que han ser extrados, buscando los atributos

apropiados de entrada y la informacin de salida para representar la tarea. Esto quiere decir,
primero se debe tener en cuenta lo que se saber lo que se quiere obtener y cules son los datos
que nos facilitarn esa informacin para poder llegar a nuestra meta, antes de comenzar el
proceso en tal.

2. Limpieza de datos. En este paso se limpian los datos sucios, incluyendo los datos

incompletos (donde hay atributos o valores de atributos perdidos), el ruido (valores

incorrectos o inesperados) y datos inconsistentes (conteniendo valores y atributos

con nombres diferentes). Los datos sucios en algunos casos deben ser eliminados ya

que pueden contribuir a un anlisis inexacto y resultados incorrectos.

3.Integracin de datos: Combina datos de mltiples procedencias incluyendo mltiples bases de


datos, que podran tener diferentes contenidos y formatos.

4.Transformacin de datos: consisten principalmente en modificaciones sintcticas llevadas a


cabo sobre datos sin que supongan un cambio para la tcnica de minera aplicada. Las
transformaciones discretas de los datos[HLT99] tienen la ventaja de que mejoran la comprensin
de las reglas descubiertasal transformar los datos de bajo nivel en datos de alto nivel y tambin
reduceSignificativamente el tiempo de ejecucin del algoritmo de bsqueda. Su principal

Desventaja es que se puede reducir la exactitud del conocimiento descubierto, debido


a que puede causar la perdida de alguna informacin. Existen diferentes mtodos

de transformacin de variables continuas a discretas que se pueden agrupar

segn distintas aproximaciones: mtodos locales (realizan la transformacin discreta en una regin
del espacio de las instancias, por ejemplo, utilizando un

subconjunto de las instancias), mtodos globales (utilizan el espacio de las instancias),

mtodos supervisados (utilizan la informacin de la clave (valor del atributo

objetivo).