Sie sind auf Seite 1von 19

La Minera de Datos es la extraccin automtica de informacin predictiva escondida desde bases de datos.

La Minera de Datos estudia mtodos y algoritmos que permiten la extraccin automtica de informacin sintetizada que permite caracterizar las relaciones escondidas.

El conjunto de datos de donde la minera intenta extraer conocimiento se le llama conjunto de entrenamiento. La meta de la Minera es obtener conocimiento vlido no solo para la base de datos considerada sino para una muy similar. El conocimiento puede ser probado con otro conjunto de entrenamiento.

La Minera de Datos est disponible para resolver problemas de decisin de negocios. La Minera de Datos es una tecnologa que ayuda a enfocarse en la informacin ms importante en los almacenes de datos.

Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos.

Las Herramientas obtienen de las bases de datos patrones escondidos. Las Tcnicas de la Minera de Datos pueden ser implementadas rpidamente en software y en las plataformas de hardware existente. Las Herramientas de Minera de Datos pueden ser implementadas en plataformas cliente-servidor o computadoras de procesamiento paralelo.

Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente.

Las Tcnicas de la Minera de Datos son el resultado de un largo proceso de investigacin y desarrollo de productos. La Minera de Datos esta soportada por tres tecnologas que son lo suficientemente maduras: Coleccin masiva de datos. Computadoras con multiprocesamiento. Algoritmos de minera de datos.

El componente principal en la Tecnologa de la Minera de Datos ha sido desarrollado en:


Estadstica Inteligencia Artificial Mquinas de Aprendizaje

Actualmente, existe gran relevancia en:


Ambientes de negocios Las descripciones bsicas de las arquitecturas de almacenes de datos.

Las tcnicas para la Minera de Datos son:


 Redes Neuronales Artificiales.  rboles de Decisin.  Algoritmos Genticos.  Modelos Lineales.  Redes bayesianas.

Facilidad con que se puede caer en una falsa interpretacin. Es fcil equivocarse. Tiempo y espacio. Privacidad

BD

Datos

Seleccin

Preprocesado

Seleccin de caractersticas

Extraccin de conocimiento

Evaluacin

Conocimiento

Modelo clasificador

Se tienen tres medidas claves, para una evaluacin de las herramientas.


 Precisin: Se deben modelos precisos, pero

reconociendo pequeas diferencias en las tcnicas.  Explicacin: Las herramientas deben explicar al usuario final de manera clara como funciona el modelo.  Integracin: Las herramientas deben integrarse en el proceso real del negocio, flujos de datos e informacin de la empresa.

Redes neuronales. Son capaces de detectar y aprender patrones y caractersticas de los datos. Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentacin. Esto se realiza estructurando niveles o capas. Se tienen dos tipos de aprendizaje: supervisado y no supervisado. rboles de decisin. Herramientas analticas empleadas para el descubrimiento de reglas y relaciones. Cada subconjunto a su vez es particionado. Se continua hasta no encontrar diferencias significativas de influencia. Algoritmos genticos. Hacen uso de tcnicas de reproduccin (mutacin y cruce) para ser utilizadas para bsqueda y optimizacin. Se parte de una poblacin inicial, y se altera optimizndola. Esta herramienta se usa en las primeras fases de la minera y despus se aplica redes neuronales o regresin logstica. Redes bayesianas. Son una alternativa para la minera. Se tiene las ventajas:  Permiten aprender sobre relaciones de dependencia y causalidad.  Permiten combinar conocimiento de datos.  Evitan el sobre-ajuste de datos.  Permiten el manejo de bases de datos incompletas.

Minera de Datos  La minera de datos trabaja con los datos con el objetivo de encontrar patrones de comportamiento ocultos en los mismos con el fin de crear nuevas asociaciones, predecir resultados futuros, etc.  Las organizaciones se han convertido en entidades sumamente ricas en datos pero pobre en conocimiento. De modo que el objetivo principal de la minera de datos es generar patrones de comportamiento en los datos y a partir de ellos generar conocimiento til. Importancia de la Minera de Datos  Disponemos de una cantidad inmensa de datos en nuestra organizaciones: Gracias a los programas de gestin empresarial, y al descenso del hardware, especialmente de los sistemas de almacenamiento ha llevado a las empresas a disponer de bases de datos con gigas de datos.  Incremento de la competitividad. El incremento de la competitividad es en gran medida resultado de marketing actual, de los nuevos canales de distribucin que dispone como Internet y de las telecomunicaciones y la aplicacin de las TIC a la actividad empresarial. Las empresas se enfrentan a una economa globalizada, y el xito empresarial depende de la capacidad de mantener a los clientes actuales y conseguir nuevos. La minera de datos contiene tecnologas que permiten a las empresas analizar los factures que influyen decisivamente en estos temas.

Ciclo de un Proyecto de Minera de Datos PASO 1. RECOLECCIN DE DATOS El primer paso en un proyecto de minera de datos es la recoleccin de datos. Los datos de una organizacin habitualmente estn almacenados en muchos sitios: base de datos de un ERP, de un CRM, hojas de clculo de los comerciales y/o de los contables, una pequea aplicacin para controlar el stock en el almacn, etc. Por este motivo, la primera tarea que debemos emprender es determinar cules son los datos ms relevantes y almacenarlos de modo adecuado en un almacn de datos o datawarehouse PASO 2. DEPURACIN Y TRANSFORMCIN DE LOS DATOS Este es el paso ms importante en un proyecto de minera de datos. La depuracin y transformacin de los datos tiene como objetivo eliminar el ruido y la informacin irrelevante. El proceso de transformacin consiste en modificar los datos originales en diferentes formatos en trminos de tipos de datos y valores. Tcnicas. Transformacin tipos de datos. Convertir valores continuos en discretos. Suprimir casos atpicos. Eliminar aquellos datos que pueden falsear los datos, por ejemplo, un cliente que haga un pedido excepcional que supera en 10 veces el importe habitual. Utilizando el modelo de clustering incluido en Microsoft SQL 2005 podemos generar un modelo que agrupe los casos atpicos para posteriormente eliminarlos a travs de la combinacin de Data Mining e Integration

PASO 3. GENEAR EL MODELO DE MINERIA DE DATOS. Una vez que hemos limpiado y transformado los datos, podemos comenzar la tarea de crear los modelos de minera de datos. Antes de generar cualquier tipo de modelo, es fundamental entender cul es la meta del proyecto de minera de datos. Vamos a crear un proyecto para clasificar, para generar una asociacin, para establecer una segmentacin, o para pronosticar y planificar las ventas del prximo ao? El modelo es el corazn de cualquier proyecto de minera de datos. No obstante, una vez que uno tiene claro cual es el objetivo del proyecto, seleccionar el algoritmo que genere el modelo es una tarea relativamente sencilla. PASO 4. EVALUACIN DEL MODELO Existen unas pocas herramientas para evaluar la calidad de un modelo de minera de datos. La ms conocida es el grfico de rendimiento Esta herramienta utiliza los datos de un modelo entrenado para predecir los valores de una conjunto de datos de evaluacin. No slo se evala la precisin del modelo sino que se trata de comprender el significado de los patrones de comportamiento que los algoritmos han generado. En ocasiones, los patrones hallados no contienen informacin til. Esto se pude deber a diferentes factores: a) los datos utilizados son totalmente aleatorios; b) que las variables utilizadas en el modelo no son las ms precisas; c) la limpieza de datos no ha sido suficiente, y se ha de volver a la fase anterior.

PASO 5. REPORTING Reporting es una de las tareas claves en la minera de datos. En muchas organizaciones, la meta final de la minera de datos es generar informes para los responsables de los diferentes departamentos. PASO 6. PREDICCIN Muchos de los proyectos de minera de datos, la bsqueda de patrones ocultos entre los datos responde a la necesidad de generar predicciones, por ejemplo de las ventas del prximo trimestre. La prediccin se convierte por tanto en una de las tareas claves de la minera de datos.

Das könnte Ihnen auch gefallen