Sie sind auf Seite 1von 56

INSTITUTO POLITECNICO NACIONAL

Unidad Profesional Interdisciplinaria de Ingeniera y


Ciencias Sociales y Administrativas
TECNOLOGIAS DEL CONOCIMIENTO
MINERIA DE DATOS

GONZALEZ RIVERA TEODOMIRO


Secuencia: 3IV68

MINERIA DE DATOS
Eldatamining(minera de datos), es el conjunto de tcnicas y tecnologas que
permiten explorar grandes bases de datos, de manera automtica o
semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado contexto.

Bsicamente, el datamining surge para intentar ayudar a comprender el


contenido de un repositorio de datos. Con este fin, hace uso de prcticas
estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la
Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el
usuario les atribuye algn significado especial pasan a convertirse en
informacin. Cuando los especialistas elaboran o encuentran un modelo,
haciendo que la interpretacin que surge entre la informacin y ese modelo
represente un valor agregado, entonces nos referimos al conocimiento. Vea
msdiferencias entre datos, informacin y conocimiento.

CARACTERISTICAS
Explorar los datos se encuentran en las profundidades de las bases de datos,
como los almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
En algunos casos, los datos se consolidan en un almacn de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minera de datos suele tener una arquitectura cliente/servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de la
informacin enterrado en archivos corporativos o en registros pblicos,
archivados

El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programacin, facultado por barrenadoras de datos y otras poderosas
herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente
respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos
e inesperados.
Las herramientas de la minera de datos se combinan fcilmente y pueden
analizarse y procesarse rpidamente.

Debido a la gran cantidad de datos, algunas veces resulta necesario usar


procesamiento en paralelo para la minera de datos.
La minera de datos produce cinco tipos de informacin:

Asociaciones.

Secuencias.

Clasificaciones.

Agrupamientos.

Pronsticos.

Los mineros de datos usan varias herramientas y tcnicas.

Herramientas
Algortmicas

Unalgoritmoen minera de datos (o aprendizaje automtico) es un conjunto de heursticas y clculos


que permiten crear un modelo a partir de datos.

Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos
especficos de patrones o tendencias.

El algoritmo usa los resultados de este anlisis en un gran nmero de iteraciones para determinar los
parmetros ptimos para crear el modelo de minera de datos.

Existen dos herramientas de programacin muy utilizadas como lenguajes estas son:

Pseudocdig
o

Herramientas
Algortmicas

Diagramas
de flujo

DIAGRAMAS DE FLUJO.

Es una representacin grfica de unalgoritmo.

Es una herramienta que permite elaborar algoritmos de una manera fcil


utilizando smbolos, los que indican lasaccionesa realizar. Los smbolos
utilizados han sido normalizados por el Instituto Norteamericano de
Normalizacin(ANSI).

PSEUDOCDIGO.

Es una herramienta que facilita la elaboracin de algoritmos en la que las


instrucciones se escriben utilizando un lenguaje de pseudoprogramacin, una
imitacin en castellano de los lenguajes de programacin dealtonivel.

Otras herramientas

PROGRAMA.
Es un conjunto de instrucciones (rdenes) que guan a la computadora para
realizar alguna actividado resolver un problema.

LENGUAJE DE PROGRAMACIN.

Es el medio a travs del cual le comunicamos a la computadora la secuencia de


instrucciones (programa) que debe ejecutarse para resolver un problema.

Herramientas de la minera de datos

Clementine / SPSS:Herramienta de data mining que permite desarrollar


modelos predictivos y desplegarlos para mejorar la toma de decisiones. Est
diseada teniendo en cuenta a los usuarios empresariales, de manera que no
es preciso ser un experto en data mining.

SAS Enterprise Miner / SAS:Solucin de minera de datos que proporciona


gran cantidad de modelos y de alternativas. Permite determinar pautas y
tendencias, explica resultados conocidos e identifica factores que permiten
asegurar efectos deseados. Adems, compara los resultados de las distintas
tcnicas de modelado, tanto en trminos estadsticos como de negocio,
dentro de un marco sencillo y fcil de interpretar.

SAS Analytics / SAS:


Suite desolucionesanalticas que permiten transformar todos los datos dela organizacinen
conocimiento, reduciendo la incertidumbre, realizando predicciones fiables y optimizando
eldesempeo.

RapidMiner

/ Yale:

Es elldermundial decdigoabierto para la minera de datos debido a su


combinacin de su tecnologa de primeracalidady su rango de funcionalidad.
Esta aplicacin de RapidMiner cubre un amplio rango de minera de datos.
Adems de ser una herramienta flexible para aprender y explorar la minera de
datos, la interfaz grfica de usuario tiene como objetivo simplificar el uso para
las tareas complejas de esta rea.

MicrosoftSQL Server2005 /Microsoft:

Solucin que ofrece un entorno integrado para crear modelos de minera de datos y
trabajar con ellos.

La solucinSQLServer Data Mining permite el acceso a la informacin necesaria para


tomar decisiones inteligentes sobre problemas empresariales complejos.

Modelos

Con estas dos situaciones en mente podemos desarrollar modelos para:

i. Clasificar clientes como los que estn en el grupo que responde a una
promocin con cierta probabilidad (o que la densidad de casos exitosos
est arriba de cierta densidad).

ii. Pronosticar o estimar el valor esperado de una variable del negocio


estando esta variable en un rango continuo de valores.

iii. Obtener grupos de clientes de acuerdo a sus caractersticas y/o


comportamiento.

fundamentos y tcnicas.

El fundamento terico ad-hoc es la Estadstica.

Ello nos permite elaborar pruebas de hiptesis y validar nuestros modelos.

Sin embargo en ocasiones los negocios nos demandan desarrollo mas rpidos
de los modelos.

Por ello, en MD procedemos partiendo nuestro conjunto de datos en al


menos dos subconjuntos y los utilizamos para desarrollar y verificar,
probar o validar nuestro modelo.

Pre - requisitos

Los pasos que seguiremos suponen que:

1. Conocemos a la perfeccin las variables que definen nuestro conjunto de


datos.

2. Los datos son de buena calidad.

3. Se han eliminado variables redundantes.

4. Los dos conjuntos elegidos tienen caractersticas similares al del conjunto


original y estas caractersticas se conservan en el conjunto al cual se ha de
aplicar el modelo.

Proceso de elaboracin del modelo

Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los
subconjuntos son conjunto de entrenamiento y conjunto de prueba.

Paso 1: Entrenar, - i.e. obtener los parmetros del modelo que hacen que
la V.O. se calcule en trminos de las variables de soporte,- uno o ms
modelos con el conjunto de entrenamiento.

Proceso de elaboracin del modelo

Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los
subconjuntos son conjunto de entrenamiento y conjunto de prueba.

Paso 1: Entrenar, - i.e. obtener los parmetros del modelo que hacen que
la V.O. se calcule en trminos de las variables de soporte,- uno o ms
modelos con el conjunto de entrenamiento.

Paso 2: Validar o probar el modelo aplicndolo al conjunto de (datos de)


prueba.

Paso 3: Si el resultado es aceptable ya acabamos, en caso contrario


debemos iterar eligiendo otros Modeladores y/o transformando las
variables de soporte o modificando el enfoque mismo del problema.

Cmo saber si el modelo es


aceptable?

La bondad (de ajuste) del modelo tiene que ver con el objetivo de negocio
a obtener. Por ejemplo, maximizar utilidad, minimizar costo, o bien se define
una funcin de utilidad ad-hoc (no necesariamente monetaria).

Otra situacin se plantea en el desarrollo de un modelo para recomendar el


tratamiento ( de entre cinco posibles tratamientos) para un padecimiento. Es
posible que para ciertos casos no sea muy relevante el entrecruzamiento de
la decisin, i.e. si a un paciente en lugar de recomendarle el mejor
tratamiento segn sus caractersticas se le recomienda un sub-ptimo. Pero si
el paciente es diabtico si que puede ser muy importante. Por ello conviene
penalizar estos casos para que el modelo se equivoque lo menos posible en
ellos.

ANLISIS
ESTADSTICO

MINERA
DE DATOS

Requiere recoger y escudriar


cada muestra de datos individual
en una serie de artculos desde
los cuales se puede extraer las
muestras.

El objetivo del anlisis estadstico


es identificar tendencias.

Intenta descubrir patrones en grandes volmenes de conjuntos de


datos.

El objetivo general del proceso de minera de datos consiste en


extraer informacin de un conjunto de datos y transformarla en una
estructura comprensible para su uso posterior.

PASOS PARA EL ANALISIS ESTADISTICO


1.

Describir la naturaleza de los datos a ser analizados.

2.

Explorar la relacin de los datos con la poblacin subyacente.

3.

Crear un modelo para resumir la comprensin de cmo los datos


se relacionan con la poblacin subyacente.

4.

Probar (o refutar) la validez del modelo.

5.

Emplear el anlisis predictivo para ejecutar escenarios que


ayudarn a orientar las acciones futuras.

PASOSO DE MINERIA DE DATOS


1.

Seleccin del conjunto de datos, tanto en lo que se refiere a las


variables objetivo (aquellas que se quiere predecir, calcular o
inferir), como a lasvariables independientes(las que sirven para
hacer el clculo o proceso), como posiblemente almuestreode
losregistrosdisponibles.

2.

Anlisis de las propiedades de los datos, en especial


loshistogramas, diagramas dedispersin, presencia devalores
atpicosy ausencia de datos (valores nulos).

3.

Transformacin del conjunto de datos de entrada, se realizar


de diversas formas en funcin del anlisis previo, con el objetivo
de prepararlo para aplicar la tcnica de minera de datos que
mejor se adapte a los datos y al problema, a este paso tambin
se le conoce comopreprocesamientode los datos.

4.

Seleccionar y aplicar la tcnica de minera de datos, se construye el


modelo predictivo, de clasificacin o segmentacin.

5.

Extraccin de conocimiento, mediante una tcnica de minera de


datos, se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables del
problema o relaciones de asociacin entre dichas variables. Tambin
pueden usarse varias tcnicas a la vez para generar distintos modelos,
aunque generalmente cada tcnica obliga a un preprocesado diferente
de los datos.

6.

Interpretacin y evaluacin de datos, una vez obtenido el modelo, se


debe proceder a su validacin comprobando que las conclusiones que
arroja son vlidas y suficientemente satisfactorias. En el caso de haber
obtenido varios modelos mediante el uso de distintas tcnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al
problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos
modelos.

CASO PRACTICO #1

Tenemos nuestra base de datos de artculos vendidos

Utilizamos la herramienta Tablas dinmicas

Nos muestra la siguiente ventana

Observamos tambin que se marca la tabla que contiene la informacin

Nos abre una nueva hoja de trabajo

Seleccionamos las columnas y filas de las cuales se mostrar la informacin

Podemos tambin obtener grficas

CASO PRACTICO #2

RAZON SOCIAL:

Cerrajera Los Betos

Ubicacin: Santa Clara 16 Molino De Santo Domingo, lvaro Obregn,


01130 Ciudad De Mxico, D.F.

MISION:

Somos un establecimiento innovador con marcas lderes, ofreciendo la mejor


solucin en cerrajera.

VISION:

Queremos ser el mejor establecimiento de la ciudad de Mxico para satisfacer


la necesidad de nuestros clientes.

reas funcionales

Objetivos
Ayudar a mejorar el control de ventas
Clculos

y procesos simples

Optimizar

las bases de datos (ventas,

almacn)
Economizar

tiempos en la
administracin de la ventas

Cdigo
Descripcin
Tipo
Marca
Producto
existencia

ENTRADAS

BASE DE DATOS

HISTORIAL TICKET

Regresar

Das könnte Ihnen auch gefallen