Sie sind auf Seite 1von 56

Base de Datos.

Primera Parte
Introduccin
OLTP VS OLAP
Limpieza de datos e integracin

Segunda Parte
Modelo de datos y diseo de Bodegas

Tercera Parte
Minera de Datos

No puedo encontrar los datos que necesito


Datos dispersos en la red.
Muchas versiones diferencias sutiles

No puedo obtener los datos que necesito


Necesito experto para obtener los datos

No entiendo los datos que obtengo


Pobre documentacin de datos

No puedo usar los datos que encuentro


Resultados inesperados
Datos necesitan ser transformados de una forma a otra.

Bodega de datos es una coleccin de datos,


orientada a temas, integrada, no voltil, y
variante en el tiempo que soporta decisiones
administrativas. Datos obtenidos de una
variedad de fuentes diferentes, a disposicin
de los usuarios finales en lo que pueden
entender y utilizar en un contexto
empresarial

Que epoca del ao


es mejor para
lanzar promociones?
Quienes son los clientes
y que productos estan
Comprando?

Cual es el canal de
distribucion mas
Efectivo?

Que producto
tiene el mayor impacto
en las ganancias?

Que clientes son mas


probables que se vayan
a la competencia?
Que impacto tiene
los nuevos
servicios/productos en
las ganancias?

Agregacin y suma de varios conjuntos de


datos.
Agrupamiento (Cluster)
Detectar Tendencias
Proyecciones Multi-dimensionales (Como
influye el una variable en otra)

OLTP

Orientado a aplicaciones
Usado para manejar
negocios
Usuarios de oficina
Detalle de datos
Datos actuales
Accesos repetitivos en
pequeas transacciones
Acceso de lectura y
escritura

OLAP

Orientado a un tema.
Usados para analizar
negocios
Administrador/Analista
Suma de datos
Datos tomados en cierto
periodo.
Accesos usando
bsquedas extensas.
Mayormente lectura
(Cambios por lotes)

Variante en el Tiempo

Tiempo 60/90 Dias


Cambio de Registros
Llave puede no contener
elemento de tiempo

5 a 10 aos
Sofisticado Fotos de Datos
Llave debe contener
elemento de tiempo

No Voltil

Manipulacin
De datos registro
a registro

Carga/Acceso en
Masa

Un Data mart es una versin especial de almacn


de datos (data warehouse). Son subconjuntos de
datos con el propsito de ayudar a que un rea
especfica dentro del negocio pueda tomar mejores
decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados
de mltiples formas para que diversos grupos de
usuarios realicen la explotacin de los mismos de
la forma ms conveniente segn sus necesidades.
Puede ser simplemente una copia de parte de un
DataWarehouse para uso departamental.

Fcil acceso a los datos que se necesitan


frecuentemente.
Crea vista colectiva para grupo de usuarios.
Mejora el tiempo de respuesta del usuario
final.
Facilidad de creacin.
Costo inferior al de la aplicacin de un
completo almacn de datos.
Los usuarios potenciales son ms
claramente identificables que en un
almacn de datos completo

Retroalimentacion

UNIDAD
OLTP
UNIDAD
OLTP

LIMPIEZA DE
DATOS
E
INTEGRACION

Bodega de
Datos

UNIDAD
OLTP
Cambios/retroalimentacin

Datos Sucios
Multiplicidad de cdigos
Igual significado EN LA WEB, es igual que EN
INTERNET .
Varios Estndares.

Introduccion a Bodega de Datos

Bodega de Datos
appl A - m,f
appl B - 1,0
appl C - x,y
appl D - male, female
appl A - pipeline - cm
appl B - pipeline - in
appl C - pipeline - feet
appl D - pipeline - yds

m,f

pipeline - cm

Datos Faltantes, Falsos y Duplicados


Falta la edad del empleado.
Das de incapacidad digitados errneamente.
Duplicacin de datos en los diferentes OLTP o
misma OLTP.
Duplicacin en el significado (Jon G. Ordonez,
aparece en otra OLTP como Jon Geiler Ordonez.)

Inconsistencia
Cdigos mal digitados (El codigo de genero es M/F,
se encuentran datos con 1/0).
Cdigos que no tienen significado (AL), no tiene
ningn significados en los cdigos usados.
Inconsistencia de datos duplicados (Dos datos son
encontrados con la misma persona pero ambos
tiene direcciones difentes)

No puede ser automatizada.


Requiere considerable conocimientos que
es tcticamente y mas all de los
competencias en Bodega de Datos
(Medidas, Polticas, Geografa).
Complejidad se incrementa con el
incremento en base de datos.
Complejidad se incrementa con datos
histricos.

Problema a Detectar

Tecnica Usada

Valores No Legales

(Max, Min), Desviacion, Media

Falta de Estandares

Comparacion de Columnas
(Compara los valores en
determinada columna en toda la
tabla)

Duplicados y Datos No Digitados

Comparar con numero de filas,


Detectar nulos, usar reglas para
predecir datos incorrectos y no
digitados

Para garantizar el uso de los mejores datos posibles para la


bodega, se deben tener en cuenta los siguientes pasos:

Identificar la fuente de datos con la mejor calidad: Es posible que


se encuentren varias fuentes con los mismos datos, pero en
algunas se tenga mejor calidad de los mismos.
Identificar variaciones en palabras : Como errores de ortografa y
mayscula y minscula.
Discutir problemas de datos con el equipo.
Arreglar los problemas de datos en las fuentes cuando sea
posible, en vez de hacerlo en el proceso ETL o directamente a la
bodega.
SI existen muchos problemas en las fuentes, arreglarlos en el
proceso ira en contra del rendimiento, estos problemas deber
ser responsabilidad de los sistemas fuentes.
Realizar tareas de limpieza sobre los datos.

Tres funciones separadas: ETL


Extraccin Leer los datos de fuentes de datos
especificadas y extraer el grupo de datos deseado.
Transformacin Uso de reglas o bsqueda de
tabla, o creando combinaciones con otros datos,
para convertir fuente de datos en los estados
deseados
Cargar : Escribir los datos resultantes en la base de
datos destino

Desarrollo del ETL


Oportunidad para eliminar datos inservibles
Normalmente 80% verificando integridad y reglas de
negocio
Contar con un involucrado del negocio que pueda
tomar decisiones acerca de las reglas

Combinar fuentes de datos dispares en una


sola estructura.
Integracin de Esquemas: Crear e integrar
esquemas con fuentes de datos disparejas.
Integracin de Datos: Limpiar y concatenar datos de
diferentes fuentes de datos

Retos

Nombres diferentes
Estructuras diferentes
Tipo de datos diferentes
Campos Faltantes
Semntica diferente

Por ejemplo :
Carros (Noserie, Modelo, Color, Estero..)
Autos (Serialnr, Model, Color)
Optionen(Serialnr, Stereo,..)

Mediador

Extractor

Extractor

Extractor

Extractor
Crea una vista comn para toda las fuentes de
datos.
Realiza el puente en las diferencias de nombre,
tipos y estructuras.

Mediador
Construye e integra esquemas.
Realiza la integracin de datos y pasa la
informacin a la bodega de datos.

La Bodega de datos puede fallar sin una


apropiada estrategia de transformacin es
desarrollada.
Limpieza de Datos
Integracin de Esquemas

Propagar cambios en los datos fuente en el


almacn
Problemas:
Cuando refrescar
Cmo actualizar tcnicas incrementales de cargar

Peridicamente (por ejemplo, todas las noches,


todas las semanas) o despus de eventos
importantes.
En cada actualizacin: no se justifica a menos que
la bodega de datos requiera datos actuales.
Poltica de actualizacin establecidos por el
administrador basadas en las necesidades de los
usuario y el trfico.
Posiblemente diferentes polticas para diferentes
fuentes

Una vez se tienen los datos, es importante determinar si este


contenido es realmente correcto. Se pueden hacer varios
procesos para determinar esto:

Cruce de datos.
Se ejecutan varios Queries contra las fuentes de datos y se
verifica que el resultado de estos Queries sea el mismo que el
datos con los datos seleccionados del proceso ETL.

Validacin del Proceso.


Al utilizar la bodega de datos es posible encontrar diferentes
resultados de los que se haran con simples Queries sobre las
fuentes. Esto se da debido a la limpieza y transformacin
hechas a los datos en el proceso ETL. Por lo tanto es
importante identificar las causas de las diferencias y
determinar cual resultados es realmente el correcto.

Algunas tcnicas para limitar la cantidad de


operaciones necesarias para refrescar las bodegas
de datos
-----

Aplicacin
Existente

Tiempo de
Cambio (TimeStamp)
-----

Aplicacin
Existente

-----

Aplicacin
Existente
Archivo de Log

Antes

-----

Codigo de
Aplicacion
Despues

Cambios
desde la
ultima carga

Diseo Lgico

Esquema en Estrella
Una sola tabla de hechos, y una tabla de dimensin
por cada dimensin.
Soportado por mltiples RDBMS

Tabla de Hechos Modelo de Estrella


Ejemplo tpico: los registros de ventas individuales
Los hechos son valores cuantificables.
Medidas numricas para analizar.
Las tablas de hechos tienen gran cantidad de
registros en comparacin con el nmero de
columnas.
Acceso a travs de las dimensiones.

Dimensiones Modelo de Estrella


Definicin de negocio en trminos ya familiares para
los usuarios
Las dimensiones son denormalizadas ( jerarquas que
llevan a redundancia)
Tablas pequeas.
Se unen a la tabla de hechos mediante una clave
externa
Bien indexada
Dimensiones tpicas
perodos de tiempo, regin geogrfica (mercados, ciudades), los
productos, clientes, vendedores, etc

Modelo de copo de nieve


Mayor normalizacin, es decir, los niveles de las
jerarquas se normalizan.
Mayor flexibilidad
Mayor dificultad de mantenimiento
Joins ms costosos
Menos registros en las dimensiones.

Ejemplo Modelo de copo de nieve

Dimensin de Tiempo
Obligatoria en la mayora de las bodegas de datos.
Tiene varios significados y tcnicas roll-up
dependiente del contesto.
Calendario simple
Calendario Fiscal
Calendario Acadmico

Se necesita indexar fechas especiales como


eventos, lanzamientos..

Llaves Subrogadas
Todas las llaves de las tablas de la bodega de
datos deben ser llaves subrogadas, es decir
no deben significar nada respecto a las
caractersticas de su contenido ni a su fuente
en los sistemas fuente. No se deben utilizar
las llaves originales de un sistema fuente del
cual fueron extradas. Estas llaves subrogadas
se manejan con enteros.

Declaracin de Granularidad de la tabla de hechos.


Es necesario definir claramente lo que es un registro
de la tabla de hechos en el diseo dimensional
propuesto. La granularidad es la respuesta a la
pregunta. Que es un registro en la tabla de hechos ?
La granularidad se refiere al nivel de detalle existente
en las unidades de los datos de la bodega. Entre mas
detalle halla, menor ser el nivel de granularidad.
Entre menos detalle halla, mayor ser la granularidad.
Es un factor determinante en el desarrollo de la
bodega de datos, debido a que de ella depende el
volumen de datos que ser almacenada en la bodega
y el tipo de queries que pueden ser realizados.

Granularidad

Pivotear : Escoger (Rotar el cubo en un


pivote) un grupo de dimensiones a mostrar.
Slicing-Dicing : Seleccionar cierto datos de
el cubo.
Roll-up : Sumar una dimensin en una
dimensin mas pequea (Roll-up semanas
en meses).
Drill-down : Abrir una dimensin agrega
para relevar detalles (Abrir meses para
relevar informacin en semanas)

Mineria de datos es una tecnologa de soporte para usuario final, cuyo


objetivo es extraer conocimiento til y utilizable a partir de la informacin
contenida en las bases de datos de las empresas.
Los objetivos de un sistema Mineria de Datos nos permitiran analizar
factores de influencia en determinados procesos, predecir o estimar variables
o comportamientos futuros, sementar o agrupar tems similares, adems de
obtener secuencias de eventos que provocan comportamientos especficos.
Los sistemas Minera de Datos se desarrollan bajo lenguajes de ultima
generacin basados en la inteligencia artificial y utilizando mtodos
matemticos, tales como:
Redes neuronales
Introduccin de reglas
Arboles de decisin
Conjunto de reglas por clase
Soporta tambin sofisticadas operaciones de anlisis tales como los
sistemas Scoring y aplicaciones de deteccin de fraude.

Calificaciones de crdito / marketing dirigido:


Dada una base de datos de 100.000 nombres, que las
personas son los menos propensos a dejar de pagar sus
tarjetas de crdito?
Identificar las probabilidades de respuesta a las
promociones de ventas
Deteccin de fraudes
Qu tipo de operaciones es probable que sean
fraudulentas, dada la demografa y el historial de
transacciones de un cliente en particular?
Manejo de Relaciones con Clientes:
Cul de mis clientes son probablemente los ms fieles, y
que tienen ms probabilidades de irse a la competencia? :

Proceso de semi-automtico para analizar grandes bases de


datos en bsqueda de patrones interesantes y tiles.
Coincide en parte con el aprendizaje de mquina,
estadsticas, e inteligencia artificial y bases de datos, pero
ms escalable en nmero de caractersticas y casos
ms automtica para manejar datos heterogneos

Predecir:

Regresin
Clasificacin

Descriptivo:

Agrupaciones (Cluster) o se pongan en venta similitud


Reglas de Asociacin
Deteccin de Desviacin

Teniendo en cuenta los datos antiguos sobre los clientes y los


pagos, predecir si un nuevo solicitante es Elegible para
prstamo o no

Clientes Anteriores
Edad
Salario
Profesion
Localidad
Tipo de Cliente

Clasificador

Arboles de
Decision
Salary > 5 L
Prof. = Exec

rbol donde los nodos internos son simples reglas de decisin


en uno o ms atributos y nodos de la hoja se prev etiquetas
de clase.

Salario < 1 M
Prof = teacher
Bueno

Malo

Edad < 30
Malo

Bueno

Industria
Finanzas
Seguros
Telecomunicaciones
Transporte

Aplicacin
Anlisis de Tarjetas de Crdito
Reglamos y Anlisis de fraudes
Anlisis de Llamadas
Manejo de Logstica

Das könnte Ihnen auch gefallen