Sie sind auf Seite 1von 47

DATA WAREHOUSE PROCESO CONSTRUCCION

Administracin de Base de Datos Ing. Luis Reyes

El Origen del Data Warehouse


Debido a la existencia de base de datos que eran sujetas a conflictos de requerimiento. Conflictos entre uso operacional y soporte a la toma de decisiones.

El Origen de Data Warehousing

Uso Operacional
Requiere preciso, exacto y acceso instantneo de los datos. Acceso da a da, historial e informes. Ejemplos
Cuentas de Usuario, Registro de Transacciones, Actividades y Operaciones de negocio

El Origen de Data Warehousing

Uso al soporte en la toma de decisiones


El uso operacional divide los datos basados sobre funciones de negocio El soporte a la toma de decisiones requiere una divisin de la base de datos basado sobre un tema. Ejemplo:
Una lista de las cuales las partes ms ordenadas en una cierta fecha, no necesariamente por quien.

Data Warehousing
Centro de la arquitectura de los sistemas de informacin en la dcada de los 90. Un Data Warehouse o Depsito de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de tiempo variante, que se usa para el soporte de proceso de toma de decisiones gerenciales

Data Warehousing
Contiene datos consolidados desde muchas fuentes, argumentadas con informacin sumaria y cubriendo un largo perodo de tiempo Son mucho mas grandes que otros reinos de bases de datos Tamaos desde los Gigabytes hasta los terabytes son comunes

Diferencias con las OLTP


Sistemas operacionales requieren respuesta instantnea sobre una pequea cantidad de informacin. Sistemas para el soporte en la toma de decisiones, requieren acceso a una gran cantidad de datos. La necesidad de Data Warehouse ha sido inevitable, puesto que reduce conflictos entre pequeas transacciones (OLTP) y reportes de requerimientos analticos de grandes historiales.

Comparacin
Sistemas Transaccionales OLTP
Actualizar Predefinidas Pocos Detalles Actuales Registros

Sistemas de Negocio
OLAP
Analizar Definidas por el Usuario Muchos Agregados Actuales, Historia, Proyectado Arreglo de datos

Diferencias

OLTP necesita de una alta eficiencia compartiendo recursos crticos.


Memoria RAM Muy pequeos requerimientos de entrada y salida.

Data Warehouse es totalmente opuesto


Consume una gran cantidad de memoria RAM Transferencia de datos entre memoria y disco.

OLTP requiere compartir recursos vrs. Data Warehouse necesita de grandes requerimientos por periodos prolongados de tiempo.

Diferencias
Uso de Base de Datos Operacionales
Muchos usuarios concurrentes Consultas predefinidas y actualizables Cantidades pequeas de datos detallados Requerimientos de respuesta inmediata

Uso de Data Warehouse


Pocos usuarios concurrentes Consultas complejas, frecuentemente no anticipadas Cantidades grandes de datos detallados Requerimientos de respuesta no crticos

Caractersticas
Orientado al tema Integrado De tiempo variantes No voltil

Orientado al Tema

De acuerdo a la fuente de informacin (el sistema), los datos pueden transformarse como informacin temtica.

Integrado

En el proceso de transformacin de los datos, estos se consolidan definiendo nuevos datos integrndolos.

Tiempo variante

Operacional Valor actual de los datos


Horizonte de tiempo: 60-90 das La clave puede, como no, tener un elemento de tiempo Los datos puede ser actualizados

Data Warehouse Datos instantneos:


Horizonte de tiempo: 5-10 aos La clave contiene un elemento de tiempo Una vez que el snapshot se realice, el registro no puede ser actualizado

No voltil
cambia reemplaza inserta reemplaza cambia

inserta

reemplaza

carga

accesa

Operacional
Normalmente la data es actualizada registro por registro

Data Warehouse
La data es cargada en el depsito de datos y es accedido all, pero una vez que el snapshot est hecho, los datos en el depsito cambian

Esquema
Bases de Datos Externas
Metadatos

Visualizacin

Extraer Limpiar Transformar Leer Refrescar

Servers

OLAP

Data Warehouse Bases de Datos Operacionales Minera de Datos

Arquitectura

Arquitectura Bsica
Fuente de Datos
Warehouse Usuarios

Sistema Operacional

Anlisis

Sistema Operacional

Reportes

Archivo Plano

Minando

Arquitectura centralizada con recolector de datos


Fuente de Datos rea de Pruebas Warehouse Usuarios

Sistema Operacional

Anlisis

Sistema Operacional

Reportes

Archivo Plano

Minando

Arquitectura centralizada con recolector de datos + Data Marts


Fuente de Datos rea de Pruebas Warehouse Data Marts Usuarios

Sistema Operacional

Adquisiciones

Anlisis

Sistema Operacional

Ventas

Reportes

Archivo Plano

Inventario

Minando

Flujo de Datos

La informacin va al nivel de detalle actual


Sea eliminado Sea resumido Sea archivado

Creando y Manteniendo un DW
Un buen esquema debe ser levantado con una integracin de una coleccin de datos copiados de diversas fuentes Ejemplo: Base de datos de inventario y departamentos de personal, junto con bases de datos de Ventas mantenidas por diferentes pases.

Diferentes grupos, diferentes unidades de concurrencia, diferentes nombres de atributos y diferencias en normalizacin o estructura.

Esquema

Descripcin del

Esquema

a)

Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el DW.

b)

Extraccin, Transformacin y Carga de los Datos


Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el DW.

... Descripcin del

Esquema

c)

Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos) describe los contenidos del DW. La cual consiste de definiciones de los elementos de datos en el depsito, sistema(s) del (os) elemento(s) fuente.

d)

Acceso de usuario final


Los usuarios accesan al DW por medio de herramientas de productividad basadas en GUI (Interfase grfica de usuario).

e)

Plataforma del data warehouse


Es casi siempre un servidor de base de datos relacional.

Una Mquina o Dos


Es normal que un DW est separado del OLTP, debido a factores muy especficos que afectan el desempeo. El DW requiere de altos requerimientos, los cuales pueden llegar a entorpecer el desempeo del OLTP.

Principales Problemas
Diferentes modelos Diferente normalizacin Inconsistencia en los datos Diferentes arquitecturas

Fases de Elaboracin
Organizacin Desarrollo Implementacin Evaluacin

Organizacin

Factores en la planificacin de un DW
Establecer una asociacin de usuarios, gestin y grupos. Seleccionar una aplicacin piloto con una alta probabilidad de xito. Construir prototipos rpida y frecuentemente. Implementacin incremental. Reportar activamente y publicar los casos exitosos.

Estrategias para el desarrollo de un DW


Quin es el auditorio? Cul es el alcance? Qu tipo de DW debera construirse?

Estrategias para el diseo de un DW Estrategias para la gestin de un DW

Desarrollo
Porqu construir bloques de DW Consideraciones previas al desarrollo de un DW

Alcance de un DW Redundancia de datos Tipo de usuario final

Elementos claves para el Desarrollo de un DW


Hardware DBMS Arquitectura a implementar

Implementacin ...

Elementos a considerar en la implementacin.


Proyecto Total Proyecto en Fases Modelo lgico de datos Proyecto Especializado o Proyecto Base

Estrategias para el proceso de implementacin


Identificar el problema Definir el modelo lgico Reunir los datos Tomar iniciativas de complementacin de estos.

... Implementacin
Definir el mejor diseo fsico. Definir los procesos de extraccin, filtro, transformacin y carga de datos. Definir los procesos de administracin de la informacin. Definir las formas de consultas.

Evaluacin

Evaluacin de rendimiento de la inversin


Costos y Beneficios a obtener

Implementacin
Data Warehouse
Ventas Finanzas

Produccin
RRHH

Data Mart

Tecnologa OLTP

Tecnologa OLAP

Arquitecturas OLAP
ROLAP MOLAP

ROLAP Reemplazo de Servidor de BD Multidemensional por Servidor de BD Relacional Utilizacin de SQL (Portabilidad) Requiere de gran cantidad de tablas relacionales Almacena datos y relaciones dimensionales Aplicacin de desnormalizacin

MOLAP Concepto de BD Multidimensional Soporte para Mltiples dimensiones Soporte para Mltiples Usuarios Concurrentes

ROLAP - MOLAP

ROLAP significa Procesamiento Analtico OnLine Relacional, es decir, se trata de sistemas y herramientas OLAP (Procesamiento Analtico OnLine) construidos sobre una base de datos relacional. MOLAP (Multidimensional OLAP) que se construye sobre bases de datos multidimensionales.

Ambos tipos de herramientas, tanto ROLAP como MOLAP, estn diseadas para realizar anlisis de datos a travs del uso de modelos de datos multidimensionales, aunque en el caso de ROLAP estos modelos no se implementan sobre un sistema multidimensional, sino sobre un sistema relacional clsico.

Consultas OLAP

Zona Vista del Gerente de Producto EMPRESA Tipo Cliente

Vista del Gerente General

Familia Productos

Vista del Gerente de Finanzas

Vista Ad-Hoc

Sistema MOLAP / ROLAP

ROLAP vrs MOLAP


El ROLAP delega la negociacin entre tiempo de respuesta y el proceso batch al diseo del sistema. Mientras, el MOLAP, suele requerir que sus bases de datos se precompilen para conseguir un rendimiento aceptable en las consultas, incrementando, por tanto los requerimientos batch. Los sistemas con alta volatilidad de los datos (aquellos en los que cambian las reglas de agregacin y consolidacin), requieren una arquitectura que pueda realizar esta consolidacin ad-hoc. Los sistemas ROLAP soportan bien esta consolidacin dinmica, mientras que los MOLAP generalmente son adecuados para diez o menos dimensiones

ROLAP vrs MOLAP


Los ROLAP pueden crecer hasta un gran nmero de dimensiones, mientras que los MOLAP generalmente son adecuados para diez o menos dimensiones. Los ROLAP soportan anlisis OLAP contra grandes volmenes de datos elementales, mientras que los MOLAP se comportan razonablemente en volmenes ms reducidos (menos de 5Gb)

Modelo de Datos Multidimensional

El cubo contiene dos medidas, Packages y Last, y tres dimensiones relacionadas, Route, Source y Time
Los valores alfanumricos ms pequeos que estn alrededor del cubo son los miembros de las dimensiones.
Los miembros de ejemplo son: ground (miembro de la dimensin Route), Africa (miembro de la dimensin Source) y 1st quarter (miembro de la dimensin Time).

Medidas

Los valores de las celdas del cubo representan las dos medidas, Packages y Last. La medida Packages representa el nmero de paquetes importados y la funcin Sum se utiliza para agregar los hechos. La medida Last representa la fecha de recepcin y la funcin Max se utiliza para agregar los hechos.

Dimensiones
La dimensin Route representa los medios por los que las importaciones llegan a su destino. Los miembros de esta dimensin son ground, nonground, air, sea, road o rail. La dimensin Source representa las ubicaciones en las que se producen las importaciones, caso de frica o Asia. La dimensin Time representa los trimestres y semestres de un nico ao.

Agregados Los usuarios corporativos de un cubo pueden determinar el valor de cualquier medida para los miembros de cada dimensin, con independencia del nivel del miembro de la dimensin, ya que Analysis Services agrega valores a los niveles superiores segn sea necesario. Por ejemplo, los valores de las medidas de la ilustracin anterior se pueden agregar segn una jerarqua de calendario estndar mediante la jerarqua Calendar Time de la dimensin Time, tal como se muestra en el diagrama siguiente.

Tipos de cubos ROLAP


Estrella Copo de Nieve Hbrido

Dimensin Dimensin

Dim N-1

Tabla Hecho
Dimensin Dim N

Dimensin

Componentes
Hechos: que guardan los datos cuantitativos que representan el quehacer del sistema modelado. Ejemplos tpicos son el total de ventas, el nmero de alumnos aprobados, cantidad de milmetros de lluvia cada. Dimensiones: encargadas de clasificar los hechos. Ejemplos tpicos, adems de la dimensin Tiempo siempre presente, son el tipo de producto, tipo de alumno, territorio geogrfico

Copo de Nieve

Estrella

Das könnte Ihnen auch gefallen