Beruflich Dokumente
Kultur Dokumente
Ciclo V
ASIGNATURA TEMA DOCENTE ALUMNOS :
BASE DE DATOS II
:
DATA WAREHOUSE
:
FREDY
:
SERNAQUE BAYONA JHONATAN
DATA WAREHOUSE
DATA WAREHOUSE
Introduccin Data Warehouse no es un trmino nuevo si no una vieja rutina con un nombre nuevo. El almacenamiento de datos histricos y anlisis de estos para tomar decisiones futuras ya era practicado por los aztecas y mallas en su increble calendario solar. Incluso los egipcios atesoraban registros de las primaveras con amplios desbordamientos del Nilo, que les permita saber si el ao sera de una buena cosecha o no. El estudio de datos relacionados con la gestin empresarial, empez cuando todava la computacin no llegaba a dar respuesta a estos problemas. Los directivos estudiaban enormes informes elaborados por comerciales y econmicos compuestos de varias pginas de datos escrupulosamente resumidos. El avance de la computacin ha hecho el trabajo un poco ms fcil. El uso de aplicaciones OLTP (Online TransactionProccesing) ha trado consigo la recopilacin muy rpida de datos que antes era casi imposible obtener, aunque haciendo uso en muchos casos de mltiples sistemas que usan SGBDR(Sistemas Gestores de Bases de Datos Relacionales) diferentes e incompatibles. Esto hace difcil el correlacionar los datos obtenidos desde estos diversos sistemas teniendo que volver al anlisis impreso. As esta nueva teora viene a resolver un problema viejo usando una nueva tcnica: OLAP (Online AnaliticalProccesing) Procesamiento Anltico En Lnea. Existen diversas variantes sobre esta teora, que definen el futuro desarrollo de este tipo de aplicaciones, pero una de las ms aceptadas hasta ahora es el Modelo de Hechos Dimensionales (DFM: DimentionFactModel), que veremos a continuacin para dar comienzo a nuestro estudio. El documento consta de tres captulos. En el primero, aspectos tericos se dan los conceptos y los fundamentosde la tecnologa data warehouse. En el segundo proyecto y elaboracin de una data warehouse, se definen las estrategias para su planificacin, desarrollo, diseo y gestin.
Objetivos
Estudiar la importancia del almacn de datos para la automatizacin de los procesos y el manejo de la informacin Comprender la relacin entre el datawarehousing y la inteligencia del negocio
DATA WAREHOUSE
DATA WAREHOUSE
1.2 CICLO DE VIDA DE UNA DATA WAREHOUSING ELEMENTOS BASICOS HERRAMIENTAS PARA MANEJAR EL PROCESO
DATA WAREHOUSE
Integrado.Es el aspecto ms importante. La integracin de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Codificacin: los diseadores de aplicaciones codifican el campo gnero en varias formas, algunos representan gnero como M y F, otros como 1 y 0, otros como X Y, OTROS COMO MACULINO Y FEMENINO MEDIDA DE ATRIBUTOS: los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena almacenan los datos de tuberas en centmetros mientras que otros en pulgadas.
DATA WAREHOUSE
De TiempoVariante.Esta dependencia aparece de tres formas: La informacin representa los datos sobre un horizonte largo de tiempo. Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo (da, semana, mes, etc.). La informacin, una vez registrada correctamente, no puede ser actualizada.
No Voltil.El Almacn de Datos slo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.
Otras caractersticas:
DATA WAREHOUSE
DATA WAREHOUSE
Contenido: Qu datos e informacin se requieren para solucionar las preguntas y necesidades de los usuarios Fuentes: Cules son los fuentes de la informacin y donde se encuentran las fuentes. Extraccin: Cmo se extraen los datos y con que periodicidad se cargan en el datawarehouse. Preparacin: Qu se requiere para depurar y validar los datos fuentes Diseo: Cul es el diseo apropiado para la base de datos Afinamiento: Qu aspectos de afinamiento y rendimiento se van a considerar Plataforma: Como ser la plataforma en la que residir el datawarehouse, como se compone la red, cuales son los componentes de hardware y software. Administracin: Qu se requiere para administrar el datawarehouse en trminos de seguridad, procesos de actualizacin, gestin de metadatos, aseguramiento de la calidad, etc.
10
DATA WAREHOUSE
Metadatos. Describen la estructura de los datos contenidos en el almacn. o Estn en una dimensin distinta al resto de niveles. Datos detallados actuales. Obtenidos directamente del procesado de los datos. o Forman el nivel ms bajo de detalle. o Ocupan mucho espacio. o Se almacenan en disco, para facilitar el acceso. Datos detallados histricos. Igual que los anteriores, pero con datos correspondientes al pasado. o Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente. Datos ligeramente resumidos. Primer nivel de agregacin de los datos detallados actuales. o Corresponden a consultas habituales. o Se almacenan en disco. Datos muy resumidos. Son el nivel ms alto de agregacin. o Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rpidamente. o Suelen estar separados del Almacn de datos, formando Supermercados de Datos (Data Marts).
Arquitectura centralizada. Todo el Almacn de datos se encuentra en un nico servidor. Arquitectura distribuida. Los datos del Almacn se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lgicos. Arquitectura distribuida por niveles. Refleja la estructura lgica del Almacn, asignando los servidores en funcin del nivel de agregacin de los datos que contienen. Un servidor est dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos. Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).
11
DATA WAREHOUSE
12
DATA WAREHOUSE
1.10 Arquitectura Data Warehouse La estructura bsica de la arquitectura Data Warehouse incluye: 1. Datos operacionales. Origen de datos para el componente de almacenamiento fsico del Almacn de Datos. 2. Extraccin de datos. Seleccin sistemtica de datos operacionales usados para formar parte del Almacn de Datos. 3. Transformacin de datos. Procesos para sumarizar y realizar cambios en los datos operacionales. 4. Carga de datos. Insercin de datos en el Almacn. 5. Almacn. Almacenamiento fsico de datos de al arquitectura Data Warehouse. 6. Herramienta de acceso. Herramientas que proveen acceso a los datos.
Gestor de Carga Metadatos Agregaciones Gestor del Datawarehouse Gestor de Respaldos DW Repositorio
DataMart
o o
Herramientas de Acceso
13
DATA WAREHOUSE
14
DATA WAREHOUSE
15
DATA WAREHOUSE
16
DATA WAREHOUSE
17
DATA WAREHOUSE
La Figura N 15 muestra un esquema bidimensional para analizar las opciones bsicas. La dimensin horizontal indica el alcance del depsito y la vertical muestra la cantidad de datos redundantes que deben almacenarse y mantenerse.
Redundancia de Datos
Hay tres niveles esenciales de redundancia de datos que las empresas deberan considerar en sus opciones de data warehouse: Data warehouses "virtual" o "Point to Point" Data warehouses "centrales" Data warehouses "distribuidos" No se puede pensar en un nico enfoque. Cada opcin adapta un conjunto especfico de requerimientos y una buena estrategia de almacenamiento de datos, lo constituye la inclusin de las tres opciones. Data Warehouses "Virtual" o "Point to Point" Data Warehouses "Centrales" Data Warehouses Distribuidos
18
DATA WAREHOUSE
"Powerusers" o "Buzo de Informacin" (analistas financieros y de negocios, ingenieros, etc.) Usuarios de soporte (de oficina, administrativos, etc.). Cada una de estas categoras diferentes de usuario tienen su propio conjunto de requerimientos para los datos, acceso, flexibilidad y facilidad de uso.
Los data warehouses exitosos comienzan cuando se escogen e integran satisfactoriamente tres elementos claves. Un data warehouse est integrado por un servidor de hardware y los DBMS que conforman el depsito. Del lado del hardware, se debe combinar la configuracin de plataformas de los servidores, mientras se decide cmo aprovechar los saltos casi constantes de la potencia del procesador. Del lado del software, la complejidad y el alto costo de los DBMSes fuerzan a tomar decisiones drsticas y balances comparativos inevitables, con respecto a la integracin, requerimientos de soporte, desempeo, eficiencia y confiabilidad. Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difciles de trabajar en su entorno, costoso para arreglar y difcil de justificar. Para conseguir que la implementacin del depsito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construccin: Arquitectura total del depsito Arquitecturas del servidor Sistemas de Gestin de Base de Datos A continuacin se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa.
Diseo de la Arquitectura
Arquitectura del Depsito El desarrollo del data warehouse comienza con la estructura lgica y fsica de la base de datos del depsito ms los servicios requeridos para operar y mantenerlo. Esta eleccin conduce a la seleccin de otros dos tems fundamentales: el servidor de hardware y el DBMS. La plataforma fsica puede centralizarse en una sola ubicacin o distribuirse regional, nacional o internacionalmente. A continuacin se dan las siguientes alternativas de arquitectura: 1. Un plan para almacenar los datos de su compaa, que podra obtenerse desde fuentes mltiples internas y externas, es consolidar la base de datos en un data warehouse integrado. El enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte. (Ver Figura N 16).
19
DATA WAREHOUSE
2.
La arquitectura global distribuye informacin por funcin, con datos financieros sobre un servidor en un sitio, los datos de comercializacin en otro y los datos de fabricacin en un tercer lugar. (Ver Figura N 17)
20
DATA WAREHOUSE
3.
Una arquitectura por niveles almacena datos altamente resumidos sobre una estacin de trabajo del usuario, con resmenes ms detallados en un segundo servidor y la informacin ms detallada en un tercero. La estacin de trabajo del primer nivel maneja la mayora de los pedidos para los datos, con pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la resolucin. Las computadoras en el primer nivel pueden optimizarse para usuarios de carga pesada y volumen bajo de datos, mientras que los servidores de los otros niveles son ms adecuados para procesar los volmenes pesados de datos, pero cargas ms livianas de usuario. (Ver figura N 18).
21
DATA WAREHOUSE
Arquitectura del servidor Al decidir sobre una estructura de depsito distribuida o centralizada, tambin se necesita considerar los servidores que retendrn y entregarn los datos. El tamao de su implementacin (y las necesidades de su empresa para escalabilidad, disponibilidad y gestin de sistemas) influir en la eleccin de la arquitectura del servidor. 1. Servidores de un solo procesador Los servidores de un slo procesador son los ms fciles de administrar, pero ofrecen limitada potencia de procesamiento y escalabilidad. Adems, un servidor slo presenta un nico punto de falla, limitando la disponibilidad garantizada del depsito. Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen uso de subproductos, tales como Ambientes de Computacin Distribuida (Distributed Computing Environment DCE) o Arquitectura Broker de Objeto Comn (CommonObjectsRequestBrokerArchitecture - CORBA), para distribuir el trfico a travs de servidores mltiples. Estas arquitecturas aumentan tambin la disponibilidad, debido a que las operaciones pueden cambiarse al servidor de copia de seguridad si un servidor falla, pero la gestin de sistemas es ms compleja. 2. Multiprocesamiento simtrico Las mquinas de multiprocesamiento simtrico (SymmetricMultiProcessing - SMP) aumentan mediante la adicin de procesadores que comparten la memoria interna de los servidores y los dispositivos de almacenamiento de disco. Se puede adquirir la mayora de SMP en configuraciones mnimas (es decir, con dos procesadores) y levantar cuando es necesario, justificando el crecimiento con las necesidades de procesamiento. La
22
DATA WAREHOUSE
escalabilidad de una mquina SMP alcanza su lmite en el nmero mximo de procesadores soportados por los mecanismos de conexin (es decir, el backplane y bus compartido). Procesamiento en paralelo masivo Una mquina de procesamiento en paralelo masivo (MassivelyParallelProcessing - MPP), conecta un conjunto de procesadores por medio de un enlace de banda ancha y de alta velocidad. Cada nodo es un servidor, completo con su propio procesador (posiblemente SMP) y memoria interna. Para optimizar una arquitectura MPP, las aplicaciones deben ser "paralelizadas" es decir, diseadas para operar por separado, en partes paralelas. Esta arquitectura es ideal para la bsqueda de grandes bases de datos. Sin embargo, el DBMS que se selecciona debe ser uno que ofrezca una versin paralela. Y an entonces, se requiere un diseo y afinamiento esenciales para obtener una ptima distribucin de los datos y prevenir "hot spots" o "data skew" (donde una cantidad desproporcionada del procesamiento es cambiada a un nodo de procesamiento, debido a la particin de los datos bajo su control). Acceso de memoria no uniforme La dificultad de mover aplicaciones y los DBMS a agrupaciones o ambientes realmente paralelos ha conducido a nuevas y recientes arquitecturas, tales como el acceso de memoria no uniforme (Non UniformMemory Access - NUMA). NUMA crea una sola gran mquina SMP al conectar mltiples nodos SMP en un solo (aunque fsicamente distribuida) banco de memoria y un ejemplo nico de OS. NUMA facilita el enfoque SMP para obtener los beneficios de performance de las grandes mquinas MPP (con 32 o ms procesadores), mientras se mantiene las ventajas de gestin y simplicidad de un ambiente SMP estndar. Lo ms importante de todo, es que existen DBMS y aplicaciones que pueden moverse desde un solo procesador o plataforma SMP a NUMA, sin modificaciones.
3.
4.
23
DATA WAREHOUSE
dimensiones diferentes, o las operaciones de drilldown que sucesivamente exponen los niveles de datos ms detallados), se debe identificar estas dimensiones cuando se construya la estructura de la base de datos. As, agregar una nueva dimensin o cambiar las vistas deseadas, puede ser engorroso y costoso. Algunos MDDBS requieren un recargue completo de la base de datos cuando ocurre una reestructuracin.
Nuevas Dimensiones
Una limitacin de un RDBMS y un MDDB, es la carencia de soporte para tipos de datos no tradicionales como imgenes, documentos y clips de vdeo / audio. Si usted necesita estos tipos de objetos en su data warehouse, busque un DBMS relacional - objeto (Ejemplo: ILLUSTRA de INFORMIX). Por su enfoque en los valores de datos codificados, la mayor parte de los sistemas de base de datos pueden acomodar estos tipos de datos, slo con extensiones basadas en cierta referencias, tales como indicadores de archivos que contienen los objetos. Muchos RDBMS almacenan los datos complejos como objetos grandes binarios (BinaryLargeObjects - BLOBs). En este formato, los objetos no pueden ser indexados, clasificados, o buscados por el servidor. Los DBMS relacional - objeto, de otro lado, almacenan los datos complejos como objetos nativos y pueden soportar las grandes estructuras de datos encontradas en un ambiente orientado a objetos. Estos sistemas de base de datos naturalmente acomodan no slo tipos de datos especiales sino tambin los mtodos de procesamiento que son nicos para cada uno de ellos. Pero una desventaja del enfoque relacional - objeto, es que la encapsulacin de los datos dentro de los tipos especiales de datos (una serie de precios de stock a travs del tiempo en cada registro de una tabla de stock, por ejemplo), requiere de operadores especializados para que hagan bsquedas simples previamente (por ejemplo, "Encontrar todas las existencias que han mostrado una disminucin en el precio de Abril a Mayo 1996"). La seleccin del DBMS est tambin sujeta al servidor de hardware que se usa. Algunos RDBMS, como el DB2 Paralelo, INFORMIX XPS y el ORACLE Paralelo, ofrecen versiones que soportan operaciones paralelas. El software paralelo divide consultas, uniones a travs de procesadores mltiples y corre estas operaciones simultneamente para mejorar la performance. Se requiere el paralelismo para el mejor desempeo en los servidores MPP grandes y SMP agrupados. No es an una opcin con MDDBS o DBMS relacional - objeto. En la tabla "Cmo comparar DBMS" se resume los pro y los contra de los diferentes tipos de DBMS para operaciones de data warehouse. La tabla "Matriz de Decisin del Data Warehouse" contiene algunos ejemplos de cmo afectan estos criterios de decisin en la eleccin de una arquitectura de servidor/ data warehouse. Cmo comparar DBMSES? Caractersticas / Relacional Super Multidimensional Multidimensional Objeto Funcin Relacional (Lgico) (Fsico) Relacional Estructuras Normalizadas Tipos de datos abstractos Paralelismo Estructuras Multidimensionales Drill-Down Rotacin Operaciones dependientes de datos Matriz de Decisin para el Data Warehouse Para estos Elija... ambientes... Requerimientos Usuarios Soporte Arquitectura Servidor DBMS comerciales de Sistemas Pequea ubicacin Local Consolidado - Procesador MDDB Alcance: nica mnimo - paquete nico o SMP central
24
DATA WAREHOUSE
promedio
departamental Usos: anlisis de datos Alcance: departamental Usos: anlisis ms informtico Alcance: empresa Usos: anlisis ms informtico Alcance: departamental Usos: investigacin
Grandes Analistas en una sola ubicacin; usuarios informticos dispersos Grande; geogrficamente disperso
en en
Central fuerte
Objetorelacionalsoporte Web
Pequea ubicaciones
pocas
Central fuerte
Centralizado
MPP
25
DATA WAREHOUSE
Finalmente, se debe factorizar la sofisticacin del personal de soporte. Los recursos de los sistemas de informacin (InformationSystem - IS) que estn disponibles dentro de su organizacin, pueden limitar la complejidad o sofisticacin de la arquitectura del servidor. Sin el personal especializado interno o consultores externos, es difcil de crear y mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del servidor (MPP o SMP agrupado, por ejemplo).
Planes de Expansion
Como su depsito evoluciona y los datos que contiene llegan a ser ms accesible, los empleados externos al depsito podran descubrir tambin el valor de sus datos. Al enlazar su data warehouse a otros sistemas (tanto internos como externos a la organizacin), se puede compartir informacin con otras entidades comerciales con poco o sin desarrollo. Los mensajes de correo electrnico, servidores WEB y conexiones Intranet/Internet, pueden entregar listas por niveles a sus proveedores o segn su condicin, a sus socios de negocio. Como los data warehouses continan creciendo en sofisticacin y uso, los datos acumulados dentro de una empresa llegarn a ser ms organizados, ms interconectados, ms accesibles y, en general, ms disponibles a ms empleados. El resultado ser la obtencin de mejores decisiones en el negocio, ms oportunidades y ms claridad de trabajo.
26
DATA WAREHOUSE
Los datos "sucios" pueden presentarse al ingresar informacin en una entrada de datos (por ejemplo, "Sistemas S. A." en lugar de "Sistemas S. A.") o de otras causas. Cualquiera que sea, la data sucia daa la credibilidad de la implementacin del depsito completo. A continuacin, en la Figura N 19 se muestra un ejemplo de formato de ventas en el que se pueden presentar errores. Afortunadamente, las herramientas de limpieza de datos pueden ser de gran ayuda. En algunos casos, puede crearse un programa de limpieza efectivo. En el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales puede ser casi obligatorio. Decidir qu herramienta usar es importante y no solamente para la integridad de los datos. Si se equivoca, se podra malgastar semanas en recursos de programacin o cientos de miles de dlares en costos de herramientas. La limpieza de una data "sucia" es un proceso multifactico y complejo. Los pasos a seguir son los siguientes: 1. Analizar sus datos corporativos para descubrir inexactitudes, anomalas y otros problemas. 2. Transformar los datos para asegurar que sean precisos y coherentes. 3. Asegurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado. 4. Validar los datos que usa la aplicacin del data warehouse
3 CUBOS DIMENSIONALES
Consiste en una representacin multidimensional de datos de detalle y resumen. Tiene como objetivo mejorar el rendimiento empresarial en lnea y mejorar el rendimiento de las consultas. Son un subconjunto de datos de la base de datos original. Son capaces de administrar de forma rpida y eficiente grandes cantidades de informacin.
3.1 Componentes de un cubo 3.1.1ORIGEN DE LOS DATOS Identifica y conecta donde se encuentra el almacn de datos la informacin relevante para resolver un problema.
27
DATA WAREHOUSE
3.1.2MEDIDAS
Datos numricos de inters para los usuarios. Que queremos medir o seleccionar. Algunos ejemplos: Ventas. Costos. Unidades vendidas. Se pueden crear algunas medias: Beneficios= Ventas-Costos
3.1.3 DIMENSIONES
Representan columnas que describen las categoras a travs de las cuales se separan las medidas. Similitud con los ejes de un sistema cartesiano. Tienen un lmite mximo de 64 dimensiones.
Ejemplo de un cubo
28
DATA WAREHOUSE
3.2.2ROLAP Los datos permanecen en las tablas originales. Se utiliza un conjunto separado de tablas relacionales para hacer referencia a los datos agregados. Ideal para bases grandes o datos antiguos que se consultan con poca frecuencia.
3.2.3 HOLAP Combinacin de ambos modos (OLAP y ROLAP). Mantiene los datos originales en tablas relacionales (ROLAP). Mantiene los datos agregados en formato multidimensional (MOLAP)
29
DATA WAREHOUSE
30
DATA WAREHOUSE
Conclusiones
1. El uso de sistemas Data Warehouse es una poderosa estrategia para administrar empresas. 2. Los resultados que arrojan los anlisis de los datos obtenidos y consolidados en el Data Warehouse pueden hacer que la directiva de la empresa corrija las estrategias hasta ahora trazadas y mejore as las ganancias. 3. El mantenimiento de un Sistema Data Warehouse es algo complejo, que requiere de recursos monetarios y estrategia. 4. El modelo dimensional brinda una forma muy sencilla de representacin de los datos y mejora as el tiempo de consultas a la base de datos. 5. Los sistemas de transformacin de datos de SQL Server brindan una poderosa herramienta a quienes se inicien en la confeccin de un Data Warehouse sobre este gestor de Bases de datos.
31
DATA WAREHOUSE
LINKOGRAFIAS
http://www.monografias.com/trabajos57/data-warehouse-sql/data-warehouse-sql2.shtml http://www2.rhernando.net/modules/tutorials/doc/bd/dw.html http://www2.rhernando.net/modules/tutorials/doc/bd/dw.html http://www.slideshare.net/mib/c6 https://www.google.com.pe/search?q=almacen+de+datos+data+warehouse&oq=ALMACEN+DE+D ATOS+(DATA)&aqs=chrome.1.57j0j62.11129j0&sourceid=chrome&ie=UTF-8 http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf http://www.ongei.gob.pe/publica/metodologias/Lib5084/1-11.HTM http://www.programacion.com/articulo/data_warehousing_201/15 http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse3 1 Referencia [11] de la Bibliografa. 2 Imagen perteneciente al sitio de Rueda Tecnolgica. Referencia [8] de la Bibligrafa 3 Referencia 7 de Bibliografa, Datawarehousing Fcil. 4 Informacin e imgenes tomadas del sitio de TODO BI. 5 Seccin basada en su mayor parte de la referencia [4] de la bibliografa: Modelamiento Dimensional, Carmen Wolf
32