Sie sind auf Seite 1von 7

Capitulo 3 Recopilacin. Almacenes de datos 3.

1 Introduccin Almacenes de datos (data warehouses) que pretenden proporcionar metodologas y tecnologas para recopilar e integrar los datos histricos de una organizacin, cuyo fin es el anlisis, la obtencin de resmenes e informes complejos y la extraccin de conocimiento. 3.2 Necesidad de los almacenes de datos 3.2.1 OLTP Y OLAP OLTP (On-line Transactional Processing). Procesamiento Transaccional en Tiempo Real consiste en realizar transacciones, es decir, actualizaciones y consultas a la base de datos con un objetivo operacional. OLAP (On-line Analytical Processing). Procesamiento Analtico en Tiempo Real engloba exclusivamente consultas, con el objetivo de realizar informes y resmenes, para el apoyo de la toma de decisiones.

Ambos tipos de procesamientos (OLTP y OLAP) se realizaban sobre la misma base de datos transaccional. Esta prctica plantea dos problemas fundamentales: Las consultas OLAP perturban el trabajo transaccional diario de los sistemas de informacin originales. Las bases de datos estn diseadas para el trabajo transaccional, no para el anlisis de los datos.

3.2.2 Almacenes de datos y bases de datos transaccionales Un almacn de datos es un conjunto de datos histricos, internos o externos, y descriptivos de un contexto o rea de estudio, que estn integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratgicas. Un almacn de datos: Facilita el anlisis de los datos en tiempo real (OLAP). No disturba el OLTP de las bases de datos originales.

Tabla 1 Diferencias entre la base de datos transaccional y el almacn de datos.

Figura 2 El almacn de datos como integrador de diferentes fuentes de datos.

3.3 Arquitectura de los almacenes de datos 3.3.1 Modelo multidimensional El modelo conceptual de datos mas extendido para los almacenes de datos es el modelo multidimensional. Los datos se organizan en torno a los hechos, que tienen unos atributos o medidas que pueden verse en mayor o menor detalle segn ciertas dimensiones.

Figura 2 Informacin sobre ventas en un almacn de datos representado bajo un modelo multidimensional

La forma que tienen estos conjuntos de hechos y sus dimensiones hace que se llamen popularmente almacenes de datos en estrella simple (cuando no hay caminos alternativos en las dimensiones) o de estrella jerrquica o copo de nieve (cuando si hay caminos alternativos en las dimensiones). 3.3.2 Datamarts Cada una de estas estrellas que representa un mbito especifico de la organizacin se denomina popularmente datamart (mercado de datos). Lgicamente, cada datamart tendr unas medidas y unas dimensiones propias y diferentes de los dems. La nica dimensin que suele aparecer en todos los datamarts es la dimensin tiempo, ya que el almacn de datos representa informacin histrica y, por tanto, siempre es de inters ser capaz de agregarlo por intervalos de diferente detalle.

Figura 3 Representacin icnica de un almacn de datos compuesto por varios datamarts.

Aparentemente, da la impresin de que el almacn de datos puede contener mucha informacin redundante, especialmente sobre las dimensiones. 3.3.3 Explotacin de un almacn de datos. Operadores Para completar el modelo multidimensional debemos definir una serie de operadores sobre la estructura. Los operadores ms importantes asociados a este modelo son: Drill: Se trata de disgregar los datos (mayor nivel de detalle o desglose, menos sumarizacin) siguiendo los caminos de una o mas dimensiones. Roll: Se trata de agregar los datos (menor nivel de detalle o desglose, mas sumarizacin o consolidacin) siguiendo los caminos de una o mas dimensiones. Slice & Dice: Se seleccionan y se proyectan datos. Pivot: Se reorientan las dimensiones.

Normalmente, estos operadores se llaman operadores OLAP, operadores de anlisis de datos u operadores de almacenes de datos.

Figura 4 Ejemplo de operador drill

Lo importante de estos operadores es que modifican el informe en tiempo real y no generan uno nuevo.

Figura 5 Ejemplo de operador roll

Drill-down y roll-up: Representan agregaciones o disgregaciones dentro de una dimension ya definida inicialmente en la consulta. Drill-cross y roll-cross: Representan agregaciones o disgregaciones en otras dimensiones de las definidas inicialmente en la consulta o hacen desapareces alguna de las dimensiones.

Finalmente, veamos los otros dos operadores: pivot y slice & dice. Estos dos operadores se utilizan exclusivamente cuando se hace una representacin matricial, o al menos una representacin mixta.

Figura 6 Ejemplo de operador pivot

El operador pivot permite cambiar algunas filas por columnas.

Figura 7 Ejemplo de operador slice & dice

Veamos finalmente el operador slice & dice. En realidad este operador permite escoger parte de la informacin mostrada, no por agregacin sino por seleccin. 3.3.4 Implementacin del almacn de datos. Diseo Con el objetivo de obtener la eficiencia deseada, los sistemas de almacenes de bases de datos pueden implementarse utilizando dos tipos de esquemas fsicos. ROLAP (Relational OLAP): Fsicamente, el almacn de datos se construye sobre una base de datos relacional. MOLAP (Multidimensional OLAP): Fsicamente, el almacn de datos se construye sobre estructuras basadas en matrices multidimensionales.

Las ventajas del ROLAP son, en primer lugar, que se pueden utilizar directamente sistemas de gestin de bases de datos genricos y herramientas asociadas: SQL, restricciones, disparadores, etc. En segundo lugar, la formacin y el coste necesario para su implementacin es generalmente menor. Las ventajas del MOLAP son su especializacin, la correspondencia entre el nivel lgico y el nivel fsico.

Algunos ejemplos de sistemas ROLAP son Microstrategy, Informix Metacube u Oracle Discoverer. Ejemplos de sistemas MOLAP son el Oracle Express o el Hyperion Enterprise. Una de las maneras mas eficientes de implementar un datamart multidimensional mediante bases de datos relacionales se basa en ignorar casi completamente la estructura de los datos en las fuentes de origen y utiliza una estructura nueva denominada starflake. Esta estructura combina los esquemas en estrella, star y en estrella jerrquica o copo de nieve, snowflake.

Figura 8 Implementacin de un datamart utilizando tecnologa relacional (ROLAP)

Para construir una estructura se construyen tres tipos de tablas: Tabla copo de nieve (snowflake tables): Para cada nivel de agregacin de una dimensin se crea una tabla. Cada una de estas tablas tiene una clave primaria (sealada en la figura 8 en negrita) y tantas claves ajenas como sean necesarias para conectar con los niveles de agregacin superiores. Tabla de hechos (fact tables): Se crea una nica tabla de hechos por datamart. En esta tabla se incluye un atributo para cada dimensin, que ser clave ajena a cada una de las tablas copo de nieve de mayor detalle de cada dimensin. Adems, todos estos atributos forman la clave primaria. Adicionalmente, pueden existir atributos que representen informacin de cada hecho, denominados generalmente medidas. Tabla estrella (start tables): Para cada dimensin se crea una tabla que tiene un atributo para cada nivel de agregacin diferente en la dimensin. Cada uno de estos atributos es una clave ajena que hace referencia a tablas copo de nieve. Todos los atributos de la tabla forman la clave primaria (sealados en negrita).

Este diseo proporciona la realizacin de consultas OLAP de una manera eficiente, as como la aplicacin de los operadores especficos. Al estar normalizada permiten seleccionar datos dimensinales de manera no redundante. Las tablas estrella son, como hemos dicho, tablas de apoyo que representan preconcatenaciones o pre-junciones (pre-joins) entre las tablas copo de nieve.

Por el contrario los sistemas MOLAP almacenan fsicamente los datos en estructuras multidimensionales de forma que la representacin externa e interna coincidan. Los sistemas MOLAP tienen algunos inconvenientes: Se necesitan sistemas especficos. Al existir un gran acoplamiento entre la visin externa y la implementacin, los cambios en el diseo del almacn de datos obligan a una restructuracin profunda del esquema fsico y viceversa.

Podemos identificar cuatro pasos principales a la hora de disear un almacn de datos: 1. Elegir para modelar un proceso o dominio de la organizacin sobre el que se deseen realizar informes complejos frecuentemente, anlisis o minera de datos. 2. Decidir el hecho central y el granulo (nivel de detalle) mximo que se va a necesitar sobre el. 3. Identificar las dimensiones que caracterizan el dominio y su grafo o jerarqua de agregacin, as como los atributos bsicos de cada nivel. Las dimensiones varan mucho de un dominio a otro, aunque respondan a preguntas como que, quien, donde, de donde, cuando, como, etc. El tiempo siempre es una (o mas de una) de las dimensiones presentes.

Das könnte Ihnen auch gefallen