Sie sind auf Seite 1von 32

DATA WAREHOUSE

Ao De La Inversin Para El Desarrollo Rural Y La Seguridad Alimentaria

UNIVERSIDAD SAN PEDRO


Facultad De Ingeniera Escuela De Ingeniera Informtica Y De Sistemas

Ciclo V
ASIGNATURA TEMA DOCENTE ALUMNOS :
BASE DE DATOS II

:
DATA WAREHOUSE

:
FREDY

:
SERNAQUE BAYONA JHONATAN

ORDINOLA LOZADA MARCOS ALEXANDER


ORTIZ NUEZ KEVIN ROBESPIERRE

SULLANA PIURA JUNIO DEL 2013

DATA WAREHOUSE INDICE


1 almacn de datos 1.1 Definicin de Data Warehouse OLTP (Online TransactionProccesing) OLAP (Online AnaliticalProccesing) Por qu construir un data warehouse? Qu es un data mart? Por qu construir data mart? 1.2 CICLO DE VIDA DE UNA DATA WAREHOUSING ELEMENTOS BASICOS HERRAMIENTAS PARA MANEJAR EL PROCESO 1.3DATOS EN UNA DATA WAREHOUSE 1.3.1Caractersticas de la data Orientado Al Tema:la Integrado. De Tiempo Variante. No Voltil. 1.3.2Componentes de una data 1.3.3. Ejemplos de organizacin de datos 1.4 Estrategia de la Base de Datos 1.6 Estructura lgica del Almacn de Datos 1.7 Estructura fsica del Almacn de Datos 1.8 Inteligencia de negocios (BI) 1.9 Diferencias entre Base de Datos y Almacn de Datos 1.10 Arquitectura Data Warehouse 1.11 excepciones en el Data Warehouse 2 Organizacin de un proyecto Factores en la Planificacin de un Data Warehouse Estrategias para el Desarrollo de un Data Warehouse Estrategias para el Diseo de un Data Warehouse Estrategias para el Gestin de un Data Warehouse o o o o Desarrollo de un proyecto Porque Construir Bloques de Data Warehouse? Consideraciones Previas al Desarrollo de un Data Warehouse Alcance de un Data Warehouse Redundancia de Datos Tipo de Usuario Final Elementos Claves para el Desarrollo de un Data Warehouse Diseo de la Arquitectura Sistemas de Gestin de Bases de Datos Nuevas Dimensiones Combinacion de la Arquitectura con el Sistema de Gestion de Bases de Datos Planes de Expansion Confiabilidad de los Datos

DATA WAREHOUSE

DATA WAREHOUSE

Introduccin Data Warehouse no es un trmino nuevo si no una vieja rutina con un nombre nuevo. El almacenamiento de datos histricos y anlisis de estos para tomar decisiones futuras ya era practicado por los aztecas y mallas en su increble calendario solar. Incluso los egipcios atesoraban registros de las primaveras con amplios desbordamientos del Nilo, que les permita saber si el ao sera de una buena cosecha o no. El estudio de datos relacionados con la gestin empresarial, empez cuando todava la computacin no llegaba a dar respuesta a estos problemas. Los directivos estudiaban enormes informes elaborados por comerciales y econmicos compuestos de varias pginas de datos escrupulosamente resumidos. El avance de la computacin ha hecho el trabajo un poco ms fcil. El uso de aplicaciones OLTP (Online TransactionProccesing) ha trado consigo la recopilacin muy rpida de datos que antes era casi imposible obtener, aunque haciendo uso en muchos casos de mltiples sistemas que usan SGBDR(Sistemas Gestores de Bases de Datos Relacionales) diferentes e incompatibles. Esto hace difcil el correlacionar los datos obtenidos desde estos diversos sistemas teniendo que volver al anlisis impreso. As esta nueva teora viene a resolver un problema viejo usando una nueva tcnica: OLAP (Online AnaliticalProccesing) Procesamiento Anltico En Lnea. Existen diversas variantes sobre esta teora, que definen el futuro desarrollo de este tipo de aplicaciones, pero una de las ms aceptadas hasta ahora es el Modelo de Hechos Dimensionales (DFM: DimentionFactModel), que veremos a continuacin para dar comienzo a nuestro estudio. El documento consta de tres captulos. En el primero, aspectos tericos se dan los conceptos y los fundamentosde la tecnologa data warehouse. En el segundo proyecto y elaboracin de una data warehouse, se definen las estrategias para su planificacin, desarrollo, diseo y gestin.

Objetivos
Estudiar la importancia del almacn de datos para la automatizacin de los procesos y el manejo de la informacin Comprender la relacin entre el datawarehousing y la inteligencia del negocio

DATA WAREHOUSE

1.1 Definicin de Data Warehouse


Un Almacn de Datos (o Data Warehouse) es una gran coleccin de datos que recoge informacin de mltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el anlisis de la informacin- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos histricos; as los almacenes de datos proporcionan al usuario una interfaz consolidada nica para los datos, lo que hace ms fcil escribir las consultas para la toma de decisiones. Contiene un conjunto de cubos de datos que permiten a travs de tcnicas de OLAP consolidar, ver y resumir los datos acorde a diferentes dimensiones de estos. (Chaudhuri&Dayal, 1997) OLTP (Online TransactionProccesing): Se les llama as a las aplicaciones orientadas principalmente a la insercin, actualizacin y eliminacin de datos, diseada casi siempre usando el modelo Relacional. Estos sistemas estn optimizados para realizar estas operaciones en untiempo corto. (Microsoft Books Online, 2000) OLAP (Online AnaliticalProccesing): Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del anlisis de estos. (Microsoft Books Online, 2000)} Por qu construir un data warehouse? Permite ejecutar anlisis rpidamente Permite el acceso a los datos de toda la empresa Permite tener datos consistentes Su gran almacn de datos permite responder en que objetos del negocio se pueden hacer mejoras. Qu es un data mart? Una parte de la data warehouse Para temas particulares o actividades especficas de negocios Puede ser una solucin tctica Por qu construir data mart? Consultas rpidas y pocos usuarios Tiempo de desarrollo rpido

DATA WAREHOUSE

1.2 CICLO DE VIDA DE UNA DATA WAREHOUSING ELEMENTOS BASICOS HERRAMIENTAS PARA MANEJAR EL PROCESO

DATA WAREHOUSE

1.3DATOS EN UNA DATA WAREHOUSE 1.3.1Caractersticas de la data


Orientado Al Tema:la informacion se clasifica en base a los aspectos que son de interes para la empresa. Siendo asi, los datos tomados estan en contraste con los clasicos procesosorientados a las aplicaciones En la data warehouse se excluye la informacion que no sera usada por el proceso de sistemas de soporte d edecisiones. Otro aspecto importante es la interrelacion de la informacion, ya que la data warehouse mide un espectro de tiempo y las relaciones encontradas en la dat warehouse son muchas

Integrado.Es el aspecto ms importante. La integracin de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Codificacin: los diseadores de aplicaciones codifican el campo gnero en varias formas, algunos representan gnero como M y F, otros como 1 y 0, otros como X Y, OTROS COMO MACULINO Y FEMENINO MEDIDA DE ATRIBUTOS: los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena almacenan los datos de tuberas en centmetros mientras que otros en pulgadas.

DATA WAREHOUSE

De TiempoVariante.Esta dependencia aparece de tres formas: La informacin representa los datos sobre un horizonte largo de tiempo. Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo (da, semana, mes, etc.). La informacin, una vez registrada correctamente, no puede ser actualizada.

No Voltil.El Almacn de Datos slo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Otras caractersticas:

DATA WAREHOUSE

1.3.2Componentes de una data

1.3.3. Ejemplos de organizacin de datos

DATA WAREHOUSE

1.4 Estrategia de la Base de Datos


Se trata de la creacin de la base de datos. Entre otras cosas incluye

Contenido: Qu datos e informacin se requieren para solucionar las preguntas y necesidades de los usuarios Fuentes: Cules son los fuentes de la informacin y donde se encuentran las fuentes. Extraccin: Cmo se extraen los datos y con que periodicidad se cargan en el datawarehouse. Preparacin: Qu se requiere para depurar y validar los datos fuentes Diseo: Cul es el diseo apropiado para la base de datos Afinamiento: Qu aspectos de afinamiento y rendimiento se van a considerar Plataforma: Como ser la plataforma en la que residir el datawarehouse, como se compone la red, cuales son los componentes de hardware y software. Administracin: Qu se requiere para administrar el datawarehouse en trminos de seguridad, procesos de actualizacin, gestin de metadatos, aseguramiento de la calidad, etc.

10

DATA WAREHOUSE

1.6 Estructura lgica del Almacn de Datos


La estructura lgica de un Almacn de Datos est compuesta por los siguientes niveles:

Metadatos. Describen la estructura de los datos contenidos en el almacn. o Estn en una dimensin distinta al resto de niveles. Datos detallados actuales. Obtenidos directamente del procesado de los datos. o Forman el nivel ms bajo de detalle. o Ocupan mucho espacio. o Se almacenan en disco, para facilitar el acceso. Datos detallados histricos. Igual que los anteriores, pero con datos correspondientes al pasado. o Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente. Datos ligeramente resumidos. Primer nivel de agregacin de los datos detallados actuales. o Corresponden a consultas habituales. o Se almacenan en disco. Datos muy resumidos. Son el nivel ms alto de agregacin. o Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rpidamente. o Suelen estar separados del Almacn de datos, formando Supermercados de Datos (Data Marts).

1.7 Estructura fsica del Almacn de Datos


La estructura fsica puede presentar cualquiera de las siguientes configuraciones:

Arquitectura centralizada. Todo el Almacn de datos se encuentra en un nico servidor. Arquitectura distribuida. Los datos del Almacn se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lgicos. Arquitectura distribuida por niveles. Refleja la estructura lgica del Almacn, asignando los servidores en funcin del nivel de agregacin de los datos que contienen. Un servidor est dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos. Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

11

DATA WAREHOUSE

1.8 Inteligencia de negocios (BI)


Conjunto de estrategias y herramientas enfocadas a la administracin y creacin de conocimientos mediante el anlisis de datos existentes en una organizacin o empresa. Se refiere a los procedimientos que transforman datos primarios en informacin refinada y concentrada para incrementar la eficiencia de las actividades de las reas de una organizacin, mediante el empleo de las tecnologas de datawarehouse.

12

DATA WAREHOUSE

1.9 Diferencias entre Base de Datos y Almacn de Datos


Base de Datos Operacional Datos operacionales Orientado a aplicacin Actual Detallada Cambia continuamente Almacn de Datos Datos del negocio para Informacin Orientado al sujeto Actual + Histrico Detallada + Resumida Estable

1.10 Arquitectura Data Warehouse La estructura bsica de la arquitectura Data Warehouse incluye: 1. Datos operacionales. Origen de datos para el componente de almacenamiento fsico del Almacn de Datos. 2. Extraccin de datos. Seleccin sistemtica de datos operacionales usados para formar parte del Almacn de Datos. 3. Transformacin de datos. Procesos para sumarizar y realizar cambios en los datos operacionales. 4. Carga de datos. Insercin de datos en el Almacn. 5. Almacn. Almacenamiento fsico de datos de al arquitectura Data Warehouse. 6. Herramienta de acceso. Herramientas que proveen acceso a los datos.

Fuentes de Datos Motor del Datawarehouse


o o o o o o

Gestor de Carga Metadatos Agregaciones Gestor del Datawarehouse Gestor de Respaldos DW Repositorio

DataMart
o o

BDD Dimensional Gestor del DataMart

Herramientas de Acceso

13

DATA WAREHOUSE

14

DATA WAREHOUSE

1.11 Excepciones en el Data Warehouse


Mientras que los componentes dela data warehouse trabajan de acuerdo al modelo descrito para casi todos los datos, hay pocas excepciones tiles que necesitan ser discutidas. Una de ellas es la data resumida pblica, que es la data que ha sido calculada fuera del data warehouse pero es usada a travs de la corporacin. La data resumida pblica se almacena y administra en el data warehouse, aunque su clculo se haya hecho fuera de l. Un ejemplo clsico de data resumida pblica es el archivamiento trimestral hecho por cada compaa pblica. Los contadores trabajan para producir cantidades como rentas trimestrales, gastos trimestrales, ganancias trimestrales y otros. El trabajo hecho por los contadores est fuera del data warehouse. Sin embargo, esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporacin para marketing, ventas, etc. Una vez que se haya hecho el archivo, los datos se almacenan en el data warehouse. Otra excepcin no considerada en este documento es la data externa. Otro excepcional tipo de datos a veces encontrados en un data warehouse es el detalle de los datos permanentes, que resulta de la necesidad de una corporacin para almacenar la data a un nivel detallado permanentemente por razones ticas o legales. Si una corporacin expone a sus trabajadores a sustancias peligrosas hay una necesidad de detalle de datos permanente. Si una corporacin produce un producto que involucra la seguridad pblica, tal como la construccin de las partes de aviones, hay una necesidad de datos permanentes. Si una corporacin se compromete con contratos peligrosos, hay una necesidad de detalle de datos permanentes. La organizacin simplemente no puede dejar los detalles porque en futuros aos, en el caso de una demanda, una notificacin, un edificio en disputa, etc., se incrementara la exposicin de la compaa. Por lo tanto hay un nico tipo de datos en el data warehouse conocido como detalle de datos permanentes. El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse, excepto que: El medio donde se almacena la data debe ser tan seguro como sea posible. Los datos deben permitir ser restaurados. Los datos necesitan un tratamiento especial en su indexacin, ya que de otra manera los datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad.

15

DATA WAREHOUSE

2. Proyecto De Elaboracin De Una Data Warehouse 2.1 Organizacin De Un Proyecto


La planificacin es el proceso ms importante que determina la clase de tipo de estrategias data warehousing que una organizacin iniciar.

2.1.1 Factores en la Planificacin de un Data Warehouse


No existe una frmula de garanta real para el xito de la construccin de un data warehouse, pero hay muchos puntos que contribuyen a ese objetivo. A continuacin, se indican algunos puntos claves que deben considerarse en la planificacin de undatawarehouse:
Establecer una asociacin de usuarios, gestin y grupos Seleccionar una aplicacin piloto con una alta probabilidad de xito Construir prototipos rpida y frecuentemente Implementacin incremental Reportar activamente y publicar los casos exitosos

2.1.2 Estrategias para el Desarrollo de un Data Warehouse


Antes de desarrollar un data warehouse, es crtico el desarrollo de una estrategia equilibrada que sea apropiada para sus necesidades y sus usuarios. Las preguntas que deben tenerse en cuenta son: Quin es el auditorio? Cul es el alcance? Qu tipo de data warehouse debera construirse? Existe un nmero de estrategias mediante las cuales las organizaciones pueden conseguir sus data warehouses.
Primera Segunda Tercera En conclusin

2.1.3 Estrategias para el Diseo de un Data Warehouse


El diseo de los data warehouses es muy diferente al diseo de los sistemas operacionales tradicionales. Se pueden considerar los siguientes puntos: 1. Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales. 2. El diseo de un data warehouse, con frecuencia involucra lo que se piensa en trminos ms amplios y con conceptos del negocio ms difciles de definir que en el diseo de un sistema operacional. Al respecto, un data warehouse est bastante cerca a Reingeniera de los Procesos del Negocio (Business ProcessReengineering). 3. Finalmente, la estrategia de diseo ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). A pesar que el diseo del data warehouse es diferente al usado en los diseos tradicionales, no es menos importante. El hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo hace menos necesario. En la prctica, los diseadores de data warehouses tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar" sus requerimientos. Por ello, son esenciales los prototipos de trabajo.

16

DATA WAREHOUSE

2.1.4 Estrategias para el Gestion de un Data Warehouse


Los data warehouses requieren una comercializacin y gestin muy cuidadosa. Debe considerarse lo siguiente: 1. Un data warehouse es una inversin buena slo si los usuarios finales realmente pueden conseguir informacin vital ms rpida y ms barata de lo que obtienen con la tecnologa actual. Como consecuencia, la gestin tiene que pensarse seriamente sobre cmo quieren sus depsitos para su eficaz desempeo y cmo conseguirn llegar a los usuarios finales. 2. La administracin debe reconocer que el mantenimiento de la estructura del data warehouse es tan crtico como el mantenimiento de cualquier otra aplicacin de misin crtica. De hecho, la experiencia ha demostrado que los data warehouses llegarn a ser rpidamente uno de los sistemas ms usados en cualquier organizacin. 3. La gestin debe comprender tambin que si se embarcan sobre un programa data warehousing, se crearn nuevas demandas sobre sus sistemas operacionales, que son: o Demandas para mejorar datos o Demandas para una data consistente o Demandas para diferentes tipos de datos, etc.

2.2 Desarrollo de un proyecto 2.2.1 Porque Construir Bloques de Data Warehouse?


Para ampliar un negocio, se necesita que la informacin sea comprensible. Para muchas compaas, esto significa un gran data warehouse que muestre, junto a los datos no filtrados y dispersos, nuevas formas creativas de presentacin. Las herramientas para capturar y explorar los datos al detalle evolucionan, as como nuestra capacidad para encontrar las formas de explotar los datos recolectados. En los ltimos 10 aos se han combinado dos factores para ayudar a la difusin de los data warehouses. Ellos son: 1. Se ha reconocido los beneficios del procesamiento analtico en lnea (On Line AnalyticalProcessing - OLAP), ms all de las reas tradicionales de marketing y finanzas. Las organizaciones saben que los conocimientos inmersos en las masas de datos que rutinariamente recogen sobre sus clientes, productos, operaciones y actividades comerciales, contribuyen a reducir los costos de operacin y aumentar las rentas, por no mencionar que es ms fcil la toma de decisiones estratgicas. 2. El crecimiento de la computacin cliente/servidor, ha creado servidores de hardware y software ms poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnolgicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas. Al mismo tiempo, los Sistemas de Gestin de Base de Datos (Data Base Management Systems - DBMS(s)) modernos, proporcionan mayor soporte para las estructuras de datos complejas. De esta renovacin de hardware y software surgen los data warehousesmultiterabyte que ahora se ve en ambientes de cliente/servidor.
Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un nmero de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse Redundancia de datos Tipo de usuario final

Consideraciones Previas al Desarrollo de un Data Warehouse

17

DATA WAREHOUSE
La Figura N 15 muestra un esquema bidimensional para analizar las opciones bsicas. La dimensin horizontal indica el alcance del depsito y la vertical muestra la cantidad de datos redundantes que deben almacenarse y mantenerse.

Alcance de un Data Warehouse


El alcance de un data warehouse puede ser tan amplio como toda la informacin estratgica de la empresa desde su inicio, o puede ser tan limitado como un data warehouse personal para un solo gerente durante un ao. En la prctica, en la amplitud del alcance, el mayor valor del data warehouse es para la empresa y lo ms caro y consumidor de tiempo es crear y mantenerlo. Como consecuencia de ello, la mayora de las organizaciones comienzan con data warehouses funcionales, departamentales o divisionales y luego los expanden como usuarios que proveen retroalimentacin.

Redundancia de Datos
Hay tres niveles esenciales de redundancia de datos que las empresas deberan considerar en sus opciones de data warehouse: Data warehouses "virtual" o "Point to Point" Data warehouses "centrales" Data warehouses "distribuidos" No se puede pensar en un nico enfoque. Cada opcin adapta un conjunto especfico de requerimientos y una buena estrategia de almacenamiento de datos, lo constituye la inclusin de las tres opciones. Data Warehouses "Virtual" o "Point to Point" Data Warehouses "Centrales" Data Warehouses Distribuidos

Tipo de Usuario Final


De la misma forma que hay una gran cantidad de maneras para organizar un data warehouse, es importante notar que tambin hay una gama cada vez ms amplia de usuarios finales. En general, se puede considerar tres grandes categoras: Ejecutivos y gerentes

18

DATA WAREHOUSE
"Powerusers" o "Buzo de Informacin" (analistas financieros y de negocios, ingenieros, etc.) Usuarios de soporte (de oficina, administrativos, etc.). Cada una de estas categoras diferentes de usuario tienen su propio conjunto de requerimientos para los datos, acceso, flexibilidad y facilidad de uso.

Los data warehouses exitosos comienzan cuando se escogen e integran satisfactoriamente tres elementos claves. Un data warehouse est integrado por un servidor de hardware y los DBMS que conforman el depsito. Del lado del hardware, se debe combinar la configuracin de plataformas de los servidores, mientras se decide cmo aprovechar los saltos casi constantes de la potencia del procesador. Del lado del software, la complejidad y el alto costo de los DBMSes fuerzan a tomar decisiones drsticas y balances comparativos inevitables, con respecto a la integracin, requerimientos de soporte, desempeo, eficiencia y confiabilidad. Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difciles de trabajar en su entorno, costoso para arreglar y difcil de justificar. Para conseguir que la implementacin del depsito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construccin: Arquitectura total del depsito Arquitecturas del servidor Sistemas de Gestin de Base de Datos A continuacin se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa.

Elementos Claves para el Desarrollo de un Data Warehouse

Diseo de la Arquitectura
Arquitectura del Depsito El desarrollo del data warehouse comienza con la estructura lgica y fsica de la base de datos del depsito ms los servicios requeridos para operar y mantenerlo. Esta eleccin conduce a la seleccin de otros dos tems fundamentales: el servidor de hardware y el DBMS. La plataforma fsica puede centralizarse en una sola ubicacin o distribuirse regional, nacional o internacionalmente. A continuacin se dan las siguientes alternativas de arquitectura: 1. Un plan para almacenar los datos de su compaa, que podra obtenerse desde fuentes mltiples internas y externas, es consolidar la base de datos en un data warehouse integrado. El enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte. (Ver Figura N 16).

19

DATA WAREHOUSE

2.

La arquitectura global distribuye informacin por funcin, con datos financieros sobre un servidor en un sitio, los datos de comercializacin en otro y los datos de fabricacin en un tercer lugar. (Ver Figura N 17)

20

DATA WAREHOUSE

3.

Una arquitectura por niveles almacena datos altamente resumidos sobre una estacin de trabajo del usuario, con resmenes ms detallados en un segundo servidor y la informacin ms detallada en un tercero. La estacin de trabajo del primer nivel maneja la mayora de los pedidos para los datos, con pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la resolucin. Las computadoras en el primer nivel pueden optimizarse para usuarios de carga pesada y volumen bajo de datos, mientras que los servidores de los otros niveles son ms adecuados para procesar los volmenes pesados de datos, pero cargas ms livianas de usuario. (Ver figura N 18).

21

DATA WAREHOUSE

Arquitectura del servidor Al decidir sobre una estructura de depsito distribuida o centralizada, tambin se necesita considerar los servidores que retendrn y entregarn los datos. El tamao de su implementacin (y las necesidades de su empresa para escalabilidad, disponibilidad y gestin de sistemas) influir en la eleccin de la arquitectura del servidor. 1. Servidores de un solo procesador Los servidores de un slo procesador son los ms fciles de administrar, pero ofrecen limitada potencia de procesamiento y escalabilidad. Adems, un servidor slo presenta un nico punto de falla, limitando la disponibilidad garantizada del depsito. Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen uso de subproductos, tales como Ambientes de Computacin Distribuida (Distributed Computing Environment DCE) o Arquitectura Broker de Objeto Comn (CommonObjectsRequestBrokerArchitecture - CORBA), para distribuir el trfico a travs de servidores mltiples. Estas arquitecturas aumentan tambin la disponibilidad, debido a que las operaciones pueden cambiarse al servidor de copia de seguridad si un servidor falla, pero la gestin de sistemas es ms compleja. 2. Multiprocesamiento simtrico Las mquinas de multiprocesamiento simtrico (SymmetricMultiProcessing - SMP) aumentan mediante la adicin de procesadores que comparten la memoria interna de los servidores y los dispositivos de almacenamiento de disco. Se puede adquirir la mayora de SMP en configuraciones mnimas (es decir, con dos procesadores) y levantar cuando es necesario, justificando el crecimiento con las necesidades de procesamiento. La

22

DATA WAREHOUSE
escalabilidad de una mquina SMP alcanza su lmite en el nmero mximo de procesadores soportados por los mecanismos de conexin (es decir, el backplane y bus compartido). Procesamiento en paralelo masivo Una mquina de procesamiento en paralelo masivo (MassivelyParallelProcessing - MPP), conecta un conjunto de procesadores por medio de un enlace de banda ancha y de alta velocidad. Cada nodo es un servidor, completo con su propio procesador (posiblemente SMP) y memoria interna. Para optimizar una arquitectura MPP, las aplicaciones deben ser "paralelizadas" es decir, diseadas para operar por separado, en partes paralelas. Esta arquitectura es ideal para la bsqueda de grandes bases de datos. Sin embargo, el DBMS que se selecciona debe ser uno que ofrezca una versin paralela. Y an entonces, se requiere un diseo y afinamiento esenciales para obtener una ptima distribucin de los datos y prevenir "hot spots" o "data skew" (donde una cantidad desproporcionada del procesamiento es cambiada a un nodo de procesamiento, debido a la particin de los datos bajo su control). Acceso de memoria no uniforme La dificultad de mover aplicaciones y los DBMS a agrupaciones o ambientes realmente paralelos ha conducido a nuevas y recientes arquitecturas, tales como el acceso de memoria no uniforme (Non UniformMemory Access - NUMA). NUMA crea una sola gran mquina SMP al conectar mltiples nodos SMP en un solo (aunque fsicamente distribuida) banco de memoria y un ejemplo nico de OS. NUMA facilita el enfoque SMP para obtener los beneficios de performance de las grandes mquinas MPP (con 32 o ms procesadores), mientras se mantiene las ventajas de gestin y simplicidad de un ambiente SMP estndar. Lo ms importante de todo, es que existen DBMS y aplicaciones que pueden moverse desde un solo procesador o plataforma SMP a NUMA, sin modificaciones.

3.

4.

Sistemas de Gestin de Bases de Datos


Los data warehouses (conjuntamente con los sistemas de soporte de decisin [DecisionSupportSystems - DSS] y las aplicaciones cliente/servidor), fueron los primeros xitos para el DBMS relacional (Relational Data Base Management Systems - RDBMS). Mientras la gran parte de los sistemas operacionales fueron resultados de aplicaciones basadas en antiguas estructuras de datos, los depsitos y sistemas de soporte de decisiones aprovecharon el RDBMS por su flexibilidad y capacidad para efectuar consultas con un nico objetivo concreto. Los RDBMS son muy flexibles cuando se usan con una estructura de datos normalizada. En una base de datos normalizada, las estructuras de datos son no redundantes y representan las entidades bsicas y las relaciones descritas por los datos (por ejemplo productos, comercio y transaccin de ventas). Pero un procesamiento analtico en lnea (OLAP) tpico de consultas que involucra varias estructuras, requiere varias operaciones de unin para colocar los datos juntos. La performance de los RDBMS tradicionales es mejor para consultas basadas en claves ("Encuentre cuenta de cliente #2014") que para consultas basadas en el contenido ("Encuentre a todos los clientes con un ingreso sobre $ 10,000 que hayan comprado un automvil en los ltimos seis meses"). Para el soporte de depsitos a gran escala y para mejorar el inters hacia las aplicaciones OLAP, los proveedores han aadido nuevas caractersticas al RDBMS tradicional. Estas, tambin llamadas caractersticas super relacionales, incluyen el soporte para hardware de base de datos especializada, tales como la mquina de base de datos Teradata. Los modelos super relacionales tambin soportan extensiones para almacenar formatos y operaciones relacionales (ofrecidas por proveedores como REDBRICK) y diagramas de indexacin especializados, tales como aquellos usados por SYBASE IQ. Estas tcnicas pueden mejorar el rendimiento para las recuperaciones basadas en el contenido, al pre juntar tablas usando ndices o mediante el uso de listas de ndice totalmente invertidos. Muchas de las herramientas de acceso a los data warehouses explotan la naturaleza multidimensional del data warehouse. Por ejemplo, los analistas de marketing necesitan buscar en los volmenes de ventas por producto, por mercado, por perodo de tiempo, por promociones y niveles anunciados y por combinaciones de estos diferentes aspectos. La estructura de los datos en una base de datos relacional tradicional, facilita consultas y anlisis a lo largo de dimensiones diferentes que han llegado a ser comunes. Estos esquemas podran usar tablas mltiples e indicadores para simular una estructura multidimensional. Algunos productos DBMS, tales como ESSBASE y GENTIUM, implementan tcnicas de almacenamiento y operadores que soportan estructuras de datos multidimensionales. Mientras las bases de datos multidimensionales (MultiDimensionalDatabases - MDDBs) ayudan directamente a manipular los objetos de datos multidimensionales (por ejemplo, la rotacin fcil de los datos para verlos entre

23

DATA WAREHOUSE
dimensiones diferentes, o las operaciones de drilldown que sucesivamente exponen los niveles de datos ms detallados), se debe identificar estas dimensiones cuando se construya la estructura de la base de datos. As, agregar una nueva dimensin o cambiar las vistas deseadas, puede ser engorroso y costoso. Algunos MDDBS requieren un recargue completo de la base de datos cuando ocurre una reestructuracin.

Nuevas Dimensiones
Una limitacin de un RDBMS y un MDDB, es la carencia de soporte para tipos de datos no tradicionales como imgenes, documentos y clips de vdeo / audio. Si usted necesita estos tipos de objetos en su data warehouse, busque un DBMS relacional - objeto (Ejemplo: ILLUSTRA de INFORMIX). Por su enfoque en los valores de datos codificados, la mayor parte de los sistemas de base de datos pueden acomodar estos tipos de datos, slo con extensiones basadas en cierta referencias, tales como indicadores de archivos que contienen los objetos. Muchos RDBMS almacenan los datos complejos como objetos grandes binarios (BinaryLargeObjects - BLOBs). En este formato, los objetos no pueden ser indexados, clasificados, o buscados por el servidor. Los DBMS relacional - objeto, de otro lado, almacenan los datos complejos como objetos nativos y pueden soportar las grandes estructuras de datos encontradas en un ambiente orientado a objetos. Estos sistemas de base de datos naturalmente acomodan no slo tipos de datos especiales sino tambin los mtodos de procesamiento que son nicos para cada uno de ellos. Pero una desventaja del enfoque relacional - objeto, es que la encapsulacin de los datos dentro de los tipos especiales de datos (una serie de precios de stock a travs del tiempo en cada registro de una tabla de stock, por ejemplo), requiere de operadores especializados para que hagan bsquedas simples previamente (por ejemplo, "Encontrar todas las existencias que han mostrado una disminucin en el precio de Abril a Mayo 1996"). La seleccin del DBMS est tambin sujeta al servidor de hardware que se usa. Algunos RDBMS, como el DB2 Paralelo, INFORMIX XPS y el ORACLE Paralelo, ofrecen versiones que soportan operaciones paralelas. El software paralelo divide consultas, uniones a travs de procesadores mltiples y corre estas operaciones simultneamente para mejorar la performance. Se requiere el paralelismo para el mejor desempeo en los servidores MPP grandes y SMP agrupados. No es an una opcin con MDDBS o DBMS relacional - objeto. En la tabla "Cmo comparar DBMS" se resume los pro y los contra de los diferentes tipos de DBMS para operaciones de data warehouse. La tabla "Matriz de Decisin del Data Warehouse" contiene algunos ejemplos de cmo afectan estos criterios de decisin en la eleccin de una arquitectura de servidor/ data warehouse. Cmo comparar DBMSES? Caractersticas / Relacional Super Multidimensional Multidimensional Objeto Funcin Relacional (Lgico) (Fsico) Relacional Estructuras Normalizadas Tipos de datos abstractos Paralelismo Estructuras Multidimensionales Drill-Down Rotacin Operaciones dependientes de datos Matriz de Decisin para el Data Warehouse Para estos Elija... ambientes... Requerimientos Usuarios Soporte Arquitectura Servidor DBMS comerciales de Sistemas Pequea ubicacin Local Consolidado - Procesador MDDB Alcance: nica mnimo - paquete nico o SMP central

24

DATA WAREHOUSE
promedio

departamental Usos: anlisis de datos Alcance: departamental Usos: anlisis ms informtico Alcance: empresa Usos: anlisis ms informtico Alcance: departamental Usos: investigacin
Grandes Analistas en una sola ubicacin; usuarios informticos dispersos Grande; geogrficamente disperso

Local mnimo central promedio

Seccionado detalle central resumen local Centralizado

en en

Grupos de SMP para central; SP o SMP para local Grupos SMP de

RDBMS para central MDDB para local

Central fuerte

Objetorelacionalsoporte Web

Pequea ubicaciones

pocas

Central fuerte

Centralizado

MPP

RDBMS con soporte paralelo

Combinacion de la Arquitectura con el Sistema de Gestion de Bases de Datos


Para seleccionar la combinacin correcta de la arquitectura del servidor y el DBMS, primero es necesario comprender los requerimientos comerciales de su compaa, su poblacin de usuarios y las habilidades del personal de soporte. Las implementaciones de los data warehouses varan apreciablemente de acuerdo al rea. Algunos son diseados para soportar las necesidades de anlisis especfico para un solo departamento o rea funcional de una organizacin, tales como finanzas, ventas o marketing. Las otras implementaciones renen datos a travs de toda la empresa para soportar una variedad de grupos de usuarios y funciones. Por regla general, a mayor rea del depsito, se requiere mayor potencia y funcionalidad del servidor y el DBMS. Los modelos de uso de los data warehouses son tambin un factor. Las consultas y vistas de reportes preestructuradas frecuentemente satisfacen a los usuarios informticos, mientras que hay menos demandas sobre el DBMS y la potencia de procesamiento del servidor. El anlisis complejo, que es tpico de los ambientes de decisin - soporte, requiere ms poder y flexibilidad de todos los componentes del servidor. Las bsquedas masivas de grandes data warehouses favorecen el paralelismo en el DBMS y el servidor. Los ambientes dinmicos, con sus requerimientos siempre cambiantes, se adaptan mejor a una arquitectura de datos simple, fcilmente cambiable (por ejemplo, una estructura relacional altamente normalizada), antes que una estructura intrincada que requiere una reconstruccin despus de cada cambio (por ejemplo, una estructura multidimensional). El valor de la data fresca requerida indica cun importante es para el data warehouse renovar y cambiar los datos. Los grandes volmenes de datos que se refrescan a intervalos frecuentes, favorecen una arquitectura fsicamente centralizada para soportar una captura de datos eficiente y minimizar el tiempo de transporte de los datos. Un perfil de usuario debera identificar quines son los usuarios de su data warehouse, dnde se ubican y cuntos necesita soportar. La informacin sobre cmo cada grupo espera usar los data warehouses, ayudar a analizar los diversos estilos de uso. Conocer la ubicacin fsica de sus usuarios ayudar a determinar cmo y a qu rea necesita distribuir el data warehouse. Una arquitectura por niveles podra usar servidores en el lugar de las redes de rea local. O puede necesitar un enfoque centralizado para soportar a los trabajadores que se movilizan y que trabajan en el depsito desde sus laptops. El nmero total de usuarios y sus modelos de conexin determinan el tamao de sus servidores de depsito. Los tamaos de memoria y los canales de I/O deben soportar el nmero previsto de usuarios concurrentes bajo condiciones normales, as como tambin en las horas punta de su organizacin.

25

DATA WAREHOUSE
Finalmente, se debe factorizar la sofisticacin del personal de soporte. Los recursos de los sistemas de informacin (InformationSystem - IS) que estn disponibles dentro de su organizacin, pueden limitar la complejidad o sofisticacin de la arquitectura del servidor. Sin el personal especializado interno o consultores externos, es difcil de crear y mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del servidor (MPP o SMP agrupado, por ejemplo).

Planes de Expansion
Como su depsito evoluciona y los datos que contiene llegan a ser ms accesible, los empleados externos al depsito podran descubrir tambin el valor de sus datos. Al enlazar su data warehouse a otros sistemas (tanto internos como externos a la organizacin), se puede compartir informacin con otras entidades comerciales con poco o sin desarrollo. Los mensajes de correo electrnico, servidores WEB y conexiones Intranet/Internet, pueden entregar listas por niveles a sus proveedores o segn su condicin, a sus socios de negocio. Como los data warehouses continan creciendo en sofisticacin y uso, los datos acumulados dentro de una empresa llegarn a ser ms organizados, ms interconectados, ms accesibles y, en general, ms disponibles a ms empleados. El resultado ser la obtencin de mejores decisiones en el negocio, ms oportunidades y ms claridad de trabajo.

Confiabilidad de los Datos


La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad. No importa cmo est diseado un programa o cun hbilmente se use. Si se alimenta mala informacin, se obtendr resultados incorrectos o falsos. Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de lnea comercial operacionales pueden ser basura en lo que concierne a la aplicacin data warehousing.

26

DATA WAREHOUSE
Los datos "sucios" pueden presentarse al ingresar informacin en una entrada de datos (por ejemplo, "Sistemas S. A." en lugar de "Sistemas S. A.") o de otras causas. Cualquiera que sea, la data sucia daa la credibilidad de la implementacin del depsito completo. A continuacin, en la Figura N 19 se muestra un ejemplo de formato de ventas en el que se pueden presentar errores. Afortunadamente, las herramientas de limpieza de datos pueden ser de gran ayuda. En algunos casos, puede crearse un programa de limpieza efectivo. En el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales puede ser casi obligatorio. Decidir qu herramienta usar es importante y no solamente para la integridad de los datos. Si se equivoca, se podra malgastar semanas en recursos de programacin o cientos de miles de dlares en costos de herramientas. La limpieza de una data "sucia" es un proceso multifactico y complejo. Los pasos a seguir son los siguientes: 1. Analizar sus datos corporativos para descubrir inexactitudes, anomalas y otros problemas. 2. Transformar los datos para asegurar que sean precisos y coherentes. 3. Asegurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado. 4. Validar los datos que usa la aplicacin del data warehouse

3 CUBOS DIMENSIONALES
Consiste en una representacin multidimensional de datos de detalle y resumen. Tiene como objetivo mejorar el rendimiento empresarial en lnea y mejorar el rendimiento de las consultas. Son un subconjunto de datos de la base de datos original. Son capaces de administrar de forma rpida y eficiente grandes cantidades de informacin.
3.1 Componentes de un cubo 3.1.1ORIGEN DE LOS DATOS Identifica y conecta donde se encuentra el almacn de datos la informacin relevante para resolver un problema.

27

DATA WAREHOUSE

3.1.2MEDIDAS
Datos numricos de inters para los usuarios. Que queremos medir o seleccionar. Algunos ejemplos: Ventas. Costos. Unidades vendidas. Se pueden crear algunas medias: Beneficios= Ventas-Costos

3.1.3 DIMENSIONES
Representan columnas que describen las categoras a travs de las cuales se separan las medidas. Similitud con los ejes de un sistema cartesiano. Tienen un lmite mximo de 64 dimensiones.

Ejemplo de un cubo

28

DATA WAREHOUSE

3.2 MODOS DE ALMACENAMIENTO


3.2.1MOLAP ( OLAP MULTIDIMENSIONAL ) Formato de almacenamiento de alto rendimiento. Esta altamente especializado a datos multidimensionales. Se aconseja para conjuntos de datos pequeos o medios. Es recomendable para cubos de uso frecuente, pues presenta tiempos de respuesta rpidos y eficientes.

3.2.2ROLAP Los datos permanecen en las tablas originales. Se utiliza un conjunto separado de tablas relacionales para hacer referencia a los datos agregados. Ideal para bases grandes o datos antiguos que se consultan con poca frecuencia.

3.2.3 HOLAP Combinacin de ambos modos (OLAP y ROLAP). Mantiene los datos originales en tablas relacionales (ROLAP). Mantiene los datos agregados en formato multidimensional (MOLAP)

29

DATA WAREHOUSE

3.3 PROCESAMIENTO DE CUBOS


Esto implica: Leer las tablas de dimensiones para llenar los miembros con los datos actuales. Leer la tabla de hechos. Almacenar los datos en el cubo. Se debe procesar un cubo cada vez que se ingresen nuevos valores o cuando se modifiquen alguna dimensin o medida. Ventajas: Mejora la eficiencia de las consultas Reducen los tiempos de respuesta.

30

DATA WAREHOUSE

Conclusiones
1. El uso de sistemas Data Warehouse es una poderosa estrategia para administrar empresas. 2. Los resultados que arrojan los anlisis de los datos obtenidos y consolidados en el Data Warehouse pueden hacer que la directiva de la empresa corrija las estrategias hasta ahora trazadas y mejore as las ganancias. 3. El mantenimiento de un Sistema Data Warehouse es algo complejo, que requiere de recursos monetarios y estrategia. 4. El modelo dimensional brinda una forma muy sencilla de representacin de los datos y mejora as el tiempo de consultas a la base de datos. 5. Los sistemas de transformacin de datos de SQL Server brindan una poderosa herramienta a quienes se inicien en la confeccin de un Data Warehouse sobre este gestor de Bases de datos.

31

DATA WAREHOUSE

LINKOGRAFIAS
http://www.monografias.com/trabajos57/data-warehouse-sql/data-warehouse-sql2.shtml http://www2.rhernando.net/modules/tutorials/doc/bd/dw.html http://www2.rhernando.net/modules/tutorials/doc/bd/dw.html http://www.slideshare.net/mib/c6 https://www.google.com.pe/search?q=almacen+de+datos+data+warehouse&oq=ALMACEN+DE+D ATOS+(DATA)&aqs=chrome.1.57j0j62.11129j0&sourceid=chrome&ie=UTF-8 http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf http://www.ongei.gob.pe/publica/metodologias/Lib5084/1-11.HTM http://www.programacion.com/articulo/data_warehousing_201/15 http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse3 1 Referencia [11] de la Bibliografa. 2 Imagen perteneciente al sitio de Rueda Tecnolgica. Referencia [8] de la Bibligrafa 3 Referencia 7 de Bibliografa, Datawarehousing Fcil. 4 Informacin e imgenes tomadas del sitio de TODO BI. 5 Seccin basada en su mayor parte de la referencia [4] de la bibliografa: Modelamiento Dimensional, Carmen Wolf

32

Das könnte Ihnen auch gefallen