Beruflich Dokumente
Kultur Dokumente
MONOGRAFA
para obtener el Ttulo de:
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Agosto 2009
UNIVERSIDAD VERACRUZANA
Facultad De Contadura y Administracin
Desarrollo de Cubos como Herramienta de
Explotacin de Datawarehouse
MONOGRAFA
para obtener el Ttulo de:
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Agosto 2009
DEDICATORIAS
Principalmente a Dios por darme la oportunidad de culminar mis estudios y cumplir as con
el sueo de ser una gran profesionista por darme la oportunidad de ver y disfrutar un da
mas lleno de ilusiones y esperanzas y por hacerme una mujer con firmeza y determinacin.
A mis padres Blanca y Ricardo por ser mi gua, mi base, mis cimientos, por
ensearme lo esencial de la vida y por apoyarme siempre y en todo momento porque sin
ustedes este logro no sera tan satisfactorio. Gracias por permitirme compartir todos y cada
uno de los momentos de logro, tristeza, alegra, enojo, decepcin, que esta etapa de estudiante
han dejado. Gracias por brindarme su confianza e inculcarme los valores y las ganas de
superacin.
A ti mam, porque tus brazos siempre se abren cuando necesito un abrazo; porque tu
corazn sabe comprender cuando necesito una amiga; porque tus ojos sensibles se endurecen
cuando necesito una leccin; porque tu fuerza y tu amor me han dirigido por la vida y me han
dado las alas que necesitaba para volar.
A ti pap, porque cuando nac eras el ser que siempre apareca para aplaudir mis
ltimos logros; cuando me iba haciendo mayor la figura que me enseaba la diferencia entre el
bien y el mal; quien durante mi adolescencia, era la autoridad que pona limites a mis deseos, y
quien ahora en esta etapa de mi vida deseara que fueras el mejor consejero y amigo que
pudiera tener.
A mis tos Juanita y Gil, por creer en m; por brindarme siempre su apoyo y por ser
un gran ejemplo para m. Por estar en los momentos buenos y malos y por transmitirme su
motivacin y sus ganas de que sea una persona de bien.
A ti Amor, por estar conmigo en las buenas y en las malas porque tu amor me da
un motivo ms para ser mejor y superarme da a da.
Gracias a todos por ser parte fundamental de este gran logro, por ser parte de mi
crecimiento y por motivarme a ser una mejor persona y permitirme compartir con
ustedes esta inmensa alegra.
INDICE
Resumen ............................................................................................................. 1
Introduccin ......................................................................................................... 2
Capitulo 1: conceptos Bsicos ............................................................................. 7
2. 2.Datawarehouse ............................................................................................... 20
2.1. Procesamiento de Datos ......................................................................... 20
2.1.1. OLTP........................................................................................... 20
2.1.2. OLAP .......................................................................................... 21
2.1.3. Diferencias entre OLTP y OLAP ................................................. 22
2.2. Datawarehousing ..................................................................................... 23
2.2.1. Definicin .................................................................................... 23
2.3. Datawarehouse........................................................................................ 24
iii
Conclusiones ........................................................................................................ 88
Fuentes de Informacin ........................................................................................ 92
ndice de Figuras .................................................................................................. 97
ndice de Tablas ................................................................................................... 98
Anexo I ................................................................................................................. 99
vi
RESUMEN
El presente trabajo de investigacin, trata conceptos, que para la actualidad es
necesario conocer, debido a que representan lo que hasta el da de hoy las
empresas requieren para ser competitivos y presentar su informacin del negocio
adecuadamente para su correcto anlisis y toma de decisiones.
Hoy en da la tecnologa avanza a pasos agigantados y es necesario reunir
herramientas tecnolgicas que permitan a las empresas transformar la informacin
del negocio en conocimiento y por ende representar una ventaja contra sus
competidores.
Debido a lo anterior el contenido se centra en conceptos como Inteligencia de
Negocios, Datawarehouse, Herramientas de Explotacin de Datawarehouse y el
tema central de este trabajo Cubos OLAP.
INTRODUCCIN
Es importante mencionar que para el desarrollo del tema principal se parte del
concepto fundamental de Inteligencia de Negocios, ya que representa el conjunto
de conceptos y mtodos, es decir, la integracin de la informacin para llevar a
cabo la optimizacin e los procesos del negocio y ayudar a mejorar el proceso de
Toma de Decisiones.
Visto desde un enfoque general, la Inteligencia de Negocios est representada
como el todo, ya que a travs de diversas tcnicas, mtodos, herramientas,
permiten convertir los datos en informacin y la informacin en conocimiento; para
a travs de esto generar reportes analticos que permitan a los usuarios satisfacer
las necesidades de los diversos usuarios finales.
Se procede a explicar otro concepto fundamental, el cual es Datawarehouse,
comnmente conocido como Almacn de Datos. Forma parte de lo que se
conoce como Inteligencia de Negocios. El Datawarehouse proporciona a la
empresa una visin global de sus datos, de forma qe los integra para
posteriormente llevar a cabo su anlisis y utilizarlos para obtener respuestas del
negocio que las bases de datos transaccionales implementadas en la organizacin
no nos permitiran conocer.
La principal ventaja de tener los datos de la organizacin almacenados en una
estructura de Datawarehouse es que permite la consulta y el anlisis de la
informacin.
Los sistemas transaccionales brindan la informacin al usuario final de manera
esttica, adems son utilizados para llevar a cabo las operaciones diarias de la
organizacin; en cambio los sistemas analticos permiten flexibilidad en la
representacin de la informacin, adems hoy en da existen diversas
herramientas basadas en el Procesamiento Analtico en Lnea. El contenido de
este tema abarca los conceptos de los 2 principales exponentes del
Datawarehouse, ya que hasta hoy en da continan vigentes, Bill Inmon, padre del
Datawarehouse y Ralph Kimball. La finalidad es conocer ambas metodologas y
1. INTELIGENCIA DE NEGOCIOS
1.1 ANTECEDENTES
A finales del siglo XX las empresas se preocuparon en conocer los datos que se
manejaban en fuentes no automatizadas. Las empresas carecan de recursos de
computacin que les permitiera analizar los datos y llevar a cabo la toma de
decisiones de manera estructurada basados en datos en informacin reales y no
basadas en la intuicin.
Las empresas comenzaron a automatizar sus procesos creando sistemas, con
esto los datos se hicieron ms accesibles, pero su obtencin contino siendo un
gran reto debido a que no se contaba con la tecnologa necesaria y los sistemas
eran incompatibles con la tecnologa que se tena. Las decisiones eran tomadas
pero a largo plazo ya que no se contaba con la informacin al momento que se
requera.
En base a esas necesidades surge el concepto de Inteligencia de Negocios; hoy
en da facilita la toma de decisiones en cualquier nivel sea Estratgico, Tctico u
Operativo, debido a que permite desarrollar la posibilidad de extraer datos,
analizarlos y generar reportes, as como ejecutar bsquedas de datos rpidamente
para permitir un mejor anlisis del rendimiento de un producto, departamento,
compaa. Esto permite a las empresas realizar reportes, realizar anlisis de la
informacin como apoyo a la toma de decisiones.
Hoy en da las empresas acometen una gran variedad de iniciativas para alcanzar
sus objetivos, bajo la influencia de 5 elementos fundamentales: Velocidad de
cambio, innovacin de nuevos modelos de negocio, nuevas estructuras de
relaciones entre las empresas, sus clientes y asociados, la conectividad de
personas, organizaciones y pases, y el valor del conocimiento residente en la
empresa. (Davis & Meyer 2000)
1.2 DEFINICIN
En 1989 Howard Dresner, actual Presidente de Dresner Advisory Services, invent
el acrnimo de BI Business Intelligence o Inteligencia de Negocios, para indicar el
conjunto de conceptos y mtodos para mejorar la toma de decisiones en los
negocios utilizando sistemas de apoyo basados en hechos.
Actualmente el concepto de BI implica la integracin de la informacin para una
buena planeacin que conlleve a la optimizacin de procesos de negocio. Adems
incluye una amplia categora de metodologas, aplicaciones y tecnologas que
permiten reunir, acceder, transformar y analizar los datos, transacciones e
informacin no estructurada con el propsito de ayudar a los usuarios de una
empresa a tomar decisiones de negocio. Lo anterior se puede lograr, ya sea,
mediante la explotacin directa mediante consultas, reportes o haciendo uso del
anlisis y conversin en conocimiento. La Inteligencia de Negocios tambin puede
10
sola
los
ltimos
aos,
la
inteligencia
de
negocios
ha
evolucionado
IBM ha identificado cinco niveles evolutivos de BI a lo largo del tiempo los cuales
son:
Primer Nivel.- La Inteligencia de Negocios comenz con el manejo de hojas de
Excel donde se tena toda la informacin que se centralizaba en una sola persona.
de
Negocios
ofrece
mejores
condiciones
para
identificar
1.7
INTELIGENCIA
DE
NEGOCIOS
EN
LA
PIRMIDE
ORGANIZACIONAL
La Inteligencia de Negocios a Nivel Operativo permite que los empleados que
trabajan con informacin operativa puedan recibir la misma de una manera
oportuna, exacta y adecuada y se componen bsicamente de herramientas de
reportes u hojas de clculo con un formato fijo cuya informacin se actualiza
frecuentemente.
La Inteligencia de Negocios a Nivel Tctico permite que los analistas de datos y la
gerencia media de la empresa utilicen herramientas de anlisis y consulta con el
propsito de tener acceso a la informacin sin intervencin de terceros.
La Inteligencia de Negocios a Nivel Estratgico permite que la alta direccin de las
empresas pueda analizar y monitorear tendencias, patrones, metas y objetivos
estratgicos de la organizacin.
de
negocios
(BI)
en
los
procesos
de
las
organizaciones.
Tableros de Control
Herramienta
que
posibilita
en
una
Organizacin
medir
el
desempeo,
Vistas dinmicas.
Reportes Dinmicos que permiten diferentes formas de anlisis de la informacin
sin necesidad de re-estructurarlas.
Datawarehouse.
Almacn de datos para la integracin de la informacin de la Organizacin que
sirve como soporte para la toma de decisiones
18
19
2. DATAWAREHOUSE
OLAP
Hace
uso
de
bases
de
datos
multidimensionales.
Estn organizados por aplicacin
Los datos que estn incluidos son Sus datos son histricos
voltiles,
ya
que
son
actualizados
constantemente
Los usuarios son los que giran las Los usuarios observan como giran las
ruedas de la organizacin a travs de ruedas de la organizacin a travs de
actualizaciones
Los datos operacionales son altamente Los Datos del DW son altamente
voltiles, cambian en medida que opera estables, son insertados en intervalos
la empresa.
de
tiempo
definidos.
no
son
modificados
Cada aplicacin del negocio puede Toda la informacin de un tema,
tener
informacin
en
22
almacn de datos, con el fin de acceder a los datos para dar soporte en el proceso
de toma de decisiones de una organizacin. El objetivo es convertir los datos
operacionales en informacin relacionada y estructurada, homognea y de mayor
calidad, identificada convenientemente y que se mantenga en el tiempo, es decir,
los datos ms recientes no sustituyen a los precedentes, pero tampoco se
acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel
de detalle los datos actuales, y de manera ms agregada los datos anteriores. Se
pretende crear un crculo virtuoso para la informacin.
almacn
2.3.1 DEFINICIN
Una definicin sencilla y fcil de recordar es: Un Datawarehouse es un almacn de
datos. Partiendo de esa definicin, podemos obtener muchas ms y de diversos
24
autores que han formulado su propia definicin. Sin embargo se tienen dos
personajes vinculados al concepto de Datawarehouse.
Bill Inmon es considerado el padre del Datawarehouse, debido a que l acu este
trmino, a continuacin se muestra su definicin:
(Inmon, 1996) Datawarehouse es un conjunto de datos integrados, histricos,
variantes en el tiempo y unidos alrededor de un tema especfico, que es usado por
la gerencia para la toma de decisiones.
Surgi otro personaje importante en el desarrollo del tema de Datawarehouse,
Ralph Kimball quien es considerado el principal promotor del enfoque dimensional
para el diseo de almacenes de datos, planteo una nueva metodologa muy
diferente a lo que planteo Bill Inmon. Por lo cual menciona otra definicin para
Datawarehouse la cual dice lo siguiente:
(Kimball, 2003) Un Datawarehouse es una copia de los datos transaccionales
especficamente estructurada para la consulta y el anlisis.
27
caractersticas
del
Datawarehouse
empresarial
que
se
explicaron
28
2.5.1.1 COMPONENTES
29
30
2.5.2.1 COMPONENTES
Sistemas Fuentes
Son aquellos que sus principal funcin es almacenar las transacciones del
negocio, a travs de bases de datos operacionales. Sus principales prioridades
son mantenerse actualizados y en lnea.
Un sistema Fuente frecuentemente es llamado Sistemas heredados (legacy
system) en un entorno mainframe.
31
Servidor de Presentacin
Es la mquina fsica (Servidor) en la cual se almacenan los datos del
datawarehouse y estn disponibles para ser consultados a travs de sistemas de
domas de decisin, reporteadores u otras aplicaciones que le permitan al usuario
final realizar consultas ad-hoc.
Modelo Dimensional
Representa una alternativa para el modelado Entidad/Relacin (E/R). Es ms
simple, ya que brinda una fcil visualizacin y entendimiento de los datos en
comparacin con el modelado E/R.
Ms adelante se enfatizara acerca de este tema de Modelo multidimensional y de
sus elementos.
32
Metadata
Es toda la informacin del medio ambiente del Datawarehouse que no es el dato
mismo.
33
2.6.1 Extraccin
La primera parte del proceso ETL consiste en extraer los datos desde los sistemas
de origen. La mayora de los proyectos de almacenamiento de datos fusionan
datos provenientes de diferentes sistemas de origen. Cada sistema separado
puede usar una organizacin diferente de los datos o formatos distintos. Los
formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales
u otras estructuras diferentes. La extraccin convierte los datos a un formato
preparado para iniciar el proceso de transformacin.
Una parte intrnseca del proceso de extraccin es la de analizar los datos
extrados, de lo que resulta un chequeo que verifica si los datos cumplen la pauta
o estructura que se esperaba. De no ser as los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extraccin es que
sta cause un impacto mnimo en el sistema origen. Si los datos a extraer son
muchos, el sistema de origen se podra ralentizar e incluso colapsar, provocando
que ste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razn,
en sistemas grandes las operaciones de extraccin suelen programarse en
horarios o das donde este impacto sea nulo o mnimo.
34
2.6.2 Transformacin
Despus de extraer y llevar a cabo la limpieza de los datos. Contina la fase de
transformacin, esta aplica una serie de reglas de negocio o funciones sobre los
datos extrados para convertirlos en datos que sern cargados. Algunas fuentes
de datos requerirn alguna pequea manipulacin de los datos.
Se deben codificar datos que se han decodificado en forma inconsistente en
diferentes fuentes, se deben hacer varias consideraciones a tomar en cuenta para
la forma de almacenar los datos, algunas consideraciones son: si aceptara valores
nulos, traducir cdigos, codificar valores libres, unir datos de mltiples fuentes,
abreviaturas de estados, cdigo de productos, lugares de negocios, entre otros. El
software de transformacin convierte los datos durante el traslado para asegurar
que la informacin sea compatible con la base de datos que la recibe.
Desarrollar, seleccionar e integrar estas piezas de software requiere tcnicas de
administracin de datos y de administracin de base de datos. Tambin se
requieren tcnicas en el rea de afinar la ejecucin de consultas en la base de
datos para obtener un rendimiento aceptable de la solucin del Datawarehouse.
35
2.6.3 Carga
La fase de carga es el momento en el cual los datos de la fase de transformacin,
son cargados en el sistema de destino. Dependiendo de la organizacin que se
trate y de sus requerimientos el proceso de carga puede abarcar diversas
acciones a realizar. En algunas bases de datos se sobrescribe la informacin
antigua con nuevos datos. Los Datawarehouse mantienen un historial de los
registros de manera que se pueda hacer una auditora de los mismos y disponer
de un rastro de toda la historia de un valor a lo largo del tiempo.
Para desarrollar el proceso de carga existen dos formas bsicas las cuales se
mencionan a continuacin:
Acumulacin simple: es la ms comn y sencilla, consiste en realizar un
resumen de un periodo de tiempo de todas y cada una de las transacciones
realizadas en ese periodo seleccionado y transportar el resultado como una
nica transaccin hacia el Datawarehouse, almacenando un valor calculado
que consistir tpicamente en un sumatorio o un promedio de la magnitud
considerada.
Rolling: este proceso es aplicado cuando se desea mantener diversos
niveles de granularidad. Para ello se almacena informacin resumida a
distintos niveles, correspondientes a distintas agrupaciones de la unidad de
tiempo o diferentes niveles jerrquicos en alguna o varias de las
dimensiones de la magnitud almacenada.
La fase de carga interacta directamente con la base de datos de destino. Al
realizar esta
operacin
se aplicarn
triggers
Hay dos conceptos fundamentales en el desarrollo del proceso de ETL, estos son:
Service Level Agreement (SLA) y Change Data Capture (CDC), tienen que ver con
la escalabilidad del proceso de ETL durante su vida til, el cual debe establecerse
en el anlisis. SLA se refiere al nivel de servicio en la comprensin del volumen de
datos procesado. Debido a que el tiempo en que se dispone para la extraccin de
datos de los sistemas de origen puede cambiar.
37
Por otro lado el CDC es referido a la captura de datos modificados en tiempo real
para una transformacin y actualizacin continua. Ya que algunos sistemas ETL
son escalados para procesar gran cantidad de datos al momento de llevar a cabo
la actualizacin de un Datawarehouse, lo cual implicara que un aumento en el
volumen de los datos pueda hacer que en lugar de que los datos se procesen por
lotes, se lleve a cabo en micro-lotes.
2.7 METADATOS
Este concepto toma gran relevancia al hablar de Datawarehouse. De manera
simple y sencilla un metadato puede ser definido como datos sobre los datos.
Representa toda la informacin del medio ambiente del Datawarehouse que no es
el dato mismo.
En el entorno del DW se aclara este concepto y se habla de:
El back-room metadata el cual gua a los procesos de carga, limpieza y
extraccin.
El front-room metadata que hace que las herramientas de consultas y
reporteo funcionen de manera optima.
El back-room metadata ayuda al DBA a traer los datos del almacn, as como
tambin ayuda a los usuarios finales cuando preguntan del origen de los datos y
como llego ah.
El metadata se debe catalogar, asignarle versiones, documentarlo y respaldarlo.
En un Datawarehouse, los metadatos describen los tipos de datos en el
Datawarehouse, esto es, las definiciones fsica y lgica de los datos, consultas y
reportes predefinidos, reglas de validacin y orientadas al tema, definiciones de
fuentes de datos, rutinas de transformacin y de proceso, e informacin del
usuario. Los metadatos se refieren a cualquier cosa que define un objeto del
38
2.7.1 CLASIFICACIN
Generalmente, los metadatos son divididos en:
Tcnicos. En estos se interesan los desarrolladores y administradores. Los
desarrolladores los utilizan para conocer las definiciones fsica y lgica de los
datos para poder disear y escribir aplicaciones. Por su parte los administradores
accesan a los metadatos para ejecutar tareas de administracin como gestin de
los objetos y usuarios, afinamiento de la base de datos y almacenamiento de
datos.
Semticos u orientados al tema. Tienen que ver con los usuarios finales como
gerentes o analistas, estos son los que no estn familiarizados con los formatos de
descripcin del Datawarehouse, pero estn interesados en entender la semntica
orientada al tema y necesitan representaciones ricas en estructura y contenido.
41
42
43
Como se puede observar en la figura 2.7 existe nivel e detalle en las tablas de
dimensin Store, de ella se derivan las tablas de dimensin StoreType y
StoreManager. Tambin en la tabla Salesperson se deriva otra tabla dimensin
llamada Departament.
44
2.9 DATAMART
2.9.1 Definicin
45
2.1 GENERALIDADES
47
48
usuarios
altamente
experimentados
podrn
escribir,
total
49
51
Los Sistemas de Informacin para Ejecutivos tambin conocidos por sus siglas en
ingles como EIS (Executive Information Systems) estn dirigidos a altos ejecutivos
de una organizacin como ayuda a la toma de decisiones. Presentan informacin
relevante tanto interna como externa usando recursos visuales y de fcil
interpretacin, con el objetivo de mantenerlos informados. La informacin que
presentan est enfocada a la situacin actual de la organizacin
(Bird, 1992) Un EIS es un software, con un sistema de recuperacin amigable que
provee informacin electrnica a los directivos con un acceso rpido a la
informacin que forma parte de las reas clave de la empresa, ayudando a realizar
las actividades de gestin para conseguir los objetivos de la empresa. Los
sistemas de informacin para ejecutivos tienen como objetivo soportar la categora
de decisiones que son descritas como no programables o intuitivas.
Para que sea considerado un sistema de informacin para ejecutivos, debe
cumplir con algunas caractersticas, sus principales caractersticas son:
Son utilizados por los altos ejecutivos de una organizacin.
Extraen, filtran, consolidan y visualizan los datos crticos.
Permiten acceder en tiempo real a las variables que definen en estado
actual de la organizacin.
Cuentan con una interfaz de usuarios amigable.
Para la presentacin de la informacin utiliza graficas, tablas, texto, etc.
Los Sistemas de Informacin para Ejecutivos, son considerados como herramienta
de explotacin del Datawarehouse, debido a que son utilizados como apoyo para
la toma de decisiones por los altos ejecutivos, los cuales no cuentan con el tiempo,
ni la habilidad para llevar a cabo anlisis de los grandes volmenes de datos, por
lo tanto el EIS proporciona medios fciles de usar para la consulta y anlisis de la
informacin
confiable
presentando
los
datos
simplificados,
altamente
52
2.2.3.1 Semforos
Son frecuentemente utilizados para indicar las variables en los Tableros de
Control. Existen una serie de variables que son manejadas por los semforos, a
continuacin se explican cada una de esas variables:
Modelo del Semforo: el modelo del semforo est determinado por el
nmero de niveles que posee y est directamente relacionado con la
sensibilidad o capacidad de detalle.
Valor Real: representa la variable que se desea monitorear.
Valor Destino: representa el valor con el cual se establecern diferencias,
desvos de los valores reales, durante el monitoreo.
Umbrales: son los valores porcentuales que definen el paso de un estado a
otro del semforo. Depende de la cantidad de niveles del semforo.
2.2.4 DATAMINING
La Minera de Datos o Datamining es utilizada cuando se pretende obtener el
mximo de la informacin, es decir, cuando se desea extraer conocimiento de los
datos de la organizacin.
54
55
2.2.5 WEBHOUSING
Datawarehouse
analizarlos
dinmicamente
desde
una
perspectiva
57
3.1 DEFINICION
una
tecnologa
que
provee
rpido
acceso
datos
en
un
59
La principal ventaja que ofrece los cubos virtuales es que almacena nicamente
definiciones, no los datos, por lo tanto, requieren menos espacio de
almacenamiento que los cubos normales.
Un cubo podr ser actualizado, procesando solo los datos que han sido aadidos,
en vez de hacerlo con el cubo entero, se puede usar la actualizacin incremental
para actualizar un cubo mientras se est usando.
3.3 RESTRICCIONES
El esquema de un Cubo permite manejo de restricciones, estas se pueden
clasificar a grandes rasgos como:
Restricciones de Llave
Restricciones de Integridad Referencial
60
Restricciones No Nulas
As mismo pueden clasificarse tambin en dos categoras:
1) Restricciones intra-cubo. Define restricciones dentro del cubo, se encarga
de explotar la relacin que existe dentro de los distintos atributos del cubo.
2) Restricciones inter-cubo. Define las restricciones entre dos a ms cubos.
3.4 COMPONENTES
Los cubos se constituyen de diversos elementos, de los cuales es necesario
conocer y entender el concepto de cada uno de ellos. Los componentes de un
cubo son:
Dimensiones
Niveles de Jerarqua
Medidas
Hechos
A continuacin se explican a detalle cada uno.
3.4.1 Dimensiones
Son categoras descriptivas por los cuales los datos numricos (mediciones) en un
cubo, son separados para su anlisis. Son usadas para seleccionar y agregar
datos a un cierto nivel de detalle.
Por ejemplo, si una medicin de un cubo es el conteo de las ventas y las
dimensiones son tiempo, vendedor, producto, los usuarios del cubo, podrn
61
3.4.3 Medidas
Son datos numricos de inters primario para los usuarios del cubo. Representan
el resultado del dato que se requiere conocer y analizar. Algunas medidas
comunes son Ventas en unidades, ventas en pesos, costo de ventas, gastos,
conteo de la produccin, presupuesto, entre otras. Son usadas por el
62
3.4.4 Hechos
Son las colecciones de datos que se extraen, es lo que se quiere ubicar. Son
mediciones numricas (valores) que representan un aspecto o actividad de
negocio especifica.
Source representa las ubicaciones en las que se producen las importaciones, caso
de frica o Asia. La dimensin Time representa los trimestres y semestres de un
nico ao.
Dimensiones: Route, Source y Time.
Niveles de Jerarqua: por ejemplo, en la dimensin Route su nivel de jerarqua es
nonground que a su vez se divide en air, sea y ground roal, rail.
Route
Nonground
Air
Sea
Ground
Air
Sea
64
Se pueden definir propiedades para los miembros de dimensin y usar datos para
estas propiedades dentro de un cubo. Por ejemplo, si los miembros de la
dimensin producto son su nmero de partes, es lo mismo hacer varias
propiedades asociadas con este nmero de parte tales como, el tamao, color,
etc. Se pueden especificar tales propiedades, como una propiedad miembro y
utilizarla en las bsquedas analticas.
3.6 AGREGACIONES
66
67
3.7.3 HOLAP
El almacenamiento en HOLAP combina atributos de MOLAP y ROLAP, para
almacenar la agregacin de los datos utiliza la estructura multidimensional de
MOLAP y la base de datos fuente esta dada en una base de datos relacional.
Para devolver los resultados de una consulta lo realiza accediendo a datos
sumarizados como en MOLAP
Para procedimientos de bsqueda que accesan datos sumarizados, HOLAP es
equivalente a MOLAP. Los cubos almacenados en HOLAP, son ms pequeos
que los MOLAP, ya que no contienen datos de origen y responden ms rpido que
las consultas realizadas en ROLAP.
HOLAP es generalmente usado para cubos que requieren rpida respuesta, para
sumarizaciones basadas en una gran cantidad de datos.
3.7.4 DIFERENCIAS
Actualmente es importante conocer los requerimientos de la organizacin para
poder llevar a cabo la mejor seleccin del tipo de almacenamiento de los datos
para un cubo. Ya que como se explico anteriormente cada tipo de almacenamiento
tiene sus ventajas y desventajas no se podra decir con exactitud cul es el mejor.
Sin embargo tambin es importante mencionar que HOLAP ofrece las ventajas de
los otros dos tipos de almacenamiento por lo cual representa una opcin
adecuada.
A continuacin se muestra una tabla en la cual de hace una comparacin de las
diferencias entre ROLAP y MOLAP en cuatro aspectos fundamentales:
68
DATOS
MOLAP
ROLAP
Detalle y precalculados,
Detalle y agregados
agregados
ESTRUCTURA
Matrices comprimidas
Tablas relacionales
ADMINISTRACIN
Especialista en Bases de
Administrador de Base de
Datos Multidimensionales
Datos
(BDMD)
ACCESO
Lenguaje especializado
SQL
3.9.1 DEFINICION
Un KPI es sencillamente un indicador que est asociado a un objetivo. Indica el
estado en que la empresa se encuentra, es decir, si est por encima o por debajo
de una meta predeterminada. Comnmente se muestran como una tasa o
porcentaje y estn diseados para permitir que un usuario de negocios pueda
70
saber instantneamente si estn dentro o fuera de su plan sin que tenga que
buscar informacin adicional.
Un indicador clave de rendimiento (KPI) es una medida cuantificable para valorar
los xitos de la empresa.
En Analysis Services, un KPI es un conjunto de clculos asociados a un grupo de
medida de un cubo, que se usa para evaluar el xito empresarial. Normalmente,
estos clculos son una combinacin de expresiones MDX (Expresiones
multidimensionales) o miembros calculados. Los KPI tambin tienen metadatos
adicionales que proporcionan informacin acerca de cmo deberan las
aplicaciones cliente mostrar los resultados de los clculos de KPI.
Un KPI administra informacin sobre un objetivo establecido, la frmula real del
rendimiento registrada en el cubo y medidas para mostrar la tendencia y el estado
del rendimiento.
Los Cubos OLAP, son una excelente herramienta que permite generar
Indicadores, fcil y sencillamente, adems de brindar ventajas en la visualizacin
de los datos, adems son de fcil entendimiento y manejo.
71
Existe una gua dada por Microsoft que aplica a Servicios OLAP de Microsoft SQL
Server. La cual menciona los pasos a seguir antes de procesar un cubo de
servicios OLAP.
Los cubos bien diseados satisfacen mejor las necesidades de los usuarios
finales. A continuacin se muestra una serie de prcticas recomendadas por
72
crear
mltiples
grupos
de
medidas
que
tengan
la
misma
una
ventaja,
ya
que
permite
que
los
diferentes
miembros
73
74
3.12.1 PENTAHO
La corporacion Pentaho es el patrocinador primario y propietario del proyecto
Pentaho BI. La PLATAFORMA Pentaho BI es una iniciativa en curso por la
comunidad de Open Source que provee organizaciones con mejores soluciones
para las necesidades de BI de una empresa, en Arquitectura,
Soporte,
Funcionalidad e Implantacin.
En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP
Mondrian, que permite crear cubos de informacin para anlisis multidimensional.
Dichos cubos se componen de archivos XML y en ellos se definen las
Dimensiones y las conexiones de los datos. Los archivos XML por lo general son
complejos de realizar manualmente por lo que es comn utilizar herramientas
graficas para realizar la edicin de estos. Como ejemplo de estas herramientas
Open Source Pentaho tenemos a Cube Designer para la Creacin de cubos y el
Workbench para la edicin de los mismos.
solo cubo que contenga varios grupos de medida en la misma base de datos en
lugar de definir cubos independientes. Al definir un cubo con varios grupos de
medida, debe definir cmo se relacionan las dimensiones con cada grupo de
medida y personalizar, segn corresponda, los objetos de dimensin de cada cubo
y grupo de medida. Al definir un cubo, tambin se definen propiedades avanzadas
del mismo: clculos, KPI, acciones, particiones, agregaciones, perspectivas y
traducciones.
3.12.3 OlapX
Es una sofisticada herramienta OLAP que le permite crear o utilizar cubos
multidimensionales existentes para el anlisis de la informacin de su empresa.
Permite
el
anlisis
interactivo,
reporteo
presentacin
de
cubos
76
procesos
de
la
empresa
sus
necesidades.
78
4.1 DESCRIPCIN
A continuacin se presenta la descripcin de la interfaz utilizada por usuarios
finales, de un cubo. Este muestra informacin relevante acerca del nmero de PE
de Posgrado. Es importante mencionar que este cubo fue diseado previamente y
los valores mostrados no pueden cambiar, lo nico que se puede cambiar es la
forma de visualizacin de los datos.
80
4.3.1 FORMATO
En la parte superior de la pantalla se puede observar el men que nos brinda
diversas opciones de formato para realizar al cubo mostrado.
81
Para comenzar a describir cada uno de los botones de la figura 4.2 se empezara
de izquierda a derecha
Save Chart Image. Permite guardar la grafica del cubo mostrado. Mostrara una
ventana donde dir si queremos Abrir, Guardar o Cancelar.
Copy Chart. Almacena en el portapaleles la imagen para copiarla en algn
documento.
Print Chart. Permite imprimir la grafica del cubo mostrado.
Print Preview Chart. Permite visualizar antes de imprimir la grafica de los datos
del cubo.
Select Chart Type. Permite cambiar el tipo de grafica. En la figura 4.3 se muestra
los diferentes tipos de graficas.
82
83
4.3.2 Reports
Este men ofrece diversas opciones para crear reportes de los datos. En la figura
4.6 se muestra el men. Se proceder a explicar de izquierda a derecha.
84
85
87
CONCLUSIONES
89
Para las empresas que llevan muchos aos en el mercado representara una
excelente opcin pensar en implementar un Datawarehouse, ya que este contiene
datos histricos de 5 a 10 aos y permitira llevar a cabo anlisis de la informacin
contenida en el almacn de datos.
De las diversas herramientas de explotacin de Datawarehouse que se presentan
en el contenido del trabajo, cabe mencionar que no son las nicas que existen,
peo el propsito de esta investigacin es brindar una idea general de las que
existen y cules son las ms utilizadas por las empresas.
Adems de las herramientas mencionadas existen, lo que es el tema principal y
por el cual se llevo a cabo dicha investigacin. Los cubos OLAP, los cuales desde
mi punto de vista proporcionan una excelente visin de los datos, ya que cuenta
con diversos componentes que brindan una representacin dinmica de la
informacin.
Hoy en da las empresas les hace falta realizar un cambio en la representacin de
la informacin al usuario final, es necesario implementar herramientas que
permitan un fcil y correcto anlisis de la informacin del negocio y brinden una
visin general de cmo se llevan a cabo las operaciones con el paso del tiempo y
saber si estn cumpliendo con sus objetivos.
Los cubos permiten mostrar indicadores, este concepto ha tomado gran
importancia y los cubos son una excelente herramienta para representarlos. Los
indicadores estn asociados con objetivos, a las empresas hoy en da les interesa
conocer si estn cumpliendo con las metas trazadas y medir el xito o fracaso de
acuerdo a determinadas situaciones.
Actualmente los indicadores son muy utilizados en el mbito de la educacin y
diversas organizaciones educativas forman parte del proyecto de integracin del
sistema nacional de indicadores en educacin superior del pas y hasta el da de
hoy existe un registro de diversos indicadores desde el ao 2006.
90
Es por esto que los cubos OLAP son una herramienta que permite generar
indicadores de manera fcil y sencilla, adems de brindar ventajas en la
visualizacin de los datos, anexando su fcil entendimiento y manejo para los
usuarios finales.
Es importante mencionar adems que al implementarlos se debe estar muy
pendiente del rendimiento y tomar en cuenta las diversas recomendaciones para
su diseo, es importante hacer nfasis en este tema ya que se le debe dar la
importancia necesaria al llevar a cabo su diseo, ya que aunque represente una
buena herramienta, sino son diseados adecuadamente mostraran informacin
errnea y por ende no se podrn obtener buenos resultados ni indicadores
confiables que permitan la correcta toma de decisiones.
En la actualidad existen muchas empresas que ofrecen soluciones de inteligencia
de Negocios y proporcionan diversas aplicaciones para la creacin de cubos, cada
vez son ms sencillas de utilizar y brindar interfaz grafica que permiten su fcil
creacin; por lo cual antes de llevar a cabo su seleccin, se debe llevar a cabo un
anlisis para determinar cul es la que mejor se adecua a los requerimientos de la
empresa.
Para finalizar, como aportacin personal, puedo concluir que la tecnologa avanza
constantemente, por lo cual es importante estar actualizados en los temas que son
relevantes. Los cubos OLAP representan una solucin reciente que da a da va
mejorando, por lo cual no est por dems considerarlo como una buena
herramienta de explotacin de los datos contenidos en un Datawarehouse. Las
organizaciones deben avanzar y no tener miedo al cambio, las herramientas OLAP
representaran una ventaja siempre y cuando se tome el tiempo adecuado para
analizar los requerimientos de la empresa y as obtener la mejor solucin.
91
FUENTES DE INFORMACION
BERSON, Alex (1997). DATA WAREHOUSING, DATA MINING & OLAP. New
York: Mc Graw Hill.
GINER DE LA FUENTE, Fernando & GIL, Ma. De los ngeles (2004). LOS
SISTEMAS DE INFORMACION EN LA SOCIEDAD DEL CONOCIMIENTO. ESIC
Editorial.
JIAWER, Han & KRAMBER, Micheline (2006). DATA MINING: CONCEPTS AND
TECHNIQUES. Segunda edicion. USA: Morgan Kaufmann.
METHODS
FOR
DESING,
DEVELOPING
AND
DEPLOYING
TECHNIQUES
AND
de
http://www.gravitar.biz/index.php/bi/el-costo-de-una-solucion-de-
business-intelligence-parte-1-de-2/
Carlos.
Dataprix.
Recuperado
el
16
de
mayo
de
2009,
de
http://www.dataprix.com/herramientas-para-la-implantaci%C3%B3n-de-unsistema-de-data-warehouse
93
94
Recuperado
el
06
de
junio
de
2009,
de
http://www.itson.mx/dii/jgaxiola/introduccion/eis.html
2009,
de
http://www.corporacionsybven.com/portal/index.php?option=com_content&view=ar
ticle&id=198:etl&catid=124:conceptos-teoricos
PriceWaterhouseCoppers.
Intelligence).
(2008).
Recuperado
el
La
12
Inteligencia
de
de
abril
Negocios
de
(Business
2009,
de
http://www.pwc.com/ve/spa/pdf/aseger_200810.pdf
95
http://informationmanagement.wordpress.com/category/data-
warehousing/page/2/
Integral.
Recuperado
el
18
de
junio
de
2009,
de
http://isg.enmollina.com/EIS_BI_BSC.pdf
96
NDICE DE FIGURAS
97
NDICE DE TABLAS
98
ANEXO I
PRUEBA FASMI
Es utilizada para definir las caractersticas de las aplicaciones OLAP de manera
especfica y sencilla de recordar, debido a que las reglas de Codd son numerosas
y la prueba FASMI representa un resumen de ellas. El concepto fue utilizado por
primera vez en 1995 y aun continua vigente.
"FASMI"
que
se
refieren
cinco
palabras;
Fast
Analysis
of
Shared
datos adems de proporcionar soporte a cada una de las mltiples jerarquas que
puedan existir dentro de la organizacin.
Information. Se refiere a la totalidad de los datos obtenidos y de la informacin
necesaria para el anlisis. La cual nos permitir la toma de decisiones en nuestra
organizacin. Mide la capacidad de los productos en trminos de la cantidad de
datos de entrada que soporta. Para eso se toman en cuenta diversas
consideraciones como: duplicacin de datos, memoria RAM necesaria, espacio en
disco, rendimiento e integracin de los datos.
101