Sie sind auf Seite 1von 12

Metodologas para desarrollar Almacn de Datos.

Methodologies to develop Data Warehouse.

Ing. Eric Ismael Leonard Brizuela


Profesor Instructor
Universidad de Granma, Bayamo, Granma, Cuba,
Telfono: 48 16 49 Email: eleonardb@udg.co.cu

MSc. Yudi Castro Blanco


Profesora Asistente
Universidad de Granma, Bayamo, Granma, Cuba.
Telfono: 48 10 15 ext.: 208 Email: ycastrob@udg.co.cu

Recibido: 11-09-13
Aceptado: 04-11-13

Resumen:

El desarrollo de un almacn de datos no es tarea fcil, para llevar a cabo su implementacin es necesario
disponer de la metodologa adecuada; se requiere el diseo de un modelo conceptual que incluye tanto
los requisitos de informacin de los usuarios as como las fuentes de datos operacionales, a partir del
cual se obtiene un modelo lgico basado en una tecnologa de base de datos especfica que gua la
implementacin. Actualmente muchas de las metodologas existentes no definen mecanismos que
abarquen las caractersticas particulares del desarrollo de un almacn de datos, convirtindolo en una
tarea compleja y artesanal. Para dar solucin a este problema, en esta investigacin se realiza un estudio
de varias metodologas para el desarrollo de almacenes de datos, realizando un anlisis de sus
principales caractersticas para determinar la ms apropiada.

Palabras clave: Metodologa, Almacn de Datos.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 1

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

Abstract:
The development of a data warehouse is not an easy task, in order to carry out its implementation it is
necessary to have the adequate methodology; the design of a conceptual model takes that as much
includes the requirements of information of the users as well as the operational data sources, from which
obtains a logical model based in a data base specific technology that directs the implementation itself.
Many of the existing methodologies do not define mechanisms that cover the particular characteristics for
development of a data warehouse, turning it into a complex and craft task. In order to give solution to this
problem, in this investigation a study of several developmental methodologies of data warehouses comes
true, conducting an analysis of its main features to determine the most appropriate.

Keywords: Methodology, Data Warehouse.

Introduccin:

Los Almacenes de Datos o Data Warehouse (DW por sus siglas en Ingls), surgieron en la dcada del 90
del siglo pasado, conocidos como una coleccin de datos orientados a un mbito (empresa,
organizacin), integrada, no voltil y variante en el tiempo, que ayuda al proceso de los sistemas de
soporte a la toma de decisiones(1). El diseo y construccin de los almacenes de datos estn ganando
cada vez mayor popularidad en las organizaciones, al considerar las ventajas que involucra el anlisis de
los datos histricos de forma multidimensional para apoyar el proceso de toma de decisiones (2).,
resultando complejo en este proceso la recoleccin de requerimientos, el anlisis y el diseo porque no
siempre se emplea la metodologa adecuada.
La definicin de metodologa para algunos autores es: una coleccin de procedimientos, tcnicas,
herramientas y documentos auxiliares que ayudan a los desarrolladores de software en sus esfuerzos por
implementar nuevos sistemas de informacin. Una metodologa est formada por fases, cada una de las
cuales se puede dividir en sub-fases, que guiarn a los desarrolladores de sistemas a elegir las tcnicas
ms apropiadas en cada momento del proyecto y tambin a planificarlo, gestionarlo, controlarlo y
evaluarlo (3-6).
La finalidad de una metodologa de desarrollo es garantizar la eficacia (p.ej. cumplir los requisitos
iniciales) y la eficiencia (p.ej. minimizar las prdidas de tiempo) en el proceso de generacin de software,
pero no siempre se han distinguido por ser muy exitosas, an menos por su popularidad. La crtica ms
frecuente que sufren las metodologas es que son burocrticas, reiterativas y ambiguas. Hay tanto que
hacer para seguir la metodologa que el ritmo entero del desarrollo se retarda.
Hoy en da existen varias propuestas metodolgicas que inciden en distintas dimensiones del proceso de
desarrollo de un almacn de datos para facilitar la realizacin de nuevos proyectos y reducir su
complejidad. Cada una de estas metodologas estn marcadas por caractersticas particulares que las
hacen diferentes, la eleccin de una o varias de ella para la construccin de un almacn de datos debe
ser estudiado cuidadosamente.

Desarrollo:

Varias personas e instituciones se han dado la tarea de estudiar el tema sobre la metodologa correcta
para la construccin de un almacn de datos (7), algunos han creado sus propias metodologas, otros
han modificado las existentes, entre ellas se pueden mencionar: Ciclo de vida Kimball (8), DWEP (9), la
propuesta de Trujillo (10), Rapid Warehousing Methodology (11) y HEFESTO (12).
Existen otras metodologas que pudieran aplicarse al desarrollo de un almacn de datos y que la
comunidad cientfica considera como probadas (13-15) pero se enfocan hacia la minera de datos, ellas
son: CRISP-DM, SEMMA y P3TQ. Existe adems una metodologa llamada KM-IRIS (16) que pudiera
Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 2

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

aplicarse de cierto modo aunque fue concebida para dirigir proyectos de desarrollo de Sistemas de
Gestin del Conocimiento.

Arquitectura de un Almacn de Datos


Antes de analizar las caractersticas particulares de cada metodologa es necesario conocer la
arquitectura de un almacn de datos, la que incluye: datos operacionales, extraccin, transformacin y
carga de los datos, almacn y herramienta de acceso al depsito; como se muestra en la Figura 1, sus
componentes segn (12) son:

Figura 1: Arquitectura de un Almacn de Datos.

OLTP (On-line Transaction Processing / Procesamiento de Transacciones en lnea), representa toda


aquella informacin transaccional que genera la organizacin diariamente y las fuentes externas.
LOAD MANAGER. Los ETL (Extract-Transform-Load / Extraccin, Transformacin y Carga) se encargan
de extraer los datos desde los OLTP para manipularlos, integrarlos, transformarlos y posteriormente
cargar los resultados obtenidos en el almacn de datos, es necesario contar con un sistema que se
encargue de ello.
DW MANAGER. Su finalidad es transformar e integrar los datos fuentes y de almacenamiento intermedio
en un modelo adecuado para la toma de decisiones. Permitiendo realizar todas las funciones de
definicin y manipulacin del depsito de datos, para poder soportar todos los procesos de gestin del
mismo.
QUERY MANAGER. Este componente realiza las operaciones necesarias para soportar los procesos de
gestin y ejecucin de consultas relacionales, propias del anlisis de datos, recibe las consultas del
usuario, las aplica a la estructura de datos correspondiente y devuelve los resultados obtenidos.
HERRAMIENTAS Y CONSULTAS DE DATOS. Son los sistemas que permiten al usuario realizar la
exploracin de datos del almacn de Datos. Bsicamente constituyen el nexo entre el depsito de datos y
los usuarios.
USUARIOS. Son aquellos que se encargan de tomar decisiones y de planificar las actividades del
negocio.

Esta arquitectura opera de la siguiente manera:


Los datos se extraen de aplicaciones, bases de datos, archivos, entre otros. Esta informacin
generalmente reside en diferentes tipos de sistemas, orgenes y arquitecturas con diferente formatos, los
datos son integrados, transformados y limpiados, para luego ser cargados en el almacn de Datos, la
informacin se estructura en cubos multidimensionales para responder a consultas dinmicas con una
buena presentacin.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 3

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

Los usuarios acceden a los cubos, utilizando diversas herramientas de consulta: Query & Reporting, On-
line analytical processing (OLAP), Executive Information System (EIS) Informacin de gestin, Decision
Support Systems (DSS), Visualizacin de la informacin, Data Mining, etc (17).

Caractersticas de las metodologas

El Ciclo de vida Kimball (18) presenta un marco de trabajo como el ilustrado en la Figura 2, en la cual
se muestran las diferentes etapas durante todo el proceso de creacin del almacn de datos.

Figura 2: Ciclo de vida para la construccin de un almacn de datos segn Ralph Kimball.

La fase de planeacin del proyecto, pretende establecer la definicin y el alcance del proyecto de la
bodega de datos, incluyendo la valoracin y justificacin del negocio. La fase de definicin del proyecto
es donde se establece la base relacionada con la tecnologa, los datos y las aplicaciones del usuario.
La ruta de mayor importancia es la relacionada con los datos, en la cual se realiza el modelado
dimensional, partiendo de los requerimientos obtenidos y de las necesidades de anlisis de los usuarios;
el diseo fsico, el cual se enfoca en definir las estructuras fsicas necesarias para soportar el modelado
dimensional; y la etapa ETL en la cual se disea y desarrollan procesos para extraer, transformar y
cargar datos.
A lo largo de todo el ciclo de vida se debe seguir una administracin general del proyecto la cual asegura
que todas las actividades del ciclo de vida se alcancen y se sincronicen.
DWEP (Data Warehouse Engineering Process) est basada en el proceso unificado (en ingls: Unified
Process UP) estndar aceptado en el mbito cientfico e industrial para el desarrollo de software; entre
sus principales caractersticas se encuentra que es iterativo e incremental, se basa en cuatro fases de
desarrollo y siete flujos de trabajo, en la Figura 3 se presentan grficamente la relacin existente entre los
flujos de trabajo y las fases tanto del UP como de DWEP, est basado en componentes, utiliza el UML
(Unified Modeling Language - Lenguaje Unificado de Modelado) como lenguaje para modelado grfico
(19-21), es orientada a objetos, independiente de cualquier implementacin especfica, ya sea relacional
o multidimensional y permite la representacin de todas las etapas del diseo de un almacn de datos (9,
22).

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 4

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

Figura 3 (a) Proceso Unificado y (b) DWEP

Fases de desarrollo:
Fase de inicio: El objetivo de esta fase es analizar el proyecto para justificar su puesta en marcha, para
lograrlo se realiza una descripcin general del proyecto, se detectan los riesgos crticos y se establecen
la funcionalidad bsica del software con una descripcin de la arquitectura candidata.
Fase de elaboracin: Una vez finalizada la fase de inicio, se pretende formar una arquitectura slida para
la construccin del software. En esta fase se busca establecer la base lgica de la aplicacin con los
casos de uso definitivos y los artefactos del sistema que lo componen.
Fase de construccin: Se inicia a partir de la lnea base de arquitectura que se especific en la fase de
elaboracin y su finalidad es desarrollar un producto listo para la operacin inicial en el entorno del
usuario final.
Fase de transicin: Una vez que el proyecto entra en la fase de transicin, el sistema ha alcanzado la
capacidad operativa inicial. Esta fase busca implantar el producto en su entorno de operacin.

Flujos de trabajo:
En trminos generales para el proceso unificado y el DWEP un flujo de trabajo es un conjunto de
actividades realizadas en un rea determinada cuyo resultado es la construccin de artefactos (un texto,
un diagrama, una pgina Web, cdigo en lenguaje de programacin, etc.).
Requerimientos: Durante este flujo de trabajo, los usuarios especifican las medidas y agregaciones ms
interesantes, el anlisis dimensional, consultas usadas para la generacin de reportes peridicos y
frecuencia de la actualizacin de los datos. El proceso unificado sugiere el uso de casos de uso. Esto
ayuda a comprender el sistema y obtener los requisitos y funciones para la solucin. Adems establece
como deben ser las interacciones del sistema.
Anlisis: Tiene como objetivo mejorar la estructura y los requisitos obtenidos en la etapa de
requerimientos. En esta etapa se documentan los sistemas operacionales preexistentes que alimentaran
el almacn de datos.
Diseo: Al final de este flujo de trabajo, est definida la estructura del almacn de datos. El principal
resultado de este flujo de trabajo es el modelo conceptual del almacn de datos. Adems las
transformaciones necesarias de los datos para extraerlos del origen hacia el destino quedarn tambin
definidas a nivel conceptual.
Implementacin: Durante este flujo de trabajo, el almacn de datos es construido y se empiezan a recibir
datos de los sistemas operaciones, se afina para un funcionamiento optimizado, entre otras tareas.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 5

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

Pruebas: El objetivo de este flujo de trabajo es verificar que la aplicacin funcione correctamente, realizar
las pruebas y analizando los resultados de cada prueba. Concretamente, los efectos de las pruebas son
los siguientes: planificar las pruebas necesarias, disear y aplicar las pruebas mediante la creacin de
casos de prueba y realizar las pruebas y analizar los resultados de cada prueba (23).
Mantenimiento: Un almacn de datos es un sistema que se retroalimenta constantemente. El objetivo de
este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener el
almacn de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es
entregada a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los
usuarios finales pueden tener nuevas necesidades, lo que desencadena el comienzo de una nueva
iteracin con los requisitos de flujo de trabajo.
Revisiones post desarrollo: Esto no es un flujo de trabajo de las actividades de desarrollo, sino un
proceso de revisin para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y
esfuerzo invertido en cada fase es til en la estimacin de tiempo y de las necesidades para generar los
requisitos para desarrollos futuros.
Trujillo propone una metodologa de modelado basada en el proceso unificado. En esta propuesta se
emplean los perfiles de UML como mecanismo para especializar este lenguaje al dominio de los
almacenes de datos. Contemplando cada una de las fases de su desarrollo, se han diseado perfiles
para el modelado multidimensional del repositorio del almacn de datos y los procesos ETL (10).
Rapid Warehousing Methodology es una metodologa propuesta por SAS Institute. Esta metodologa
es iterativa, y est basada en el desarrollo incremental de almacn de datos dividido en cinco fases como
se puede apreciar en la figura 4.

Figura 4: Fases de la metodologa Rapid Warehousing Methodology.

Definicin de los objetivos: Se definir el equipo de proyecto, el alcance del sistema y cules son las
funciones que el almacn de datos realizar como suministrador de informacin de negocio estratgica.
Se definirn as mismo, los parmetros que permitan evaluar el xito del proyecto.
Definicin de los requerimientos de informacin: Se analizar las necesidades y se definirn los
requerimientos de informacin.
Diseo y modelizacin: se identificarn las fuentes de los datos (sistema operacional, fuentes externas,..)
y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lgico de datos del
almacn de datos. Este modelo estar formado por entidades y relaciones que permitirn resolver las
necesidades de negocio de la organizacin.
Implementacin: Se realizar la extraccin y carga de los datos, as como la explotacin del almacn de
datos para su uso por parte de los usuarios finales.
Revisin: Despus de implantarse, se debe realizar una revisin del almacn de datos planteando
preguntas que permitan, despus de los seis o nueve meses posteriores a su puesta en marcha, definir
cules seran los aspectos a mejorar o potenciar en funcin de la utilizacin que se haga del nuevo
sistema.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 6

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

HEFESTO es una metodologa creada por el Ing. Bernabeu Ricardo Daro, su ltima actualizacin es la
versin 1.1 en abril del 2009 y disponible bajo licencia GNU FDL, se fundamenta en una amplia
investigacin, comparacin de metodologas existentes y experiencias propias en procesos de confeccin
de almacenes de datos. Consta de cuatro fases: anlisis de requerimientos, anlisis de los OLTP, modelo
lgico del almacn de datos y proceso ETL. Puede ser utilizada en cualquier ciclo de vida que no requiera
fases extensas de requerimientos y anlisis, con el fin de entregar una implementacin que cumpla con
una parte de las necesidades proporcionadas por el usuario (12, 17), en la figura 5 se puede apreciar los
pasos que se realizan en cada fase de la metodologa.

Figura 5: Metodologa HEFESTO, pasos.

Anlisis de Requerimientos: Se identifican los requerimientos del usuario con el fin de entender los
objetivos de la organizacin, haciendo uso de tcnicas y herramientas, como la entrevista, la encuesta, el
cuestionario, la observacin, el diagrama de flujo y el diccionario de datos, obteniendo como resultado
una serie de preguntas que se debern analizar con el fin de establecer cules sern los indicadores y
perspectivas que sern tomadas en cuenta para la construccin del almacn de datos. Finalmente se
realizar un modelo conceptual en donde se podr visualizar el resultado obtenido en este primer paso.
Anlisis de los OLTP: Tomando en cuenta el resultado obtenido en el paso anterior se analizarn las
fuentes OLTP para determinar cmo sern calculados los indicadores con el objetivo de establecer las
respectivas correspondencias entre el modelo conceptual y las fuentes de datos. Luego, se definirn qu
campos se incluirn en cada perspectiva y finalmente, se ampliar el modelo conceptual con la
informacin obtenida en este paso.

Modelo lgico del Almacn de Datos: Como tercer paso, se realizar el modelo lgico de la estructura del
almacn de datos, teniendo como base el modelo conceptual. Para esto, se debe definir el tipo de
representacin de un almacn de datos que ser utilizado, posteriormente se llevarn a cabo las
acciones propias al proceso, para disear las tablas de dimensiones y de hechos. Por ltimo, se
realizarn las uniones pertinentes entre estas tablas.
Procesos ETL: Se prueban los datos a travs de procesos ETL. Para realizar la compleja actividad de
extraer datos de diferentes fuentes, luego integrarlos, filtrarlos y depurarlos, se podr hacer uso de
Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 7

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

software que facilita dichas tareas, por lo cual este paso se centrar solo en la generacin de las
sentencias SQL que contendrn los datos que sern de inters.

Esta metodologa cuenta con las siguientes caractersticas:

Los objetivos y resultados esperados en cada fase se distinguen fcilmente y son sencillos de
comprender.
Se basa en los requerimientos del usuario, por lo cual su estructura es capaz de adaptarse con
facilidad y rapidez ante los cambios en el negocio.
Reduce la resistencia al cambio, ya que involucra al usuario final en cada etapa para que tome
decisiones respecto al comportamiento y funciones del almacn de datos.
Utiliza modelos conceptuales y lgicos, los cuales son sencillos de interpretar y analizar.
Es independiente del tipo de ciclo de vida que se emplee para contener la metodologa.
Es independiente de las herramientas que se utilicen para su implementacin.
Es independiente de las estructuras fsicas que contengan el almacn de datos y de su respectiva
distribucin.
Cuando se culmina con una fase, los resultados obtenidos se convierten en el punto de partida para
llevar a cabo el paso siguiente.
Se aplica tanto para almacn de datos como para Data Mart.

CRISP-DM (CROSS Industry Standard Process for Data Mining), es un estndar industrial, utilizado
por ms de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de
estandarizacin. Interrelaciona las diferentes fases del proceso entre s, de tal manera que se consolida
un proceso iterativo y recproco. Es planteada como una metodologa imparcial o neutra respecto a la
herramienta que se utilice para el desarrollo de almacn de datos y Data Mining siendo su distribucin
libre y gratuita (24, 25).
CRISP-DM cuenta con una herramienta CASE (Computer Aided Software Engineering) integrada (que
soporta todas las fases del proceso) para satisfacer el desarrollo de proyectos de minera de datos
llamada CMIN, la cual incluye la gestin de procesos, plantillas y proyectos, y permite realizar el
seguimiento de los proyectos de una forma fcil e intuitiva. CMIN permite tambin enlazar en tiempo de
ejecucin (sin necesidad de volver a compilar la herramienta) nuevos algoritmos de minera de datos que
apoyen la labor de modelado (basada en un flujo de trabajo) (26).
SEMMA se define como el proceso de seleccin, exploracin y modelado de grandes cantidades de
datos para descubrir patrones de negocio desconocidos. Su nombre es el acrnimo correspondiente a las
cinco fases bsicas del proceso (muestro (sample), explotacin (explore), modificacin (modify),
modelado (model), valoracin (assess)) (28).
P3TQ (Product, Place, Price, Time, Quantity) est compuesta por dos modelos, el Modelo de Negocio y el
Modelo de Explotacin de Informacin. El Modelo de Negocio proporciona una gua de pasos para
identificar un problema de negocio o la oportunidad del mismo. El Modelo de Explotacin de Informacin
proporciona una gua de pasos para la ejecucin de los modelos de explotacin de informacin de
acuerdo al modelo identificado en Modelo del Negocio (14).
KM-IRIS fue elaborado por el grupo de Integracin y Re-Ingeniera de Sistemas (IRIS) de la Universidad
Jaume. Se crea con el objetivo de dirigir el proyecto de desarrollo de un sistema de gestin del
conocimiento, consta de cinco fases: identificar, extraer, procesar, almacenar y compartir. Esta
metodologa pretende cubrir el ciclo completo en el desarrollo de un sistema de gestin del conocimiento.
Es una metodologa poco difundida y con escasa documentacin (16, 27). En la tabla 1 se muestra una
breve descripcin de sus fases.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 8

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

Tabla 1. Metodologa KM-IRIS.

Fases Objetivo Tcnica/Herramienta


Seleccionar las bases de datos que puedan aportar la
Identificar Experiencia de los expertos.
informacin necesaria para obtener el conocimiento.
Ensamblar datos desde fuentes dispares,
Herramientas ETL/
Extraer enriquecindolos de manera que cree informacin
almacn de datos.
valiosa.
Construir por medio de algoritmos de Minera de Datos,
Procesar Minera de Datos
modelos de comportamiento
Minera de Datos/
Validar, seleccionar y mantener los modelos de
Almacenar Experiencia del Ingeniero
comportamiento.
del Conocimiento
Poner a disposicin de la Organizacin el conocimiento
Compartir Portal del Conocimiento
descubierto

Discusin:

Elegir una u otra metodologa a la hora de desarrollar un almacn de datos depender de las
caractersticas particulares de cada metodologa y del almacn de datos, pero si de las metodologas se
trata se puede analizar lo siguiente:
El Ciclo de vida Kimball es muy amplia la manera de abordar los elementos para las etapas de
desarrollo, y deja claro qu se debe hacer, pero no cmo lograrlo, lo que provoca demoras en los
resultados. Esta metodologa no detalla la manera en que se deben disear los modelos de datos ni la
forma de obtener las variables para lograr la correspondencia con los datos fuentes. Adems, no es
contemplada como un ciclo completo de desarrollo sino que abarca solo la etapa de diseo del almacn
de datos (8, 18).
DWEP es una metodologa que contempla el ciclo completo de desarrollo de un almacn de datos,
permitiendo crear todos los aspectos fundamentales en los modelos de datos (lgico conceptual y fsico).
La captura de requerimientos es la base para el posterior anlisis y diseo del almacn de datos, en este
punto se considera que se manejan muchos artefactos.
La propuesta de Trujillo para el desarrollo de almacenes de datos dirigidos por modelos no detalla la
manera en que se deben disear los modelos de datos ni la forma de obtener las variables para lograr la
correspondencia con los datos fuentes. Adems, no es contemplada como un ciclo completo de
desarrollo sino que abarca solo la etapa de diseo del almacn de datos.
Rapid Warehousing Methodology es una metodologa iterativa que est basada en el desarrollo
incremental de un almacn de datos dividido en cinco fases. Esta metodologa no incluye lo relativo a
tcnicas de anlisis de la informacin, por lo que con su aplicacin solo se obtendra el almacn de datos
y no los multianlisis de los datos para apoyar la toma de decisin.
HEFESTO es una metodologa cuya propuesta se fundamenta en una amplia investigacin, comparacin
de metodologas existentes y la experiencia en la elaboracin de almacenes de datos. La ventaja
principal de esta metodologa es que especfica puntualmente los pasos a seguir en cada fase a
diferencia de otras metodologas que mencionan los procesos, ms no explican cmo realizarlos. Se
debe sealar como elemento negativo que su ltima fase es el proceso ETL por lo que no permite la
obtencin del modelo conceptual, lgico y fsico.
CRISP-DM, SEMMA y P3TQ se centran fuertemente en las tcnicas de explotacin de informacin y en la
tipificacin de los datos, adems no determinan cmo las variables vinculadas a los datos modelan el

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 9

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

negocio, ni cules son los procesos de explotacin de informacin, ni el modelo asociado, que a partir de
aplicar las tcnicas al conjunto de valores de las variables, permiten obtener una solucin para cada
problema de inteligencia de negocio (28, 29)
KM-IRIS describe, formal y estructuradamente, las actividades a llevar a cabo para extraer conocimiento
a partir de los datos, as como determina las herramientas y tcnicas necesarias para cada fase pero es
una metodologa poco difundida y con escasa documentacin.

Resultados:

Una vez analizadas las principales caractersticas de las metodologas que se emplean en el desarrollo
de almacenes de datos se percibi que no todas contemplan el ciclo completo de desarrollo, en algunas
no se crean artefactos que especifiquen como implementar la solucin y la documentacin en otras es
escasa. Adems el almacn de datos se basa en el diseo de un modelo conceptual y a partir de este se
obtiene un modelo lgico, muchas de estas metodologas no definen mecanismos para estructurar de
manera sistemtica este proceso, convirtindolo en una tarea compleja y artesanal.
Despus de realizado un anlisis exhaustivo de cada metodologa se considera apropiada la integracin
de la metodologa HEFESTO y DWEP para el desarrollo de almacenes de datos. La metodologa
HEFESTO podr definir la arquitectura de los datos, es decir recolectar los requerimientos y necesidades
de informacin del usuario y DWEP podr elaborar el modelo conceptual, lgico y fsico pues permite
controlar el alcance y la agilidad de forma disciplinada.

Conclusiones:

Al elegir un metodologa para desarrollar un almacn de datos no se deben utilizar metodologas que
requieran fases extensas de reunin de requerimientos y anlisis, fases de desarrollo monoltico que
conlleve demasiado tiempo y fases de despliegue muy largas. El objetivo de cada desarrollador debe ser
entregar una primera implementacin que satisfaga una parte de las necesidades, para demostrar las
ventajas del almacn de datos y motivar a los usuarios, es por eso que se debe elegir una metodologa
que cumpla con estos requisitos, pues el trabajo siempre debe estar dirigido a mejorar la calidad y
aceptacin del mismo por los usuarios que benefician.

Referencias Bibliogrficas:

1. InmonWH.BuildingtheDataWarehouse.Cuartaed.NuevaYork:JohnWiley&Sons;2005.
2. Fuentes L, Valdivia R. Incorporacin de elementos de inteligencia de negocios en el proceso de
admisin y matrcula de una Universidad Chilena. Revista Chilena de Ingeniera2010
18/11/2010;18(3):38394.
3. Tinoco O, Rosale PP, Salas J. Criterios de seleccin de metodologas de desarrollo de software.
IndustrialData,RevistadeInvestigacin2010;13(2):704.
4. JacobsonI,BoockG,RumbaughJ.ElProcesoUnificadodeDesarrollodeSoftware.LaHabana:Flix
Varela;2005.
5. PressmanR.IngenieradelSoftware.Unenfoqueprctico.Terceraed2007.
6. PressmanR.SOFTWAREENGINEERING.ApractitionersApproach.Fourthed2008.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 10

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

7. Hernndez MD. Procedimiento para el desarrollo de un sistema de inteligencia de negocios en la


gestindeensayosclnicosenelCentrodeInmunologaMolecular.RevistaCubanadeInformacin
enCienciadelasaludACIMED2011;22(4).
8. Kimball R, Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling.
Seconded:JohnWiley&Sons;2002.
9. LujnS.DataWarehouseDesignwithUML[Doctor].Alicante,Espaa:Departamentodesoftwarey
sistemascomputacionales.UniversidaddeAlicante;2005.
10. TrujilloJ,SolerE,ZubcoffJ,MaznJN,GlorioO,PardilloJ.Desarrollodealmacenesdedatosdirigido
pormodelos.2007.
11. Espinosa R. Fases en la implantacin de un sistema DW. Metodologa para la construccin de un
DW. El Rincn del BI. 2009 [Consultado: 01/03/2012]; Disponible en:
http://churriwifi.wordpress.com/2009/12/05/5fasesenlaimplantaciondeunsistemadw
metodologiaparalaconstrucciondeundw/.
12. Dario BR. HEFESTO: Metodologa propia para la Construccin de un Data Warehouse. Crdoba,
Argentina2009.
13. ChapmanP,ClintonJ,KerberR,KhabazaT,ReinartzT,ShearerC,etal.MetodologaCRISPDM1.0.
2007 [Consultado: 04/01/2012]; Disponible en:
http://www.dataprix.com/files/Metodologia_CRISP_DM.pdf.
14. Britos P. Procesos de Explotacin de Informacin basados en Sistemas Inteligentes [Doctor en
CienciasInformticas].BuenosAires,Argentina:UniversidadNacionaldelaPlata;2008.
15. GarcaR,LelliR,MerlinoH,CornachiaL,RodriguezD,PytelP,etal.,editors.Ingenieradeproyectos
de explotacin de informacin para PYMES. XIII Workshop de Investigadores en Ciencias de la
Computacin;2011;UniversidadNacionaldeRosario.Rosario.SantaFe.Argentina.
16. Matos G, Chalmeta R, Coltell O. Metodologa para la Extraccin del Conocimiento Empresarial a
partirdelosDatos.InformacinTecnolgica2006;17(2):818.
17. Casteln L, Ocharn JO. Diseo de un Almacn de datos basado en Data Warehouse Engineering
Process(DWEP)yHEFESTO.2010.
18. MuozJ,AcostaL,MendozaM.BodegadedatosparaUnicaucaVirtual:Unaprimeravisin.Enlace
Informtico2005;4(1).
19. LujnS,TrujilloJ,SongIY.AUMLprofileformultidimensionalmodelingindatawarehouses.Data
KnowledgeEngineering2006;59(3):72569.
20. Alaskar K, Shaik A. Object Oriented Data Modeling for Data Warehousing (An Extension of UML
approach to study Hajj pilgrims private tour as a Case Study). International Arab Journal of e
Technology2009;1(2):3741.
21. Dhawan B, Gosain A. Extending Uml for Multidimensional Modeling in Data Warehouse.
InternationalJournalofComputer&CommunicationTechnology2009;2:5964.
22. HerreraEJ,editor.DataWarehouseEngineeringProcess(DWEP)withU.M.L.2.1.1.5taConferencia
de EuroAmerican Association On Telematics And Information Systems Eatis; 2010; Universidad
TecnolgicadePanama.
23. Alarcn R, BasurtoC, Dvila A. Infraestructura depruebas para una plataforma de inteligencia de
negocios: lecciones aprendidas de una experiencia acadmica. REICIS Revista Espaola de
Innovacin,CalidadeIngenieradelSoftware2008;4(2):8395.
24. SalcedoOJ,GaleanoRM,RodrguezLG.MetodologacrispparalaimplementacinDataWarehouse.
Tecnura:TecnologayCulturaAfirmandoelConocimiento2010;14(26):3548.
25. Shearer C. The CRISPDM Model: The New Blueprint for DataMining. Revista de Data
Warehousing2009;5(4):1322.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 11

Ing. Eric Ismael Leonard Brizuela, MSc. Yudi Castro Blanco. Metodologas para desarrollar Almacn de
Datos.

26. CobosC,ZuigaJ,GuarinJ,LenE,MendozaM.CMINherramientacasebasadaenCRISPDMpara
el soporte de proyectos de minera de datos. Revista Ingeniera e Investigacin2010 diciembre,
2010;30(3):4556.
27. Matilla MM, Chalmeta R. Metodologa para la Implantacin de un Sistema de Medicin del
RendimientoEmpresarial.InformacinTecnolgica2007;18(1):11926.
28. AzevedoA,SantosMF,editors.KDD,SEMMAANDCRISPDM:AParalleloverview.IADISEuropean
ConferenceDataMining;2008;S.M.deInfestaPortugal.
29. Pollo F, Britos P, Pesado P, Garca R, editors. Metodologa para especificacin de requisitos en
proyectos de explotacin de informacin. XI Workshop de Investigadores en Ciencias de la
Computacin;2009;UniversidadNacionaldeRosario.Rosario.SantaFe.Argentina.

Revista de Arquitectura e Ingeniera. 2013, vol.7 no.3 ISSN 1990-8830 / RNPS 2125 12

Das könnte Ihnen auch gefallen