Sie sind auf Seite 1von 4

Universidad Nacional Experimental del Táchira

Maestría en Informática
Ingeniería de datos

Proyecto de gestión e integración de Datos Comerciales

Bayona Gómez Alexander


Navarro portillo Diego José
Prada García Joel Martin

Abstract. This project will provide a dimensional design of a data warehouse that allows the
integration of data, identification of variables, measures and indicators to guide the commercial
strategy of the organization, using the Northwind database as a reference.

1 Resumen 2 Modelo dimensional


Este proyecto brindara un diseño dimensional de un El modelo dimensional contiene la representación de
almacén de datos que permita realizar la integración las tablas que conforman la solución OLAP (On-Line
de datos, identificación de variables, medidas e Analytical Processing) con la cual se busca
indicadores que permitan orientar la estrategia segmentar, profundizar y sintetizar los datos
comercial de la organización, utilizando como contenidos en la base de datos Northwind. [1]
referencia la base de datos Northwind.
Para el desarrollo del modelo dimensional se
1.1 Alcance del proyecto plantearan las siguientes inquietudes:
Uno de los recursos más importante para una empresa  Unidades vendidas de cada producto a los
es la información que esta posee, por lo cual, clientes en el último año.
el buen manejo de la misma puede marcar la
diferencia entre el éxito o el fracaso, ya que
 Monto total de las ventas realizadas por cada
sirve como apoyo en las decisiones que se
producto en el último año.
tomaran, con el fin de cumplir con las metas
que se plantean.
Teniendo en cuenta lo anterior, podemos deducir que
Teniendo en cuenta lo anterior, podemos decir que las perspectivas serán cliente, producto, empleado y
uno de los principales retos a los que se tiempo, y los indicadores serán unidades vendidas y
enfrenta una organización es a procesarla de monto total, así pues el modelo conceptual se define
manera efectiva, ya que durante las etapas de la siguiente manera:
de recolección, extracción, almacenamiento
y análisis de la misma, podremos
comprender y crear soluciones que
aumenten los beneficios y reduzcan los
costos para nuestra organización.
Para este proyecto se diseñara un modelo
dimensional basado en la metodología Hefestos, se
realizara un proceso de extracción, transformación y
carga de los datos y, finalmente se implementara una
estrategia que permita observar el comportamiento Figura 1, Modelo dimensional
comercial del negocio a través del tiempo con el fin
de brindar una fuente confiable de información que Cabe mencionar que nuestra tabla de hechos sera
sirva como apoyo para la toma de decisiones en la ventas o factura, la cual nos permitira analizar la
organización, y como futuros casos de estudio informacion contenida de nuestras cuatro
relacionados con la materia de ingeniera de datos. dimensiones con el fin de obtener los indicadores
requeridos.
3 Granularidad de datos del modelo Creación de la dimensión CUSTOMER_DIM:
dimensional
En este punto definiremos el nivel de detalle de
nuestro DATAMART, en nuestro caso, el
objetivo es conocer la cantidad de unidades
vendidas de cada producto a los clientes y el
monto total de las ventas realizadas por cada
producto, para el último año.
El modelo que se utilizó para este proyecto fue el
modelo en estrella, ya que “es el más simple de
interpretar, posee los mejores tiempos de respuesta,
su diseño es sencillo de mantener y actualizar,
además, separa los datos del proceso de negocio en
hechos y dimensiones” [2] como se muestra en la
figura 2, esto quiere decir que la única tabla que tiene
relación con otra es la de hechos (FACTURA), lo que Creación de la dimensión EMPLOYEE_DIM:
significa que toda la información relacionada con una
dimensión debe estar en una sola tabla.

De igual forma se incluyó la dimensión TIME, que


nos servirá como criterio de búsqueda y/o filtro, y
será esencial para determinar nuestros indicadores.

Creación de la dimensión PRODUCT_DIM:

Figura 2, Modelo estrella

4 Implementación del
Datawarehouse
Una vez analizado el modelo dimensional y haber
desglosado el nivel de granularidad de datos del
modelo dimensional, realizaremos la implementación
del Datawarehouse.
Creación de la dimensión TIME_DIM:
En este punto realizaremos el proceso de extracción,
transformación y carga de los datos obtenidos de la
base de datos Northwind, con el fin de analizarla y
obtener la información requerida para la toma de
decisiones.

A continuación se muestran los script de base de


datos que se utilizaron para crear cada una de las
dimensiones de nuestro proyecto.

2
Creación de la tabla de hecho FACTURA: 4.1 Implementación del modelo en
Pentaho
“Pentaho es una herramienta de Business Intelligence
desarrollada bajo la filosofía del software
libre para la gestión y toma de decisiones
empresariales. Es una plataforma compuesta
de diferentes programas que satisfacen los
requisitos de BI. Ofreciendo soluciones para
la gestión y análisis de la información,
incluyendo el análisis multidimensional
OLAP, presentación de informes, minería de
datos y creación de cuadros de mando para
el usuario.” [3]
Para el desarrollo de este proyecto se utilizó la
herramienta PDI (Pentaho Data Integration)
el cual es una ETL que nos permitirá extraer
la información de una base de datos OLTP,
que a su vez nos permitirá transformar la
información a través de un modelo
dimensional y cargar los resultados de la
transformación en una base de datos destino
tipo Data warehouse, para que luego pueda
ser consultada (consultas ad-hoc) y
analizada a través de herramientas para
desarrollar reportes especializados las cuales
Pentaho también posee.
En la figura número 3, se muestra el modelo de
integración entre las tablas de dimensiones y de
hechos implementado en pentaho:

Figura 3, Modelo de integracion Pentaho

Seleccionamos los campos a utilizar, como se


muestra en la figura 4.

Figura 4, selección de campos


Los costos y mantenimientos de un data warehouse es
mucho menor en comparación de un motor de base
Luego ejecutamos la opción para calcular los campos de datos convencional.
requeridos, como se muestra en la figura 5.
Agradecimientos
Nos gustaria agradecer principalmente el apoyo de
nuestra profesora Mary Carlota Bernal, por su
orientación y dedicación en la materia de ingeniería
Figura 5, calculadora de pentaho de datos, con la que hemos dado un vistazo inicial de
lo que es la mineria de datos y, que nos servira como
base de estudio y como fuente de conocimiento para
cualquier ambito laboral.
Y finalmente obtenemos los resultados requeridos
inicialmente, como se muestra en la figura 6. Referencias
[1] On-Line Analytical Processing (OLAP)
http://wiki.inf.utfsm.cl/index.php?title=On-
Line_Analytical_Processing_(OLAP)

[2] Bigeek, Modelo Dimensiona, https://blog.bi-


geek.com/modelo-dimensional/

[3] Pentaho, Gravitar, información sin límites


https://gravitar.biz/pentaho/

Figura 6, resultado consulta en pentaho

5 Conclusiones
Se construyó el modelo dimensional basado en la
metodología Hefestos definiendo, 2 indicadores y sus
correspondientes perspectivas, tomando como fuente
la base de datos Northwind.

Se utilizó el modelo estrella para determinar la


granularidad de datos para el modelo dimensional.

Se realizó el proceso ETL (Extracción,


Transformación y Carga).

Se utilizó la herramienta Pentaho para la integración


de los datos, aquí se implementó el modelo
dimensional, los scripts de base de datos y las
consultas necesarias para obtener los resultados
requeridos inicialmente.

El uso de la ingeniería de datos o inteligencia de


negocios permite simplificar el proceso de extracción
de información en un formato apropiado para la toma
de decisiones.

Utilizando Pentaho, es posible exportar los resultados


en hojas de Excel para una mejor vista al usuario
final.

El tiempo de respuesta mejora considerablemente en


comparación a si se ejecutaran consultas SQL en un
motor de base de datos convencional.

Das könnte Ihnen auch gefallen