Beruflich Dokumente
Kultur Dokumente
1. Introduccin
1.1. Finalidades y Evolucin de los Sistemas de Informacin. 1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin. 1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.
2. Almacenes de Datos
2.1. Introduccin a los Almacenes de Datos. 2.2. Arquitectura de un Sistema de Almacn de Datos. 2.3. Explotacin de un Almacn de Datos: Herramientas OLAP. 2.4. Sistemas ROLAP y MOLAP. 2.5. Carga y Mantenimiento de un Almacn de Datos. 2.6. Diseo de un almacn de Datos. 2.7. Lneas de Investigacin Abiertas.
3. Minera de Datos
3.1. Introduccin a la Minera de Datos (DM) 3.2. El proceso de KDD 3.3. Tcnicas de Minera de Datos 3.4. Web Mining 3.5. Lneas de Investigacin Abiertas
Objetivos Parte II
Conocer las ventajas y casos donde es aconsejable recopilar informacin interna y externa en un Almacn de Datos. Conocer el modelo multidimensional de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot. Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos. Reconocer pautas para el diseo y mantenimiento de ADs.
3
PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de informacin originales (killer queries). Se debe hacer por la noche o en fines de semana. la base de datos est diseada para el trabajo transaccional, no para el anlisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).
6
parece razonable recoger los datos (informacin histrica) en un sistema separado y especfico. NACE EL DATA-WAREHOUSING Data warehouses (Almacenes o Bodegas de Datos)
7
disponer de bases de datos que permitan extraer conocimiento de la informacin histrica almacenada en la organizacin
objetivos
anlisis de la organizacin
previsiones de evolucin
diseo de estrategias
8
coleccin de datos diseada para dar apoyo a los procesos de toma de decisiones
caracterstic as
BD orientada al proceso
BD orientada al anlisis
9
integrada
variable en el tiempo
no voltil
10
AD: Integrado
Fuente de Datos 1
texto
Fuente de Datos 3
HTML
Fuente de Datos 2
Fuentes Externas
Informacin Necesaria
11
Almacn de Datos
12
AD: No voltil
Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.
Tiempo
READ
READ
14
infravaloracin de los recursos necesarios para la captura, carga y almacenamiento de los datos
15
16
ETL
Fuente de Datos 1
texto
Almacn de Datos
Interfaz y Operadores
Herramientas OLAP
Fuente de Datos 3
HTML
Copias de Seguridad
Fuente de Datos
Fuentes Externas
18
Repositorio Propio de Datos: informacin relevante, metadatos. Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos). Sistemas de Integridad y Seguridad: se encargan de un 19 mantenimiento global, copias de seguridad, ...
Se ofrece al usuario una visin multidimensional de los datos que son objeto de anlisis.
20
Producto
Ve nta s
Ao
importe unidades
Almacn Tipo
Regin
21
Almacn
Para hacer el anlisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
Ciudad
Tiempo
Trimestre
22
Tiempo
en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho). la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).
Trimestre
Ve nta s
importe unidades
Almacn
Actividad que es objeto de anlisis con los indicadores que interesa analizar
Ciudad
Tipo
Regin
Almacn
23
24
Producto
Tiempo
hecho
Semana Mes
Ve nta s
Nro_producto Tipo
Da
Trimestre Ao
importe unidades
Ciudad
Tipo
Almacn
medidas
Almacn
dimensin
Tiempo da mes semana trimestre ao
atributos
Regin
25
26
PERSONAL
equipo
LUGAR
Pas | Ciudad | Supermercado
TIEMPO
Ao / \
PRODUCTO: artculo
Trimestre \ / \
1 2 3 4 1 2 2005 2004
Artculo
VENTAS
TIEMPO: trimestre
27
28
VENTAS
lugar tiempo
lugar
PRODUCCIN
tiempo
equipo
PERSONAL
proyecto
lugar tiempo
se definen para satisfacer las necesidades de un departamento o seccin de la organizacin. contiene menos informacin de detalle y ms informacin agregada.
30
producto
CAMPAA
29
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una visin multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de anlisis. El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema fsico) del almacn de datos. La herramienta OLAP genera la correspondiente consulta y la enva al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
31
Herramientas OLAP
una consulta a un almacn de datos consiste generalmente en la obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
medida hecho
Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre y por categora ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao Parmetros de la consulta: por categora de producto y por trimestre
32
Herramientas OLAP
Bebidas
Da de la semana Mes Nro_producto Da Ao Trimestre
Herramientas OLAP
trimestre categora importe
Producto
Ve nta s
Tipo
importe unidades
2002
Almacn
Tiempo
Importe total de ventas en este ao, del departamento de Bebidas, por categora y trimestre
Tipo
Regin
Almacn
Ciudad
ME OR INF
33
34
Herramientas OLAP
Categora Trimestre Ventas
Herramientas OLAP
trimestre categora
T1 T2 T3 T4 T1 T2 T3 T4
T1
T2
T3
T4
Refrescos Zumos
2000000 1000000
3000000 2000000
Los parmetros de la consulta (por trimestre y por categora) determinan los criterios de agrupacin de los datos seleccionados (ventas de productos del departamento Bebidas durante este ao). La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).
36
Herramientas OLAP
Lo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales. Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulacin de consultas.
DRILL ROLL SLICE & DICE PIVOT
37
Herramientas OLAP
El carcter agregado de las consultas en el Anlisis de Datos, aconseja la definicin de nuevos operadores que faciliten la agregacin (consolidacin) y la disgregacin (divisin) de los datos:
agregacin (roll): permite eliminar un criterio de agrupacin en el anlisis, agregando los grupos actuales. disgregacin (drill): permite introducir un nuevo criterio de agrupacin en el anlisis, disgregando los grupos actuales.
38
Herramientas OLAP
Si se desea introducir la dimensin Almacn en el anlisis anterior e incluir un nuevo criterio de agrupacin sobre la ciudad del almacn:
Herramientas OLAP
sita Da de la semana ce me ne infor Mes o Departamento o n uevo Da Ao Nro_producto ri a Tipo su te n el u ar esimporte 2002 e unidades dis
Marca Categora
Producto
Bebidas
Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre, por categoras y por ciudad del almacn ?.
Ve nta s
Trimestre
Almacn
Parmetros de la consulta: por categora de producto, por trimestre y por ciudad del almacn.
39
Importe total de ventas en este ao, del departamento de Bebidas, por categora, trimestre y ciudad
Tipo
Regin
Almacn
Ciudad
Tiempo
40
Herramientas OLAP
trimestre categora importe
Categora Refrescos Trimestre
Herramientas OLAP
Ventas 2000000 1000000 3000000 2000000 1000000 1500000 8000000 2400000 * Se asumen dos ciudades: Valencia y Len. 42
Categora Trimestre Ciudad Ventas
T1 T2 T3 T4 T1 T2 T3 T4
T1 T1 T2 T2
drill-across
Refrescos
rme Info
o llad eta sd ma
41
Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestreciudad) para las ciudades de Len y Valencia.
Herramientas OLAP
n Le
ncia Vale
Herramientas OLAP
Zumos
300000
500000
200000
2000000
Importe total de las ventas durante este ao de los productos del departamento Bebidas, por categoras ?
Refrescos
1000000
400000
100000
500000
T1
T2
T3
T4
Herramientas OLAP
trimestre
Herramientas OLAP
categora importe
sita Da de la semana ce me ne infor Mes o Departamento o n uevo Da Ao Nro_producto ri a Tipo su te n el u ar esimporte 2002 e unidades dis
Marca Categora
Producto
Bebidas
Tiempo
Trimestre
Ve nta s
Almacn
Importe total de ventas en este ao, del departamento de Bebidas, por categoras
Tipo
Almacn
Ciudad
Regin
45
46
Herramientas OLAP
Categora Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos Trimestre Ventas
Herramientas OLAP
Las operaciones de agregacin (DRILL) y disgregacin (ROLL) se pueden hacer sobre: atributos de una dimensin sobre los que se ha definido una jerarqua: DRILL-DOWN, ROLL-UP
T1 T2 T3 T4 T1 T2 T3 T4
2000000 1000000
roll-across
Categora
Ventas
departamento categora - producto (Producto) ao - trimestre mes - da (Tiempo) sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS Producto Almacn -Tiempo
47
48
Herramientas OLAP
trimestre categora importe
Categora
Herramientas OLAP
Trimestre Ventas
Categora Trimestre Mes Ventas
Refrescos
T1 T2 T3 T4 T1 T2 T3 T4
2000000
Refrescos
T1 T1 T1
drill-down
Refrescos Refrescos
Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-mes).
50
Herramientas OLAP
Herramientas OLAP
Ventas
Productos Store1 Store2
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5
Ventas
Productos
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store 1 Q1 $5,2 $1,9 $2,3 $1,1 $5,6 $1,4 $2,6 $1,1 Q2 $8,9 $0,75 $4,6 $1,5 $7,2 $0,4 $4,6 $0,5
Q1
PIVOT
Store 2
Q2
52
Herramientas OLAP
Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
ofrecer una visin multidimensional de los datos (matricial).
Ventas
Productos Store1 Store2
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Q1
Ventas
Productos Store1
Electronics Toys Electronics Toys $5,2 $1,9 $8,9 $0,75 Q1
no imponer restricciones sobre el nmero de dimensiones. ofrecer simetra para las dimensiones. permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquas entre ellas. ofrecer operadores intuitivos de manipulacin: drill-down, rollup, slice-and-dice, pivot. ser transparentes al tipo de tecnologa que soporta el almacn de datos (ROLAP o MOLAP). *Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.
Q2
Q2
54
ROLAP y MOLAP
El Almacn de Datos y las herramientas OLAP se pueden basar fsicamente en varias organizaciones:
Sistemas ROLAP
se implementan sobre tecnologa relacional, pero disponen de algunas facilidades para mejorar el rendimiento (ndices de mapas de bits, ndices de JOIN).
ROLAP y MOLAP
Sistemas ROLAP:
El almacn de datos se construye sobre un SGBD Relacional. Los fabricantes de SGBD relacionales ofrecen extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.
55 56
Sistemas MOLAP
disponen de estructuras de almacenamiento especficas (arrays) y tcnicas de compactacin de datos que favorecen el rendimiento del almacn.
Sistemas HOLAP
sistemas hbridos entre ambos.
ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales: ndices de mapa de bits ndices de JOIN tcnicas de particionamiento de los datos optimizadores de consultas extensiones del SQL (operador CUBE, roll-up)
57
ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propsito especfico: estructuras de datos (arrays) tcnicas de compactacin.
El objetivo de los sistemas MOLAP es almacenar fsicamente los datos en estructuras multidimensionales de forma que la representacin externa y la representacin interna coincidan.
58
ROLAP y MOLAP
Estructuras multidimensionales Herramienta OLAP
ROLAP y MOLAP
MOLAP: Datos
Arrays Extrados del almacn de datos
Estructuras multidimensionales Herramienta OLAP
El servidor MOLAP construye y almacena datos en estructuras multidimensionales. La herramienta de OLAP presenta estas estructuras multidimensionales.
Servidor MOLAP
la complejidad de la BD se oculta a los usuarios el anlisis se hace sobre datos agregados y mtricas o indicadores precalculados.
Warehouse
59
Warehouse
60
10
ROLAP y MOLAP
ROLAP MOLAP
ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes: ROLAP
pueden aprovechar la tecnologa relacional.
Cliente
pueden utilizarse sistemas relacionales genricos (ms baratos o incluso gratuitos). el diseo lgico corresponde al fsico si se utiliza el diseo de Kimball.
MOLAP:
Servidor
generalmente ms eficientes que los ROLAP. el coste de los cambios en la visin de los datos.
61
Warehouse
62
Correspondencia
Transporte
Transformacin
Almacenamiento intermedio
Almacn de datos
El Almacenamiento intermedio permite: Realizar transformaciones sin paralizar las bases de datos operacionales y el almacn de datos. Almacenar metadatos. 64 Facilitar la integracin de fuentes externas.
Extraccin
Transporte
Transformacin
Identificacin de los datos que han cambiado Extraccin (lectura) de datos. Obtencin de agregados Mantenimiento de metadata Limpieza y transformacin de datos Integracin de datos (clculo de datos derivados) Creacin de claves Obtencin de agregados Mantenimiento de metadata
Carga Indizacin Obtencin de datos agregados. Realizacin de pruebas de calidad de la carga. Gestin de errores. Mantenimiento de metadata 65
Definir una estrategia de calidad: actuacin sobre los sistemas operacionales: modificar las reglas de integridad, los disparadores y las aplicaciones de los sistemas operacionales. documentacin de las fuentes de datos. definicin de un proceso de transformacin. nombramiento de un responsable de calidad del sistema (Data Quality Manager).
66
11
Extraccin
Almacenamiento intermedio
Almacn de datos
Programas diseados para extraer los datos de las fuentes. Herramientas: data migration tools, wrappers, ...
67
Identificacin de Cambios.
Identificar los datos operacionales (relevantes) que han sufrido una modificacin desde la fecha del ltimo mantenimiento. Mtodos
Carga total: cada vez se empieza de cero. Comparacin de instancias de la base de datos operacional. Uso de marcas de tiempo (time stamping) en los registros del sistema operacional. Uso de disparadores en el sistema operacional. Uso del fichero de log (gestin de transacciones) del sistema operacional. Uso de tcnicas mixtas.
Transformacin
Almacenamiento intermedio
Almacn de datos
69
- Transformar los datos extrados de las fuentes operacionales: limpieza, estandarizacin. (cleansing) - Calcular los datos derivados: aplicar las leyes de derivacin. 70 (integration)
12M65431
En los datos operacionales existen anomalas: desarrollos independientes a lo largo del tiempo, fuentes heterogneas, .. Eliminar anomalas:
Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados, ... Estandarizacin: codificacin, formatos, unidades de medida, ...
nmero de producto
cdigo de vendedor
72
12
Departamento 10 20 30 40
Departamento 10 20 50 60
75
76
13
T1
T2
T3
Crear el AD (base de datos) En intervalos de tiempo fijos aadir cambios al AD. Se deben determinar las ventanas de carga ms convenientes para no saturar la base de datos operacional. Ocasionalmente archivar o eliminar datos obsoletos que ya no interesan para el anlisis. 79
Almacn 80 de datos
Extraccin
Transporte
Almacenamiento intermedio
Almacn de datos
Anlisis
Diseo Lgico
Discernimiento de las fuentes necesarias del sistema de informacin de la organizacin (OLTP) y externas
Esquemas estrella
Diseo Conceptual
p.ej. Entidad-Relacin
83
84
14
Diseo Fsico
Implementacin
Diseo conceptual Diseo lgico
86
La visin multidimensional seguida por las herramientas de explotacin de almacenes de datos (OLAP) ha inspirado los modelos y metodologas de diseo de este tipo de sistemas.
la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).
88
90
15
Actividad: Ventas.
La actividad a modelar son las ventas de productos en los almacenes de la cadena.
94
tabla Dimensin 1
3 Dim
tabla Dimensin 3
tabla Dimensin 2
2 Dim
tabla Dimensin n
cto du pro po tiem
producto da almacn
95
n ac alm
ventas
96
16
producto da almacn
po tiem
n ac alm
ventas
id_almacn
la clave primaria* est formada por los identificadores de las dimensiones bsicas. datos (medidas) sobre las ventas diarias de un producto en un almacn. 98
De cada dimensin se debe decidir los atributos (propiedades) relevantes para el anlisis de la actividad. Entre los atributos de una dimensin existen jerarquas naturales que deben ser identificadas (da-mes-ao)
99
s) uto trib (a
100
Nota: En las aplicaciones reales el nmero de dimensiones suele variar entre 3 y 15 dimensiones.
17
jerarqua natural:
da - mes - trimestre -ao
103
Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...
Producto
id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase diettico ...
106
Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...
Producto
id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase diettico ...
Ventas
id_fecha id_producto id_establec ... ... ...
107
108
18
Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...
Producto
Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada establecimiento de la cadena.
importe total de las ventas del producto en el da nmero total de unidades vendidas del producto en el da nmero total de clientes distintos que han comprado el producto en el da.
id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase 109 diettico ...
Ventas
id_fecha id_producto id_establec importe unidades nro_clientes
110
112
En un almacn de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a periodos de tiempo (ltimo mes, este ao, ...).
Evitar normalizar: el ahorro de espacio no es significativo se multiplican los JOIN durante las consultas.
113 114
19
Existen tres estrategias para el tratamiento de los cambios en las dimensiones: Tipo 1: Realizar la modificacin. Tipo 2: Crear un nuevo registro. Tipo 3: Crear un nuevo atributo.
115
119
120
20
21