Sie sind auf Seite 1von 70

1

A TRAVES DE UNA IMPLEMENTACIN


DATAWAREHOUSING
2
CONCEPTOS INTRODUCTORIOS
Introduccin al Data Warehousing.
Soluciones OLAP.
Diseo de un Data Warehouse.
Modelos OLAP.
Cubos OLAP.
Data Mining.
Lic. Nicols Bocalandro
3
POR QU DATAWAREHOUSING
OLTP Vs OLAP.
Datos Sucios.
Seguridad.
Grandes volmenes de datos ociosos.
Personalizacin del cliente.
Lic. Nicols Bocalandro
4
CARACTERISTICAS
Sus datos se usan para la Toma de
Decisiones.
Los datos se duplican.
Es una combinacin de Hard, Soft y Datos.
Repositorio de datos histricos.
Uno o ms Data Marts.
Lic. Nicols Bocalandro
5
CARACTERISTICAS DE UN
DATAWAREHOUSE
Orientado al tema.
Integrado.
De tiempo variante.
No voltil
Lic. Nicols Bocalandro
6
CARACTERISTICAS DE LOS DATOS
Detalle de datos actuales.
Detalle de datos antiguos.
Datos ligeramente resumidos.
Datos completamente resumidos .
Meta data.
Lic. Nicols Bocalandro
OLAP
7
RDBMS
SQL Server
Cliente
Resultados Resultados
Aplicaciones Cliente
OLTP
Consulta Consulta
ARQUITECTURA CLIENTE SERVIDOR
OLAP
Lic. Nicols Bocalandro
8
COMPONENTES CLIENTE-SERVIDOR
Aplicacin cliente
Biblioteca de red del cliente Biblioteca de red del cliente
Cliente
SQL Server
Motor relacional
Motor de
almacenamiento
Servidor
Base de
Datos local
biblioteca de base de datos)
API de base de datos
(OLE DB, ODBC,
biblioteca de base de datos)
Procesador
Memoria
Servicios abiertos
de datos
Bibliotecas de red
del servidor
Lic. Nicols Bocalandro
9
ACCESO A DATOS
Aplicaciones y componentes
Explorador
IIS
ActiveX Data Objects (ADO)
Datos
Consumidores
Datos
Proveedores
Access Excel
Cliente
personalizado
Proveedores de datos OLE DB (Servicios)
Cursores
Procesadores
de consultas
Servicios
empresariales
Proveedores de datos OLE DB (Datos)
ODBC Exchange
Active
Directory
Jet SQL Server Excel
Otros proveedores
de OLE DB
Lic. Nicols Bocalandro
10
CARACTERISTICAS OLTP (1/2)
OLTP
Normalizado (redundancia mnima).
Orientado a la transaccin.
Poco espacio almacenamiento.
Consultas lentas.
Ejecutar cada consulta al momento de requerir datos.
Lic. Nicols Bocalandro
11
OLTP
Orientado a la aplicacin.
Datos actuales.
Renovacin de datos.
CARACTERISTICAS OLTP (2/2)
Lic. Nicols Bocalandro
12
DIFERENCIAS OLTP Y OLAP (1/3)
Lic. Nicols Bocalandro
OLTP OLAP
Alineacin por Aplicacin. Alineacin por dimensin.
Tpicamente no integradas. Debe ser integrada.
Las consultas son lentas. Las consultas son muy
rpidas.
Cada tema de negocio puede
tener informacin en
diferentes sistemas.
Toda informacin de un tema,
alimentado de varios
sistemas, reunidos en una
sola base de datos.
13
DIFERENCIAS OLTP Y OLAP (2/3)
Lic. Nicols Bocalandro
OLTP OLAP
Diferentes sistemas contienen
diferentes tipos de datos.
Todos los tipos de datos
integrados en un solo
sistema.
Diferentes formatos de
archivos.
Formato de archivos
Standard.
Ocupan poco espacio y
requieren poco Hardware.
Requieren mucho espacio y
Hardware adecuado.
Diferentes plataformas de
Hardware.
Un solo servidor lgico
(Warehouse).
14
DIFERENCIAS OLTP Y OLAP (3/3)
Lic. Nicols Bocalandro
OLTP OLAP
Los usuarios son los que giran
las ruedas de la Organizacin.
Los usuarios miran las ruedas
de la Organizacin.
Se manejan cientos de
transacciones por da.
Se maneja solo una
transaccin que contiene
cientos de registros.
Datos operacionales son
altamente voltiles, cambian a
medida que opera la
Organizacin.
Los datos del DW son
altamente estables, son
insertados en intervalos
definidos y no son
modificados.
15
OLTP
OLAP
DIFERENCIAS ENTRE OPERACIONES EN
OLTP Y OLAP
Consulta
Actualiza
Inserta
Borra
Consulta
Inserta
Los datos se renuevan
constantemente.
Los datos se cargan en el
Warehouse y posteriormente se
consultan.
Lic. Nicols Bocalandro
16
Numrico
Entero
Numrico exacto
Numrico aproximado
Moneda
Fecha y hora
Carcter y caracteres Unicode
Binario
Otros
TIPOS DE DATOS UTILIZADOS
OLTP
OLAP
Carcter
Fecha
Numrico
Booleano
Lic. Nicols Bocalandro
17
ALMACENAMIENTO
MOLAP (OLAP multidimensional).
ROLAP (OLAP relacional).
HOLAP (OLAP hbrido).
Lic. Nicols Bocalandro
18
Data
Warehouse
User
Data Access
Data
Sources
Staging
Area
Data Marts
COMPONENTES DE UN
DATAWAREHOUSE
Lic. Nicols Bocalandro
19
ALMACENAMIENTO
MOLAP
Vista de
Usuario
Agregaciones
Detalladas
Vista de
Usuario
Agregaciones
ROLAP
Detalles
HOLAP
Vista de
Usuario
Agregaciones
Lic. Nicols Bocalandro
20
Datos agregados se almacenan en una
estructura multidimensional de alto
rendimiento.
MOLAP
Lic. Nicols Bocalandro
21
Se utiliza una base de datos relacional
para almacenar datos agregados.
ROLAP
Lic. Nicols Bocalandro
22
Los datos del cubo se almacenan en
una base de datos relacional y los datos
agregados se almacenan en una
estructura multidimensional.
HOLAP
Lic. Nicols Bocalandro
23
Tabla
Hechos
Dimensin
DimAlumno DimAlumno
Legajo
Nombre
Apellido
DimTiempo DimTiempo
IdTiempo
Fecha
...
DimMateria DimMateria
IdMateria
Materia
...
DimProfesor DimProfesor
IdProfesor
Apellido
...
DimUniversidad DimUniversidad
IdUniversidad
Universidad
...
HechosAcadem HechosAcadem
IdTiempo
Legajo
IdMateria
IdProfesor
IdUniversidad
Nota
Lic. Nicols Bocalandro
ESQUEMA ESTRELLA
24
Tabla de Hechos
10 10001 22 78 10 5
IdTiempo IdTiempo Legajo IdMateria IdProfesor IdUniversidad IdUniversidad Nota
TABLA DE HECHOS
Clave Fornea Clave Fornea Medidas Medidas
Lic. Nicols Bocalandro
25
Describen entidades del negocio.
Proveen contexto a los atributos numricos.
Tienen los datos organizados en jerarquas.
CARACTERISTICAS DE LAS
DIMENSIONES
Lic. Nicols Bocalandro
26
Provincia
Buenos Aires
Capital Federal
La Plata
Olavarra
Mendoza
Mendoza
San Rafael
OLAP
DIFERENCIAS ENTRE MODELOS
OLTP
Provincia
Buenos Aires
Mendoza
Localidad
BA Capital Federal
BA La Plata
BA Olavarra
MZ Mendoza
MZ San Rafael
Lic. Nicols Bocalandro
27
Tiempo
n Ao
2002
2003
2004
n n Semestre
I Semestre
II Semestre
n n n Mes
Enero
Febrero
Marzo
Abril
Nivel Ao
Miembros
Nivel Semestre
Miembros
Nivel Mes
Miembros
JERARQUIAS EN LA DIMENSION
Lic. Nicols Bocalandro
28
Define jerarquas en mltiples
dimensiones.
El modelo esta mas normalizado que el de estrella
(nica dimensin).
ESQUEMA DE COPO DE NIEVE
Lic. Nicols Bocalandro
29
MEDIDAS
Son valores numricos interesantes para calcularse.
Se encuentran en las tablas de hechos.
Son la interseccion de todas las dimensiones.
Lic. Nicols Bocalandro
30
MODELO NORMALIZADO
Lic. Nicols Bocalandro
31
MODELO DE-NORMALIZADO (1/2)
Lic. Nicols Bocalandro
32
MODELO DE-NORMALIZADO (2/2)
Lic. Nicols Bocalandro
33
DEFINIENDO UN CUBO (1/2)
Tablas de Hechos.
Las dimensiones.
Jerarquas.
Medidas.
Lic. Nicols Bocalandro
34
DEFINIENDO UN CUBO (2/2)
Q4 Q1 Q2 Q3
Dimensin Tiempo
Olavarra
Rosario
Mendoza
Contabilidad I
Adm. General
Anlisis I
Capital Federal
Algebra
D
i
m
e
n
s
i

n

G
e
o
r
g
r

f
i
c
a
Lic. Nicols Bocalandro
35
OLAP hbrido que relacionan a ms de un cubo, y
genera particiones adecuadas a necesidades
especficas.
CUBOS VIRTUALES Y PARTICIONES
Lic. Nicols Bocalandro
36
CUBOS VIRTUALES
Equivalente a una vista de un RDBMS.
Combinacin de uno o ms cubos.
No consume espacio.
Cubo Virtual
Cubo Alumno
Cubo Facultad
Lic. Nicols Bocalandro
37
Nota
CONSULTANDO UN CUBO
Olavarra
Rosario
Mendoza
Capital Federal
D
i
m
e
n
s
i

n

G
e
o
r
g
r

f
i
c
a
Q4 Q1 Q2 Q3
Dimensin Tiempo
Contabilidad I
Adm. General
Anlisis I
Algebra
Lic. Nicols Bocalandro
38
OPERACIONES A REALIZAR EN UN CUBO
Lic. Nicols Bocalandro
DRILL DOWN: Anlisis de Profundidad.
ROLL UP: Resumir informacin.
SLIC: Seleccionar una porcin o gajo.
DICE: Seleccionar dos porciones cruzadas.
PIVOTING: girar un cubo, mostrando distintas caras.
39
DEFINIENDO UN SLICE
Olavarra
Rosario
Mendoza
Capital Federal
D
i
m
e
n
s
i

n

G
e
o
r
g
r

f
i
c
a
Contabilidad I
Adm. General
Anlisis I
Algebra
Q4 Q1 Q2 Q3
Dimensin Tiempo
Lic. Nicols Bocalandro
40
VISUALIZANDO EL CUBO
Lic. Nicols Bocalandro
41
CONECTANDOSE AL CUBO OLAP
Lic. Nicols Bocalandro
42
Transforma y mueve datos.
Se puede programar una tarea de DTS.
OLTP
Source
DTS
Almacenamiento
DW
Analysis Services
Clientes
DTS
SERVICIO DE TRANSFORMACION DE
DATOS
Lic. Nicols Bocalandro
43
No limitado a SQL Server 2000
SQL Server 6.5, SQL Server 7.0, Microsoft Access 97,
Microsoft Access 2000, Oracle 7.3, Oracle 8.0
Cualquier Proveedor ODBC / OLE DB
Origenes
OLTP
DTS
Almacenamiento
DW
Analysis Services
Clientes
DTS
ALMACENAMIENTO ANALYSIS SERVICES
Lic. Nicols Bocalandro
44
OLTP
Source
DTS
DW
Storage
Analysis
Services
Clientes
DTS
ANALYSIS SERVICES
Lic. Nicols Bocalandro
45
Origene
s OLTP
DTS
Almacen
amiento
DW
Analysis
Services
Clientes
DTS
Interfaces
Clientes
APIs:
Nivel bajo: OLE DB para OLAP y OLE DB para
Data Mining.
Nivel alto: ADO-MD.
INTERFACES DEL CLIENTES
Lic. Nicols Bocalandro
46
Origen
OLTP
DTS
Almacenamiento
DW
Analysis
Services
Clientes
DTS
Interfaz
Cliente
Office 2000.
Aplicaciones de terceras partes.
Aplicaciones a medida.
APLICACIONES CLIENTES
Lic. Nicols Bocalandro
47
O
L
E
D
B

f
o
r

O
L
A
P
O
L
E
D
B

f
o
r

D
M
MOLAP
Store
A
p
l
i
c
a
c
i

n
A
D
O

M
D
P
i
v
o
t

T
a
b
l
e

S
e
r
v
i
c
e
Analysis Manager
DSO
SQL Server
Data
Warehouse
Otros
Proveedores
OLAP
Analysis Server
OLAP
Engine
DM
Engine
ARQUITECTURA DEL ANALYSIS
MANAGER
Lic. Nicols Bocalandro
48
Orientado a la administracin de una base de
datos.
Snap-In to MMC.
Objetos Orientados a la Decision (DSO).
Analysis Server
DSO DSO
Analysis Manager Analysis Manager
Interfaz de Administracin Interfaz de Administracin
ANALYSIS MANAGER
Lic. Nicols Bocalandro
49
REPOSITORIO DE METADATOS
Contiene todos los metadatos
Se encuentra en msmdrep.mdb
Se puede migrar el repositorio a SQL Server:
SQL Server 7.0 OLAP.
SQL Server 2000.
Lic. Nicols Bocalandro
50
CREATE procedure CargarReg11
as
insert Reg11
(
TipoRegistro,
TranAFIP,
NumeroAnticipoOrigCredito,
AnioAnticipoOrigCredito,
CreditoPeriodoAnterior
)
select
11,
TRANSACCION_AFIP,
substring(CONTENIDO_C,1,2),
substring(CONTENIDO_C,3,4),
substring(CONTENIDO_C,7,15)
from disquete
where REGISTRO=11
Llenando la dimensin
Tiempo
Lic. Nicols Bocalandro
51
create procedure InsertarDimUbicacionAlumno
As
insert DimUbicacionAlumno
SELECT A.Legajo, P.Provincia, L.Localidad,
S.NombreSede, F.Facultad, U.Universidad,
C.Carrera, A.Apellido, A.Nombre
FROM Alumno A
inner join Provincia P on A.CodProvincia=P.CodProvincia
inner join Localidad L on A.CodLocalidad=L.CodLocalidad
inner join Sede S on L.CodLocalidad=S.CodLocalidad
and P.CodProvincia=S.CodProvincia
inner join Facultad F on S.CodSede=L.CodSede
inner join Universidad L on F.Universidad=L.Universidad
inner join CarreraAlumno CA on A.Legajo=A.Legajo
inner join Carrera C on CA.Carrera=C.Carrera
group by A.Legajo,P.Provincia,L.Localidad,S.NombreSede,
F.Facultad,U.Universidad,C.Carrera,A.Apellido,A.Nombre
Llenando la dimensin
Tiempo
Lic. Nicols Bocalandro
52
create procedure
InsertarDimBancoSinRepetidos
as
insert DimBancoXML
SELECT Banco, Sucursal, TipoSucursal
FROM DimBancoXML_Origen
WHERE Banco+Sucursal+TipoSucursal
NOT IN
(SELECT Banco+Sucursal+TipoSucursal
FROM DimBancoXML)
GO
Eliminando
Registros
repetidos en la carga
Lic. Nicols Bocalandro
53
CREATE procedure ListarDimFecha
as
select
IdFecha,
Fecha=fecha,
Ao=datepart(yyyy, fecha),
Trimestre=datepart(quarter, fecha),
Mes=datepart(Month, fecha),
DiaDelAnio=datepart(dayofyear, fecha),
Dia=datepart(day, fecha),
Semana=datepart(week, fecha),
DiaDeLaSemana=datepart(weekday, fecha),
Hora=datepart(hour, fecha),
Minuto=datepart(minute, fecha)
from tiempoexcel
GO
Llenando la dimensin
Tiempo
Lic. Nicols Bocalandro
54
Utilizando DTS
Lic. Nicols Bocalandro
55
Utilizando ActiveX
Lic. Nicols Bocalandro
56
Utilizando ActiveX
Lic. Nicols Bocalandro
57
Utilizando ActiveX
'**********************************************************************
' Visual Basic Transformation Script
'************************************************************************
' Copy each source column to the destination column
Function Main()
DTSDestination("CodLocalidad") =
DTSSource("CodLocalidad")
DTSDestination("Localidad") = DTSSource("Localidad")
Main = DTSTransformStat_OK
End Function
Lic. Nicols Bocalandro
58
Ejemplo de XML
Lic. Nicols Bocalandro
59
CREATE procedure cargarxml
as
SET NOCOUNT ON
CREATE TABLE #tmpFileLines (rowID int IDENTITY, lineData nvarchar(255))
INSERT #tmpFileLines EXEC master.dbo.xp_cmdshell 'TYPE
E:\DW\Datos\MulatOrg0901Envio000535.fmlr_disquete.xml'
DECLARE @strXMLText nvarchar(4000)
SELECT @strXMLText =
CASE rowID WHEN 1 THEN
ISNULL(RTRIM(lineData), '')
ELSE
@strXMLText + ISNULL(RTRIM(lineData), '')
END
FROM #tmpFileLines ORDER BY rowID ASC
Cargando un XML en
una base de datos
Lic. Nicols Bocalandro
60
DROP TABLE #tmpFileLines
DECLARE @hDoc int
EXEC sp_xml_preparedocument @hDoc OUTPUT, @strXMLText
INSERT INTO PROVINCIA
SELECT *
FROM OPENXML(@hDOC, '/ROWSET', 2)
WITH
(
CODPROVINCIA VARCHAR(4),
PROVINCIA VARCHAR(60),
)
EXEC sp_xml_removedocument @hdoc
GO
Cargando un XML en
una base de datos
Lic. Nicols Bocalandro
61
Proceso de exploracin y anlisis - de manera automtica o
semiautomtica - de los datos para obtener patrones
significativos y reglas de negocio.
DATA MINING
Lic. Nicols Bocalandro
62
Las herramientas de Data Mining responden a preguntas
que consuman demasiado tiempo para resolverse.
Exploran las bases de datos en busca de patrones
ocultos.
Encuentran datos, generando conocimiento, que un
experto no podra llegar a generar.
DATA MINING
Lic. Nicols Bocalandro
63
Data Mining deriva de las similitudes entre buscar
informacin de negocios en grandes bases de datos y
minar una montaa para encontrar una veta de metales
valiosos.
Prediccin automatizada de tendencias y comportamientos.
Descubrimiento automatizado de modelos previamente
desconocidos.
DATA MINING
Lic. Nicols Bocalandro
64
Es un proceso centrado en el usuario que permite explorar
datos, relaciones entre datos y tendencias, permitiendo
mejorar la toma de decisiones.
Incluye un proceso interactivo de acceso a los datos y el
anlisis de los mismos para obtener conclusiones.
BUSINESS INTELLIGENCE
Lic. Nicols Bocalandro
65
KNOWLEDGE DEVELOPMENT (KD)
Lic. Nicols Bocalandro
Descubrimiento de conocimiento: Es practicamente
el mismo concepto que el de Data Mining pero apunta
ms al descubrimiento de hiptesis o patrones ocultos,
mientras que DM tambin abarca la exploracin de
hiptesis muy dbiles.
66
APLICACIONES DE BI
Lic. Nicols Bocalandro
Marketing Directo.
Venta cruzada.
Anlisis y pronsticos de venta.
Anlisis de la canasta de compras (MBA)
Anlisis de promociones (pre y postventa).
Retencin de clientes.
Anlisis de rentabilidad.
Medicin del valor del cliente.
Centros de atencin telefnica.
Anlisis de contratos de venta.
67
TERMINOLOGIA (1/3)
Snapshot: Imagen instantnea de los datos en un tiempo
dado.
Modelo Multidimensional: Es una manera de organizar
Hechos (Facts) de forma tal que estos puedan ser
analizados desde diferentes perspectivas de negocios.
Metadatos: Por definicin es data sobre dato. En otras
palabras la informacin sobre como es estructurada en el
DW.
Medidas: Son atributos numricos de un hecho. Se
localizan en la tabla de hechos de las bases de datos OLAP.
Lic. Nicols Bocalandro
68
TERMINOLOGIA (2/3)
ETL (Extraccin, Transformacin y Carga de datos):
Herramienta para volcar datos del sistema OLTP (o la
fuente de datos utilizada) al repositorio de datos (OLAP).
DTS (Servicio de Transformacin de Datos): En el
proceso el DTS valida, limpia, consolida y transforma los
datos cuando lo necesita. Utiliza funciones SQL y ActiveX.
Data Mining: Tcnicas de anlisis de datos encaminadas a
obtener informacin oculta en un repositorio de datos.
Agregacin: Actividad de combinar datos desde mltiples
tablas para formar una unidad de informacin ms
compleja, necesitada frecuentemente para responder
consultas del DW en forma ms rpida y fcil.
Lic. Nicols Bocalandro
69
TERMINOLOGIA (3/3)
Snapshot: Imagen instantnea de los datos en un tiempo
dado.
Lic. Nicols Bocalandro
70
PREGUNTAS