Sie sind auf Seite 1von 26

Tpicos Data Warehouses: Fundamentos, Ferramentas e Tendncias Atuais

Conceitos bsicos


Sistemas de Suporte Deciso Data Warehouses (DWs)


OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

Alguns temas de pesquisa atuais em DWs

Prof. Renato Fileto Departamento de Informtica e Estatstica (INE) Universidade Federal de Santa Catarina (UFSC)

Concluses e referncias para estudos adicionais

Tpicos
Conceitos bsicos Sistemas de Suporte Deciso Data Warehouses (DWs)

Processos Decisrios
passado presente futuro tempo

OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

experincias acumuladas s a percepo pode ser mudada


informaes histricas

planos a executar para atingir objetivos


planejamentos

tomada de decises

Alguns temas de pesquisa atuais em DWs


simulaes Sistema de Suporte a Deciso

Concluses e referncias para estudos adicionais

Classes de Sistemas de Informao


Sistemas Transacionais
Controlam informaes operacionais (por exemplo, vendas, compras, contabilidade, sensoriamento e sistemas de tempo real). Operaes de manipulao de dados (insert, update, delete), normalmente on-line e em nvel detalhado.
Objetivo

BDs Transacionais vs. Suporte Deciso


Caracterstica
Uso Processamento Unidade de trabalho Usurios Interao dos usurios Dados Volume Histrico Granularidade Redundncia Estrutura Manuteno Atualizao Integridade Acesso a registros ndices Funo dos ndices

BD Transacional
Atividades cotidianas Operacional OLTP Incluso, alterao, excluso Operadores (muitos) Aes pr-definidas Operacionais Pode ser alto (MB GB) 60 a 90 dias Detalhada (baixa) No ocorre (s p/ eficincia) Esttica Mnima o desejvel Contnua (tempo real) Transao Poucos - por transao Poucos/simples Localizar um registro

BD Suporte Deciso
Anlise do negcio Informativo OLAP Carga e consulta Gerncia (poucos) Pr-definida e ad-hoc Analticos Muito alto (GB TB) vrios anos Detalhada e consolidada (alta) Pode ocorrer Varivel Constante Peridica (snapshots - retratos) Cada atualizao Muitos - para consolidao Muitos/complexos Agilizar consultas

Sistemas de Suporte Deciso


Extraem informaes necessrias para a tomada de deciso, utilizando consultas complexas sobre grandes volumes de dados (por exemplo, determinar a taxa de crescimento do faturamento nos ltimos 5 anos). Podem usar sistemas transacionais como fontes de dados.

Data Warehouse (Armazm de Dados) (Armazm


Banco de dados voltado para o suporte tomada de deciso. Possivelmente derivado de vrios bancos de dados operacionais Pode ser usado como base para executar OLAP (On-Line Analytical Processing) e outras tecnologias de anlise de informao e extrao de conhecimento Objetivos: Satisfazer necessidades de anlise de informaes Monitorar e comparar situaes atuais com passadas Estimar situaes futuras

Definies
Data Warehouse - DW (W. H. Immon)
Coleo de dados orientada a assuntos, integrada, com sries temporais e no voltil, voltada para o apoio tomada de deciso.

Data Warehousing
Processo de construo e uso de DWs.

Business Intelligence (BI)


Refere-se a coleta, organizao, anlise, compartilhamento e monitoramento de informaes para suporte a gesto de negcios.
Inclui Data Warehousing (DW,) Data Mining (DM), Customer Relationship Management(CRM).

Caractersticas de um DW
Orientado a assuntos: por exemplo, vendas de produtos a diferentes tipos de clientes, atendimentos e diagnsticos de pacientes, rendimento de estudantes Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de dados precisam ser acomodadas em um nico esquema para prover uma viso unificada e consistente da informao Sries temporais: o histrico dos dados por um perodo de tempo superior ao usual em BDs transacionais permite analisar tendncias e mudanas No voltil: os dados de uma data warehouse no so modificados como em sistemas transacionais (exceto para correes), mas somente carregados e acessados para leituras, com atualizaes apenas peridicas

Contexto de Data Warehousing


Cliente 1 Consultas e Anlises Cliente 2

Metadados

Data Warehouse

Integrao

Fonte 1

Fonte 2

Fonte 3

A Tecnologia de Data Warehouses


Ferramentas de ETC (Extrao,Transformao e Carga) de grande volumes de dados de diversas fontes no DW com recursos para converso, validao, correo (data cleansing) e integrao dos dados Banco de dados com modelagem dimensional voltado para consultas complexas para a obteno de informao consolidada Ferramentas de prospeco e anlise de dados baseadas em OLAP (On-Line Analytical Processing) Ferramentas de administrao e gerenciamento do DW e seus Datamarts (DMs)

Arquitetura de um DW
Cliente 1
resultados

Cliente 2

... ...

Cliente N

ADM

I t e r f a c e

DataMart 1

DataMart M

...
Data Warehouse ETC Catlogo de Metadados

(Extrao, Tranformao e Carga)

atualizaes

Fonte 1

Fonte 2

...

Fonte K

O Modelo de dados dimensional


Modelo especfico para processamento analtico de informao (OLAP) Medidas organizadas segundo dimenses e suas hierarquias de nveis
Exemplos de medidas quantidade vendida valor vendido nmero de habitantes Exemplos de dimenses Local com os nveis pas, estado e municpio Tempo com os nveis ano, ms e dia Produto com os nveis tipo e nome

O Modelo de dados dimensional


Produto Local
sum Caf PR RS SC Leite Po ... sum Jan 96 Fev 96 ... sum

Todos os produtos, Jan 08, PR

Tempo

Clulas ordinrias (brancas) tm dados no nvel mnimo de granularidade para todas as dimenses Faces cooloridas com dados agregados (count, sum, max, etc.) nas respectivas dimenses

O Esquema de um Data Warehouse


Tabela(s) fato Dados quantitativos registros de medidas, com dados integrados de vrias fontes (muitos registros) Dimenses Dados qualitativos - organizando conceitos e respectivas instncias para a seleo e agregao dos dados quantitativos, rotulando esses dados e os resultados (poucos registros) Modelagem de dados em data warehouses: Star (modelo em formato estrela) SnowFlake (formato de floco de neve) Hypercube (modelagem em hiper-cubo)
time

Um esquema em formato estrela


time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type item

Sales Fact
time_key item_key branch_key location_key units_sold dollars_sold avg_sales

item_key item_name brand type supplier_type location location_key street city province_or_street country

Measures

Cardinalidades do esquema estrela

(no normalizado) normalizado)

Dados em um esquema estrela estrela

17

18

Um esquema em formato floco de neve


time
time_key day day_of_the_week month quarter year

Hierarquias de dimenses
(podem ser normalizadas) normalizadas)
sType

item

Sales Fact
time_key item_key branch_key

item_key item_name brand type supplier_key

supplier
supplier_key supplier_type

store

city

region
sType tId t1 t2 size small large location downtown suburbs

branch
branch_key branch_name branch_type

location
location_key street city_key

location_key units_sold dollars_sold avg_sales Measures

store storeId s5 s7 s9

cityId sfo sfo la

tId t1 t2 t1

mgr joe fred nancy

city

cityId sfo la

pop 1M 5M

regId north south

city
city_key city province_or_street country
region regId nam e north cold region south warm region

Uma constelao de Tabelas Fato


time
time_key day day_of_the_week month quarter year

Tabela fato para cubo 2D

item

Shipping Fact
time_key item_key shipper_key from_location

Sales Fact
time_key item_key branch_key

item_key item_name brand type supplier_type

Tabela Fato
sale prodId p1 p2 p1 p2 storeId c1 c1 c3 c2 amt 12 11 50 8

Cubo
p1 p2 c1 12 11 c2 8 c3 50

branch
branch_key branch_name branch_type

location_key units_sold dollars_sold avg_sales

location
location_key street city province_or_street country

to_location dollars_cost units_shipped

shipper
shipper_key shipper_name location_key shipper_type
22

Measures

Tabela fato para cubo 3D

Agregao de dados
Quantidade vendida no dia 1 SELECT sum(amt) FROM SALE WHERE date = 1
sale prodId p1 p2 p1 p2 p1 p1 storeId c1 c1 c3 c2 c1 c2 date 1 1 1 1 2 2 amt 12 11 50 8 44 4

Tabela fato
sale prodId p1 p2 p1 p2 p1 p1 storeId c1 c1 c3 c2 c1 c2 date 1 1 1 1 2 2 amt 12 11 50 8 44 4

Cubo

day 2 day 1

c1 c2 c3 p1 44 4 p2 c1 c2 c3 p1 12 50 p2 11 8

81

24

Agregao de dados (II)


Quantidade vendida por dia SELECT date, sum(amt) FROM SALE GROUP BY date
sale

Agregao de dados (III)


Quantidades vendidas por produto e dia SELECT prodId, date, sum(amt) FROM SALE GROUP BY date, prodId
prodId storeId p1 c1 p2 c1 p1 c3 p2 c2 p1 c1 p1 c2 date 1 1 1 1 2 2 amt 12 11 50 8 44 4

sale

sale

prodId p1 p2 p1 p2 p1 p1

storeId c1 c1 c3 c2 c1 c2

date 1 1 1 1 2 2

amt 12 11 50 8 44 4

ans

date 1 2

sum 81 48

prodId p1 p2 p1

date 1 1 2

amt 62 19 48

rollup drill-down

25

26

Operadores OLAP
Slice: Projeta valores especficos de uma dimenso (extrai uma fatia do hypercubo) Dice: Slices consecutivos (extrai hypercubo menor) Roll-up (drill-up): sumariza dados, subindo na hierarquia de uma dimenso Drill-down (roll-down): reverso de roll-up, isto , detalha os dados, descendo na hierarquia de uma dimenso Pivot: muda posio ou orientao da dimenses na projeo bidimensional de dados do hypercubo
27

Slice

28

Exemplo: Exemplo: DW vestibular UFSC


(Felipe Shigunov, UFSC, 2007) Shigunov,

DrillDrill-down

Visualizao no OpenI
(Felipe Shigunov, UFSC, 2007) Shigunov,

Drill Down
usado para solicitar uma viso mais detalhada de um conjunto de dados. Pode-se dizer que o usurio "mergulha" nos dados.

Roll Up
Consiste na operao inversa ao Drill-Down, ou seja, apresenta os dados cada vez mais agrupados ou sumarizados.

Pivoting
Serve para adicionar ou rearranjar as dimenses das tabelas

Slice and Dice


Para fixar uma informao de dimenso ou reduzir as dimenses de apresentao dos dados

Tpicos
Conceitos bsicos


Sistemas de Suporte Deciso Data Warehouses (DWs)


OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

Alguns temas de pesquisa atuais em DWs


Concluses e referncias para estudos adicionais

Projeto e Implementao de DWs


Data warehouses podem requerer muito investimento (tempo, dinheiro, trabalho), dificultando sua adoo em instituies de pequeno e mdio porte. A modelagem crtica para o sucesso de uma data warehouse e merece ateno. Empreendimentos que no considerem as diferenas entre modelagem de bancos de dados convencionais e data warehouses, incluindo questes tcnicas e administrativas, podem facilmente fracassar.

Critrios para projeto de DW


Determine um escopo pequeno Escolha um departamento Defina com clareza os objetivos Utilize os recursos tecnolgicos disponveis No proponha um projeto coorporativo Conceba um projeto escalvel

Necessidade de critrios para planejamento, projeto e implementao de data warehouses

Formas de Desenvolvimento de DWs


Top-down: Projeto e implementao do DW completo definindo o esquema integrado, fontes de dados e Datamarts Bottom-up: Projeto e implementao de pequenas DWs ou DMs que vo se integrando aos poucos Combinada: Mistura desenvolvimento de DWs com vrias fontes de dados e com diversos DMs com integrao incremental

Fases do desenvolvimento de DWs


1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

Planejamento Levantamento das necessidades e fontes de dados Integrao de dados Modelagem dimensional Projeto fsico do banco de dados Projeto das transformaes de dados (ETC) Desenvolvimento de aplicaes Validao e teste Treinamento Implantao

Modelagem Dimensional
crtica para o sucesso de uma DW diferente da modelagem de dados convencional
A forma como o usurio visualiza e manipula os dados (organizao em hipercubo) deve prevalecer A implementao pode ser em SGBDs especficos para DW ou relacionais/convencionais (verificar a forma como so realizadas junes e outras operaes) Diagramas em estrela e floco de neve so utilizados para a implementao de bancos de dados em hypercubos sobre o modelo relacional Normalizao pode ser dispensada, especialmente nas dimenses, por questes de eficincia Abordagem top-down
1. 2. 3. 4. 5. 6.

Passos da Modelagem Dimensional


Definir a rea de negcios (prioridades, mercado, custos e benefcios) Definir os processos dentro da rea de negcios Determinar a granularidade desejada (e vivel) Definir a(s) tabela(s) fato Descrever as dimenses Definir as mtricas para as medidas

7.

Aditivas: faz sentido adicionar (e.g., valor) Semi-Aditivas: faz sentido somar em certas dimenses (e.g., qtde. vendida no tempo/espao, qtde. de chuva s no tempo) No Aditivas: no faz sentido somar (e.g., valor-venda/custo)

Escolher um DataMart (definido por uma tabela fato e as dimenses associadas, para iniciar o desenvolvimento)

Extrao, Transformao e Carga de Dados (ETC ETL em ingls)


SGBDs relacionais

Tarefas de ETC
Filtragem de dados: para eliminar erros e elementos indesejados Integrao de dados: correlaciona dados de fontes heterogneas com os da data warehouse

BDs legados

ETC
Flat Files

DW
SGBD Relacional SGBD OO/Relacional BD dedutivo Flat files

Converso de dados: procedimentos para transformao entre formatos e unidades Condensao de dados: para reduzir o volume e/ou agilizar o processamento Derivao de dados: define frmulas para produzir novos valores a partir dos existentes

Externos

ETL Steps

ETL Steps (II)

Capture = extractobtaining a snapshot of a chosen subset of the source data for loading into the data warehouse

Scrub = cleanseuses pattern recognition and AI techniques to upgrade data quality

Static extract = capturing a snapshot of the source data at a point in time

Incremental extract = capturing changes that have occurred since the last static extract

Fixing errors: misspellings,


erroneous dates, incorrect field usage, mismatched addresses, missing data, duplicate data, inconsistencies

Also: decoding, reformatting, time


stamping, conversion, key generation, merging, error detection/logging, locating missing data

ETL Steps (III)

ETL Steps (IV)

Transform = convert data from format of operational system to format of data warehouse

Load/Index= place transformed data into the warehouse and create indexes

RecordRecord-level:
Selection data partitioning Joining data combining Aggregation data summarization

FieldField-level:
single-field from one field to one field multi-field from many fields to one, or one field to many

Refresh mode: bulk rewriting of


target data at periodic intervals

Update mode: only changes in


source data are written to data warehouse
48

Qualidade de Dados
Preciso: grau de correo (e.g., casas decimais) Consistncia: grau de coerncia entre os dados Integridade: no falta pedaos do banco de dados e no h dados corrompidos Abrangncia: escopo do banco de dados como um todo (e.g., intervalo de tempo, espao geogrfico coberto, gama de produtos) Granularidade: escopo mnimo de cada valor de dado (e.g., valores totais, mnimos e/ou mximos para cada hora ou cada dia)

Localizao dos dados de um DW


Repositrio centralizado (global): soluo muito utilizada, mas com o inconveniente de requerer investimento em um servidor com alta capacidade de processamento e armazenamento. Repositrios Independentes: dados armazenados em diferentes locais ou DMs de acordo com reas de interesse (e.g., financeiro, marketing). Nveis de Detalhes: dados altamente consolidados/resumidos em um servidor e dados detalhados em outro. Datamarts lgicos: DMs so vises lgicas dos dados integrados no DW.

DW Centralizado

DW Descentralizado
Data marts:
Mini-warehouses, limited in scope

L L T E
One, companywide warehouse

T E
Separate ETL for each independent data mart Data access complexity due to multiple data marts

51

ODS provides option for obtaining current data

ODS and data warehouse


are one and the same

T E
Single ETL for enterprise data warehouse (EDW) Simpler data access Dependent data marts loaded from EDW

T E
Near real-time ETL for @active Data Warehouse
Data marts are NOT separate databases, but logical views of the data warehouse Easier to create new data marts

A equipe de desenvolvimento de um DW
Funo
Gerente da data warehouse Arquiteto de dados Administrador de metadados Administrador do BD Usurio de nvel gerencial Analista de suporte deciso Especialista em aplicaes OLTP Analista e programador de converses Especialista em suporte tcnico Instrutor

Responsabilidades
Definio das estratgias, planejamento e gerenciamento Anlise dos requitos de dados, modelagem de dados e definio de vises Definio dos padres de metadados e gerenciamento do catlogo de metadados Criao das estruturas fsicas e monitoramento da carga de dados e desempenho das consultas Descrio dos dados necessrios, especificao das regras do negcio e teste dos resultados Desenvolvimento de aplicaes de suporte deciso Ajuda na localizao dos dados e uso dos recursos de consulta (dump) nos sistemas transacionais Indicao e catalogao das fontes de dados e desenvolvimento de programas para carga de dados Atividades tcnicas como instalao e configurao de hardware e software Treinamento dos usurios para utilizao da data warehouse

Estudo de Caso: Caso: DWs para a Agricultura


Projetos realizados junto Embrapa, Epagri, Unicamp e Georgia Institute of Technology
Anlise da produo agrcola Agroclimatologia Zoneamento Agrcola

Ilustram aplicaes de conceitos e tcnicas fundamentais


Conceitos bsicos Modelagem dimensional (e.g., hierarquias complexas) Operadores de agregao de dados Integrao de dados

Demonstram a necessidade de extenses


Espaciais Temporais

Agricultural Production Estimation


Time year quarter month

DW Produo de Frutas no Brazil


(Carlos Meira, Embrapa, 2003) Meira, Embrapa,
Product Local Brazil Center North North-East South South-East Esprito Santo Minas Gerais Rio de Janeiro So Paulo Brazil Brazil Brazil Brazil Planted Area (ha) 2001 2002* 825.228 9.289 18.280 109.584 52.003 636.072 2.735 43.895 7.955 581.487 510.313 275.551 63.282 30.733 828.437 9.921 16.724 111.233 49.210 641.349 2.752 43.418 7.121 588.058 523.757 273.306 64.150 31.080 Orange Production Unity 2001 2002* 16.983.436 18.931.919 tons 131.289 145.866 252.317 233.539 1.530.322 1.731.698 795.326 740.559 14.250.578 16.080.257 29.343 29.907 575.590 599.999 115.753 104.501 13.529.892 15.345.850 6.177.293 6.455.067 tons 3 1.420.547 1.811.773 10 fruits 3 1.468.897 1.450.033 10 fruits 722.986 857.824 tons

Territorial Divisions country region state county

Crop Production
planted area production unit monetary_value

Products class family crop

Banana Coconut Pineaple Papaya

* Estimation by December 2002 (actual production data not available yet)

DW Produo Agrcola
(Renato Deggau, Epagri/UFSC, 2009) Deggau, Epagri/UFSC,
Territorial Divisions country region state county location

Climate Data
Time year month week day

Climate Attributes
Max Temp Min Temp Avg Temp Total Rainfall

Organizations consortium institution department

10

Average Rainfall in Pernambuco State


(Cepagri/Unicamp, 2002) Cepagri/Unicamp,
Country Pernambuco State - Brazil
Average Yearly Rainfal (mm)

The Territory Dimension


Eco Region Macro Basin

Country Region Macro Region State State Region County Locality Geo-Point
Polygons of Territorial Subdivisions

Official Region Micro Basin Metro Area

States, Counties, Localities, etc.

Instances of Territory (I)


Country

Instances of Territory (II)


Country

Brazil

Brazil

Official Region

Center North

North-East

South

South-East

Official Region

Amazon

Center-South

Northeast

State

DF GO MS MT

AM AP

AL BA

PR RS SC

ES MG RJ SP

State

AM AP PA

DF ES GO RJ SC SP

AL BA CE

State Region

Chapada dos Veadeiros

Santa Catarina Sea Shore

Fluminense Low Lands

State Region

Chapada dos Veadeiros

Fluminense Low Lands

Northern Sea Shore

County

Alto Paraso 1400800 S 4703030 W

Florianpolis

Rio de Janeiro 2201900 S 4201700 W

County

Alto Paraso

Rio de Janeiro

Ubatuba

GeoPoint

GeoPoint

1400800 S 4703030 W

2201900 S 4201700 W

2302300 S 4500700 W

The Time Dimension


Year Seasons Semester Trimester Bimmester Period Month 10 days Crop Stage Dairy Cattle Raising Stage Climate

Calendar Time
Years Period

1997-2001

Year

1997

1998

1999

2000

2001

2002

Trimester

week

5 days
Month Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

Day Hour
Day 1 2 3 29

11

Stages of an Annual Crop


Life Cycle Soy Beans

Stages of a Permanent Crop


Life Cycle Coffee

Stage

Emergence

Development

Blooming

Grain Filling

Maturation

Stage

Development

Production[1,...]

Phase

Ps-emergence

Middle Development

Pr-Blooming

Phase

Dormence

Blooming

Grain Filling

Maturation

Period 5 days
1st.Per. 2nd.Per. 3rd.Per. 4th.Per.

Period 10 days
D[1,...] D[(1,1),(1,2),...] B[(1,1),(1,2),...]

The Agricultural Product Dimension


Raw

The Organizations Dimension


Consortium

Plant

RNA

Kind

Grain

Fruit

Vegetable

Institution

Embrapa

Unicamp

IAC

Crop

Beans Rice Corn

Orange Mango Carrot Squash


Unit CPAC CNPTIA CEPAGRI

Group

Carioca black

White-long Plants Physiology

Department Variety Onix Araguaia

Data Sources and Repositories for Meteorological Data


C3

Collecting and Combining Climatic Data


Relevant Processed Measures

Combining Repositories
C1 C2

Abstraction Aggregation
I3

Scope

Aggregated Climate Measure

fuse data

Institutional Repositories

I2 I1 I3a I3b

Climate Attributes Warehouse Climate Attributes


combine data sets

aggregation / interpolation over space, time, etc.

Data Collecting Devices

seasonal Temporal aggregation Series

Detail Precision

Weather Measures

collect & review

12

One Source of Weather Data

Another Source of Weather Data

WeatherSample at Measures has Lat Long un DegreeMinSec Rainfall un mm has Temp un Celsius in Loc in City Lat un

W_Measure has has

at Position in Loc

Position has Long Alt un Meters P un mm

Values has AvgT MinT MaxT un Celsius

DegrDec

Data Integration
SP.Water Balance at
Position Measures

Water Balance
So Paulo State

WSamples_BR

ComposedOf Values PartOf

Position
Loc DD=f(DMS) DegrDec WSamples-SP mm Celsius Lat Long Rainfall Temp

in id Loc
WSamples_MG

id Long Period

during Rainfall Evap ER PEP Arm Exc Def Alt AvTemp

Lat

Position

Measures

Position

Values

OneOf un un Year PartOf Month un Millimeters OneOf Jan Feb

un Celsius Degrees

Loc

Lat

Long

Rainfall

Temp

Loc

Lat Long

Alt

AvgT MinT MaxT

DegreeMinSec

DegreeMinSec

mm

Celsius

City

DegrDec

Meters

mm

Celsius

...

Dec

Water Balance
Minas Gerais State
MG.Water Balance at Position in id Loc in un City un Meters Year id id Altitude ComposedOf
in Position over id id Period Location Latitude Longitude Rainfal RNA.Water Balance at

Water Balance
Data Integration
ComposedOf Values PartOf ETP un Month Millimeters
MG.Water Balance at Position PartOf over in id Loc in City Lat id id Period P ETP ETR DEF EXC T un Celsius Degrees Long Altitude ComposedOf Values PartOf

Values PartOf during


DD=f(DMS)

ETR

Def

Exc

Temperature un Celsius Degrees

un

un Year

One Of Part Of

SigDegrDec
SP.Water Balance

Latitude Longitude

Period OneOf

ETP

ETR

DEF

EXC

T
at Position

ComposedOf Values over Per One Of Year Part Of Month One Of Dec ... un Millimeters

un SigDegreeDec PartOf Month Millimeters

un Celsius Degrees

in id Loc Lat id Long

Rainfall Evap ER PEP Arm Exc Def Alt AvTemp un Celsius Degrees

un

un

OneOf Jan Feb

DegreeMinSec

...

Dec

Jan Feb

One un Of un un Year Month Part Millimeters SigDegrDec Meters Of One Of ... Dec Jan Feb

13

Converting Data Values


Target
[State(SP)]

Selecting on a Dimension
Target
[State(SP)]

Climate Attributes Rainfall (mm) Avg Temp (C)

Climate Attributes Lat Long :

mm = inch * 25,4 C = (F 32) * (5/9)

(Lat,Long) IN SP (Source)
Source
[Country(BR]]

Source

[State(SP)]

Climate Attributes Rainfall (inches) Avg Temp (F)

Climate Attributes Lat Long :

The Selection on a Data Value


Target
[State(SP)]

The Aggregation of Data Values


[Country(BR), Fruits, Per(1997-2002)]

Target
Crop Production
Total production unit Avg value

Climate Attributes Avg Temp

[Year,State]

19oC < AvgTemp < 23oC

(Source)

Year,State (Source)
Source
Crop Production
production unit monetary_value [Country(BR), Fruits, Per(1997-2002)]

The dimensions express relations among granularities

[State(SP)]

Source
Climate Attributes Avg Temp

[Month,County]

The Interpolation of Data Values


Target
[State(SP)]

Combining Data Values


Target
[State(SP)]

Climate Attributes RainFall Distrib.

Relevant Measure
Freezing Risk

ISP(Source)
[State(SP)]

FR = f(MinTemp,Alt)

Source
Climate Attributes Latitude Longitude Rainfall

[State(SP)]

[State(SP)]

Source 1
Climate Attr
Min Temp

Source 2
Relief
Alt. Distr.

14

Tpicos
Conceitos bsicos


Componentes tpicos de um DW
Ferramentas para Extrao, Transformao e Carga (ETC ) para facilitar a integrao e assegurar a qualidade dos dados carregados (e.g., Keetle, GeoKettle) Mecanismos de interoperabilidade para fontes de dados heterogneas (e.g., gateways como ODBC e JDBC, wrappers e mediadores) Sistema de gerenciamento de bancos de dados (com bom desempenho e segurana!) Catlogo de metadados (necessrio para documentar e compreender os dados e suas transformaes) Gerenciador de DataMarts Servidor OLAP (e.g. Mondrian) Gerador de interfaces cliente na Web (e.g. Jpivot)

Sistemas de Suporte Deciso Data Warehouses (DWs)


OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

Alguns temas de pesquisa atuais em DWs


Concluses e referncias para estudos adicionais

Wrappers e mediadores

Implementao de OLAP
ROLAP Relacional MOLAP Multidimensional
Wrapper

Cliente Mediador Wrapper Wrapper

Cliente

Fonte 1

Fonte 2

Fonte 3

HOLAP Hibrido

Padres abertos para mdulos de DWs


XMLA (XML for Analysis): Padro baseado em esquema XML para definio da estrutura de cubos, possibilidades de navegao (consultas) sobre o mesmo e comunicao entre cliente e servidor OLAP MDX (MultiDimensional Expressions): Linguagem de consulta com sintaxe similar a SQL para especificao de consultas OLAP JOLAP (Java OLAP): API para acesso a servidor OLAP a partir de aplicaes Java

Arquitetura Geral

15

Especificao de cubo no Mondrian


<?xml version="1.0"?> <Schema name="SampleData"> <Cube name="Quadrant Analysis"> <Table name="fato_desempenho"/> <Dimension name="Curso" foreignKey="id_curso"> <Hierarchy hasAll="true" allMemberName="All Cursos" primaryKey="id_curso"> <Table name="curso"/> <Level name="curso.centro" table="curso" column="centro" uniqueMembers="false"/> <Level name="curso.area" table="curso" column="area" uniqueMembers="false"/> <Level name="curso.nome" table="curso" column="nome" uniqueMembers="false"/> </Hierarchy> </Dimension> <Dimension name="disciplinaprova" foreignKey="id_disciplinaProva"> <Hierarchy hasAll="true" allMemberName="All disciplinaprovas" primaryKey="id_disciplinaProva"> <Table name="disciplinaprova"/> <Level name="disciplinaprova.area_conhecimento" table="disciplinaprova" column="area_conhecimento" uniqueMembers="false"/> <Level name="disciplinaprova.disciplina" table="disciplinaprova" column="disciplina" uniqueMembers="false"/> </Hierarchy> </Dimension> <Dimension name="Candidato" foreignKey="id_candidato"> <Hierarchy hasAll="true" allMemberName="All Candidatos" primaryKey="id_candidato"> <Table name="candidato"/> <Level name="candidato.estado_endereco" table="candidato" column="estado_endereco" uniqueMembers="false"/> <Level name="candidato.cidade_endereco" table="candidato" column="cidade_endereco" uniqueMembers="false"/> </Hierarchy> </Dimension> <Measure name="soma" column="soma_nota" aggregator="sum" datatype="String" formatString="##.0"/> <Measure name="maxima" column="nota_max" aggregator="max" datatype="String" formatString="##.0"/> <Measure name="minima" column="nota_min" aggregator="min" datatype="String" formatString="##.0"/> <Measure name="num" column="num_candidatos" aggregator="sum" datatype="String" formatString="Standard"/> </Cube> </Schema>

Script com consulta MDX


<action-definition> <component-name>PivotViewComponent</component-name> <action-inputs> <cursoSelects type="string"/> <candidatosSelects type="string"/> <disciplinaprovaSelects type="string"/> </action-inputs> <action-outputs> </action-outputs> <component-definition> <title>Drill Down to Pivot Table</title> <viewer>Pivot</viewer> <model>samples/analysis/query1.mondrian.xml</model> <jndi>dw_tcc</jndi> <query><![CDATA[with member [Measures].[Media notas] as '([Measures].[soma] / [Measures].[num])', format_string = IIf(((([Measures].[soma] / [Measures].[num])) > 4.0), "|##.0|style='green'", IIf(((([Measures].[soma] / [Measures].[num])) < 2.0), "|##.0|style='red'", "##.0"))select NON EMPTY {[Measures].[maxima], [Measures].[Media notas]} ON COLUMNS, NON EMPTY Crossjoin({ {cursoSelects} }, Crossjoin({ {candidatosSelects} }, { {disciplinaprovaSelects} } ) ) ON ROWSfrom [Quadrant Analysis]]]></query> ... </action-definition> ...

Comparativo de ferramentas livres


(Giovani Caruso McDonald e Joo Rubik, UFSC, 2007) Rubik,

Critrios Gerais

Critrios agrupados segundo classes de ferramentas


Todas as ferramentas Ferramentas de ETC Servidores OLAP Clientes OLAP Suites de ferramentas para desenvolvimento de DWs

Sistema Operacional Licena Usabilidade Linguagem de Desenvolvimento

Ferramentas de ETC

Servidores OLAP

Implementao (ROLAP, MOLAP, etc) Fontes de dados Limpeza de dados Abrangncia dentro do processo

SGBDs suportados Metodo de armazenamento Protocolo de conexo Linguagem de consulta

16

Clientes OLAP

Suites de ferramentas

Linguagem de consulta Forma de conexo com o servidor Gerncia de anlises

Componentes utilizados e compatveis Administrao

Licenas
GNU General Public License (GPL) GNU Library General Public License (LGPL) Common Public License (CPL) Mozilla Public License Apache License BSD License

Ferramentas livres analisadas


Mondrian (servidor OLAP) Jpivot (gerao de interfaces OLAP) OpenI (suite) SpagoBI (suite) PentahoBI (suite) BEE Project (suite)

Mondrian
Busca os dados de um sistema de gerenciamento de banco relacional e apresentando o resultado no formato multidimensional Executa consultas a ele submetidas na linguagem MDX. O formato de sada processado por seus clientes OLAP

Mondrian
Arquitetura:

17

Mondrian
Instalao e configurao
Disponvel no SourceForge. Definir o esquema do cubo multidimensional O esquema descrito por um documento XML

JPivot
uma biblioteca JSP para a interao do usurio com servidores OLAP via Web O JPivot permite aos usurios submeter consultas a servidores OLAP e explorar a resposta obtida atravs de uma interface grfica

JPivot
Arquitetura
Suporta diversos servidores OLAP Tipos de conexo com servidores:
Acesso atravs de XMLA Acesso atravs de um Driver JDBC

JPivot

Utiliza o pacote WCF (Web Component Framework) para a construo da Interface

OpenI
OpenI suite de BI (Business Intelligence) Open Source baseada em tecnologia J2EE para analise OLAP Compatvel com servidores OLAP que utilizam o protocolo XMLA Propsito de ser uma ferramenta fcil e intuitiva para executar operaes OLAP.

OpenI
Arquitetura
O componente de conexo O componente de Relatrio Componente de interface O Componente de Segurana

18

OpenI
Arquitetura

OpenI
Instalao e Configurao
Aplicao Web que funciona em qualquer servidor de aplicao J2EE Segurana do OpenI baseada na segurana do servidor de aplicao J2EE Utiliza o conceito de projetos para definir uma coleo especfica de relatrios OLAP

OpenI
Criao de anlise

Pentaho
Objetivo de fornecer solues para os problemas em BI Arquitetura orientada a servios e centrada em processos Engloba componentes responsveis por relatrios, anlises, minerao de dados, ETC, entre outros

Pentaho
Arquitetura:
Componentes maduros Projetos consolidados em cdigo aberto Facilmente substitudos por outros produtos Padro de servidor web J2EE Repositrios de dados externo a plataforma Pentaho

Pentaho
Componentes:
Servidor OLAP Mondrian Front-End jPivot Analysis Shark e JaWE Workflow Kettle EII e ETL Servidor de aplicao JBoss, Hibernate e Portal Weka Data Mining Eclipse Workbench e BIRT reporting components JOSSO single sign-on and LDAP integration Mozilla Rhino Javascript Processor

19

Pentaho
Visualizao atravs do JPivot

SpagoBI

Suite que engloba todos as etapas do processo de BI. Desde o ETC chegando at as ferramentas de Data Mining Ferramentas adicionadas como componentes dentro de um portal

SpagoBI
Arquitetura

SpagoBI
Instalao
Arquivo executvel instala o Portal e os componentes necessrios para o funcionamento da plataforma.

Spago BI

BEE Project

Suite que reune uma ferramenta ETC, um servidor OLAP e duas opes de cliente, um desktop e um web

20

BEE Project
A instalao do BEE Project a mais complexa entre as ferramentas analisadas, e exige, entre outros, a compilao do cdigo fonte PERL. Alm disso a documentao muito deficiente o que dificulta e toma muito tempo. Por esses motivos esse trabalho analisou o BEE project apenas atravs da documentao disponvel e a instalao no foi realizada.

BEE Project

Comparativo de ferramentas livres


(Giovani Caruso McDonald e Joo Rubik, UFSC) Rubik,
Ferramenta Categoria Mondrian Servidor OpenI Cliente Jpivot Cliente Pentaho Sute Bee Project Sute POSIX (Linux/BSD/ UNIX similares), Linux Spago BI Sute

Comparativo de ferramentas livres


(Giovani Caruso McDonald e Joo Rubik, UFSC) Rubik,

Pentaho Mondrian Mtodo de Armazenam ento JPivot OpenI No se Aplica Rolap No se Aplica No se Aplica

BEE Project

SpagoBI

No se Aplica

No se Aplica

Sistema Operacional Ling. de desenv. Licena

Varias (JVM)

Varias (JVM)

Varias (JVM)

Varias (JVM)

Varias (JVM)

Formas de Conexo Disponveis Linguagem de Consulta Formas de Conexo com Servidor Gerencia de anlises

XMLA, JDBC

No se Aplica

No se Aplica

No se Aplica

No se Aplica

No se Aplica

Java CPL Pouco Amigavel

Java OPL Muito Amigavel

Java CPL

Java PPL Muito Amigavel

C, Perl GPL Pouco Amigvel Perl DBI/DBD, MySQL, Oracle, PostgreSQL (pgsql)

Java GPL

MDX

MDX

MDX

No se Aplica

No se Aplica

No se Aplica

Usabilidade

Amigvel

Amigvel

No se Aplica No se Aplica No se aplica

XML/A, JDBC Sim No se aplica

XML/A, JDBC No No se aplica

No se Aplica Sim Mondrian

No se Aplica Sim

No se Aplica Sim Mondrian

SGBD suportado

JDBC (todos)

No se Aplica

No se Aplica

JDBC (todos)

JDBC (todos)

Componente Servidor

Ferramentas proprietrias
Microsoft (SQL Server + Analysis Services) Oracle IBM Informix Cartelon NCR Red Brick Sybase SAS Microstrategy Corporation Pentaho verso comercial :
125

Tpicos
Conceitos bsicos


Sistemas de Suporte Deciso Data Warehouses (DWs)


OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

Alguns temas de pesquisa atuais em DWs


Concluses e referncias para estudos adicionais

21

DWs espaciais
Problemas em aberto:
Integrao do modelo dimensional com algum modelo espacial:
Modelagem Operadores Implementao de sistemas integrados

Operadores e funes de agregao em DW


Operadores: Agregao/desagregao: Roll-up, Drill-down, group by Seleo/projeo: Pivot, Slice e Dice Funes de agregao: Distributivas: contagem, mnimo, mximo, soma Algbricas: mdia, desvio padro Holsticas: mediana, maior freqncia, rank

Integrao de dados em aplicaes Gerao de datamarts

Operadores em SIG
Operadores: Egenhofer props:
disjunto de ... encontram... igual a ... dentro de ... contm ... cobre ... coberto por ... sobreposio

Classificao de Operadores em SIG


De acordo com o nmero de operandos:
Unrios Binrios N-rios

De acordo com o tipo do dado retornado:


Booleano Escalar Espacial

Operadores em SIG
Unrio com resultado espacial:

Operadores em SIG
Binrio com resultado escalar: Distncia rea

Ex.: Municpios ao redor de Campo Belo do Sul

Ex.: Qual a distncia de Lages at Vargem ? Resp. 64 km

22

Funes de agregao em DWs espaciais


(Joel Silva, UFPE, 2008)

Funes de agregao em DWs espaciais


(Joel Silva, UFPE, 2008) Holstica escalar:

Proposta de nova classificao Funes de agregao classificadas de acordo com o tipo da funo e com o tipo de retorno: Distributivas, Algbricas e Holsticas X Escalar e Espacial

RankArea(), RankPerimeter(), MedianArea(), ModeArea()

Ex.: A partir de uma figura (A), indicar as reas em um ranking (B)

Funes de agregao em DWs espaciais


(Joel Silva, UFPE, 2008) Distributiva escalar:
CountTouches(), CountAt_North_of(), MaxIntersects(), MinAt_North()

Funes de agregao em DWs espaciais


(Joel Silva, UFPE, 2008) Distributiva espacial:
SumTouches(), SumAt_North_Of(), SumAt_North_West_Of(), SumDisjoint()

Algbrica escalar:
AvgArea(), StdvPerimeter(), MaxNArea()

Algbrica espacial:
MaxNAt_North_Of(), MaxNAt_South_Of() :
Ex.: A partir de uma figura (A), indicar quantos objetos tocam e quantos esto disjuntos (B)

Integrando FerramentasConcluso e SIG OLAP - Trabalhos relacionados (Carlos Eduardo Costa e Jos Felipe Neis, UFSC, 2007) Neis,

- Introduo - Motivao - Abordagem - Soluo

Visualizando dados em- mapas - Trabalhos relacionados Concluso

- Introduo - Motivao - Abordagem - Soluo

(Miguel Soares e Nuno Santos, ISCTE-Lisboa e UFSC, 2008) ISCTE-

Vista tabular

Vista geogrfica

Miguel Soares, Nuno Santos, Renato Fileto

23

Visualizando dados em- mapas - Trabalhos relacionados Concluso

- Introduo - Motivao - Abordagem - Soluo

(Miguel Soares e Nuno Santos, ISCTE-Lisboa e UFSC, 2008) ISCTE-

Extenses Extenses espaciais em DWs


(Francisco M. Arboletta, Univ. Colombia Medelin, 2009) Arboletta, Medelin,

Miguel Soares, Nuno Santos, Renato Fileto

Extenses Extenses espaciais em DWs


(Francisco M. Arboletta, Un. Colombia Medelin, 2009) Arboletta, Medelin,

Extenses Extenses espaciais em DWs


(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

Reclassificaes no tempo
(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

Esquema sem reclassificaes


(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

AC Milan [Jan 2000, Dec 2000]

Atltico de Madrid [Aug 2002, Sep 2003] Fabricio Coloccini

AC Milan

[Oct 2004, Dec 2004]

24

Reclassificaes com granularidade


(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

Histrico de Reclassificaes
(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

= Year = Month = Year


Evolution of the assignments of player P1 to teams

Levels of the Time dimension

Measures

Consultas Temporada (Season Queries)


(Francisco M. Arboletta, Un. Colombia Medelin , 2009) Arboletta, 2009)

Tpicos
Conceitos bsicos


What was the total number of goals scored by P1 in his first and last seasons in Team1? In his first three seasons in Team1? In his last two seasons in Team1? Which was the season (dates, number of season, and team), where the total number of goals scored by P1 was the highest? What was the total and average number of goals scored by each player in each season for each team?

Sistemas de Suporte Deciso Data Warehouses (DWs)


OLTP vs. OLAP Modelo Dimensional e operadores OLAP (drill-down, roll-up, etc.) Diretrizes gerais, fases do desenvolvimento e tarefas envolvidas Estudo de Caso: DWs para a agricultura

Planejando, projetando e implementando DWs Padres e ferramentas para a implementao de DWs


Principais componentes e padres para DWs Ferramentas abertas e proprietrias para DWs DWs com extenses espaciais e temporais Semntica em DWs

Alguns temas de pesquisa atuais em DWs


Concluses e referncias

Concluses
DWs permitem a integrao de dados e a execuo de anlises detalhadas e dinmicas (OLAP) da informao, na forma de tabelas, grficos e mapas para apoio tomada de deciso A disponibilidade de ferramentas livres ou de baixo custo para a implementao de DWs abre oportunidades para a aplicao desta tecnologia em pequenos e mdios empreendimentos Aconselha-se o desenvolvimento de DWs de forma gradual, ao invs de tentar alcanar todos os objetivos de uma nica vez

Concluses (II)
Padres de sistemas abertos possibilitam a interoperabilidade de componentes na Web (SGBDs, servidores OLAP, servidores e interfaces para tabelas, grficos e mapas, etc.) Diversas aplicaes requerem tratamento especial das dimenses espao e tempo, gerando desafios na integrao com GIS e uso de tcnicas de BDs temporais Semntica pode auxiliar na integrao de dados e projeto de aplicaes de DWs (e.g., gerao de DMs)

25

Links teis
Sutes de ferramentas para DWs
http://www.pentaho.org/ http://spagobi.objectweb.org/ http://www.microsoft.com/sqlserver/2008/en/us/default.aspx http://www.microsoft.com/sqlserver/2008/en/us/wp-sql-2008analysis-services.aspx http://openi.sourceforge.net

Links teis (II)


Outras ferramentas (algumas embutidas em sutes)
http://mondrian.sourceforge.net http://jpivot.sourceforge.net/ http://sourceforge.net/projects/bee/ (MySQL) http://www.r-project.org/ http://www.eclipse.org/birt/phoenix/ http://rubik.sourceforge.net/jrubik/intro.html http://www.jfree.org/jfreechart/ (grficos) http://jasperreports.sourceforge.net/ http://www.palo.net/ http://kettle.pentaho.org/

Links teis (III)


Padres para conexo com servidores OLAP MDX
http://www.xmlforanalysis.com/mdx.htm http://www.databasejournal.com/features/mssql/article.php/1495511

Referncias bibliogrficas
Inmon, W.H. Tech Topic: What is a Data Warehouse? Prism Solutions. Volume 1. 1995. Kimball. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", Wiley, 2002. Kimball, et al. The Data Warehouse Lifecycle Toolkit, Wiley, 1998. Kimball and Caserta. The Data Warehouse ETL Toolkit, Wiley. 2004. Bernard Lupin. Try OLAP! 2007. Daniel Lemire. Data Warehousing and OLAP - A Research-Oriented Bibliography, 2007.

XMLA
http://www.xmla.org http://www.xmlforanalysis.com/ http://msdn2.microsoft.com/en-us/library/ms187178.aspx

Gray, Jim; Bosworth, Adam; Layman, Andrew; Priahesh, Hamid. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals. Proceedings of the 12th International Conference on Data Engineering. IEEE., 1995. 152-159. Gartner Reveals Five Business Intelligence Predictions for 2009 and Beyond. http://www.gartner.com/it/page.jsp?id=856714.

26

Das könnte Ihnen auch gefallen