Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Sommersemester 2011
Melanie Herschel
melanie.herschel@uni-tuebingen.de
Teilsichten über DW
Data Data Data
...
Mart 1 Mart 2 Mart 3
Datenanalyse
Data Warehouse (DW)
Basisrelationen
Data Marts
Daten-
konsolidierung
Konsolidierte Daten
Datenbeschaffung
& Transformation
Basisdaten Transformation (staging area)
Schema
Jahr
2006
Region
Warehouse • Redundanz möglich bzw. erwünscht
2005
2004
2003 ...
• Multidimensionales Modell
North America
Asia
2002 Europe
Books CDs DVDs ...
Produktgruppe
(Star-Schema, Snowflake-Schema)
3
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kapitel 3
Datenmodellierung
• Relationale Modellierung
• Modellierungsprozess
4
Ausgangspunkt: Spreadsheet mit 2 Dimensionen
Zeit-Dimension
5
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ... Paris
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
7
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Lyon
Bücher Kinder
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
8
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kombination von 3 Dimensionen
2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal
2010 4. Quartal 1. Quartal2011 Stuttgart
Jan. Feb. März April Mai
1. Quartal Juni Juli Aug.
2. Quartal 3. Sept. Okt Nov.
Quartal Dez. Jan. 1....
4. Quartal Quartal
Belletristik 5 Jan.
3 Feb.5 März
4 April
4 Mai 6 Juni 2010
5 Juli 4 Aug.4Sept.
3 Okt3 Nov. Jan. 2011
7 Dez.4 ... ...
Bücher Kinder
Belletristik 2 5 1. Quartal
2 33 3
5 24 2. 2
Quartal
4 36 54 3. 4Quartal
3 24 2 4. Quartal
3 4
3 73 ... 1. Quartal
4 ...
Fachliteratur 2 2Jan. 2
2 Feb.
2 März
2
3 2April
3 22Mai22Juni33Juli Aug.
42 Sept.
23 2Okt 1
2 Nov. 4Dez.
2 Jan.
2 ... 3 ... ... Paris
Bücher Kinder
Musik Belletristik5
Fachliteratur 2 5 25 3 2
3 4 542 462 452 6242010 5 34 4 32 42 3 37 2 3 14 ...7 2 ... 4 2011
...
2 1.
33 Quartal
322. Quartal
43. Quartal
32 2 44. Quartal
4 ...1. Quartal
2 3 32 2 23 3 3 42 2 3 ...4 3 ...
Medien Bücher Kinder
DVD Musik 2 2
5 5 4 4 36 5 4 3 3 7
BlueRayFachliteratur 2
Jan.
2
2
Feb.
2 2 März
3
22 April
3
22 23
2
Mai
2
Juni
24 2Juli
3 32 Aug.
3 2 Sept.
3
22 2Okt
2 4
2
Nov.
2 2 ...Dez.
4
1
3 ...
Jan.
2 ... ...
Medien DVD
Belletristik 5 5 3 3 5 5 4 4 4 4 6 6 5 5 4 4 4 4 3 3 3 3 7 7 4 ...4 ...
Musik
BlueRay 2 2 2 3 4 2 2 2 4 2 ... Lyon
Bücher
Medien DVDKinder 2 2 2 2 3 3 3 3 2 2 2 2 3 3 3 4 3 3 2 2 2 2 4 4 3 ...3 ...
Fachliteratur 2 2 2 2 2 2 2 2 2 3 2 4 3 2 2 2 2 2 2 4 1 2 ...2 ...
BlueRay
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
9
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Produkt
BlueRay
DVD
3. Dimension: Ort
Musik Ort
Fachliteratur
...
Kinder
ParisLyon
Belletristik Berlin Stuttgart
10
b.
n.
Zeit
rz
i
ril
Ma
...
Fe
Ja
Mä
Dimensionen
• Zwei Anwendungen einer Dimension:
• Diese Hierarchie hat mehrere Ebenen (levels) die jeweils einen für Analysen relevanten
Detailgrad beschreiben.
12
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Dimensionen
Schema einer Dimension
Das Schema einer Dimension D besteht aus einer partiell geordneten Menge von Kategorieattributen
({D1, ..., Dn, TopD; "}), wobei
• " die funktionale Abhängigkeit bezeichnet und
• TopD ein generisches maximales Element in Bezug auf " darstellt, so dass TopD von allen Attributen
funktional bestimmt wird, d.h.
∀ i (1 ! i ! n), Di " TopD.
Des Weiteren existiert genau ein Di, welches alle anderen Kategorienattribute bestimmt und somit die
feinste Granularität einer Dimension vorgibt, d.h.
Dimensionen
2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
14
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Dimensionen
• Grundsätzlich gibt es keine spezifische Reihenfolge der dimensionalen Werte.
• Aber möglich, z.B. Zeit-Dimension, wo Werte laut Zeitachse sortiert werden.
• Einzige notwendige Strukturierung ist die Containment-Beziehung von Werten der
Ebene i in Werten der Ebene i+1
• Z.B. Musik, DVD, BlueRay auf Ebene 1 ∈ Medien auf Ebene 2
• Prinzipiell sind auch mehrere Hierarchien pro Dimension möglich.
• z.B. Kalenderjahr und Bilanzjahr
• Diese teilen sich ein oder mehrere unterste Ebenen (Ebene 0, Ebene 0+1, Ebene
0+1+2, ...) und definieren unterschiedliche höhere Ebenen.
Beispielschema einer Zeitdimension mit mehreren Hierarchien
Zeit
Bilanzjahr Kalenderjahr
Bilanzquartal Kalenderquartal
Monat
Tag
15
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Dimensionen
• Häufige Annahmen:
• Verwendung balancierter Hierarchien
• Jeder Pfad von der Wurzel zu einem Blattknoten hat die gleiche Länge.
• Auf der Instanzebene einer Hierarchie können keine Ebenen übersprungen werden,
es sind nur direkte Eltern-Kind-Verknüpfungen möglich.
• Gibt es z.B. Städte, die Bundesländern zugeordnet sind, so muss jede Stadt
einem Bundesland zugeordnet werden (auch Stadtstaaten wie Berlin, oder
Städte wie Washington DC, die keinem Bundesland zugehören).
• Es gibt genau einen Elternwert pro Kindwert in einer Hierarchie (siehe Definition
von Bäumen).
• Ein Produktwert kann nicht zwei Produktkategorien untegeordnet werden.
• In der Praxis gibt es Möglichkeiten, diese Annahmen zu lockern, diese besprechen wir
in dieser Vorlesung nicht. Wir nehmen stets an, dass diese Annahmen erfüllt sind.
16
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zellen (cells), Fakten (facts), Kennzahlen (measures)
Überblick
2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
Produkt Zellen am
Schnittpunkt der
BlueRay 2 2 ...
Fakten sind nicht Dimensionswerte
leere Zellen DVD
2 2 3 3 2 ...
Musik 5 3 5 4 4 ...
Ort
Fachliteratur 2 2 2 2 2 ...
... Kennzahlen sind
Kinder 2 2 3 3 2 ... Lyon
Paris Werte, die mit
Stuttgart
Belletristik 5 3 5 4 4 ...
Berlin Fakten assoziiert
sind.
.
n.
rz
Zeit
ril
Fe
Ma
Ja
...
Mä
17
Ap
Produkt
BlueRay 2 2 ...
2 2 3 3 2 ...
DVD
Musik 5 3 5 4 4 ...
Ort
Fachliteratur 2 2 2 2 2 ...
...
Kinder 2 2 3 3 2 ... Lyon
Paris
Belletristik 5 3 5 4 4 ... Stuttgart
Berlin
b.
n.
rz
Zeit
ril
Fe
Ma
Ja
...
Mä
18
Ap
• Fakten sind die Objekte, die die Subjekte der geplanten Analysen beschreiben.
• Existiert eine nicht leere Zelle für eine Dimensions-Kombination, so existiert ein Fakt für
diese Kombination; sonst nicht.
• Fakten haben eine Granularität, die den Detailgrad der Information beschreibt.
• Die Granularität wird durch die Assoziation eines Fakts mit einer Ebene der
Dimensionshierarchien bestimmt.
19
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
20
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zellen (cells), Fakten (facts), Kennzahlen (measures)
Kennzahlen
• Eine Kennzahl beschreibt einen Fakt und kann auf Kennzahlen anderer Fakten
basieren.
• Im Allgemeinen kann mehr als eine Kennzahl pro Zelle gesammelt werden.
• z.B. Anzahl Verkäufe und Gesamtumsatz pro Monat, Kategorie und Standort
21
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
• Relationale Modellierung
• Modellierungsprozess
23
Annahmen
• Ziel ist es, einen Datenwürfel, assoziierte Fakten und Kennzahlen im
relationalen Datenmodell darzustellen.
• Gegeben:
24
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Star Schema
Definition
Star Schema
• Ein Star Schema wird durch eine Menge von Dimensionstabellen und einer Faktentabelle
definiert.
• Dimensionstabellen: Für jede Dimension Di ⊆ DS mit Schema (D1, ..., Dk, TopD) existiert eine Tabelle
mit dem relationalen Schema
Di(PK, D1, ..., Dk)
wobei PK ein Primärschlüssel ist und jedes Dj einer Ebene des hierarchischen Schemas Di
(ausgenommen der obersten Ebene TopD) entspricht.
25
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Star Schema
Beispiel
Beispiel eines Star Schemas
Produkt_Dimension Produkt
PID Kategorie Typ
BlueRay
1 Belletristik Bücher
DVD
2 Kinder Bücher
Musik Ort
3 Fachliteratur Bücher Fachliteratur
4 Musik Medien ...
Kinder
ParisLyon
5 DVD Medien Belletristik Berlin Stuttgart
b.
6 BlueRay Medien
n.
Zeit
rz
i
ril
Ma
...
Fe
Ja
Mä
Ap
Faktentabelle
Zeit_Dimension PID ZID OID #Verkäufe Gewinn
ZID Monat Quartal Jahr 1 1 1 5 30 Kennzahlen (Verkäufe & Gewinn) für
1 Jan10 Q1 2010 2010 1 1 2 5 37 Belletristik im Januar 2010 in Stuttgart.
2 Feb10 Q1 2010 2010 1 1 3 5 45
... ... ... ... 1 1 4 5 20
2 1 1 2 33 Alle weiteren Kombinationen von
Ort_Dimension Produktkategorien und Orten im
2 1 2 2 35
Januar. 2010.
OID Stadt 2 1 3 2 40
1 Berlin 2 1 4 2 35
2 Stuttgart ... ... ... ... ... Beginn der Kombinationen für Februar
3 Paris 1 2 1 3 22 2010(danach auch für alle weiteren
4 Lyon ... ... ... ... ... Monate)
26
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Star Schema
Bemerkungen
• Es ist kein Attribut für die Wurzeldimension TopD nötig, da die Werte in allen
Tupeln der entsprechenden Dimensionstabelle gleich wären.
• Schnellere Anfragebearbeitung
27
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Snowflake Schema
Definition
Snowflake Schema
• Ein Snowflake Schema wird durch eine Menge von Dimensionstabellen und einer Faktentabelle
definiert.
• Dimensionstabellen: Für jede Dimension Di ⊆ DS mit Schema (D1, ..., Dk, TopD) existieren k Tabellen
mit dem relationalen Schema
Dij(PK, A1, ..., Am, FKj+1 " Dj+1) für 1 ! j < k
Dik = (PK, A1, ..., Am)
wobei PK ein Primärschlüssel ist und jedes Dij einer Ebene des hierarchischen Schemas Di
entspricht. FKj ist ein Fremdschlüssel auf die Tabelle Dij, wobei 1 < j ! k. A1, ..., Am sind textuelle
Attribute zur Beschreibung relevanter Daten der aktuellen Ebene.
28
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Snowflake Schema
Beispiel
Beispiel eines Snowflake Schemas
Zeit_Monat Produkt_Kategorie Produkt_Typ
ZID Monat QID PID Kategorie TID TID Typ
1 Jan10 1 1 Belletristik 1 1 Bücher
2 Feb10 1 2 Kinder 1 2 Medien
... ... ... 3 Fachliteratur 1
4 Musik 2
5 DVD 2
6 BlueRay 2
Zeit_Quartal Faktentabelle
PID ZID OID #Verkäufe Gewinn
QID Quartal Jahr
1 1 1 5 30
1 Q1 2010 1
1 1 2 5 37
2 Q2 2010 1
1 1 3 5 45
... ... ...
1 1 4 5 20
2 1 1 2 33 Ort
2 1 2 2 35 OID Ort
Zeit_Jahr 2 1 3 2 40
1 Berlin
2 1 4 2 35
JID Jahr 2 Stuttgart
... ... ... ... ...
1 2010 3 Paris
1 2 1 3 22
... ... 4 Lyon
... ... ... ... ...
29
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Snowflake Schema
Bemerkungen
• Wahl zwischen Star und Snowflake Schema hängt stark von den
Anforderungen an die Anwendung ab.
• Auch eine Mischform von Star und Snowflake Schema (Starflake Schema) ist
möglich, d.h., einige Dimensionen in 3NF, andere in 2NF.
30
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Starflake Schema
Beispiel
Beispiel eines Starflake Schemas
Zeit_Dimension Produkt_Kategorie Produkt_Typ
ZID Monat Quartal Jahr PID Kategorie TID TID Typ
1 Jan10 Q1 2010 2010 1 Belletristik 1 1 Bücher
2 Feb10 Q1 2010 2010 2 Kinder 1 2 Medien
... ... ... ... 3 Fachliteratur 1
4 Musik 2
5 DVD 2
6 BlueRay 2
Alle Ebenen der Hierarchie in Faktentabelle
einer Tabelle
! Star Schema Eigenschaft PID ZID OID #Verkäufe Gewinn
Eine Tabelle pro Ebenen der
1 1 1 5 30
Hierarchie
1 1 2 5 37 ! Snowflake Schema Eigenschaft
1 1 3 5 45
1 1 4 5 20
2 1 1 2 33 Ort
2 1 2 2 35 OID Ort
2 1 3 2 40
1 Berlin
2 1 4 2 35
2 Stuttgart
... ... ... ... ...
3 Paris
1 2 1 3 22
4 Lyon
... ... ... ... ...
31
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kapitel 3
Datenmodellierung
• Relationale Modellierung
• Modellierungsprozess
32
Allgemeine Designprinzipien
• Das Modell sollte nicht versuchen, alle möglichen / existierenden Daten und
Beziehungen darzustellen. Nur die für Analysen wichtige Informationen
sollten modelliert werden.
33
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Designprozess
34
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Designprozess
Beispiel
• Schritt 1
• Es existiert ein Geschäftsprozess für (i) Buchverkäufe an Kunden und (ii) Buchkäufe
von Verlagen.
• Prozess (i) ist vermutlich der relevanteste wenn es darum geht, den Profit zu erhöhen.
# Wahl des Buchverkaufsprozess (ii)
• Schritt 2
• (i) Granularität Einzelverkauf pro Buch pro Filiale vs. (ii) Granularität Gesamtverkauf
eines Buchs pro Filiale pro Tag.
• Granularität (ii) ausreichend um Filialen und Bücher zu bewerten, spart Speicherplatz
und beschleunigt die Bearbeitung relevanter Anfragen.
# Wahl der gröberen Granularität (ii)
• Schritt 3: Spezifikation der Dimensionen für Filialen, Bücher und Datum.
• Schritt 4: Definition relevanter Kennzahlen, z.B. Anzahl Verkäufe, Umsatz, Kosten,
Gewinn.
35
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Designprozess
Beispiel
Definition der Dimensionshierarchien und Entwicklung eines entsprechenden Snowflake Schemas
36
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zusammenfassung
• Wichtige Konzepte
• Datenwürfel
• Dimensionen
• Fakten
• Kennzahlen
• Relationale Modellierung
• Star Schema
• Snowflake Schema
37
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen