Sie sind auf Seite 1von 19

Data Warehouses

Sommersemester 2011

Melanie Herschel
melanie.herschel@uni-tuebingen.de

Lehrstuhl für Datenbanksysteme, Universität Tübingen

Data Warehouse Architektur


Data-Warehouse-System

Teilsichten über DW
Data Data Data

...
Mart 1 Mart 2 Mart 3

Datenanalyse
Data Warehouse (DW)

Basisrelationen
Data Marts

DB2 Oracle XML


Datenquellen
Summen- Daten-
daten
Detaildaten bereitstellung
Meta- Dispositive Daten
daten

Daten-
konsolidierung
Konsolidierte Daten
Datenbeschaffung
& Transformation
Basisdaten Transformation (staging area)

Nach Wolfgang Lehner, Datenbanktechnologie für 2


Data Warehouse Systeme, dpunkt.verlag, 2003 Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Relationale vs. Multidimensionale Modellierung

Schema

• Vermeidung von Redundanz / Anomalien


Operative • Schema in 3NF
Datenbank
• Schema unabhängig von der Art der
Anfragen entworfen

Jahr

• Modellierung von Dimensionen und Fakten,


Data basierend auf geplante analytische Anfragen
2007

2006

Region
Warehouse • Redundanz möglich bzw. erwünscht
2005

2004

2003 ...

• Multidimensionales Modell
North America
Asia
2002 Europe
Books CDs DVDs ...
Produktgruppe
(Star-Schema, Snowflake-Schema)

3
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Kapitel 3
Datenmodellierung

• Konzepte & Definitionen

• Relationale Modellierung

• Modellierungsprozess

4
Ausgangspunkt: Spreadsheet mit 2 Dimensionen

Verkaufszahlen nach Zeit und Produkt


2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Produkt-
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
2 2 3 3 2 2 3 3 3 2 2 4 3 ...
Dimension
Medien DVD
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

Zeit-Dimension

5
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Kombination von 3 Dimensionen


Verkaufszahlen nach Zeit und Produkt am Standort Berlin
2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

Verkaufszahlen nach Zeit und Produkt am Standort Stuttgart


2010 2011 Stuttgart
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
6
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kombination von 3 Dimensionen

2010 2011 Berlin


1. Quartal 2. Quartal 3. Quartal
2010 4. Quartal 1. Quartal2011 Stuttgart
Jan. Feb. März April Mai
1. Quartal Juni Juli Aug.
2. Quartal 3. Sept. Okt Nov.
Quartal Dez. Jan. 1....
4. Quartal Quartal
Belletristik 5 Jan.
3 Feb.5 März
4 April
4 Mai
6 Juni
5 Juli4 Aug.4Sept.
3 Okt
3 Nov.
7 Dez.4 ...
Jan. ...
Bücher Kinder 2 2
5 33 3
5 24 24 36 54 43 24 2
3 4
3 73 ... 4 ...
Belletristik
Fachliteratur 2 2
2 22 2
3 23 22 22 33 42 23 2
2 1
2 42 ... 3 ...
Bücher Kinder
Fachliteratur 5
Musik 3
2 25 4
2 42 62 52 24 34 32 3
2 7
2 14 ... 2 ...
Medien DVD Musik 2 2
5 33 3
5 24 24 36 53 43 24 2
3 4
3 73 ... 4 ...
BlueRay 2 2 2
3 23 22 32 34 32 23 2
2 4
2 42 ... 3 ...
Medien DVD
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ... Paris
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
7
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Kombination von 3 Dimensionen


2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal
2010 4. Quartal 1. Quartal2011 Stuttgart
Jan. Feb. März April Mai
1. Quartal Juni Juli Aug.
2. Quartal 3. Sept. Okt Nov.
Quartal Dez. Jan. 1....
4. Quartal Quartal
Belletristik 5 Jan.
3 Feb.5 März
4 April
4 Mai 6 Juni 2010
5 Juli 4 Aug.4Sept.
3 Okt3 Nov. Jan. 2011
7 Dez.4 ... ...
Bücher Kinder
Belletristik 2 5 1. Quartal
2 33 3
5 24 2. 2
Quartal
4 36 54 3. 4Quartal
3 24 2 4. Quartal
3 4
3 73 ... 1. Quartal
4 ...
Fachliteratur 2 2Jan. 2
2 Feb.
2 März
2
3 2April
3 22Mai22Juni33Juli Aug.
42 Sept.
23 2Okt 1
2 Nov. 4Dez.
2 Jan.
2 ... 3 ... ... Paris
Bücher Kinder
Musik Belletristik5
Fachliteratur 2 5 25 3 2
3 4 542 462 452 624 5 34 4 32 42 3 37 2 3 14 ...7 2 ... 4 ...
2 3 2 3 32 32 23 23 3 3 42 32 24 2 3 ...4 3 ...
Medien Bücher Kinder
DVD Musik 2 2
5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Fachliteratur 2 2 2 2 22 22 23 24 2 2 32 22 24 2 2 ...1 2 ...
BlueRay
Medien DVD 2 3 3 2 2 3 3 3 2 2 4 3 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Lyon
Bücher Kinder
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...
8
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kombination von 3 Dimensionen
2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal
2010 4. Quartal 1. Quartal2011 Stuttgart
Jan. Feb. März April Mai
1. Quartal Juni Juli Aug.
2. Quartal 3. Sept. Okt Nov.
Quartal Dez. Jan. 1....
4. Quartal Quartal
Belletristik 5 Jan.
3 Feb.5 März
4 April
4 Mai 6 Juni 2010
5 Juli 4 Aug.4Sept.
3 Okt3 Nov. Jan. 2011
7 Dez.4 ... ...
Bücher Kinder
Belletristik 2 5 1. Quartal
2 33 3
5 24 2. 2
Quartal
4 36 54 3. 4Quartal
3 24 2 4. Quartal
3 4
3 73 ... 1. Quartal
4 ...
Fachliteratur 2 2Jan. 2
2 Feb.
2 März
2
3 2April
3 22Mai22Juni33Juli Aug.
42 Sept.
23 2Okt 1
2 Nov. 4Dez.
2 Jan.
2 ... 3 ... ... Paris
Bücher Kinder
Musik Belletristik5
Fachliteratur 2 5 25 3 2
3 4 542 462 452 6242010 5 34 4 32 42 3 37 2 3 14 ...7 2 ... 4 2011
...
2 1.
33 Quartal
322. Quartal
43. Quartal
32 2 44. Quartal
4 ...1. Quartal
2 3 32 2 23 3 3 42 2 3 ...4 3 ...
Medien Bücher Kinder
DVD Musik 2 2
5 5 4 4 36 5 4 3 3 7
BlueRayFachliteratur 2
Jan.
2
2
Feb.
2 2 März
3
22 April
3
22 23
2
Mai
2
Juni
24 2Juli
3 32 Aug.
3 2 Sept.
3
22 2Okt
2 4
2
Nov.
2 2 ...Dez.
4
1
3 ...
Jan.
2 ... ...
Medien DVD
Belletristik 5 5 3 3 5 5 4 4 4 4 6 6 5 5 4 4 4 4 3 3 3 3 7 7 4 ...4 ...
Musik
BlueRay 2 2 2 3 4 2 2 2 4 2 ... Lyon
Bücher
Medien DVDKinder 2 2 2 2 3 3 3 3 2 2 2 2 3 3 3 4 3 3 2 2 2 2 4 4 3 ...3 ...
Fachliteratur 2 2 2 2 2 2 2 2 2 3 2 4 3 2 2 2 2 2 2 4 1 2 ...2 ...
BlueRay
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

9
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Kombination von 3 Dimensionen


2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal
2010 4. Quartal 1. Quartal2011 Stuttgart
Jan. Feb. März April Mai
1. Quartal Juni Juli Aug.
2. Quartal 3. Sept. Okt Nov.
Quartal Dez. Jan. 1....
4. Quartal Quartal
Belletristik 5 Jan.
3 Feb.5 März
4 April
4 Mai 6 Juni 2010
5 Juli 4 Aug.4Sept.
3 Okt3 Nov. Jan. 2011
7 Dez.4 ... ...
Bücher Kinder
Belletristik 2 5 1. Quartal
2 33 3
5 24 2. 2
Quartal
4 36 54 3. 4Quartal
3 24 2 4. Quartal
3 4
3 73 ... 1. Quartal
4 ...
Fachliteratur 2 2Jan. 2
2 Feb.
2 März
2
3 2April
3 22Mai22Juni33Juli Aug.
42 Sept.
23 2Okt 1
2 Nov. 4Dez.
2 Jan.
2 ... 3 ... ... Paris
Bücher Kinder
Musik Belletristik5
Fachliteratur 2 5 25 3 2
3 4 542 462 452 6242010 5 34 4 32 42 3 37 2 3 14 ...7 2 ... 4 2011
...
2 1.
33 Quartal
322. Quartal
43. Quartal
32 2 44. Quartal
4 ...1. Quartal
2 3 32 2 23 3 3 42 2 3 ...4 3 ...
Medien Bücher Kinder
DVD Musik 2 2
5 5 4 4 36 5 4 3 3 7
BlueRayFachliteratur 2
Jan.
2
2
Feb.
2 2 März
3
22 April
3
22 23
2
Mai
2
Juni
24 2Juli
3 32
Aug.
3 2 Sept.
3
22 2Okt
2 4
2
Nov.
2 2 ...Dez.
4
1
3 ...
Jan.
2 ... ...
Medien DVD
5 3 3 5 5 4 44 4 6 65 5 4 4
Belletristik 4 4 3 3 3 3 7 7 4 ...4 ...
Musik
BlueRay
5
2 2
2 2
2 3 3 3 32
2 3 4 2
2 2 23 3 3 4
2 2 4 2 ... Lyon
Bücher
Medien Kinder
DVD 2 3 3 2 2 2 2 4 4 3 ...3 ...
Fachliteratur 2 2 2 2 22 2 2 23 2 4 3 2 2 2 2 2 2 4 1 2 ...2 ...
BlueRay
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

Produkt
BlueRay
DVD
3. Dimension: Ort
Musik Ort
Fachliteratur
...
Kinder
ParisLyon
Belletristik Berlin Stuttgart
10
b.
n.

Zeit
rz

i
ril
Ma
...
Fe
Ja

Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen


Ap
Datenwürfel (cube)
• Bisher
• Zwei Dimensionen durch ein Spreadsheet darstellbar
• Drei Dimensionen können als Stack mehrerer 2D-Spreadsheets gesehen werden
! 3D Datenwürfel, engl. cube
• Im Allgemeinen können wir mehr als drei Dimensionen betrachten (graphisch nur
schwer darstellbar).
• Auch eine Struktur mit mehr als drei Dimensionen wird cube (auch hypercube) genannt.
(Hyper)cube
Ein Datenwürfel, engl. cube (auch hypercube) ist eine multidimensionale Datenstruktur, die die
Speicherung und Analyse von Daten nach n Dimensionen zulässt.
Das Schema eines n-dimensionalen Datenwürfels CS besteht aus der Menge der dimensionalen
Schemata DS und Kennzahlen M (Definitionen siehe folgende Folien), d.h.
CS = (DS, M) = ({D1, ..., Dn}, {M1, ..., Mm})
Ein Datenwürfel C ist eine Instanz eines Würfelschemas CS = (DS, M), wobei
C = dom(DS) x dom(M)
• Bemerkung: die Werte dom(DS) geben die Koordinaten der Werte dom(M) an.
11
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Dimensionen
• Zwei Anwendungen einer Dimension:

• Auswahl beschreibender Daten

• Gruppierung beschreibender Daten im gewünschten Detailgrad

• Eine Dimension wird als containment-hierarchy definiert.

• Diese Hierarchie hat mehrere Ebenen (levels) die jeweils einen für Analysen relevanten
Detailgrad beschreiben.

• Die oberste Ebene (Wurzel) beschreibt die gesamte Dimension.

• Manche Hierarchie speichert auch level properties, die einfache, nicht-hierarchische


Informationen pro Ebene speichern (z.B. Anzahl Einwohner pro Stadt in Ortdimension)

12
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Dimensionen
Schema einer Dimension
Das Schema einer Dimension D besteht aus einer partiell geordneten Menge von Kategorieattributen
({D1, ..., Dn, TopD; "}), wobei
• " die funktionale Abhängigkeit bezeichnet und
• TopD ein generisches maximales Element in Bezug auf " darstellt, so dass TopD von allen Attributen
funktional bestimmt wird, d.h.
∀ i (1 ! i ! n), Di " TopD.

Des Weiteren existiert genau ein Di, welches alle anderen Kategorienattribute bestimmt und somit die
feinste Granularität einer Dimension vorgibt, d.h.

∃ i (1 ! i ! n) ∀ j (1 ! j ! n, i " j): Di " Dj

Hierarchie (Schema und Instanz) der Produktdimension


Grob
Produkte
Produkte
Granularität
Typen Bücher Medien

Kategorien Belletristik Kinder Fachliteratur Musik DVD BlueRay


Fein
Schema Instanz
13
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Dimensionen

2010 2011
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...

Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...


Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...

Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...

Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...


BlueRay 2 2 2 3 4 2 2 2 4 2 ...

Hierarchie (Schema und Instanz) der Zeitdimension

14
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Dimensionen
• Grundsätzlich gibt es keine spezifische Reihenfolge der dimensionalen Werte.
• Aber möglich, z.B. Zeit-Dimension, wo Werte laut Zeitachse sortiert werden.
• Einzige notwendige Strukturierung ist die Containment-Beziehung von Werten der
Ebene i in Werten der Ebene i+1
• Z.B. Musik, DVD, BlueRay auf Ebene 1 ∈ Medien auf Ebene 2
• Prinzipiell sind auch mehrere Hierarchien pro Dimension möglich.
• z.B. Kalenderjahr und Bilanzjahr
• Diese teilen sich ein oder mehrere unterste Ebenen (Ebene 0, Ebene 0+1, Ebene
0+1+2, ...) und definieren unterschiedliche höhere Ebenen.
Beispielschema einer Zeitdimension mit mehreren Hierarchien
Zeit

Bilanzjahr Kalenderjahr

Bilanzquartal Kalenderquartal

Monat

Tag
15
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Dimensionen
• Häufige Annahmen:
• Verwendung balancierter Hierarchien
• Jeder Pfad von der Wurzel zu einem Blattknoten hat die gleiche Länge.
• Auf der Instanzebene einer Hierarchie können keine Ebenen übersprungen werden,
es sind nur direkte Eltern-Kind-Verknüpfungen möglich.
• Gibt es z.B. Städte, die Bundesländern zugeordnet sind, so muss jede Stadt
einem Bundesland zugeordnet werden (auch Stadtstaaten wie Berlin, oder
Städte wie Washington DC, die keinem Bundesland zugehören).
• Es gibt genau einen Elternwert pro Kindwert in einer Hierarchie (siehe Definition
von Bäumen).
• Ein Produktwert kann nicht zwei Produktkategorien untegeordnet werden.

• In der Praxis gibt es Möglichkeiten, diese Annahmen zu lockern, diese besprechen wir
in dieser Vorlesung nicht. Wir nehmen stets an, dass diese Annahmen erfüllt sind.

16
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zellen (cells), Fakten (facts), Kennzahlen (measures)
Überblick
2010 2011 Berlin
1. Quartal 2. Quartal 3. Quartal 4. Quartal 1. Quartal
Jan. Feb. März April Mai Juni Juli Aug. Sept. Okt Nov. Dez. Jan. ...
Belletristik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Bücher Kinder 2 2 3 3 2 2 3 4 3 2 2 4 3 ...
Fachliteratur 2 2 2 2 2 2 2 3 2 2 2 1 2 ...
Musik 5 3 5 4 4 6 5 4 4 3 3 7 4 ...
Medien DVD 2 2 3 3 2 2 3 3 3 2 2 4 3 ...
BlueRay 2 2 2 3 4 2 2 2 4 2 ...

Produkt Zellen am
Schnittpunkt der
BlueRay 2 2 ...
Fakten sind nicht Dimensionswerte
leere Zellen DVD
2 2 3 3 2 ...

Musik 5 3 5 4 4 ...
Ort
Fachliteratur 2 2 2 2 2 ...
... Kennzahlen sind
Kinder 2 2 3 3 2 ... Lyon
Paris Werte, die mit
Stuttgart
Belletristik 5 3 5 4 4 ...
Berlin Fakten assoziiert
sind.
.
n.

rz

Zeit
ril
Fe

Ma
Ja

...

17
Ap

Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Zellen (cells), Fakten (facts), Kennzahlen (measures)


Überblick
Interpretation von Fakten & Interpretation leerer Zellen

Produkt

BlueRay 2 2 ...

2 2 3 3 2 ...
DVD

Musik 5 3 5 4 4 ...
Ort
Fachliteratur 2 2 2 2 2 ...
...
Kinder 2 2 3 3 2 ... Lyon
Paris
Belletristik 5 3 5 4 4 ... Stuttgart
Berlin
b.
n.

rz

Zeit
ril
Fe

Ma
Ja

...

18
Ap

Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen


Zellen (cells), Fakten (facts), Kennzahlen (measures)
Fakten

• Fakten sind die Objekte, die die Subjekte der geplanten Analysen beschreiben.

• Z.B., Verkaufszahlen, Umsätze, ...

• Fakten werden implizit durch ihre Dimensions-Kombination definiert

• Z.B. Verkaufszahlen nach Monat, Kategorie und Standort

• Existiert eine nicht leere Zelle für eine Dimensions-Kombination, so existiert ein Fakt für
diese Kombination; sonst nicht.

• Fakten haben eine Granularität, die den Detailgrad der Information beschreibt.

• Die Granularität wird durch die Assoziation eines Fakts mit einer Ebene der
Dimensionshierarchien bestimmt.

• Die Granularität ist feiner, je näher diese Ebene der Blattebene.


Z.B. Kategorie pro Monat pro Stadt

• Die Granularität is gröber, je näher diese Ebene der Wurzel.


Z.B. Produkt pro Jahr pro Land

19
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Zellen (cells), Fakten (facts), Kennzahlen (measures)


Fakten

Ereignis-Fakt (event fact) Beispiele von Ereignis-Fakten


• Modelliert Ereignisse der realen Welt • Ein Fakt für jeden Verkauf eines bestimmten
(zumindest auf der Ebene der feinsten Buchs (feine Granularität)
Granularität).
• Ein Fakt für jeden Tag, an dem mindestens
• Es existiert genau ein Fakt für jedes eine Kopie eines bestimmten Buchs verkauft
bestimmte Ereignis des reale-Welt-Prozesses. wurde (grobe Granularität)
• Ereignisse können im Prinzip unabhängig und • Ein Verkauf (Fakt) ist genau an einen
zu jeder Zeit auftreten. Zeitpunkt, Ort und ein Produkt gebunden.

Snapshot-Fakt (snapshot fact) Beispiele von Ereignis-Fakten

• Modelliert den aktuellen Status eines


Prozesses. • Lagerbestand pro Produkt pro Lager.
• Das gleiche Objekt (mit dem sich der Prozess • Das gleiche Produkt kann zu mehreren Fakten
befasst) kann in mehreren Fakten zu beitragen, da z.B. die gleiche CD sowohl im
verschiedenen Zeitpunkten auftreten. Mai als auch im Juni auf Lager sein kann und
somit zu beiden Lagerbeständen beiträgt.
• Wird oft periodisch erfasst.

20
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zellen (cells), Fakten (facts), Kennzahlen (measures)
Kennzahlen

• Eine Kennzahl beschreibt einen Fakt und kann auf Kennzahlen anderer Fakten
basieren.

• Daher hat eine Kennzahl zwei Bestandteile

• Eine numerische Eigenschaft des beschriebenen Fakts


z.B. Verkaufspreis, Profit, ...

• Eine Formel (auch Berechnungsvorschrift) zur Kombination mehrerer Kennzahlen

• Skalarfunktionen, z.B. Umsatzsteueranteil = Menge x Preis x Steuersatz

• Aggregationsfunktionen, z.B. SUM, AVG, Standardabweichung

• Ordnungsbasierte Funktionen, z.B. Kumulation, Top-k Berechnung

• Eine Kennzahl hat stets einen numerischen Datentyp.

• Im Allgemeinen kann mehr als eine Kennzahl pro Zelle gesammelt werden.

• z.B. Anzahl Verkäufe und Gesamtumsatz pro Monat, Kategorie und Standort

21
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Zellen (cells), Fakten (facts), Kennzahlen (measures)


Kennzahlen

• Genau wei Fakten besitzen auch Kennzahlen eine gewisse Granularität.


• Frage: wie leitet man eine Kennzahl für eine andere Granularität (= Kennzahl eines Fakts
anderer Granularität) ab?
• Antwort: auch dafür wird eine der Kennzahl zugeordnete Formel verwendet.
• Aber: Dies ist nicht immer möglich, wir unterscheiden drei Möglichkeiten:
• Additive Kennzahlen: Kennzahlen, die entlang jeder Dimension aggregiert werden
können.
Z.B. macht es Sinn, Verkaufszahlen über alle drei Dimensionen Ort, Zeit und Produkt zu
summieren (daraus ergibt sich der Gesamtverkauf).
• Semi-additive Kennzahlen: Kennzahlen, die mindestens entlang einer Dimension nicht
aggregiert werden können.
Oft der Fall bei Snapshot-Fakten, z.B. macht es keinen Sinn, Lagerbestand pro Monat
aufzusummieren um Jahresbestand zu berechnen (das Ergebnis entspricht keinem Fakt).
• Nicht-additive Kennzahlen: Kennzahlen, deren Aggregation entlang keiner Dimension
Sinn macht.
Z.B. Lässt sich ein Durchschnittswert auf Ebene i nicht durch Durchschnittswerte auf
Ebene i+1 berechnen, egal entlang welcher Dimension.
22
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Kapitel 3
Datenmodellierung

• Konzepte & Definitionen

• Relationale Modellierung

• Modellierungsprozess

23

Annahmen
• Ziel ist es, einen Datenwürfel, assoziierte Fakten und Kennzahlen im
relationalen Datenmodell darzustellen.

• Gegeben:

• Schema eines Datenwürfels CS = (DS, M), wobei

• DS = {D1, ..., Dn} die Menge der n Dimensionsschemata

• M = {N1, ..., Mm} die Menge der Kennzahlen

24
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Star Schema
Definition

Star Schema

• Ein Star Schema wird durch eine Menge von Dimensionstabellen und einer Faktentabelle
definiert.
• Dimensionstabellen: Für jede Dimension Di ⊆ DS mit Schema (D1, ..., Dk, TopD) existiert eine Tabelle
mit dem relationalen Schema
Di(PK, D1, ..., Dk)
wobei PK ein Primärschlüssel ist und jedes Dj einer Ebene des hierarchischen Schemas Di
(ausgenommen der obersten Ebene TopD) entspricht.

• Faktentabelle: die Faktentabelle F entspricht dem Schema


F(FK1 " D1.PK, ..., FKn " Dn.PK, M1, ..., Mm)
das einen Fremdschlüssel FKi zu jeder der n Dimensionstabellen beinhaltet und ein Attribut pro
Kennzahl speichert. Die Kombination aller Fremdschlüssel ergibt den Primärschlüssel der
Faktentabelle.

25
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Star Schema
Beispiel
Beispiel eines Star Schemas
Produkt_Dimension Produkt
PID Kategorie Typ
BlueRay
1 Belletristik Bücher
DVD
2 Kinder Bücher
Musik Ort
3 Fachliteratur Bücher Fachliteratur
4 Musik Medien ...
Kinder
ParisLyon
5 DVD Medien Belletristik Berlin Stuttgart
b.

6 BlueRay Medien
n.

Zeit
rz

i
ril
Ma
...
Fe
Ja

Ap

Faktentabelle
Zeit_Dimension PID ZID OID #Verkäufe Gewinn
ZID Monat Quartal Jahr 1 1 1 5 30 Kennzahlen (Verkäufe & Gewinn) für
1 Jan10 Q1 2010 2010 1 1 2 5 37 Belletristik im Januar 2010 in Stuttgart.
2 Feb10 Q1 2010 2010 1 1 3 5 45
... ... ... ... 1 1 4 5 20
2 1 1 2 33 Alle weiteren Kombinationen von
Ort_Dimension Produktkategorien und Orten im
2 1 2 2 35
Januar. 2010.
OID Stadt 2 1 3 2 40
1 Berlin 2 1 4 2 35
2 Stuttgart ... ... ... ... ... Beginn der Kombinationen für Februar
3 Paris 1 2 1 3 22 2010(danach auch für alle weiteren
4 Lyon ... ... ... ... ... Monate)
26
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Star Schema
Bemerkungen

• Redundanz in Dimensionstabellen, die typischerweise in 2NF gehalten


werden.

• Im Vergleich zur Faktentabelle sind die Dimensionstabellen klein, daher führt


die Redundanz nicht zu signifikanten Speicherverschwendungen.

• Die Faktentabelle weist die 3NF auf.

• Es ist kein Attribut für die Wurzeldimension TopD nötig, da die Werte in allen
Tupeln der entsprechenden Dimensionstabelle gleich wären.

• Werte des Schlüssel einer Dimensionstabelle sind üblicherweise generierte


Werte (surrogate keys) ohne bestimme Semantik.

• Weniger Speicherbedarf, als z.B. eine ISBN als ProduktID

• Schnellere Anfragebearbeitung
27
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Snowflake Schema
Definition

Snowflake Schema
• Ein Snowflake Schema wird durch eine Menge von Dimensionstabellen und einer Faktentabelle
definiert.
• Dimensionstabellen: Für jede Dimension Di ⊆ DS mit Schema (D1, ..., Dk, TopD) existieren k Tabellen
mit dem relationalen Schema
Dij(PK, A1, ..., Am, FKj+1 " Dj+1) für 1 ! j < k
Dik = (PK, A1, ..., Am)
wobei PK ein Primärschlüssel ist und jedes Dij einer Ebene des hierarchischen Schemas Di
entspricht. FKj ist ein Fremdschlüssel auf die Tabelle Dij, wobei 1 < j ! k. A1, ..., Am sind textuelle
Attribute zur Beschreibung relevanter Daten der aktuellen Ebene.

• Faktentabelle: die Faktentabelle F entspricht dem Schema


F(FK1 " D11.PK, ..., FKn " Dn1.PK, M1, ..., Mm)
das einen Fremdschlüssel FKi zu jeder der n Dimensionstabellen feinster Granularität beinhaltet und
ein Attribut pro Kennzahl speichert. Die Kombination aller Fremdschlüssel ergibt den
Primärschlüssel der Faktentabelle.

28
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Snowflake Schema
Beispiel
Beispiel eines Snowflake Schemas
Zeit_Monat Produkt_Kategorie Produkt_Typ
ZID Monat QID PID Kategorie TID TID Typ
1 Jan10 1 1 Belletristik 1 1 Bücher
2 Feb10 1 2 Kinder 1 2 Medien
... ... ... 3 Fachliteratur 1
4 Musik 2
5 DVD 2
6 BlueRay 2

Zeit_Quartal Faktentabelle
PID ZID OID #Verkäufe Gewinn
QID Quartal Jahr
1 1 1 5 30
1 Q1 2010 1
1 1 2 5 37
2 Q2 2010 1
1 1 3 5 45
... ... ...
1 1 4 5 20
2 1 1 2 33 Ort
2 1 2 2 35 OID Ort
Zeit_Jahr 2 1 3 2 40
1 Berlin
2 1 4 2 35
JID Jahr 2 Stuttgart
... ... ... ... ...
1 2010 3 Paris
1 2 1 3 22
... ... 4 Lyon
... ... ... ... ...
29
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Snowflake Schema
Bemerkungen

• Redundanz in Dimensionstabellen duch Normalisierung vermieden.

• Anfragebearbeitung schwieriger, da mehr Joins notwendig werden.

• Mehrere Dimensionstabellen liefern eine explizite Darstellung der


Dimensionshierarchien.

• Wahl zwischen Star und Snowflake Schema hängt stark von den
Anforderungen an die Anwendung ab.

• Auch eine Mischform von Star und Snowflake Schema (Starflake Schema) ist
möglich, d.h., einige Dimensionen in 3NF, andere in 2NF.

30
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Starflake Schema
Beispiel
Beispiel eines Starflake Schemas
Zeit_Dimension Produkt_Kategorie Produkt_Typ
ZID Monat Quartal Jahr PID Kategorie TID TID Typ
1 Jan10 Q1 2010 2010 1 Belletristik 1 1 Bücher
2 Feb10 Q1 2010 2010 2 Kinder 1 2 Medien
... ... ... ... 3 Fachliteratur 1
4 Musik 2
5 DVD 2
6 BlueRay 2
Alle Ebenen der Hierarchie in Faktentabelle
einer Tabelle
! Star Schema Eigenschaft PID ZID OID #Verkäufe Gewinn
Eine Tabelle pro Ebenen der
1 1 1 5 30
Hierarchie
1 1 2 5 37 ! Snowflake Schema Eigenschaft
1 1 3 5 45
1 1 4 5 20
2 1 1 2 33 Ort
2 1 2 2 35 OID Ort
2 1 3 2 40
1 Berlin
2 1 4 2 35
2 Stuttgart
... ... ... ... ...
3 Paris
1 2 1 3 22
4 Lyon
... ... ... ... ...
31
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Kapitel 3
Datenmodellierung

• Konzepte & Definitionen

• Relationale Modellierung

• Modellierungsprozess

32
Allgemeine Designprinzipien

• Zwei wesentliche Unterschiede zur Datenmodellierung im “klassischen”


relationalen Modell.

• Das Modell sollte nicht versuchen, alle möglichen / existierenden Daten und
Beziehungen darzustellen. Nur die für Analysen wichtige Informationen
sollten modelliert werden.

• Redundanz ist an wenigen, ausgewählten Stellen (Dimensionstabellen)


akzeptabel.

33
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Designprozess

Designprozess (nach Kimball) in vier Schritten:

1.Wähle Geschäftsprozess(e) aus, die zu modellieren sind.

2.Wähle die Granularität des Geschäftsprozesses.

3.Entwerfe die Dimensionen.

4.Wähle die Kennzahlen.

34
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Designprozess
Beispiel

Designprozess im Fall eines Buchhandels

• Schritt 1
• Es existiert ein Geschäftsprozess für (i) Buchverkäufe an Kunden und (ii) Buchkäufe
von Verlagen.
• Prozess (i) ist vermutlich der relevanteste wenn es darum geht, den Profit zu erhöhen.
# Wahl des Buchverkaufsprozess (ii)
• Schritt 2
• (i) Granularität Einzelverkauf pro Buch pro Filiale vs. (ii) Granularität Gesamtverkauf
eines Buchs pro Filiale pro Tag.
• Granularität (ii) ausreichend um Filialen und Bücher zu bewerten, spart Speicherplatz
und beschleunigt die Bearbeitung relevanter Anfragen.
# Wahl der gröberen Granularität (ii)
• Schritt 3: Spezifikation der Dimensionen für Filialen, Bücher und Datum.
• Schritt 4: Definition relevanter Kennzahlen, z.B. Anzahl Verkäufe, Umsatz, Kosten,
Gewinn.
35
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Designprozess
Beispiel
Definition der Dimensionshierarchien und Entwicklung eines entsprechenden Snowflake Schemas

36
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zusammenfassung

• Wichtige Konzepte

• Datenwürfel

• Dimensionen
• Fakten

• Kennzahlen

• Relationale Modellierung

• Star Schema

• Snowflake Schema

• Entwicklungsprozess in vier Schritten

37
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen

Das könnte Ihnen auch gefallen