Sie sind auf Seite 1von 59

Data Warehouse

Data Warehouse
– DWH –

Dipl.-Inform. Jacqueline Markwardt


SoSe 2018

06.04.2018

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 1


Data Warehouse

Wie gehts weiter?

 Datenwürfel – Cube / OLAP / ADAPT Notation


 Kennzahlen / Dimensionen
 Faktentabellen
 Star- / Snowflake Schema
 Staging- / Cleansing Area
 Core / Data Marts
 ETL
 Daten (Hierarchien, Historie, ...)
 ...

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 2


Ebenen DWH Data Warehouse

Data Warehouse – Aufbau


Importkomponente Zugriffskomponente
Verwaltungskomponente

Abb. nach C. Jordan, ... ''Data Warehousing mit Oracle'' / 2011

Daten: nutzerspezifisch /
Daten- Daten-Lager anwendungsabhängig:
aufbereiten,
Aufnahme Teilmodellierung
reinigen,
Fehlerkorrektur

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 3


Ebenen DWH Data Warehouse

Importkomponenten
Zugriffskomponenten
Verwaltungskomponenten

Data Warehouse Struktur


Verschiedene Analyse-Plattform
Data Marts
Quellsysteme

Files
Sozial
Media

Web
Streams

Extract Transform Load


ETL- Prozess

Abb. nach C. Jordan, ... ''Data Warehousing mit Oracle'' / 2011

Daten: nutzerspezifische /
Daten- Daten-Lager themenorientierte
aufbereiten,
Aufnahme Teilmodellierung
reinigen,
Fehlerkorrektur

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 4


DWH-Komponenten – am Beispiel Data Warehouse

Beispiel: Lebensmittelgeschäft mit verschiedenen Bereichen

● Staging Area:
✔ Daten aus unterschiedlichen Quellsystemen geladen
✔ Daten so gespeichert, wie geliefert
✔ Struktur Stage-Tabellen ≙ Schnittstelle zum System
✔ keine Beziehungen zwischen Tabellen, Daten der
letzten Lieferung zuvor gelöscht
✔ Beispiel: Lieferanten – Laderampe

● Cleansing Area:
✔ ''Tor zum Core'' - Datenreinigung
✔ Fehler herausfiltern, korrigieren, ergänzen
✔ Transformationen, Umrechnungen, Defaultwerte, fachliche
Vereinfachungen, Ermittlung von Codes
✔ Beispiel: Waren für den Verkauf kommissioniert (Waren auspacken,
Gemüse waschen, Fleisch portionieren, Produkte zusammenfassen,
Qualitätskontrolle – Preisetikette kleben)

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 5


Data Warehouse
Textquelle: data-warehouses.net/architecture/staging.html
Begriffe ...

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 6


Data Warehouse

Begriffe ...
Standardisieren = strukturieren und normieren
● z.B. einheitliches Datumsformat

● z.B. zusammengesetzte Daten in Bestandteile

Vorhandene Werte auf normierte Werte abbilden


● z.B. einheitliche Anrede, Titel, Abkürzungen

Fehlerhafte Daten ersetzen


● Vorgaben nutzen (andere Systeme)

● Defaultwerte verwenden

● herausfiltern, nicht verwenden

● Duplikate entfernen

● echte Fehlerdaten eventuell


später nachbearbeiten
● Fehlertabellen verwalten

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 7


DWH-Komponenten – am Beispiel Data Warehouse

● Core:
✔ hier Daten zusammengefügt – nicht nach Herkunft,
sondern themenspezifisch strukturiert
✔ Themenbereiche ≙ Subjects Areas
✔ über längeren Zeitraum gespeichert (oft Jahre)
✔ Daten so ablegen, dass historische Daten zu
jedem späteren Zeitpunkt ermittelbar
✔ Beispiel: Hochregallager – Kunden haben keinen
Zugriff (Core wird nicht leer)

● Data Marts:
✔ Datenteilmengen aus dem Core
✔ Daten so aufbereitet und gespeichert, damit geeignete Form für spezifizierte
Nutzeranfragen – jeweilige Anwendung, relevante Daten und spezielle
„Sichten“
✔ mehrere Marts für unterschiedliche Benutzergruppen
✔ Beispiel: Marktstände oder Verkaufsstellen – jede(r) bietet bestimmte
Auswahl von Waren (Gemüse, Fleisch, Käse); Waren so präsentiert, dass
sie vom Kunden akzeptiert, gewollt und gekauft werden

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 8


Data Warehouse

Core und Data Marts

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 9


Core und Data Marts Data Warehouse

Warum Core wichtig?

Abb. nach C. Jordan, ... ''Data Warehousing mit Oracle'' / 2011

● mehrere Quellsysteme und mehrere Data Marts –


keine Lösung für jede Kombination separate
ETL-Prozesse zu definieren

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 10


Data Warehouse

Dimensionaler Datenraum ... ?

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 11


Data Warehouse

Begriffe ...

Dimensionale Modellierung
Datenbankdesign – Darstellung – CUBE ?

➢ Dimensionen ?
➢ Datenhistorie – Zeitbezug ?
➢ Hierarchien im Datenraum ?
➢ Granularität ?
➢ Faktentabellen – Star und Snowflake ?

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 12


Data Warehouse

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 13


Data Warehouse

Multidimensionale Datenräume als ERM ?


●für dieses Jahr, für letztes Jahr ...
●alle Monate, jedes Quartal, jede Woche ...

●Einzelprodukte, Produktgruppen, Sparten, ...

●Verkauf pro Saison

●Sozial-demografische Aspekte

●...

Abbildung nach Kemper, Grundlagen BI / 2010

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 14


Data Warehouse

Multidimensionale Datenräume als ERM ?

Quartale
Halbjahre
Semester
...

Abbildungen nach Gabriel, DWH und Data Mining / 2009


variiert Markwardt

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 15


Data Warehouse

Dimensionale Darstellung
Datenwürfel – CUBE

Würfel mit 3 Dimensionen:


● Produkte
● Monate
● Regionen
Quelle Abb.: Gabriel,DWH / 2009

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 16


Data Warehouse

Würfel – Multidimensionales Modell


 Beispiel multidimensionaler Datenwürfel

Aggregierte Werte!

Bsp. nach Sattler, Data-Warehouse-Technologien

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 17


Data Warehouse

Zeitraum
Jahr
Halbjahr
Quartal

Fakten
Zeit
Ort
Produkt
Produkt ∑ Umsatz
Region
Kategorie Bundesland
Artikel Stadt
Faktentabelle Filiale
Dimensionstabellen

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 18


Data Warehouse

Starschema ... Faktentabelle

Beispiele: Faktentabellen

Kunde

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 19


Star-Schema am Beispiel Data Warehouse

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 20


Grundlagen DWH Data Warehouse

Dimensionale Modellierung
Datenbankdesign – Darstellung – CUBE ?

● Star Schema
● Snowflake Schema
● Galaxie
Faktentabelle / (Faktentabellen)
Dimensionstabellen

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 21


Data Warehouse

Star Schema

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 22


Data Warehouse

Snowflake Schema

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 23


Data Warehouse

Darstellung multidimensionaler Datenräume als ...


darstellen
als

Starschema

Abbildung nach Kemper, Grundlagen BI / 2010

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 24


Data Warehouse

Dimensionale Modellierung – Galaxie

Quelle Abb.: Gabriel,DWH / 2009

( > 1 ) Faktentabellen + n Dimensionstabellen

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 25


Data Warehouse

Faktentabelle und Dimensionstabellen


● Verbindung von Kennzahlen zu einer
Kombination von Dimensionen
● haben immer Zeitbezug – eine Dimension
immer Zeitdimension !
● Fakteneintrag bezieht sich auf einen
bestimmten Zeitpunkt
● Ereigniszeitpunkt – Transaktionsdatum,
Verkaufsdatum, ...
● Messzeitpunkt – „erster Tag des Monats“

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 26


Welche Modelle werden dargestellt? Data Warehouse

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 27


Data Warehouse

SQL: Der cube-Operator

SQL-Operator: cube

cube-Operator generiert als Resultat


einen multidimensionalen Cube

cube-Operator wird in der GROUP BY


Klausel einer SELECT-Anweisung
angegeben

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 28


Anzahl Data Warehouse

SQL: Der cube-Operator .... Beispiel:

select
p.Hersteller, z.Jahr, f.Land, sum(v.Anzahl) as Gesamt
from Produkte p, Zeit z, Filialen f, Verkäufe v
where v.Produkt = p.ProduktNr
and p.Produkttyp = 'Bike' Anzahl
and v.VerkDatum = z.Datum Dimensionen ?
and v.Filiale = f. Filialenkennung
group by cube(z.Jahr, p.Hersteller, f.Land) ;

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 29


Data Warehouse

Oracle cube Syntax:

Beispiel:

Quelle: http://docs.oracle.com

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 30


Grundlagen DWH Data Warehouse

Dimensionale Modellierung
Darstellung – Modellierungswerkzeuge ?

● ... mit „Entity – Relationship - Diagramme“


darstellbar?
● Wie hierarchische / zeitbezogene
Zusammenhänge?

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 31


Multidimensionale Modellierung Data Warehouse

Einfaches ERM
noch ausreichend?

ADAPT
Notation !
Quelle: http://www.hahneonline.de

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 32


Data Warehouse

ADAPT – Notation
● Application Design for Analytical Processing
Technologies
● Firma Symmetry Corporation
(www.symcorp.com)
● erlaubt Darstellung von Dimensionen mit
Hierarchien und Hierarchiestufen
● Darstellung von Fakten und deren Zuordnung
zu Dimensionen
● hierarchische Zusammenhänge innerhalb der
Dimensionen gut darstellbar
TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 33
Beispiel ADAPT Anwendung Data Warehouse

Quelle: http://www.symcorp.com/downloads/ADAPT_white_paper.pdf

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 34


Data Warehouse

Fachartikel (pdf)
auf Moodle!

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 35


Data Warehouse

Quelle: Ch. Kurze, tu-chemnitz.de: https://www.tu-chemnitz.de/wirtschaft/sapr3/bw/Stud_Einfuehrung_multidimensionale_Modellierung.pdf

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 36


Modellierungsschritte ... Data Warehouse

Studienarbeit:
Quelle: Ch. Kurze, tu-chemnitz.de

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 37


Data Warehouse

Quelle: Ch. Kurze, tu-chemnitz.de

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 38


Data Warehouse

Quelle: Ch. Kurze, tu-chemnitz.de

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 39


Data Warehouse

Quelle: Ch. Kurze, tu-chemnitz.de

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 40


Beispiel – Marketing Data Warehouse

Quelle:

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 41


Beispiel – Umsatzanalyse Data Warehouse

Quelle:

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 42


Beispiel – Verkauf und Inventur – „Galaxie“ Data Warehouse

Quelle Abb.: Jordan, Data Warehousing/ 2011

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 43


Zusammenfassung Data Warehouse

➢ Datenpool – Ebenen des DWH


➢ Dimensionaler Datenraum – Fakten und
Dimensionen / CUBE
➢ Dimensionale Modellierung – ADAPT,
Star-, Snowflake

Navigation im dimensionalen Raum ?


Datenanalyse ?
OLAP !

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 44


Data Warehouse
Quelle: Foliensatz P.Hawking /SAP BI Schulung

Online Analytical
Processing:
„Navigieren durch den
dimensionalen
Datenraum!“

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 45


Data Warehouse

Dimensionale Navigation – Analyse

OLAP
● Navigation im
mehrdimensionalen Raum
● Slice/Dice
● Rotation
● Drill Down/Roll Up
● Merge/Split

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 46


Multidimensionale Operatoren – OLAP – Überblick Data Warehouse

Quelle:
pst.de/fileadmin/user_upload/_de/pdf/
Whitepaper_BI_Funktionsweise.pdf

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 47


OLAP – Online Analytical Processing Data Warehouse

Quelle:

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 48


Beispiel Data Warehouse

OLAP – Slice / Dice

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 49


Beispiel Data Warehouse

OLAP – Pivotierung / Rotation

Studentenzahlen in
jeweiligen Fächern Studentenzahlen der Studienrichtungen in
den einzelnen Semestern

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 50


Data Warehouse

OLAP – Roll Up / Drill Down

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 51


Umsetzung mittels SQL .... Data Warehouse

Beispiel Roll-Up/Drill-Down für „Verkäufe“

Merke:
Verdichtungsgrad bei
SQL-Anfragen durch
group by Klausel

Anzahl Attribute in group by : drill down

Anzahl Attribute in group by : roll up

Beispiel nach Kemper DBS, 2009

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 52


Beispiel Roll-Up/Drill-Down Data Warehouse

„Ultimative“ Verdichtung besteht im kompletten Weglassen der group by Klausel

select sum(Anzahl)
from Verkäufe v, Produkte p
where v.Produkt = p.ProduktNr
and p.Produkttyp = 'Handy' ;

Ergebnis der Anfrage liefert nur noch einen Wert!

Beispiel nach Kemper DBS, 2009

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 53


OLAP Data Warehouse

Split und Merge

● Split – Aufriss: eines Wertes nach Elementen


einer weiteren Dimension; Detaillierung eines
Wertes (Bsp.: Umsatz einer Filiale für eine
bestimmte Menge von Produkten)
● Merge /Drill in: Gegensatz zu Split – zusätzliche
Dimensionen werden wieder entfernt

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 54


Beispiel Data Warehouse

Quelle Abb.: Kemper, Baars, - BI / 2010

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 55


Data Warehouse

OLAP – Drill Across / Drill Through


● Drill Across: Wechsel von einem Würfel zu einem
anderen Würfel – Kennzahlen über mehrere Würfel
→ Wertekette bilden, verfolgen, Dimensionen auf
der gleichen Hierarchiestufe
→ Betrachtung benachbarter Dimensionselemente
(z.B. andere Region, anderer Monat,
anderes Produkt, ...)

● Drill Through: mit Wechseln der physischen


Datenquelle – OLAP Joins

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 56


Data Warehouse

OLAP – Drill Through

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 57


Data Warehouse

Beispiel: OLAP
„Alle zusammen“:
slice
dice
roll up
drill down
pivot

TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 58


Data Warehouse

Ohne Daten nützt das beste Modell nichts ....

fehlerfrei, umfangreich(vollständig),
aktuell?
anwendungsrelevant,
von unterschiedlichsten Datenquellen ...

Wie ?
Bild: dcwi.de/Bilder/Datenserver

Fortsetzung folgt ...


TH Wildau W I R © Dipl.-Inform. Jacqueline Markwardt SoSe 2018 59