Skript Einfuehrung in Data Science - Teil 1 Final

Einführung in Data Science
Skript
Prof. Dr. Christian Schieder

OTH mind - BMBF Verbundprojekt
#aufstieggestalten
2020
Dieses Material ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen Bedingungen 4.0 International Lizenz (CC
BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten,
OTH Amberg-Weiden“.
BMBF-Verbundprojekt OTH mind

Impressum
Autor: Prof. Dr. Christian Schieder
Herausgegeben durch: Teilprojekt #aufstieggestalten der OTH Amberg-Weiden aus dem Verbundprojekt „OTH mind“ mit der OTH
Regensburg des Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“
Kontakt: Hetzenrichter Weg 15, 92637 Weiden in der Oberpfalz

othmind@oth-aw.de
www.oth-aw.de/oth-mind
Copyright: Dieses Kursmaterial ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen
Bedingungen 4.0 International Lizenz (CC BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt
genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten, OTH Amberg-Weiden“.
Hinweis: Diese Publikation wurde im Rahmen des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten
Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“ erstellt. Die in dieser Publikation
dargelegten Inhalte liegen in der alleinigen Verantwortung des Autors.
BMBF-Verbundprojekt OTH mind S. 2

Agenda
1_ Einführung
2_ Geschichte der Datenanalyse und Datenanalysegeschichten
3_ Datengrundlage und Eigenschaften von Daten
4_ Aufgaben und Vorgehensmodelle der Datenanalyse
5_ Methoden des maschinellen Lernens
(1) Vorbemerkungen zum statistischen Lernen
(2) Entscheidungsbaumlernverfahren
(3) Clusterverfahren
(4) Künstliche Neuronale Netze
6_ Werkzeuge zur Datenanalyse
7_ Weitere Lernressourcen

1
Einführung

Big data? Big opportunities!
Digital! Data-driven
People changing their relationship status to “single”

according to Facebook status updates
Spring Break
2 weeks before
“spring clean“
winter holidays
April Fool’s Day
Valentine‘s Day Summer holiday

Mondays
Christmas “too cruel”
JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC
September
Source: 21th, 2017
McCandless, D.: |The
Dr.Visual
Schieder, Christian | Slide
Miscellaneum, 5
Harper, © BHS Corrugated. Better – across the Board!
2009, informationisbeautiful.net, http://ed.ted.com/lessons/david-mccandless-the-beauty-of-data-visualization
https://www.youtube.com/watch?v=i2jwZcWicSY
Data Science aus Methodensicht

S. 10
Quellen: in Anlehnung an Küsters (2001), S. 95 ff.; Meyer (2002) übernommen von Hilbert (2012), S. 47
Anwendungsgebiete von Data Science
§ Vorhersage
• z.B. Wettervorhersage, Naturkatastrophe, Maschinenausfall, Krankheitsausbrüche
§ Optimierung
• z.B. Verkehrsflüsse, Effizienz der Maschinennutzung, Logistik (Gütertransport)

§ Personalisierung
• z.B. Medizin, Produktempfehlungen (Spotify)

§ Komfort
• z.B. autonomes Fahren, Fahrassistenten
§ Intelligenz
• z.B. Automatisches Übersetzen von Texten, PC-Spiele, Robotik

Das Vierte Paradigma der Wissenschaft
= Konzept geprägt von Jim Gray

1. Empirisch / Experimentell: - Systematische Sammlung und Dokumentation von Daten der Umwelt
2. Theoretisch: - Gesetze und Regeln die Umwelt beschreiben (Physik)

3. Berechnend: - Computersimulation der Abläufe
- Gewinnung von Erkenntnissen daraus
4. Data-intensive: - Heranziehen von empirisch ermittelter Daten
- Bildung komplexer Modelle ( Verständnis, Vorhersagen etc.)
Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).

Das Ende der klassischen Wissenschaft
Machen große Datenmengen, die wir sammeln und Auswerten die Wissenschaft obsolet?
§ The End of Theory: The Data Deluge Makes the Scientific Method Obsolete
• All models are wrong, but some are useful. (George Box)
• All models are wrong, and increasingly you can succeed without them. (Peter Norvig)
§ Before Big Data: Correlation is not causation!
§ With Big Data: Who cares?

• Traditional approach to science – hypthesize, mode, test – is becoming obsolete
• Petabytes allow us to say: „Correlation is enough.“

Korrelation vs. Kausalität

Korrelation vs. Kausalität

2
Geschichte der Datenanalyse und
Datenanalysegeschichten
Data Storytelling

Geschichte der Datenanalyse
§ Aggregation
• Statistik berechnen
§ Data Mining
• Interessante Regeln finden

§ Clustering
• Ähnliche Dinge gruppieren

§ Klassifikation
• Ähnliche Dinge organisieren
§ Maschinelles Lernen
• Aus Daten lernen – Modelle bilden
Quelle: https://www.nzz.ch/wissen/wissenschaft/die-geschichte-einer-wasserpumpe-in-london-1.18049701 (Abruf: 30.01.2020)

A Timeline of Data Visualization Pioneers
Quelle: http://de.slideshare.net/dataremixed/7-lessons-from-the-pioneers?qid=868353ba-30b5-4d61-8804-88c7d891dfef&v=&b=&from_search=1

Christoph Scheiner: Beobachtung von Sonnenflecken (1626)
Friendly, Michael & Chen, Chun-houh & Härdle, Wolfgang Karl & Unwin,
Antony. (2008). A Brief History of Data Visualization. 10.1007/978-3-540-
33037-0_2.
Joseph Priestley: A New Chart of History (1769)

20.03.20 20
William Playfair: English Trade Deficit (1786)

Florence Nightingale: Diagram of the causes of mortality in the army in the East“ (1858)

Charles Minard: Flow map of Napoleon’s 1812 Russian campaign (1869)

Was braucht der Data Scientist?
Quelle: https://www.youtube.com/watch?v=Esm9yUl-xu8
Genau hinschauen...

Hans Rosling @TED: Story Telling with Data

Visualisierung

Weitere Visualisierungen
(https://github.com/d3/d3/wiki/Gallery)
Boxplot (Kastengrafik)

3
Datengrundlage und Eigenschaften von
Daten

Wo kommen Daten her?
§ 2 große Kategorien
§ Offene Daten
§ Linked Open Data: z.B Wikipedia
§ Hidden Web: z.B. Suche über Suchmaske

§ Regierungsdaten z.B. Arbeitslosenzahlen
§ Wissenschaftliche Daten z.B. Teleskopdaten
§ Veröffentlichungen: z.B. Zeitungsartikel
§ Historische Daten: z.B Wetterdaten

§ Interne Daten (Geschäftsdaten)
§ Master Data im Unternehmen
§ Transaktionale Daten
§ Sensordaten

Open Data Ressources
• Open Canada – Open Data: http://open.canada.ca/en/open-data

– Open Data 101: http://open.canada.ca/en/open-data-principles
• Open Data handbook: http://opendatahandbook.org/pdf/OpenDataHandbook.pdf
Open Data Institute: http://opendatainstitute.org/

• Open Data Portal: http://open.canada.ca/data/en/dataset
• Open Data Registry: http://opendataregistry.com/
• Open Data Subject Guide: http://stfx.libguides.com/opendata
• Open Definition: http://opendefinition.org/od/

Relationales Datenbankmodell
§ Durchbruch in 70er von IBM

§ Edgar F. Codd: Turing Award
§ RDM:
• Systematische & mathematische Datenspeicherung
• Integrierte Datenverwaltung/Haltung in einheitlicher und nicht redundanter Form
• Sorgfältige Aufteilung auf Tabellen
• Jede Tatsache wird nur 1-mal gespeichert (Inkonsistenz!)
§ Operationen:
• Tabellen definieren
• Daten speichern, ändern, abrufen
• Auf systematische Art und Weise
• Transaktion: mehrere Operationen zu einer zusammengefasst (z.B Überweisung)
§ Schutz:
• Zugriffsberechtigungen

Big Data

Volume
Der Umfang der Daten
= Umfang der Daten

§ Big Data : Daten so groß, dass ich mit herkömmlichen Methoden nicht mehr weiter komme
§ Große Datenmengen bringen Probleme mit sich:
§ Operationen werden komplexer
• Eintragen neuer Daten
• Suchen von Daten (Indizes)
• Sortieren von Daten

Velocity
Die Eintrittsgeschwindigkeit der Daten
= Wie schnell prasseln Daten auf mich ein?

§ Verarbeitung der Daten muss schnell erfolgen
§ Speicherung nebensächlich
§ Rechtzeitiges reagieren
§ Beispiele:
• Börse
• Banken (Überweisungen validieren)
• Autonomes Fahren

Variety
Die Heterogenität der Daten
= Vielfalt der Daten

§ Heterogenität der Daten:
• Verschiedene Datenmodelle
• Verschiedene Größenordnungen
• Verschiedene Sprachen ( z.B Deutsch, Englisch, Spanisch)
• Verschiedene Standards ( z.B. Formate)
§ Technische und semantische Herausforderungen

§ Beispiel: Verschiedene Arten von Daten
• Tabellen
• Textdaten
• Sensordaten
• …

Veracity
= Wahrhaftigkeit der Daten

§ Datenqualität:
• Korrektheit
• Vollständigkeit
• Konsistenz
• Aktualität

Informationsqualität
Datenqualitätsdimensionen

Informationsqualität
Klassifikation der Dimensionen
§ Informationsqualität:
• 15 Dimensionen
• 4 Kategorien
§ Systemunterstützte Datenqualitätsdimensionen
• Zugänglichkeit
- Accessability
• Bearbeitbarkeit
- Ease of manipulation
§ Inhärente Datenqualitätsdimensionen
• Hohes Ansehen
- Reputation
• Objektivität
- Objectivity
• Glaubwürdigkeit
- Believability
• Fehlerfreiheit
- Free of error

Klassifikation von Datenfehlern
Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data

Science – Klarheit in den Schlagwort-Dschungel (Abruf:
30.01.2020).

Auswirkung schlechter Qualität
§ Fehlerhafte Warenpreise in Artikel DB des US–

Einzelhandels
• 80% der Barcode Scan Fehler zulasten der

Konsumenten
§ US– Finanzbehörde 1992: Knapp 100.000
Steuererstattungsbescheide unzustellbar
§ 50-80% der Einträge im US- Vorstrafenregister

Quelle: https://www.pexels.com/photo/angry-bad-john-art-black-and-white-emotion-709732/ (Abruf: 30.01.2020).
ungenau, unvollständig oder fehlerhaft
§ US- Post: von 100.000 Massen- Postsendungen

bis zu 7000 aufgrund von Adressfehlern
unzustellbar

Data Preparation: Probleme
§Typische Probleme:
•Zeilenende wird nicht erkannt
•Fußzeile/ Präambel
•Trennung von Feldern
(Komma, Semikolon, Tab)
•Falscher Wert
•Fehlende Werte
•Falsches Format
•Falscher Titel
•Überflüssige Zeichen

4
Aufgaben und Vorgehensmodelle

A day in the life of a Data Scientist...
Adjustment and adaption of data 60%

Collecting data 19%
Create training records 3%
Other 5%
Adjustment of algorithms 4%
Pattern recognition 9%

Data Preparation
What data scientists spend most time What is the least enjoyable part of data
doing? science?

Vorgehensmodelle und Prozessablauf
Prozess- Daten-
verständnis verständnis
Daten-
Bereitstellung Data aufbereitung
Evaluierung Modellierung
Chapman et al.: CRISP-DM 1.0, Step-by-step data mining guide, aufgerufen im Internet unter:
http://66.249.93.104/search?q=cache:iLECXEj-VjYJ:www.crisp-dm.org/CRISPWP-800.pdf, S. 13 Source: Dataiku (2016): Data Science for Banking & Insurance, SURVIVING AND THRIVING IN THE ERA OF INTERNET GIANTS AND
FINANCIAL TECHNOLOGY STARTUPS

Building Pipilines of Knowledge

S. 48
http://www.datasciencecentral.com/profiles/blogs/data-science-summarized-in-one-picture
https://www.linkedin.com/pulse/business-intelligence-data-science-fuzzy-borders-rubens-zimbres/
Dr. Christian Schieder Modul Big Data – Practical Data Analysis

Aufgaben zur Durchführung von Data Science Projekten

Knowledge Discovery in Databases (KDD)
Knowledge Discovery in Databases beschreibt den „…non trivial process of identifying valid, novel, potentially
useful and ultimately understandable patterns in data…“
[Fayyed, et al., 1996]

CRISP-DM: Cross-Industry Reference Process for Data Mining
§ Business Understanding
Verstehen des Geschäftsproblems und Transformation
in ein Daten-Analyse-Problem
§ Data Understanding
Verstehen der Datenrepräsentation sowie erste
explorative Analyse(n)
§ Data Preparation
ETL-Prozess, Daten Transformation und Bereinigung,
Anreichern, etc.
§ Modeling
Erstellen eines Data-Mining-Modells mit einem
geeigneten Verfahren
§ Evaluation
Auswahl und Bewertung des/der Modelle, Business-
Ziel erreicht?
§ Deployment
Anwendung des Modells im operativen Betrieb

CRISP-DM: Generische Aufgaben und Outputs
Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment
Determine Business Collect initial data Select Data Select modeling technique Evaluate results Plan deployment
Objectives •Initial data collection report •Rationale for •Modeling technique •Assessment of data mining •Deployment plan
• Background inclusion/exclusion •Modeling assumptions results with respect to
• Business Objectives business success criteria
• Business Success Criteria •Approved models
Clean data
Describe data •Data cleaning report Plan monitoring and
Assess Situation Generate test design maintenance
•Data description report
• Inventory of Resources •Monitoring and maintenance
•Test design
• Requirements, assumptions and Review process plan
constraints
Construct data
• Risks and contingencies •Derived attributes •Review of process
• Terminology Explore data •Generated records Build model Produce final report
• Costs and benefits
•Data exploration report •Parameter settings •Final report
Integrate data •Models •Final presentation
•Merged data •Model description
Determine Data Mining Goals
Determine next steps
• Data mining goals Assess model
Verify data quality •List of possible actions Review project
• Data mining success criteria •Model assessment
•Data quality report Format data •Decision •Experience documentation
•Revised parameter settings
•Reformatted data
Produce Project Plan
• Project plan
• Initial assessment of tools and
techniques

Aufteilung der Daten in Trainings-, Validierungs- und Testmenge
Quelle: TDWI e-Book Data Science

Typischer Zeitaufwand für die verschiedenen Aufgaben

5
Ausgewählte Methoden
1. Vorbemerkungen zum statistischen Lernen
2. Entscheidungsbaumlernverfahren
3. Clusterverfahren
4. Künstliche Neuronale Netze

Understanding Classification

Vorbemerkungen zu statistischen
Lernverfahren

Seeing Theory
http://students.brown.edu/seeing-theory/regression/index.html#first

Statistik
§ Deskriptive Statistik
§ Induktive Statistik
§ Explorative Statistik
Quelle: https://statistics.rutgers.edu/ (Abruf: 30.01.2020).

Schummeln mit Statistik
„Durchschnitt“
§ Arithmetisches Mittel (75.472)
§ Geometrisches Mittel (48.102)
§ Harmonisches Mittel (41.122)
§ Median (50.000)
§ Modus (30.000)

„Schummeln“ mit Visualisierung
https://youtu.be/ddtU9VGQYe4?t=546

Risikokompetenz

Deskriptive vs. prädiktive Analyse
Quelle: https://www.comspace.de/de/news/glossar/a/analytics (Abruf: 30.01.2020).

Lernen: Überwacht und Unüberwacht

Trainingsdaten / Testdaten

Overfitting (Überanpassung)
Was lernen statistische Lernverfahren?
Quelle: ByChabacano- Own work, CC BY-SA 4.0,

https://commons.wikimedia.org/w/index.php?curid=3610704 (Abruf: 30.01.2020).

Klassifizierung
B. H. Menze et al., "The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS),"
in IEEE Transactions on Medical Imaging, vol. 34, no. 10, pp. 1993-2024, Oct. 2015.

Evaluation
Vorhersage von persönlichen Eigenschaften auf Basis von Facebook-Likes
https://doi.org/10.1073/pnas.1218772110

Evaluation
Evaluationsmethoden und -kennzahlen
• Konfidenzintervall
• Confusion Matrix
• Gain & Lift
• Kolmogorov-Smirnov
• Chi^2
• ROC-Chart
• RSME
• Cross Validation
http://www.datasciencecentral.com/profiles/blogs/7-important-model-
evaluation-error-metrics-everyone-should-know

Evaluation
Erfolgsmaße

Entscheidungsbaumlernverfahren
Mit dem Beispiel ID3-Algorithmus

Entscheidungsbaumverfahren – Allgemein
• Ziel:
Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen
Klassen zugeordnet werden können
• Vorgehensweise:
Zuordnung anhand von Regeln
(Darstellung mit Klassifikationsbäumen)
• Beispiel:
Einteilung von Datensätzen mit Angaben über Kunden derart, dass damit die Käufergruppe erkannt
werden kann, in die ein neuer Kunde voraussichtlich gehört
• Voraussetzung:
Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist

Grundsätzliche Arbeitsweise
• Aufteilung des Gesamtdatenbestandes in eine Trainingsmenge und eine Testmenge

• Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus homogenere Gruppen von Datensätzen
bezüglich der Klassifikationsvariablen ergeben
• Darstellung der Aufteilung der Datenmengen durch einen Baum, in dem jeder Knoten eine Datenmenge
indiziert, dem ein Homogenitätsmaß zugeordnet wird
• Fortführung der Aufteilung, bis das Homogenitätsmaß einen vorgegebenen Wert erreicht
• Überprüfung der Ergebnisse anhand der Testmenge

Beispiel
Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendaten- sätzen vor. Dabei werden
70 % der Kunden als kreditwürdig und 30 % der Kunden als nicht-kreditwürdig eingestuft.
Durch eine Aufteilung des Gesamtdatenbestandes anhand eines Merkmales sollen zwei Teilmengen
derart entstehen, dass sich in der einen Teilmenge mehr Kundendatensätze mit der Eigenschaft
kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit der Eigenschaft nicht-
kreditwürdig befinden. Beide Teilmengen weisen damit eine bessere Homogenität bezüglich der
Klassifikationsvariablen auf, als der Ausgangsdatenbestand.

Beispiel

Beispiel Datensätze Gesamt: 1000
Datensätze Klasse X: 700
Datensätze Klasse Y: 300
Attribut A: erfüllt nicht Bedingung K1 Attribut A: erfüllt Bedingung K1
Gesamt: 600 Klasse X: 320 Klasse Y: 280 Gesamt: 400 Klasse X: 380 Klasse Y: 20
Attribut B: erfüllt nicht

Attribut B: erfüllt Bedingung K2
Bedingung K2
40 260 280 20
300 300
Große Homogenität bezüglich des Klassifikators!

Regeln
Schrittfolge:
1) Baum generieren
2) anhand des Baumes neuen Datensätzen (unter Beachtung der Regeln) deren
voraussichtliche Klasse zuordnen
Im Beispiel sind dies folgende Regeln:
WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige Objekt der
Klasse Y an.
WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die Bedingung K2,
DANN gehört das zugehörige Objekt der Klasse Y an.
WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die

Bedingung K2, DANN gehört das zugehörige Objekt der Klasse X an.

Splitkriterien und Homogenitätsmaße
§ Unterscheidung der Entscheidungsbaumverfahren durch die zugehörigen Splitkriterien (kurz: Split)
§ Splitkriterien basieren auf einem Homogenitätsmaß
• Homogenitätsmaß wird definiert mit Hilfe der relativen Häufigkeit pi des Auftretens bestimmter Datensätze einer bestimmten
Klasse i
Beispiel:
Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit gilt für den
Datenbestand:
p1= 70 %, p2= 30 %
Ziel:
• Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte Klassenzugehörigkeiten
erreichen
• Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der Knoten à ideal
wäre eine Verteilung (100%, 0 %)
• Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen
zugeordnet werden können

Entropie
§ Als Maß für die Homogenität des Knoten T kann die Entropie verwendet
werden.
k
Entropie(T ) = -å pi × log 2 pi mit(0 × log2 0 = 0)
i =1
§ Gilt Entropie = 0, so ist der Knoten homogen.
§ Die Entropie nimmt ihren Maximalwert an (log2 der Klassenanzahl),

wenn eine Gleichverteilung vorliegt.

Informationsgewinn
§ Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt.
§ Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A
bekannt ist.
Informationsgewinn (IG) durch Split der Menge T in m Teilmengen Ti (i=1,…,m):
m
| Ti |
IG = Entropie(T ) - å Entropie(Ti )
i =1 | T |
§ Ein neuer Knoten Ta enthält alle Elemente, bei denen das Attribut A die Ausprägung a
annimmt.
§ Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten
Knotens T minus der Summe der Entropien der neuen Knoten Ta, wobei als
Gewichtung die relative Größe der neuen Knoten Ta bezogen auf den
Ausgangsknoten T gewählt wird.

Gini-Index
§ Als weiteres Maß für die Homogenität des Knoten T kann der Gini-Index
verwendet werden.
k
Gini (T ) = 1 - å pi2
i =1
§ Gilt Gini (T) = 0, so ist der Knoten homogen.
§ Der Gini-Index nimmt seinen Maximalwert an, wenn eine

Gleichverteilung vorliegt.
§ Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine
Partition des Knotens T mittels Attribut A bringt:
| Ta |
Gini(T , A) = å Gini(Ta )
aÎA |T |

Fehlklassifikationsquote
• Messung der Güte eines Entscheidungsbaumes anhand der Fehlklassifikationsquote

a) Fehlklassifikationsquote als Anteil der durch das Modell fehlerhaft klassifizierten Datensätze zur Gesamtanzahl der klassifizierten
Datensätze
– sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen Testmenge ermittelt werden
b) Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes
– ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse zugeordnet werden, unabhängig von
der tatsächlich vorliegenden Klassenzugehörigkeit
– in Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in homogenere Knoten verringert werden
kann
– dient dennoch als erster Hinweis auf die Güte des Baums

Overfitting
• Overfitting
– „auswendig lernen“ von Trainingsdaten
– Modell enthält zusätzliche (zu viele und z. T. irrelevante) erklärende Variablen
– Problem: Modell funktioniert nur auf den Trainingsdaten
• Strategien zur Reduzierung des Overfitting-Problems

– Entfernen von fehlerhaften Trainingsdaten
– Reduzierung der Größe der Trainingsmenge
– Transformation der Trainingsdaten, z. B. Dimensionsreduktion
– Beschränkung der maximal erlaubte Homogenität in Knoten
– Mindestanzahl von Datensätzen in den Knoten
– Pruning

Pruning
• Ist das nachträgliche Modifizieren des Entscheidungsbaumes

• mit dem Ziel die Fehlklassifikationsquote auf unbekannten Datensätzen zu verringern
Eine Pruning-Strategie ist das Fehlerreduktions-Pruning:

• Hierbei wird in jedem Pruning-Schritt derjenige Teilbaum T des Gesamtbaumes E bestimmt, durch
dessen Entfernung der Klassifikationsfehler auf der Validierungsmenge am stärksten verringert
wird.
• Dieser Teilbaum wird anschließend entfernt.

Beispiel Mailingaktion
In einem Versandhaus sollen Spezialkataloge versendet werden. Für einige Kunden wurden bereits
Entscheidungen über die zu versendenden Kataloge getroffen.
Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den Gruppen Textilien und Geschenkartikel
sowie der dabei angefallene Durchschnittsumsatz zur Verfügung.
Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden zwischen wenig, mittel und viel bzw.
niedrig, mittel und hoch.
Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein Geschenkartikel (G)-Katalog oder kein (N-)Katalog
zur Verfügung.

Ausgangsdatenbestand
12 Kundenkaufprofile Zielvariable
Kunden Textilien Geschenkartikel O-Preis Katalog
X1 mittel wenig mittel T

X2 wenig mittel niedrig N
X3 mittel viel mittel TG
X4 viel wenig hoch T
X5 wenig mittel hoch G
X6 viel mittel niedrig TG
X7 wenig viel niedrig G
X8 mittel wenig niedrig N
X9 viel wenig niedrig T
X10 wenig wenig hoch N
X11 wenig viel mittel G
X12 viel viel hoch TG

Informationsbedarf im Ausgangsknoten
Entropie der Klassifikation (Informationsbedarf):

k
Entropie(T ) = -å pi × log 2 pi
i =1
= -( 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 )
= -(-2) = 2

Informationsgewinn durch Klassifikation nach Textilien
1,..,12 (123 3
12
3
12
3
12
)
Textilien T, G, TG,
N
2, 5, 7, 10, 11 1, 3, 8 4, 6, 9, 12
pi (0 3
5 0 2
5
) (13 0 1
3
1
3
) (24 0 2
4 0)
T, G, TG, N T, G, TG, N T, G, TG, N
Entropie 0,97 1,59 1
IG(Textilien) = 2 - 125 (0,97) - 123 (1,59) - 124 (1) = 0,87

Informationsgewinn durch Klassifikation nach Geschenkartikel
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
pi (53 0 0 2
5
) (0 1
3
1
3
1
3
) (0 2
4
2
4 0)
IG(Geschenkartikel) = 2 - 125 (0,97) - 123 (1,59) - 124 (1) = 0,87

Informationsgewinn durch Klassifikation nach Durchschnittspreis
1,..,12
Durchschnittspreis
2, 6, 7, 8, 9 1, 3, 11 4, 5, 10, 12
pi (15 1
5
1
5
2
5
) (13 1
3
1
3 0) (14 1
4
1
4
1
4 )
IG(Durchschnittspreis) = 2 - 125 (1,92) - 123 (1,59) - 124 (2) = 0,14

Auswahl des Klassifikationsmerkmals mit dem höchsten Informationsgewinn
Entropie im Knoten: 2
1,..,12
Informationsgewinn bei
Unterteilung nach Merkmal
Den höchsten IG liefert eine

Textilien: 0,87 Unterteilung nach Textilien oder
Geschenkartikel. Deshalb wird eines
dieser beiden Merkmal für die erste
Geschenkartikel: 0,87 Differenzierungsebene im
Entscheidungsbaum ausgewählt (hier:
Geschenkartikel).
Durchschnittspreis: 0,14

Entscheidungsbaum auf Ebene 1
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Für jeden der neu entstandenen Knoten muss das Verfahren

nun für alle übrigen Merkmale wiederholt werden.

Teildatenbestand für nächsten Knoten
12 Kundenkaufprofile

3/5
X9 viel wenig niedrig T 2/5


Informationsbedarf im betrachteten Knoten
Entropie der Klassifikation (Informationsbedarf):

k
Entropie(T ) = -å pi × log 2 pi
i =1
= -( 52 * log 2 52 + 53 * log 2 53 )
= -(-0,97) = 0,97

Informationsgewinn durch Klassifikation nach
Textilien im linken Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien
10 1, 8 4, 9
N T, N T
Entropie 0,97
IG(Textilien) = 0,97 - 15 * 0 - 52 *1 - 52 * 0 = 0,57

Informationsgewinn durch Klassifikation nach Durchschnittspreis im linken
Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
D-Preis
8, 9 1 4, 10
N, T T T, N
Entropie 0,97
IG(D-Preis) = 0,97 - 52 *1 - 15 * 0 - 52 *1 = 0,17

Auswahl des Klassifikationsmerkmals mit dem höchsten
Informationsgewinn
1,..,12
Geschenkartikel
Entropie im Knoten:
0,97 1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Informationsgewinn bei
Unterteilung nach Merkmal
Den höchsten IG liefert eine
Textilien: 0,57 Unterteilung nach Textilien. Deshalb
wird dieses ausgewählt für die weitere
Differenzierung in diesem Knoten.
Durchschnittspreis: 0,17

Entscheidungsbaum auf Ebene 2 (links)
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien
10 1, 8 4, 9
Das Verfahren muss nun für die übrigen Knoten

durchgeführt werden.

Teildatenbestand im mittleren Knoten


Textilien im mittleren Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien
10 1, 8 4, 9 2, 5 6
N T, N T N, G ? TG
Entropie 1,59
IG(Textilien) = 1,59 - 23 *1 - 0 - 13 * 0 = 0,92

Durchschnittspreis im mittleren Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien D-Preis
10 1, 8 4, 9 2, 6 5
N T, N T N, TG ? G
Entropie 1,59
IG(D-Preis) = 1,59 - 23 *1 - 0 - 13 * 0 = 0,92

Teildatenbestand im rechten Knoten


Textilien im rechten Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien
10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Entropie 1
IG(Textilien) = 1 - 24 * 0 - 14 * 0 - 14 * 0 = 1

Durchschnittspreis im rechten Knoten auf Ebene 2
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien D-Preis
10 1, 8 4, 9 2, 5 6 7 3,11 12
N T, N T N, G ? TG G TG, G TG
Entropie 1
IG(D-Preis) = 1 - 14 * 0 - 24 *1 - 14 * 0 = 0,5

Die restlichen inhomogenen Knoten…
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien
1,..,12
Geschenkartikel
10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Preis
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
8 1
1. Textilien Textilien Textilien
2. 10
N
1, 8
T, N
4, 9
N, G
2, 5
? TG
6
G
7, 11 3
TG
12
Preis TG Preis
8 1 2 5
N T ? N ? G

Ergebnisse mit Splitkriterium Gini-Koeffizient
Beim Splitkriterium Gini-Koeffizient ergibt sich der gleiche Baum.
Für den Split des Wurzelknotens gilt:
Gini(Textil)= 0,53 ; Gini(Geschenk)=0,53 ; Gini(Preis)=0,72

Die Splits in der zweiten Phase erfolgen gemäß der Werte

Ableitung von Entscheidungsregeln
1,..,12
Geschenkartikel wenig
1, 4, 8, 9, 10
Textilien m
Regel:
1, 8 IF Geschenkartikel: wenig AND

Preis m Textilien: mittel AND Preis: mittel
1 THEN T
T

Clusterverfahren
Grundlagen, Hierarchische Clusterverfahren, Partionierende

Clusterverfahren, Anwendungsbeispiel, Ausblick

Grundlagen
Quelle: http://www.sinus-institut.de
Grundlagen
Clusterverfahren
• Ziel: Erkennen und Bewerten von Clustern

• Cluster sind Mengen von Datensätzen; dabei sollen Datensätze innerhalb eines Clusters
möglichst ähnlich und Datensätze aus unterschiedlichen Clustern dagegen möglichst unähnlich
sein. Zur Bestimmung von ähnlichen bzw. unähnlichen Datensätzen fungieren Ähnlichkeitsmaße
bzw. Distanzmaße.
• Beispiel: Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit
Käufergruppen erkannt werden können.
• Voraussetzung: Es müssen Ähnlichkeitsmaße zwischen Datensätzen sowie zwischen Clustern
definiert werden.

Grundlagen
Ähnlichkeitsmaße
• Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals geometrische

Distanzmaße herangezogen.
Es soll gelten: kleine Distanz große Ähnlichkeit

große Distanz kleine Ähnlichkeit
• Dabei ist für die Anwendbarkeit der Maße zu beachten, welche Definitionsbereiche die Attribute
haben à Unterschieden werden muss zwischen numerischen und nominalen Attributen

Grundlagen
Distanzfunktionen
Distanzfunktionen zweier Datensätze mit numerischen Merkmalen:
Gegeben seien zwei Datensätze, die Objekte anhand von numerischen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
§ Euklidische Distanz:
d ( x, y ) = ( x1 - y1 ) 2 + ! + ( xn - yn ) 2
§ Manhattan-Distanz:
(City-Block) d ( x, y ) =| x1 - y1 | + ! + | xn - yn |
§ Maximums-Metrik: d ( x, y ) = max(| x1 - y1 |, !, | xn - yn |)

Grundlagen
Distanzfunktionen
Distanz zweier Datensätze mit nominalen Merkmalen:
Gegeben seien zwei Datensätze, die Objekte anhand von nominalen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
à Hierbei entspricht die Distanz der Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen!
Beispiel: x = (blau, hoch, dick, Mainz)

y = (grün, hoch, dick, Essen)
d(x, y) = 2

Grundlagen
Gower-Koeffizient
Kombiniert numerische und nominale Merkmale
1 n (i )
d ( x, y ) = å d ( x, y ) , mit
n i =1
ì1 , falls xi ¹ yi für nominale Merkmale

d ( x, y ) = í
(i )
î0 , falls xi = yi
für metrische Merkmale

xi - yi (Ri = Spannweite (größter Wert – kleinster
d ( i ) ( x, y ) =
Ri Wert) des i-ten Attributs)

Hierarchische Clusterverfahren
Agglomerative Verfahren:
• Schrittweise Gruppierung, d. h. beginnend mit N Gruppen (jeder Datensatz ist dann eine Gruppe) werden bei
jedem Schritt je zwei Gruppen zu einer zusammengesetzt
• Entstehung von Partitionen (Aufteilung des Gesamtdatenbestandes in einzelne Gruppen)
• Aus Partitionen können mögliche Cluster abgeleitet werden
Divisive Verfahren:
• Schrittweise Bildung von Untergruppen aus einer Gruppe (die alle Elemente beinhaltet)
• Bis letztlich N Gruppen mit je einem Element vorliegen

Dendrogramm
Agglomerative Methode 0 1 2 3 4
Divisive Methode 4 3 2 1 0

Fusionierungskriterien
Zur Zusammenfassung in jedem Schritt des agglomerativen Verfahrens ist ein Distanzmaß D zwischen
Gruppen von Objekten notwendig:
Gegeben: Gruppe X und Gruppe Y (bestehend aus Datensätzen) sowie Distanzmaß d zwischen
Datensätzen.
Single-Linkage:
(Nearest Neighbor)
D(X, Y) = min d( x, y)
xÎX , yÎY
Complete-Linkage: D(X, Y) = max d( x, y)

xÎX , yÎY
1
Average-Linkage:
D ( X, Y ) = å d ( x , y)
| X | × | Y | xÎX , yÎY

Graphischer Vergleich

Algorithmus für ein agglomeratives Verfahren
1. Berechne die Distanzmatrix.

2. Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den geringsten
Abstand zueinander haben.
3. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Objekten bzw.
Clustern.
4. Wiederhole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster befinden.

Partitionierende Clusterverfahren
Vorgabe: Anzahl der Menge von Clustern K, Distanzmaß d.

• Ausgangspunkt ist die Vorstellung:
Objekte = Punkte im n-dimensionalen euklidischen Raum
à folglich die euklidische Distanz als Distanzmaß verwenden
• Jedes der K Cluster wird durch einen Centroid repräsentiert
à ist in der Anschauung der Mittelwert aller Objekte, die in dem jeweiligen
Cluster liegen
Gilt x = (x1, ..., xn) so kann der Centroid eines Clusters Ci geschrieben werden als:
wobei x j der arithmetische Mittelwert der j-ten Merkmalsausprägung der

Objekte aus dem Cluster C ist

Es können nun Maße für die Clusterhomogenität für jedes Cluster bestimmt
werden, etwa durch die Summe der quadrierten euklidischen Distanzen der
Clusterobjekte zum Centroid:
Daraus lässt sich ein Maß für die erfolgte Gesamtclusteraufteilung

ermitteln, etwa durch die Summe der Homogenitätswerte der einzelnen
Cluster:
Ziel ist nun, eine Partition zu finden, mit der HGesamt minimiert werden
kann.

K-Means-Algorithmus
1. Wähle K Objekte als initiale Clusterzentroide.

2. Wähle das K+1-te Objekt als aktuelles Objekt.
3. Ordne das aktuelle Objekt dem Cluster zu, zu dessen Centroid der geringste
Abstand vom Objekt besteht.
4. Bestimme in diesem Cluster den aktuellen Centroid.
5. Wähle das nächste Objekt und gehe zu 3.
ð Problem: Abhängigkeit von der Auswahl der initialen Centroide

und der Reihenfolge der Werte

Grafik zu K-Means Verfahren

Schwächen von k-Means

Anwendungsbeispiel
Kundensegmentierung nach Kaufprofilen
Ziel: Es sollen 5 möglichst

homogene Kundengruppen
identifiziert werden.

Anwendungsbeispiel
Datenbestand
Kunde Artikelanzahl Durchschnittspreis Artikelgruppe
X1 20 80,- A, B, C
X2 6 110,- A, B, C
X3 18 150,- A, D
X4 18 100,- A, B, C, D
X5 15 50,- A, C, D
X6 4 100,- B, C
X7 14 50,- B, C
X8 10 70,- C, D
X9 20 120,- A
X10 10 60,- A, B
X11 13 70,- A, B
X12 5 80,- C, D

Anwendungsbeispiel
Distanzmatrix
Verschiedenheitsmatrix D = ( dij ) Abstand Xi zu Xj

Anwendungsbeispiel
Dendrogramm
Darstellung als Dendrogramm

(Berechnet als Single Linkage)

Anwendungsbeispiel
Ergebnisinterpretation
Cluster Kunden Interpretation
1 X3, X9 hoch preisige Damentextilien
2 X10, X11 tief preisige Textilien
3 X1, X2 mittel bis tief preisige Textilien
X6, X7, X4 und Haushaltsartikel
4 X5 tief preisige Artikel
5 X8, X12 wenige Haushalts- und Geschenkartikel
Clusterzahl K = 5

Anwendungsbeispiel
Einsatz von K-Means
Vor Anwendung des K-Means-Algorithmus werden die Werte

auf das Einheitsintervall normiert:
Als Clusterzahl wird gewählt K=5 und als Startcentroide die

ersten fünf Kunden.

Anwendungsbeispiel
Ergebnis nach erster Zuordnung
Cluster Kunden
1 X1, X10, X11

2 X2, X6, X7
3 X3, X9
4 X4
5 X5, X8, X12

Ausblick
Auswahl von Clusterverfahren
– Cluster haben unterschiedliche Form, Größe und Dichte.

– Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken. So
kann z.B. K-means nur konvexe Cluster entdecken.
– Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken.
– Cluster können hierarchisch angeordnet sein.

Ausblick
Weitere Anwendungsbeispiele
Kundensegmentierung: Welche Kundenprofile existieren ?

(Analyse von Kundenattributen)
Kaufverhalten: Welche Gruppen bzgl. des

Kaufverhaltens bestehen ?
(Analyse von Kaufähnlichkeiten)
Text-Mining: Finden ähnlicher Texte
Web-Log-Mining: Auffinden von Benutzergruppen auf

Web-Sites

Künstliche Neuronale Netze

Biologische Motivation
Bildquelle: http://commons.wikimedia.org/wiki/File:Complete_neuron_cell_diagram_de.svg
S. 136
Grundprinzip
§ Wirkung künstlich neuronaler Netze: Versuch der Nachbildung der Arbeitsweise des menschlichen Gehirns
§ Bestandteile:
o künstlichen Neuronen und
o deren Verknüpfungen
§ Wesentliches Merkmal:
o Lernfähigkeit der Netze durch eine Anpassung der Verbindungsstärke zwischen Neuronen über einen vorgegebenen
Regelmechanismus
§ Beispiel:
o Aufgaben der Klassifikation
o Mustererkennung

Einsatzgebiete
§ Überall dort, wo wenig explizites (kodifiziertes) Lösungswissen vorliegt

§ Typischerweise bei
o Zeitreihenanalysen (Wetter, Aktien ...)
o Sprachgenerierung
o Texterkennung
o Bilderkennung
o Gesichtserkennung

Künstliche Neuronen – Perzeptron (1)

x1
w1
φ
w2
åwixi
x2 Q y
w3
Gesamt- Aktivie- Output

x3 input rung

§ Gesamtinput:
ergibt sich als gewichtete Summe der Eingangssignale (Inputwerte) x1,x2,x3
§ Aktivierung:
Aktivierung des Neurons geschieht über die Aktivierungsfunktion φ, deren Wert von der Differenz aus
Gesamtinput und Schwellwert θ abhängt
§ Je nach Aktivierung:
Entstehung eines Outputwerts y

simples Modell:
§ einfaches Perzeptron mit nur einem künstlichen Neuron

§ Input besteht nur aus booleschen Werten (0 und 1)
§ Aktivierung des Neurons erfolgt, wenn der Gesamtinput größer oder gleich dem Schwellwert θ ist
§ Outputwert y ist der Indikatorwert der Aktivierung

Vorwärts gerichtete Künstliche Neuronale Netze (1)
Spezialfall eines vorwärts gerichteten KNNs :

Multilayer-Perzeptron (MLP)
à wird zur Klassifikation eingesetzt
Merkmale:
§ Differenzierung von drei Schichten: Inputschicht, Versteckte Schicht, Outputschicht

§ Es sind nur Neuronen verschiedener Schichten miteinander verbunden
§ Die Outputwerte vorgelagerter Neuronen werden über gewichtete Verbindungen an nachgelagerte
Neuronen gesendet
§ Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung weitergegeben, es gibt keine
Schleifen

Klassifikation
N8 N9 Outputschicht
Gewichte
w48
Versteckte
N4 N5 N6 N7
Schicht
Gewichte w37
N1 N2 N3 Inputschicht
Eingabemuster

§ Ein neuronales Netz lernt, indem es sich eigenständig gemäß vorgegebener Vorschriften
(Lernregeln) verändert.
§ Diese Lernregeln können umfassen:

Ø Veränderung der Netztopologie
Ø Modifikation der Parameter der Neuronen
Ø Veränderung der Gewichte

Bekanntes Verfahren: Back-Propagation

§ Werte eines Datensatzes werden in die Neuronen der Inputschicht eingegeben
§ Anschließend über die Neuronen und deren Verbindungen weitergeleitet, bis ein Wert in der Outputschicht erzeugt
wurde, der die durch das Netz berechnete Klasse des Datensatzes angibt (Forward Pass)
§ Dieser Wert wird mit der tatsächlichen Klassenzugehörigkeit verglichen (Fehlerbestimmung)

§ Bei einer Abweichung von „Soll-“ und „Ist“-Wert werden ausgehend von den Outputneuronen die zugehörigen
Verbindungsgewichte sowie die Verbindungsgewichte der Neuronen vorgelagerter Schichten derart geändert, dass die
Abweichung minimiert wird (Backward Pass)

§ Durch vorwärts gerichteten Künstlichen Neuronalen Netze lassen sich sehr gute Klassifikationsergebnisse auf dem
Trainingsdatenbestand erzielen
§ Wie bei den Entscheidungsbäumen liegt auch hier das Problem des Overfitting vor à deshalb ist eine
Güteabschätzung der Klassifikationsfähigkeit auf einer Testmenge etwa durch die Fehlklassifikationsquote notwendig
§ Ggf. müssen die Gewichte weiter angepasst werden
§ Auch möglich: Pruning

à indem Knoten oder Gewichte entfernt werden, um die Komplexität des Netzwerkes zu verringern

Vorteile:
§ Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute Ergebnisse bei der Klassifikation und Prognose erzeugen.
§ Die offene Struktur macht das Modell sehr flexibel.
Nachteile:
§ Es werden keine expliziten Regeln angegeben.
§ Das Adaptieren der Gewichte geschieht mitunter sehr langsam.
§ Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben.

Topologien Künstliche Neuronale Netze
Feedforward-Netz Feedforward-Netz Netz mit direkten

mit shortcut connections Rückkopplungen
Netz mit Rückkopplungen Netz mit indirekten

Vollständig verbundenes Netz
innerhalb einer Schicht Rückkopplungen

Ethische Probleme
Fairness / Systematische Abweichung

Understanding Artificial Neural Networks

6
Werkzeuge

Gartner Quadrant für
Tools
Data Science

R-Studio
Tools

Tools



R-Studio
Tools

Jupyter
Tools

PyData
Tools

Zepplin
Tools

Rapidminer
Tools

Rapidminer
Tools

KNIME
Tools

Hands-on II: Advanced Visualisation mit D3.js
Tools
Quellen:
https://d3js.org
https://github.com/mbostock/d3/wiki/Gallery

Hands-on II Task: Build Realtime-Monitoring with your own data
Tools
Quellen: http://code.shutterstock.com/rickshaw/examples/extensions.html
https://www.pubnub.com/blog/2015-01-29-stream-data-to-create-realtime-charts-w-d3js-and-rickshaw/
http://jsfiddle.net/peDzT/

7
Weitere Lernressourcen
Externe und weiterführende Ressourcen und Beispiele zum

Ausprobieren

…and check out the youtube channel by 3blue1brown
(https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw/)

Data Storytelling

Map the Life Expectancy in United States with data from Wikipedia with R
## LOAD THE PACKAGES #### ## LOAD THE MAP DATA ####
library(rvest) states = map_data("state")
library(ggplot2) # create a new variable name for state
library(dplyr) le$region = tolower(le$State)
library(scales) # merge the datasets
## LOAD THE DATA #### states = merge(states, le, by="region", all.x=T)
le = read_html("https://en.wikipedia.org/wiki/List_of_U.S._states_by_life_expectancy") ## MAKE THE PLOT ####
le = le %>% # Life expectancy in African American
html_nodes("table") %>% ggplot(states, aes(x = long, y = lat, group = group, fill = le_black)) +
.[[2]]%>% geom_polygon(color = "white") +
html_table(fill=T) scale_fill_gradient(name = "Years", low = "#ffe8ee", high = "#c81f49", guide = "colorbar", na.value="#eeeeee",
## CLEAN THE DATA #### breaks = pretty_breaks(n = 5)) +
# select only columns with data labs(title="Life expectancy in African American") +
le = le[c(1:8)] coord_map()
# get the names from 3rd row and add to columns
names(le) = le[3,]
# delete rows and columns which I am not interested
le = le[-c(1:3), ]
le = le[, -c(5:7)]
# rename the names of 4th and 5th column
names(le)[c(4,5)] = c("le_black", "le_white")
# make variables as numeric
le = le %>%
mutate(
le_black = as.numeric(le_black),
le_white = as.numeric(le_white))
le = le %>% mutate(le_diff = (le_white - le_black))
https://datascienceplus.com/visualizing-obesity-across-united-states-by-using-data-from-wikipedia/
http://www.datasciencecentral.com/profiles/blogs/map-the-life-expectancy-in-united-states-with-data-from-wikipedia

Infomaps using R – Visualizing German unemployment rates by district on a map
### DATA PREP ###
# loading the unemployment data
unempl <- read.delim2(file="./data/data_germany_unemployment_by_
county.txt", header = TRUE, sep = "\t",
dec=",", stringsAsFactors=F)
# due to Mac OS encoding, otherwise not needed

gadm_names <- iconv(gadm$NAME_3, "ISO_8859-2", "UTF-8")
# fuzzy matching of data: quick & dirty
# caution: this step takes some time ~ 2 min.
# parsing out "Städte"

gadm_names_n <- gsub("Städte", "", gadm_names)
total <- length(gadm_names)

# create progress bar
pb <- txtProgressBar(min = 0, max = total, style = 3)
order <- vector()
for (i in 1:total){
order[i] <- agrep(gadm_names_n[i], unempl$Landkreis,
max.distance = 0.2)[1]
setTxtProgressBar(pb, i) # update progress bar
}
# choose color by unemployment rate
col_no <- as.factor(as.numeric(cut(unempl$Wert[order],
c(0,2.5,5,7.5,10,15,100))))
levels(col_no) <- c(">2,5%", "2,5-5%", "5-7,5%",
"7,5-10%", "10-15%", ">15%")
gadm$col_no <- col_no
myPalette<-brewer.pal(6,"Purples
# plotting
spplot(gadm, "col_no", col=grey(.9), col.regions=myPalette,
main="Unemployment in Germany by district“)
https://ryouready.wordpress.com/2009/11/16/infomaps-using-r-visualizing-german-unemployment-rates-by-color-on-a-map/

Examples in Python

After the lectures is before the practise...

Skript Einfuehrung in Data Science - Teil 1 Final

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Skript Einfuehrung in Data Science - Teil 1 Final

Hochgeladen von

Copyright:

Verfügbare Formate

Einführung in Data Science

Prof. Dr. Christian Schieder

BMBF-Verbundprojekt OTH mind

Autor: Prof. Dr. Christian Schieder

Kontakt: Hetzenrichter Weg 15, 92637 Weiden in der Oberpfalz

BMBF-Verbundprojekt OTH mind S. 2

BMBF-Verbundprojekt OTH mind S. 3

BMBF-Verbundprojekt OTH mind S. 4

People changing their relationship status to “single”

April Fool’s Day

Valentine‘s Day Summer holiday

Christmas “too cruel”

BMBF-Verbundprojekt OTH mind

• z.B. Verkehrsflüsse, Effizienz der Maschinennutzung, Logistik (Gütertransport)

• z.B. Medizin, Produktempfehlungen (Spotify)

• z.B. autonomes Fahren, Fahrassistenten

• z.B. Automatisches Übersetzen von Texten, PC-Spiele, Robotik

BMBF-Verbundprojekt OTH mind S. 11

= Konzept geprägt von Jim Gray

2. Theoretisch: - Gesetze und Regeln die Umwelt beschreiben (Physik)

BMBF-Verbundprojekt OTH mind S. 12

§ Before Big Data: Correlation is not causation!

§ With Big Data: Who cares?

• Petabytes allow us to say: „Correlation is enough.“

BMBF-Verbundprojekt OTH mind S. 13

BMBF-Verbundprojekt OTH mind S. 14

BMBF-Verbundprojekt OTH mind S. 15

BMBF-Verbundprojekt OTH mind S. 16

• Interessante Regeln finden

• Ähnliche Dinge gruppieren

• Ähnliche Dinge organisieren

• Aus Daten lernen – Modelle bilden

Quelle: https://www.nzz.ch/wissen/wissenschaft/die-geschichte-einer-wasserpumpe-in-london-1.18049701 (Abruf: 30.01.2020)

BMBF-Verbundprojekt OTH mind S. 17

BMBF-Verbundprojekt OTH mind S. 18

BMBF-Verbundprojekt OTH mind

BMBF-Verbundprojekt OTH mind

BMBF-Verbundprojekt OTH mind

BMBF-Verbundprojekt OTH mind

BMBF-Verbundprojekt OTH mind S. 25

BMBF-Verbundprojekt OTH mind S. 26

BMBF-Verbundprojekt OTH mind S. 27

BMBF-Verbundprojekt OTH mind S. 29

BMBF-Verbundprojekt OTH mind S. 30

§ Linked Open Data: z.B Wikipedia

§ Hidden Web: z.B. Suche über Suchmaske

§ Wissenschaftliche Daten z.B. Teleskopdaten

§ Veröffentlichungen: z.B. Zeitungsartikel

§ Historische Daten: z.B Wetterdaten

§ Master Data im Unternehmen

BMBF-Verbundprojekt OTH mind S. 31

• Open Canada – Open Data: http://open.canada.ca/en/open-data

Open Data Institute: http://opendatainstitute.org/

BMBF-Verbundprojekt OTH mind S. 32

§ Durchbruch in 70er von IBM

BMBF-Verbundprojekt OTH mind S. 33

BMBF-Verbundprojekt OTH mind S. 34

Der Umfang der Daten

= Umfang der Daten

BMBF-Verbundprojekt OTH mind S. 35

Die Eintrittsgeschwindigkeit der Daten

= Wie schnell prasseln Daten auf mich ein?

BMBF-Verbundprojekt OTH mind S. 36