Sie sind auf Seite 1von 174

Einführung in Data Science

Skript

Prof. Dr. Christian Schieder


OTH mind - BMBF Verbundprojekt
#aufstieggestalten
2020

Dieses Material ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen Bedingungen 4.0 International Lizenz (CC
BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten,
OTH Amberg-Weiden“.

BMBF-Verbundprojekt OTH mind


Impressum

Autor: Prof. Dr. Christian Schieder

Herausgegeben durch: Teilprojekt #aufstieggestalten der OTH Amberg-Weiden aus dem Verbundprojekt „OTH mind“ mit der OTH
Regensburg des Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“

Kontakt: Hetzenrichter Weg 15, 92637 Weiden in der Oberpfalz


othmind@oth-aw.de
www.oth-aw.de/oth-mind

Copyright: Dieses Kursmaterial ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen
Bedingungen 4.0 International Lizenz (CC BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt
genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten, OTH Amberg-Weiden“.

Hinweis: Diese Publikation wurde im Rahmen des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten
Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“ erstellt. Die in dieser Publikation
dargelegten Inhalte liegen in der alleinigen Verantwortung des Autors.

BMBF-Verbundprojekt OTH mind S. 2


Agenda

1_ Einführung
2_ Geschichte der Datenanalyse und Datenanalysegeschichten
3_ Datengrundlage und Eigenschaften von Daten
4_ Aufgaben und Vorgehensmodelle der Datenanalyse
5_ Methoden des maschinellen Lernens
(1) Vorbemerkungen zum statistischen Lernen
(2) Entscheidungsbaumlernverfahren
(3) Clusterverfahren
(4) Künstliche Neuronale Netze
6_ Werkzeuge zur Datenanalyse
7_ Weitere Lernressourcen

BMBF-Verbundprojekt OTH mind S. 3


1
Einführung

BMBF-Verbundprojekt OTH mind S. 4


Big data? Big opportunities!
Digital! Data-driven

People changing their relationship status to “single”


according to Facebook status updates
Spring Break
2 weeks before
“spring clean“
winter holidays

April Fool’s Day

Valentine‘s Day Summer holiday


Mondays

Christmas “too cruel”

JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC

September
Source: 21th, 2017
McCandless, D.: |The
Dr.Visual
Schieder, Christian | Slide
Miscellaneum, 5
Harper, © BHS Corrugated. Better – across the Board!
2009, informationisbeautiful.net, http://ed.ted.com/lessons/david-mccandless-the-beauty-of-data-visualization
BMBF-Verbundprojekt OTH mind
BMBF-Verbundprojekt OTH mind S. 7
https://www.youtube.com/watch?v=i2jwZcWicSY
BMBF-Verbundprojekt OTH mind
BMBF-Verbundprojekt OTH mind S. 9
Data Science aus Methodensicht

BMBF-Verbundprojekt OTH mind


S. 10

Quellen: in Anlehnung an Küsters (2001), S. 95 ff.; Meyer (2002) übernommen von Hilbert (2012), S. 47
Anwendungsgebiete von Data Science

§ Vorhersage
• z.B. Wettervorhersage, Naturkatastrophe, Maschinenausfall, Krankheitsausbrüche

§ Optimierung

• z.B. Verkehrsflüsse, Effizienz der Maschinennutzung, Logistik (Gütertransport)


§ Personalisierung

• z.B. Medizin, Produktempfehlungen (Spotify)


§ Komfort

• z.B. autonomes Fahren, Fahrassistenten

§ Intelligenz

• z.B. Automatisches Übersetzen von Texten, PC-Spiele, Robotik

BMBF-Verbundprojekt OTH mind S. 11


Das Vierte Paradigma der Wissenschaft

= Konzept geprägt von Jim Gray


1. Empirisch / Experimentell: - Systematische Sammlung und Dokumentation von Daten der Umwelt

2. Theoretisch: - Gesetze und Regeln die Umwelt beschreiben (Physik)


3. Berechnend: - Computersimulation der Abläufe
- Gewinnung von Erkenntnissen daraus
4. Data-intensive: - Heranziehen von empirisch ermittelter Daten
- Bildung komplexer Modelle ( Verständnis, Vorhersagen etc.)

Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 12


Das Ende der klassischen Wissenschaft

Machen große Datenmengen, die wir sammeln und Auswerten die Wissenschaft obsolet?

§ The End of Theory: The Data Deluge Makes the Scientific Method Obsolete

• All models are wrong, but some are useful. (George Box)
• All models are wrong, and increasingly you can succeed without them. (Peter Norvig)

§ Before Big Data: Correlation is not causation!

§ With Big Data: Who cares?


• Traditional approach to science – hypthesize, mode, test – is becoming obsolete

• Petabytes allow us to say: „Correlation is enough.“

BMBF-Verbundprojekt OTH mind S. 13


Korrelation vs. Kausalität

BMBF-Verbundprojekt OTH mind S. 14


Korrelation vs. Kausalität

BMBF-Verbundprojekt OTH mind S. 15


2
Geschichte der Datenanalyse und
Datenanalysegeschichten

Data Storytelling

BMBF-Verbundprojekt OTH mind S. 16


Geschichte der Datenanalyse

§ Aggregation
• Statistik berechnen

§ Data Mining

• Interessante Regeln finden


§ Clustering

• Ähnliche Dinge gruppieren


§ Klassifikation

• Ähnliche Dinge organisieren

§ Maschinelles Lernen

• Aus Daten lernen – Modelle bilden

Quelle: https://www.nzz.ch/wissen/wissenschaft/die-geschichte-einer-wasserpumpe-in-london-1.18049701 (Abruf: 30.01.2020)

BMBF-Verbundprojekt OTH mind S. 17


A Timeline of Data Visualization Pioneers

Quelle: http://de.slideshare.net/dataremixed/7-lessons-from-the-pioneers?qid=868353ba-30b5-4d61-8804-88c7d891dfef&v=&b=&from_search=1

BMBF-Verbundprojekt OTH mind S. 18


BMBF-Verbundprojekt OTH mind
Christoph Scheiner: Beobachtung von Sonnenflecken (1626)

Friendly, Michael & Chen, Chun-houh & Härdle, Wolfgang Karl & Unwin,
Antony. (2008). A Brief History of Data Visualization. 10.1007/978-3-540-
33037-0_2.
Joseph Priestley: A New Chart of History (1769)

BMBF-Verbundprojekt OTH mind


20.03.20 20
William Playfair: English Trade Deficit (1786)

BMBF-Verbundprojekt OTH mind


Florence Nightingale: Diagram of the causes of mortality in the army in the East“ (1858)

BMBF-Verbundprojekt OTH mind


Charles Minard: Flow map of Napoleon’s 1812 Russian campaign (1869)

BMBF-Verbundprojekt OTH mind


Was braucht der Data Scientist?

Quelle: https://www.youtube.com/watch?v=Esm9yUl-xu8
BMBF-Verbundprojekt OTH mind S. 24
Genau hinschauen...

BMBF-Verbundprojekt OTH mind S. 25


Hans Rosling @TED: Story Telling with Data

BMBF-Verbundprojekt OTH mind S. 26


Visualisierung

BMBF-Verbundprojekt OTH mind S. 27


Weitere Visualisierungen

(https://github.com/d3/d3/wiki/Gallery)
BMBF-Verbundprojekt OTH mind S. 28
Boxplot (Kastengrafik)

BMBF-Verbundprojekt OTH mind S. 29


3
Datengrundlage und Eigenschaften von
Daten

BMBF-Verbundprojekt OTH mind S. 30


Wo kommen Daten her?

§ 2 große Kategorien

§ Offene Daten

§ Linked Open Data: z.B Wikipedia

§ Hidden Web: z.B. Suche über Suchmaske


§ Regierungsdaten z.B. Arbeitslosenzahlen

§ Wissenschaftliche Daten z.B. Teleskopdaten

§ Veröffentlichungen: z.B. Zeitungsartikel

§ Historische Daten: z.B Wetterdaten


§ Interne Daten (Geschäftsdaten)

§ Master Data im Unternehmen

§ Transaktionale Daten

§ Sensordaten

BMBF-Verbundprojekt OTH mind S. 31


Open Data Ressources

• Open Canada – Open Data: http://open.canada.ca/en/open-data


– Open Data 101: http://open.canada.ca/en/open-data-principles
• Open Data handbook: http://opendatahandbook.org/pdf/OpenDataHandbook.pdf

Open Data Institute: http://opendatainstitute.org/


• Open Data Portal: http://open.canada.ca/data/en/dataset
• Open Data Registry: http://opendataregistry.com/
• Open Data Subject Guide: http://stfx.libguides.com/opendata
• Open Definition: http://opendefinition.org/od/

BMBF-Verbundprojekt OTH mind S. 32


Relationales Datenbankmodell

§ Durchbruch in 70er von IBM


§ Edgar F. Codd: Turing Award
§ RDM:
• Systematische & mathematische Datenspeicherung
• Integrierte Datenverwaltung/Haltung in einheitlicher und nicht redundanter Form
• Sorgfältige Aufteilung auf Tabellen
• Jede Tatsache wird nur 1-mal gespeichert (Inkonsistenz!)
§ Operationen:
• Tabellen definieren
• Daten speichern, ändern, abrufen
• Auf systematische Art und Weise
• Transaktion: mehrere Operationen zu einer zusammengefasst (z.B Überweisung)
§ Schutz:
• Zugriffsberechtigungen

BMBF-Verbundprojekt OTH mind S. 33


Big Data

BMBF-Verbundprojekt OTH mind S. 34


Volume

Der Umfang der Daten

= Umfang der Daten


§ Big Data : Daten so groß, dass ich mit herkömmlichen Methoden nicht mehr weiter komme
§ Große Datenmengen bringen Probleme mit sich:
§ Operationen werden komplexer
• Eintragen neuer Daten
• Suchen von Daten (Indizes)
• Sortieren von Daten

BMBF-Verbundprojekt OTH mind S. 35


Velocity

Die Eintrittsgeschwindigkeit der Daten

= Wie schnell prasseln Daten auf mich ein?


§ Verarbeitung der Daten muss schnell erfolgen

§ Speicherung nebensächlich

§ Rechtzeitiges reagieren
§ Beispiele:
• Börse
• Banken (Überweisungen validieren)
• Autonomes Fahren

BMBF-Verbundprojekt OTH mind S. 36


Variety

Die Heterogenität der Daten

= Vielfalt der Daten


§ Heterogenität der Daten:
• Verschiedene Datenmodelle
• Verschiedene Größenordnungen
• Verschiedene Sprachen ( z.B Deutsch, Englisch, Spanisch)
• Verschiedene Standards ( z.B. Formate)

§ Technische und semantische Herausforderungen


§ Beispiel: Verschiedene Arten von Daten
• Tabellen
• Textdaten
• Sensordaten
• …

BMBF-Verbundprojekt OTH mind S. 37


Veracity

= Wahrhaftigkeit der Daten


§ Datenqualität:
• Korrektheit
• Vollständigkeit
• Konsistenz
• Aktualität

BMBF-Verbundprojekt OTH mind S. 38


Informationsqualität

Datenqualitätsdimensionen

BMBF-Verbundprojekt OTH mind S. 39


Informationsqualität

Klassifikation der Dimensionen

§ Informationsqualität:
• 15 Dimensionen
• 4 Kategorien
§ Systemunterstützte Datenqualitätsdimensionen
• Zugänglichkeit
- Accessability
• Bearbeitbarkeit
- Ease of manipulation
§ Inhärente Datenqualitätsdimensionen
• Hohes Ansehen
- Reputation
• Objektivität
- Objectivity
• Glaubwürdigkeit
- Believability
• Fehlerfreiheit
- Free of error

BMBF-Verbundprojekt OTH mind S. 40


Klassifikation von Datenfehlern

Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data


Science – Klarheit in den Schlagwort-Dschungel (Abruf:
30.01.2020).

BMBF-Verbundprojekt OTH mind S. 41


Auswirkung schlechter Qualität

§ Fehlerhafte Warenpreise in Artikel DB des US–


Einzelhandels

• 80% der Barcode Scan Fehler zulasten der


Konsumenten
§ US– Finanzbehörde 1992: Knapp 100.000
Steuererstattungsbescheide unzustellbar

§ 50-80% der Einträge im US- Vorstrafenregister


Quelle: https://www.pexels.com/photo/angry-bad-john-art-black-and-white-emotion-709732/ (Abruf: 30.01.2020).
ungenau, unvollständig oder fehlerhaft

§ US- Post: von 100.000 Massen- Postsendungen


bis zu 7000 aufgrund von Adressfehlern
unzustellbar

BMBF-Verbundprojekt OTH mind S. 42


Data Preparation: Probleme

§Typische Probleme:
•Zeilenende wird nicht erkannt
•Fußzeile/ Präambel
•Trennung von Feldern
(Komma, Semikolon, Tab)
•Falscher Wert
•Fehlende Werte
•Falsches Format
•Falscher Titel
•Überflüssige Zeichen

BMBF-Verbundprojekt OTH mind S. 43


4
Aufgaben und Vorgehensmodelle

BMBF-Verbundprojekt OTH mind S. 44


A day in the life of a Data Scientist...

Adjustment and adaption of data 60%


Collecting data 19%
Create training records 3%
Other 5%
Adjustment of algorithms 4%
Pattern recognition 9%

BMBF-Verbundprojekt OTH mind S. 45


Data Preparation

What data scientists spend most time What is the least enjoyable part of data
doing? science?

BMBF-Verbundprojekt OTH mind S. 46


Vorgehensmodelle und Prozessablauf

Prozess- Daten-
verständnis verständnis

Daten-
Bereitstellung Data aufbereitung

Evaluierung Modellierung

Chapman et al.: CRISP-DM 1.0, Step-by-step data mining guide, aufgerufen im Internet unter:
http://66.249.93.104/search?q=cache:iLECXEj-VjYJ:www.crisp-dm.org/CRISPWP-800.pdf, S. 13 Source: Dataiku (2016): Data Science for Banking & Insurance, SURVIVING AND THRIVING IN THE ERA OF INTERNET GIANTS AND
FINANCIAL TECHNOLOGY STARTUPS

BMBF-Verbundprojekt OTH mind S. 47


Building Pipilines of Knowledge

BMBF-Verbundprojekt OTH mind


S. 48

http://www.datasciencecentral.com/profiles/blogs/data-science-summarized-in-one-picture
https://www.linkedin.com/pulse/business-intelligence-data-science-fuzzy-borders-rubens-zimbres/
Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 49


Aufgaben zur Durchführung von Data Science Projekten

Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 50


Knowledge Discovery in Databases (KDD)

Knowledge Discovery in Databases beschreibt den „…non trivial process of identifying valid, novel, potentially
useful and ultimately understandable patterns in data…“
[Fayyed, et al., 1996]

BMBF-Verbundprojekt OTH mind S. 51


CRISP-DM: Cross-Industry Reference Process for Data Mining

§ Business Understanding
Verstehen des Geschäftsproblems und Transformation
in ein Daten-Analyse-Problem
§ Data Understanding
Verstehen der Datenrepräsentation sowie erste
explorative Analyse(n)
§ Data Preparation
ETL-Prozess, Daten Transformation und Bereinigung,
Anreichern, etc.
§ Modeling
Erstellen eines Data-Mining-Modells mit einem
geeigneten Verfahren
§ Evaluation
Auswahl und Bewertung des/der Modelle, Business-
Ziel erreicht?
§ Deployment
Anwendung des Modells im operativen Betrieb

BMBF-Verbundprojekt OTH mind


CRISP-DM: Generische Aufgaben und Outputs

Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment

Determine Business Collect initial data Select Data Select modeling technique Evaluate results Plan deployment
Objectives •Initial data collection report •Rationale for •Modeling technique •Assessment of data mining •Deployment plan
• Background inclusion/exclusion •Modeling assumptions results with respect to
• Business Objectives business success criteria
• Business Success Criteria •Approved models
Clean data
Describe data •Data cleaning report Plan monitoring and
Assess Situation Generate test design maintenance
•Data description report
• Inventory of Resources •Monitoring and maintenance
•Test design
• Requirements, assumptions and Review process plan
constraints
Construct data
• Risks and contingencies •Derived attributes •Review of process
• Terminology Explore data •Generated records Build model Produce final report
• Costs and benefits
•Data exploration report •Parameter settings •Final report
Integrate data •Models •Final presentation
•Merged data •Model description
Determine Data Mining Goals
Determine next steps
• Data mining goals Assess model
Verify data quality •List of possible actions Review project
• Data mining success criteria •Model assessment
•Data quality report Format data •Decision •Experience documentation
•Revised parameter settings
•Reformatted data
Produce Project Plan
• Project plan
• Initial assessment of tools and
techniques

BMBF-Verbundprojekt OTH mind S. 53


Aufteilung der Daten in Trainings-, Validierungs- und Testmenge

Quelle: TDWI e-Book Data Science

BMBF-Verbundprojekt OTH mind S. 54


Typischer Zeitaufwand für die verschiedenen Aufgaben

BMBF-Verbundprojekt OTH mind S. 55


5
Ausgewählte Methoden
1. Vorbemerkungen zum statistischen Lernen
2. Entscheidungsbaumlernverfahren
3. Clusterverfahren
4. Künstliche Neuronale Netze

BMBF-Verbundprojekt OTH mind S. 56


Understanding Classification

BMBF-Verbundprojekt OTH mind S. 57


Vorbemerkungen zu statistischen
Lernverfahren

BMBF-Verbundprojekt OTH mind S. 58


Seeing Theory

http://students.brown.edu/seeing-theory/regression/index.html#first

BMBF-Verbundprojekt OTH mind S. 59


Statistik

§ Deskriptive Statistik

§ Induktive Statistik

§ Explorative Statistik

Quelle: https://statistics.rutgers.edu/ (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 60


Schummeln mit Statistik

„Durchschnitt“

§ Arithmetisches Mittel (75.472)

§ Geometrisches Mittel (48.102)

§ Harmonisches Mittel (41.122)

§ Median (50.000)

§ Modus (30.000)

BMBF-Verbundprojekt OTH mind S. 61


„Schummeln“ mit Visualisierung

https://youtu.be/ddtU9VGQYe4?t=546

BMBF-Verbundprojekt OTH mind S. 62


Risikokompetenz

BMBF-Verbundprojekt OTH mind S. 63


Deskriptive vs. prädiktive Analyse

Quelle: https://www.comspace.de/de/news/glossar/a/analytics (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 64


Lernen: Überwacht und Unüberwacht

Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 65


Trainingsdaten / Testdaten

BMBF-Verbundprojekt OTH mind S. 66


Overfitting (Überanpassung)

Was lernen statistische Lernverfahren?

Quelle: ByChabacano- Own work, CC BY-SA 4.0,


https://commons.wikimedia.org/w/index.php?curid=3610704 (Abruf: 30.01.2020).

BMBF-Verbundprojekt OTH mind S. 67


Klassifizierung

B. H. Menze et al., "The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS),"
in IEEE Transactions on Medical Imaging, vol. 34, no. 10, pp. 1993-2024, Oct. 2015.

BMBF-Verbundprojekt OTH mind S. 68


Evaluation

Vorhersage von persönlichen Eigenschaften auf Basis von Facebook-Likes

https://doi.org/10.1073/pnas.1218772110

BMBF-Verbundprojekt OTH mind S. 69


Evaluation

Evaluationsmethoden und -kennzahlen

• Konfidenzintervall
• Confusion Matrix
• Gain & Lift
• Kolmogorov-Smirnov
• Chi^2
• ROC-Chart
• RSME
• Cross Validation

http://www.datasciencecentral.com/profiles/blogs/7-important-model-
evaluation-error-metrics-everyone-should-know

BMBF-Verbundprojekt OTH mind S. 70


Evaluation

Erfolgsmaße

BMBF-Verbundprojekt OTH mind S. 71


Entscheidungsbaumlernverfahren

Mit dem Beispiel ID3-Algorithmus

BMBF-Verbundprojekt OTH mind S. 72


Entscheidungsbaumverfahren – Allgemein

• Ziel:
Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen
Klassen zugeordnet werden können
• Vorgehensweise:
Zuordnung anhand von Regeln
(Darstellung mit Klassifikationsbäumen)
• Beispiel:
Einteilung von Datensätzen mit Angaben über Kunden derart, dass damit die Käufergruppe erkannt
werden kann, in die ein neuer Kunde voraussichtlich gehört
• Voraussetzung:
Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist

BMBF-Verbundprojekt OTH mind S. 73


Grundsätzliche Arbeitsweise

• Aufteilung des Gesamtdatenbestandes in eine Trainingsmenge und eine Testmenge


• Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus homogenere Gruppen von Datensätzen
bezüglich der Klassifikationsvariablen ergeben
• Darstellung der Aufteilung der Datenmengen durch einen Baum, in dem jeder Knoten eine Datenmenge
indiziert, dem ein Homogenitätsmaß zugeordnet wird
• Fortführung der Aufteilung, bis das Homogenitätsmaß einen vorgegebenen Wert erreicht
• Überprüfung der Ergebnisse anhand der Testmenge

BMBF-Verbundprojekt OTH mind S. 74


Beispiel

Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendaten- sätzen vor. Dabei werden
70 % der Kunden als kreditwürdig und 30 % der Kunden als nicht-kreditwürdig eingestuft.
Durch eine Aufteilung des Gesamtdatenbestandes anhand eines Merkmales sollen zwei Teilmengen
derart entstehen, dass sich in der einen Teilmenge mehr Kundendatensätze mit der Eigenschaft
kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit der Eigenschaft nicht-
kreditwürdig befinden. Beide Teilmengen weisen damit eine bessere Homogenität bezüglich der
Klassifikationsvariablen auf, als der Ausgangsdatenbestand.

BMBF-Verbundprojekt OTH mind S. 75


Beispiel

BMBF-Verbundprojekt OTH mind S. 76


Beispiel Datensätze Gesamt: 1000
Datensätze Klasse X: 700
Datensätze Klasse Y: 300

Attribut A: erfüllt nicht Bedingung K1 Attribut A: erfüllt Bedingung K1

Gesamt: 600 Klasse X: 320 Klasse Y: 280 Gesamt: 400 Klasse X: 380 Klasse Y: 20

Attribut B: erfüllt nicht


Attribut B: erfüllt Bedingung K2
Bedingung K2

40 260 280 20
300 300

Große Homogenität bezüglich des Klassifikators!

BMBF-Verbundprojekt OTH mind S. 77


Regeln
Schrittfolge:
1) Baum generieren
2) anhand des Baumes neuen Datensätzen (unter Beachtung der Regeln) deren
voraussichtliche Klasse zuordnen

Im Beispiel sind dies folgende Regeln:

WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige Objekt der
Klasse Y an.

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die Bedingung K2,
DANN gehört das zugehörige Objekt der Klasse Y an.

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die


Bedingung K2, DANN gehört das zugehörige Objekt der Klasse X an.

BMBF-Verbundprojekt OTH mind S. 78


Splitkriterien und Homogenitätsmaße
§ Unterscheidung der Entscheidungsbaumverfahren durch die zugehörigen Splitkriterien (kurz: Split)
§ Splitkriterien basieren auf einem Homogenitätsmaß
• Homogenitätsmaß wird definiert mit Hilfe der relativen Häufigkeit pi des Auftretens bestimmter Datensätze einer bestimmten
Klasse i

Beispiel:

Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit gilt für den
Datenbestand:
p1= 70 %, p2= 30 %

Ziel:
• Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte Klassenzugehörigkeiten
erreichen
• Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der Knoten à ideal
wäre eine Verteilung (100%, 0 %)
• Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen
zugeordnet werden können

BMBF-Verbundprojekt OTH mind S. 79


Entropie

§ Als Maß für die Homogenität des Knoten T kann die Entropie verwendet
werden.

k
Entropie(T ) = -å pi × log 2 pi mit(0 × log2 0 = 0)
i =1

§ Gilt Entropie = 0, so ist der Knoten homogen.

§ Die Entropie nimmt ihren Maximalwert an (log2 der Klassenanzahl),


wenn eine Gleichverteilung vorliegt.

BMBF-Verbundprojekt OTH mind S. 80


Informationsgewinn

§ Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt.
§ Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A
bekannt ist.
Informationsgewinn (IG) durch Split der Menge T in m Teilmengen Ti (i=1,…,m):

m
| Ti |
IG = Entropie(T ) - å Entropie(Ti )
i =1 | T |

§ Ein neuer Knoten Ta enthält alle Elemente, bei denen das Attribut A die Ausprägung a
annimmt.
§ Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten
Knotens T minus der Summe der Entropien der neuen Knoten Ta, wobei als
Gewichtung die relative Größe der neuen Knoten Ta bezogen auf den
Ausgangsknoten T gewählt wird.

BMBF-Verbundprojekt OTH mind S. 81


Gini-Index
§ Als weiteres Maß für die Homogenität des Knoten T kann der Gini-Index
verwendet werden.
k
Gini (T ) = 1 - å pi2
i =1

§ Gilt Gini (T) = 0, so ist der Knoten homogen.

§ Der Gini-Index nimmt seinen Maximalwert an, wenn eine


Gleichverteilung vorliegt.

§ Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine
Partition des Knotens T mittels Attribut A bringt:
| Ta |
Gini(T , A) = å Gini(Ta )
aÎA |T |

BMBF-Verbundprojekt OTH mind S. 82


Fehlklassifikationsquote

• Messung der Güte eines Entscheidungsbaumes anhand der Fehlklassifikationsquote


a) Fehlklassifikationsquote als Anteil der durch das Modell fehlerhaft klassifizierten Datensätze zur Gesamtanzahl der klassifizierten
Datensätze

– sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen Testmenge ermittelt werden
b) Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes

– ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse zugeordnet werden, unabhängig von
der tatsächlich vorliegenden Klassenzugehörigkeit

– in Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in homogenere Knoten verringert werden
kann

– dient dennoch als erster Hinweis auf die Güte des Baums

BMBF-Verbundprojekt OTH mind S. 83


Overfitting
• Overfitting
– „auswendig lernen“ von Trainingsdaten
– Modell enthält zusätzliche (zu viele und z. T. irrelevante) erklärende Variablen
– Problem: Modell funktioniert nur auf den Trainingsdaten

• Strategien zur Reduzierung des Overfitting-Problems


– Entfernen von fehlerhaften Trainingsdaten
– Reduzierung der Größe der Trainingsmenge
– Transformation der Trainingsdaten, z. B. Dimensionsreduktion
– Beschränkung der maximal erlaubte Homogenität in Knoten
– Mindestanzahl von Datensätzen in den Knoten
– Pruning

BMBF-Verbundprojekt OTH mind S. 84


Pruning

• Ist das nachträgliche Modifizieren des Entscheidungsbaumes


• mit dem Ziel die Fehlklassifikationsquote auf unbekannten Datensätzen zu verringern

Eine Pruning-Strategie ist das Fehlerreduktions-Pruning:


• Hierbei wird in jedem Pruning-Schritt derjenige Teilbaum T des Gesamtbaumes E bestimmt, durch
dessen Entfernung der Klassifikationsfehler auf der Validierungsmenge am stärksten verringert
wird.
• Dieser Teilbaum wird anschließend entfernt.

BMBF-Verbundprojekt OTH mind S. 85


Beispiel Mailingaktion

In einem Versandhaus sollen Spezialkataloge versendet werden. Für einige Kunden wurden bereits
Entscheidungen über die zu versendenden Kataloge getroffen.
Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den Gruppen Textilien und Geschenkartikel
sowie der dabei angefallene Durchschnittsumsatz zur Verfügung.
Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden zwischen wenig, mittel und viel bzw.
niedrig, mittel und hoch.
Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein Geschenkartikel (G)-Katalog oder kein (N-)Katalog
zur Verfügung.

BMBF-Verbundprojekt OTH mind S. 86


Ausgangsdatenbestand
12 Kundenkaufprofile Zielvariable

Kunden Textilien Geschenkartikel O-Preis Katalog

X1 mittel wenig mittel T


X2 wenig mittel niedrig N
X3 mittel viel mittel TG
X4 viel wenig hoch T
X5 wenig mittel hoch G
X6 viel mittel niedrig TG
X7 wenig viel niedrig G
X8 mittel wenig niedrig N
X9 viel wenig niedrig T
X10 wenig wenig hoch N
X11 wenig viel mittel G
X12 viel viel hoch TG

BMBF-Verbundprojekt OTH mind S. 87


Informationsbedarf im Ausgangsknoten

Entropie der Klassifikation (Informationsbedarf):


k
Entropie(T ) = -å pi × log 2 pi
i =1

= -( 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 )

= -(-2) = 2

BMBF-Verbundprojekt OTH mind S. 88


Informationsgewinn durch Klassifikation nach Textilien

1,..,12 (123 3
12
3
12
3
12
)
Textilien T, G, TG,
N

2, 5, 7, 10, 11 1, 3, 8 4, 6, 9, 12

pi (0 3
5 0 2
5
) (13 0 1
3
1
3
) (24 0 2
4 0)
T, G, TG, N T, G, TG, N T, G, TG, N

Entropie 0,97 1,59 1

IG(Textilien) = 2 - 125 (0,97) - 123 (1,59) - 124 (1) = 0,87

BMBF-Verbundprojekt OTH mind S. 89


Informationsgewinn durch Klassifikation nach Geschenkartikel

1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12

pi (53 0 0 2
5
) (0 1
3
1
3
1
3
) (0 2
4
2
4 0)
T, G, TG, N T, G, TG, N T, G, TG, N

Entropie 0,97 1,59 1

IG(Geschenkartikel) = 2 - 125 (0,97) - 123 (1,59) - 124 (1) = 0,87

BMBF-Verbundprojekt OTH mind S. 90


Informationsgewinn durch Klassifikation nach Durchschnittspreis

1,..,12
Durchschnittspreis

2, 6, 7, 8, 9 1, 3, 11 4, 5, 10, 12

pi (15 1
5
1
5
2
5
) (13 1
3
1
3 0) (14 1
4
1
4
1
4 )
T, G, TG, N T, G, TG, N T, G, TG, N

Entropie 1,92 1,59 2

IG(Durchschnittspreis) = 2 - 125 (1,92) - 123 (1,59) - 124 (2) = 0,14

BMBF-Verbundprojekt OTH mind S. 91


Auswahl des Klassifikationsmerkmals mit dem höchsten Informationsgewinn

Entropie im Knoten: 2
1,..,12

Informationsgewinn bei
Unterteilung nach Merkmal

Den höchsten IG liefert eine


Textilien: 0,87 Unterteilung nach Textilien oder
Geschenkartikel. Deshalb wird eines
dieser beiden Merkmal für die erste
Geschenkartikel: 0,87 Differenzierungsebene im
Entscheidungsbaum ausgewählt (hier:
Geschenkartikel).
Durchschnittspreis: 0,14

BMBF-Verbundprojekt OTH mind S. 92


Entscheidungsbaum auf Ebene 1

1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12

Für jeden der neu entstandenen Knoten muss das Verfahren


nun für alle übrigen Merkmale wiederholt werden.

BMBF-Verbundprojekt OTH mind S. 93


Teildatenbestand für nächsten Knoten

12 Kundenkaufprofile

Kunden Textilien Geschenkartikel O-Preis Katalog

X1 mittel wenig mittel T


X2 wenig mittel niedrig N
3/5
X3 mittel viel mittel TG
X4 viel wenig hoch T
X5 wenig mittel hoch G
X6 viel mittel niedrig TG
X7 wenig viel niedrig G
X8 mittel wenig niedrig N
X9 viel wenig niedrig T 2/5

X10 wenig wenig hoch N


X11 wenig viel mittel G
X12 viel viel hoch TG

BMBF-Verbundprojekt OTH mind S. 94


Informationsbedarf im betrachteten Knoten

Entropie der Klassifikation (Informationsbedarf):


k
Entropie(T ) = -å pi × log 2 pi
i =1

= -( 52 * log 2 52 + 53 * log 2 53 )

= -(-0,97) = 0,97

BMBF-Verbundprojekt OTH mind S. 95


Informationsgewinn durch Klassifikation nach
Textilien im linken Knoten auf Ebene 2
1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien

10 1, 8 4, 9
N T, N T
Entropie 0,97

IG(Textilien) = 0,97 - 15 * 0 - 52 *1 - 52 * 0 = 0,57

BMBF-Verbundprojekt OTH mind S. 96


Informationsgewinn durch Klassifikation nach Durchschnittspreis im linken
Knoten auf Ebene 2
1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
D-Preis

8, 9 1 4, 10
N, T T T, N
Entropie 0,97

IG(D-Preis) = 0,97 - 52 *1 - 15 * 0 - 52 *1 = 0,17


BMBF-Verbundprojekt OTH mind S. 97
Auswahl des Klassifikationsmerkmals mit dem höchsten
Informationsgewinn
1,..,12
Geschenkartikel

Entropie im Knoten:
0,97 1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12

Informationsgewinn bei
Unterteilung nach Merkmal
Den höchsten IG liefert eine
Textilien: 0,57 Unterteilung nach Textilien. Deshalb
wird dieses ausgewählt für die weitere
Differenzierung in diesem Knoten.
Durchschnittspreis: 0,17

BMBF-Verbundprojekt OTH mind S. 98


Entscheidungsbaum auf Ebene 2 (links)

1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien

10 1, 8 4, 9

Das Verfahren muss nun für die übrigen Knoten


durchgeführt werden.

BMBF-Verbundprojekt OTH mind S. 99


Teildatenbestand im mittleren Knoten

12 Kundenkaufprofile

Kunden Textilien Geschenkartikel O-Preis Katalog

X1 mittel wenig mittel T


X2 wenig mittel niedrig N
X3 mittel viel mittel TG
X4 viel wenig hoch T
X5 wenig mittel hoch G
X6 viel mittel niedrig TG
X7 wenig viel niedrig G
X8 mittel wenig niedrig N
X9 viel wenig niedrig T
X10 wenig wenig hoch N
X11 wenig viel mittel G
X12 viel viel hoch TG

BMBF-Verbundprojekt OTH mind S. 100


Informationsgewinn durch Klassifikation nach
Textilien im mittleren Knoten auf Ebene 2

1,..,12

Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12

Textilien Textilien

10 1, 8 4, 9 2, 5 6
N T, N T N, G ? TG
Entropie 1,59

IG(Textilien) = 1,59 - 23 *1 - 0 - 13 * 0 = 0,92


BMBF-Verbundprojekt OTH mind S. 101
Informationsgewinn durch Klassifikation nach
Durchschnittspreis im mittleren Knoten auf Ebene 2
1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien D-Preis

10 1, 8 4, 9 2, 6 5
N T, N T N, TG ? G
Entropie 1,59

IG(D-Preis) = 1,59 - 23 *1 - 0 - 13 * 0 = 0,92

BMBF-Verbundprojekt OTH mind S. 102


Teildatenbestand im rechten Knoten

12 Kundenkaufprofile

Kunden Textilien Geschenkartikel O-Preis Katalog

X1 mittel wenig mittel T


X2 wenig mittel niedrig N
X3 mittel viel mittel TG
X4 viel wenig hoch T
X5 wenig mittel hoch G
X6 viel mittel niedrig TG
X7 wenig viel niedrig G
X8 mittel wenig niedrig N
X9 viel wenig niedrig T
X10 wenig wenig hoch N
X11 wenig viel mittel G
X12 viel viel hoch TG

BMBF-Verbundprojekt OTH mind S. 103


Informationsgewinn durch Klassifikation nach
Textilien im rechten Knoten auf Ebene 2
1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien

10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Entropie 1
IG(Textilien) = 1 - 24 * 0 - 14 * 0 - 14 * 0 = 1

BMBF-Verbundprojekt OTH mind S. 104


Informationsgewinn durch Klassifikation nach
Durchschnittspreis im rechten Knoten auf Ebene 2

1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien D-Preis

10 1, 8 4, 9 2, 5 6 7 3,11 12
N T, N T N, G ? TG G TG, G TG
Entropie 1
IG(D-Preis) = 1 - 14 * 0 - 24 *1 - 14 * 0 = 0,5

BMBF-Verbundprojekt OTH mind S. 105


Die restlichen inhomogenen Knoten…
1,..,12
Geschenkartikel

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien
1,..,12
Geschenkartikel
10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Preis
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12

8 1
1. Textilien Textilien Textilien

2. 10
N
1, 8
T, N
4, 9
N, G
2, 5
? TG
6
G
7, 11 3
TG
12

Preis TG Preis

8 1 2 5
N T ? N ? G

BMBF-Verbundprojekt OTH mind S. 106


Ergebnisse mit Splitkriterium Gini-Koeffizient

Beim Splitkriterium Gini-Koeffizient ergibt sich der gleiche Baum.

Für den Split des Wurzelknotens gilt:

Gini(Textil)= 0,53 ; Gini(Geschenk)=0,53 ; Gini(Preis)=0,72


Die Splits in der zweiten Phase erfolgen gemäß der Werte

BMBF-Verbundprojekt OTH mind S. 107


Ableitung von Entscheidungsregeln

1,..,12
Geschenkartikel wenig

1, 4, 8, 9, 10

Textilien m
Regel:

1, 8 IF Geschenkartikel: wenig AND


Preis m Textilien: mittel AND Preis: mittel
1 THEN T
T

BMBF-Verbundprojekt OTH mind S. 108


Clusterverfahren

Grundlagen, Hierarchische Clusterverfahren, Partionierende


Clusterverfahren, Anwendungsbeispiel, Ausblick

BMBF-Verbundprojekt OTH mind S. 109


Grundlagen

Quelle: http://www.sinus-institut.de
BMBF-Verbundprojekt OTH mind S. 110
Grundlagen

Clusterverfahren

• Ziel: Erkennen und Bewerten von Clustern


• Cluster sind Mengen von Datensätzen; dabei sollen Datensätze innerhalb eines Clusters
möglichst ähnlich und Datensätze aus unterschiedlichen Clustern dagegen möglichst unähnlich
sein. Zur Bestimmung von ähnlichen bzw. unähnlichen Datensätzen fungieren Ähnlichkeitsmaße
bzw. Distanzmaße.
• Beispiel: Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit
Käufergruppen erkannt werden können.
• Voraussetzung: Es müssen Ähnlichkeitsmaße zwischen Datensätzen sowie zwischen Clustern
definiert werden.

BMBF-Verbundprojekt OTH mind S. 111


Grundlagen

Ähnlichkeitsmaße

• Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals geometrische


Distanzmaße herangezogen.

Es soll gelten: kleine Distanz große Ähnlichkeit


große Distanz kleine Ähnlichkeit

• Dabei ist für die Anwendbarkeit der Maße zu beachten, welche Definitionsbereiche die Attribute
haben à Unterschieden werden muss zwischen numerischen und nominalen Attributen

BMBF-Verbundprojekt OTH mind S. 112


Grundlagen

Distanzfunktionen

Distanzfunktionen zweier Datensätze mit numerischen Merkmalen:

Gegeben seien zwei Datensätze, die Objekte anhand von numerischen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)

§ Euklidische Distanz:
d ( x, y ) = ( x1 - y1 ) 2 + ! + ( xn - yn ) 2

§ Manhattan-Distanz:
(City-Block) d ( x, y ) =| x1 - y1 | + ! + | xn - yn |

§ Maximums-Metrik: d ( x, y ) = max(| x1 - y1 |, !, | xn - yn |)

BMBF-Verbundprojekt OTH mind S. 113


Grundlagen

Distanzfunktionen

Distanz zweier Datensätze mit nominalen Merkmalen:

Gegeben seien zwei Datensätze, die Objekte anhand von nominalen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
à Hierbei entspricht die Distanz der Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen!

Beispiel: x = (blau, hoch, dick, Mainz)


y = (grün, hoch, dick, Essen)

d(x, y) = 2

BMBF-Verbundprojekt OTH mind S. 114


Grundlagen

Gower-Koeffizient

Kombiniert numerische und nominale Merkmale

1 n (i )
d ( x, y ) = å d ( x, y ) , mit
n i =1

ì1 , falls xi ¹ yi für nominale Merkmale


d ( x, y ) = í
(i )

î0 , falls xi = yi

für metrische Merkmale


xi - yi (Ri = Spannweite (größter Wert – kleinster
d ( i ) ( x, y ) =
Ri Wert) des i-ten Attributs)

BMBF-Verbundprojekt OTH mind S. 115


Hierarchische Clusterverfahren

Agglomerative Verfahren:
• Schrittweise Gruppierung, d. h. beginnend mit N Gruppen (jeder Datensatz ist dann eine Gruppe) werden bei
jedem Schritt je zwei Gruppen zu einer zusammengesetzt
• Entstehung von Partitionen (Aufteilung des Gesamtdatenbestandes in einzelne Gruppen)
• Aus Partitionen können mögliche Cluster abgeleitet werden

Divisive Verfahren:
• Schrittweise Bildung von Untergruppen aus einer Gruppe (die alle Elemente beinhaltet)
• Bis letztlich N Gruppen mit je einem Element vorliegen

BMBF-Verbundprojekt OTH mind S. 116


Hierarchische Clusterverfahren

Dendrogramm

Agglomerative Methode 0 1 2 3 4

Divisive Methode 4 3 2 1 0

BMBF-Verbundprojekt OTH mind S. 117


Hierarchische Clusterverfahren

Fusionierungskriterien

Zur Zusammenfassung in jedem Schritt des agglomerativen Verfahrens ist ein Distanzmaß D zwischen
Gruppen von Objekten notwendig:
Gegeben: Gruppe X und Gruppe Y (bestehend aus Datensätzen) sowie Distanzmaß d zwischen
Datensätzen.
Single-Linkage:
(Nearest Neighbor)
D(X, Y) = min d( x, y)
xÎX , yÎY

Complete-Linkage: D(X, Y) = max d( x, y)


xÎX , yÎY

1
Average-Linkage:
D ( X, Y ) = å d ( x , y)
| X | × | Y | xÎX , yÎY

BMBF-Verbundprojekt OTH mind S. 118


Hierarchische Clusterverfahren

Graphischer Vergleich

BMBF-Verbundprojekt OTH mind S. 119


Hierarchische Clusterverfahren

Algorithmus für ein agglomeratives Verfahren

1. Berechne die Distanzmatrix.


2. Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den geringsten
Abstand zueinander haben.
3. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Objekten bzw.
Clustern.
4. Wiederhole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster befinden.

BMBF-Verbundprojekt OTH mind S. 120


Partitionierende Clusterverfahren

Vorgabe: Anzahl der Menge von Clustern K, Distanzmaß d.


• Ausgangspunkt ist die Vorstellung:
Objekte = Punkte im n-dimensionalen euklidischen Raum
à folglich die euklidische Distanz als Distanzmaß verwenden
• Jedes der K Cluster wird durch einen Centroid repräsentiert
à ist in der Anschauung der Mittelwert aller Objekte, die in dem jeweiligen
Cluster liegen
Gilt x = (x1, ..., xn) so kann der Centroid eines Clusters Ci geschrieben werden als:

wobei x j der arithmetische Mittelwert der j-ten Merkmalsausprägung der


Objekte aus dem Cluster C ist

BMBF-Verbundprojekt OTH mind S. 121


Partitionierende Clusterverfahren

Es können nun Maße für die Clusterhomogenität für jedes Cluster bestimmt
werden, etwa durch die Summe der quadrierten euklidischen Distanzen der
Clusterobjekte zum Centroid:

Daraus lässt sich ein Maß für die erfolgte Gesamtclusteraufteilung


ermitteln, etwa durch die Summe der Homogenitätswerte der einzelnen
Cluster:

Ziel ist nun, eine Partition zu finden, mit der HGesamt minimiert werden
kann.

BMBF-Verbundprojekt OTH mind S. 122


Partitionierende Clusterverfahren

K-Means-Algorithmus

1. Wähle K Objekte als initiale Clusterzentroide.


2. Wähle das K+1-te Objekt als aktuelles Objekt.
3. Ordne das aktuelle Objekt dem Cluster zu, zu dessen Centroid der geringste
Abstand vom Objekt besteht.
4. Bestimme in diesem Cluster den aktuellen Centroid.
5. Wähle das nächste Objekt und gehe zu 3.

ð Problem: Abhängigkeit von der Auswahl der initialen Centroide


und der Reihenfolge der Werte

BMBF-Verbundprojekt OTH mind S. 123


Partitionierende Clusterverfahren

Grafik zu K-Means Verfahren

BMBF-Verbundprojekt OTH mind S. 124


Partitionierende Clusterverfahren

Schwächen von k-Means

BMBF-Verbundprojekt OTH mind S. 125


Anwendungsbeispiel

Kundensegmentierung nach Kaufprofilen

Ziel: Es sollen 5 möglichst


homogene Kundengruppen
identifiziert werden.

BMBF-Verbundprojekt OTH mind S. 126


Anwendungsbeispiel

Datenbestand
Kunde Artikelanzahl Durchschnittspreis Artikelgruppe

X1 20 80,- A, B, C
X2 6 110,- A, B, C
X3 18 150,- A, D
X4 18 100,- A, B, C, D
X5 15 50,- A, C, D
X6 4 100,- B, C
X7 14 50,- B, C
X8 10 70,- C, D
X9 20 120,- A
X10 10 60,- A, B
X11 13 70,- A, B
X12 5 80,- C, D

BMBF-Verbundprojekt OTH mind S. 127


Anwendungsbeispiel

Distanzmatrix

Verschiedenheitsmatrix D = ( dij ) Abstand Xi zu Xj

BMBF-Verbundprojekt OTH mind S. 128


Anwendungsbeispiel

Dendrogramm

Darstellung als Dendrogramm


(Berechnet als Single Linkage)

BMBF-Verbundprojekt OTH mind S. 129


Anwendungsbeispiel

Ergebnisinterpretation
Cluster Kunden Interpretation
1 X3, X9 hoch preisige Damentextilien
2 X10, X11 tief preisige Textilien
3 X1, X2 mittel bis tief preisige Textilien
X6, X7, X4 und Haushaltsartikel
4 X5 tief preisige Artikel
5 X8, X12 wenige Haushalts- und Geschenkartikel

Clusterzahl K = 5

BMBF-Verbundprojekt OTH mind S. 130


Anwendungsbeispiel

Einsatz von K-Means

Vor Anwendung des K-Means-Algorithmus werden die Werte


auf das Einheitsintervall normiert:

Als Clusterzahl wird gewählt K=5 und als Startcentroide die


ersten fünf Kunden.

BMBF-Verbundprojekt OTH mind S. 131


Anwendungsbeispiel

Ergebnis nach erster Zuordnung

Cluster Kunden

1 X1, X10, X11


2 X2, X6, X7
3 X3, X9
4 X4
5 X5, X8, X12

BMBF-Verbundprojekt OTH mind S. 132


Ausblick

Auswahl von Clusterverfahren

– Cluster haben unterschiedliche Form, Größe und Dichte.


– Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken. So
kann z.B. K-means nur konvexe Cluster entdecken.
– Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken.
– Cluster können hierarchisch angeordnet sein.

BMBF-Verbundprojekt OTH mind S. 133


Ausblick

Weitere Anwendungsbeispiele

Kundensegmentierung: Welche Kundenprofile existieren ?


(Analyse von Kundenattributen)

Kaufverhalten: Welche Gruppen bzgl. des


Kaufverhaltens bestehen ?
(Analyse von Kaufähnlichkeiten)

Text-Mining: Finden ähnlicher Texte

Web-Log-Mining: Auffinden von Benutzergruppen auf


Web-Sites

BMBF-Verbundprojekt OTH mind S. 134


Künstliche Neuronale Netze

BMBF-Verbundprojekt OTH mind S. 135


Biologische Motivation

BMBF-Verbundprojekt OTH mind

Bildquelle: http://commons.wikimedia.org/wiki/File:Complete_neuron_cell_diagram_de.svg
S. 136
Künstliche Neuronale Netze

Grundprinzip

§ Wirkung künstlich neuronaler Netze: Versuch der Nachbildung der Arbeitsweise des menschlichen Gehirns
§ Bestandteile:
o künstlichen Neuronen und
o deren Verknüpfungen
§ Wesentliches Merkmal:
o Lernfähigkeit der Netze durch eine Anpassung der Verbindungsstärke zwischen Neuronen über einen vorgegebenen
Regelmechanismus
§ Beispiel:
o Aufgaben der Klassifikation
o Mustererkennung

BMBF-Verbundprojekt OTH mind S. 137


Künstliche Neuronale Netze

Einsatzgebiete

§ Überall dort, wo wenig explizites (kodifiziertes) Lösungswissen vorliegt


§ Typischerweise bei
o Zeitreihenanalysen (Wetter, Aktien ...)
o Sprachgenerierung
o Texterkennung
o Bilderkennung
o Gesichtserkennung

BMBF-Verbundprojekt OTH mind S. 138


Künstliche Neuronale Netze

Künstliche Neuronen – Perzeptron (1)


x1
w1
φ
w2
åwixi
x2 Q y

w3

Gesamt- Aktivie- Output


x3 input rung

BMBF-Verbundprojekt OTH mind S. 139


Künstliche Neuronale Netze

Künstliche Neuronen – Perzeptron (2)

§ Gesamtinput:
ergibt sich als gewichtete Summe der Eingangssignale (Inputwerte) x1,x2,x3
§ Aktivierung:
Aktivierung des Neurons geschieht über die Aktivierungsfunktion φ, deren Wert von der Differenz aus
Gesamtinput und Schwellwert θ abhängt
§ Je nach Aktivierung:
Entstehung eines Outputwerts y

BMBF-Verbundprojekt OTH mind S. 140


Künstliche Neuronale Netze

Künstliche Neuronen – Perzeptron (3)

simples Modell:

§ einfaches Perzeptron mit nur einem künstlichen Neuron


§ Input besteht nur aus booleschen Werten (0 und 1)
§ Aktivierung des Neurons erfolgt, wenn der Gesamtinput größer oder gleich dem Schwellwert θ ist
§ Outputwert y ist der Indikatorwert der Aktivierung

BMBF-Verbundprojekt OTH mind S. 141


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (1)

Spezialfall eines vorwärts gerichteten KNNs :


Multilayer-Perzeptron (MLP)
à wird zur Klassifikation eingesetzt

Merkmale:

§ Differenzierung von drei Schichten: Inputschicht, Versteckte Schicht, Outputschicht


§ Es sind nur Neuronen verschiedener Schichten miteinander verbunden
§ Die Outputwerte vorgelagerter Neuronen werden über gewichtete Verbindungen an nachgelagerte
Neuronen gesendet

§ Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung weitergegeben, es gibt keine
Schleifen

BMBF-Verbundprojekt OTH mind S. 142


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (2)

Klassifikation

N8 N9 Outputschicht
Gewichte
w48

Versteckte
N4 N5 N6 N7
Schicht

Gewichte w37

N1 N2 N3 Inputschicht

Eingabemuster

BMBF-Verbundprojekt OTH mind S. 143


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (3)

§ Ein neuronales Netz lernt, indem es sich eigenständig gemäß vorgegebener Vorschriften
(Lernregeln) verändert.

§ Diese Lernregeln können umfassen:


Ø Veränderung der Netztopologie
Ø Modifikation der Parameter der Neuronen
Ø Veränderung der Gewichte

BMBF-Verbundprojekt OTH mind S. 144


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (4)

Bekanntes Verfahren: Back-Propagation


§ Werte eines Datensatzes werden in die Neuronen der Inputschicht eingegeben
§ Anschließend über die Neuronen und deren Verbindungen weitergeleitet, bis ein Wert in der Outputschicht erzeugt
wurde, der die durch das Netz berechnete Klasse des Datensatzes angibt (Forward Pass)

§ Dieser Wert wird mit der tatsächlichen Klassenzugehörigkeit verglichen (Fehlerbestimmung)


§ Bei einer Abweichung von „Soll-“ und „Ist“-Wert werden ausgehend von den Outputneuronen die zugehörigen
Verbindungsgewichte sowie die Verbindungsgewichte der Neuronen vorgelagerter Schichten derart geändert, dass die
Abweichung minimiert wird (Backward Pass)

BMBF-Verbundprojekt OTH mind S. 145


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (5)

§ Durch vorwärts gerichteten Künstlichen Neuronalen Netze lassen sich sehr gute Klassifikationsergebnisse auf dem
Trainingsdatenbestand erzielen

§ Wie bei den Entscheidungsbäumen liegt auch hier das Problem des Overfitting vor à deshalb ist eine
Güteabschätzung der Klassifikationsfähigkeit auf einer Testmenge etwa durch die Fehlklassifikationsquote notwendig

§ Ggf. müssen die Gewichte weiter angepasst werden

§ Auch möglich: Pruning


à indem Knoten oder Gewichte entfernt werden, um die Komplexität des Netzwerkes zu verringern

BMBF-Verbundprojekt OTH mind S. 146


Künstliche Neuronale Netze

Vorwärts gerichtete Künstliche Neuronale Netze (6)

Vorteile:

§ Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute Ergebnisse bei der Klassifikation und Prognose erzeugen.
§ Die offene Struktur macht das Modell sehr flexibel.

Nachteile:
§ Es werden keine expliziten Regeln angegeben.

§ Das Adaptieren der Gewichte geschieht mitunter sehr langsam.

§ Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben.

BMBF-Verbundprojekt OTH mind S. 147


Künstliche Neuronale Netze

Topologien Künstliche Neuronale Netze

Feedforward-Netz Feedforward-Netz Netz mit direkten


mit shortcut connections Rückkopplungen

Netz mit Rückkopplungen Netz mit indirekten


Vollständig verbundenes Netz
innerhalb einer Schicht Rückkopplungen

BMBF-Verbundprojekt OTH mind S. 148


Ethische Probleme

Fairness / Systematische Abweichung

BMBF-Verbundprojekt OTH mind S. 149


Understanding Artificial Neural Networks

BMBF-Verbundprojekt OTH mind S. 150


6
Werkzeuge

BMBF-Verbundprojekt OTH mind S. 151


Gartner Quadrant für
Tools
Data Science

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 152


R-Studio

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 153


Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 154


Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 155


Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 156


R-Studio

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 157


Jupyter

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 158


PyData

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 159


Zepplin

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 160


Rapidminer

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 161


Rapidminer

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 162


KNIME

Tools

Dr. Christian Schieder Modul Big Data – Practical Data Analysis

BMBF-Verbundprojekt OTH mind S. 163


Hands-on II: Advanced Visualisation mit D3.js

Tools

Quellen:
https://d3js.org
https://github.com/mbostock/d3/wiki/Gallery

BMBF-Verbundprojekt OTH mind S. 164


Hands-on II Task: Build Realtime-Monitoring with your own data

Tools

Quellen: http://code.shutterstock.com/rickshaw/examples/extensions.html
https://www.pubnub.com/blog/2015-01-29-stream-data-to-create-realtime-charts-w-d3js-and-rickshaw/
http://jsfiddle.net/peDzT/

BMBF-Verbundprojekt OTH mind S. 165


7
Weitere Lernressourcen

Externe und weiterführende Ressourcen und Beispiele zum


Ausprobieren

BMBF-Verbundprojekt OTH mind S. 166


BMBF-Verbundprojekt OTH mind
BMBF-Verbundprojekt OTH mind
…and check out the youtube channel by 3blue1brown
(https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw/)

BMBF-Verbundprojekt OTH mind S. 169


Data Storytelling

BMBF-Verbundprojekt OTH mind S. 170


Map the Life Expectancy in United States with data from Wikipedia with R
## LOAD THE PACKAGES #### ## LOAD THE MAP DATA ####
library(rvest) states = map_data("state")
library(ggplot2) # create a new variable name for state
library(dplyr) le$region = tolower(le$State)
library(scales) # merge the datasets
## LOAD THE DATA #### states = merge(states, le, by="region", all.x=T)
le = read_html("https://en.wikipedia.org/wiki/List_of_U.S._states_by_life_expectancy") ## MAKE THE PLOT ####
le = le %>% # Life expectancy in African American
html_nodes("table") %>% ggplot(states, aes(x = long, y = lat, group = group, fill = le_black)) +
.[[2]]%>% geom_polygon(color = "white") +
html_table(fill=T) scale_fill_gradient(name = "Years", low = "#ffe8ee", high = "#c81f49", guide = "colorbar", na.value="#eeeeee",
## CLEAN THE DATA #### breaks = pretty_breaks(n = 5)) +
# select only columns with data labs(title="Life expectancy in African American") +
le = le[c(1:8)] coord_map()
# get the names from 3rd row and add to columns
names(le) = le[3,]
# delete rows and columns which I am not interested
le = le[-c(1:3), ]
le = le[, -c(5:7)]
# rename the names of 4th and 5th column
names(le)[c(4,5)] = c("le_black", "le_white")
# make variables as numeric
le = le %>%
mutate(
le_black = as.numeric(le_black),
le_white = as.numeric(le_white))
le = le %>% mutate(le_diff = (le_white - le_black))

https://datascienceplus.com/visualizing-obesity-across-united-states-by-using-data-from-wikipedia/
http://www.datasciencecentral.com/profiles/blogs/map-the-life-expectancy-in-united-states-with-data-from-wikipedia

BMBF-Verbundprojekt OTH mind S. 171


Infomaps using R – Visualizing German unemployment rates by district on a map
### DATA PREP ###
# loading the unemployment data
unempl <- read.delim2(file="./data/data_germany_unemployment_by_
county.txt", header = TRUE, sep = "\t",
dec=",", stringsAsFactors=F)

# due to Mac OS encoding, otherwise not needed


gadm_names <- iconv(gadm$NAME_3, "ISO_8859-2", "UTF-8")
# fuzzy matching of data: quick & dirty
# caution: this step takes some time ~ 2 min.

# parsing out "Städte"


gadm_names_n <- gsub("Städte", "", gadm_names)

total <- length(gadm_names)


# create progress bar
pb <- txtProgressBar(min = 0, max = total, style = 3)
order <- vector()
for (i in 1:total){
order[i] <- agrep(gadm_names_n[i], unempl$Landkreis,
max.distance = 0.2)[1]
setTxtProgressBar(pb, i) # update progress bar
}
# choose color by unemployment rate
col_no <- as.factor(as.numeric(cut(unempl$Wert[order],
c(0,2.5,5,7.5,10,15,100))))
levels(col_no) <- c(">2,5%", "2,5-5%", "5-7,5%",
"7,5-10%", "10-15%", ">15%")
gadm$col_no <- col_no
myPalette<-brewer.pal(6,"Purples

# plotting
spplot(gadm, "col_no", col=grey(.9), col.regions=myPalette,
main="Unemployment in Germany by district“)

https://ryouready.wordpress.com/2009/11/16/infomaps-using-r-visualizing-german-unemployment-rates-by-color-on-a-map/

BMBF-Verbundprojekt OTH mind S. 172


Examples in Python

BMBF-Verbundprojekt OTH mind S. 173


After the lectures is before the practise...

BMBF-Verbundprojekt OTH mind S. 174

Das könnte Ihnen auch gefallen