Beruflich Dokumente
Kultur Dokumente
Skript
Dieses Material ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen Bedingungen 4.0 International Lizenz (CC
BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten,
OTH Amberg-Weiden“.
Herausgegeben durch: Teilprojekt #aufstieggestalten der OTH Amberg-Weiden aus dem Verbundprojekt „OTH mind“ mit der OTH
Regensburg des Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“
Copyright: Dieses Kursmaterial ist lizenziert unter einer Creative Commons Namensnennung – Weitergabe unter gleichen
Bedingungen 4.0 International Lizenz (CC BY-SA 4.0). Bei einer Weitergabe soll der Name des Urhebers wie folgt
genannt werden: „Prof. Dr. Christian Schieder, OTH mind #aufstieggestalten, OTH Amberg-Weiden“.
Hinweis: Diese Publikation wurde im Rahmen des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten
Bund-Länder-Wettbewerbs „Aufstieg durch Bildung: offene Hochschulen“ erstellt. Die in dieser Publikation
dargelegten Inhalte liegen in der alleinigen Verantwortung des Autors.
1_ Einführung
2_ Geschichte der Datenanalyse und Datenanalysegeschichten
3_ Datengrundlage und Eigenschaften von Daten
4_ Aufgaben und Vorgehensmodelle der Datenanalyse
5_ Methoden des maschinellen Lernens
(1) Vorbemerkungen zum statistischen Lernen
(2) Entscheidungsbaumlernverfahren
(3) Clusterverfahren
(4) Künstliche Neuronale Netze
6_ Werkzeuge zur Datenanalyse
7_ Weitere Lernressourcen
JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC
September
Source: 21th, 2017
McCandless, D.: |The
Dr.Visual
Schieder, Christian | Slide
Miscellaneum, 5
Harper, © BHS Corrugated. Better – across the Board!
2009, informationisbeautiful.net, http://ed.ted.com/lessons/david-mccandless-the-beauty-of-data-visualization
BMBF-Verbundprojekt OTH mind
BMBF-Verbundprojekt OTH mind S. 7
https://www.youtube.com/watch?v=i2jwZcWicSY
BMBF-Verbundprojekt OTH mind
BMBF-Verbundprojekt OTH mind S. 9
Data Science aus Methodensicht
Quellen: in Anlehnung an Küsters (2001), S. 95 ff.; Meyer (2002) übernommen von Hilbert (2012), S. 47
Anwendungsgebiete von Data Science
§ Vorhersage
• z.B. Wettervorhersage, Naturkatastrophe, Maschinenausfall, Krankheitsausbrüche
§ Optimierung
§ Intelligenz
Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).
Machen große Datenmengen, die wir sammeln und Auswerten die Wissenschaft obsolet?
§ The End of Theory: The Data Deluge Makes the Scientific Method Obsolete
• All models are wrong, but some are useful. (George Box)
• All models are wrong, and increasingly you can succeed without them. (Peter Norvig)
Data Storytelling
§ Aggregation
• Statistik berechnen
§ Data Mining
§ Maschinelles Lernen
Quelle: http://de.slideshare.net/dataremixed/7-lessons-from-the-pioneers?qid=868353ba-30b5-4d61-8804-88c7d891dfef&v=&b=&from_search=1
Friendly, Michael & Chen, Chun-houh & Härdle, Wolfgang Karl & Unwin,
Antony. (2008). A Brief History of Data Visualization. 10.1007/978-3-540-
33037-0_2.
Joseph Priestley: A New Chart of History (1769)
Quelle: https://www.youtube.com/watch?v=Esm9yUl-xu8
BMBF-Verbundprojekt OTH mind S. 24
Genau hinschauen...
(https://github.com/d3/d3/wiki/Gallery)
BMBF-Verbundprojekt OTH mind S. 28
Boxplot (Kastengrafik)
§ 2 große Kategorien
§ Offene Daten
§ Transaktionale Daten
§ Sensordaten
§ Speicherung nebensächlich
§ Rechtzeitiges reagieren
§ Beispiele:
• Börse
• Banken (Überweisungen validieren)
• Autonomes Fahren
Datenqualitätsdimensionen
§ Informationsqualität:
• 15 Dimensionen
• 4 Kategorien
§ Systemunterstützte Datenqualitätsdimensionen
• Zugänglichkeit
- Accessability
• Bearbeitbarkeit
- Ease of manipulation
§ Inhärente Datenqualitätsdimensionen
• Hohes Ansehen
- Reputation
• Objektivität
- Objectivity
• Glaubwürdigkeit
- Believability
• Fehlerfreiheit
- Free of error
§Typische Probleme:
•Zeilenende wird nicht erkannt
•Fußzeile/ Präambel
•Trennung von Feldern
(Komma, Semikolon, Tab)
•Falscher Wert
•Fehlende Werte
•Falsches Format
•Falscher Titel
•Überflüssige Zeichen
What data scientists spend most time What is the least enjoyable part of data
doing? science?
Prozess- Daten-
verständnis verständnis
Daten-
Bereitstellung Data aufbereitung
Evaluierung Modellierung
Chapman et al.: CRISP-DM 1.0, Step-by-step data mining guide, aufgerufen im Internet unter:
http://66.249.93.104/search?q=cache:iLECXEj-VjYJ:www.crisp-dm.org/CRISPWP-800.pdf, S. 13 Source: Dataiku (2016): Data Science for Banking & Insurance, SURVIVING AND THRIVING IN THE ERA OF INTERNET GIANTS AND
FINANCIAL TECHNOLOGY STARTUPS
http://www.datasciencecentral.com/profiles/blogs/data-science-summarized-in-one-picture
https://www.linkedin.com/pulse/business-intelligence-data-science-fuzzy-borders-rubens-zimbres/
Dr. Christian Schieder Modul Big Data – Practical Data Analysis
Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).
Knowledge Discovery in Databases beschreibt den „…non trivial process of identifying valid, novel, potentially
useful and ultimately understandable patterns in data…“
[Fayyed, et al., 1996]
§ Business Understanding
Verstehen des Geschäftsproblems und Transformation
in ein Daten-Analyse-Problem
§ Data Understanding
Verstehen der Datenrepräsentation sowie erste
explorative Analyse(n)
§ Data Preparation
ETL-Prozess, Daten Transformation und Bereinigung,
Anreichern, etc.
§ Modeling
Erstellen eines Data-Mining-Modells mit einem
geeigneten Verfahren
§ Evaluation
Auswahl und Bewertung des/der Modelle, Business-
Ziel erreicht?
§ Deployment
Anwendung des Modells im operativen Betrieb
Determine Business Collect initial data Select Data Select modeling technique Evaluate results Plan deployment
Objectives •Initial data collection report •Rationale for •Modeling technique •Assessment of data mining •Deployment plan
• Background inclusion/exclusion •Modeling assumptions results with respect to
• Business Objectives business success criteria
• Business Success Criteria •Approved models
Clean data
Describe data •Data cleaning report Plan monitoring and
Assess Situation Generate test design maintenance
•Data description report
• Inventory of Resources •Monitoring and maintenance
•Test design
• Requirements, assumptions and Review process plan
constraints
Construct data
• Risks and contingencies •Derived attributes •Review of process
• Terminology Explore data •Generated records Build model Produce final report
• Costs and benefits
•Data exploration report •Parameter settings •Final report
Integrate data •Models •Final presentation
•Merged data •Model description
Determine Data Mining Goals
Determine next steps
• Data mining goals Assess model
Verify data quality •List of possible actions Review project
• Data mining success criteria •Model assessment
•Data quality report Format data •Decision •Experience documentation
•Revised parameter settings
•Reformatted data
Produce Project Plan
• Project plan
• Initial assessment of tools and
techniques
http://students.brown.edu/seeing-theory/regression/index.html#first
§ Deskriptive Statistik
§ Induktive Statistik
§ Explorative Statistik
„Durchschnitt“
§ Median (50.000)
§ Modus (30.000)
https://youtu.be/ddtU9VGQYe4?t=546
Quelle: Prof.Dr. Felix Naumann - Kurs: Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel (Abruf: 30.01.2020).
B. H. Menze et al., "The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS),"
in IEEE Transactions on Medical Imaging, vol. 34, no. 10, pp. 1993-2024, Oct. 2015.
https://doi.org/10.1073/pnas.1218772110
• Konfidenzintervall
• Confusion Matrix
• Gain & Lift
• Kolmogorov-Smirnov
• Chi^2
• ROC-Chart
• RSME
• Cross Validation
http://www.datasciencecentral.com/profiles/blogs/7-important-model-
evaluation-error-metrics-everyone-should-know
Erfolgsmaße
• Ziel:
Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen
Klassen zugeordnet werden können
• Vorgehensweise:
Zuordnung anhand von Regeln
(Darstellung mit Klassifikationsbäumen)
• Beispiel:
Einteilung von Datensätzen mit Angaben über Kunden derart, dass damit die Käufergruppe erkannt
werden kann, in die ein neuer Kunde voraussichtlich gehört
• Voraussetzung:
Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist
Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendaten- sätzen vor. Dabei werden
70 % der Kunden als kreditwürdig und 30 % der Kunden als nicht-kreditwürdig eingestuft.
Durch eine Aufteilung des Gesamtdatenbestandes anhand eines Merkmales sollen zwei Teilmengen
derart entstehen, dass sich in der einen Teilmenge mehr Kundendatensätze mit der Eigenschaft
kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit der Eigenschaft nicht-
kreditwürdig befinden. Beide Teilmengen weisen damit eine bessere Homogenität bezüglich der
Klassifikationsvariablen auf, als der Ausgangsdatenbestand.
Gesamt: 600 Klasse X: 320 Klasse Y: 280 Gesamt: 400 Klasse X: 380 Klasse Y: 20
40 260 280 20
300 300
WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige Objekt der
Klasse Y an.
WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die Bedingung K2,
DANN gehört das zugehörige Objekt der Klasse Y an.
Beispiel:
Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit gilt für den
Datenbestand:
p1= 70 %, p2= 30 %
Ziel:
• Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte Klassenzugehörigkeiten
erreichen
• Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der Knoten à ideal
wäre eine Verteilung (100%, 0 %)
• Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen
zugeordnet werden können
§ Als Maß für die Homogenität des Knoten T kann die Entropie verwendet
werden.
k
Entropie(T ) = -å pi × log 2 pi mit(0 × log2 0 = 0)
i =1
§ Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt.
§ Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A
bekannt ist.
Informationsgewinn (IG) durch Split der Menge T in m Teilmengen Ti (i=1,…,m):
m
| Ti |
IG = Entropie(T ) - å Entropie(Ti )
i =1 | T |
§ Ein neuer Knoten Ta enthält alle Elemente, bei denen das Attribut A die Ausprägung a
annimmt.
§ Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten
Knotens T minus der Summe der Entropien der neuen Knoten Ta, wobei als
Gewichtung die relative Größe der neuen Knoten Ta bezogen auf den
Ausgangsknoten T gewählt wird.
§ Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine
Partition des Knotens T mittels Attribut A bringt:
| Ta |
Gini(T , A) = å Gini(Ta )
aÎA |T |
– sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen Testmenge ermittelt werden
b) Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes
– ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse zugeordnet werden, unabhängig von
der tatsächlich vorliegenden Klassenzugehörigkeit
– in Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in homogenere Knoten verringert werden
kann
– dient dennoch als erster Hinweis auf die Güte des Baums
In einem Versandhaus sollen Spezialkataloge versendet werden. Für einige Kunden wurden bereits
Entscheidungen über die zu versendenden Kataloge getroffen.
Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den Gruppen Textilien und Geschenkartikel
sowie der dabei angefallene Durchschnittsumsatz zur Verfügung.
Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden zwischen wenig, mittel und viel bzw.
niedrig, mittel und hoch.
Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein Geschenkartikel (G)-Katalog oder kein (N-)Katalog
zur Verfügung.
= -( 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 + 123 * log 2 123 )
= -(-2) = 2
1,..,12 (123 3
12
3
12
3
12
)
Textilien T, G, TG,
N
2, 5, 7, 10, 11 1, 3, 8 4, 6, 9, 12
pi (0 3
5 0 2
5
) (13 0 1
3
1
3
) (24 0 2
4 0)
T, G, TG, N T, G, TG, N T, G, TG, N
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
pi (53 0 0 2
5
) (0 1
3
1
3
1
3
) (0 2
4
2
4 0)
T, G, TG, N T, G, TG, N T, G, TG, N
1,..,12
Durchschnittspreis
2, 6, 7, 8, 9 1, 3, 11 4, 5, 10, 12
pi (15 1
5
1
5
2
5
) (13 1
3
1
3 0) (14 1
4
1
4
1
4 )
T, G, TG, N T, G, TG, N T, G, TG, N
Entropie im Knoten: 2
1,..,12
Informationsgewinn bei
Unterteilung nach Merkmal
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
12 Kundenkaufprofile
= -( 52 * log 2 52 + 53 * log 2 53 )
= -(-0,97) = 0,97
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien
10 1, 8 4, 9
N T, N T
Entropie 0,97
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
D-Preis
8, 9 1 4, 10
N, T T T, N
Entropie 0,97
Entropie im Knoten:
0,97 1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Informationsgewinn bei
Unterteilung nach Merkmal
Den höchsten IG liefert eine
Textilien: 0,57 Unterteilung nach Textilien. Deshalb
wird dieses ausgewählt für die weitere
Differenzierung in diesem Knoten.
Durchschnittspreis: 0,17
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien
10 1, 8 4, 9
12 Kundenkaufprofile
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien
10 1, 8 4, 9 2, 5 6
N T, N T N, G ? TG
Entropie 1,59
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien D-Preis
10 1, 8 4, 9 2, 6 5
N T, N T N, TG ? G
Entropie 1,59
12 Kundenkaufprofile
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien
10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Entropie 1
IG(Textilien) = 1 - 24 * 0 - 14 * 0 - 14 * 0 = 1
1,..,12
Geschenkartikel
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien D-Preis
10 1, 8 4, 9 2, 5 6 7 3,11 12
N T, N T N, G ? TG G TG, G TG
Entropie 1
IG(D-Preis) = 1 - 14 * 0 - 24 *1 - 14 * 0 = 0,5
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
Textilien Textilien Textilien
1,..,12
Geschenkartikel
10 1, 8 4, 9 2, 5 6 7, 11 3 12
N T, N T N, G ? TG G TG TG
Preis
1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12
8 1
1. Textilien Textilien Textilien
2. 10
N
1, 8
T, N
4, 9
N, G
2, 5
? TG
6
G
7, 11 3
TG
12
Preis TG Preis
8 1 2 5
N T ? N ? G
1,..,12
Geschenkartikel wenig
1, 4, 8, 9, 10
Textilien m
Regel:
Quelle: http://www.sinus-institut.de
BMBF-Verbundprojekt OTH mind S. 110
Grundlagen
Clusterverfahren
Ähnlichkeitsmaße
• Dabei ist für die Anwendbarkeit der Maße zu beachten, welche Definitionsbereiche die Attribute
haben à Unterschieden werden muss zwischen numerischen und nominalen Attributen
Distanzfunktionen
Gegeben seien zwei Datensätze, die Objekte anhand von numerischen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
§ Euklidische Distanz:
d ( x, y ) = ( x1 - y1 ) 2 + ! + ( xn - yn ) 2
§ Manhattan-Distanz:
(City-Block) d ( x, y ) =| x1 - y1 | + ! + | xn - yn |
§ Maximums-Metrik: d ( x, y ) = max(| x1 - y1 |, !, | xn - yn |)
Distanzfunktionen
Gegeben seien zwei Datensätze, die Objekte anhand von nominalen Merkmalen unterscheiden:
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
à Hierbei entspricht die Distanz der Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen!
d(x, y) = 2
Gower-Koeffizient
1 n (i )
d ( x, y ) = å d ( x, y ) , mit
n i =1
î0 , falls xi = yi
Agglomerative Verfahren:
• Schrittweise Gruppierung, d. h. beginnend mit N Gruppen (jeder Datensatz ist dann eine Gruppe) werden bei
jedem Schritt je zwei Gruppen zu einer zusammengesetzt
• Entstehung von Partitionen (Aufteilung des Gesamtdatenbestandes in einzelne Gruppen)
• Aus Partitionen können mögliche Cluster abgeleitet werden
Divisive Verfahren:
• Schrittweise Bildung von Untergruppen aus einer Gruppe (die alle Elemente beinhaltet)
• Bis letztlich N Gruppen mit je einem Element vorliegen
Dendrogramm
Agglomerative Methode 0 1 2 3 4
Divisive Methode 4 3 2 1 0
Fusionierungskriterien
Zur Zusammenfassung in jedem Schritt des agglomerativen Verfahrens ist ein Distanzmaß D zwischen
Gruppen von Objekten notwendig:
Gegeben: Gruppe X und Gruppe Y (bestehend aus Datensätzen) sowie Distanzmaß d zwischen
Datensätzen.
Single-Linkage:
(Nearest Neighbor)
D(X, Y) = min d( x, y)
xÎX , yÎY
1
Average-Linkage:
D ( X, Y ) = å d ( x , y)
| X | × | Y | xÎX , yÎY
Graphischer Vergleich
Es können nun Maße für die Clusterhomogenität für jedes Cluster bestimmt
werden, etwa durch die Summe der quadrierten euklidischen Distanzen der
Clusterobjekte zum Centroid:
Ziel ist nun, eine Partition zu finden, mit der HGesamt minimiert werden
kann.
K-Means-Algorithmus
Datenbestand
Kunde Artikelanzahl Durchschnittspreis Artikelgruppe
X1 20 80,- A, B, C
X2 6 110,- A, B, C
X3 18 150,- A, D
X4 18 100,- A, B, C, D
X5 15 50,- A, C, D
X6 4 100,- B, C
X7 14 50,- B, C
X8 10 70,- C, D
X9 20 120,- A
X10 10 60,- A, B
X11 13 70,- A, B
X12 5 80,- C, D
Distanzmatrix
Dendrogramm
Ergebnisinterpretation
Cluster Kunden Interpretation
1 X3, X9 hoch preisige Damentextilien
2 X10, X11 tief preisige Textilien
3 X1, X2 mittel bis tief preisige Textilien
X6, X7, X4 und Haushaltsartikel
4 X5 tief preisige Artikel
5 X8, X12 wenige Haushalts- und Geschenkartikel
Clusterzahl K = 5
Cluster Kunden
Weitere Anwendungsbeispiele
Bildquelle: http://commons.wikimedia.org/wiki/File:Complete_neuron_cell_diagram_de.svg
S. 136
Künstliche Neuronale Netze
Grundprinzip
§ Wirkung künstlich neuronaler Netze: Versuch der Nachbildung der Arbeitsweise des menschlichen Gehirns
§ Bestandteile:
o künstlichen Neuronen und
o deren Verknüpfungen
§ Wesentliches Merkmal:
o Lernfähigkeit der Netze durch eine Anpassung der Verbindungsstärke zwischen Neuronen über einen vorgegebenen
Regelmechanismus
§ Beispiel:
o Aufgaben der Klassifikation
o Mustererkennung
Einsatzgebiete
w3
§ Gesamtinput:
ergibt sich als gewichtete Summe der Eingangssignale (Inputwerte) x1,x2,x3
§ Aktivierung:
Aktivierung des Neurons geschieht über die Aktivierungsfunktion φ, deren Wert von der Differenz aus
Gesamtinput und Schwellwert θ abhängt
§ Je nach Aktivierung:
Entstehung eines Outputwerts y
simples Modell:
Merkmale:
§ Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung weitergegeben, es gibt keine
Schleifen
Klassifikation
N8 N9 Outputschicht
Gewichte
w48
Versteckte
N4 N5 N6 N7
Schicht
Gewichte w37
N1 N2 N3 Inputschicht
Eingabemuster
§ Ein neuronales Netz lernt, indem es sich eigenständig gemäß vorgegebener Vorschriften
(Lernregeln) verändert.
§ Durch vorwärts gerichteten Künstlichen Neuronalen Netze lassen sich sehr gute Klassifikationsergebnisse auf dem
Trainingsdatenbestand erzielen
§ Wie bei den Entscheidungsbäumen liegt auch hier das Problem des Overfitting vor à deshalb ist eine
Güteabschätzung der Klassifikationsfähigkeit auf einer Testmenge etwa durch die Fehlklassifikationsquote notwendig
Vorteile:
§ Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute Ergebnisse bei der Klassifikation und Prognose erzeugen.
§ Die offene Struktur macht das Modell sehr flexibel.
Nachteile:
§ Es werden keine expliziten Regeln angegeben.
Tools
Tools
Tools
Tools
Tools
Tools
Tools
Tools
Tools
Quellen:
https://d3js.org
https://github.com/mbostock/d3/wiki/Gallery
Tools
Quellen: http://code.shutterstock.com/rickshaw/examples/extensions.html
https://www.pubnub.com/blog/2015-01-29-stream-data-to-create-realtime-charts-w-d3js-and-rickshaw/
http://jsfiddle.net/peDzT/
https://datascienceplus.com/visualizing-obesity-across-united-states-by-using-data-from-wikipedia/
http://www.datasciencecentral.com/profiles/blogs/map-the-life-expectancy-in-united-states-with-data-from-wikipedia
# plotting
spplot(gadm, "col_no", col=grey(.9), col.regions=myPalette,
main="Unemployment in Germany by district“)
https://ryouready.wordpress.com/2009/11/16/infomaps-using-r-visualizing-german-unemployment-rates-by-color-on-a-map/