DIGIP Praktikum Skript Komplett

Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Lehrveranstaltungsüberblick
Rechnerübung: Data Science
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Vorstellung
• Leiter der Abteilung Analytics am Fraunhofer IIS im Bereich SCS
• ADA Lovelace Center: Mitglied des Steering Committee,
Kompetenzsäulenkoordinator “Few Data Learning”, Interims-Projektleitung
• BHS Joint Lab Data Analytics Gründer und Mitglied des Steering Committee
• Gremien
• International Institute of Forecasting
• Gesellschaft für Operations Research
• Mentor im IAB Mentoring Programm
• Akademischer Werdegang
• B. A. in Finance & Investmens
• M. Sc. in European Economic Studies
• Dissertation zum Thema Data Augmentation für ML Methoden
• Lehraufträge
Christian Menden
• Otto-Friedrich-Universität Bamberg Telefon 0911 58061-9540 (Fraunhofer)
• Friedrich-Alexander-Universität Erlangen-Nürnberg christian.menden@th-nuernberg.de
• FH Würzburg Schweinfurt
• TH Nürnberg
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Agenda
Lehrveranstaltungsüberblick
• Prüfungsleistung
• Themenüberblick
• Übungskonzept
• E-Learning
• Literatur
Prüfungsleistung
Schriftliche Prüfung (100% der Modulnote)
Dauer: 90 min
Inhalt: Vorlesung, Übung und begleitende Literatur
Sprache: Deutsch
Aufbau: Offene Fragen
Termin: Prüfungszeitraum Sommersemester
Erfolgreiche Teilnahme an der Rechnerübung (mE/oE)

Erfolgreiche Bearbeitung der Data-Science-Projektaufgabe (Upload im E-Learning-Portal)
im Rahmen des Rechnerübung.
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0
• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation
• Datenquellen, Datentypen
Datenräume
• Informationsmodelle
Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g
• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen
Rechnerübung
Ziel der Rechnerübung ist der Erwerb grundlegender Kenntnisse und
Fähigkeiten zur Generierung von Erkenntnissen aus Daten
• Grundbegriffe: Künstliche Intelligenz (KI) und Maschinelles Lernen (ML)
• Vorgehen: Workflow einer ML Anwendung
• Software R: Einarbeitung, Basisfunktionen, ML Softwarebibliotheken
• Deskriptive-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Clustering-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Klassifikations-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Regressions-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Eigenständige Bearbeitung eines Übungsbeispiels (àTestat mE/oE)
• Ausblick: Spezialrichtung, aktuelle Forschung im ML z. B. AutoML
Themenüberblick der Rechnerübung
Ziel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
• Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
Data Science Pipeline
1 • Artificial Intelligence (AI)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8

9 - 11
Ziele der Veranstaltung
• Überblick über Machine Learning Verfahren
• Erfahrungen in R Programmierung
• Eigenständige Analyse von Daten
• Vollständige Data Science Pipeline erlernen und eigenständig umsetzen
Übungskonzept
• Theorie
• Implementierung in R
• Beispiel mit Produktionsbezug
• Hausaufgabe
• Besprechung der letzten Hausaufgaben und Fragemöglichkeiten
• Vorstellung der neuen Hausaufgaben
E-Learning-Portal
• Bereitstellung aller Kursunterlagen (Vorlesung, Rechnerübung)
• Abwicklung der gesamten Kommunikation (Forum, Kursnachrichten)
Startseite à Kurse à Fakultäten à MBVS à Gölzer, Philipp à DIGIP (Kurspasswort: DIGI21)
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With
applications in R, Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Wickham, H. (2019), Advanced R, The R series, 2 edn.
• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press
• Döbel, I., Leis, M., Molina Vogelsang, M., Neustroev, D., Petzka, H., Riemer, A., Rüping, S., Voss, A.,
Wegele, M. & Welz, J. (2018), Maschinelles Lernen: Eine Analyse zu Kompetenzen, Forschung und
Anwendung, Technical report, München.
• VDMA Software und Digitalisierung (2018), Quick Guide - Machine Learning im Maschinen- und
Anlagenbau, available at:
https://sud.vdma.org/documents/15012668/26742261/!VDMA%20Quick%20Guide_Machine%20Learning_1
535375434182.pdf/f82a3951-ee87-d9f2-7702-1d20644c2349
• Bischl, B., Scheipl, F., Seibold, H., Bothmann, L., Schalk, D., Molnar, C., Pielok, T., (2021), Introduction to
Machine Learning (I2ML), available at: https://introduction-to-machine-learning.netlify.app
Vielen Dank für
die Aufmerksamkeit
Fakultät
Digitalisierung
Übungseinheit 1: Einführung
Christian Menden
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0
• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation
• Datenquellen, Datentypen
Datenräume
• Informationsmodelle
Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g
• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen
• Data Science
• Analytics
5
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8

9 - 11
Lernziele
Lehreinheit 1: Einführung
Ich kenne/verstehe heute …
• die wichtigsten Begriffe und deren Verbindungen im
Kontext von Data Science, Machine Learning, Artificial
Intelligence, Deep Learning, Analytics, Data Mining und
Statistik.
• die wesentlichen Verfahren des maschinellen Lernens:
Supervised ML, Unsupervised ML und Reinforcement
Learning.
• die gesamte Data Science Pipeline und die dazu
notwendigen Kompetenzen.
• den roten Faden, der durch die gesamte Veranstaltung
führt.
Agenda
• Grundbegriffe und Machine Learning Verfahren im Überblick
• Durchgängiges Beispiel einer Data Science Anwendung
• Roter Faden durch die gesamte Veranstaltung
Grundbegriffe
Machine Learning verändert unsere Welt…
• Suchmaschinen die lernen was du suchst

• Vorschlagssysteme die deinen Geschmack an Büchern,
Musik und Filmen lernen
• Automatisierter Aktienhandel mit Algorithmen
• Google Translate lernt Texte zu übersetzen
• Siri lernt Sprache zu verstehen
• Deepmind schlägt den Menschen in Go
O‘Neil, C. (2016), Weapons of Math
• Autos lernen autonom zu fahren Destruction: How Big Data Increases
Inequality and Threatens Democracy,
• Wahlkampagnen nutzen algorithmengetriebene 6 edn, Crown
Werbeanzeigen um Wähler zu beeinflussen

• Datengetriebene Entdeckungen in den Bereichen der
Physik, Biologie, Genetik, Astronomie, Chemie, etc.
• …
Grundbegriffe
AI Machine
Learning
Neural
Networks
Deep
Learning
1950 1960 1970 1980 1990 2000 2010 2020

Quelle: Eigene Darstellung angelehnt an John Searle, The Rediscovery of the Mind (A Bradford Book ,1992, S. 201)
Viele Menschen sind unsicher oder verwirrt, was diese Begriffe eigentlich bedeuten.
Und was hat das alles mit Statistik zu tun?
Grundbegriffe
Artificial Intelligence (AI) – Künstliche Intelligenz (KI)
• KI ist ein generischer Begriff für ein sehr großes und sich schnell entwickelndes
Forschungsfeld. 1956
• Es gibt keine präzise Definition, aber der Begriff wird häufig genutzt wenn Dartmouth Summer
Maschinen trainiert werden um eine Aufgabe zu lösen die bis dato nur von Research Project on AI
Menschen gelöst werden konnte und als besonders „schwer“ angesehen wird.
• Die Ursprünge von KI als Forschungsfeld sind nicht klar datiert. In 1956 wurde im
Rahmen des „Dartmouth Summer Research Project on Artificial Intelligence“ der Ziel
Begriff erstmalig geprägt. Die zugrundeliegenden Theorien und Konzepte (u.a. aus
der Biologie) gehen aber weiter zurück bis in die 1940er.
Starke KI
• Als in den 1940er Computer erfunden wurden fragten Forscher wie Alan Turing und
John von Neumann: „Wenn wir Berechnungen formalisieren können, können wir
dann Berechnung verwenden, um das "Denken" zu formalisieren?“
Heute
• Unter KI werden heute ML, Natural Language Processing, Computer Vision,
Robotics, Planungsprobleme, Suchen, Spiele, intelligente Agenten und vieles mehr
verstanden. Schwache KI
• KI ist heute ein „Hype“ Begriff den viele Menschen verwenden obwohl sie vermutlich
eher „ML“ oder „klassische Datenanalyse“ sagen sollten.
Grundbegriffe
Machine Learning (ML)
• ML looks back on a long history and “[…] sits at the
crossroads of computer science, statistics and a variety
of other disciplines concerned with automatic
improvement over time, and inference and decision-
making under uncertainty” (Jordan & Mitchell 2015,
S.256).
• ML bezeichnet mathematisch präzise beschriebene
Verfahren die eine hinreichend beschränkte Aufgabe
lösen.
• ML-Algorithmen konstruieren normalerweise Vorhersage-
/Entscheidungsmodelle aus Daten, anstatt sie explizit sie
zu programmieren.
• Nach Mitchell (1997, S.2) gilt: “[...] a computer program is
said to learn from experience E with respect to some
class of tasks T and performance measure P, if its Quelle: https://www.oreilly.com/library/view/java-deep-
learning/9781788997454/assets/899ceaf3-c710-4675-ae99-
performance at tasks in T, as measured by P, improves 33c76cd6ac2f.png
with experience E.”
Grundbegriffe
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …
…
Grundbegriffe
Logistic Regression
Decision Trees
Random Forests
Neural Networks
Bayesian Inference
Ensemble Methods
Support Vector Machines
Gradient Boosting Machines
Convolutional Neural Networks
Recurrent Neural Networks
Others
Die am meisten von Experten verwendeten ML Methoden gemäß einer Umfrage von Kaggle
Quelle: Döbel et al. (2018), S.11
Grundbegriffe
Deep Learning (DL)
• Deep Learning ist ein Teilgebiet von ML und behandelt die
Erforschung und Anwendung von künstlichen neuronalen
Netzen (KNNs).
• KNNs sind dem menschlichen Gehirn nachempfunden,
können allerdings einfach als eine Klasse von ML
Modellen verstanden werden die bereits seit Jahrzehnten
erforscht werden.
• DL umfasst lediglich eine hohe Anzahl von Schichten
(Layers) mit speziellen Neuronen für Bilddaten und
Tensoren sodass Anwendungen auf sehr großen
Datensätzen performant funktionieren.
• DL kann auf tabellarischen Daten angewendet werden,
wird aber üblicherweise bei Bild-, Text-, und Signaldaten
angewendet. Vergleich von (A) einem menschlichen Neuron, (B) einem künstlichen Neuron, (C) einer
biologischen Synapse und (D) KNN Synapsen.
• In den letzten 10-15 Jahren wurde mit DL Quelle: Maltarollo et al. (2013), S. 205.
bemerkenswerte Ergebnisse erzielt die „intelligent“

aussahen.
Grundbegriffe
Machine Learning vs. Statistik
• ML und Statistik wurden historisch in verschiedenen
Bereichen entwickelt. Machine Learning Statistik
Features Variables
• Viele Methoden und vor allem die mathematischen
Grundlagen sind jedoch äquivalent. Inputs Independent Variables
• Der Fokus liegt bei ML traditionell auf präzisen Outputs Predicted Variables
Vorhersagen während die Statistik eher die Interpretation Targets / Training Values Dependent Variables
der Muster der Daten analysiert und Inferenz ableiten Errors Residuals
möchte. Patterns / Training Pairs Observations
• Heute arbeiten beide im wesentlichen mit den gleichen Weights Parameter Estimates
Methoden an den selben Problemen.
Generalization Test Set Performance
• Leider sind die Communities immer noch geteilt, reden Supervised Learning Regression / Classification
nicht so viel miteinander wie sie sollten, und jeder ist
Unsupervised Learning Density Estimation / Clustering
verwirrt, weil unterschiedliche Terminologie für dieselben
Konzepte besteht (siehe Tabelle rechts). Begriffskonventionen in Machine Learning und Statistik (Adaptiert von Sarle(1994)).
Grundbegriffe
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Grundbegriffe
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
• Daten ohne Label y

• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Grundbegriffe
Reinforcement Learning (RL)
• RL ist ein universell einsetzbares Framework für KI.

• In jedem Zeitschritt interagiert ein Agent mit der
Umgebung. Er:
1. Beobachtet den Zustand
2. Erhält eine Belohnung
3. Führt eine Aktion aus.
• Ziel ist die Auswahl von Aktionen die zur Maximierung der
zukünftigen Belohnung führen
• Belohnungssignale können spärlich, verrauscht oder
verzögert sein
• Bekannte Beispiele:
• Google‘s DeepMind AI learns to walk
https://www.youtube.com/watch?v=gn4nRCC9TwQ
• OpenAI plays Hide and Seek
https://www.youtube.com/watch?v=Lu56xVlZ40M
Grundbegriffe
Data Mining
• Begriff entstammt den späten 1980ern und ist mit der

steigenden Popularität von Soft- und Hardware-
technologien in Unternehmen verbunden
• Ist ein iterativer, nicht-determinierbarer Prozess und
verwendet Methoden aus den Bereichen ML, Statistik,
Computer Science
• Ein Großteil des Aufwandes steckt in der
Datenaufbereitung
• Ergebnis des Prozesses sind Erkenntnisse und Wissen
aus Daten, die in Form von Regeln und Modell
formalisiert werden können
• Oft verwendetes Synonym: „Knowledge Discovery from
Databases (KDD)“
CRISP-DM data mining process (Shearer 2000, S.14).
Grundbegriffe
Analytics
• Prozess der datengetriebenen Wissensgenerierung im
Unternehmenskontext um komplexe Probleme zu lösen
und Entscheidungsprozesse zu beschleunigen.
• Fokus auf Anwendung von ML Methoden im konkreten How can we reach our
Anwendungsfällen Unternehmenskontext um aktuelle goals?
Prozesse zu verbessern. Prescriptive

Why did it happen? Analytics
What will happen?
• Descriptive Analytics: ion
izat
Value
t i m n
Predictive Op atio
• Business Intelligence m end
What happened? Analytics om
• Analyse historischer Daten Rec
si g ht
• Dashboards, KPIs, Reports Descriptive Fore
• Predictive Analytics: Analytics
ht
g
Insi
• Vorhersage zukünftiger Entwicklungen
t i on
rma
• Auf Basis historischer Daten Info Rev
i ew
• Input für Entscheidungsträger
Complexity
• Prescriptive Analytics:
• Unterstützt den Entscheidungsprozess mathematisch und direkt
• Formulierung und Lösung eines Unternehmensproblems als
mathematisches Optimierungsproblems
Grundbegriffe
Data Science
• In der Publikation von Davenport & Patil (2012) “Data
Scientist: The Sexiest Job of the 21st Century”, beanspruchen
Jeff Hammerbacher und D.J. Patil den Begriff “data scientist” Data Science Computer
im 2008 geprägt zu haben um ihre damaligen Jobs bei Science
LinkedIn und Facebook zu beschreiben.
• Keine präzise Definition
• Data Science beschreibt ein breites Feld in dem
Unternehmensprobleme aus einer Datenperspektive
betrachtet werden und umfasst den gesamten Analytics
Prozess von Problemidentifikation und -definition,
Machine Domain
Datenbankmanagement, Datenakquise und –vorverarbeitung,
Learning Expertise
Visualisierung, ML, Front-End Entwicklung und Deployment
(Waller & Fawcett 2013).
• Data Science erfordert interdisziplinäre Kompetenzen aus
den Bereichen der Mathematik, Statistik, ML, Computer
Science und Domänenexpertise. Data science Venn Diagramm (Eigene Darstellung in Anlehnung an Mitchell-
Guthrie (2014) and Tierney (2016)).
Agenda
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Dateneigenschaften
• Ein Datenpunkt = Ein Pin auf der Leiterplatte
• Lötpasteninspektion Messungen:
• Height
• Volume
• y_offset
• x_offset
• …
• Labels für diesen Datensatz aus Röntgeninspektion und

zusätzlicher Prüfung
• Evtl. Imbalanced Data / Unausgeglichene Daten
à Deutlich mehr IO als NIO
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Agenda
Ausblick - Roter Faden durch die gesamte Veranstaltung
• Data Science
• Analytics
5
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8

9 - 11
Ausblick
Hausaufgabe:
• Bitte installieren Sie sich zuerst R und
anschließend RStudio
1. R: https://ftp.fau.de/cran/
2. RStudio Desktop 1.4.1103 Free Version:

https://rstudio.com/products/rstudio/download/#download
Vielen Dank für
die Aufmerksamkeit
Literatur
• Shearer, C. (2000), ‘The CRISP-DM Model: The new blueprint for data mining’, Journal of Data Warehousing 5(4), 13–
22.
• Jordan, M. I. & Mitchell, T. M. (2015), ‘Machine learning: Trends, perspectives, and prospects’, Science 349(6245),
255–260.
• Mitchell, T. M. (1997), Machine learning, McGraw-Hill series in computer science, international edn, McGraw-Hill, New
York, NY.
• Davenport, T. H. & Patil, D. J. (2012), ‘Data scientist: The sexiest job of the 21st century’, Harvard Business Review
90(10), 70–6, 128.
• Mitchell-Guthrie, P. (2014), ‘Looking backwards, looking forwards: SAS, data mining, and machine learning’.
https://blogs:sas:com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-
and-machinelearning/,
• Tierney, B. (2016), ‘Data science is multidisciplinary’. http://www:oralytics:com/2012/06/data-science-is-
multidisciplinary.html
Fakultät
Digitalisierung
Übungseinheit 2: Einführung in R und RStudio
Christian Menden
Rückblick - Roter Faden durch die gesamte Veranstaltung
• Data Science
• Analytics
5
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8

9 - 11
Rückblick – Übungseinheit 1
Data Science Computer

Science
AI Machine
Learning
Neural
Networks
Deep
Learning
Machine Domain
Learning Expertise
1950 1960 1970 1980 1990 2000 2010 2020
How can we reach our

goals?
Prescriptive
Why did it happen? Analytics
What will happen?
n
atio
imiz
Value
n
Predictive Opt
Datensatz
atio
end
1
What happened? Analytics om m Machine
R e c Learning
Datensatz
sig ht 2
Descriptive Fore
Analytics
…
ht
Insig Datensatz
n
tion
rma
Info Rev
iew
Complexity
Hausaufgabe:
• Bitte installieren Sie sich zuerst R und
anschließend RStudio
1. R: https://ftp.fau.de/cran/
2. RStudio Desktop 1.4.1103 Free Version:

https://rstudio.com/products/rstudio/download/#download
Besprechung der Hausaufgabe
Sie sollten nun R und RStudio installiert haben:
R auf macOS Big Sur

RStudio auf macOS Big Sur
Kurzes Setup
• Automatisches Laden der letzten Daten ausschalten
• Verhindert, dass Fehler übersehen werden
Kurzes Setup
• Erstellen Sie ein R Project als „New Directory“ und nennen Sie es „DIGIP_T“
• Falls Sie git nutzen, könnten Sie sich hier ein versionsverwaltetes Projekt klonen oder neu anlegen
Kurzes Setup
• Erstellen Sie ein neues R Script „Tut_1“
Tipps & Shortcuts
• Zuweisung <-
• Windows: Alt –
• macOS: option –
• Aktuelle Zeile ausführen

• Windows: Strg Enter
• macOS: command ⌘ Enter
• ? zeigt Hilfe an
• # erzeugt Kommentare die nicht ausgeführt werden
• Section einfügen
• Windows: Strg Shift R
• macOS: control Shift R
Lernziele
Lehreinheit 2: Einführung in R und RStudio

• Die grobe Funktionsweise von R und RStudio.
• Die verschiedenen Objektarten von R und die
dazugehörigen Rechenoperationen.
• Wie R Projekte und R Skripte erstellt und ausgeführt
werde können.
• Wie Daten in R importiert und visualisiert werden
können.
Warum R?
• Free and Open Source Software
• Verfügbar auf allen gängigen Systemen (Windows, macOS, Linux)
• Einfach zu replizieren und zugänglich für alle à fördert wissenschaftliche Überprüfbarkeit
• Sehr starke Community (u.a. auf https://stackoverflow.com ) und gute Dokumentation
• Sehr umfangreicher Bestand an Packages für Statistik, Data Science, ML, etc.
• Starke Tools zur Kommunikation der Ergebnisse (Rmarkdown, HTML, PDF, Word, PowerPoint, Dashboards, Tex-Files)
• State-of-the-Art Methoden (Forscher publizieren ihre R Packages zu den neuesten Journal Artikeln bei GitHub)
• Sehr ähnlich zu C, C++ und Fortran
• Sie können (fast) alles in R machen!
Agenda
Lehreinheit 2: Einführung in R und RStudio
• Objektarten in R
• Rechenoperationen
• Basisbefehle
• Übungen in RStudio
• Beispiel aus dem Machinen- und Anlagenbau
• Hausaufgaben
Objektarten in R und RStudio
• Zur Implementierung von eigenem Code und Algorithmen in R, verfügt R über eine Vielzahl von Objekten ganz ähnlich
wie Programmiersprachen wie C, C++, Java, Python, Ruby, etc.
• Scalars
• Vectors
• Matrices
• Arrays
• Data frames
• Lists
• R ist objektorientiert!
• Um die Struktur von einem Objekt zu bestimmen, kann der Befehl str( ) verwendet werden.
Rechenoperationen
• Einfache arithmetische Rechenoperationen wie gewohnt
• +
• -
• /
• *
• ^
• Logische Operatoren
• < bzw. > weniger als bzw. mehr als
• <= bzw. >= weniger oder genauso viel als bzw. mehr oder genauso viel als
• == ist genau gleich
• != ungleich
• isTRUE(x) Test ob x wahr ist
• Vektor- und Matrixoperationen
• %*% Matrixmultiplikation
• t() Transponierte einer Matrix
• Vektoroperationen funktionieren wie arithmetische Rechenoperationen
Basisbefehle
• getwd() Aktuelles Working Directory
• setwd(„C:/Users/John/Desktop“) Working Directory ändern
• ls() Alle Objekte im wd anzeigen
• rm(x) Objekt x entfernen
• rm(list=ls()) Alle Objekte entfernen
• plot(x) Grafik von x erzeugen
• hist(x) Historgamm von x erzeugen
• # Kommentare einfügen
Übungen in RStudio
1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

Hausaufgabe Vektoren
Erstellen Sie die Vektoren:
a) (1, 2, 3, …, 18, 19, 20)

b) (20, 19, 18, …, 3, 2, 1)
c) (1, 2, 3, …, 19, 20, 19, 18, …, 2, 1)
d) (10, 2, 8, 5, 7) und weisen Sie den Namen vector1 zu.
e) Berechnen Sie die Summe von vector1.
f) Multiplizieren jedes Element von vector1 mit 5.
g) Welche Elemente von vector1 sind größer als 6?
h) Wählen Sie nur die ersten drei Elemente von vector1 und weisen Sie diesen den Namen vector2 zu.
i) (10, 2, 8, 10, 2, 8, …, 10, 2, 8) mit insgesamt 10 Wiederholungen von vector2.
Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.
Hausaufgabe Datenimport und Visualisierung
Importieren Sie den Datensatz trainSPI.
a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.

b) Fügen Sie eine rote horizontale Linie hinzu, die den Mittelwert der Daten abbildet.
c) Benennen Sie den Graph „Pin-Analyse“, die y-Achse „Anzahl Pins pro Board“ und die x-Achse „Board Nummer“.
Vielen Dank für
die Aufmerksamkeit
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
Fakultät
Digitalisierung
Übungseinheit 3: Deskriptive Analyse
Christian Menden
• Data Science
• Analytics
5
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8

9 - 11
1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten
Rückblick – Übungseinheit 2: Hausaufgabe Vektoren
Erstellen Sie die Vektoren:
a) (1, 2, 3, …, 18, 19, 20)

b) (20, 19, 18, …, 3, 2, 1)
c) (1, 2, 3, …, 19, 20, 19, 18, …, 2, 1)
d) (10, 2, 8, 5, 7) und weisen Sie den Namen vector1 zu.
e) Berechnen Sie die Summe von vector1.
f) Multiplizieren jedes Element von vector1 mit 5.
g) Welche Elemente von vector1 sind größer als 6?
h) Wählen Sie nur die ersten drei Elemente von vector1 und weisen Sie diesen den Namen vector2 zu.
i) (10, 2, 8, 10, 2, 8, …, 10, 2, 8) mit insgesamt 10 Wiederholungen von vector2.
Rückblick – Übungseinheit 2: Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.
Rückblick – Übungseinheit 2: Hausaufgabe Datenimport
Importieren Sie den Datensatz trainSPI.
a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.

b) Fügen Sie eine rote horizontale Linie hinzu, die den Mittelwert der Daten abbildet.
c) Benennen Sie den Graph „Pin-Analyse“, die y-Achse „Anzahl Pins pro Board“ und die x-Achse „Board Nummer“.
Lernziele
Lehreinheit 3: Deskriptive Analyse

• … wie Graphen und Diagramme in R erstellt werden
können.
• … wie fehlende Werte in einem Datensatz entstehen,
erkannt und bereinigt werden können.
• … wie deskriptive Statistiken erstellt und ausgewertet
werden können.
Agenda
Lehreinheit 3: Deskriptive Analyse
• Visualisierungen
• Datenbereinigung
• Deskriptive Statistiken
• KPIs
Visualisierungen
• Linien- und Balkendiagramme
• Histogramme
• Boxplot
• Scatterplot
• … viele mehr
Sehr gute Überischt: https://www.r-graph-gallery.com
Datenbereinigung
• Verschiedene Strukturen fehlender Daten
• Unterschiedliche Herangehensweisen zur Datenbereinigung
𝐹! 𝐹" 𝐹# 𝐹$ 𝐹% 𝐹&
𝑆!
𝑆"
𝑆#
𝑆$
𝑆%
𝑆&
Datenbereinigung
Missing completely at random (MCAR)
• Kein Zusammenhang zwischen dem Fehlen von Daten und den beobachteten oder unbeobachteten Daten, sondern vollkommen zufällig
(Enders 2010).
• z. B. in medizinischen Studien werden Patienten zufällig einer regulären Gruppen oder einer Placebo Gruppe zugeteilt um die Validität
der Testergebnisse zu gewährleisten.
• Sehr starke Annahme, die in der Praxis nur selten standhält (Rässler 2002).
Missing at random (MAR)

• Unglücklicherweise etwas verwirrend.
• MAR bedeutet, dass das Fehlen von Daten nicht komplett zufällig auftritt, allerdings dass kein Zusammenhand zu den beobachteten
Daten besteht.
• Stattdessen können andere Daten, ohne fehlende Werte, genutzt werden um dem Fehlen der Daten gerecht zu werden
• z. B. beantworten Männer Umfragen zum Thema Burnout seltener als Frauen. Allerdings besteht kein Zusammenhang zwischen dem
Geschlecht und der Häufigkeit oder der Stärke von Burnout nachdem „Männlichkeit“ in der Analyse berücksichtigt wird (Enders 2010).
• In der Praxis ist MAR unmöglich statistisch zu beweisen (Little & Rubin 2002).
Missing not at random (MNAR)

• Impliziert einen systematischen Zusammenhang zwischen dem Fehlen von Daten und den beobachteten Daten.
• z. B. gibt es in Studien Fragen die regelmäßig nicht beantwortet werden („Wie hoch ist ihr Gehalt?“)
• In diesem Fall hat die Frage an sich einen Einfluss auf die Wahrscheinlichkeit, dass Datenpunkte fehlen.
• Wird dieses Muster ignoriert, sind die Analyseergbnisse verzerrt und nicht belastbar (Enders 2010).
Datenbereinigung
• Fehlende Daten löschen
• Einzelne Werte löschen
• Spaltenweise löschen
• Zeilenweise löschen
• Kann den Datensatz stark verkleinern oder verzerren
• Einfache Imputation
• Mittelwert Ersetzung
• Modus Ersetzung
• Bei Zeitreihen: Ersetzung durch die letzte oder nächste
Beobachtung
• …
• Multiple Imputation
• Imputation fehlender Werte zur Generierung eines vollständigen Illustration der multiplen Imputation (Nissen et al. 2019)
Datensatzes
• X-fache Wiederholung
• Modellierung und Analyse der vollständigen Datensätze
• Berechnung gemittelter Ergebnisse
Datenbereinigung
• Fehlende Werte in Zeitreihen (z. B. Sensordaten)
f(t) Observed data Y
f(t) Real data X
f(t) t
Missing / latent data Z
Datenbereinigung
• Data Augmentation bei Zeitreihen
Augmented data YA
f(t) f(t)
f(t) Observed data Y
t t
f(t) f(t)
t t
Datenbereinigung
• Fehlende Werte in Bilddaten (z. B. Qualitätsinspektion mit Bilddaten)
Observed data Y
Real data X
Missing / latent data Z
Datenbereinigung
• Data Augmentation bei Bilddaten
Observed data Y Augmented data YA
Datenbereinigung
Deskriptive Statistiken / KPIs
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• …

Hausaufgabe Deskriptive Analyse
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch sowie tabellarisch und interpretieren Sie die
Ergebnisse.
Vielen Dank für
die Aufmerksamkeit
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Enders, C. K. (2010), Applied missing data analysis, Methodology in the Social Sciences, Guilford Press, New York.
• Rässler, S. (2002), Statistical matching: A frequentist theory, practical applications, and alternative Bayesian
approaches, Vol. 168 of Lecture Notes in Statistics, Springer, New York, NY.
• Little, R. J. A. & Rubin, D. B. (2002), Statistical analysis with missing data, Wiley series in probability and statistics, 2
edn, Wiley, Hoboken.
• Nissen, Jayson & Donatello, Robin & Van Dusen, Ben. (2019). Missing data and bias in physics education research: A
case for using multiple imputation. Physical Review Physics Education Research.
Fakultät
Digitalisierung
Übungseinheit 5: Unsupervised Learning
Christian Menden
• Data Science
• Analytics
6
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9

10 - 11
!! !" !# !$ !% !&
"!
""
"#
"$
"%
"&
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.
Lernziele
Lehreinheit 4: Unsupervised Learning

• die Funktionsweise von unüberwachten Lernverfahren
(Unsupervised Learning)
• welche Verfahren des Unsupervised Learning es gibt
und wofür sie verwendet werden.
• wie Clustering Verfahren in R implementiert werden
können.
Agenda
Lehreinheit 4: Unsupervised Learning
• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning
? !
70% 90%
Accuracy Accuracy
Unterschiedliche Ansätze
Machine Learning
Learning Learning
Dimension
Reduction
- Naive Bayes
… …
…
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
15399087 Male 28 52.000 € 0
15526481 Female 32 55.000 € 0
18761178 Female 44 90.000 € 1
14309811 Female 21 35.000 € 1
10,87 986,01 54,12 North 3,12
25,38 984,61 54,12 West 1,29
10,98 985,87 23,12 South 2,54
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
• Daten ohne Label y

• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen
Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/
K-Means Clustering
1 (a) 1 (b) 1 (c)
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).
K-Means Clustering
1 (d) 1 (e) 1 (f)
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).
• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).
• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).
Dimensionsreduktion
Illustration der Hauptkomponentenanalyse (PCA) (Scholz 2006, S.16).
Unsupervised Learning
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• …

Vielen Dank für
die Aufmerksamkeit
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.
• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.
• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.
• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.
Fakultät
Digitalisierung
Übungseinheit 6: Supervised Learning
Christian Menden
• Data Science
• Analytics
6
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9

10 - 11
Aufgabe 1 – k-means Clustering:
Analysieren Sie unterschiedliche Anzahl von Cluster k und vergleichen Sie die Ergebnisse.
Wie viele Cluster würden Sie wählen?
Lernziele
Lehreinheit 6: Supervised Learning

• die Funktionsweise von überwachten Lernverfahren
(Supervised Learning)
• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Lernverfahren
• welche Verfahren es zur Regressionsanalyse gibt und
wofür sie verwendet werden.
• wie Regressionsverfahren in R implementiert werden
können.
Agenda
• Ziele
• Pipeline und Evaluation
• Lineare Regression
• Regression Tree
Ziele von Supervised Learning
• Gesetzmäßigkeiten nachbilden
• Hypothesen formulieren, die eine möglichst präzise Vorhersage ermöglichen
• Das Ziel (Target) ist bekannt und kann zur Evaluation verwendet werden
à Überwacht
Annahmen:
• X ist ein Set aus n Beobachtungen von p verschiedenen Features
𝑥!! 𝑥!" … 𝑥!#

𝑥"! 𝑥"" … 𝑥"#
𝑋= … … … …
𝑥$! 𝑥$" … 𝑥$#
• Y ist unser Target bestehend aus n Beobachtungen

• Wir vermuten einen Zusammenhang zwischen Y und X
𝑌=𝑓 𝑋 + 𝜖
• f bezeichnet eine allgemeine unbekannte Funktion und 𝜖 einen Fehlerterm mit Mittelwert
gleich Null welcher unabhängig ist von X
• Der Output eines Supervised Learning Modell ist
𝑌) = 𝑓* 𝑋
Machine Learning
Learning Learning
Dimension
Reduction
- Naive Bayes
… …
…
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
15399087 Male 28 52.000 € 0
15526481 Female 32 55.000 € 0
18761178 Female 44 90.000 € 1
14309811 Female 21 35.000 € 1
10,87 986,01 54,12 North 3,12
25,38 984,61 54,12 West 1,29
10,98 985,87 23,12 South 2,54
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
Supervised Learning Pipeline
Quelle: Pant(2019), TowardsDataScience
Quelle: Schutt, R. (2014), Doing data science.
Training- Input ML Model Output Evaluation

data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm
Quelle: Eigene Darstellung
Supervised Learning – Evaluation einer Regression
• Um zu beurteilen, wie gut eine überwachte maschinelle Lernmethode für einen gegebenen Datensatz
funktioniert, d. h. wie gut die von der Methode erzeugten Vorhersagen mit den tatsächlich beobachteten
Werten übereinstimmen, benötigen wir eine Reihe von Evaluationsmetriken (Kuhn & Johnson 2016).
• In einem Regressions-Setup bezeichnet der sogenannte "mittlere quadratische Fehler" (MSE) das am
weitesten verbreitete Maß
$
1
𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#
• Der MSE ist immer streng positiv und klein, wenn die Vorhersagen genau sind, und groß, wenn es
erhebliche Abweichungen zwischen den vorhergesagten und beobachteten Beobachtungen gibt (James
et al. 2017).
• Werte des MSE näher an Null sind besser.
Supervised Learning – Evaluation einer Regression
• Der Root Mean Squared Error bezeichnet eine andere weit verbreitete Metrik
$
1
𝑅𝑀𝑆𝐸 = 𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#
• Der RMSE bestraft große Abweichungen stärker als der MSE, was bei bestimmten Anwendungen hilfreich
sein kann (Theodoridis 2015).
• Wenn eine Vorhersage, die um 10 Einheiten falsch liegt, mehr als doppelt so „schlimm“ ist wie eine
Abweichung von 5 Einheiten, ist der RMSE zur Bewertung der Leistung der ML-Methode besser geeignet
als der MSE.
• Wenn ein Vorhersagefehler von 10 Einheiten genau doppelt so „schlimm“ ist wie ein Fehler von 5
Einheiten, sollte der MSE bevorzugt werden.
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting
• In der Realität sind wir oft mehr daran interessiert, wie gut die
Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et
Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error
Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models
zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).
Lineare Regression
• Die sogenannte "lineare Regression" bietet einen sehr einfachen Ansatz
für überwachtes Lernen in einer Regressionsumgebung (Hastie et al.
2017). Sie geht davon aus, dass die Beziehung zwischen der Ausgabe Y
und einem Eingabevektor X linear ist und modelliert werden kann als
𝑌 = 𝛽! + 𝛽" 𝑋" + 𝛽#𝑋# + ⋯ + 𝛽$ 𝑋$ + 𝜖
• Die Schätzung der Parameter 𝛽!, 𝛽!, … , 𝛽! beinhaltet die Minimierung der
Summe der quadrierten Residuen (RSS)
'
𝑅𝑆𝑆 = ,(𝑦% −𝑦0% )#
%&"
'
2! + 𝛽
𝑅𝑆𝑆 = ,(𝑦% − 𝛽 2 2 2
" 𝑥%" + 𝛽# 𝑥%# + ⋯ + 𝛽$ 𝑥%$ )
#
%&"
• Die Abbildung zeigt eine lineare Regression mit p = 2. In diesem
Beispiel wird die Regression der kleinsten Quadrate zu einer Ebene, die
die Summe der quadrierten Fehler minimiert, die als vertikale Abstände
zwischen jeder Beobachtung (rote Punkte) und der Ebene angegeben
werden.
Regression Tree
• Baumbasierte Methoden für Regression (und Klassifikation)
beinhalten eine Splittung bzw. Segmentierung des
Prädiktorraums in eine Anzahl einfacher Regionen.
• Um eine Vorhersage für eine bestimmte Beobachtung zu
treffen, verwenden wir normalerweise den Mittelwert oder den
Modus der Trainingsbeobachtungen in der Region, zu der sie
gehört.
• Die Splittingregeln zur Segmentierung des Prädiktorraums
können in einem Baum zusammengefasst und dargestellt,
sodass dieser Ansatz als Entscheidungsbaummethode
bezeichnet wird.
• Baumbasierte Methoden sind simpel und einfach zu
interpretieren.
• Sie sind jedoch in der Regel nicht konkurrenzfähig mit
komplexeren Ansätzen des überwachten Lernens, wie z. B.
neuronale Netze was die Vorhersagegenauigkeit angeht.
Supervised Learning - Regression
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• …

Vielen Dank für
die Aufmerksamkeit
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks
• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.
• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-

projectec1dba419b94
• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.
• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.
Fakultät
Digitalisierung
Übungseinheit 7: Supervised Learning
Christian Menden
• Data Science
• Analytics
6
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9

10 - 11
Overfitting Adequate Underfitting
Regression
Classification
- Low training error - Training error slightly lower - High training error
Properties - High test error than test error - Training and test error close
to eachother
- Solutions: Use regularization
data complex/nonlinear models
Aufgabe 1 – Supervised Learning - Regression:
Vergleichen Sie die Ergebnisse der linearen Regression und dem Regression Tree.
• Welches Modell würden Sie bevorzugen?
• Welche Features sind die wichtigsten?
• Wie würden Sie das lineare Modell überarbeiten? Wenn ja, wie?
Lernziele

• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Klassifikationsverfahren
• welche Verfahren es zur Klassifikation gibt und wofür
sie verwendet werden.
• wie Klassifikationsverfahren in R implementiert werden
können.
Agenda
Lehreinheit 7: Supervised Learning - Klassifikation
• Ziele
• Pipeline und Evaluation
• Logistische Regression
• Entscheidungsbaum
• Random Forest
Machine Learning
Learning Learning
Dimension
Reduction
- Naive Bayes
… …
…
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
15399087 Male 28 52.000 € 0
15526481 Female 32 55.000 € 0
18761178 Female 44 90.000 € 1
14309811 Female 21 35.000 € 1
10,87 986,01 54,12 North 3,12
25,38 984,61 54,12 West 1,29
10,98 985,87 23,12 South 2,54
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
Training- Input ML Model Output Evaluation

data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm
Quelle: Eigene Darstellung
Supervised Learning – Evaluation einer Klassifikation
• In einem Klassifikations-Setting, in dem 𝑦!, … , 𝑦" ein kategoriales Ziel ist, werden die Ergebnisse oft in einer
sogenannten Konfusionsmatrix dargestellt.
• Die am häufigsten verwendete Metrik zur Messung der Performance von 𝑓$ ist die sogenannte "Fehlerrate" bzw. „Error
Rate“ (ER)
"
1
𝐸𝑅 = + 𝐼 𝑦# ≠ 𝑦.#
𝑛
#$!
• 𝐼 𝑦# ≠ 𝑦.# bezeichnet eine Indikatorfunktion die den Wert Eins annimmt, wenn 𝑦# ≠ 𝑦.# und Null wenn 𝑦# = 𝑦.# .
• Dementsprechend berechnet die ER den Anteil der Fehlklassifikationen und kann in der gleichen Notation wie in der
obigen Tabelle ausgedrückt werden:
𝐵+𝐶
𝐸𝑅 =
𝐴+𝐵+𝐶+𝐷
Supervised Learning – Evaluation einer Klassifikation
• Analog zur ER misst die „Accuracy“ (ACC) die Anzahl der korrekt klassifizierten Beobachtungen.
𝐵+𝐶
𝐴𝐶𝐶 = 1 − 𝐸𝑅 = 1 −
𝐴+𝐵+𝐶+𝐷
• ACC und ER sind geeignete Maße, wenn die Klassen ungefähr ausgeglichen sind, z. B. 55 % von 𝑦# = 1 und 45 % von
𝑦# = 0.
• Wenn die Zielvariable stark unausgewogen ist, liefern diese Maße verzerrte Ergebnisse (James et al. 2017).
• In diesem Fall sollte die sogenannte „Precision“ oder „Recall“ genutzt werden.
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting
• In der Realität sind wir oft mehr daran interessiert, wie gut die
Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et
Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error
Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models
zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).
Logistische Regression
• Eine sehr beliebte ML-Methode für Klassifikationsprobleme ist
die "logistische Regression", die in einem binären Setting die
Wahrscheinlichkeit, dass Y entweder den Wert Null oder Eins
annimmt, abhängig von einer Menge von Merkmalen X
modelliert, d. h.
𝑝 𝑋 = Pr 𝑌 = 1 X )
• Dabei wird p(X) durch eine lineare Regression modelliert:
𝑒 %!&%" '"&%#'#&⋯&%$'$
p X =
1 + 𝑒 %!&%" '"&%#'#&⋯&%$'$
• Diese Formel können wir umformen und erhalten das

sogenannte „Logit“:
𝑝(𝑋)
log = 𝛽) + 𝛽! 𝑋! + 𝛽*𝑋* + ⋯ + 𝛽+ 𝑋+
1 − 𝑝(𝑋)
• Dies erzeugt eine Vorhersagekurve, die nichtlinear ist und nur
Werte zwischen Null und Eins annehmen kann, was für eine
binäre Klassifikation geeignet ist.
Classification Tree
• Classifcation Trees funktionieren sehr ähnlich wie
Regression Trees und beinhalten eine Splittung bzw.
Segmentierung des Prädiktorraums in eine Anzahl
einfacher bzw. reiner Regionen.
• Bei Klassifikationsbäumen werden Vorhersagen generiert,
indem jede Beobachtung zu der am häufigsten
vorkommenden Klasse der Trainingsbeobachtungen in der
Region gehört, zu der sie gehört (bei Regressionsbäumen
wird der Mittelwert der entsprechenden Region genutzt).
• Als Splitting Regel wird die Klassifizierungsfehlerrate
gewählt. Diese ist einfach der Anteil der
Trainingsbeobachtungen in einer Region, die nicht zur
häufigsten Klasse gehören:
𝐸 = 1 − max 𝑝̂-,
,
• Dabei stellt 𝑝̂-, den Anteil der Trainingsbeobachtungen in
der m-ten Region dar, die aus der k-ten Klasse stammen.
• Wenn die tatsächliche Decision Boundary linear ist,
funktioniert die logistische Regression besser (oben links).
• Wenn die Decision Boundary nichtlinear ist, sollten u.a.
Classification Trees bevorzugt werden.
Quelle: (James et al. 2017, S.315).
Random Forest
• Ein Random Forest besteht aus einer Vielzahl
von Entscheidungsbäumen.
• Dabei wird bei jedem Baum zufällig ein Teil
der Daten weggelassen (zeilen- und
spaltenweise).
• Dadurch generieren viele „schlechte“
Klassifikatoren ein gutes und robustes
Ergebnis indem alle Bäume mehrheitlich über
das Endergebnis abstimmen.
• Nicht intuitiv: Die Einführung von Zufälligkeit
führt zu einem stabileren und besseren
Ergebnis.
• Random Forests sind sehr beliebte ML-
Modelle und generieren in vielen Situationen
sehr gute Ergebnisse.
Quelle: https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/
Supervised Learning - Klassifikation
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• …

Vielen Dank für
die Aufmerksamkeit
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks
• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.
• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-

projectec1dba419b94
• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.
• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.
Fakultät
Digitalisierung
Übungseinheit 8: GUI
Christian Menden
• Data Science
• Analytics
6
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9

10 - 11
Lernziele
Lehreinheit 7:GUI

• Den Aufbau und die Funktionsweise eines R-shiny
Skripts zur Erstellung einer graphischen
Benutzeroberfläche mit shinydashboard
• Wie ich Input und Output Objekte in der GUI
visualisiere
• Wie ich Input und Output im Server miteinander
verknüpfe
Agenda
Lehreinheit 8: GUI
• Aufbau einer R-shiny App
• User Interface
• Server
• Okjekte
• Architektur
• Dynamische Funktionen
Aufbau einer R-shiny App: User Interface
Header
• Im UI Teil wird die Auswahl der Objekte und deren

Anordnung in der App bestimmt
• Header: kann z.B. den Titel der Anwendung anzeigen Side

Body
bar
• Sidebar: kann als Register des Bodys dienen oder andere
Objekte enthalten
• Body: kann mehrere Tabs umfassen, die über die Sidebar ausgewählt
werden. Jeder Tab kann durch Boxen (Bootstrap Layout) gegliedert UI Teil
werden. Boxen können Tab spezifisch oder übergreifend sein. Tabs und
Boxen können Objekte beinhalten.
Header
• Das Tab Layout kann Zeilen- oder Spalten-basiert sein (oder gemischt) Sidebar
Body
• Durch Icons, zusätzliche Parameter (Farbe) und CSS Files (Schrift)
kann die UI individualisiert werden [4]
Aufbau einer R-shiny App: Server
• Im Server Teil werden die Funktionen und Interaktionen der Elemente der App bestimmt
• Nimmt Input Variablen aus dem UI Teil entgegen oder verwendet geladene Daten und erzeugt
Output Variablen (mittels render- Funktionen), die im UI Teil verwendet werden um eine
graphische Ausgabe zu erzeugen
Daten
Server Teil UI Teil
Input Variablen
Output Variablen
Aufbau einer R-shiny App: Objekte
• Objekte wie Plots, Texte, Tabellen, Graphiken (Output Elemente) und Buttons,
Ankreuzboxen, Schieberegler, Dropdown Auswahl, Felder für numerischen oder Text Input
(Input Elemente) können der App hinzugefügt werden
• Um ein Output Objekt einzubinden, muss ein Output-Befehl an der gewünschten Position
im UI Teil und ein entsprechender render-Befehl im Serverteil existieren, der die
zugehörigen Input- und Output-Variablen miteinander verknüpft
• Input Objekte werden mittels Input-Befehl im

UI Teil an der gewünschten Stelle erzeugt (z.B.
selectInput(), actionButton() ) UI Teil Serverteil
textOutput() renderText()
plotOutput() renderPlot()
tableOutput() renderTable()
Notwendige Funktionen um Output Objekte einzubinden
Architektur
Entwickler User
Prognose.R
Server Teil UI Teil
Input Variablen Header

Sidebar
Output Variablen Body
app.R
Reaktive Umgebungen
• Reaktive Umgebungen können verwendet werden um Output bedingt nach dem User Input in
Echtzeit zu aktualisieren
• Wichtig: Überprüfe, ob das neue laden von Daten in einer reaktiven Umgebung wirklich
notwendig ist, da die Anwendung sonst schnell ineffizient wird.
• Beispiel: observe(), reactive(), observeEvent() Action
Hausaufgabe shiny App zur Qualitätsprüfung
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• MaterialOrigin = Herkunft der Lötpaste (S = Singapur, C = China, Q = Qatar)
• …

• Erstellen Sie einen neuen Ordner für die App und legen Sie die benötigten Daten darin ab
• Bennenen Sie das R File DIGIP-T-07_Aufgabe.R in app.R um und lassen Sie es durchlaufen
• Vollziehen Sie den Code im UI und Serverteil nach
• Ergänzen Sie eine zweite Box mit der Confusionmatrix und Accuracy der Methode des
Klassifikationsbaums (neben der für die logistische Regression)
Gestaltungsmöglichkeiten
• Für weitere graphische Objekte (z.B. Karte, Bestenliste) gibt es diverse große und kleine
Bausteine
• Apps für unterschiedliche Zwecke können von Vorlagen kopiert und modifiziert werden [2]
• Eine shiny Web-App kann auch für Demonstrationszwecke verwendet werden
Bilder: Restaurant Prognose Spiel, ausgestellt am Fraunhofer SCS an der Langen Nacht der Wissenschaften 2019 von Claudia Ehrig
Vielen Dank für
die Aufmerksamkeit
Literatur
(1) https://shiny.rstudio.com
(2) Shiny App Vorlagen: https://shiny.rstudio.com/gallery/
(3) https://learn.datacamp.com/courses/building-dashboards-with-shinydashboard
(4) Icons zur individuellen Gestaltung: https://fontawesome.com/icons?d=gallery&p=2
Fakultät
Digitalisierung
Übungseinheit 9: Deployment
Christian Menden
• Data Science
• Analytics
6
Datensatz
1 Supervised
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9

10 - 11
Entwickler User
Prognose.R
Server Teil UI Teil
Input Variablen Header

Sidebar
Output Variablen Body
app.R
UI Teil Serverteil
textOutput() renderText()
plotOutput() renderPlot()
tableOutput() renderTable()
Notwendige Funktionen um Output Objekte einzubinden
Lernziele
Lehreinheit 9: Deployment

• Was Cloud Computing ist
• Möglichkeiten eine Web App zu deployen
• Wie ich eine shiny App mit shinyapps.io deploye
Agenda
Lehreinheit 9: Deployment
• Cloud Computing
• AWS Compute Services
• Shinyapps.io
Cloud Computing
• Unter Cloud Computing versteht man die Bereitstellung von IT-Services durch eine
Plattform im Internet, deren Nutzung ohne vorherige Vertragsabsprache möglich ist (on
demand) und nur genutzte Leistungen in Rechnung gestellt werden (pay-as-you-go)
• Das Cloud Computing bietet eine Möglichkeit zum Deployment einer Applikation und wird oft
als Gegenteil von lokalem (on-premises) Deployment genannt. Hybride Lösungen sind
gängig.
AWS Compute Services
• Amazon Web Services bietet verschiedene Cloud-basierte Produkte

an. Ziel ist es, Aufgaben, die jeder für die Erzeugung und
Instandhaltung von IT Anwendungen hat, abzunehmen, z.B.
Rechenkapazität, Speicher, Netzwerkmanagement
• Ein Compute Service stellt Rechenkapazität für Entwicklung,

Deployment, Inbetriebnahme und Skalierung von Anwendungen
bereit
Datenstrom
• Compute Services von AWS sind Amazon Elastic Compute Cloud
(EC2) und Amazon Lightsail
Compute Service
(z.B. EC2)
• Ein Compute Service nimmt Datenströme der Entwickler und
User entgegen und kann auf Objekte aus einem Objektspeicher
und Daten aus einer Datenbank zugreifen Objektspeicher Datenspeicher
AWS Compute Services
• Zum Deployment einer Web App eignet sich z.B. eine AWS EC2 Instanz
• Eine EC2 Instanz ist ein reservierter virtueller Server mit flexibel einstellbarer
Kapazität, der je nach Nutzung bezahlt wird [3]
• Die Hardware und die zugehörige Kapazität einer EC2 Instanz können über das
Amazon Machine Image (AMI) konfiguriert und nachträglich angepasst werden:
• Betriebssystem und installierte Anwendungen
• Instanztyp (Rechen-, Arbeits- und Datenspeicher- und Netzwerkeigenschaften)
• Je nach Anwendung eignen sich unterschiedliche Instanz Typen am besten [4]

• Eine Security Group kontrolliert die Zugriffe auf die Instanz (für eine Web App z.B.
braucht man einen Web Server, der Internetverkehr auf HTTP und HTTPS Ports
zulässt)
• Nach dem Launch und Status Checks kann die Web App über die öffentliche IP-
Adresse abgerufen werden
Shinyapps.io
• Shinyapps.io ist ein Anbieter für Cloud Services speziell für das Deployment
von shiny Apps
• Eine Schnittstelle zu shinyapps.io ist bereits in R Studio integriert („easy button“ )
• Das Deployment via shinyapps.io ist in wenigen Schritten möglich:

• Anlegen eines neuen Ordners für die App mit den benötigten Files
• Einrichtung eines Accounts auf shinyapps.io
• Installieren des Pakets rsconnect in R
• Einmalige Authorisierung des Accounts mittels „token and secret“
• Deployment über den deployApp Befehl in der Konsole oder den easy button
• Eine genaue Anleitung befindet sich im Dashboard des Accounts oder auch hier [6]
• Die App ist dann über die zugewiesene HTTPS Adresse öffentlich zugänglich (der
Account- und Ordnername erscheinen in der Adresse)
Shinyapps.io
Die Verwaltung und das Monitoring der App erfolgt im shinyapps.io Account
Hausaufgabe Deployment der Web App zur Qualitätsprüfung
• Legen Sie sich einen Account auf shinyapps.io an (nur E-Mail Adresse und Accountname
erforderlich) [5]
• Wählen Sie als Account Namen:
https:// DIGIP-T-Nachname .shinyapps.io
• Folgen Sie der Anleitung auf Folie 10 um Ihre shiny Web App mit shinyapps.io zu deployen
Vielen Dank für
die Aufmerksamkeit
Literatur
(1) Free AWS Coursera Kurs: https://www.coursera.org/learn/aws-fundamentals-going-cloud-native?isNewUser=true
(2) Free AWS Kontingent: https://aws.amazon.com/de/free/?all-free-tier.sort-by=item.additionalFields.SortRank&all-free-

tier.sort-order=asc
(3) AWS EC2: https://aws.amazon.com/de/ec2/?nc2=h_ql_prod_fs_ec2&ec2-whats-new.sort-

by=item.additionalFields.postDateTime&ec2-whats-new.sort-order=desc
(4) AWS EC2 Instanz Typen: https://aws.amazon.com/de/ec2/instance-types/
(5) https://www.shinyapps.io/admin/#/login
(6) https://statsandr.com/blog/how-to-publish-shiny-app-example-with-shinyapps-io/
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Dateneigenschaften
• …


DIGIP Praktikum Skript Komplett

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

DIGIP Praktikum Skript Komplett

Hochgeladen von

Copyright:

Verfügbare Formate

Fakultät

Maschinenbau und Versorgungstechnik

Erfolgreiche Teilnahme an der Rechnerübung (mE/oE)

Data Science Pipeline

Data Science Pipeline

• Überblick über Machine Learning Verfahren

• Eigenständige Analyse von Daten

• Vollständige Data Science Pipeline erlernen und eigenständig umsetzen

• Beispiel mit Produktionsbezug

• Vorstellung der neuen Hausaufgaben

• Wickham, H. (2019), Advanced R, The R series, 2 edn.

Data Science Pipeline

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

• Suchmaschinen die lernen was du suchst

Werbeanzeigen um Wähler zu beeinflussen

1950 1960 1970 1980 1990 2000 2010 2020

Support Vector Machines

Gradient Boosting Machines

Convolutional Neural Networks

Recurrent Neural Networks

bemerkenswerte Ergebnisse erzielt die „intelligent“

• Daten ohne Label y

• RL ist ein universell einsetzbares Framework für KI.

• Begriff entstammt den späten 1980ern und ist mit der

CRISP-DM data mining process (Shearer 2000, S.14).

Prozesse zu verbessern. Prescriptive

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

• Labels für diesen Datensatz aus Röntgeninspektion und

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

Data Science Pipeline

2. RStudio Desktop 1.4.1103 Free Version:

Übungseinheit 2: Einführung in R und RStudio

Data Science Pipeline

Data Science Computer

How can we reach our

2. RStudio Desktop 1.4.1103 Free Version:

R auf macOS Big Sur

• Aktuelle Zeile ausführen

Ich kenne/verstehe heute …

• Beispiel aus dem Machinen- und Anlagenbau

• Labels für diesen Datensatz aus Röntgeninspektion und

a) (1, 2, 3, …, 18, 19, 20)

a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.

• Wickham, H. (2019), Advanced R, The R series, 2 edn.

Übungseinheit 3: Deskriptive Analyse

Data Science Pipeline

a) (1, 2, 3, …, 18, 19, 20)

a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.

Ich kenne/verstehe heute …

Sehr gute Überischt: https://www.r-graph-gallery.com

Missing at random (MAR)

Missing not at random (MNAR)

f(t) Real data X

f(t) Observed data Y

Missing / latent data Z

Observed data Y Augmented data YA

• Labels für diesen Datensatz aus Röntgeninspektion und

• Wickham, H. (2019), Advanced R, The R series, 2 edn.