Sie sind auf Seite 1von 194

Fakultät

Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Lehrveranstaltungsüberblick
Rechnerübung: Data Science

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Vorstellung
• Leiter der Abteilung Analytics am Fraunhofer IIS im Bereich SCS
• ADA Lovelace Center: Mitglied des Steering Committee,
Kompetenzsäulenkoordinator “Few Data Learning”, Interims-Projektleitung
• BHS Joint Lab Data Analytics Gründer und Mitglied des Steering Committee

• Gremien
• International Institute of Forecasting
• Gesellschaft für Operations Research
• Mentor im IAB Mentoring Programm

• Akademischer Werdegang
• B. A. in Finance & Investmens
• M. Sc. in European Economic Studies
• Dissertation zum Thema Data Augmentation für ML Methoden

• Lehraufträge
Christian Menden
• Otto-Friedrich-Universität Bamberg Telefon 0911 58061-9540 (Fraunhofer)
• Friedrich-Alexander-Universität Erlangen-Nürnberg christian.menden@th-nuernberg.de
• FH Würzburg Schweinfurt
• TH Nürnberg

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Agenda
Lehrveranstaltungsüberblick

• Prüfungsleistung

• Themenüberblick

• Übungskonzept

• E-Learning

• Literatur

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Prüfungsleistung
Schriftliche Prüfung (100% der Modulnote)
Dauer: 90 min
Inhalt: Vorlesung, Übung und begleitende Literatur
Sprache: Deutsch
Aufbau: Offene Fragen
Termin: Prüfungszeitraum Sommersemester

Erfolgreiche Teilnahme an der Rechnerübung (mE/oE)


Erfolgreiche Bearbeitung der Data-Science-Projektaufgabe (Upload im E-Learning-Portal)
im Rahmen des Rechnerübung.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0

• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation

• Datenquellen, Datentypen
Datenräume
• Informationsmodelle

Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g

• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Rechnerübung
Ziel der Rechnerübung ist der Erwerb grundlegender Kenntnisse und
Fähigkeiten zur Generierung von Erkenntnissen aus Daten
• Grundbegriffe: Künstliche Intelligenz (KI) und Maschinelles Lernen (ML)
• Vorgehen: Workflow einer ML Anwendung
• Software R: Einarbeitung, Basisfunktionen, ML Softwarebibliotheken
• Deskriptive-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Clustering-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Klassifikations-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Regressions-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Eigenständige Bearbeitung eines Übungsbeispiels (àTestat mE/oE)
• Ausblick: Spezialrichtung, aktuelle Forschung im ML z. B. AutoML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Themenüberblick der Rechnerübung
Ziel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Themenüberblick der Rechnerübung
• Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

Data Science Pipeline

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Themenüberblick der Rechnerübung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3 4 6 7 8

Data Science Pipeline


9 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Ziele der Veranstaltung

• Überblick über Machine Learning Verfahren

• Erfahrungen in R Programmierung

• Eigenständige Analyse von Daten

• Vollständige Data Science Pipeline erlernen und eigenständig umsetzen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Übungskonzept

• Theorie

• Implementierung in R

• Beispiel mit Produktionsbezug

• Hausaufgabe
• Besprechung der letzten Hausaufgaben und Fragemöglichkeiten

• Vorstellung der neuen Hausaufgaben

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
E-Learning-Portal
• Bereitstellung aller Kursunterlagen (Vorlesung, Rechnerübung)
• Abwicklung der gesamten Kommunikation (Forum, Kursnachrichten)
Startseite à Kurse à Fakultäten à MBVS à Gölzer, Philipp à DIGIP (Kurspasswort: DIGI21)

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With
applications in R, Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.

• Wickham, H. (2019), Advanced R, The R series, 2 edn.

• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press

• Döbel, I., Leis, M., Molina Vogelsang, M., Neustroev, D., Petzka, H., Riemer, A., Rüping, S., Voss, A.,
Wegele, M. & Welz, J. (2018), Maschinelles Lernen: Eine Analyse zu Kompetenzen, Forschung und
Anwendung, Technical report, München.

• VDMA Software und Digitalisierung (2018), Quick Guide - Machine Learning im Maschinen- und
Anlagenbau, available at:
https://sud.vdma.org/documents/15012668/26742261/!VDMA%20Quick%20Guide_Machine%20Learning_1
535375434182.pdf/f82a3951-ee87-d9f2-7702-1d20644c2349

• Bischl, B., Scheipl, F., Seibold, H., Bothmann, L., Schalk, D., Molnar, C., Pielok, T., (2021), Introduction to
Machine Learning (I2ML), available at: https://introduction-to-machine-learning.netlify.app

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 1: Einführung

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0

• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation

• Datenquellen, Datentypen
Datenräume
• Informationsmodelle

Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g

• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Themenüberblick der Rechnerübung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3 4 6 7 8

Data Science Pipeline


9 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Lernziele
Lehreinheit 1: Einführung
Ich kenne/verstehe heute …
• die wichtigsten Begriffe und deren Verbindungen im
Kontext von Data Science, Machine Learning, Artificial
Intelligence, Deep Learning, Analytics, Data Mining und
Statistik.
• die wesentlichen Verfahren des maschinellen Lernens:
Supervised ML, Unsupervised ML und Reinforcement
Learning.
• die gesamte Data Science Pipeline und die dazu
notwendigen Kompetenzen.
• den roten Faden, der durch die gesamte Veranstaltung
führt.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Agenda
Lehreinheit 1: Einführung

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Grundbegriffe
Machine Learning verändert unsere Welt…

• Suchmaschinen die lernen was du suchst


• Vorschlagssysteme die deinen Geschmack an Büchern,
Musik und Filmen lernen
• Automatisierter Aktienhandel mit Algorithmen
• Google Translate lernt Texte zu übersetzen
• Siri lernt Sprache zu verstehen
• Deepmind schlägt den Menschen in Go
O‘Neil, C. (2016), Weapons of Math
• Autos lernen autonom zu fahren Destruction: How Big Data Increases
Inequality and Threatens Democracy,
• Wahlkampagnen nutzen algorithmengetriebene 6 edn, Crown

Werbeanzeigen um Wähler zu beeinflussen


• Datengetriebene Entdeckungen in den Bereichen der
Physik, Biologie, Genetik, Astronomie, Chemie, etc.
• …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Grundbegriffe

AI Machine
Learning
Neural
Networks
Deep
Learning

1950 1960 1970 1980 1990 2000 2010 2020


Quelle: Eigene Darstellung angelehnt an John Searle, The Rediscovery of the Mind (A Bradford Book ,1992, S. 201)

Viele Menschen sind unsicher oder verwirrt, was diese Begriffe eigentlich bedeuten.
Und was hat das alles mit Statistik zu tun?

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Grundbegriffe
Artificial Intelligence (AI) – Künstliche Intelligenz (KI)
• KI ist ein generischer Begriff für ein sehr großes und sich schnell entwickelndes
Forschungsfeld. 1956
• Es gibt keine präzise Definition, aber der Begriff wird häufig genutzt wenn Dartmouth Summer
Maschinen trainiert werden um eine Aufgabe zu lösen die bis dato nur von Research Project on AI
Menschen gelöst werden konnte und als besonders „schwer“ angesehen wird.
• Die Ursprünge von KI als Forschungsfeld sind nicht klar datiert. In 1956 wurde im
Rahmen des „Dartmouth Summer Research Project on Artificial Intelligence“ der Ziel
Begriff erstmalig geprägt. Die zugrundeliegenden Theorien und Konzepte (u.a. aus
der Biologie) gehen aber weiter zurück bis in die 1940er.
Starke KI
• Als in den 1940er Computer erfunden wurden fragten Forscher wie Alan Turing und
John von Neumann: „Wenn wir Berechnungen formalisieren können, können wir
dann Berechnung verwenden, um das "Denken" zu formalisieren?“
Heute
• Unter KI werden heute ML, Natural Language Processing, Computer Vision,
Robotics, Planungsprobleme, Suchen, Spiele, intelligente Agenten und vieles mehr
verstanden. Schwache KI
• KI ist heute ein „Hype“ Begriff den viele Menschen verwenden obwohl sie vermutlich
eher „ML“ oder „klassische Datenanalyse“ sagen sollten.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Grundbegriffe
Machine Learning (ML)
• ML looks back on a long history and “[…] sits at the
crossroads of computer science, statistics and a variety
of other disciplines concerned with automatic
improvement over time, and inference and decision-
making under uncertainty” (Jordan & Mitchell 2015,
S.256).
• ML bezeichnet mathematisch präzise beschriebene
Verfahren die eine hinreichend beschränkte Aufgabe
lösen.
• ML-Algorithmen konstruieren normalerweise Vorhersage-
/Entscheidungsmodelle aus Daten, anstatt sie explizit sie
zu programmieren.
• Nach Mitchell (1997, S.2) gilt: “[...] a computer program is
said to learn from experience E with respect to some
class of tasks T and performance measure P, if its Quelle: https://www.oreilly.com/library/view/java-deep-
learning/9781788997454/assets/899ceaf3-c710-4675-ae99-
performance at tasks in T, as measured by P, improves 33c76cd6ac2f.png
with experience E.”

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Grundbegriffe
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Grundbegriffe
Machine Learning (ML)

Logistic Regression

Decision Trees

Random Forests

Neural Networks

Bayesian Inference

Ensemble Methods

Support Vector Machines

Gradient Boosting Machines

Convolutional Neural Networks

Recurrent Neural Networks

Others

Die am meisten von Experten verwendeten ML Methoden gemäß einer Umfrage von Kaggle
Quelle: Döbel et al. (2018), S.11

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Grundbegriffe
Deep Learning (DL)
• Deep Learning ist ein Teilgebiet von ML und behandelt die
Erforschung und Anwendung von künstlichen neuronalen
Netzen (KNNs).
• KNNs sind dem menschlichen Gehirn nachempfunden,
können allerdings einfach als eine Klasse von ML
Modellen verstanden werden die bereits seit Jahrzehnten
erforscht werden.
• DL umfasst lediglich eine hohe Anzahl von Schichten
(Layers) mit speziellen Neuronen für Bilddaten und
Tensoren sodass Anwendungen auf sehr großen
Datensätzen performant funktionieren.
• DL kann auf tabellarischen Daten angewendet werden,
wird aber üblicherweise bei Bild-, Text-, und Signaldaten
angewendet. Vergleich von (A) einem menschlichen Neuron, (B) einem künstlichen Neuron, (C) einer
biologischen Synapse und (D) KNN Synapsen.
• In den letzten 10-15 Jahren wurde mit DL Quelle: Maltarollo et al. (2013), S. 205.

bemerkenswerte Ergebnisse erzielt die „intelligent“


aussahen.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Grundbegriffe
Machine Learning vs. Statistik
• ML und Statistik wurden historisch in verschiedenen
Bereichen entwickelt. Machine Learning Statistik
Features Variables
• Viele Methoden und vor allem die mathematischen
Grundlagen sind jedoch äquivalent. Inputs Independent Variables

• Der Fokus liegt bei ML traditionell auf präzisen Outputs Predicted Variables
Vorhersagen während die Statistik eher die Interpretation Targets / Training Values Dependent Variables
der Muster der Daten analysiert und Inferenz ableiten Errors Residuals
möchte. Patterns / Training Pairs Observations
• Heute arbeiten beide im wesentlichen mit den gleichen Weights Parameter Estimates
Methoden an den selben Problemen.
Generalization Test Set Performance
• Leider sind die Communities immer noch geteilt, reden Supervised Learning Regression / Classification
nicht so viel miteinander wie sie sollten, und jeder ist
Unsupervised Learning Density Estimation / Clustering
verwirrt, weil unterschiedliche Terminologie für dieselben
Konzepte besteht (siehe Tabelle rechts). Begriffskonventionen in Machine Learning und Statistik (Adaptiert von Sarle(1994)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Grundbegriffe
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Grundbegriffe
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4

1 1 1 1 1 1

• Daten ohne Label y


• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1

-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Grundbegriffe
Reinforcement Learning (RL)

• RL ist ein universell einsetzbares Framework für KI.


• In jedem Zeitschritt interagiert ein Agent mit der
Umgebung. Er:
1. Beobachtet den Zustand
2. Erhält eine Belohnung
3. Führt eine Aktion aus.

• Ziel ist die Auswahl von Aktionen die zur Maximierung der
zukünftigen Belohnung führen
• Belohnungssignale können spärlich, verrauscht oder
verzögert sein

• Bekannte Beispiele:
• Google‘s DeepMind AI learns to walk
https://www.youtube.com/watch?v=gn4nRCC9TwQ
• OpenAI plays Hide and Seek
https://www.youtube.com/watch?v=Lu56xVlZ40M

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Grundbegriffe
Data Mining

• Begriff entstammt den späten 1980ern und ist mit der


steigenden Popularität von Soft- und Hardware-
technologien in Unternehmen verbunden
• Ist ein iterativer, nicht-determinierbarer Prozess und
verwendet Methoden aus den Bereichen ML, Statistik,
Computer Science
• Ein Großteil des Aufwandes steckt in der
Datenaufbereitung
• Ergebnis des Prozesses sind Erkenntnisse und Wissen
aus Daten, die in Form von Regeln und Modell
formalisiert werden können
• Oft verwendetes Synonym: „Knowledge Discovery from
Databases (KDD)“

CRISP-DM data mining process (Shearer 2000, S.14).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Grundbegriffe
Analytics
• Prozess der datengetriebenen Wissensgenerierung im
Unternehmenskontext um komplexe Probleme zu lösen
und Entscheidungsprozesse zu beschleunigen.
• Fokus auf Anwendung von ML Methoden im konkreten How can we reach our
Anwendungsfällen Unternehmenskontext um aktuelle goals?

Prozesse zu verbessern. Prescriptive


Why did it happen? Analytics
What will happen?
• Descriptive Analytics: ion
izat

Value
t i m n
Predictive Op atio
• Business Intelligence m end
What happened? Analytics om
• Analyse historischer Daten Rec

si g ht
• Dashboards, KPIs, Reports Descriptive Fore
• Predictive Analytics: Analytics
ht
g
Insi
• Vorhersage zukünftiger Entwicklungen
t i on
rma
• Auf Basis historischer Daten Info Rev
i ew
• Input für Entscheidungsträger
Complexity
• Prescriptive Analytics:
• Unterstützt den Entscheidungsprozess mathematisch und direkt
• Formulierung und Lösung eines Unternehmensproblems als
mathematisches Optimierungsproblems

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Grundbegriffe
Data Science
• In der Publikation von Davenport & Patil (2012) “Data
Scientist: The Sexiest Job of the 21st Century”, beanspruchen
Jeff Hammerbacher und D.J. Patil den Begriff “data scientist” Data Science Computer
im 2008 geprägt zu haben um ihre damaligen Jobs bei Science
LinkedIn und Facebook zu beschreiben.
• Keine präzise Definition
• Data Science beschreibt ein breites Feld in dem
Unternehmensprobleme aus einer Datenperspektive
betrachtet werden und umfasst den gesamten Analytics
Prozess von Problemidentifikation und -definition,
Machine Domain
Datenbankmanagement, Datenakquise und –vorverarbeitung,
Learning Expertise
Visualisierung, ML, Front-End Entwicklung und Deployment
(Waller & Fawcett 2013).
• Data Science erfordert interdisziplinäre Kompetenzen aus
den Bereichen der Mathematik, Statistik, ML, Computer
Science und Domänenexpertise. Data science Venn Diagramm (Eigene Darstellung in Anlehnung an Mitchell-
Guthrie (2014) and Tierney (2016)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Agenda
Lehreinheit 1: Einführung

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Pin auf der Leiterplatte
• Lötpasteninspektion Messungen:
• Height
• Volume
• y_offset
• x_offset
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung
• Evtl. Imbalanced Data / Unausgeglichene Daten
à Deutlich mehr IO als NIO

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Agenda
Lehreinheit 1: Einführung

• Grundbegriffe und Machine Learning Verfahren im Überblick

• Durchgängiges Beispiel einer Data Science Anwendung

• Roter Faden durch die gesamte Veranstaltung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Ausblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3 4 6 7 8

Data Science Pipeline


9 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 25
Ausblick
Hausaufgabe:
• Bitte installieren Sie sich zuerst R und
anschließend RStudio

1. R: https://ftp.fau.de/cran/

2. RStudio Desktop 1.4.1103 Free Version:


https://rstudio.com/products/rstudio/download/#download

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 26
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 27
Literatur
• Shearer, C. (2000), ‘The CRISP-DM Model: The new blueprint for data mining’, Journal of Data Warehousing 5(4), 13–
22.
• Jordan, M. I. & Mitchell, T. M. (2015), ‘Machine learning: Trends, perspectives, and prospects’, Science 349(6245),
255–260.
• Mitchell, T. M. (1997), Machine learning, McGraw-Hill series in computer science, international edn, McGraw-Hill, New
York, NY.
• Davenport, T. H. & Patil, D. J. (2012), ‘Data scientist: The sexiest job of the 21st century’, Harvard Business Review
90(10), 70–6, 128.
• Mitchell-Guthrie, P. (2014), ‘Looking backwards, looking forwards: SAS, data mining, and machine learning’.
https://blogs:sas:com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-
and-machinelearning/,
• Tierney, B. (2016), ‘Data science is multidisciplinary’. http://www:oralytics:com/2012/06/data-science-is-
multidisciplinary.html

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 28
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 2: Einführung in R und RStudio

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3 4 6 7 8

Data Science Pipeline


9 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 1

Data Science Computer


Science

AI Machine
Learning
Neural
Networks
Deep
Learning

Machine Domain
Learning Expertise
1950 1960 1970 1980 1990 2000 2010 2020

How can we reach our


goals?

Prescriptive
Why did it happen? Analytics
What will happen?
n
atio
imiz
Value

n
Predictive Opt
Datensatz
atio
end
1
What happened? Analytics om m Machine
R e c Learning

Datensatz
sig ht 2
Descriptive Fore
Analytics


ht
Insig Datensatz
n
tion
rma
Info Rev
iew

Complexity

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 1
Hausaufgabe:
• Bitte installieren Sie sich zuerst R und
anschließend RStudio

1. R: https://ftp.fau.de/cran/

2. RStudio Desktop 1.4.1103 Free Version:


https://rstudio.com/products/rstudio/download/#download

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe
Sie sollten nun R und RStudio installiert haben:

R auf macOS Big Sur


RStudio auf macOS Big Sur

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Kurzes Setup
• Automatisches Laden der letzten Daten ausschalten
• Verhindert, dass Fehler übersehen werden

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Kurzes Setup
• Erstellen Sie ein R Project als „New Directory“ und nennen Sie es „DIGIP_T“
• Falls Sie git nutzen, könnten Sie sich hier ein versionsverwaltetes Projekt klonen oder neu anlegen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Kurzes Setup
• Erstellen Sie ein neues R Script „Tut_1“

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Tipps & Shortcuts
• Zuweisung <-
• Windows: Alt –
• macOS: option –

• Aktuelle Zeile ausführen


• Windows: Strg Enter
• macOS: command ⌘ Enter

• ? zeigt Hilfe an
• # erzeugt Kommentare die nicht ausgeführt werden

• Section einfügen
• Windows: Strg Shift R
• macOS: control Shift R

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Lernziele
Lehreinheit 2: Einführung in R und RStudio

Ich kenne/verstehe heute …


• Die grobe Funktionsweise von R und RStudio.
• Die verschiedenen Objektarten von R und die
dazugehörigen Rechenoperationen.
• Wie R Projekte und R Skripte erstellt und ausgeführt
werde können.
• Wie Daten in R importiert und visualisiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Besprechung der Hausaufgabe
Warum R?
• Free and Open Source Software
• Verfügbar auf allen gängigen Systemen (Windows, macOS, Linux)
• Einfach zu replizieren und zugänglich für alle à fördert wissenschaftliche Überprüfbarkeit
• Sehr starke Community (u.a. auf https://stackoverflow.com ) und gute Dokumentation
• Sehr umfangreicher Bestand an Packages für Statistik, Data Science, ML, etc.
• Starke Tools zur Kommunikation der Ergebnisse (Rmarkdown, HTML, PDF, Word, PowerPoint, Dashboards, Tex-Files)
• State-of-the-Art Methoden (Forscher publizieren ihre R Packages zu den neuesten Journal Artikeln bei GitHub)
• Sehr ähnlich zu C, C++ und Fortran
• Sie können (fast) alles in R machen!

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Agenda
Lehreinheit 2: Einführung in R und RStudio

• Objektarten in R

• Rechenoperationen

• Basisbefehle

• Übungen in RStudio

• Beispiel aus dem Machinen- und Anlagenbau

• Hausaufgaben

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Objektarten in R und RStudio
• Zur Implementierung von eigenem Code und Algorithmen in R, verfügt R über eine Vielzahl von Objekten ganz ähnlich
wie Programmiersprachen wie C, C++, Java, Python, Ruby, etc.
• Scalars
• Vectors
• Matrices
• Arrays
• Data frames
• Lists
• R ist objektorientiert!
• Um die Struktur von einem Objekt zu bestimmen, kann der Befehl str( ) verwendet werden.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Rechenoperationen
• Einfache arithmetische Rechenoperationen wie gewohnt
• +
• -
• /
• *
• ^
• Logische Operatoren
• < bzw. > weniger als bzw. mehr als
• <= bzw. >= weniger oder genauso viel als bzw. mehr oder genauso viel als
• == ist genau gleich
• != ungleich
• isTRUE(x) Test ob x wahr ist
• Vektor- und Matrixoperationen
• %*% Matrixmultiplikation
• t() Transponierte einer Matrix
• Vektoroperationen funktionieren wie arithmetische Rechenoperationen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Basisbefehle
• getwd() Aktuelles Working Directory
• setwd(„C:/Users/John/Desktop“) Working Directory ändern
• ls() Alle Objekte im wd anzeigen
• rm(x) Objekt x entfernen
• rm(list=ls()) Alle Objekte entfernen
• plot(x) Grafik von x erzeugen
• hist(x) Historgamm von x erzeugen
• # Kommentare einfügen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Übungen in RStudio

1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Hausaufgabe Vektoren
Erstellen Sie die Vektoren:

a) (1, 2, 3, …, 18, 19, 20)


b) (20, 19, 18, …, 3, 2, 1)
c) (1, 2, 3, …, 19, 20, 19, 18, …, 2, 1)
d) (10, 2, 8, 5, 7) und weisen Sie den Namen vector1 zu.
e) Berechnen Sie die Summe von vector1.
f) Multiplizieren jedes Element von vector1 mit 5.
g) Welche Elemente von vector1 sind größer als 6?
h) Wählen Sie nur die ersten drei Elemente von vector1 und weisen Sie diesen den Namen vector2 zu.
i) (10, 2, 8, 10, 2, 8, …, 10, 2, 8) mit insgesamt 10 Wiederholungen von vector2.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Hausaufgabe Datenimport und Visualisierung
Importieren Sie den Datensatz trainSPI.

a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.


b) Fügen Sie eine rote horizontale Linie hinzu, die den Mittelwert der Daten abbildet.
c) Benennen Sie den Graph „Pin-Analyse“, die y-Achse „Anzahl Pins pro Board“ und die x-Achse „Board Nummer“.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.

• Wickham, H. (2019), Advanced R, The R series, 2 edn.

• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 3: Deskriptive Analyse

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3 4 6 7 8

Data Science Pipeline


9 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 2

1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 2: Hausaufgabe Vektoren
Erstellen Sie die Vektoren:

a) (1, 2, 3, …, 18, 19, 20)


b) (20, 19, 18, …, 3, 2, 1)
c) (1, 2, 3, …, 19, 20, 19, 18, …, 2, 1)
d) (10, 2, 8, 5, 7) und weisen Sie den Namen vector1 zu.
e) Berechnen Sie die Summe von vector1.
f) Multiplizieren jedes Element von vector1 mit 5.
g) Welche Elemente von vector1 sind größer als 6?
h) Wählen Sie nur die ersten drei Elemente von vector1 und weisen Sie diesen den Namen vector2 zu.
i) (10, 2, 8, 10, 2, 8, …, 10, 2, 8) mit insgesamt 10 Wiederholungen von vector2.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Rückblick – Übungseinheit 2: Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Rückblick – Übungseinheit 2: Hausaufgabe Datenimport
Importieren Sie den Datensatz trainSPI.

a) Stellen Sie die Variable „NumberPins“ als Punktdiagramm dar.


b) Fügen Sie eine rote horizontale Linie hinzu, die den Mittelwert der Daten abbildet.
c) Benennen Sie den Graph „Pin-Analyse“, die y-Achse „Anzahl Pins pro Board“ und die x-Achse „Board Nummer“.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Lernziele
Lehreinheit 3: Deskriptive Analyse

Ich kenne/verstehe heute …


• … wie Graphen und Diagramme in R erstellt werden
können.
• … wie fehlende Werte in einem Datensatz entstehen,
erkannt und bereinigt werden können.
• … wie deskriptive Statistiken erstellt und ausgewertet
werden können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Agenda
Lehreinheit 3: Deskriptive Analyse

• Visualisierungen

• Datenbereinigung

• Deskriptive Statistiken

• KPIs

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Visualisierungen
• Linien- und Balkendiagramme
• Histogramme
• Boxplot
• Scatterplot
• … viele mehr

Sehr gute Überischt: https://www.r-graph-gallery.com

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Datenbereinigung
• Verschiedene Strukturen fehlender Daten
• Unterschiedliche Herangehensweisen zur Datenbereinigung

𝐹! 𝐹" 𝐹# 𝐹$ 𝐹% 𝐹&
𝑆!
𝑆"
𝑆#
𝑆$
𝑆%
𝑆&

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Datenbereinigung
Missing completely at random (MCAR)
• Kein Zusammenhang zwischen dem Fehlen von Daten und den beobachteten oder unbeobachteten Daten, sondern vollkommen zufällig
(Enders 2010).
• z. B. in medizinischen Studien werden Patienten zufällig einer regulären Gruppen oder einer Placebo Gruppe zugeteilt um die Validität
der Testergebnisse zu gewährleisten.
• Sehr starke Annahme, die in der Praxis nur selten standhält (Rässler 2002).

Missing at random (MAR)


• Unglücklicherweise etwas verwirrend.
• MAR bedeutet, dass das Fehlen von Daten nicht komplett zufällig auftritt, allerdings dass kein Zusammenhand zu den beobachteten
Daten besteht.
• Stattdessen können andere Daten, ohne fehlende Werte, genutzt werden um dem Fehlen der Daten gerecht zu werden
• z. B. beantworten Männer Umfragen zum Thema Burnout seltener als Frauen. Allerdings besteht kein Zusammenhang zwischen dem
Geschlecht und der Häufigkeit oder der Stärke von Burnout nachdem „Männlichkeit“ in der Analyse berücksichtigt wird (Enders 2010).
• In der Praxis ist MAR unmöglich statistisch zu beweisen (Little & Rubin 2002).

Missing not at random (MNAR)


• Impliziert einen systematischen Zusammenhang zwischen dem Fehlen von Daten und den beobachteten Daten.
• z. B. gibt es in Studien Fragen die regelmäßig nicht beantwortet werden („Wie hoch ist ihr Gehalt?“)
• In diesem Fall hat die Frage an sich einen Einfluss auf die Wahrscheinlichkeit, dass Datenpunkte fehlen.
• Wird dieses Muster ignoriert, sind die Analyseergbnisse verzerrt und nicht belastbar (Enders 2010).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Datenbereinigung
• Fehlende Daten löschen
• Einzelne Werte löschen
• Spaltenweise löschen
• Zeilenweise löschen
• Kann den Datensatz stark verkleinern oder verzerren

• Einfache Imputation
• Mittelwert Ersetzung
• Modus Ersetzung
• Bei Zeitreihen: Ersetzung durch die letzte oder nächste
Beobachtung
• …

• Multiple Imputation
• Imputation fehlender Werte zur Generierung eines vollständigen Illustration der multiplen Imputation (Nissen et al. 2019)
Datensatzes
• X-fache Wiederholung
• Modellierung und Analyse der vollständigen Datensätze
• Berechnung gemittelter Ergebnisse

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Datenbereinigung
• Fehlende Werte in Zeitreihen (z. B. Sensordaten)
f(t) Observed data Y

f(t) Real data X

f(t) t
Missing / latent data Z

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Datenbereinigung
• Data Augmentation bei Zeitreihen
Augmented data YA
f(t) f(t)

f(t) Observed data Y

t t
f(t) f(t)

t t

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Datenbereinigung
• Fehlende Werte in Bilddaten (z. B. Qualitätsinspektion mit Bilddaten)
Observed data Y

Real data X

Missing / latent data Z

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Datenbereinigung
• Data Augmentation bei Bilddaten

Observed data Y Augmented data YA

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Datenbereinigung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Deskriptive Statistiken / KPIs

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Hausaufgabe Deskriptive Analyse
Aufgabe 1 - Datenbereinigung:

Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.

Aufgabe 2 – KPIs

Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch sowie tabellarisch und interpretieren Sie die
Ergebnisse.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.

• Wickham, H. (2019), Advanced R, The R series, 2 edn.

• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press

• Enders, C. K. (2010), Applied missing data analysis, Methodology in the Social Sciences, Guilford Press, New York.

• Rässler, S. (2002), Statistical matching: A frequentist theory, practical applications, and alternative Bayesian
approaches, Vol. 168 of Lecture Notes in Statistics, Springer, New York, NY.

• Little, R. J. A. & Rubin, D. B. (2002), Statistical analysis with missing data, Wiley series in probability and statistics, 2
edn, Wiley, Hoboken.

• Nissen, Jayson & Donatello, Robin & Van Dusen, Ben. (2019). Missing data and bias in physics education research: A
case for using multiple imputation. Physical Review Physics Education Research.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 25
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 5: Unsupervised Learning

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 3
!! !" !# !$ !% !&
"!
""
"#
"$
"%
"&

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:

Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.

Aufgabe 2 – KPIs

Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 4: Unsupervised Learning

Ich kenne/verstehe heute …


• die Funktionsweise von unüberwachten Lernverfahren
(Unsupervised Learning)
• welche Verfahren des Unsupervised Learning es gibt
und wofür sie verwendet werden.
• wie Clustering Verfahren in R implementiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 4: Unsupervised Learning

• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning

? !
70% 90%
Accuracy Accuracy

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Unterschiedliche Ansätze
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4

1 1 1 1 1 1

• Daten ohne Label y


• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1

-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Unterschiedliche Ansätze
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen

Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
K-Means Clustering

1 (a) 1 (b) 1 (c)

0 0 0

-1 -1 -1

-1 0 1 -1 0 1 -1 0 1

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
K-Means Clustering

1 (d) 1 (e) 1 (f)

0 0 0

-1 -1 -1

-1 0 1 -1 0 1 -1 0 1

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).

• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).

• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Dimensionsreduktion

Illustration der Hauptkomponentenanalyse (PCA) (Scholz 2006, S.16).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Unsupervised Learning

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.

• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.

• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.

• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 6: Supervised Learning

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 5

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 5: Hausaufgaben
Aufgabe 1 – k-means Clustering:

Analysieren Sie unterschiedliche Anzahl von Cluster k und vergleichen Sie die Ergebnisse.
Wie viele Cluster würden Sie wählen?

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 6: Supervised Learning

Ich kenne/verstehe heute …


• die Funktionsweise von überwachten Lernverfahren
(Supervised Learning)
• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Lernverfahren
• welche Verfahren es zur Regressionsanalyse gibt und
wofür sie verwendet werden.
• wie Regressionsverfahren in R implementiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 6: Supervised Learning

• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Lineare Regression
• Regression Tree

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Ziele von Supervised Learning
• Gesetzmäßigkeiten nachbilden
• Hypothesen formulieren, die eine möglichst präzise Vorhersage ermöglichen
• Das Ziel (Target) ist bekannt und kann zur Evaluation verwendet werden
à Überwacht

Annahmen:
• X ist ein Set aus n Beobachtungen von p verschiedenen Features

𝑥!! 𝑥!" … 𝑥!#


𝑥"! 𝑥"" … 𝑥"#
𝑋= … … … …
𝑥$! 𝑥$" … 𝑥$#

• Y ist unser Target bestehend aus n Beobachtungen


• Wir vermuten einen Zusammenhang zwischen Y und X

𝑌=𝑓 𝑋 + 𝜖
• f bezeichnet eine allgemeine unbekannte Funktion und 𝜖 einen Fehlerterm mit Mittelwert
gleich Null welcher unabhängig ist von X
• Der Output eines Supervised Learning Modell ist

𝑌) = 𝑓* 𝑋

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Supervised Learning Pipeline

Quelle: Pant(2019), TowardsDataScience

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Supervised Learning Pipeline

Quelle: Schutt, R. (2014), Doing data science.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Supervised Learning Pipeline

Training- Input ML Model Output Evaluation


data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm

Quelle: Eigene Darstellung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Supervised Learning – Evaluation einer Regression
• Um zu beurteilen, wie gut eine überwachte maschinelle Lernmethode für einen gegebenen Datensatz
funktioniert, d. h. wie gut die von der Methode erzeugten Vorhersagen mit den tatsächlich beobachteten
Werten übereinstimmen, benötigen wir eine Reihe von Evaluationsmetriken (Kuhn & Johnson 2016).
• In einem Regressions-Setup bezeichnet der sogenannte "mittlere quadratische Fehler" (MSE) das am
weitesten verbreitete Maß

$
1
𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#

• Der MSE ist immer streng positiv und klein, wenn die Vorhersagen genau sind, und groß, wenn es
erhebliche Abweichungen zwischen den vorhergesagten und beobachteten Beobachtungen gibt (James
et al. 2017).
• Werte des MSE näher an Null sind besser.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Supervised Learning – Evaluation einer Regression
• Der Root Mean Squared Error bezeichnet eine andere weit verbreitete Metrik
$
1
𝑅𝑀𝑆𝐸 = 𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#

• Der RMSE bestraft große Abweichungen stärker als der MSE, was bei bestimmten Anwendungen hilfreich
sein kann (Theodoridis 2015).
• Wenn eine Vorhersage, die um 10 Einheiten falsch liegt, mehr als doppelt so „schlimm“ ist wie eine
Abweichung von 5 Einheiten, ist der RMSE zur Bewertung der Leistung der ML-Methode besser geeignet
als der MSE.
• Wenn ein Vorhersagefehler von 10 Einheiten genau doppelt so „schlimm“ ist wie ein Fehler von 5
Einheiten, sollte der MSE bevorzugt werden.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting

• In der Realität sind wir oft mehr daran interessiert, wie gut die

Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et

Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error

Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models

zu erfassen.

Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Lineare Regression
• Die sogenannte "lineare Regression" bietet einen sehr einfachen Ansatz
für überwachtes Lernen in einer Regressionsumgebung (Hastie et al.
2017). Sie geht davon aus, dass die Beziehung zwischen der Ausgabe Y
und einem Eingabevektor X linear ist und modelliert werden kann als

𝑌 = 𝛽! + 𝛽" 𝑋" + 𝛽#𝑋# + ⋯ + 𝛽$ 𝑋$ + 𝜖

• Die Schätzung der Parameter 𝛽!, 𝛽!, … , 𝛽! beinhaltet die Minimierung der
Summe der quadrierten Residuen (RSS)
'
𝑅𝑆𝑆 = ,(𝑦% −𝑦0% )#
%&"

'
2! + 𝛽
𝑅𝑆𝑆 = ,(𝑦% − 𝛽 2 2 2
" 𝑥%" + 𝛽# 𝑥%# + ⋯ + 𝛽$ 𝑥%$ )
#

%&"
• Die Abbildung zeigt eine lineare Regression mit p = 2. In diesem
Beispiel wird die Regression der kleinsten Quadrate zu einer Ebene, die
die Summe der quadrierten Fehler minimiert, die als vertikale Abstände
zwischen jeder Beobachtung (rote Punkte) und der Ebene angegeben
werden.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Regression Tree
• Baumbasierte Methoden für Regression (und Klassifikation)
beinhalten eine Splittung bzw. Segmentierung des
Prädiktorraums in eine Anzahl einfacher Regionen.
• Um eine Vorhersage für eine bestimmte Beobachtung zu
treffen, verwenden wir normalerweise den Mittelwert oder den
Modus der Trainingsbeobachtungen in der Region, zu der sie
gehört.
• Die Splittingregeln zur Segmentierung des Prädiktorraums
können in einem Baum zusammengefasst und dargestellt,
sodass dieser Ansatz als Entscheidungsbaummethode
bezeichnet wird.
• Baumbasierte Methoden sind simpel und einfach zu
interpretieren.
• Sie sind jedoch in der Regel nicht konkurrenzfähig mit
komplexeren Ansätzen des überwachten Lernens, wie z. B.
neuronale Netze was die Vorhersagegenauigkeit angeht.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Supervised Learning - Regression

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks

• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.

• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-


projectec1dba419b94

• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.

• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 7: Supervised Learning

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 6

Overfitting Adequate Underfitting

Regression
Classification
- Low training error - Training error slightly lower - High training error
Properties - High test error than test error - Training and test error close
to eachother
- Solutions: Use regularization
or aquire/generate more - Solution: Use more
data complex/nonlinear models

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 6: Hausaufgaben
Aufgabe 1 – Supervised Learning - Regression:

Vergleichen Sie die Ergebnisse der linearen Regression und dem Regression Tree.
• Welches Modell würden Sie bevorzugen?
• Welche Features sind die wichtigsten?
• Wie würden Sie das lineare Modell überarbeiten? Wenn ja, wie?

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 7: Supervised Learning

Ich kenne/verstehe heute …


• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Klassifikationsverfahren
• welche Verfahren es zur Klassifikation gibt und wofür
sie verwendet werden.
• wie Klassifikationsverfahren in R implementiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 7: Supervised Learning - Klassifikation

• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Logistische Regression
• Entscheidungsbaum
• Random Forest

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Unterschiedliche Ansätze
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Supervised Learning Pipeline

Training- Input ML Model Output Evaluation


data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm

Quelle: Eigene Darstellung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Supervised Learning – Evaluation einer Klassifikation
• In einem Klassifikations-Setting, in dem 𝑦!, … , 𝑦" ein kategoriales Ziel ist, werden die Ergebnisse oft in einer
sogenannten Konfusionsmatrix dargestellt.

• Die am häufigsten verwendete Metrik zur Messung der Performance von 𝑓$ ist die sogenannte "Fehlerrate" bzw. „Error
Rate“ (ER)
"
1
𝐸𝑅 = + 𝐼 𝑦# ≠ 𝑦.#
𝑛
#$!

• 𝐼 𝑦# ≠ 𝑦.# bezeichnet eine Indikatorfunktion die den Wert Eins annimmt, wenn 𝑦# ≠ 𝑦.# und Null wenn 𝑦# = 𝑦.# .
• Dementsprechend berechnet die ER den Anteil der Fehlklassifikationen und kann in der gleichen Notation wie in der
obigen Tabelle ausgedrückt werden:
𝐵+𝐶
𝐸𝑅 =
𝐴+𝐵+𝐶+𝐷

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Supervised Learning – Evaluation einer Klassifikation
• Analog zur ER misst die „Accuracy“ (ACC) die Anzahl der korrekt klassifizierten Beobachtungen.

𝐵+𝐶
𝐴𝐶𝐶 = 1 − 𝐸𝑅 = 1 −
𝐴+𝐵+𝐶+𝐷

• ACC und ER sind geeignete Maße, wenn die Klassen ungefähr ausgeglichen sind, z. B. 55 % von 𝑦# = 1 und 45 % von
𝑦# = 0.
• Wenn die Zielvariable stark unausgewogen ist, liefern diese Maße verzerrte Ergebnisse (James et al. 2017).
• In diesem Fall sollte die sogenannte „Precision“ oder „Recall“ genutzt werden.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting

• In der Realität sind wir oft mehr daran interessiert, wie gut die

Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et

Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error

Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models

zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Logistische Regression
• Eine sehr beliebte ML-Methode für Klassifikationsprobleme ist
die "logistische Regression", die in einem binären Setting die
Wahrscheinlichkeit, dass Y entweder den Wert Null oder Eins
annimmt, abhängig von einer Menge von Merkmalen X
modelliert, d. h.

𝑝 𝑋 = Pr 𝑌 = 1 X )
• Dabei wird p(X) durch eine lineare Regression modelliert:

𝑒 %!&%" '"&%#'#&⋯&%$'$
p X =
1 + 𝑒 %!&%" '"&%#'#&⋯&%$'$

• Diese Formel können wir umformen und erhalten das


sogenannte „Logit“:

𝑝(𝑋)
log = 𝛽) + 𝛽! 𝑋! + 𝛽*𝑋* + ⋯ + 𝛽+ 𝑋+
1 − 𝑝(𝑋)
• Dies erzeugt eine Vorhersagekurve, die nichtlinear ist und nur
Werte zwischen Null und Eins annehmen kann, was für eine
binäre Klassifikation geeignet ist.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Classification Tree
• Classifcation Trees funktionieren sehr ähnlich wie
Regression Trees und beinhalten eine Splittung bzw.
Segmentierung des Prädiktorraums in eine Anzahl
einfacher bzw. reiner Regionen.
• Bei Klassifikationsbäumen werden Vorhersagen generiert,
indem jede Beobachtung zu der am häufigsten
vorkommenden Klasse der Trainingsbeobachtungen in der
Region gehört, zu der sie gehört (bei Regressionsbäumen
wird der Mittelwert der entsprechenden Region genutzt).
• Als Splitting Regel wird die Klassifizierungsfehlerrate
gewählt. Diese ist einfach der Anteil der
Trainingsbeobachtungen in einer Region, die nicht zur
häufigsten Klasse gehören:
𝐸 = 1 − max 𝑝̂-,
,
• Dabei stellt 𝑝̂-, den Anteil der Trainingsbeobachtungen in
der m-ten Region dar, die aus der k-ten Klasse stammen.
• Wenn die tatsächliche Decision Boundary linear ist,
funktioniert die logistische Regression besser (oben links).
• Wenn die Decision Boundary nichtlinear ist, sollten u.a.
Classification Trees bevorzugt werden.
Quelle: (James et al. 2017, S.315).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Random Forest
• Ein Random Forest besteht aus einer Vielzahl
von Entscheidungsbäumen.
• Dabei wird bei jedem Baum zufällig ein Teil
der Daten weggelassen (zeilen- und
spaltenweise).
• Dadurch generieren viele „schlechte“
Klassifikatoren ein gutes und robustes
Ergebnis indem alle Bäume mehrheitlich über
das Endergebnis abstimmen.
• Nicht intuitiv: Die Einführung von Zufälligkeit
führt zu einem stabileren und besseren
Ergebnis.
• Random Forests sind sehr beliebte ML-
Modelle und generieren in vielen Situationen
sehr gute Ergebnisse.
Quelle: https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Supervised Learning - Klassifikation

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks

• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.

• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-


projectec1dba419b94

• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.

• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 8: GUI

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 7

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Lernziele
Lehreinheit 7:GUI

Ich kenne/verstehe heute …


• Den Aufbau und die Funktionsweise eines R-shiny
Skripts zur Erstellung einer graphischen
Benutzeroberfläche mit shinydashboard
• Wie ich Input und Output Objekte in der GUI
visualisiere
• Wie ich Input und Output im Server miteinander
verknüpfe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Agenda
Lehreinheit 8: GUI

• Aufbau einer R-shiny App

• User Interface

• Server

• Okjekte
• Architektur

• Dynamische Funktionen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Aufbau einer R-shiny App: User Interface
Header

• Im UI Teil wird die Auswahl der Objekte und deren


Anordnung in der App bestimmt

• Header: kann z.B. den Titel der Anwendung anzeigen Side


Body
bar
• Sidebar: kann als Register des Bodys dienen oder andere
Objekte enthalten

• Body: kann mehrere Tabs umfassen, die über die Sidebar ausgewählt
werden. Jeder Tab kann durch Boxen (Bootstrap Layout) gegliedert UI Teil
werden. Boxen können Tab spezifisch oder übergreifend sein. Tabs und
Boxen können Objekte beinhalten.
Header

• Das Tab Layout kann Zeilen- oder Spalten-basiert sein (oder gemischt) Sidebar
Body
• Durch Icons, zusätzliche Parameter (Farbe) und CSS Files (Schrift)
kann die UI individualisiert werden [4]
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Aufbau einer R-shiny App: Server

• Im Server Teil werden die Funktionen und Interaktionen der Elemente der App bestimmt

• Nimmt Input Variablen aus dem UI Teil entgegen oder verwendet geladene Daten und erzeugt
Output Variablen (mittels render- Funktionen), die im UI Teil verwendet werden um eine
graphische Ausgabe zu erzeugen

Daten

Server Teil UI Teil

Input Variablen

Output Variablen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Aufbau einer R-shiny App: Objekte

• Objekte wie Plots, Texte, Tabellen, Graphiken (Output Elemente) und Buttons,
Ankreuzboxen, Schieberegler, Dropdown Auswahl, Felder für numerischen oder Text Input
(Input Elemente) können der App hinzugefügt werden

• Um ein Output Objekt einzubinden, muss ein Output-Befehl an der gewünschten Position
im UI Teil und ein entsprechender render-Befehl im Serverteil existieren, der die
zugehörigen Input- und Output-Variablen miteinander verknüpft

• Input Objekte werden mittels Input-Befehl im


UI Teil an der gewünschten Stelle erzeugt (z.B.
selectInput(), actionButton() ) UI Teil Serverteil

textOutput() renderText()

plotOutput() renderPlot()

tableOutput() renderTable()

Notwendige Funktionen um Output Objekte einzubinden

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Architektur

Entwickler User

Prognose.R

Server Teil UI Teil

Input Variablen Header


Sidebar
Output Variablen Body

app.R

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Reaktive Umgebungen

• Reaktive Umgebungen können verwendet werden um Output bedingt nach dem User Input in
Echtzeit zu aktualisieren

• Wichtig: Überprüfe, ob das neue laden von Daten in einer reaktiven Umgebung wirklich
notwendig ist, da die Anwendung sonst schnell ineffizient wird.

• Beispiel: observe(), reactive(), observeEvent() Action

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötpaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Hausaufgabe shiny App zur Qualitätsprüfung
• Erstellen Sie einen neuen Ordner für die App und legen Sie die benötigten Daten darin ab

• Bennenen Sie das R File DIGIP-T-07_Aufgabe.R in app.R um und lassen Sie es durchlaufen

• Vollziehen Sie den Code im UI und Serverteil nach

• Ergänzen Sie eine zweite Box mit der Confusionmatrix und Accuracy der Methode des
Klassifikationsbaums (neben der für die logistische Regression)

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Gestaltungsmöglichkeiten
• Für weitere graphische Objekte (z.B. Karte, Bestenliste) gibt es diverse große und kleine
Bausteine

• Apps für unterschiedliche Zwecke können von Vorlagen kopiert und modifiziert werden [2]

• Eine shiny Web-App kann auch für Demonstrationszwecke verwendet werden

Bilder: Restaurant Prognose Spiel, ausgestellt am Fraunhofer SCS an der Langen Nacht der Wissenschaften 2019 von Claudia Ehrig
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Literatur
(1) https://shiny.rstudio.com

(2) Shiny App Vorlagen: https://shiny.rstudio.com/gallery/

(3) https://learn.datacamp.com/courses/building-dashboards-with-shinydashboard

(4) Icons zur individuellen Gestaltung: https://fontawesome.com/icons?d=gallery&p=2

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Fakultät
Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 9: Deployment

Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Rückblick – Übungseinheit 8

Entwickler User

Prognose.R

Server Teil UI Teil

Input Variablen Header


Sidebar
Output Variablen Body

app.R

UI Teil Serverteil

textOutput() renderText()

plotOutput() renderPlot()

tableOutput() renderTable()

Notwendige Funktionen um Output Objekte einzubinden

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Lernziele
Lehreinheit 9: Deployment

Ich kenne/verstehe heute …


• Was Cloud Computing ist
• Möglichkeiten eine Web App zu deployen
• Wie ich eine shiny App mit shinyapps.io deploye

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Agenda
Lehreinheit 9: Deployment

• Cloud Computing

• AWS Compute Services

• Shinyapps.io

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Cloud Computing

• Unter Cloud Computing versteht man die Bereitstellung von IT-Services durch eine
Plattform im Internet, deren Nutzung ohne vorherige Vertragsabsprache möglich ist (on
demand) und nur genutzte Leistungen in Rechnung gestellt werden (pay-as-you-go)

• Das Cloud Computing bietet eine Möglichkeit zum Deployment einer Applikation und wird oft
als Gegenteil von lokalem (on-premises) Deployment genannt. Hybride Lösungen sind
gängig.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
AWS Compute Services

• Amazon Web Services bietet verschiedene Cloud-basierte Produkte


an. Ziel ist es, Aufgaben, die jeder für die Erzeugung und
Instandhaltung von IT Anwendungen hat, abzunehmen, z.B.
Rechenkapazität, Speicher, Netzwerkmanagement

• Ein Compute Service stellt Rechenkapazität für Entwicklung,


Deployment, Inbetriebnahme und Skalierung von Anwendungen
bereit

Datenstrom
• Compute Services von AWS sind Amazon Elastic Compute Cloud
(EC2) und Amazon Lightsail
Compute Service
(z.B. EC2)
• Ein Compute Service nimmt Datenströme der Entwickler und
User entgegen und kann auf Objekte aus einem Objektspeicher
und Daten aus einer Datenbank zugreifen Objektspeicher Datenspeicher

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
AWS Compute Services

• Zum Deployment einer Web App eignet sich z.B. eine AWS EC2 Instanz

• Eine EC2 Instanz ist ein reservierter virtueller Server mit flexibel einstellbarer
Kapazität, der je nach Nutzung bezahlt wird [3]
• Die Hardware und die zugehörige Kapazität einer EC2 Instanz können über das
Amazon Machine Image (AMI) konfiguriert und nachträglich angepasst werden:
• Betriebssystem und installierte Anwendungen
• Instanztyp (Rechen-, Arbeits- und Datenspeicher- und Netzwerkeigenschaften)

• Je nach Anwendung eignen sich unterschiedliche Instanz Typen am besten [4]


• Eine Security Group kontrolliert die Zugriffe auf die Instanz (für eine Web App z.B.
braucht man einen Web Server, der Internetverkehr auf HTTP und HTTPS Ports
zulässt)

• Nach dem Launch und Status Checks kann die Web App über die öffentliche IP-
Adresse abgerufen werden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Shinyapps.io

• Shinyapps.io ist ein Anbieter für Cloud Services speziell für das Deployment
von shiny Apps
• Eine Schnittstelle zu shinyapps.io ist bereits in R Studio integriert („easy button“ )

• Das Deployment via shinyapps.io ist in wenigen Schritten möglich:


• Anlegen eines neuen Ordners für die App mit den benötigten Files
• Einrichtung eines Accounts auf shinyapps.io
• Installieren des Pakets rsconnect in R
• Einmalige Authorisierung des Accounts mittels „token and secret“
• Deployment über den deployApp Befehl in der Konsole oder den easy button

• Eine genaue Anleitung befindet sich im Dashboard des Accounts oder auch hier [6]

• Die App ist dann über die zugewiesene HTTPS Adresse öffentlich zugänglich (der
Account- und Ordnername erscheinen in der Adresse)

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Shinyapps.io

Die Verwaltung und das Monitoring der App erfolgt im shinyapps.io Account

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Hausaufgabe Deployment der Web App zur Qualitätsprüfung
• Legen Sie sich einen Account auf shinyapps.io an (nur E-Mail Adresse und Accountname
erforderlich) [5]
• Wählen Sie als Account Namen:
https:// DIGIP-T-Nachname .shinyapps.io
• Folgen Sie der Anleitung auf Folie 10 um Ihre shiny Web App mit shinyapps.io zu deployen

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Literatur
(1) Free AWS Coursera Kurs: https://www.coursera.org/learn/aws-fundamentals-going-cloud-native?isNewUser=true

(2) Free AWS Kontingent: https://aws.amazon.com/de/free/?all-free-tier.sort-by=item.additionalFields.SortRank&all-free-


tier.sort-order=asc

(3) AWS EC2: https://aws.amazon.com/de/ec2/?nc2=h_ql_prod_fs_ec2&ec2-whats-new.sort-


by=item.additionalFields.postDateTime&ec2-whats-new.sort-order=desc

(4) AWS EC2 Instanz Typen: https://aws.amazon.com/de/ec2/instance-types/

(5) https://www.shinyapps.io/admin/#/login

(6) https://statsandr.com/blog/how-to-publish-shiny-app-example-with-shinyapps-io/

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17

Das könnte Ihnen auch gefallen