Sie sind auf Seite 1von 22

Fakultät

Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 7: Supervised Learning

Dr. Christian Menden


Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Dr. Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 2
Rückblick – Übungseinheit 6

Overfitting Adequate Underfitting

Regression
Classification
- Low training error - Training error slightly lower - High training error
Properties - High test error than test error - Training and test error close
- Solutions: Use regularization to eachother
or aquire/generate more - Solution: Use more
data complex/nonlinear models

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 3
Rückblick – Übungseinheit 6: Hausaufgaben
Aufgabe 1 – Supervised Learning - Regression:

Vergleichen Sie die Ergebnisse der linearen Regression und dem Regression Tree.
• Welches Modell würden Sie bevorzugen?
• Welche Features sind die wichtigsten?
• Wie würden Sie das lineare Modell überarbeiten? Wenn ja, wie?

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 4
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 5
Lernziele
Lehreinheit 7: Supervised Learning

Ich kenne/verstehe heute …


• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Klassifikationsverfahren
• welche Verfahren es zur Klassifikation gibt und wofür
sie verwendet werden.
• wie Klassifikationsverfahren in R implementiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 6
Agenda
Lehreinheit 7: Supervised Learning - Klassifikation

• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Logistische Regression
• Entscheidungsbaum
• Random Forest

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 7
Unterschiedliche Ansätze
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- Principal
- Regression Trees - Classification Trees - k-Modes Components (PCA)
- Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes - Dynamic Factor
- Euclat
Regression (SVR) - Support Vector - Hierachical - Canonical
- FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture Correlations

- Neural Networks - Ensemble Methods - Neural Networks …
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 8
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 9
Supervised Learning Pipeline

Training- Input ML Model Output Evaluation


data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm

Quelle: Eigene Darstellung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 10
Supervised Learning – Evaluation einer Klassifikation
• In einem Klassifikations-Setting, in dem 𝑦!, … , 𝑦" ein kategoriales Ziel ist, werden die Ergebnisse oft in einer
sogenannten Konfusionsmatrix dargestellt.

• Die am häufigsten verwendete Metrik zur Messung der Performance von 𝑓$ ist die sogenannte "Fehlerrate" bzw. „Error
Rate“ (ER)
"
1
𝐸𝑅 = + 𝐼 𝑦# ≠ 𝑦.#
𝑛
#$!

• 𝐼 𝑦# ≠ 𝑦.# bezeichnet eine Indikatorfunktion die den Wert Eins annimmt, wenn 𝑦# ≠ 𝑦.# und Null wenn 𝑦# = 𝑦.# .
• Dementsprechend berechnet die ER den Anteil der Fehlklassifikationen und kann in der gleichen Notation wie in der
obigen Tabelle ausgedrückt werden:
𝐵+𝐶
𝐸𝑅 =
𝐴+𝐵+𝐶+𝐷

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 11
Supervised Learning – Evaluation einer Klassifikation
• Analog zur ER misst die „Accuracy“ (ACC) die Anzahl der korrekt klassifizierten Beobachtungen.

𝐵+𝐶
𝐴𝐶𝐶 = 1 − 𝐸𝑅 = 1 −
𝐴+𝐵+𝐶+𝐷

• ACC und ER sind geeignete Maße, wenn die Klassen ungefähr ausgeglichen sind, z. B. 55 % von 𝑦# = 1 und 45 % von
𝑦# = 0.
• Wenn die Zielvariable stark unausgewogen ist, liefern diese Maße verzerrte Ergebnisse (James et al. 2017).
• In diesem Fall sollte die sogenannte „Precision“ oder „Recall“ genutzt werden.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 12
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting

• In der Realität sind wir oft mehr daran interessiert, wie gut die

Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et

Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error

Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models

zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 13
Logistische Regression
• Eine sehr beliebte ML-Methode für Klassifikationsprobleme ist
die "logistische Regression", die in einem binären Setting die
Wahrscheinlichkeit, dass Y entweder den Wert Null oder Eins
annimmt, abhängig von einer Menge von Merkmalen X
modelliert, d. h.

𝑝 𝑋 = Pr 𝑌 = 1 X )
• Dabei wird p(X) durch eine lineare Regression modelliert:

𝑒 %!&%" '"&%#'#&⋯&%$'$
p X =
1 + 𝑒 %!&%" '"&%#'#&⋯&%$'$

• Diese Formel können wir umformen und erhalten das


sogenannte „Logit“:

𝑝(𝑋)
log = 𝛽) + 𝛽! 𝑋! + 𝛽*𝑋* + ⋯ + 𝛽+ 𝑋+
1 − 𝑝(𝑋)
• Dies erzeugt eine Vorhersagekurve, die nichtlinear ist und nur
Werte zwischen Null und Eins annehmen kann, was für eine
binäre Klassifikation geeignet ist.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 14
Classification Tree
• Classifcation Trees funktionieren sehr ähnlich wie
Regression Trees und beinhalten eine Splittung bzw.
Segmentierung des Prädiktorraums in eine Anzahl
einfacher bzw. reiner Regionen.
• Bei Klassifikationsbäumen werden Vorhersagen generiert,
indem jede Beobachtung zu der am häufigsten
vorkommenden Klasse der Trainingsbeobachtungen in der
Region gehört, zu der sie gehört (bei Regressionsbäumen
wird der Mittelwert der entsprechenden Region genutzt).
• Als Splitting Regel wird die Klassifizierungsfehlerrate
gewählt. Diese ist einfach der Anteil der
Trainingsbeobachtungen in einer Region, die nicht zur
häufigsten Klasse gehören:
𝐸 = 1 − max 𝑝̂-,
,
• Dabei stellt 𝑝̂-, den Anteil der Trainingsbeobachtungen in
der m-ten Region dar, die aus der k-ten Klasse stammen.
• Wenn die tatsächliche Decision Boundary linear ist,
funktioniert die logistische Regression besser (oben links).
• Wenn die Decision Boundary nichtlinear ist, sollten u.a.
Classification Trees bevorzugt werden.
Quelle: (James et al. 2017, S.315).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 15
Random Forest
• Ein Random Forest besteht aus einer Vielzahl
von Entscheidungsbäumen.
• Dabei wird bei jedem Baum zufällig ein Teil
der Daten weggelassen (zeilen- und
spaltenweise).
• Dadurch generieren viele „schlechte“
Klassifikatoren ein gutes und robustes
Ergebnis indem alle Bäume mehrheitlich über
das Endergebnis abstimmen.
• Nicht intuitiv: Die Einführung von Zufälligkeit
führt zu einem stabileren und besseren
Ergebnis.
• Random Forests sind sehr beliebte ML-
Modelle und generieren in vielen Situationen
sehr gute Ergebnisse.
Quelle: https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 16
Supervised Learning - Klassifikation

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 21
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks

• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.

• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-


projectec1dba419b94

• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.

• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 22

Das könnte Ihnen auch gefallen