DIGIP T 06 Supervised Learning

Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Übungseinheit 7: Supervised Learning
Dr. Christian Menden

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Dr. Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Data Science Pipeline

10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 2
Rückblick – Übungseinheit 6
Overfitting Adequate Underfitting
Regression
Classification
- Low training error - Training error slightly lower - High training error
Properties - High test error than test error - Training and test error close
- Solutions: Use regularization to eachother
or aquire/generate more - Solution: Use more
data complex/nonlinear models
Rückblick – Übungseinheit 6: Hausaufgaben
Aufgabe 1 – Supervised Learning - Regression:
Vergleichen Sie die Ergebnisse der linearen Regression und dem Regression Tree.
• Welches Modell würden Sie bevorzugen?
• Welche Features sind die wichtigsten?
• Wie würden Sie das lineare Modell überarbeiten? Wenn ja, wie?
Besprechung der Hausaufgabe
Lernziele
Lehreinheit 7: Supervised Learning
Ich kenne/verstehe heute …

• die Vorgehensweise und verschiedene Metriken zur
Evaluation von überwachten Klassifikationsverfahren
• welche Verfahren es zur Klassifikation gibt und wofür
sie verwendet werden.
• wie Klassifikationsverfahren in R implementiert werden
können.
Agenda
Lehreinheit 7: Supervised Learning - Klassifikation
• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Logistische Regression
• Entscheidungsbaum
• Random Forest
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- Principal
- Regression Trees - Classification Trees - k-Modes Components (PCA)
- Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes - Dynamic Factor
- Euclat
Regression (SVR) - Support Vector - Hierachical - Canonical
- FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture Correlations
…
- Neural Networks - Ensemble Methods - Neural Networks …
… - Neural Networks …
…
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Supervised Learning Pipeline
Training- Input ML Model Output Evaluation

data
- Training ML model with
Data Train Test training data
Available Pre-Processing Split - Hyperparameter tuning
Data - Regularization
- Acquisition and selection of raw data
- Treatment of outliers Test-
- Standardization of data data
- Handling of missing data
- Clustering
- Dimension reduction
- Feature selection
- Feature engineering
- Conversion of data format to ensure compatability with
ML algorithm
Quelle: Eigene Darstellung
Supervised Learning – Evaluation einer Klassifikation
• In einem Klassifikations-Setting, in dem 𝑦!, … , 𝑦" ein kategoriales Ziel ist, werden die Ergebnisse oft in einer
sogenannten Konfusionsmatrix dargestellt.
• Die am häufigsten verwendete Metrik zur Messung der Performance von 𝑓$ ist die sogenannte "Fehlerrate" bzw. „Error
Rate“ (ER)
"
1
𝐸𝑅 = + 𝐼 𝑦# ≠ 𝑦.#
𝑛
#$!
• 𝐼 𝑦# ≠ 𝑦.# bezeichnet eine Indikatorfunktion die den Wert Eins annimmt, wenn 𝑦# ≠ 𝑦.# und Null wenn 𝑦# = 𝑦.# .
• Dementsprechend berechnet die ER den Anteil der Fehlklassifikationen und kann in der gleichen Notation wie in der
obigen Tabelle ausgedrückt werden:
𝐵+𝐶
𝐸𝑅 =
𝐴+𝐵+𝐶+𝐷
Supervised Learning – Evaluation einer Klassifikation
• Analog zur ER misst die „Accuracy“ (ACC) die Anzahl der korrekt klassifizierten Beobachtungen.
𝐵+𝐶
𝐴𝐶𝐶 = 1 − 𝐸𝑅 = 1 −
𝐴+𝐵+𝐶+𝐷
• ACC und ER sind geeignete Maße, wenn die Klassen ungefähr ausgeglichen sind, z. B. 55 % von 𝑦# = 1 und 45 % von
𝑦# = 0.
• Wenn die Zielvariable stark unausgewogen ist, liefern diese Maße verzerrte Ergebnisse (James et al. 2017).
• In diesem Fall sollte die sogenannte „Precision“ oder „Recall“ genutzt werden.
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting
• In der Realität sind wir oft mehr daran interessiert, wie gut die
Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et
Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error
Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models
zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).
Logistische Regression
• Eine sehr beliebte ML-Methode für Klassifikationsprobleme ist
die "logistische Regression", die in einem binären Setting die
Wahrscheinlichkeit, dass Y entweder den Wert Null oder Eins
annimmt, abhängig von einer Menge von Merkmalen X
modelliert, d. h.
𝑝 𝑋 = Pr 𝑌 = 1 X )
• Dabei wird p(X) durch eine lineare Regression modelliert:
𝑒 %!&%" '"&%#'#&⋯&%$'$
p X =
1 + 𝑒 %!&%" '"&%#'#&⋯&%$'$
• Diese Formel können wir umformen und erhalten das

sogenannte „Logit“:
𝑝(𝑋)
log = 𝛽) + 𝛽! 𝑋! + 𝛽*𝑋* + ⋯ + 𝛽+ 𝑋+
1 − 𝑝(𝑋)
• Dies erzeugt eine Vorhersagekurve, die nichtlinear ist und nur
Werte zwischen Null und Eins annehmen kann, was für eine
binäre Klassifikation geeignet ist.
Classification Tree
• Classifcation Trees funktionieren sehr ähnlich wie
Regression Trees und beinhalten eine Splittung bzw.
Segmentierung des Prädiktorraums in eine Anzahl
einfacher bzw. reiner Regionen.
• Bei Klassifikationsbäumen werden Vorhersagen generiert,
indem jede Beobachtung zu der am häufigsten
vorkommenden Klasse der Trainingsbeobachtungen in der
Region gehört, zu der sie gehört (bei Regressionsbäumen
wird der Mittelwert der entsprechenden Region genutzt).
• Als Splitting Regel wird die Klassifizierungsfehlerrate
gewählt. Diese ist einfach der Anteil der
Trainingsbeobachtungen in einer Region, die nicht zur
häufigsten Klasse gehören:
𝐸 = 1 − max 𝑝̂-,
,
• Dabei stellt 𝑝̂-, den Anteil der Trainingsbeobachtungen in
der m-ten Region dar, die aus der k-ten Klasse stammen.
• Wenn die tatsächliche Decision Boundary linear ist,
funktioniert die logistische Regression besser (oben links).
• Wenn die Decision Boundary nichtlinear ist, sollten u.a.
Classification Trees bevorzugt werden.
Quelle: (James et al. 2017, S.315).
Random Forest
• Ein Random Forest besteht aus einer Vielzahl
von Entscheidungsbäumen.
• Dabei wird bei jedem Baum zufällig ein Teil
der Daten weggelassen (zeilen- und
spaltenweise).
• Dadurch generieren viele „schlechte“
Klassifikatoren ein gutes und robustes
Ergebnis indem alle Bäume mehrheitlich über
das Endergebnis abstimmen.
• Nicht intuitiv: Die Einführung von Zufälligkeit
führt zu einem stabileren und besseren
Ergebnis.
• Random Forests sind sehr beliebte ML-
Modelle und generieren in vielen Situationen
sehr gute Ergebnisse.
Quelle: https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/
Supervised Learning - Klassifikation
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
• Labels für diesen Datensatz aus Röntgeninspektion und

zusätzlicher Prüfung
Vielen Dank für
die Aufmerksamkeit
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks
• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.
• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-

projectec1dba419b94
• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.
• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.

DIGIP T 06 Supervised Learning

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

DIGIP T 06 Supervised Learning

Hochgeladen von

Copyright:

Verfügbare Formate

Fakultät

Maschinenbau und Versorgungstechnik

Übungseinheit 7: Supervised Learning

Dr. Christian Menden

Data Science Pipeline

Overfitting Adequate Underfitting

Ich kenne/verstehe heute …

Training- Input ML Model Output Evaluation

Quelle: Eigene Darstellung

• Diese Formel können wir umformen und erhalten das

• Labels für diesen Datensatz aus Röntgeninspektion und

• Pant, A. (2019), ‘Workflow of a machine learning project’. https://towardsdatascience:com/workflow-of-a-machine-learning-

• Schutt, R. (2014), Doing data science, O’Reilly Media, Sebastopol, CA.

Das könnte Ihnen auch gefallen