DIGIP T 04 Unsupervised - Learning

Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Übungseinheit 5: Unsupervised Learning
Dr. Christian Menden

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Dr. Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Data Science Pipeline

10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 2
Rückblick – Übungseinheit 3
!! !" !# !$ !% !&
"!
""
"#
"$
"%
"&
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.
Besprechung der Hausaufgabe
Lernziele
Lehreinheit 4: Unsupervised Learning
Ich kenne/verstehe heute …

• die Funktionsweise von unüberwachten Lernverfahren
(Unsupervised Learning)
• welche Verfahren des Unsupervised Learning es gibt
und wofür sie verwendet werden.
• wie Clustering Verfahren in R implementiert werden
können.
Agenda
Lehreinheit 4: Unsupervised Learning
• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning
? !
70% 90%
Accuracy Accuracy
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- Principal
- Regression Trees - Classification Trees - k-Modes Components (PCA)
- Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes - Dynamic Factor
- Euclat
Regression (SVR) - Support Vector - Hierachical - Canonical
- FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture Correlations
…
- Neural Networks - Ensemble Methods - Neural Networks …
… - Neural Networks …
…
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
• Daten ohne Label y

• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Unterschiedliche Ansätze
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen
Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/
K-Means Clustering
1 (a) 1 (b) 1 (c)
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).
K-Means Clustering
1 (d) 1 (e) 1 (f)
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).
• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).
• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).
Dimensionsreduktion
Illustration der Hauptkomponentenanalyse (PCA) (Scholz 2006, S.16).
Unsupervised Learning
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
• Labels für diesen Datensatz aus Röntgeninspektion und

zusätzlicher Prüfung
Vielen Dank für
die Aufmerksamkeit
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.
• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.
• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.
• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.

DIGIP T 04 Unsupervised - Learning

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

DIGIP T 04 Unsupervised - Learning

Hochgeladen von

Copyright:

Verfügbare Formate

Fakultät

Maschinenbau und Versorgungstechnik

Übungseinheit 5: Unsupervised Learning

Dr. Christian Menden

Data Science Pipeline

Ich kenne/verstehe heute …

• Daten ohne Label y

1 (a) 1 (b) 1 (c)

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

1 (d) 1 (e) 1 (f)

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

Illustration der Hauptkomponentenanalyse (PCA) (Scholz 2006, S.16).

• Labels für diesen Datensatz aus Röntgeninspektion und

Das könnte Ihnen auch gefallen