Beruflich Dokumente
Kultur Dokumente
Digitalisierung
industrieller Prozesse
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 3
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 4
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 5
Lernziele
Lehreinheit 4: Unsupervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 6
Agenda
Lehreinheit 4: Unsupervised Learning
• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 7
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning
? !
70% 90%
Accuracy Accuracy
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- Principal
- Regression Trees - Classification Trees - k-Modes Components (PCA)
- Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes - Dynamic Factor
- Euclat
Regression (SVR) - Support Vector - Hierachical - Canonical
- FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture Correlations
…
- Neural Networks - Ensemble Methods - Neural Networks …
… - Neural Networks …
…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 10
Unterschiedliche Ansätze
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 11
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Unterschiedliche Ansätze
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen
Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 12
K-Means Clustering
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 13
K-Means Clustering
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 14
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).
• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).
• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 15
Dimensionsreduktion
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 16
Unsupervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 21
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.
• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.
• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.
• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 22