Sie sind auf Seite 1von 22

Fakultät

Maschinenbau und Versorgungstechnik

Digitalisierung
industrieller Prozesse

Übungseinheit 5: Unsupervised Learning

Dr. Christian Menden


Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Dr. Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics

6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2

Klassifikation

Datensatz
n

2 3-4 5 7 8 9

Data Science Pipeline


10 - 11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 2
Rückblick – Übungseinheit 3
!! !" !# !$ !% !&
"!
""
"#
"$
"%
"&

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 3
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:

Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.

Aufgabe 2 – KPIs

Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 4
Besprechung der Hausaufgabe

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 5
Lernziele
Lehreinheit 4: Unsupervised Learning

Ich kenne/verstehe heute …


• die Funktionsweise von unüberwachten Lernverfahren
(Unsupervised Learning)
• welche Verfahren des Unsupervised Learning es gibt
und wofür sie verwendet werden.
• wie Clustering Verfahren in R implementiert werden
können.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 6
Agenda
Lehreinheit 4: Unsupervised Learning

• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 7
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning

? !
70% 90%
Accuracy Accuracy

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)

Machine Learning
Supervised Unsupervised
Learning Learning

Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- Principal
- Regression Trees - Classification Trees - k-Modes Components (PCA)
- Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes - Dynamic Factor
- Euclat
Regression (SVR) - Support Vector - Hierachical - Canonical
- FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture Correlations

- Neural Networks - Ensemble Methods - Neural Networks …
… - Neural Networks …

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression

• k-Nearest Neighbors

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 10
Unterschiedliche Ansätze
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4

1 1 1 1 1 1

• Daten ohne Label y


• Suche nach Mustern innerhalb der Input Daten x
0 0 0 0 0 0
• Unsupervised bzw. unüberwacht, da es keinen „wahren“
Output gibt gegen den optimiert wird
-1 -1 -1 -1 -1 -1
• Dimensionsreduktion komprimiert Informationen in x, z. B.: -1 -1 0 0 1 1 -1 -1 0 0 1 1 -1 -1 0
• PCA
• Autoencoder !=2 !=3 !=4
• Dynamische Faktormodelle
1 1 1
• Clustering gruppiert ähnliche Beobachtungen, z. B.:
• k-means Clustering
• Hierarchisches Clustering
0 0 0
• Ausreißer Erkennung und Anomaliedetektion
• Assoziationsregeln
-1 -1 -1

-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 11
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Unterschiedliche Ansätze
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen

Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 12
K-Means Clustering

1 (a) 1 (b) 1 (c)

0 0 0

-1 -1 -1

-1 0 1 -1 0 1 -1 0 1

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 13
K-Means Clustering

1 (d) 1 (e) 1 (f)

0 0 0

-1 -1 -1

-1 0 1 -1 0 1 -1 0 1

Illustration des k-means Clustering-Algorithmus (Eigene Darstellung nach Bishop (2009)).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 14
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).

• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).

• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 15
Dimensionsreduktion

Illustration der Hauptkomponentenanalyse (PCA) (Scholz 2006, S.16).

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 16
Unsupervised Learning

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Datensatz
1
Machine
Learning
Datensatz
2

Datensatz
n

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten

Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …

• Labels für diesen Datensatz aus Röntgeninspektion und


zusätzlicher Prüfung

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 21
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.

• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.

• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.

• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.

Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Dr. Christian Menden Seite 22

Das könnte Ihnen auch gefallen