Beruflich Dokumente
Kultur Dokumente
Digitalisierung
industrieller Prozesse
Lehrveranstaltungsüberblick
Rechnerübung: Data Science
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Vorstellung
• Leiter der Abteilung Analytics am Fraunhofer IIS im Bereich SCS
• ADA Lovelace Center: Mitglied des Steering Committee,
Kompetenzsäulenkoordinator “Few Data Learning”, Interims-Projektleitung
• BHS Joint Lab Data Analytics Gründer und Mitglied des Steering Committee
• Gremien
• International Institute of Forecasting
• Gesellschaft für Operations Research
• Mentor im IAB Mentoring Programm
• Akademischer Werdegang
• B. A. in Finance & Investmens
• M. Sc. in European Economic Studies
• Dissertation zum Thema Data Augmentation für ML Methoden
• Lehraufträge
Christian Menden
• Otto-Friedrich-Universität Bamberg Telefon 0911 58061-9540 (Fraunhofer)
• Friedrich-Alexander-Universität Erlangen-Nürnberg christian.menden@th-nuernberg.de
• FH Würzburg Schweinfurt
• TH Nürnberg
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Agenda
Lehrveranstaltungsüberblick
• Prüfungsleistung
• Themenüberblick
• Übungskonzept
• E-Learning
• Literatur
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Prüfungsleistung
Schriftliche Prüfung (100% der Modulnote)
Dauer: 90 min
Inhalt: Vorlesung, Übung und begleitende Literatur
Sprache: Deutsch
Aufbau: Offene Fragen
Termin: Prüfungszeitraum Sommersemester
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0
• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation
• Datenquellen, Datentypen
Datenräume
• Informationsmodelle
Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g
• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Rechnerübung
Ziel der Rechnerübung ist der Erwerb grundlegender Kenntnisse und
Fähigkeiten zur Generierung von Erkenntnissen aus Daten
• Grundbegriffe: Künstliche Intelligenz (KI) und Maschinelles Lernen (ML)
• Vorgehen: Workflow einer ML Anwendung
• Software R: Einarbeitung, Basisfunktionen, ML Softwarebibliotheken
• Deskriptive-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Clustering-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Klassifikations-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Regressions-Verfahren: Theorie, Implementierung, Beispiel, Übungsaufgaben
• Eigenständige Bearbeitung eines Übungsbeispiels (àTestat mE/oE)
• Ausblick: Spezialrichtung, aktuelle Forschung im ML z. B. AutoML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Themenüberblick der Rechnerübung
Ziel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Themenüberblick der Rechnerübung
• Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Themenüberblick der Rechnerübung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8
• Erfahrungen in R Programmierung
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Übungskonzept
• Theorie
• Implementierung in R
• Hausaufgabe
• Besprechung der letzten Hausaufgaben und Fragemöglichkeiten
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
E-Learning-Portal
• Bereitstellung aller Kursunterlagen (Vorlesung, Rechnerübung)
• Abwicklung der gesamten Kommunikation (Forum, Kursnachrichten)
Startseite à Kurse à Fakultäten à MBVS à Gölzer, Philipp à DIGIP (Kurspasswort: DIGI21)
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With
applications in R, Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press
• Döbel, I., Leis, M., Molina Vogelsang, M., Neustroev, D., Petzka, H., Riemer, A., Rüping, S., Voss, A.,
Wegele, M. & Welz, J. (2018), Maschinelles Lernen: Eine Analyse zu Kompetenzen, Forschung und
Anwendung, Technical report, München.
• VDMA Software und Digitalisierung (2018), Quick Guide - Machine Learning im Maschinen- und
Anlagenbau, available at:
https://sud.vdma.org/documents/15012668/26742261/!VDMA%20Quick%20Guide_Machine%20Learning_1
535375434182.pdf/f82a3951-ee87-d9f2-7702-1d20644c2349
• Bischl, B., Scheipl, F., Seibold, H., Bothmann, L., Schalk, D., Molnar, C., Pielok, T., (2021), Introduction to
Machine Learning (I2ML), available at: https://introduction-to-machine-learning.netlify.app
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Übungseinheit 1: Einführung
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Themenüberblick der Vorlesung
• Einführung
Digitalisierung Digitalisierung
• Industrie 4.0
• Operative Effizienz
Verbesserung
Unternehmen Anwendungen
• Effizienz • Neue Geschäftsmodelle
• Effektivität
• Qualität
• Internet der Dinge
Internet der Dinge
• Kommunikation
• Datenquellen, Datentypen
Datenräume
• Informationsmodelle
Re
• Anwendungsfälle c
Üb hne
Data Science un r-
• Handlungsfelder g
• Herausforderungen
datengetriebene Prozesse Umsetzung
• Neue Rolle des Menschen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 2
Themenüberblick der Rechnerübung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Agenda
Lehreinheit 1: Einführung
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Grundbegriffe
Machine Learning verändert unsere Welt…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Grundbegriffe
AI Machine
Learning
Neural
Networks
Deep
Learning
Viele Menschen sind unsicher oder verwirrt, was diese Begriffe eigentlich bedeuten.
Und was hat das alles mit Statistik zu tun?
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Grundbegriffe
Artificial Intelligence (AI) – Künstliche Intelligenz (KI)
• KI ist ein generischer Begriff für ein sehr großes und sich schnell entwickelndes
Forschungsfeld. 1956
• Es gibt keine präzise Definition, aber der Begriff wird häufig genutzt wenn Dartmouth Summer
Maschinen trainiert werden um eine Aufgabe zu lösen die bis dato nur von Research Project on AI
Menschen gelöst werden konnte und als besonders „schwer“ angesehen wird.
• Die Ursprünge von KI als Forschungsfeld sind nicht klar datiert. In 1956 wurde im
Rahmen des „Dartmouth Summer Research Project on Artificial Intelligence“ der Ziel
Begriff erstmalig geprägt. Die zugrundeliegenden Theorien und Konzepte (u.a. aus
der Biologie) gehen aber weiter zurück bis in die 1940er.
Starke KI
• Als in den 1940er Computer erfunden wurden fragten Forscher wie Alan Turing und
John von Neumann: „Wenn wir Berechnungen formalisieren können, können wir
dann Berechnung verwenden, um das "Denken" zu formalisieren?“
Heute
• Unter KI werden heute ML, Natural Language Processing, Computer Vision,
Robotics, Planungsprobleme, Suchen, Spiele, intelligente Agenten und vieles mehr
verstanden. Schwache KI
• KI ist heute ein „Hype“ Begriff den viele Menschen verwenden obwohl sie vermutlich
eher „ML“ oder „klassische Datenanalyse“ sagen sollten.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Grundbegriffe
Machine Learning (ML)
• ML looks back on a long history and “[…] sits at the
crossroads of computer science, statistics and a variety
of other disciplines concerned with automatic
improvement over time, and inference and decision-
making under uncertainty” (Jordan & Mitchell 2015,
S.256).
• ML bezeichnet mathematisch präzise beschriebene
Verfahren die eine hinreichend beschränkte Aufgabe
lösen.
• ML-Algorithmen konstruieren normalerweise Vorhersage-
/Entscheidungsmodelle aus Daten, anstatt sie explizit sie
zu programmieren.
• Nach Mitchell (1997, S.2) gilt: “[...] a computer program is
said to learn from experience E with respect to some
class of tasks T and performance measure P, if its Quelle: https://www.oreilly.com/library/view/java-deep-
learning/9781788997454/assets/899ceaf3-c710-4675-ae99-
performance at tasks in T, as measured by P, improves 33c76cd6ac2f.png
with experience E.”
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Grundbegriffe
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …
…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Grundbegriffe
Machine Learning (ML)
Logistic Regression
Decision Trees
Random Forests
Neural Networks
Bayesian Inference
Ensemble Methods
Others
Die am meisten von Experten verwendeten ML Methoden gemäß einer Umfrage von Kaggle
Quelle: Döbel et al. (2018), S.11
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Grundbegriffe
Deep Learning (DL)
• Deep Learning ist ein Teilgebiet von ML und behandelt die
Erforschung und Anwendung von künstlichen neuronalen
Netzen (KNNs).
• KNNs sind dem menschlichen Gehirn nachempfunden,
können allerdings einfach als eine Klasse von ML
Modellen verstanden werden die bereits seit Jahrzehnten
erforscht werden.
• DL umfasst lediglich eine hohe Anzahl von Schichten
(Layers) mit speziellen Neuronen für Bilddaten und
Tensoren sodass Anwendungen auf sehr großen
Datensätzen performant funktionieren.
• DL kann auf tabellarischen Daten angewendet werden,
wird aber üblicherweise bei Bild-, Text-, und Signaldaten
angewendet. Vergleich von (A) einem menschlichen Neuron, (B) einem künstlichen Neuron, (C) einer
biologischen Synapse und (D) KNN Synapsen.
• In den letzten 10-15 Jahren wurde mit DL Quelle: Maltarollo et al. (2013), S. 205.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Grundbegriffe
Machine Learning vs. Statistik
• ML und Statistik wurden historisch in verschiedenen
Bereichen entwickelt. Machine Learning Statistik
Features Variables
• Viele Methoden und vor allem die mathematischen
Grundlagen sind jedoch äquivalent. Inputs Independent Variables
• Der Fokus liegt bei ML traditionell auf präzisen Outputs Predicted Variables
Vorhersagen während die Statistik eher die Interpretation Targets / Training Values Dependent Variables
der Muster der Daten analysiert und Inferenz ableiten Errors Residuals
möchte. Patterns / Training Pairs Observations
• Heute arbeiten beide im wesentlichen mit den gleichen Weights Parameter Estimates
Methoden an den selben Problemen.
Generalization Test Set Performance
• Leider sind die Communities immer noch geteilt, reden Supervised Learning Regression / Classification
nicht so viel miteinander wie sie sollten, und jeder ist
Unsupervised Learning Density Estimation / Clustering
verwirrt, weil unterschiedliche Terminologie für dieselben
Konzepte besteht (siehe Tabelle rechts). Begriffskonventionen in Machine Learning und Statistik (Adaptiert von Sarle(1994)).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Grundbegriffe
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Grundbegriffe
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Grundbegriffe
Reinforcement Learning (RL)
• Ziel ist die Auswahl von Aktionen die zur Maximierung der
zukünftigen Belohnung führen
• Belohnungssignale können spärlich, verrauscht oder
verzögert sein
• Bekannte Beispiele:
• Google‘s DeepMind AI learns to walk
https://www.youtube.com/watch?v=gn4nRCC9TwQ
• OpenAI plays Hide and Seek
https://www.youtube.com/watch?v=Lu56xVlZ40M
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Grundbegriffe
Data Mining
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Grundbegriffe
Analytics
• Prozess der datengetriebenen Wissensgenerierung im
Unternehmenskontext um komplexe Probleme zu lösen
und Entscheidungsprozesse zu beschleunigen.
• Fokus auf Anwendung von ML Methoden im konkreten How can we reach our
Anwendungsfällen Unternehmenskontext um aktuelle goals?
Value
t i m n
Predictive Op atio
• Business Intelligence m end
What happened? Analytics om
• Analyse historischer Daten Rec
si g ht
• Dashboards, KPIs, Reports Descriptive Fore
• Predictive Analytics: Analytics
ht
g
Insi
• Vorhersage zukünftiger Entwicklungen
t i on
rma
• Auf Basis historischer Daten Info Rev
i ew
• Input für Entscheidungsträger
Complexity
• Prescriptive Analytics:
• Unterstützt den Entscheidungsprozess mathematisch und direkt
• Formulierung und Lösung eines Unternehmensproblems als
mathematisches Optimierungsproblems
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Grundbegriffe
Data Science
• In der Publikation von Davenport & Patil (2012) “Data
Scientist: The Sexiest Job of the 21st Century”, beanspruchen
Jeff Hammerbacher und D.J. Patil den Begriff “data scientist” Data Science Computer
im 2008 geprägt zu haben um ihre damaligen Jobs bei Science
LinkedIn und Facebook zu beschreiben.
• Keine präzise Definition
• Data Science beschreibt ein breites Feld in dem
Unternehmensprobleme aus einer Datenperspektive
betrachtet werden und umfasst den gesamten Analytics
Prozess von Problemidentifikation und -definition,
Machine Domain
Datenbankmanagement, Datenakquise und –vorverarbeitung,
Learning Expertise
Visualisierung, ML, Front-End Entwicklung und Deployment
(Waller & Fawcett 2013).
• Data Science erfordert interdisziplinäre Kompetenzen aus
den Bereichen der Mathematik, Statistik, ML, Computer
Science und Domänenexpertise. Data science Venn Diagramm (Eigene Darstellung in Anlehnung an Mitchell-
Guthrie (2014) and Tierney (2016)).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Agenda
Lehreinheit 1: Einführung
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Pin auf der Leiterplatte
• Lötpasteninspektion Messungen:
• Height
• Volume
• y_offset
• x_offset
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Agenda
Lehreinheit 1: Einführung
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Ausblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8
1. R: https://ftp.fau.de/cran/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 26
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 27
Literatur
• Shearer, C. (2000), ‘The CRISP-DM Model: The new blueprint for data mining’, Journal of Data Warehousing 5(4), 13–
22.
• Jordan, M. I. & Mitchell, T. M. (2015), ‘Machine learning: Trends, perspectives, and prospects’, Science 349(6245),
255–260.
• Mitchell, T. M. (1997), Machine learning, McGraw-Hill series in computer science, international edn, McGraw-Hill, New
York, NY.
• Davenport, T. H. & Patil, D. J. (2012), ‘Data scientist: The sexiest job of the 21st century’, Harvard Business Review
90(10), 70–6, 128.
• Mitchell-Guthrie, P. (2014), ‘Looking backwards, looking forwards: SAS, data mining, and machine learning’.
https://blogs:sas:com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-
and-machinelearning/,
• Tierney, B. (2016), ‘Data science is multidisciplinary’. http://www:oralytics:com/2012/06/data-science-is-
multidisciplinary.html
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 28
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8
AI Machine
Learning
Neural
Networks
Deep
Learning
Machine Domain
Learning Expertise
1950 1960 1970 1980 1990 2000 2010 2020
Prescriptive
Why did it happen? Analytics
What will happen?
n
atio
imiz
Value
n
Predictive Opt
Datensatz
atio
end
1
What happened? Analytics om m Machine
R e c Learning
Datensatz
sig ht 2
Descriptive Fore
Analytics
…
ht
Insig Datensatz
n
tion
rma
Info Rev
iew
Complexity
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 1
Hausaufgabe:
• Bitte installieren Sie sich zuerst R und
anschließend RStudio
1. R: https://ftp.fau.de/cran/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe
Sie sollten nun R und RStudio installiert haben:
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Kurzes Setup
• Automatisches Laden der letzten Daten ausschalten
• Verhindert, dass Fehler übersehen werden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Kurzes Setup
• Erstellen Sie ein R Project als „New Directory“ und nennen Sie es „DIGIP_T“
• Falls Sie git nutzen, könnten Sie sich hier ein versionsverwaltetes Projekt klonen oder neu anlegen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Kurzes Setup
• Erstellen Sie ein neues R Script „Tut_1“
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Tipps & Shortcuts
• Zuweisung <-
• Windows: Alt –
• macOS: option –
• ? zeigt Hilfe an
• # erzeugt Kommentare die nicht ausgeführt werden
• Section einfügen
• Windows: Strg Shift R
• macOS: control Shift R
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Lernziele
Lehreinheit 2: Einführung in R und RStudio
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Besprechung der Hausaufgabe
Warum R?
• Free and Open Source Software
• Verfügbar auf allen gängigen Systemen (Windows, macOS, Linux)
• Einfach zu replizieren und zugänglich für alle à fördert wissenschaftliche Überprüfbarkeit
• Sehr starke Community (u.a. auf https://stackoverflow.com ) und gute Dokumentation
• Sehr umfangreicher Bestand an Packages für Statistik, Data Science, ML, etc.
• Starke Tools zur Kommunikation der Ergebnisse (Rmarkdown, HTML, PDF, Word, PowerPoint, Dashboards, Tex-Files)
• State-of-the-Art Methoden (Forscher publizieren ihre R Packages zu den neuesten Journal Artikeln bei GitHub)
• Sehr ähnlich zu C, C++ und Fortran
• Sie können (fast) alles in R machen!
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Agenda
Lehreinheit 2: Einführung in R und RStudio
• Objektarten in R
• Rechenoperationen
• Basisbefehle
• Übungen in RStudio
• Hausaufgaben
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Objektarten in R und RStudio
• Zur Implementierung von eigenem Code und Algorithmen in R, verfügt R über eine Vielzahl von Objekten ganz ähnlich
wie Programmiersprachen wie C, C++, Java, Python, Ruby, etc.
• Scalars
• Vectors
• Matrices
• Arrays
• Data frames
• Lists
• R ist objektorientiert!
• Um die Struktur von einem Objekt zu bestimmen, kann der Befehl str( ) verwendet werden.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Rechenoperationen
• Einfache arithmetische Rechenoperationen wie gewohnt
• +
• -
• /
• *
• ^
• Logische Operatoren
• < bzw. > weniger als bzw. mehr als
• <= bzw. >= weniger oder genauso viel als bzw. mehr oder genauso viel als
• == ist genau gleich
• != ungleich
• isTRUE(x) Test ob x wahr ist
• Vektor- und Matrixoperationen
• %*% Matrixmultiplikation
• t() Transponierte einer Matrix
• Vektoroperationen funktionieren wie arithmetische Rechenoperationen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Basisbefehle
• getwd() Aktuelles Working Directory
• setwd(„C:/Users/John/Desktop“) Working Directory ändern
• ls() Alle Objekte im wd anzeigen
• rm(x) Objekt x entfernen
• rm(list=ls()) Alle Objekte entfernen
• plot(x) Grafik von x erzeugen
• hist(x) Historgamm von x erzeugen
• # Kommentare einfügen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Übungen in RStudio
1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Hausaufgabe Vektoren
Erstellen Sie die Vektoren:
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Hausaufgabe Datenimport und Visualisierung
Importieren Sie den Datensatz trainSPI.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
5
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3 4 6 7 8
1. Hilfe
2. Sequenzen und Zufallszahlen
3. Zuweisung
4. Vektoren
5. Matrizen
6. Listen
7. Data Frames
8. Indexierung
9. Import von realen Daten
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 2: Hausaufgabe Vektoren
Erstellen Sie die Vektoren:
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Rückblick – Übungseinheit 2: Hausaufgabe Matrizen
1 1 3
a) Erstellen Sie die Matrix A = 5 2 6 .
−2 −1 −3
b) Multiplizieren Sie die Matrix A mit dem Faktor 5.
c) Berechnen Sie die Transponierte von A.
d) Berechnen Sie 𝐴! und 𝐴".
e) Ersetzen Sie dritte Spalte von A mit der Summe der zweiten und dritten Spalten.
f) Erstellen Sie eine 6 x 6 Matrix B mit Nullen als Einträge.
g) Füllen Sie die erste Spalte von B mit 1, die zweite und dritte Spalte mit Standardnormalverteilten Zufallsvariablen und
die letzten drei Spalten mit den Werten der Matrix A.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Rückblick – Übungseinheit 2: Hausaufgabe Datenimport
Importieren Sie den Datensatz trainSPI.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Lernziele
Lehreinheit 3: Deskriptive Analyse
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Agenda
Lehreinheit 3: Deskriptive Analyse
• Visualisierungen
• Datenbereinigung
• Deskriptive Statistiken
• KPIs
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Visualisierungen
• Linien- und Balkendiagramme
• Histogramme
• Boxplot
• Scatterplot
• … viele mehr
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Datenbereinigung
• Verschiedene Strukturen fehlender Daten
• Unterschiedliche Herangehensweisen zur Datenbereinigung
𝐹! 𝐹" 𝐹# 𝐹$ 𝐹% 𝐹&
𝑆!
𝑆"
𝑆#
𝑆$
𝑆%
𝑆&
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Datenbereinigung
Missing completely at random (MCAR)
• Kein Zusammenhang zwischen dem Fehlen von Daten und den beobachteten oder unbeobachteten Daten, sondern vollkommen zufällig
(Enders 2010).
• z. B. in medizinischen Studien werden Patienten zufällig einer regulären Gruppen oder einer Placebo Gruppe zugeteilt um die Validität
der Testergebnisse zu gewährleisten.
• Sehr starke Annahme, die in der Praxis nur selten standhält (Rässler 2002).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Datenbereinigung
• Fehlende Daten löschen
• Einzelne Werte löschen
• Spaltenweise löschen
• Zeilenweise löschen
• Kann den Datensatz stark verkleinern oder verzerren
• Einfache Imputation
• Mittelwert Ersetzung
• Modus Ersetzung
• Bei Zeitreihen: Ersetzung durch die letzte oder nächste
Beobachtung
• …
• Multiple Imputation
• Imputation fehlender Werte zur Generierung eines vollständigen Illustration der multiplen Imputation (Nissen et al. 2019)
Datensatzes
• X-fache Wiederholung
• Modellierung und Analyse der vollständigen Datensätze
• Berechnung gemittelter Ergebnisse
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Datenbereinigung
• Fehlende Werte in Zeitreihen (z. B. Sensordaten)
f(t) Observed data Y
f(t) t
Missing / latent data Z
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Datenbereinigung
• Data Augmentation bei Zeitreihen
Augmented data YA
f(t) f(t)
t t
f(t) f(t)
t t
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Datenbereinigung
• Fehlende Werte in Bilddaten (z. B. Qualitätsinspektion mit Bilddaten)
Observed data Y
Real data X
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Datenbereinigung
• Data Augmentation bei Bilddaten
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Datenbereinigung
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Deskriptive Statistiken / KPIs
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Hausaufgabe Deskriptive Analyse
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch sowie tabellarisch und interpretieren Sie die
Ergebnisse.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Literatur
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R,
Springer texts in statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Matloff, N. (2011), The Art of R Programming: A Tour of Statistical Software Design, 1 edn., No Starch Press
• Enders, C. K. (2010), Applied missing data analysis, Methodology in the Social Sciences, Guilford Press, New York.
• Rässler, S. (2002), Statistical matching: A frequentist theory, practical applications, and alternative Bayesian
approaches, Vol. 168 of Lecture Notes in Statistics, Springer, New York, NY.
• Little, R. J. A. & Rubin, D. B. (2002), Statistical analysis with missing data, Wiley series in probability and statistics, 2
edn, Wiley, Hoboken.
• Nissen, Jayson & Donatello, Robin & Van Dusen, Ben. (2019). Missing data and bias in physics education research: A
case for using multiple imputation. Physical Review Physics Education Research.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 25
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 3: Hausaufgaben
Aufgabe 1 - Datenbereinigung:
Analysieren Sie die restlichen Variablen nach fehlenden Werten, wählen Sie eine geeignete Methode zur Bereinigung und
implementieren Sie diese.
Aufgabe 2 – KPIs
Analysieren Sie die Variable QI im Verhältnis zum Preis (Price) graphisch und interpretieren Sie die Ergebnisse.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 4: Unsupervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 4: Unsupervised Learning
• Ziele
• Unterschiedliche Ansätze
• Clustering
• Dimensionsreduktion
• (Assoziationsregeln)
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Ziele von Unsupervised Learning
• Erkennung unbekannter Muster und Assoziationen in einem Datensatz
• Generierung von neuen Informationen bzw. Features (Feature Engineering) als
Vorstufe von Supervised Learning
? !
70% 90%
Accuracy Accuracy
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …
…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Unterschiedliche Ansätze
Unsupervised Learning ! =!2 = 2 ! =!3 = 3 ! =!4
1 1 1 1 1 1
-1 0 1 -1 0 1 -1 0 1
Beispiel k-means Clustering
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Clustering
• Verfahren zur Erkennung von Ähnlichkeitsstrukturen
• Gruppen von ähnlichen Objekten = Cluster
• Unterschiedliche Ansätze
• Partitionierend
(zentrumsbasiert)
• Hierarchisch
• Dichtebasiert
• Gitterbasierte
• Kombinationen
Quelle: https://new.pharmacelera.com/science/clustering-methods-big-library-screening/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
K-Means Clustering
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
K-Means Clustering
0 0 0
-1 -1 -1
-1 0 1 -1 0 1 -1 0 1
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Dimensionsreduktion
• Wenn wir es mit großen Mengen von, möglicherweise korrelierten, Variablen zu tun haben, können wir ML-
Methoden verwenden, um die Dimensionalität zu reduzieren, die es uns ermöglicht, die Informationen, die
sich in einer großen Anzahl von Variablen widerspiegeln, mit einer kleinen Anzahl von repräsentativen
Variablen zusammenzufassen, die den Großteil der Variation im ursprünglichen Datensatz erklären (Jolliffe
2004).
• "Principal Components Analysis" (PCA) ist eine weit verbreitete unüberwachte Lernmethode, um
abgeleitete Variablen (Hauptkomponenten) zu generieren, die eine komprimierte und einfachere
Interpretation eines gegebenen Datensatzes ermöglichen (Bishop 2009).
• Die PCA kann als eine orthogonale Projektion eines gegebenen Datensatzes auf einen
niedrigdimensionalen Hauptunterraum definiert werden, so dass die Varianz der projizierten Daten
maximiert wird (Hotelling 1933).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Dimensionsreduktion
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Unsupervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Literatur
• Bishop, C. M. (2009), Pattern recognition and machine learning, Information Science and Statistics, Springer, New York,
NY.
• Hotelling, H. (1933), ‘Analysis of a complex of statistical variables into principal components’, Journal of Educational
Psychology 24(6), 417–441.
• Jolliffe, I. T. (2004), Principal component analysis, Springer series in statistics, 2 edn, Springer, New York.
• Scholz, M. (2006), Approaches to analyse and interpret biological profile data, Dissertation, University of Potsdam,
Potsdam.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 5: Hausaufgaben
Aufgabe 1 – k-means Clustering:
Analysieren Sie unterschiedliche Anzahl von Cluster k und vergleichen Sie die Ergebnisse.
Wie viele Cluster würden Sie wählen?
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 6: Supervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 6: Supervised Learning
• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Lineare Regression
• Regression Tree
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Ziele von Supervised Learning
• Gesetzmäßigkeiten nachbilden
• Hypothesen formulieren, die eine möglichst präzise Vorhersage ermöglichen
• Das Ziel (Target) ist bekannt und kann zur Evaluation verwendet werden
à Überwacht
Annahmen:
• X ist ein Set aus n Beobachtungen von p verschiedenen Features
𝑌=𝑓 𝑋 + 𝜖
• f bezeichnet eine allgemeine unbekannte Funktion und 𝜖 einen Fehlerterm mit Mittelwert
gleich Null welcher unabhängig ist von X
• Der Output eines Supervised Learning Modell ist
𝑌) = 𝑓* 𝑋
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …
…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Supervised Learning Pipeline
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Supervised Learning Pipeline
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Supervised Learning Pipeline
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Supervised Learning – Evaluation einer Regression
• Um zu beurteilen, wie gut eine überwachte maschinelle Lernmethode für einen gegebenen Datensatz
funktioniert, d. h. wie gut die von der Methode erzeugten Vorhersagen mit den tatsächlich beobachteten
Werten übereinstimmen, benötigen wir eine Reihe von Evaluationsmetriken (Kuhn & Johnson 2016).
• In einem Regressions-Setup bezeichnet der sogenannte "mittlere quadratische Fehler" (MSE) das am
weitesten verbreitete Maß
$
1
𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#
• Der MSE ist immer streng positiv und klein, wenn die Vorhersagen genau sind, und groß, wenn es
erhebliche Abweichungen zwischen den vorhergesagten und beobachteten Beobachtungen gibt (James
et al. 2017).
• Werte des MSE näher an Null sind besser.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Supervised Learning – Evaluation einer Regression
• Der Root Mean Squared Error bezeichnet eine andere weit verbreitete Metrik
$
1
𝑅𝑀𝑆𝐸 = 𝑀𝑆𝐸 = '(𝑦! − 𝑓+ 𝑥! )%
𝑛
!"#
• Der RMSE bestraft große Abweichungen stärker als der MSE, was bei bestimmten Anwendungen hilfreich
sein kann (Theodoridis 2015).
• Wenn eine Vorhersage, die um 10 Einheiten falsch liegt, mehr als doppelt so „schlimm“ ist wie eine
Abweichung von 5 Einheiten, ist der RMSE zur Bewertung der Leistung der ML-Methode besser geeignet
als der MSE.
• Wenn ein Vorhersagefehler von 10 Einheiten genau doppelt so „schlimm“ ist wie ein Fehler von 5
Einheiten, sollte der MSE bevorzugt werden.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting
• In der Realität sind wir oft mehr daran interessiert, wie gut die
Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et
Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error
Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models
zu erfassen.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Lineare Regression
• Die sogenannte "lineare Regression" bietet einen sehr einfachen Ansatz
für überwachtes Lernen in einer Regressionsumgebung (Hastie et al.
2017). Sie geht davon aus, dass die Beziehung zwischen der Ausgabe Y
und einem Eingabevektor X linear ist und modelliert werden kann als
• Die Schätzung der Parameter 𝛽!, 𝛽!, … , 𝛽! beinhaltet die Minimierung der
Summe der quadrierten Residuen (RSS)
'
𝑅𝑆𝑆 = ,(𝑦% −𝑦0% )#
%&"
'
2! + 𝛽
𝑅𝑆𝑆 = ,(𝑦% − 𝛽 2 2 2
" 𝑥%" + 𝛽# 𝑥%# + ⋯ + 𝛽$ 𝑥%$ )
#
%&"
• Die Abbildung zeigt eine lineare Regression mit p = 2. In diesem
Beispiel wird die Regression der kleinsten Quadrate zu einer Ebene, die
die Summe der quadrierten Fehler minimiert, die als vertikale Abstände
zwischen jeder Beobachtung (rote Punkte) und der Ebene angegeben
werden.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Regression Tree
• Baumbasierte Methoden für Regression (und Klassifikation)
beinhalten eine Splittung bzw. Segmentierung des
Prädiktorraums in eine Anzahl einfacher Regionen.
• Um eine Vorhersage für eine bestimmte Beobachtung zu
treffen, verwenden wir normalerweise den Mittelwert oder den
Modus der Trainingsbeobachtungen in der Region, zu der sie
gehört.
• Die Splittingregeln zur Segmentierung des Prädiktorraums
können in einem Baum zusammengefasst und dargestellt,
sodass dieser Ansatz als Entscheidungsbaummethode
bezeichnet wird.
• Baumbasierte Methoden sind simpel und einfach zu
interpretieren.
• Sie sind jedoch in der Regel nicht konkurrenzfähig mit
komplexeren Ansätzen des überwachten Lernens, wie z. B.
neuronale Netze was die Vorhersagegenauigkeit angeht.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Supervised Learning - Regression
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 23
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks
• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.
• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 24
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Regression
Classification
- Low training error - Training error slightly lower - High training error
Properties - High test error than test error - Training and test error close
to eachother
- Solutions: Use regularization
or aquire/generate more - Solution: Use more
data complex/nonlinear models
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Rückblick – Übungseinheit 6: Hausaufgaben
Aufgabe 1 – Supervised Learning - Regression:
Vergleichen Sie die Ergebnisse der linearen Regression und dem Regression Tree.
• Welches Modell würden Sie bevorzugen?
• Welche Features sind die wichtigsten?
• Wie würden Sie das lineare Modell überarbeiten? Wenn ja, wie?
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Lernziele
Lehreinheit 7: Supervised Learning
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Agenda
Lehreinheit 7: Supervised Learning - Klassifikation
• Ziele
• Unterschiedliche Ansätze
• Pipeline und Evaluation
• Logistische Regression
• Entscheidungsbaum
• Random Forest
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Unterschiedliche Ansätze
Machine Learning (ML)
Machine Learning
Supervised Unsupervised
Learning Learning
Dimension
Regression Classification Clustering Association Rules
Reduction
- Naive Bayes
- Linear Regression - Logistic Regression - k-Means
- k-Modes - Principal
- Regression Trees - Classification Trees
Components (PCA) - Apriori
- Support Vector - k-Nearest Neighbors - k-Prototypes
- Dynamic Factor - Euclat
Regression (SVR) - Support Vector - Hierachical
- Canonical Correlations - FP-Growth
- Ensemble Methods Machines (SVM) - Gaussian Mixture
… …
- Neural Networks - Ensemble Methods - Neural Networks
… - Neural Networks …
…
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Unterschiedliche Ansätze
Supervised Learning User ID Gender Age Salary Purchased
15529278 Male 19 19.000 € 0
15521411 Female 56 140.000 € 1
• Daten bestehen aus einem Input Vektor x mit den 12241263 Male 31 56.000 € 1
15399087 Male 28 52.000 € 0
dazugehörigen Target Vektor y
15526481 Female 32 55.000 € 0
à Annotierte bzw. gelabelte Daten { x, y } 11529000 Female 41 43.000 € 0
18761178 Female 44 90.000 € 1
• Ziel ist es y so präzise wie möglich vorherzusagen 10100872 Male 60 76.000 € 1
14309811 Female 21 35.000 € 1
• Unterscheidung zwischen Regression und Klassifikation 16651234 Female 29 62.000 € 0
Beispiel Binäre Klassifikation
• Regression: y ist numerisch, z. B.:
• Linear Regression Temperature Pressure Humidity Wind Direction Wind Speed
10,87 986,01 54,12 North 3,12
• Regression Trees 18,73 987,08 38,01 East 2,98
• Support Vector Regression (SVR) 32,10 988,31 42,47 North 2,76
25,38 984,61 54,12 West 1,29
• Neural Networks 32,01 984,37 36,76 North 2,44
10,98 985,87 23,12 South 2,54
• Klassifikation: y ist kategorial, z. B.: 8,39 984,12 27,11 North 2,76
• Naive Bayes 18,11 990,74 38,87 East 2,87
20,09 989,15 21,98 North 2,01
• Logistic Regression 24,33 987,35 32,17 West 2,53
• Classification Trees Beispiel Regression
• k-Nearest Neighbors
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Supervised Learning Pipeline
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Supervised Learning – Evaluation einer Klassifikation
• In einem Klassifikations-Setting, in dem 𝑦!, … , 𝑦" ein kategoriales Ziel ist, werden die Ergebnisse oft in einer
sogenannten Konfusionsmatrix dargestellt.
• Die am häufigsten verwendete Metrik zur Messung der Performance von 𝑓$ ist die sogenannte "Fehlerrate" bzw. „Error
Rate“ (ER)
"
1
𝐸𝑅 = + 𝐼 𝑦# ≠ 𝑦.#
𝑛
#$!
• 𝐼 𝑦# ≠ 𝑦.# bezeichnet eine Indikatorfunktion die den Wert Eins annimmt, wenn 𝑦# ≠ 𝑦.# und Null wenn 𝑦# = 𝑦.# .
• Dementsprechend berechnet die ER den Anteil der Fehlklassifikationen und kann in der gleichen Notation wie in der
obigen Tabelle ausgedrückt werden:
𝐵+𝐶
𝐸𝑅 =
𝐴+𝐵+𝐶+𝐷
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Supervised Learning – Evaluation einer Klassifikation
• Analog zur ER misst die „Accuracy“ (ACC) die Anzahl der korrekt klassifizierten Beobachtungen.
𝐵+𝐶
𝐴𝐶𝐶 = 1 − 𝐸𝑅 = 1 −
𝐴+𝐵+𝐶+𝐷
• ACC und ER sind geeignete Maße, wenn die Klassen ungefähr ausgeglichen sind, z. B. 55 % von 𝑦# = 1 und 45 % von
𝑦# = 0.
• Wenn die Zielvariable stark unausgewogen ist, liefern diese Maße verzerrte Ergebnisse (James et al. 2017).
• In diesem Fall sollte die sogenannte „Precision“ oder „Recall“ genutzt werden.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Supervised Learning – Over- and Underfitting
• Evaluationsmetriken werden mit einem Teildatensatz
berechnet, der zum Trainieren des Algorithmus verwendet
wurde - den Trainingsdaten. Overfitting Adequate Underfitting
• In der Realität sind wir oft mehr daran interessiert, wie gut die
Regression
ML-Methode auf zuvor ungesehenen Daten - den Testdaten -
funktioniert (Schutt 2014).
• Während der Trainingsphase erzeugen viele ML-Methoden
Parameterschätzungen, die darauf abzielen, die Leistung auf
dem Trainingsset zu minimieren. Allerdings ist die
Performance auf der Testmenge oft viel schlechter (James et
Classification
al. 2017).
• Dieses Szenario, bei dem die ML-Methode die Trainingsdaten
zu gut modelliert und auf neuen Daten schlecht abschneidet,
wird als Overfitting bezeichnet (linke Abbildung).
• Die rechte Abbildung zeigt ein Beispiel für Underfitting, bei - Low training error - Training error slightly lower - High training error
Properties
dem sowohl der Trainings- als auch der Testfehler sehr hoch - High test error
than test error
- Training and test error close
to eachother
sind. In einem solchen Fall ist die gewählte ML-Methode - Solutions: Use regularization
or aquire/generate more - Solution: Use more
möglicherweise nicht geeignet, um die Dynamik in den Daten data complex/nonlinear models
zu erfassen.
Quelle: Eigene Darstellung basierend auf Amidi & Amidi (2018)).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Logistische Regression
• Eine sehr beliebte ML-Methode für Klassifikationsprobleme ist
die "logistische Regression", die in einem binären Setting die
Wahrscheinlichkeit, dass Y entweder den Wert Null oder Eins
annimmt, abhängig von einer Menge von Merkmalen X
modelliert, d. h.
𝑝 𝑋 = Pr 𝑌 = 1 X )
• Dabei wird p(X) durch eine lineare Regression modelliert:
𝑒 %!&%" '"&%#'#&⋯&%$'$
p X =
1 + 𝑒 %!&%" '"&%#'#&⋯&%$'$
𝑝(𝑋)
log = 𝛽) + 𝛽! 𝑋! + 𝛽*𝑋* + ⋯ + 𝛽+ 𝑋+
1 − 𝑝(𝑋)
• Dies erzeugt eine Vorhersagekurve, die nichtlinear ist und nur
Werte zwischen Null und Eins annehmen kann, was für eine
binäre Klassifikation geeignet ist.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Classification Tree
• Classifcation Trees funktionieren sehr ähnlich wie
Regression Trees und beinhalten eine Splittung bzw.
Segmentierung des Prädiktorraums in eine Anzahl
einfacher bzw. reiner Regionen.
• Bei Klassifikationsbäumen werden Vorhersagen generiert,
indem jede Beobachtung zu der am häufigsten
vorkommenden Klasse der Trainingsbeobachtungen in der
Region gehört, zu der sie gehört (bei Regressionsbäumen
wird der Mittelwert der entsprechenden Region genutzt).
• Als Splitting Regel wird die Klassifizierungsfehlerrate
gewählt. Diese ist einfach der Anteil der
Trainingsbeobachtungen in einer Region, die nicht zur
häufigsten Klasse gehören:
𝐸 = 1 − max 𝑝̂-,
,
• Dabei stellt 𝑝̂-, den Anteil der Trainingsbeobachtungen in
der m-ten Region dar, die aus der k-ten Klasse stammen.
• Wenn die tatsächliche Decision Boundary linear ist,
funktioniert die logistische Regression besser (oben links).
• Wenn die Decision Boundary nichtlinear ist, sollten u.a.
Classification Trees bevorzugt werden.
Quelle: (James et al. 2017, S.315).
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Random Forest
• Ein Random Forest besteht aus einer Vielzahl
von Entscheidungsbäumen.
• Dabei wird bei jedem Baum zufällig ein Teil
der Daten weggelassen (zeilen- und
spaltenweise).
• Dadurch generieren viele „schlechte“
Klassifikatoren ein gutes und robustes
Ergebnis indem alle Bäume mehrheitlich über
das Endergebnis abstimmen.
• Nicht intuitiv: Die Einführung von Zufälligkeit
führt zu einem stabileren und besseren
Ergebnis.
• Random Forests sind sehr beliebte ML-
Modelle und generieren in vielen Situationen
sehr gute Ergebnisse.
Quelle: https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Supervised Learning - Klassifikation
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 19
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1= IO, 0 =niO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = IO, 0 = niO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 20
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 21
Literatur
• Amidi, A. & Amidi, S. (2018), ‘Machine learning tips and tricks cheatsheet’. https://stanford:edu/~shervine/teaching/cs-229/cheatsheet-
machinelearning-tips-and-tricks
• Hastie, T., Tibshirani, R. & Friedman, J. H. (2017), The elements of statistical learning: Data mining, inference, and prediction, 2 edn,
Springer, New York, NY.
• James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017), An introduction to statistical learning: With applications in R, Springer texts in
statistics, 8 edn, Springer, New York, Heidelberg, Dordrecht and London.
• Kuhn, M. & Johnson, K. (2016), Applied predictive modeling, 5 edn, Springer, New York.
• Theodoridis, S. (2015), Machine learning: A Bayesian and optimization perspective, 1 edn, Elsevier, London.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 22
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Übungseinheit 8: GUI
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Lernziele
Lehreinheit 7:GUI
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Agenda
Lehreinheit 8: GUI
• User Interface
• Server
• Okjekte
• Architektur
• Dynamische Funktionen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Aufbau einer R-shiny App: User Interface
Header
• Body: kann mehrere Tabs umfassen, die über die Sidebar ausgewählt
werden. Jeder Tab kann durch Boxen (Bootstrap Layout) gegliedert UI Teil
werden. Boxen können Tab spezifisch oder übergreifend sein. Tabs und
Boxen können Objekte beinhalten.
Header
• Das Tab Layout kann Zeilen- oder Spalten-basiert sein (oder gemischt) Sidebar
Body
• Durch Icons, zusätzliche Parameter (Farbe) und CSS Files (Schrift)
kann die UI individualisiert werden [4]
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
Aufbau einer R-shiny App: Server
• Im Server Teil werden die Funktionen und Interaktionen der Elemente der App bestimmt
• Nimmt Input Variablen aus dem UI Teil entgegen oder verwendet geladene Daten und erzeugt
Output Variablen (mittels render- Funktionen), die im UI Teil verwendet werden um eine
graphische Ausgabe zu erzeugen
Daten
Input Variablen
Output Variablen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
Aufbau einer R-shiny App: Objekte
• Objekte wie Plots, Texte, Tabellen, Graphiken (Output Elemente) und Buttons,
Ankreuzboxen, Schieberegler, Dropdown Auswahl, Felder für numerischen oder Text Input
(Input Elemente) können der App hinzugefügt werden
• Um ein Output Objekt einzubinden, muss ein Output-Befehl an der gewünschten Position
im UI Teil und ein entsprechender render-Befehl im Serverteil existieren, der die
zugehörigen Input- und Output-Variablen miteinander verknüpft
textOutput() renderText()
plotOutput() renderPlot()
tableOutput() renderTable()
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Architektur
Entwickler User
Prognose.R
app.R
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Reaktive Umgebungen
• Reaktive Umgebungen können verwendet werden um Output bedingt nach dem User Input in
Echtzeit zu aktualisieren
• Wichtig: Überprüfe, ob das neue laden von Daten in einer reaktiven Umgebung wirklich
notwendig ist, da die Anwendung sonst schnell ineffizient wird.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Hausaufgabe shiny App zur Qualitätsprüfung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötpaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Hausaufgabe shiny App zur Qualitätsprüfung
• Erstellen Sie einen neuen Ordner für die App und legen Sie die benötigten Daten darin ab
• Bennenen Sie das R File DIGIP-T-07_Aufgabe.R in app.R um und lassen Sie es durchlaufen
• Ergänzen Sie eine zweite Box mit der Confusionmatrix und Accuracy der Methode des
Klassifikationsbaums (neben der für die logistische Regression)
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Gestaltungsmöglichkeiten
• Für weitere graphische Objekte (z.B. Karte, Bestenliste) gibt es diverse große und kleine
Bausteine
• Apps für unterschiedliche Zwecke können von Vorlagen kopiert und modifiziert werden [2]
Bilder: Restaurant Prognose Spiel, ausgestellt am Fraunhofer SCS an der Langen Nacht der Wissenschaften 2019 von Claudia Ehrig
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17
Literatur
(1) https://shiny.rstudio.com
(3) https://learn.datacamp.com/courses/building-dashboards-with-shinydashboard
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 18
Fakultät
Maschinenbau und Versorgungstechnik
Digitalisierung
industrieller Prozesse
Übungseinheit 9: Deployment
Christian Menden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik
Copyright Christian Menden
- Darf nur im Rahmen der bestimmungsgemäßen Lehrveranstaltungen verwendet und vervielfältigt werden. Seite 1
Rückblick - Roter Faden durch die gesamte Veranstaltung
1 • Artificial Intelligence (AI)
• Machine Learning (ML)
Data Science Grundbegriffe • Deep Learning (DL)
• Data Science
• Analytics
6
Datensatz
1 Supervised
Datenimport Visualisierung Daten- Deskriptive Unsupervised Learning Optimierung GUI Deployment
bereinigung Analyse Learning
Regression
Datensatz
2
Klassifikation
…
Datensatz
n
2 3-4 5 7 8 9
Entwickler User
Prognose.R
app.R
UI Teil Serverteil
textOutput() renderText()
plotOutput() renderPlot()
tableOutput() renderTable()
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 3
Besprechung der Hausaufgabe
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 4
Lernziele
Lehreinheit 9: Deployment
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 5
Agenda
Lehreinheit 9: Deployment
• Cloud Computing
• Shinyapps.io
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 6
Cloud Computing
• Unter Cloud Computing versteht man die Bereitstellung von IT-Services durch eine
Plattform im Internet, deren Nutzung ohne vorherige Vertragsabsprache möglich ist (on
demand) und nur genutzte Leistungen in Rechnung gestellt werden (pay-as-you-go)
• Das Cloud Computing bietet eine Möglichkeit zum Deployment einer Applikation und wird oft
als Gegenteil von lokalem (on-premises) Deployment genannt. Hybride Lösungen sind
gängig.
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 7
AWS Compute Services
Datenstrom
• Compute Services von AWS sind Amazon Elastic Compute Cloud
(EC2) und Amazon Lightsail
Compute Service
(z.B. EC2)
• Ein Compute Service nimmt Datenströme der Entwickler und
User entgegen und kann auf Objekte aus einem Objektspeicher
und Daten aus einer Datenbank zugreifen Objektspeicher Datenspeicher
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 8
AWS Compute Services
• Zum Deployment einer Web App eignet sich z.B. eine AWS EC2 Instanz
• Eine EC2 Instanz ist ein reservierter virtueller Server mit flexibel einstellbarer
Kapazität, der je nach Nutzung bezahlt wird [3]
• Die Hardware und die zugehörige Kapazität einer EC2 Instanz können über das
Amazon Machine Image (AMI) konfiguriert und nachträglich angepasst werden:
• Betriebssystem und installierte Anwendungen
• Instanztyp (Rechen-, Arbeits- und Datenspeicher- und Netzwerkeigenschaften)
• Nach dem Launch und Status Checks kann die Web App über die öffentliche IP-
Adresse abgerufen werden
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 9
Shinyapps.io
• Shinyapps.io ist ein Anbieter für Cloud Services speziell für das Deployment
von shiny Apps
• Eine Schnittstelle zu shinyapps.io ist bereits in R Studio integriert („easy button“ )
• Eine genaue Anleitung befindet sich im Dashboard des Accounts oder auch hier [6]
• Die App ist dann über die zugewiesene HTTPS Adresse öffentlich zugänglich (der
Account- und Ordnername erscheinen in der Adresse)
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 10
Shinyapps.io
Die Verwaltung und das Monitoring der App erfolgt im shinyapps.io Account
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 11
Hausaufgabe Deployment der Web App zur Qualitätsprüfung
• Legen Sie sich einen Account auf shinyapps.io an (nur E-Mail Adresse und Accountname
erforderlich) [5]
• Wählen Sie als Account Namen:
https:// DIGIP-T-Nachname .shinyapps.io
• Folgen Sie der Anleitung auf Folie 10 um Ihre shiny Web App mit shinyapps.io zu deployen
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 12
Vielen Dank für
die Aufmerksamkeit
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 13
Literatur
(1) Free AWS Coursera Kurs: https://www.coursera.org/learn/aws-fundamentals-going-cloud-native?isNewUser=true
(5) https://www.shinyapps.io/admin/#/login
(6) https://statsandr.com/blog/how-to-publish-shiny-app-example-with-shinyapps-io/
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 14
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Datensatz
1
Machine
Learning
Datensatz
2
…
Datensatz
n
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 15
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
• Lötpasteninspektion (SPI: Solder Paste Inspection) während der Fertigung, optionale Röntgenprüfung danach
• Ziel: Reduzierung der Röntgenendprüfung durch gute Vorhersagen aus SPI-Daten mittels ML
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 16
Beispiel einer Data Science Anwendung
Anwendungsbeispiel - Qualitätsprüfung von Leiterplatten
Dateneigenschaften
• Ein Datenpunkt = Ein Board
• Lötpasteninspektion Messungen:
• ID = Laufende Nummer
• QI = Qualitätsprüfung (1=nIO, 0 =iO)
• Machine = Maschinen-ID
• PreCheck = Erstes Prüfergebnis vor Löten (1 = nIO, 0 = iO)
• NumberPins = Anzahl der Pins pro Board
• BoardID = Board Nummer
• Price = Endpreis in Euro
• BoardCategory = Board Klassifikation (nicht näher bekannt…)
• MaterialOrigin = Herkunft der Lötspaste (S = Singapur, C = China, Q = Qatar)
• …
Technische Hochschule Nürnberg – Fakultät Maschinenbau und Versorgungstechnik Christian Menden Seite 17