Beruflich Dokumente
Kultur Dokumente
- Sie vereinen Kompetenzen, Fähigkeiten und Lernaufteilungen, welche dazu notwendig sind,
um erfolgreich im 21. Jahrhundert und im Arbeitsleben (Lehrer, Führungskräfte, Akademiker
und Staatliche Einrichtungen). Wichtige Kompetenzen um erfolgreich in der sich schnell
verändernden digitalen Gesellschaft. Auch: Deeper learning (Fähigkeiten wie, analytisches
Denken, komplexe Probleme lösen, Teamwork). Unterschied zu akademischen Kompetenzen:
nicht fokussiert auf Inhalte kennen
- Nicht primär auf Wissen basiert! (analytische und Softskills)
- Lernkompetenzen: kritisches Denken, Kreativität, Kollaboration, Kommunikation
- Literarische Fähigkeiten: Information, Media, Technologie (Umgang damit)
- Lebensfähigkeiten: Flexibilität, Führerschaft, Initiative, Produktivität, Soziale Kompetenzen
Kritisches Denken:
- Jene Art des Denkens (gültig für alle Gegenstände, Inhalte oder Probleme), bei der eine
Person die Qualität ihres Denkens steigert
Ergebnis von kritischem Denken: (5 Stück)
Stellt vitale Fragen zur Diskussion und formuliert sie klar und exakt
Sammelt und sichert relevante Information und interpretiert sie wirkungsvoll mit Hilfe
abstrakter Ideen
Kommt zu durchdachten Schlussfolgerungen/Lösungen und misst diese an objektiven
Kriterien und Normen
Tritt abweichenden Denkweisen mit offenem Geist gegenüber und behandelt/beurteilt
deren Annahmen, Folgen und Konsequenzen sachgerecht
Kommuniziert gut, um Lösungen für komplexe Probleme zu ermöglichen
Bullshit
- Ein Lügner kennt die Wahrheit und versucht andere vom Gegenteil zu überzeugen
- Ein Bullshitter kennt die Wahrheit nicht, oder sie ist ihm egal und er versucht nur
überzeugend zu sein
- BS umfasst Sprache, statistische Zahlen, Grafiken, uvm., welche die Wahrheit missachten,
keine logische Kohärenz zu Thema aufweist oder ohne tatsächliche Infos, um zu
beeindrucken, überwältigen oder zu überreden
- Es ist einfach Bullshit in die Welt zu setzen, aber sehr schwer, wieder aus der Welt zu
schaffen (Asymmetrie von BS: Brandolini´s Law)
- „ If a claim seems too good – or too bad – to be true, it probably is“
- Cheatsheet für kritisches Denken: (Wie forscht man nach?)
BS mit Data
- Korrelation: Zwei Variablen sind korreliert, wenn das Wissen über den Wert der einen
Variable Informationen über den wahrscheinlichen Wert der anderen Variable gibt
- Kausalität: zwei Variablen sind kausal verbunden, wenn eine Variable Einfluss auf die andere
hat, durch einen cause-and-effect Prozess (Ursache – Wirkung)
- In den meisten Fällen basiert Bullshit in AI/ML auf voreigenommenen Daten anstelle von
rassistischen Menschen
- BS ohne Statistik = „Old School BS“
- Wissenschaftliche Methode Reihenfolge:
1. Erkenne das Problem
2. Formuliere eine begründete Vermutung/Hypothese
3. Sage die Konsequenzen der Hypothese voraus
4. Führe Experimente durch, um die Vermutung zu testen
5. Analysiere die Daten und ziehe Schlussfolgerungen daraus
6. Kommuniziere die Ergebnisse
Fragen Mentimeter:
- Neugier ist laut OECD kein learning Skill des 21. Jhd.
Kreativität, kritisches Denken, Kollaboration und Kommunikation sind es
- Medien werden im Rahmen der digitalen Kompetenzen abgedeckt (literacy skills)
- Die Energie Bullshit zu widerlegen ist deutlich höher als Bullshit zu erzeugen (Brandolini´s
Law) zeigt auch die Asymmetrie von Bullshit
- Ein Lügner kennt die Wahrheit und will andere von etwas anderem überzeugen (unterstellt
Absicht)
- Ein Bullshitter kennt die Wahrheit entweder nicht oder ist nicht an dieser interessiert und will
nur überzeugend sein
- BS umfasst Sprache, statistische Daten, jegliche Art von Daten, statistische Grafiken
- Old School Bullshit umschreibt Dinge positiver als sie sind, keine Nutzung von Daten
Statistiken etc.
- SAP ist im CRM Bereich ein Konkurrenzprodukt zu Salesforce
- Microsoft Power BI ist ein Konkurrenzprodukt zu Tableau
- SAS Institute konkurrieren mit Rapidminer im Bereich Data analytics
2 Data Handling
Soziale Medien
- Der versteckte Einfluss von SM: Soziale Anerkennung, Homophilie, „Small World“ (6 Pfade
zur nächsten Person) man braucht nicht viel Pfadlängen, um von der einen zur nächsten
Person zu kommen
Laut Facebook nur knapp 4 Pfadlängen
Small World: 6 Pfade bis zur nächsten Person (bei Facebook nur 4)
Shitstorm
- 5 Shitstorm-Tipps: (1) Fehler sind Menschlich (2) Sei wachsam: in Echtzeit SM und Kanäle
überwachen (3) Der Notfallplan (4) Augen zu und durch: Kritik annehmen und Verständnis
zeigen (5) Ziehe ein Fazit
Social Listening (durch Unternehmen)
- Corporate Influencer (kann jeder sein): CEO, GF, Gründer, Experten in div. Communities,
PR/Kommunikationsmitarbeitende, CI von extern, Mitarbeitende aller Bereiche, Externe
Influencer in Kooperation (Experten, Prominente, Mikro-Influencer)
Elon Musk als Corporate Influencer (Person of the year nach der NY Times)
Oft Hashtags
Cyberbullying:
- Daten = neues Öl
Social Score:
- SCHUFA: Kreditwürdigkeit als Zahl (je höher Score, desto geringer Einschätzung des Risikos
für Zahlungsausfall; 100 ist bester Wert)
- Chinas Social Score Werkzeug: Social Input (Strafregister, Beachtung von Regeln,
ehrenamtliche Tätigkeiten etc.), Traditional Input (Kredite, Einkommen etc.), Online Input
(online Interaktionen, Kaufverhalten etc.)
Versicherungsvorteile
Längere Internetnutzung
- Was kann ein U intern tun, um mit den Daten, die man von Kunden hat, vernünftig um zu
gehen -> Datenmanagementkonzept, mit dem Ziel, möglichst hohe Qualität der Daten zu
produzieren, über den gesamten Lebenszyklus der Daten. Aspekte: Verfügbarkeit, Art u.
Weise der Nutzung der Daten, Integrität und Sicherheit der Daten
- Data governance enthält keine Regierung
- Ziele für Unternehmen:
Erhöhen der Konsistenz und des Vertrauens in Entscheidungsfindung
Minimieren des Risikos von Bußgeldern
Verbessern der Data Security
Maximierung des Einkommensgenerierungspotentials von Daten
Festlegung der Rechenschaftspflicht für die Qualität der Informationen
Bessere Planung durch Aufsichtspersonal
Minimierung oder Eliminierung von Überarbeitung
Optimieren der Mitarbeitereffizienz
Prozess performance Grundlagen einführen, um Verbesserung zu ermöglichen
Den gesamten Zuwachs anerkennen und halten
- Den Nutzern wird mehr Recht gegeben -> Regulierung des Datenschutzes innerhalb der EU
- Personenbezogene Daten dürfen nach Vertrag, Zustimmung, öffentlicher Aufgabe, vitalem
Interesse und berechtigtem Interesse verarbeitet werden
- Anforderungen der GDPR/DSVGO: Rechtmäßige Verarbeitung, Informationspflichten,
Betroffenenrechte, Datenschutzmanagement
- Nutzer haben Recht auf Löschung
- DSGVO beinhaltet Informationspflichten
- Um Daten verarbeiten zu dürfen genügt eine Einwilligung
- Verstöße müssen gemeldet werden
- H&M wurde im Rahmen der EU-DSGVO mit einer Geldbuße von 35 Mio. belegt, weil
unzureichende Rechtsgrundlage für die Datenverwaltung
Social Credit System in China
- Anzahl der Kinder nicht Teil des Social Credit Systems von China
3 Data Encryption
Datenintegrität / Verschlüsselung
- Ziel ist es, unbeabsichtigte Änderungen von Informationen zu verhindern
- Sie gewährleistet die Genauigkeit und Konsistenz von Daten über ihren gesamten
Lebenszyklus
- Die Datenvalidierung ist eine Voraussetzung für die Datenintegrität
- Menschliches Versagen kann zum Versagen der Datenintegrität führen
- Unbeabsichtigte Änderung von Daten, die zu einem Ausfall der Datenintegrität führen kann:
Menschliches Versagen, Unerwarteter Hardwarefehler, Böswillige Absicht,
Verarbeitungsvorgang
Symmetrische Verschlüsselung:
- Nur private/secret key
- Wer Schlüssel hat kann Daten verschlüsseln, lesen und verändern
- Wichtig: darauf achten, wer einen Schlüssel bekommt (Person kann viele Keys produzieren)
Asymmetrische Verschlüsselung:
- 2 Schlüssel: private und public key
- Wer private oder public key hat kann Daten verschlüsseln
- Nur wer den anderen Key hat kann Daten lesen
- Person kann sehr viele Schlüssel generieren
- Manipulation deutlich schwieriger
- Wer public Key hat kann Daten verschlüsseln, die nur Person mit private key lesen kann
- Wer private key hat kann Daten verschlüsseln, die jeder mit dem public key lesen kann
Hash-Funktion
- Erzeugt aus einem beliebig langen Text einen Hash-
Wert fester Länge
- Wer den Public Key hat, kann Daten verschlüsseln, die nur die Person mit Private Key lesen
kann. Wer den Private Key hat, kann Daten verschlüsseln, die jede Person mit Public Key
lesen kann. Eine Person kann viele Schlüssel generieren
Ergo: der Hash-Wert des Dokuments (erzeugt durch Hash-Funktion) wird mit private
key asymmetrisch verschlüsselt (erzeugt verschlüsselten Hash-Wert), der mit Hilfe des
public key überprüft/gelesen werden kann
Bitcoin
- Proof of Work
• = Miner d. nachweist, dass das was getan wurde, einzigartig u. gut ist u. schnell v. anderen
überprüft werden kann (Bei Blockchain ist es das Lösen d. Matherätzels)
• Stellt sicher, d. man einen bestimmten Aufwand hatte, um diesen Block zu schreiben
• Math Puzzle: Finding a „Nonce“
Viel Rechenaufwand reinzubringen, wenn es drum geht einen neuen Block zu schürfen;
Wenig Rechenaufwand, wenn man es überprüfen will
• Im Netzwerk konkurrieren „Miner“ um den nächsten Block
Smart Contracts
- = Eine Software, d. d. Dinge d. man mit einem Objekt machen kann in Softwares gießt.
Automatische Software, unter bestimmten Bedingungen (vgl. Vertrag). Man will keine
zusätzlichen Kosten u. Mittelsmann. Die Intelligenz steckt i. d. Software. Es geht um d.
Dokumente u. deren Weiterverarbeitung.
- Kein Vermittler benötigt
- Automatische Überprüfung und Bearbeitung der Anfrage
- Vorteile Smart Contracts:
Speicherung auf public ledger
Alle Parteien bleiben anonym
Vertrag überprüft sich selbst
Schneller, billiger, sicherer
- Vorteile: Anonymisiert, relativ sicher, akkurate Datenhaltung, relativ performant,
kosteneffektiver, vertrauenswürdiger, man kann nicht richtig eingreifen
- Digitial Transformation is happening: Unvorstellbare Ideen zu der Zeit. Wenn du Ideen hast,
setz dich durch. -> Unternehmerisches Denken
Startups
- Ein kürzlich gegründetes Unternehmen (nicht älter als 10 Jahre) mit innovativer
Geschäftsidee und hohem Wachstumspotenzial
- Startups sind v.a. in Informations- und Kommunikationsbranche zu finden
- Einhorn-Startups: Unternehmen, die höher bewertet werden als 1 Milliarde USD (zurzeit ca.
500, 1/3 aus China) z.B. Bytedance (TikTok), SpaceX etc.
China und USA haben die meisten Unicorns
- Ca. 15% Frauenanteil bei den Gründern
- Insgesamt ca. 500 Unicorns
Zweiseitig: alle Plattformen: Amazon, Kickstarter, Crowdfunding, Alibaba etc. (Käufer und
Verkäufer)
N-seitig: alle Betriebssysteme (wenn es Apps dafür gibt, Bereitsteller, Nutzer und
Appentwickler: Android, IOS etc.)
2-seitige Märkte
= Teil des informellen Arbeitsmarktes, bei dem zeitlich befristete Aufträge an Arbeitssuchende
vergeben werden
Crowdfunding:
- Zweiseitiger Markt
- Gegenstück zu Crowdsourcing
- Kickstarter
Sharing Economy
Wasserfall-Modell
Wasserfall-Modell mit 4 Phasen
-
Kanban ist eine Methode in der Softwareentwicklung, bei der die Anzahl paralleler Arbeiten, der
Work in Progress (WiP), begrenzt und somit kürzere Durchlaufzeiten erreicht und Probleme
– insbesondere Engpässe – schnell sichtbar gemacht werden sollen.
Tesla:
- 30 Änderungen in der Woche
Produkt A Produkt B
6 Technology Management
Möglichkeiten:
1) Bewertungen von anderen nehmen (Gartner Hype-Zyklus)
2) Selbst Szenarien überlegen (Szenariotechnik)
3) An Megatrends orientiern (Strategy planning)
4) Moonshot Blueprint von Google (nur bei riesigen Problemen, radikalste Lösung)
4 Phase:
1) Zielfestsetzung
2) Umfeldanalyse (Störgrößen etc.)
3) Szenarioerstellung (Bewertung, Clustering)
4) Ergebnisanalyse (Handlungsfelder, Roadmapping)
WICHTIG: Merkliste
Z.B. unerwünschte Tiere (Rehkitze auf Feld), Anzahl von Früchten, Säuregehalt vom
Boden (wichtig für Weinanbau)
ML: Computer Systeme, die auch ohne explizite Anweisung lernen und sich anpassen
können, indem sie Algorithmen und statistische Modelle heranziehen, die Muster in
Daten analysieren und daraus Ableitungen treffen können
Deep Learning: Teilmenge von ML, die auf NN basiert und mindestens 2 Hidden Layers
haben muss
Aufbau:
Jeder Knoten (Neuron) ist mit jedem Knoten (Neuron) der nächsten Schicht verbunden
Neuronale Netzwerke sind zentraler Baustein für Deep Learning (mehrere hidden
Layer!)
Viele verschiedenen Architekturen, die anhand der Datenstruktur, dem Dateninhalt und
der Aufgabenstellung ausgewählt werden
Neuronale Netze werden durch Trainingsdaten trainiert und durch Testdaten verifiziert
Lernen beim Training erfolgt durch Backpropagation mit Hilfe einer Verlustfunktion
(also wie viele wurden richtig erkannt usw. (Loss/Cost))
Jedes Neuron enthält eine Zahl zwischen 0 und 1, die die Helligkeit angibt (je näher an
1, desto weißer; umso weißer, desto heller und formt damit eine Zahl)
Die Zahl zwischen 0 und 1 heißt „Aktivierung“ (z.B. 0,5 wäre grau)
Die 784 Pixel/Neuronen bilden die erste Schicht des neuronalen Netzwerks (Input-
Layer) „flatten“
Die letzte Schicht besteht hier aus 10, da die zu ermittelnde Zahl zwischen 0 und 9 liegt
(Output-Layer)
In der Mitte liegen die „versteckten Schichten“ Hidden Layer
Die Aktivierungen der einen Schicht aktivieren die Neuronen in der nächsten Schicht
Die mittleren Schichten können trainiert werden, indem sehr viele Inputs gemacht
werden
- Berechnung:
Die Gewichtung kann positiv oder negativ sein (meist zwischen -1 und 1)
Gibt an ab wie hoch das Gewicht sein muss, bevor das Neuron aktiviert wird
Ein Neuron ist quasi eine Funktion, die einen Wert zwischen 0 und 1 ausgibt
Sigmoid = Tanh Funktion nur anders skaliert und geht nicht durch Nullpunkt (Sigmoid ist
nicht um Nullpunkt zentriert, Tanh schon)
Quantifiziert, wie weit die aktuelle Ausgabe des Modells von der korrekten Ausgabe
entfernt ist
Beim Training ist das Ziel die Verlustfunktion über alle Trainingsdaten hinweg zu
minimieren und die Ausgabe schrittweise (Gradient Descend, Lernrate) so nah wie
möglich an den korrekten Wert heranzuführen
Bei der Backpropagation werden die Gewichte und Werte der Neuronen mit Hilfe der
Verlustfunktion schrittweise angepasst (Prozess wird Gradient Descend genannt)
Der Gradient bestimmt zusammen mit der Lernrate die Anpassung der Gewichte
(iterativer Prozess: also mehrere Anpassungen nötig)
Lernrate:
- bestimmt die Schrittgröße, während man sich auf ein Minimum der Verlustfunktion
zubewegt
Ist die Lernrate zu gering wird das Minimum sehr langsam erreicht
Ist die Lernrate zu hoch wird das Minimum evtl. nicht erreicht, da es „übersprungen“
wird
Gradient Descent:
Backpropagation: Anpassung der Gewichte und Werte der Neuronen mit Hilfe der
Verlustfunktion (nennt man Gradient Descent Prozess)
- Trainieren:
Neuronales Netz sollte so gestaltet sein, dass under- und overfitting vermieden wird
Mit der Fehlerrate beim Trainieren (training error) und beim Testen (test error) kann
man beurteilen, wie gut ein Neuronales Netz das gewählt Problem löst
Grundstruktur CNN:
Ablauf:
1. Input Bild/Kernel
2. Faltungen/Convolutions anhand der Filter/Kernels (alle convolutional layer
zusammen bilden die Feature/Activation Map)
3. Pooling (max. vs. average)
1-3 Zusammen: Feature Extraction
4. Fully connected layer des Neuronalen Netzwerks, arbeitet mit einem
flattende Input/Layer (klassisches NN)
4. Classification
5. Ouput mit SoftMax Aktivierungsfunktion als Wahrscheinlichkeitsfunktion
(Zahlen zwischen 0 und 1)
5. Probabilistic Distribution
Deutlich weniger Gewichte als bei einfachen NN, daher schneller, platzsparender und
robuster
Deswegen Pooling: verringert die Anzahl der Features der Feature Map und bewirkt
damit räumliche Invarianz (Komplexität verringern und ungenauer werden)
3 wesentliche Schichte:
1. Feature Extraktion
2. Klassifikation
3. Wahrscheinlichkeitsverteilung
Convolutional Layer: Ein Layer transformiert einen Input der Dimension (Tiefe) C mit
Hilfe von K Filtern in einen Output der Dimension (Tiefe) K
Wichtig: Die Höhe und Breite der Bilder sinkt, die Tiefe (Anzahl) der Bilder nimmt zu
(im Laufe der Faltungen)
224 *224= Anzahl der Pixel (also Höhe und Breite des Bildes)
WICHTIG: aus einem großen Bild werden durch Faltungen viele kleinere Bilder über die
Faltungsschichten hinweg gemacht (durch Anwendung von Filtern)
Pooling: normalerweise immer max Pooling: d.h. der höchste Wert der aktuellen
Ansicht wird ausgewählt und weitergegeben (so werden die Pixel verringert)
- Convolutional Layer: die Gewichte sind für alle Neuronen identisch (geteiltes Gewicht)
Schritt bezeichnet die Anzahl der Pixel, die der Kernel bewegt (=Stride)
Bei maxpooling immer den größten Wert aus den 4 Feldern nehmen und übertragen
WICHTIG: Zero padding beachten! (Füge eine Reihe von Nullen hinzu)
Fully connected layer arbeitet mit einem “flattened” input, indem jeder input mit allen
Neuronen verknüpft wird
Max pooling nimmt den Maximalwert der aktuellen Ansicht
Ist die Lernrate zu hoch, wird ein Neuronales Netz vermutlich nicht konvergieren (der
Wert wird wahrscheinlich übersprungen; Bausteine von NN)
Die Sigmoid Funktion ist nicht um den Nullpunkt zentriert (Werte zwischen 0 und 1)
TanH (-1 bis 1) = Sigmoid (0 bis 1) Fkt. Mit anderem Wertebereich (anders skaliert)
- Allgemein für Sprache: Old school networks (RNN und LSTN) und Transformer
- Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der
natürlichen Sprache
- NLP muss Lösungen schaffen, um sowohl gesprochene als auch geschriebene Sprache zu
erkennen, zu analysieren und den Sinn zur weiteren Verarbeitung zu extrahieren
- Hierfür ist ein Verständnis nicht nur von einzelnen Wörtern und Sätzen, sondern das
Erfassen von kompletten Textzusammenhängen und Sachverhalten notwendig
- Herausforderung für NLP ist die Komplexität der menschlichen Sprachen und deren
Mehrdeutigkeit
- Es gibt verschiedene Attribute, die den Wörtern dann (je nachdem wie stark sie zutreffen
einen Vektor zuweisen)
- Die 7 (7D) Vektoren werden kann auf 2D reduziert und in einem Vektorraum dargestellt
- Wörter die Ähnlichkeiten aufweisen oder oft zusammen benutzt werden stehen dann in
räumlicher Nähe im Vektorraum
Darauf kann dann eine beliebige Architektur angewendet werden (auf das word
embedding), z.B. RNN, LSTM, BERT, GPT-3 etc.
Wenn Vertrauen niedrig ist, würde Watson in der Jeopardy Show nicht anworten
1. Fragenanalyse
2. Erstellung Hypothese
3. Hypothese und Evidenzbewertung
Blaues Neuron kriegt Input und merkt sich aber schrittweise weniger von einem älteren
Input
Vorteile von RNN: gut für lokaler Kontext (Textvorhersage; Worte eines Satzes merken)
Nachteil: je mehr/länger die Sätze, desto weniger wird sich vom Anfang gemerkt
Vanishing Gradient Problem: RNNs eignen sich gut für kurzfristige Erinnerung (1) und
weniger gut für längerfristige Erinnerung (2)
Der Output wird erneut (recurrent) mit dem neuen Input eingelesen usw.
Deshalb Recurrent Neural Network (Netzwerke rufen sich recurrent selbst auf)
Problem: ich weiß am Ende nicht mehr, was ich am Anfang gemacht habe (Vanishing
Gradient Problem) Lösung durch das LSTM-Netzwerk
Üblich ist many to many (z.B. Übersetzung von Sätzen einer Sprache in andere)
Löst durch die 2 Gedächtnisse das Vanishing Gradient Problem der RNN´s
Ermöglicht aktive Steuerung von dem was erinnert werden muss und was vergessen
werden kann
LSTM hat 3 Gates: Input-Gate (bearbeitet den Input), das Forget-Gate (steuert was
vergessen werden soll), das Output-Gate (steuert was weitergegeben werden soll)
Seit 2016 alle großen Techunternehmen nur noch LSTM als Komponente
Decoder nimmt Gelerntes aus Encoder und entwickelt Output: gibt Ouput Wort für
Wort!
Je nach Länge Input kann der Output länger sein (Länge der Sequenz)
Kombinierter Einsatz von CNN und LSTM möglich: Kombination aus RNN und LSTM mit
Feed-Forward-Netzen (z.B. CNN); sie bringen dann „memory“ hinein
Anwendung dann z.B.: Textuelle Beschreibung von Bildern (Image Captioning) oder
automatische Generierung von Untertiteln (Video Captioning)
RNN eignet sich für kurzzeitige Erinnerung, dessen Neuronen haben jeweils einen
Speicher
LSTM: wird von Google für Spracherkennung verwendet, enthält 3 Gates (Input, Output,
Forget), haben Kurz- und Langzeitgedächtnis damit RNN überlegen
- New School NLP: Transformer Netzwerke (deep learning model), viel trainieren!!
RNN und LSTM liest Text wortweise von links nach rechts (keine Transformer!!!)
Transformer: liest ganzen Satz, nicht wortweise (wie bei Menschen, von Google
entwickelt)
Deshalb braucht ein Transformer auch weniger Training als RNN´s, da mehr Daten
gleichzeitig (parallel) verarbeitet werden
Jedes Wort bekommt viele Vektoren zugeordnet (=word embedding, Bildet das Wort
dann in einem Vektorraum ab)
Wörter, die ähnlich zueinander sind, sind näher beieinander (Hund und Katze haben
beide das Attribut vier Beine und deswegen auch den gleichen Vektor für dieses
Attribut -> räumliche Nähe im Vektorraum)
- Attention-Mechanismus:
Ähnelt Korrelationsmatrix, da jedes Wort mit jedem Wort in Beziehung gesetzt wird
(wird berechnet)
Bildet Beziehungen zwischen einzelnen Wörtern ab: z.B. Hase und hüpfen oft
beieinander oder Katze und Hund sind näher aneinander als Katze und Haus
WICHTIG: jedes Wort wird als Vektor in einem Vektorraum beschrieben, die Position im
Raum ergibt sich aus dem Vektor, die räumliche Nähe (z.B. Hund und Katze) ergibt sich
aus der Analyse von Sätzen.
=open-source
TLDR: “too long didn´t read” für Textzusammenfassungen mit übermäßig vielen
Informationen
Von OpenAI
Kernidee: Wie kann Vorlernen so erweitert werden, dass man hinterher sehr flexibel ist,
um auch Dinge verändern zu können an die man beim Design des Ansatzes noch nicht
gedacht hat
Zero-Shot Learning: Kein Beispiel vorgegeben; Vorher noch nie ein Zebra gesehen, soll
aber trotzdem eines auf Grundlage von früheren Merkmalen (Streifen etc.) erkennen (vs.
one shot und few shot)
Schwerpunkt auf Decoder (ca. 96 Decoder Schichten mit 96 attention heads (Bert nur
24))
Context window: 2048 tokens breit anhand von denen tokens verarbeitet werden
Problem: GPT-3 kann einen gut gemachten Text schreiben ohne ihn zu verstehen, ist also
auch von der Art des Inputs abhängig (kann Kriegserklärung schreiben ohne den Inhalt zu
verstehen)
GPT-3: Few-Shot: Encoder und Decoder mit Fokus auf Decoder; von links nach rechts
(immer nächstes Wort)
Die Länge der Eingabesequence bei Encoder-Decoder kann von der Länge der
Ausgabesequenz abweichen
Die Vorhersage des nächsten Satzes ermöglicht das Erlernen von Satzbeziehungen
Wenn zu viele Wörter in der Eingabsequenz ausgeblendet werden gibt es nicht genug
Kontext um zu Trainieren
GPT-3: zeigt Eigenschaften von Zero-Shot learning, war ein von Microsoft erworbenes
Open-Source Produkt, BERT und GPT-3 sind vorgeübte Transformatoren, GPT-3
verwendet ein Kontextfenster der Größe 2048
Lernmodul 9: ML 3
Transfer Learning:
Sehr wichtig, da ohne transfer learning nur etwa die Big Five Unternehmen ML nutzen
können (alle müssten die Modelle selbst trainiere -> nicht machbar, da riesiger Aufwand,
Rechenleistung etc.!)
Ein Unternehmen trainiert das Modell und gibt dieses weiter (z.B. Google)
Alle anderen Unternehmen nehmen den vortrainierten Datensatz und machen nur
noch Fine-tuning auf einen kleinen Datensatz
Das Erlernen einer neuen Aufgabe beruht auf vorher gelernten Aufgaben
Ist ein Forschungsproblem des ML, das sich darauf konzentriert Wissen aus der
Bearbeitung von Problemen zu speichern und auf andere anwenden zu können
Nur noch Anpassung nötig (z.B. für Ärzte, die sich nicht mit KI beschäftigen müssen)
2 Ziele/Vorteile
= klassisches CNN, das nur noch mit spezifischen „Bilder“/Daten trainiert wird
Anwendbar, wenn
1. Es eine große Anzahl ähnlicher Daten in einer anderen Domäne gibt und wenige in
der aktuellen Domäne (starten auch mit weniger Daten möglich)
2. Nicht genügend Rechenpower vorhanden ist (kann auf vorherige zugegriffen werden;
schnellerer Start)
1. Man nimmt das Netz mit den vortrainierten Werten und trainiert nur noch spezifisch
auf die eigene Domäne (das komplette Netzwerk wird neu trainiert auf Basis des
Vortrainings, aber Lernrate nur sehr gering, sodass sich die vortrainierten Gewichte
nicht drastisch verändern)
2. Ersten Schichten passen, also nur noch Fine-tuning in den letzteren Schichten
(Gewichte und Biasses der ersten paar Schichten einfrieren und nur noch die
letzten paar Schichten und den fully connected trainieren)
Autoencoder: (z.B. um alte Bilder in „neu“ darzustellen, altes Bild der Oma etc.)
- = Neuronales Netz mit bestimmten Aufgaben
Encoder und Decoder funktionieren auch alleine (Grund: Modell ist Ende-zu-Ende
verschlüsselt)
„unsupervised“
- Ablauf:
Encoder und Decoder funktionieren auch einzeln (z.B. nur encoder oder nur decoder)
Sparse Autoencoder
Convolutional Autoencoder
Variational Autoencoder
Denoise Autoencoder
Einzige gute Idee: künstliche Daten (ohne Datenschutz) erstellen, wenn zu wenige Daten
vorhanden sind
2 Komponenten/ 2 Netzwerke
2. Diskriminator: Echt von falsch unterscheiden erlernen (z.B. kann die Echtheit erkennen)
- Discriminator: der Polizist, der die Bilder überprüft anhand der echten Bilder
- Verstärkendes lernen
- Teilbereich des ML bei dem ein Agent selbständig eine Strategie erlernt, um eine zu
erhaltende Belohnung zu maximieren
Die Aktion des Agenten wird durch den Interpreter bewertet und je nachdem, ob es gut
war oder nicht wird der Agent belohnt oder bestraft
- Bsp.: Roboter soll selbständig Rubik´s Cube oder Schachzug spielen lösen
- Transfer Learning: das Erlernen einer neuen Aufgabe hängt von den zuvor erlernten
Aufgaben ab
Lernen verwendet abstraktes Wissen wieder und trainiert spezifisches Wissen neu
Das Lernen wird aus vorab trainierten Gewichten und Vorurteilen initialisiert
- Aussagen zu GAN:
Kernidee basiert auf „indirektem“ Training durch den Diskriminator, der selbst ebenfalls
dynamisch aktualisiert wird
Diese Methode wird bspw. zum Generieren von fake Media verwendet
- Autoencoder:
Die Empfindlichkeit für die Eingabe in Autoencoder bedeutet, dass das Modell eine
Rekonstruktion genau erstellen kann
Anwendungen: Erkennen von Anomalien, Entrauschen von Daten, Inpainting von Bildern
(in Farbe darstellen), Abrufen von Informationen
Wird für Deepfakes verwendet (erstellen oder erkennen, je nachdem, ob das Generator-
oder das Diskriminator Netzwerk trainiert wird)