Sie sind auf Seite 1von 57

1 Bullshit

Fähigkeiten des 21. Jahrhunderts nach OECD

- Sie vereinen Kompetenzen, Fähigkeiten und Lernaufteilungen, welche dazu notwendig sind,
um erfolgreich im 21. Jahrhundert und im Arbeitsleben (Lehrer, Führungskräfte, Akademiker
und Staatliche Einrichtungen). Wichtige Kompetenzen um erfolgreich in der sich schnell
verändernden digitalen Gesellschaft. Auch: Deeper learning (Fähigkeiten wie, analytisches
Denken, komplexe Probleme lösen, Teamwork). Unterschied zu akademischen Kompetenzen:
nicht fokussiert auf Inhalte kennen
- Nicht primär auf Wissen basiert! (analytische und Softskills)
- Lernkompetenzen: kritisches Denken, Kreativität, Kollaboration, Kommunikation
- Literarische Fähigkeiten: Information, Media, Technologie (Umgang damit)
- Lebensfähigkeiten: Flexibilität, Führerschaft, Initiative, Produktivität, Soziale Kompetenzen

Kritisches Denken:

- Jene Art des Denkens (gültig für alle Gegenstände, Inhalte oder Probleme), bei der eine
Person die Qualität ihres Denkens steigert
Ergebnis von kritischem Denken: (5 Stück)
 Stellt vitale Fragen zur Diskussion und formuliert sie klar und exakt
 Sammelt und sichert relevante Information und interpretiert sie wirkungsvoll mit Hilfe
abstrakter Ideen
 Kommt zu durchdachten Schlussfolgerungen/Lösungen und misst diese an objektiven
Kriterien und Normen
 Tritt abweichenden Denkweisen mit offenem Geist gegenüber und behandelt/beurteilt
deren Annahmen, Folgen und Konsequenzen sachgerecht
 Kommuniziert gut, um Lösungen für komplexe Probleme zu ermöglichen

Bullshit

- Ein Lügner kennt die Wahrheit und versucht andere vom Gegenteil zu überzeugen
- Ein Bullshitter kennt die Wahrheit nicht, oder sie ist ihm egal und er versucht nur
überzeugend zu sein
- BS umfasst Sprache, statistische Zahlen, Grafiken, uvm., welche die Wahrheit missachten,
keine logische Kohärenz zu Thema aufweist oder ohne tatsächliche Infos, um zu
beeindrucken, überwältigen oder zu überreden
- Es ist einfach Bullshit in die Welt zu setzen, aber sehr schwer, wieder aus der Welt zu
schaffen (Asymmetrie von BS: Brandolini´s Law)
- „ If a claim seems too good – or too bad – to be true, it probably is“
- Cheatsheet für kritisches Denken: (Wie forscht man nach?)
BS mit Data

- Kumulative Diagramme und abgeschnittene y-Achsen (Vertikale) werden oft verwendet, um


ein Wachstum zu zeigen, dass nicht existiert
- Absolute und relative Messzahlen (von 1% auf 3%; absolutes Wachstum: 2%; rel. W.: 300%)
- Veränderte Skalen
- Veränderte Reihenfolge
- Veränderte Farben (vgl. Corona-Karte mit gelb vs. rot)

- Korrelation: Zwei Variablen sind korreliert, wenn das Wissen über den Wert der einen
Variable Informationen über den wahrscheinlichen Wert der anderen Variable gibt
- Kausalität: zwei Variablen sind kausal verbunden, wenn eine Variable Einfluss auf die andere
hat, durch einen cause-and-effect Prozess (Ursache – Wirkung)
- In den meisten Fällen basiert Bullshit in AI/ML auf voreigenommenen Daten anstelle von
rassistischen Menschen
- BS ohne Statistik = „Old School BS“
- Wissenschaftliche Methode Reihenfolge:
1. Erkenne das Problem
2. Formuliere eine begründete Vermutung/Hypothese
3. Sage die Konsequenzen der Hypothese voraus
4. Führe Experimente durch, um die Vermutung zu testen
5. Analysiere die Daten und ziehe Schlussfolgerungen daraus
6. Kommuniziere die Ergebnisse

Fragen Mentimeter:
- Neugier ist laut OECD kein learning Skill des 21. Jhd.
 Kreativität, kritisches Denken, Kollaboration und Kommunikation sind es
- Medien werden im Rahmen der digitalen Kompetenzen abgedeckt (literacy skills)
- Die Energie Bullshit zu widerlegen ist deutlich höher als Bullshit zu erzeugen (Brandolini´s
Law) zeigt auch die Asymmetrie von Bullshit
- Ein Lügner kennt die Wahrheit und will andere von etwas anderem überzeugen (unterstellt
Absicht)
- Ein Bullshitter kennt die Wahrheit entweder nicht oder ist nicht an dieser interessiert und will
nur überzeugend sein
- BS umfasst Sprache, statistische Daten, jegliche Art von Daten, statistische Grafiken
- Old School Bullshit umschreibt Dinge positiver als sie sind, keine Nutzung von Daten
Statistiken etc.
- SAP ist im CRM Bereich ein Konkurrenzprodukt zu Salesforce
- Microsoft Power BI ist ein Konkurrenzprodukt zu Tableau
- SAS Institute konkurrieren mit Rapidminer im Bereich Data analytics

2 Data Handling
Soziale Medien

- Soziale Medien verbinden und kontrollieren uns


- Die Explosion an Daten wird vor allem durch Interaktionen auf Sozialen Medien angeheizt

- Der versteckte Einfluss von SM: Soziale Anerkennung, Homophilie, „Small World“ (6 Pfade
zur nächsten Person) man braucht nicht viel Pfadlängen, um von der einen zur nächsten
Person zu kommen
 Laut Facebook nur knapp 4 Pfadlängen

Homophilie: Ähnlichkeitsattraktivität z.B. wegen Alter, Geschlecht etc. jemanden mögen

Small World: 6 Pfade bis zur nächsten Person (bei Facebook nur 4)

Shitstorm

- lawinenartiges Auftreten negativer Kritik gegen Personen oder Unternehmen im Rahmen


von sozialen Netzwerken, Blogs oder Kommentarfunktionen von Internetseiten bis hin zur
Schmähkritik. Dabei richtet sich in kurzem Zeitraum eine subjektiv große Anzahl von
kritischen Äußerungen, von denen sich zumindest ein Teil vom ursprünglichen Thema
ablöst und die stattdessen aggressiv, beleidigend, bedrohend oder anders attackierend
geführt werden gegen alle und jeden.

- 5 Shitstorm-Tipps: (1) Fehler sind Menschlich (2) Sei wachsam: in Echtzeit SM und Kanäle
überwachen (3) Der Notfallplan (4) Augen zu und durch: Kritik annehmen und Verständnis
zeigen (5) Ziehe ein Fazit
Social Listening (durch Unternehmen)

- das Überwachen von Social-Media-Kanälen hinsichtlich Erwähnungen einer Marke, eines


Mitbewerbers, eines Produkts und aller anderen Begriffe und Themen, die für ein
Unternehmen relevant sind. Die Informationen werden analysiert.

- Einsatz Social Listening:


 Interaktionen mit Kunden
 Sammeln von Informationen über den Wettbewerb
 Strategiewechsel bei der Marktpositionierung
Influencer

- Corporate Influencer (kann jeder sein): CEO, GF, Gründer, Experten in div. Communities,
PR/Kommunikationsmitarbeitende, CI von extern, Mitarbeitende aller Bereiche, Externe
Influencer in Kooperation (Experten, Prominente, Mikro-Influencer)
 Elon Musk als Corporate Influencer (Person of the year nach der NY Times)
 Oft Hashtags

Cyberbullying:

- Unternehmen kaufen oft Sterne, Likes etc.

- Daten = neues Öl

Social Score:

- Das Vorstrafenregister kann zur Bestimmung des Ratings genutzt werden

- SCHUFA: Kreditwürdigkeit als Zahl (je höher Score, desto geringer Einschätzung des Risikos
für Zahlungsausfall; 100 ist bester Wert)

- Chinas Social Score Werkzeug: Social Input (Strafregister, Beachtung von Regeln,
ehrenamtliche Tätigkeiten etc.), Traditional Input (Kredite, Einkommen etc.), Online Input
(online Interaktionen, Kaufverhalten etc.)

- Folgen bei schlechtem Score:

 Reisen sind eingeschränkt

 Manche Jobs dürfen nicht angenommen werden

 Manchen Hotels dürfen nicht besucht werden

 Man kann keine Kredite aufnehmen

- Folgen bei gutem Score:

 Versicherungsvorteile

 Längere Internetnutzung

 Zugang zu Schnellzügen und Flugzeugen etc.


Data Governance

- Was kann ein U intern tun, um mit den Daten, die man von Kunden hat, vernünftig um zu
gehen -> Datenmanagementkonzept, mit dem Ziel, möglichst hohe Qualität der Daten zu
produzieren, über den gesamten Lebenszyklus der Daten. Aspekte: Verfügbarkeit, Art u.
Weise der Nutzung der Daten, Integrität und Sicherheit der Daten
- Data governance enthält keine Regierung
- Ziele für Unternehmen:
 Erhöhen der Konsistenz und des Vertrauens in Entscheidungsfindung
 Minimieren des Risikos von Bußgeldern
 Verbessern der Data Security
 Maximierung des Einkommensgenerierungspotentials von Daten
 Festlegung der Rechenschaftspflicht für die Qualität der Informationen
 Bessere Planung durch Aufsichtspersonal
 Minimierung oder Eliminierung von Überarbeitung
 Optimieren der Mitarbeitereffizienz
 Prozess performance Grundlagen einführen, um Verbesserung zu ermöglichen
 Den gesamten Zuwachs anerkennen und halten

General Data Protection Regulation (GDPR) / EU-DSVGO (Datenschutzgrundverordung)

- Den Nutzern wird mehr Recht gegeben -> Regulierung des Datenschutzes innerhalb der EU
- Personenbezogene Daten dürfen nach Vertrag, Zustimmung, öffentlicher Aufgabe, vitalem
Interesse und berechtigtem Interesse verarbeitet werden
- Anforderungen der GDPR/DSVGO: Rechtmäßige Verarbeitung, Informationspflichten,
Betroffenenrechte, Datenschutzmanagement
- Nutzer haben Recht auf Löschung
- DSGVO beinhaltet Informationspflichten
- Um Daten verarbeiten zu dürfen genügt eine Einwilligung
- Verstöße müssen gemeldet werden

- H&M wurde im Rahmen der EU-DSGVO mit einer Geldbuße von 35 Mio. belegt, weil
unzureichende Rechtsgrundlage für die Datenverwaltung
Social Credit System in China

- Anzahl der Kinder nicht Teil des Social Credit Systems von China

- Sitzplatz in Zügen ist kein Vorteil von hoher Punktezahl

- Jack Ma: Ant Financial wurde Börsengang verhindert

3 Data Encryption
Datenintegrität / Verschlüsselung
- Ziel ist es, unbeabsichtigte Änderungen von Informationen zu verhindern
- Sie gewährleistet die Genauigkeit und Konsistenz von Daten über ihren gesamten
Lebenszyklus
- Die Datenvalidierung ist eine Voraussetzung für die Datenintegrität
- Menschliches Versagen kann zum Versagen der Datenintegrität führen
- Unbeabsichtigte Änderung von Daten, die zu einem Ausfall der Datenintegrität führen kann:
Menschliches Versagen, Unerwarteter Hardwarefehler, Böswillige Absicht,
Verarbeitungsvorgang

Symmetrische Verschlüsselung:
- Nur private/secret key
- Wer Schlüssel hat kann Daten verschlüsseln, lesen und verändern
- Wichtig: darauf achten, wer einen Schlüssel bekommt (Person kann viele Keys produzieren)
Asymmetrische Verschlüsselung:
- 2 Schlüssel: private und public key
- Wer private oder public key hat kann Daten verschlüsseln
- Nur wer den anderen Key hat kann Daten lesen
- Person kann sehr viele Schlüssel generieren
- Manipulation deutlich schwieriger
- Wer public Key hat kann Daten verschlüsseln, die nur Person mit private key lesen kann
- Wer private key hat kann Daten verschlüsseln, die jeder mit dem public key lesen kann

- Dokument muss signiert und beglaubigt sein (durch Notar)


- Digital wichtiges Dokument: Echtheit beweisen
 Beglaubigung des Inhalts durch eindeutigen Hash-Wert (m.H.v. Hash- Funktion, um
Änderungen ersichtlich zu machen)
 Signatur durch asymmetrische Verschlüsselung des Hash-Wertes (m.H.v. private und
public key)

Hash-Funktion
- Erzeugt aus einem beliebig langen Text einen Hash-
Wert fester Länge

- Einwegfunktion (Unumkehrbarkeit): aus Hash-Wert


kann man nicht den Originaltext erzeugen
- Kollisionssicherheit: kleinste Veränderungen am Text
führen zu massiven Änderungen am Hash-Wert
- Schnelligkeit: die Berechnung des Hash-Wertes geht schnell
- Mit Hash-Funktionen kann man die Integrität von Texten prüfen (Prüfsummen)
- Hash-Funktion: SHA-256 (erzeugt Hash-Werte mit Länge von 256 Bit, hexadezimale
Schreibweise)
- SHA-2-Familie: Sha-224, SHA-384, SHA-512
 Hash-Wert ist für die SHA-256 Funktion immer gleich lang, unabhängig von den Daten
(immer 256 Bit)
 Bei gleichen Daten Nonce nutzen (Nullen davor)
 Gleiche Daten erzeugen immer den gleichen Hash-Wert
- SHA = Secure Hash Algorithm

- Wer den Public Key hat, kann Daten verschlüsseln, die nur die Person mit Private Key lesen
kann. Wer den Private Key hat, kann Daten verschlüsseln, die jede Person mit Public Key
lesen kann. Eine Person kann viele Schlüssel generieren

- Ein signiertes Dokument benötigt:


 Dokument
 Unterschrift (Signature)
 (Notarielle) Beglaubigung

- Ein digital signiertes Dokument benötigt:


 Dokument (lesbar)
 Hash-Wert des Dokuments (durch Hash-Funktion erzeugt)
 Signatur (mit Private Key codierter Hash-Wert des original Hash-Wertes)
 Public Key (für das Prüfen)

 Ergo: der Hash-Wert des Dokuments (erzeugt durch Hash-Funktion) wird mit private
key asymmetrisch verschlüsselt (erzeugt verschlüsselten Hash-Wert), der mit Hilfe des
public key überprüft/gelesen werden kann
Bitcoin

- Double-spending Problem (Mehrfachweitergabe von Inhalten)


 Lösung von Satoshi Nakamoto mit Peer-to-Peer-Netzwerk
- Blockchain (fortlaufend verkettete Daten) ermöglichen:
 Die Datenintegrität aller Daten sicherzustellen
 Manipulation einzelner Dokumente zu erschweren (Lösung bei Bitcoin)
 Double-Spending zu verhindern
- Nonce = Zahl für Hash-Werte mit führenden Nullen (um verschiedene Hash-Werte bei
denselben Daten zu erzeugen)
- Ca. 280k Blöcker in der Bitcoin Blockchain
- Für 100.000 Transaktionen braucht Bitcoin 4 Stunden
- Blockchain: Transaktionen basieren auf älteren Transaktionen („verbrauchen“ ältere
Transaktionen)
- Proof-of-stake kein Element des Bitcoin Transaktionssystems (proof-of-work schon!)
- Blockchain:
 Jeder Block enthält den Hash-Wert des vorherigen Blocks
 Signatur bezieht sich auf das gesamte Dokument und umfasst den Hash-Wert des
Vordokuments und den public key
 Ändert sich etwas am Vordokument ändert dies alle nachfolgenden Dokumente
 Hash-Puzzle lösen = Mining bei Bitcoin

- Durch Bitcoin-Mixer mehr Anonymität (gegen Gebühr)

- Transaktionen „verbrauchen“ ältere Transaktionen

- Laut Bitcoin Whitepaper Elemente des Bitcoin-Transaktionssystems: Digitale Signatur,


Zeitstempel, Hash-Funktion, Blockchain
- Der Ledger besteht aus einer Kette von Blöcken (Blockchain), die jeweils ca. 2.500
Transaktion pro Block speichern können. Ledger: nicht Kontostände, sondern Transaktionen
werden gespeichert
- Distributed Ledger: Zwei Schritte: 1. Ein Knoten: Neuen Block generieren. Matherätsel lösen
(schwierig). 2. Alle Knoten: Neuen Block ergänzen (einfach).
- Vorteile Distributed Ledger: Open Source (jeder kann es für seine Bedürfnisse anpassen);
Robust (Sobald die Verkettung stattfindet, kann man es nicht mehr verändern); Uncensorable
(sehr robust ggü. Manipulation); Decentralized (es ist verteilt, keine zentrale Stelle)
 Dokumentiert alle Transaktionen
- Blockchain Vorteile: Zugänglichkeit, einfache Abwicklung von Transaktionen, schnellere
Transaktionen, hohe Sicherheit, volle Transparenz, kostengünstig, gut nachverfolgbar,
Automatisierung
- Einsetzen v. Blockchain in: Gesundheitssystem, Regierungsumfeld, Immobilien,
Energiesektor, Finanzsektor

- Proof of Work
• = Miner d. nachweist, dass das was getan wurde, einzigartig u. gut ist u. schnell v. anderen
überprüft werden kann (Bei Blockchain ist es das Lösen d. Matherätzels)
• Stellt sicher, d. man einen bestimmten Aufwand hatte, um diesen Block zu schreiben
• Math Puzzle: Finding a „Nonce“
Viel Rechenaufwand reinzubringen, wenn es drum geht einen neuen Block zu schürfen;
Wenig Rechenaufwand, wenn man es überprüfen will
• Im Netzwerk konkurrieren „Miner“ um den nächsten Block

- Proof of work hat sehr schlechte Nachhaltigkeitsbilanz


 Carbon Footprint wie Neuseeland
 Sehr hoher Energieverbrauch (wie Chile)
 Elektroschrott sehr hoch (wie Luxemburg)

Smart Contracts
- = Eine Software, d. d. Dinge d. man mit einem Objekt machen kann in Softwares gießt.
Automatische Software, unter bestimmten Bedingungen (vgl. Vertrag). Man will keine
zusätzlichen Kosten u. Mittelsmann. Die Intelligenz steckt i. d. Software. Es geht um d.
Dokumente u. deren Weiterverarbeitung.
- Kein Vermittler benötigt
- Automatische Überprüfung und Bearbeitung der Anfrage
- Vorteile Smart Contracts:
 Speicherung auf public ledger
 Alle Parteien bleiben anonym
 Vertrag überprüft sich selbst
 Schneller, billiger, sicherer
- Vorteile: Anonymisiert, relativ sicher, akkurate Datenhaltung, relativ performant,
kosteneffektiver, vertrauenswürdiger, man kann nicht richtig eingreifen

NFT: Non Fungible Token


- = einzigartige und nicht austauschbare Dateneinheit
- Certificate of Authenticity
- Proof of ownership
- Gespeichert auf Blockchain
- Garantiert also die Echtheit von Informationen und die Herkunft von Daten
- Für Tickets, Bilder, Kunst etc. möglich
- Teuerstes für 69 Millionen Dollar verkauft

4 Data Driven Innovation


- (1975) Bill Gates, gründete mit 20 Jahren Microsoft; Erste Produkte: Altair Basic f. Personal
Computer (PC) (Studium abgebrochen)
- (1998) Larry Page u. Sergey Brin, gründet mit 25 Google
- (1999) Jack Ma, gründete Alibaba ohne jegliches Fachwissen, nur mit seiner Idee
- (2004) Mark Zuckerberg, gründete mit 19 Facebook (Studium abgebrochen)
- (2005) YouTube wurde gegründet
- Elon Musk: 2004 bei Tesla eingestiegen, Gründer SpaceX u.v.m.
 Integriert sehr stark horizontal

- Digitial Transformation is happening: Unvorstellbare Ideen zu der Zeit. Wenn du Ideen hast,
setz dich durch. -> Unternehmerisches Denken
Startups
- Ein kürzlich gegründetes Unternehmen (nicht älter als 10 Jahre) mit innovativer
Geschäftsidee und hohem Wachstumspotenzial
- Startups sind v.a. in Informations- und Kommunikationsbranche zu finden
- Einhorn-Startups: Unternehmen, die höher bewertet werden als 1 Milliarde USD (zurzeit ca.
500, 1/3 aus China) z.B. Bytedance (TikTok), SpaceX etc.
 China und USA haben die meisten Unicorns
- Ca. 15% Frauenanteil bei den Gründern
- Insgesamt ca. 500 Unicorns

Deutscher StartUp Monitor 2021 (DSM):


- Ca. 2000 Startups in Deutschland
- Ca. 22 Unicorns (N26, Traderepublic, Gorillaz etc.)
- Erfasst die Breite des deutschen Ökosystems
- 3 Ziele:
 Bedeutung und Entwicklung von deutschen Startups aufzeigen
 Herausforderungen und Verbesserungspotenziale feststellen
 Gründergeist in Gesellschaft fördern (mehr Gründer hervorbringen)
- 3 Merkmale von Startups:
 Jünger als 10 Jahre
 Geplantes Mitarbeiter-/Umsatzwachstum
 Sind hoch innovativ in allem was sie machen
- Im Mittel sind Gründer 36 Jahre alt
- Zentrale Herausforderung: strukturelle Barrieren
- Gründeranteil steigt (auf um 2% auf 18% insgesamt)
- Meisten Gründer haben studiert
- Meisten haben in MINT Fächern oder Wirtschaft studiert
- Am wichtigsten sind unternehmerische Beratungsleistungen und finanzielle Mittel
- Gründungsteams entstehen im persönlichen Umfeld (Uni, Freunde etc.)
- Ca. 2 Drittel nutzen digitale Geschäftsmodelle
- Software as a service Modelle dominieren das Startup-Ökosystem
- treiben v.a. KI, IoT und Industrie 4.0 (Deep-tech Themen) voran

Plattformöknonomie (many make, many sell) (FOKUS)


- Internetbasierte Geschäftsmodelle, die Anbieter mit Interessenten/Kunden auf einem
digitalen Marktplatz zusammenbringen
- Arten v Plattformen:
Handelsplattformen (Käufer u Verkäufer)
Suchmachinen (Suchende und Werbetreibende)
Lieferservice (Hungrige u. Gastronomien
Immobilienportale, Unterkunftsvermittlung, Hotelportale, Freelancer- u. Projektseiten, Taxi-
Plattformen
- Netzwerkeffekt: je mehr Anbieter auf der Plattform, desto interessanter f. Kunden u.
umgekehrt
- Geringe Transaktionskosten, Preis u. Qualität sind transparent, neue Geschäftsansätze
- Unterscheidung von Unternehmen in:

 Product Company: make one, sell one

 Service Company: make one, sell one

 Software Company: make one, sell many

 Platform: many make, many sell

- SAP ist größte Plattform in Europa

Digitale Plattformen (many make, many sell)

- Sollten ein Basisangebot anbieten


- Von den 10 größten Plattformen der Welt sind 7 digital (US: Apple, Microsoft, Amazon,
Facebook, Alphabet; EU: SAP; Asien-Pazifik: Alibaba, Tencent, Samsung)
- Viele Branchen werden durch Google, Apple, Amazon u Facebook disruptiert
- Beispiele für digitale Plattformen: Suchmaschinen, Hotelportal, Lieferservice, Dating-Apps
etc.
- Können aus vielen Seiten bestehen
- Youtube , Twitter = Media & Content-Plattform
 Immer wenn kommuniziert wird: Einseitig! (nur Nutzer von z.B. Zoom, Telefon,
WhatsApp etc.) Alle machen dasselbe

 Zweiseitig: alle Plattformen: Amazon, Kickstarter, Crowdfunding, Alibaba etc. (Käufer und
Verkäufer)

 N-seitig: alle Betriebssysteme (wenn es Apps dafür gibt, Bereitsteller, Nutzer und
Appentwickler: Android, IOS etc.)

2-seitige Märkte

- handelt es sich um ökonomische Plattformen, auf denen zwei unterschiedliche


Nutzergruppen agieren. Zwischen den Nutzergruppen bestehen Netzwerkeffekte, d.h. je
mehr Nutzer in einer Gruppe existieren, desto attraktiver ist die Teilnahme am Markt für
Nutzer der anderen Gruppe. Die Plattform übernimmt die Koordination zwischen beiden
Gruppen. Die Vorteile großer Plattformen führen zu Märkten mit einigen wenigen großen
Plattformen. Eine Gefahr besteht demnach in monopolistischen Marktstrukturen (z.B. Apple
App Store).
 Grund: Netzwerkeffekte
- Console Wars: Netzwerkeffekte in zweiseitigen Märkten haben dazu geführt, dass sich die
Anzahl der Konsolenanbieter über die Jahre auf zwei wesentliche Anbieter reduziert hat.
(Apple u. Samsung)

Gig Economy: (zweiseitige Plattformen)

= Teil des informellen Arbeitsmarktes, bei dem zeitlich befristete Aufträge an Arbeitssuchende
vergeben werden

 z.B. Uber, AirBnB, Freelancer etc.

 Meist für Nebeneinkommen


Crowdsourcing: Aufgaben werden outgesourced
- Zweiseitiger Markt (Service provider und Nutzer)

- Meist Freelancer: z.B. Fiverr für Dienstleistungen

Crowdfunding:

- Zweiseitiger Markt

- Gegenstück zu Crowdsourcing

- Frauen mit Damenunterwäsche

- Kickstarter

Sharing Economy

- Meint systematisches Ausleihen von Räumen, Gegenständen etc. insb. durch


Privatpersonen
- Sharing Economy ist eine Ausprägung einer Digital Platform
- Jochen Engert, Flixbus: konzentrieren sich auf Plattform, Last u. Kosten wurden auf Busfahrer
abgedrückt
- Nextbike: Verträge mit Städten, nicht mit Endverbrauchern
- Wefox: Versicherungen per App managen
- Parkplatzpiloten sind kein Bestandteil der Sharing Economy
- Smart-City-System: Universitäten, Hotels, Flughäfen, Einzelhändler, Städte, E-Chargers,
Unternehmen, Rest areas, Software developers, dein Projekt
5 Project Management (Fokus)
- Praxis, die man anwendet auf entsprechende Vorhaben, wo man Projekte erzielt, plant,
ausführt, kontrolliert u. abschließt. Alleine o. im Team, um bestimmte Kriterien in einer
bestimmten Zeit zu erreichen. Temporäres einmaliges Vorhaben!

- Projekt nach DIN-Norm 69901: (WICHTIG KLAUSUR)

 Voraussetzung für alle Ansätze, die kommen


1) ein einmaliges Vorhaben,
2) klar abgegrenzt von anderen Vorhaben
3) mit einem vorgegebenen Ziel
4) mit zeitlichen, finanziellen oder sonstigen Begrenzungen
5) mit einer projektspezifischen Organisation (Projektteams)

Wasserfall-Modell
Wasserfall-Modell mit 4 Phasen

 man kann nicht alles maximieren


Traditional Project Management (Wasserfall, Gesamtplanung)
- Analyze -> Design-> Code -> Test (kann nicht gestoppt werden, bevor das Produkt fertig ist)
- Systematisch u. strukturiert
- Eine Phase muss abgeschlossen sein, bevor die nächste beginnt
- Hohe Kundenunzufriedenheit, aufgrund des Fehlens von Kundeneinbindung
- Ist linear aufgebaut, lässt also keine Änderungen zu -> keine neuen Ideen miteinfließen
- Unzufriedenheit u. schlechtere Qualität des Produkts

Agile (Planung in kleineren Schritten)


Fragen aus Lernmodul:
- Was trifft auf die agile Methode zu?
 Kein linearer Prozess
 Kunden von Beginn an mit einbinden
 Änderungen sind kaum ein Problem
 Laut CHAOS Report ist man mit agilen Methoden erfolgreich
 Kein fixes Budget, Zeitplanung, fixen Umfang und gute Qualität (wird immer angepasst)

Wann wird was verwendet? (Stacey Matrix)

Achsen: Anforderungen (y-Achse) und Technologie (x-Achse)


Kanban (Hauptelement: KANBAN-Tafel)

-
Kanban ist eine Methode in der Softwareentwicklung, bei der die Anzahl paralleler Arbeiten, der
Work in Progress (WiP), begrenzt und somit kürzere Durchlaufzeiten erreicht und Probleme
– insbesondere Engpässe – schnell sichtbar gemacht werden sollen.

5 Key-Elemente v. Kanaban: (= Pull-System)


- Visuelle Signale: Karten (1 Item pro Karte): KANBAN-cards
- Kolumnen/Spalten: verschiedene Aktivitäten, die zusammen den Workflow bilden
- Commitment point (Zusage): Projekt wird aufgenommen u. die Arbeit beginnt
- Delivery Point (Lieferung): Ende des Workflows
- WIP-Limits: limitieren der Anzahl der Karten für bessere Zeitgestaltung -> mehr Arbeit wird
geschafft (Teamanzahl * 2)
- Visualisieren -> Fokussieren -> Ausführen
- Lead-Time (Durchlaufzeit): Wie lange braucht eine Karte, um durch alle Phasen zu laufen
- Personal KANBAN Board: Nur seien eigene Arbeit koordinieren, sich selbst zu strukturieren u.
v. Augen führen was man machen möchte. (Zeit für Durchlauf durch Workflow)
- Team KANBAN Board: Fünf Schlüssel Elemente à Arbeit wird vor Augen geführt (visiual
signals), i. d. Spalten sinnvolle Arbeitsteilung, sinnvoller Zeitpunkt, wo es beginnt und endet
und es klar ist welche Kapazität man hat (WIP-limits) Verwendung von dig. Boards
SCRUM (=Rahmen des Agile Manifesto) (3-5-3)
- Ist ein Methodenraum, der einfach gehandhabt wird, damit sich alle leicht organisieren
können
- Die Adaption von Lösungen für komplexe Probleme steht im Vordergrund
- Scrum-Master soll ein Umfeld schaffen, in dem:
→ Ein Product Owner die Arbeit für ein komplexes Problem im Product backlog
definiert
→ Ein Scrum-Team, in einem Sprint, ein Teil der Arbeit in einen Wertezuwachs erstellt
→ Das Scrum-Team und seine Stakeholder inspezieren die Ergebnisse und justieren sie
für den nächsten Sprint
→ Wiederholen
- 3 Rollen:
→ Produkt Owner: Ideen fürs Produkt, bestellt die Arbeit für ein komplexes Problem in
ein Product Backlog
→ Scrum-Master: Leitung des Teams, beschützt das Team und den Prozess und führt
sie voran
→ Team: Tester, Schreiber, Entwickler, Kenntnisse -> arbeiten, um das Produkt fertig zu
stellen
- 3 Artefakte:
→ Product Backlog: Product Owner erstellt eine Liste
mit Features (durch user stories), die das Produkt
haben könnte & dessen Gewichtung
Releases: Produkt ist zu komplex u. hat zu viele
Features -> Reduktion auf wenige Features pro
Sprint
→ Sprint Backlog
→ Product Increment
- 5 Zeremonien:
→ Product Planning: Features, die relevant fürs Produkt sind identifizieren
→ Sprint Planning: Die Features, die im nächsten Sprint bearbeitet werden sollen,
werden ausgewählt; Alle -> Sprintbacklog
→ Daily Scrum: kurzes Meeting, in dem besprochen wird, was geschafft wurde, seit
dem letzten Meeting, u. wo evtl Probleme sind bzw. Hilfe benötigt wird
→ Sprint Review: Was wissen wir übers Produkt
→ Sprint Retrospective: Arbeit wird reflektiert und diskutiert
- Sonstige:
→ Burndown Chart: Prozess in einem Sprint, diese Chart sollte 0 Punkte erreichen,
wenn die Arbeit fertig ist; überwachen, ob das Projekt reibungslos verläuft;
Burndown Geschwindigkeit: Produktivitätsrate pro Tag
→ Release Backlog: Funktionen, die für eine bestimmte Veröffentlichung implementiert
werden müssen
Wann SCRUM wann Kanban einsetzen?

Tesla:
- 30 Änderungen in der Woche

- Produktion auf dauerhafte Änderungen ausgerichtet (in den einzelnen Produktionsschritten)

Spotify Engineering Culture


- Scrum wird nicht vollständig genutzt (auf eigene
Bedürfnisse angepasst)
- Autonome Squads anstatt Teams: kleines, funktionsübergreifendes, selbstorganisierendes
Team mit weniger als 8 Leuten
- High Alignment, High Autonomy: Leiter fokussieren sich darauf, welches Problem zu lösen
ist, lassen aber die Teams herausfinden, wie es gelöst werden soll (hohe Autonomie heißt
hohe Motivation)
- Tribe: Gruppe v. Squads, d. an gleiches Produkt/Dienstleistung bzw. miteinander in
Verbindung stehenden Produkten o. Dienstleistungen arbeiten
- Chapter: Mitglieder eines Tribes, d. ü. dieselbe Expertise verfügen (z. B. besteht Chapter aus
Webentwicklern) unter d. Leitung einer Chapter-Führung: Wissen Austausch. Die Chapter-
Führung ist zudem dafür zuständig, Mitarbeiter in ihrer Entwicklung zu begleiten u. sie bei d.
Aneignung neuer Kompetenzen zu unterstützen
- Guild: Mitglieder mit demselben Fachwissen u./o. den gleichen Interessen Ziel: Wissen
 Unterschiedliche Tribes
- Austausch. Jeder kann jederzeit beitreten o. austreten

Produkt A Produkt B

6 Technology Management
Möglichkeiten:
1) Bewertungen von anderen nehmen (Gartner Hype-Zyklus)
2) Selbst Szenarien überlegen (Szenariotechnik)
3) An Megatrends orientiern (Strategy planning)
4) Moonshot Blueprint von Google (nur bei riesigen Problemen, radikalste Lösung)

- Sind Technologien, deren Entwicklung, praktische Anwendungen oder beides noch


weitgehend unrealisiert sind. Zeichnen sich durch radikale Neuheit, relativ schnelles
Wachstum, Kohärenz, herausragende Auswirkungen sowie Unsicherheit und Mehrdeutigkeit
aus. Werden oft als fähig angesehen, den Status quo zu ändern. Umfassen eine Vielzahl von
Technologien wie Bildungstechnologie, Informationstechnologie und Nanotechnologie

- Ziel Technologiemanagement: Langfristiges Sichern der Wettbewerbsfähigkeit von


Unternehmen durch den Auf- und Ausbau technologiebasierter Erfolgspotenziale
- Zentrale Aspekte:
 Skizzieren der technologischen Zukunft
 Erkennen, Bewerten (und Auswählen) neuer Technologien (Infos über neue
Technologien)
 Entwickeln bzw. Weiterentwickeln von Technologien
 Technologien verfügbar machen und finanziell „erfolgreich“ einsetzten
- Überschneidungen mit dem Innovationsmanagement im Bereich der Entwicklung bzw.
Weiterentwicklung von Technologien
- Technologiefehleinschätzungen (Fehleinschätzungen u. prognosen, von Leuten, die sich eig
aukannten)

Achsen: Entwicklung (y-Achse) und Zeit (x-Achse)

Gartner Hype Cycle

Achsen: Aufmerksamkeit (y-Achse) und Zeit (X-Achse)!!


Szenariotechnik (Shell) (WICHTIG)
- Bezieht technologische Veränderungen sowie deren Wechselwirkungen mit ein
- Shell verwendet seit 1972 Szenariotechnik jedes Jahr
- Kleine Trends eher sowas wie Gaskrise, Ölkrise etc.

4 Phase:
1) Zielfestsetzung
2) Umfeldanalyse (Störgrößen etc.)
3) Szenarioerstellung (Bewertung, Clustering)
4) Ergebnisanalyse (Handlungsfelder, Roadmapping)
WICHTIG: Merkliste

Strategieplanung (Alternative zu Szenariotechnik)


Leoni AG: Strategische Vision 2025

Mega-Trends analysieren und Strategie-Ziele und Strategie-Elemente aus Megatrends


ableiten (Flucht, Erderwärmung, Globalisierung, Digitalisierung etc.)

1. Megatrends in Makrotrends herunterbrechen


2. Aus Makrotrends Geschäftsfelder mit hohem Wachstumspotenzial ableiten
3. Auswahl der Geschäftsfelder mit den höchsten Erfolgsaussichten
4. Retropolation strategischer Maßnahmen auf Basis der Zielposition 2025 (Startpunkt für
die Planung strategischer Initiativen u. Maßnahmen)

Moonshot Blueprint/Moonshot Thinking (von Google X 2010 entworfen)


Nur bei riesigen Prblemen (nicht bei kleinen!!)

1) Riesiges Problem erkennen

2) Lösung des Problems finden

3) An Technologie glauben, die dieses Problem lösen


kann
Drohnen (emerging technologies) = potentieller Use-Case
- Drohnen sind unbemannte Flugobjekte (UAV: Unmanned Aerial Vehicle). Sie können sowohl
autonom als auch per Fernsteuerung fliegen.
- Spannweiten reichen von wenigen Zentimetern (Mikrodrohnen) bis hin zu ca. 60 Metern.
- Drohnen sind vielseitig einsetzbar. Ihre Anwendung reicht von Hobby-Projekten bis hin zu
Militärdrohnen.
- Seit 2017 Drohnen-Verordnung
→ Blutversorgung in Afrika durch die Firma Zipline (Kein Zugang zu Ganzjahresstraßen)

- Drohnen (UAV) als Emerging technologies


 Billig, einfach, kann Produktivität steigern

 Vielseitig einsetzbar: Militär, Freizeit etc.

 Neue Perspektiven (literally)

 Fashion-Show in Saudi-Arabien (ohne Models)

 Meisten Anwendungen in der Landwirtschaft (80%) z.B. Indien

 Z.B. unerwünschte Tiere (Rehkitze auf Feld), Anzahl von Früchten, Säuregehalt vom
Boden (wichtig für Weinanbau)

 Firma Zipline: Drohnen transportieren Medikamente und Blutkonserven in Afrika/Ruanda


(Nachricht per WhatsApp)

 Ran Krauss: Vorgänge in Fabrik per Drohne überwachen (komplett automatisch)

Lernmodul 7: ML 1 Basics a computer vision (machine Learning based on neuronal


networks)
Unterscheidung AI, Machine learning und Deep learning
 AI: Computer Systeme, die in der Lage sind Aufgaben zu erledigen, die normalerweise
menschliche Intelligenz benötigen

 ML: Computer Systeme, die auch ohne explizite Anweisung lernen und sich anpassen
können, indem sie Algorithmen und statistische Modelle heranziehen, die Muster in
Daten analysieren und daraus Ableitungen treffen können

 NN: Input in Output umwandeln = ein Ansatz für ML

 Deep Learning: Teilmenge von ML, die auf NN basiert und mindestens 2 Hidden Layers
haben muss

- Maschinelles Lernen auf Basis von menschlichen neuralen Netzen

- AI (artificial intelligence): seit 1950: damals noch Experten Systeme


- Basics of neural networks:

 Aufbau:

 Jeder Knoten (Neuron) ist mit jedem Knoten (Neuron) der nächsten Schicht verbunden

 NN arbeiten immer mit Zahlen!

 Aufbau inspiriert durch menschliches Gehirn

 Neuronale Netzwerke sind zentraler Baustein für Deep Learning (mehrere hidden
Layer!)

 Viele verschiedenen Architekturen, die anhand der Datenstruktur, dem Dateninhalt und
der Aufgabenstellung ausgewählt werden

 Neuronale Netze sind in Schichten aufgebaut

 Die Eignung des NN wird anhand der Treffer-/Fehlerquote festgemacht

 Neuronale Netze werden durch Trainingsdaten trainiert und durch Testdaten verifiziert

 Lernen beim Training erfolgt durch Backpropagation mit Hilfe einer Verlustfunktion
(also wie viele wurden richtig erkannt usw. (Loss/Cost))

 Bsp.: Abbildung: 28 mal 28 Pixel bzw. Neuronen, als 784 Neuronen

 Jedes Neuron enthält eine Zahl zwischen 0 und 1, die die Helligkeit angibt (je näher an
1, desto weißer; umso weißer, desto heller und formt damit eine Zahl)

 Die Zahl zwischen 0 und 1 heißt „Aktivierung“ (z.B. 0,5 wäre grau)

 Die 784 Pixel/Neuronen bilden die erste Schicht des neuronalen Netzwerks (Input-
Layer) „flatten“

 Die letzte Schicht besteht hier aus 10, da die zu ermittelnde Zahl zwischen 0 und 9 liegt
(Output-Layer)
 In der Mitte liegen die „versteckten Schichten“ Hidden Layer

 Die Neuronen der hidden layer könnten „Musterteilen“ entsprechen

 Die inneren Schichten können meist nicht sinnvoll interpretiert werden

 Das Neuronale Netz lernt Muster selbständig

 Besonderheit von NN: automatische Extraktion und Selektion von Features


(Merkmalen)

 Die Aktivierungen der einen Schicht aktivieren die Neuronen in der nächsten Schicht

 Zahl der Neuronen in den versteckten Schichten können variiert werden

 Die mittleren Schichten können trainiert werden, indem sehr viele Inputs gemacht
werden

- Berechnung:

 Jedes Neuron summiert alle gewichteten Eingaben auf


 Leicht für Computer, da Matrix-Rechenoperationen

 Die Gewichtung kann positiv oder negativ sein (meist zwischen -1 und 1)

 Gewichte können aktivierend oder hemmend sein

 Gewicht von 0 verweist auf eine nicht bestehende Verbindung

 Dazu kommt noch ein Bias-Wert und eine Aktivierungsfunktion

 Jede Schicht hat einen Bias

 Ein Bias-Wert soll die Verzerrung bei Nicht-Aktivierung angeben

 Gibt an ab wie hoch das Gewicht sein muss, bevor das Neuron aktiviert wird

 Ein Neuron ist quasi eine Funktion, die einen Wert zwischen 0 und 1 ausgibt

 Gewichte und Biasses werden beim Trainieren schrittweise angepasst

- Aktivierungsfunktionen: hilft bei der Ermittlung des Output-Wertes

 Sorgt dafür den Output-Wert eines Neurons sinnvoll zu interpretieren und


weiterzuverarbeiten

 Es werden verschiedene Aktivierungsfunktionen unterschieden: Lineare vs. Nicht-Lineare


Aktivierungsfunktionen (lineare spielen bei neuronalen Netzen kaum eine Rolle)

 Hat Einfluss darauf, wie das Neuronale Netz lernt


Nicht-Lineare Aktivierungsfunktionen:
 Werden bevorzugt, weil meist nicht-linear verteilte Daten verarbeitet werden

1. Sigmoid Activation Function (Werte zwischen 0 und 1)

2. Tanh Activation Function (Werte zwischen -1 und 1)

3. ReLU Activation Function (Rectified linear Unit; nur positive Werte)

4. (Softmax Aktivierungsfunktion bei CNN)

 Sigmoid = Tanh Funktion nur anders skaliert und geht nicht durch Nullpunkt (Sigmoid ist
nicht um Nullpunkt zentriert, Tanh schon)

Verlustfunktion = Differenz zwischen aktuellem und korrektem Wert


 Verlustfunktion benötigt eine Backpropagation

 Quantifiziert, wie weit die aktuelle Ausgabe des Modells von der korrekten Ausgabe
entfernt ist

 Wenn Verlustfunktion gleich 0 ist, kann dies Überanpassung anzeigen

 Beim Training ist das Ziel die Verlustfunktion über alle Trainingsdaten hinweg zu
minimieren und die Ausgabe schrittweise (Gradient Descend, Lernrate) so nah wie
möglich an den korrekten Wert heranzuführen

 Beispiele Verlustfunktionen: Root Mean Squared Error und Cross Entropy

 Bei der Backpropagation werden die Gewichte und Werte der Neuronen mit Hilfe der
Verlustfunktion schrittweise angepasst (Prozess wird Gradient Descend genannt)

 Der Gradient bestimmt zusammen mit der Lernrate die Anpassung der Gewichte
(iterativer Prozess: also mehrere Anpassungen nötig)

Lernrate:
- bestimmt die Schrittgröße, während man sich auf ein Minimum der Verlustfunktion
zubewegt

 Ist die Lernrate zu gering wird das Minimum sehr langsam erreicht

 Ist die Lernrate zu hoch wird das Minimum evtl. nicht erreicht, da es „übersprungen“
wird

Gradient Descent:

 Backpropagation: Anpassung der Gewichte und Werte der Neuronen mit Hilfe der
Verlustfunktion (nennt man Gradient Descent Prozess)

- Trainieren:

 Underfitting: zu einfache Struktur vs. Overfitting: Struktur zu komplex

 Overfitting z.B. durch weniger Schichten/Knoten verhindern

 Neuronales Netz sollte so gestaltet sein, dass under- und overfitting vermieden wird
 Mit der Fehlerrate beim Trainieren (training error) und beim Testen (test error) kann
man beurteilen, wie gut ein Neuronales Netz das gewählt Problem löst

Convolutional Neuronal Networks (CNN): „faltendes neuronales Netz” (Bildverarbeitung!!)


 Aus einem Bild werden viele Bilder unterschiedlichen Detaillierungsgrades

Grundstruktur CNN:

 Wird eingesetzt, wenn PC Bilder erkennen soll

 CNN ist ein NN!, das auf Bildverarbeitung spezialisiert ist


 Analysiert zunächst jeweils kleine Ausschnitte hinsichtlich (lokaler) Muster (Muster
können irgendwo im Bild vorkommen)

 Ablauf:
1. Input Bild/Kernel
2. Faltungen/Convolutions anhand der Filter/Kernels (alle convolutional layer
zusammen bilden die Feature/Activation Map)
3. Pooling (max. vs. average)
 1-3 Zusammen: Feature Extraction
4. Fully connected layer des Neuronalen Netzwerks, arbeitet mit einem
flattende Input/Layer (klassisches NN)
 4. Classification
5. Ouput mit SoftMax Aktivierungsfunktion als Wahrscheinlichkeitsfunktion
(Zahlen zwischen 0 und 1)
 5. Probabilistic Distribution

 Deutlich weniger Gewichte als bei einfachen NN, daher schneller, platzsparender und
robuster

 Rahmenbedingungen/Aspekte/Features erschweren die Objekterkennung

 Deswegen Pooling: verringert die Anzahl der Features der Feature Map und bewirkt
damit räumliche Invarianz (Komplexität verringern und ungenauer werden)

 Output: Softmax Aktivierungsfunktion, die eine Wahrscheinlichkeit angibt

 3 wesentliche Schichte:

1. Feature Extraktion

2. Klassifikation

3. Wahrscheinlichkeitsverteilung

 Convolutional Layer: Ein Layer transformiert einen Input der Dimension (Tiefe) C mit
Hilfe von K Filtern in einen Output der Dimension (Tiefe) K

 Wichtig: Die Höhe und Breite der Bilder sinkt, die Tiefe (Anzahl) der Bilder nimmt zu
(im Laufe der Faltungen)
 224 *224= Anzahl der Pixel (also Höhe und Breite des Bildes)

 *3 steht für die RGB Farbangabe (=Tiefe, also die 3 Farben)

 Nach ersten Faltung: 64 Filter wurden angewendet, die 64 Bilder erstellen

 In dem Bild fragt das CNN nach 1000 verschiedenen Parametern

 WICHTIG: aus einem großen Bild werden durch Faltungen viele kleinere Bilder über die
Faltungsschichten hinweg gemacht (durch Anwendung von Filtern)

 Alle Bilder enthalten alle Informationen der vorherigen Bilder

 Pooling: normalerweise immer max Pooling: d.h. der höchste Wert der aktuellen
Ansicht wird ausgewählt und weitergegeben (so werden die Pixel verringert)

- Convolutional Layer: die Gewichte sind für alle Neuronen identisch (geteiltes Gewicht)

 Schritt bezeichnet die Anzahl der Pixel, die der Kernel bewegt (=Stride)

 Kernel = Filter = Bildausschnitt


- Matrixaufgabe: bei CNN (pooling layer)

 Mit maxpooling aus 4*4 ein 2*2 Output machen

 Bei maxpooling immer den größten Wert aus den 4 Feldern nehmen und übertragen

 Bei average pooling alle addieren und Mittelwert bilden

WICHTIG: Zero padding beachten! (Füge eine Reihe von Nullen hinzu)

- Fragen aus Probeklausur und Lernmodul

 Machine Learning ist eine Teilmenge von KI

 AI -Winter bezeichnet eine Phase mangelnder KI-Finanzierung

 Machine Learning kann ohne explizite Anweisungen lernen

 Neuronale Netze lernen eigenstädnig eine latente Repräsentation

 Neuronale Netze können als mathematische Matrizen dargestellt werden

 Das Periodensystem der KI klassifiziert nach Lernparadigmen

 CNN: Padding/Auffüllen = Nullen an Grenzen ergänzen

 Pooling immer nach dem Convolutional layer

 Fully connected layer arbeitet mit einem “flattened” input, indem jeder input mit allen
Neuronen verknüpft wird
 Max pooling nimmt den Maximalwert der aktuellen Ansicht

 Average Pooling nimmt den Durchschnittswert der aktuellen Ansicht

 Deep Learning Algorithmen basieren auf Neuronalen Netzen

 Ist die Lernrate zu hoch, wird ein Neuronales Netz vermutlich nicht konvergieren (der
Wert wird wahrscheinlich übersprungen; Bausteine von NN)

 Mit einer niedrigen Lernrate können Sattelpunkte NICHT überwunden werden

 Komplexe neuronale Netze laufen Gefahr überangepasst zu sein

 Die Verlustfunktion berechnet den Unterschied zwischen einem vorhergesagten und


tatsächlichen Wert

 Standardmäßig gibt es pro Schicht einen Bias, welcher zu den Neuronengewichten


addiert wird

 Pooling verkleinert die Feature Map und bewirkt räumliche Invarianz

 Pooling verwirft unnötige Informationen und erhöht damit die


Berechnungsgeschwindigkeit, verringert den Platzbedarf und ist eine
Präventionsmaßnahme gegen overfitting

 Die ReLU Funktion ist nicht-polynomisch

 Bei TanH handelt sich um eine skalierte Sigmoid Funktion

 Nichtlineare Aktivierungsfunktionen erlauben die Approximation beliebig komplexer


Funktionen

 Die Sigmoid Funktion ist nicht um den Nullpunkt zentriert (Werte zwischen 0 und 1)

 Supervised learning wird z.B. in der Bilderkennung eingesetzt

 Unsupervised Learning benötigt keine Labels

 TanH (-1 bis 1) = Sigmoid (0 bis 1) Fkt. Mit anderem Wertebereich (anders skaliert)

 ReLU, TanH, Sigmoid sind nicht-lineare Aktivierungsfunktionen

 Verbessern von Fehlern im NN heißt Backpropagation

 Vorverarbeitung bei NN ist weniger wichtig als bei ML

 Overfitting beschreibt zu hohe Anpassung an Datensatz


MLP: Multi-Layer Perceptron (Aufbau neuronale Netze)
Sehr wichtig!

WICHTIG: Achsenbeschriftungen lernen!!


WICHTIG: Welche Neuronalen Netzte/Architekturen eignen sich für welche Anwendungsbereiche?

- GAN-Netzwerk für Deep Fakes

- MLP = normales Feed Forward

- CNN für autonomes Fahren nehmen

- Alexa nachbauen: LSTN oder Transformer (wegen Sprachsystem)

- Allgemein für Sprache: Old school networks (RNN und LSTN) und Transformer

- BERT für Sentiment-Analyse und Frage-Antwort gut

Vorlesung 8: Natural Language Processing (NLP)


- Ist Teil von ML

- Beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache

- Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der
natürlichen Sprache

- NLP muss Lösungen schaffen, um sowohl gesprochene als auch geschriebene Sprache zu
erkennen, zu analysieren und den Sinn zur weiteren Verarbeitung zu extrahieren

- Hierfür ist ein Verständnis nicht nur von einzelnen Wörtern und Sätzen, sondern das
Erfassen von kompletten Textzusammenhängen und Sachverhalten notwendig

- Herausforderung für NLP ist die Komplexität der menschlichen Sprachen und deren
Mehrdeutigkeit

1. Schritt bei NLP IMMER: Word embedding


- Einzelne Wörter in Vektoren darstellen (der Computer kann nur mit Zahlen arbeiten)

- Es gibt verschiedene Attribute, die den Wörtern dann (je nachdem wie stark sie zutreffen
einen Vektor zuweisen)

- Die 7 (7D) Vektoren werden kann auf 2D reduziert und in einem Vektorraum dargestellt

- Wörter die Ähnlichkeiten aufweisen oder oft zusammen benutzt werden stehen dann in
räumlicher Nähe im Vektorraum

 Darauf kann dann eine beliebige Architektur angewendet werden (auf das word
embedding), z.B. RNN, LSTM, BERT, GPT-3 etc.

- IBM Watson Supercomputer (seit 2006)

 Computer, der in der Lage ist Fragen in natürlicher Sprache zu beantworten

 Kombiniert KI und analytische Software für die Leistung

 Kosten 1 Millionen, 15 Terrabyte RAM,

 90 server, 200 Millionen pages of information

 Wenn Vertrauen niedrig ist, würde Watson in der Jeopardy Show nicht anworten

 Für Quizshow Jeopardy entwickelt

 Nach ersten CEO benannt

 Reihenfolge IBM Watson bis zum Ergebnis:

1. Fragenanalyse

2. Erstellung Hypothese
3. Hypothese und Evidenzbewertung

4. Zusammenführen und Rankingerstellung

- Old School NLP: RNN und LSTM


 RNN=Recurrent Neural Network

 LSTM=Long Short Term Memory

 Beides neuronale Netze für Sprachverarbeitung

 Abarbeitung von Sequenzen für Informationen

- RNN: nur 1 Gedächtniszelle (Unterschied zu LSTM)

 RNN-Neuron hat Bias-Wert und Hidden State als veränderbare Speicher

 Blaues Neuron kriegt Input und merkt sich aber schrittweise weniger von einem älteren
Input

 Vorteile von RNN: gut für lokaler Kontext (Textvorhersage; Worte eines Satzes merken)

 Nachteil: je mehr/länger die Sätze, desto weniger wird sich vom Anfang gemerkt
 Vanishing Gradient Problem: RNNs eignen sich gut für kurzfristige Erinnerung (1) und
weniger gut für längerfristige Erinnerung (2)

 Ablauf: Ein Wort wird eingelesen und ergibt einen Ouput

 Der Output wird erneut (recurrent) mit dem neuen Input eingelesen usw.

 Deshalb Recurrent Neural Network (Netzwerke rufen sich recurrent selbst auf)

 So wird über die Zeit hinweg gelernt

 Problem: ich weiß am Ende nicht mehr, was ich am Anfang gemacht habe (Vanishing
Gradient Problem) Lösung durch das LSTM-Netzwerk

- Grundlegende RNN Architektur: WICHTIG Klausur!

 Üblich ist many to many (z.B. Übersetzung von Sätzen einer Sprache in andere)

- LSTM: Weiterentwicklung von RNN (2 Gedächtnisse)


 Hat Kurzzeit- und Langzeitgedächtnis

 Löst durch die 2 Gedächtnisse das Vanishing Gradient Problem der RNN´s

 Ermöglicht aktive Steuerung von dem was erinnert werden muss und was vergessen
werden kann
 LSTM hat 3 Gates: Input-Gate (bearbeitet den Input), das Forget-Gate (steuert was
vergessen werden soll), das Output-Gate (steuert was weitergegeben werden soll)

 Seit 2016 alle großen Techunternehmen nur noch LSTM als Komponente

 Für Sprachassistenten, Siri, Alexa etc.

- Encoder-Decoder (Sequence to Sequence): für Fragen/Antwort, Übersetzungen


 Input nur in Encoder: Verarbeitung von Input Wort für Wort!

 Decoder nimmt Gelerntes aus Encoder und entwickelt Output: gibt Ouput Wort für
Wort!

 Je nach Länge Input kann der Output länger sein (Länge der Sequenz)

 Einsätze: Spracherkennung, Musikerkennung, DNA-Erkennung etc.

 Kombinierter Einsatz von CNN und LSTM möglich: Kombination aus RNN und LSTM mit
Feed-Forward-Netzen (z.B. CNN); sie bringen dann „memory“ hinein

 Anwendung dann z.B.: Textuelle Beschreibung von Bildern (Image Captioning) oder
automatische Generierung von Untertiteln (Video Captioning)

- Unterschied RNN und LSTM:

 RNN eignet sich für kurzzeitige Erinnerung, dessen Neuronen haben jeweils einen
Speicher

 LSTM: wird von Google für Spracherkennung verwendet, enthält 3 Gates (Input, Output,
Forget), haben Kurz- und Langzeitgedächtnis damit RNN überlegen
- New School NLP: Transformer Netzwerke (deep learning model), viel trainieren!!
 RNN und LSTM liest Text wortweise von links nach rechts (keine Transformer!!!)

 Transformer: liest ganzen Satz, nicht wortweise (wie bei Menschen, von Google
entwickelt)

 Deshalb braucht ein Transformer auch weniger Training als RNN´s, da mehr Daten
gleichzeitig (parallel) verarbeitet werden

 Jedes Wort bekommt viele Vektoren zugeordnet (=word embedding, Bildet das Wort
dann in einem Vektorraum ab)

 Wörter, die ähnlich zueinander sind, sind näher beieinander (Hund und Katze haben
beide das Attribut vier Beine und deswegen auch den gleichen Vektor für dieses
Attribut -> räumliche Nähe im Vektorraum)

 Transformer: Aufmerksamkeitsmechanismus (attention-Mechanismus bei mehreren


„multi headed“): wo schaut der Algorithmus hin, um den Satz zu erkennen

 Transformer nutzen Self-attention und Parallelverarbeitung

- Attention-Mechanismus:
 Ähnelt Korrelationsmatrix, da jedes Wort mit jedem Wort in Beziehung gesetzt wird
(wird berechnet)

 Bsp.: für 100 Wörter X Sekunden

 Für 1000 Wörter das 100-fache (quadratrisch höherer Aufwand: 10*10)

 Transformer werden für Text und Bild verwendet

 Transformer lernt selbständig, was wichtig sein könnte

 Kann Daten besser parallel verarbeiten (führt zu schnellerer Verarbeitung, da


gleichzeitig)

 Setzt auch Encoder und Decoder ein, aber noch mehr

 Bildet Beziehungen zwischen einzelnen Wörtern ab: z.B. Hase und hüpfen oft
beieinander oder Katze und Hund sind näher aneinander als Katze und Haus

 Gelernt wird durch die Attention-Mechanismen (Aufmerksamkeitsmechanismen): davon


gibt es mehere

 WICHTIG: jedes Wort wird als Vektor in einem Vektorraum beschrieben, die Position im
Raum ergibt sich aus dem Vektor, die räumliche Nähe (z.B. Hund und Katze) ergibt sich
aus der Analyse von Sätzen.

 word embedding (=input embedding) und attention Mechanismen sind zentral


- BERT Transformer (Google 2018, new school transformer):
 Bidirectional Encoder Representations from Transformers

 Von Google entwickelt

 Unterschied BERTBase (12 Schichten mit110M Parametern, 12 heads, 768-hidden) und


BERTLarge (24 Schichten mit 340M Parametern, 16 heads, 1024-hidden)

 =open-source

 Wird generell vortrainiert und später auf spezifische Inhalte trainiert

 Training z.B. mit Wikipedia Corpus (= rießig!!)

 Spezialisiert auf NLP-Fragestellungen

 Konzentration auf Encoder!

 Für Sentiment Analyse und Fragen beantworten gut

 Training läuft in 2 Schritten: Pre-Training und Fine-Tuning

I. Pre-Training: sehr große Datenmengen


1. Mask LM: masked language model: manche Wörter verdeckt, also selbst erraten (15%
der Worte sind im Input maskiert und müssen vorhergesagt werden (bidirektionale
Suche: da verdecktes Wort in der Mitte des Satzes: links und rechts davon sind
Informationen verfügbar))

2. NSP: Next Sentence Prediction: folgen 2 Sätze aufeinander (Vorhersage der


Reihenfolge)? Es werden immer 2 Sätze gleichzeitig geliefert (falls falsch: über Back-
Propagation lernen) BERT bekommt 2 Sätze im Input und muss Reihenfolge
vorhersagen

II. Fine-Tuning: Feinabstimmung

 TLDR: “too long didn´t read” für Textzusammenfassungen mit übermäßig vielen
Informationen

 Facebook nutzt TLDR um Texte zusammenzufassen

- GPT-3 Transformer: (new school transformer, 2020): autoregressives Sprachmodell


 Generative Pretrained transformer: vorrangig für Generierung von Texten verwendet

 Unidirektional (von links nach rechts, anders als BERT (bidirektional))

 Zentral: Pre-Training, damit es danach leichter wird, Feinabstimmung mit Prompts

 Deep learning: sehr große Datenmengen, auch Bildverarbeitung möglich

 Von OpenAI

 175 Milliarden natural language processing Parameter

 Hat 96 decoder Schichten und 96 heads (BERT nur max 24!)

 2048 tokes breit

 Ziel: menschenähnliche Sprache erzeugen

 Kernidee: Wie kann Vorlernen so erweitert werden, dass man hinterher sehr flexibel ist,
um auch Dinge verändern zu können an die man beim Design des Ansatzes noch nicht
gedacht hat

 Zero-Shot Learning: Kein Beispiel vorgegeben; Vorher noch nie ein Zebra gesehen, soll
aber trotzdem eines auf Grundlage von früheren Merkmalen (Streifen etc.) erkennen (vs.
one shot und few shot)

 Ca. 175 Milliarden verschiedene Parameter

 Schwerpunkt auf Decoder (ca. 96 Decoder Schichten mit 96 attention heads (Bert nur
24))

 Context window: 2048 tokens breit anhand von denen tokens verarbeitet werden

 Problem: GPT-3 kann einen gut gemachten Text schreiben ohne ihn zu verstehen, ist also
auch von der Art des Inputs abhängig (kann Kriegserklärung schreiben ohne den Inhalt zu
verstehen)

- Unterschied BERT und GPT-3:


 BERT: Auf NLP spezialisiert: aus vorgegebenen Standardsatz (Fine-Tuning); nur Encoder;
bidirektional, da Infos aus vorherigen und folgenden Satzbestandteilen

 GPT-3: Few-Shot: Encoder und Decoder mit Fokus auf Decoder; von links nach rechts
(immer nächstes Wort)

 GPT-3 470 mal größer als BERT-Large

 GPT-3 beherrscht Few-Shot learning

 BERT wurde von maskierten Sätzen vortrainiert

 GPT-3 kann mit Prompts feinabgestimmt werden

- Fragen aus Lernmodul und Mentimeter:


 Bei NLP (natural language processing) handelt es sich um eine Technik, die benutzt wird,
um Text so aufzubereiten, dass daraus Informationen gezogen werden können und für
Algorithmen weiter benutzt werden können

 Bilder sind keine Sequenzdaten

 IBM würde bei niedrigem Vertrauen nicht anworten

 Das Output-Gate von LSTMs steuert, welche Informationen weitergegeben werden

 Bildunterschrift als Beispiel für one-to-many RNN-Struktur

 Die Länge der Eingabesequence bei Encoder-Decoder kann von der Länge der
Ausgabesequenz abweichen

 Der Erfolg der Transformer geht auf die Achtung/attention zurück

 Bei Transformern müssen sequentielle Daten nicht in der richtigen Reihenfolge


verarbeitet werden, bei RNN/LSTM schon

 Transformer ermöglichen eine schnellere Parallelisierung

 Transformer benutzen Aufmerksamkeitsmechanismen und Parallelverarbeitung

 BERT wird mit 2 Typen geliefert: Base-Modell und Large-Modell

 Die Vorhersage des nächsten Satzes ermöglicht das Erlernen von Satzbeziehungen

 Das maskierte Sprachmodell wird verwendet, um fehlende Wörter vorherzusagen

 Wenn zu viele Wörter in der Eingabsequenz ausgeblendet werden gibt es nicht genug
Kontext um zu Trainieren

 GPT-3: zeigt Eigenschaften von Zero-Shot learning, war ein von Microsoft erworbenes
Open-Source Produkt, BERT und GPT-3 sind vorgeübte Transformatoren, GPT-3
verwendet ein Kontextfenster der Größe 2048

 Many to one: für Vorhersage von Texten oder Sentimenten

 Many to many: für Übersetzungen aus verschiedenen Sprachen

 One to many: kann mit einer RNN Architektur gelöst werden


 Encoder: Bearbeitung eines Satzes Wort für Wort im Encoder

 Decoder generiert wortweise die Ausgabe

Lernmodul 9: ML 3
Transfer Learning:
 Sehr wichtig, da ohne transfer learning nur etwa die Big Five Unternehmen ML nutzen
können (alle müssten die Modelle selbst trainiere -> nicht machbar, da riesiger Aufwand,
Rechenleistung etc.!)

 Ein Unternehmen trainiert das Modell und gibt dieses weiter (z.B. Google)

 Alle anderen Unternehmen nehmen den vortrainierten Datensatz und machen nur
noch Fine-tuning auf einen kleinen Datensatz

 Das Erlernen einer neuen Aufgabe beruht auf vorher gelernten Aufgaben

 Oft auch universelle Lösungen

 Grund: freie Wirtschaft/Unternehmen haben nicht die Zeit die Programme so zu


trainieren wie Microsoft und Co.

 Ist ein Forschungsproblem des ML, das sich darauf konzentriert Wissen aus der
Bearbeitung von Problemen zu speichern und auf andere anwenden zu können

 Nur noch Anpassung nötig (z.B. für Ärzte, die sich nicht mit KI beschäftigen müssen)

 2 Ziele/Vorteile

1. Mit weniger Daten starten können (höhere Präzision)

2. Schneller starten können (higher start, slope (Steigung), asymptote)


- Wann/Wie wird Transfer Learning angewendet?

 = klassisches CNN, das nur noch mit spezifischen „Bilder“/Daten trainiert wird

 Alles was das CNN vorher gelernt hat bleibt bestehen

 Anwendbar, wenn

1. Es eine große Anzahl ähnlicher Daten in einer anderen Domäne gibt und wenige in
der aktuellen Domäne (starten auch mit weniger Daten möglich)

2. Nicht genügend Rechenpower vorhanden ist (kann auf vorherige zugegriffen werden;
schnellerer Start)

 2 Optionen transfer learning anzuwenden:

1. Man nimmt das Netz mit den vortrainierten Werten und trainiert nur noch spezifisch
auf die eigene Domäne (das komplette Netzwerk wird neu trainiert auf Basis des
Vortrainings, aber Lernrate nur sehr gering, sodass sich die vortrainierten Gewichte
nicht drastisch verändern)

2. Ersten Schichten passen, also nur noch Fine-tuning in den letzteren Schichten
(Gewichte und Biasses der ersten paar Schichten einfrieren und nur noch die
letzten paar Schichten und den fully connected trainieren)

Autoencoder: (z.B. um alte Bilder in „neu“ darzustellen, altes Bild der Oma etc.)
- = Neuronales Netz mit bestimmten Aufgaben

- Generiert mehr Bilder als eigentlich zu sehen sind (Bsp. Nvidia)

 Bilder werden schärfer

- Autoencoder werden mit „Rauschen“ regularisiert


 Merkmal: „Flaschenhals“ in der Mitte (weniger Neuronen als im Input und im Output)

 Encoder ist Reduktionsseite; Decoder ist Rekonstruktionsseite

 Encoder und Decoder funktionieren auch alleine (Grund: Modell ist Ende-zu-Ende
verschlüsselt)

 Wird genutzt, um Datenverschlüsselung zu erlernen

 „unsupervised“

 Nicht relevante Infos/Neuronen werden verworfen (komprimieren des Bildes)

 Manchmal Problem: NN merkt sich das Input-Bild einfach 1:1 (overfitting)

 Deswegen „Rauschen“ einbauen (z.B. Haarfarbe verändern)

 Overfitting kann durch verschiedene Autoencoder Architekturen verhindert werden (z.B.


Denoise Autoencoder etc.)

- Ablauf:

 Bild als Input (encoder=Reduktion)

 Komprimieren des Bildes

 Ergibt reduziertes Bild („Flaschenhals“/Code)

 Daraus wird das gleiche Bild in höherer Auflösung neu gemacht


(decoder=Rekonstruktion)

- Ziel: Rauschen minimieren (entrauschen) und Qualität erhöhen

- Modell ist Ende-zu-Ende trainiert:

 Encoder und Decoder funktionieren auch einzeln (z.B. nur encoder oder nur decoder)

 Vgl. bei MP3 Dateien (komprimiert Audio) oder Video upscaling

 Video-upscaling: Auflösung verbessern, obwohl die Daten dafür nicht vorliegen


- Verschiedene Autoencoder Architekturen:

 Sparse Autoencoder

 Convolutional Autoencoder

 Variational Autoencoder

 Denoise Autoencoder

GAN (Generative Adversarial Networks): für Deep Fakes!


- Aufgabe: etwas zu produzieren (generativ)

- Kaum richtige Anwendungen, nur für Spaß

 Einzige gute Idee: künstliche Daten (ohne Datenschutz) erstellen, wenn zu wenige Daten
vorhanden sind

- Adversarial (2 Netzwerke stehen in Konkurrenz)

- Müssen keine Bilder sein, sondern kann alles sein

- GAN kann lernen jede Datenverteilung nachzuahmen

- 2014 von Goodfellow designed

2 Komponenten/ 2 Netzwerke

1. Generator: muss etwas generieren (z.B. erkennt einen Geldschein)

2. Diskriminator: Echt von falsch unterscheiden erlernen (z.B. kann die Echtheit erkennen)

- Z.B. für Filmeffekte oder „neue“ Gesichter erstellen

- Grundidee: „indirektes“ Training durch den Diskriminator, welcher selbst dynamisch


geupdated wird

- Der Generator wird trainiert, um den Diskriminator zu „verarschen“/testen

- Modell lernt „unsupervised“


- Generator: hier quasi der Verbrecher, der die Bilder fälscht

- Discriminator: der Polizist, der die Bilder überprüft anhand der echten Bilder

- Man kann beide trainieren:

 Generator soll dann „Deep Fakes“ also Bildfälschungen erstellen

 Discriminator soll diese Deep Fakes erkennen

(Deep) Reinforcement Learning (RL):

- Verstärkendes lernen

- Regeln/Aufgaben werden mitgegeben, Rest wird selbst gelernt

- Von Erfahrung und Fehlern lernen = Prinzip: Teaching by experience

- System trainiert selbständig

- Teilbereich des ML bei dem ein Agent selbständig eine Strategie erlernt, um eine zu
erhaltende Belohnung zu maximieren

 Die Aktion des Agenten wird durch den Interpreter bewertet und je nachdem, ob es gut
war oder nicht wird der Agent belohnt oder bestraft

- Neben Supervised und unsupervised Learning eines der 3 grundlegenden ML Paradigmen

- Bsp.: Roboter soll selbständig Rubik´s Cube oder Schachzug spielen lösen

Fragen aus Lernmodul und Mentimeter:


Ein Autoencoder ist eine Art künstliches neuronales Netz, mit dem effiziente Datencodierung
unbeaufsichtigt erlernt wird. Das Ziel dieser Methode ist es eine Codierung eines Datensatzes zu
erlernen und typischerweise für dieselben Daten eine Reduzierung der Dimensionalität zu erlangen.
Dies wird meist dadurch geschafft, dass "Rauschen“ ignoriert wird. 

Diese Technik besteht aus zwei Seiten. 


Auf der Reduktionsseite (Encoder) werden die Rohdaten genommen und komprimiert. Auf der
anderen Seite - der Rekonstruktionsseite (Decoder) - nimmt diese kleine Menge an Daten und
versucht sie so nah an das Original wie möglich zu bringen.

- Transfer learning wird genutzt, wenn wenige Daten vorhanden sind

- Transfer learning wird genutzt, um das Training zu beschleunigen

- Der Erfolg von transfer learning hängt von der Datenähnlichkeit ab

- Transfer learning hat das Potenzial, die Probeneffizienz eines Verstärkungslernmittel


signifikant zu verbessern

- Transfer Learning: das Erlernen einer neuen Aufgabe hängt von den zuvor erlernten
Aufgaben ab

 Lernen verwendet abstraktes Wissen wieder und trainiert spezifisches Wissen neu

 Das Lernen wird aus vorab trainierten Gewichten und Vorurteilen initialisiert

- Autoencoder werden mit Rauschen regularisiert

- Aussagen zu GAN:

 Netzwerk basiert auf unsupervised learning

 Kernidee basiert auf „indirektem“ Training durch den Diskriminator, der selbst ebenfalls
dynamisch aktualisiert wird

 Diese Methode wird bspw. zum Generieren von fake Media verwendet

- Reinforcement learning basiert auf dem Prinzip „teaching by experience”

- Autoencoder:

 Video-Upscaling ist eine mögliche Anwendung von Autoencoder

 Die Empfindlichkeit für die Eingabe in Autoencoder bedeutet, dass das Modell eine
Rekonstruktion genau erstellen kann

 Anwendungen: Erkennen von Anomalien, Entrauschen von Daten, Inpainting von Bildern
(in Farbe darstellen), Abrufen von Informationen

- GAN (Generative adversarial Network):

 Wird für Deepfakes verwendet (erstellen oder erkennen, je nachdem, ob das Generator-
oder das Diskriminator Netzwerk trainiert wird)

Das könnte Ihnen auch gefallen