Sie sind auf Seite 1von 28

Semesterablauf

Woche Vorlesungsinhalte Übung


1 März Kurs-Einführung ✔ Python-Entwicklungsumgebung ✔
2 Daten - Strukturiertheit und Formate ✔ Daten einlesen und verarbeiten ✔
3 April Datenerhebung Web Scraping | Sampling
4 - Feiertag - Streudiagramm & Korrelation
5 Korrelation und Regression | Streudiagramm Lineare Regression
6 Prozessmodelle für datenorientierte Projekte Planung Semesterprojekt Abgabe 1
7 Mai - Feiertag - Explorative Datenanayse
8 Prozessmodelle für datenorientierte Projekte Zeitreihenanalyse
9 Maschinelle Lernverfahren I Werkzeug „RapidMiner“
10 Maschinelle Lernverfahren II Gruppen-Konsultationen Abgabe 2
11 Juni Deep Learning | Evaluation | Betrieb Persistenz von ML-Modellen
12 Visualisierung und Story-Telling Visualisierung
13 Schutz, Sicherheit, Souveränität | Big Data Vertrauenswürdigkeit | Cloud
14/15 Abschlusspräsentationen Projekt
Predictive Analytics & Big Data
Technische Hochschule Brandenburg · University of Applied Sciences 47
Predictive Analytics & Big Data

Datenerhebung

Prof. Dr.-Ing. André Nitze


andre.nitze@th-brandenburg.de

Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Technische Hochschule Brandenburg · University of Applied Sciences 48


ETL-Prozess

EXTRACTION TRANSFORMATION LOADING

• Extraktion der Daten aus • Datenformat und • Laden der Daten in ein
Datenquelle(n) Schema festlegen Data Warehouse,
Twitter • Daten bereinigen und Datenbank oder andere
SCM
aggregieren Datensenke
CRM Blob
storage • Qualitätssicherung
ERP MySQL •…

Die Rolle Data Engineer sorgt für die Automatisierung des ETL-Prozesses in
Form einer ETL-Pipeline. – Meist mit Scripting-Werkzeugen.

Besonderheiten bei sehr großen Datenmengen


• Reihenfolge „EL-T“ möglich → Transformation erst durch Data Scientists
• Sammlung der Rohdaten zusammen mit den transformierten Daten (in einem Data Lake)
Predictive Analytics & Big Data
Technische Hochschule Brandenburg · University of Applied Sciences 49
Datenquellen: Woher kommen Daten?

Interne Datenbanken in Organisationen


• Transaktionen im ERP-System
• Aufgerufene Webseiten auf Servern
• Gekaufte Produkte im Webshop/Point of Sale (PoS)
• …

Offene Datenquellen
• Govdata
• Statista
• Kaggle
• Schnittstellen (APIs)
• Einzelne Webseiten
• …

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 50
Predictive Analytics & Big Data
Technische Hochschule Brandenburg · University of Applied Sciences 51
Kaggle: Vorverarbeitete Datensätze und Notebooks

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 52
Kaggle – Vorverarbeitete Datensätze und Notebooks

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 53
Bezugsquellen für frei verfügbare Datensätze

https://www.kaggle.com/datasets
https://archive.ics.uci.edu/ml/index.php
https://github.com/awesomedata/awesome-public-datasets
https://registry.opendata.aws
https://datasetsearch.research.google.com

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 54
Daten im Alltag

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 55
Daten aus Smart Watches

Bild: https://campus.datacamp.com/courses/data-science-for-everyone/introduction-to-data-science-1?ex=4, Abruf 2022-03-22.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 56
Daten für Anomaly Detection / Fraud Detection

Bild: https://campus.datacamp.com/courses/data-science-for-everyone/introduction-to-data-science-1?ex=4, Abruf 2022-03-22.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 57
Daten für Deep Learning (z. B., Objekterkennung auf Bildern)

Bild: https://campus.datacamp.com/courses/data-science-for-everyone/introduction-to-data-science-1?ex=4, Abruf 2022-03-22.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 58
Daten erheben in der Praxis

Problem: Es gibt keinen „fertigen“ Datensatz zur Fragestellung!

Lösungsansätze
• Kombination und Anreicherung existierender Datensätze
• Nutzung synthetischer Daten (mit hohem Aufwand und Verzerrungsgefahr)
• Extraktion aus öffentlichen Quellen (v.a. Internet) durch „Web Scraping“

Bild: https://apify.com/web-scraping, Abruf 2022-03-22.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 59
Web Scraping

➢ Automatisierter Abruf von Ressourcen aus dem Internet zur systematischen Extraktion von
Daten

Typischer Ablauf
1) Herunterladen der Ressource (HTML/XML-Datei…) von ihrer Adresse (URL)
2) Parsen des wohlstrukturierten Dokuments (Zeichensatz, Tags, Verschachtelung, Validität…)
3) Speichern der extrahierten Daten zur Weiterverarbeitung

Werkzeuge
• Scripting (Python/PHP-Script + Cronjob, z. B., „Beautiful Soup“, cURL)
• Automatisierungs-Tools (Selenium, „headless“-Browser, Software-Test-Frameworks)
• SaaS-Produkte (process automation / robotic process automation, z. B., Apify, Scrapy,
ScraperAPI, ProWebScraper, Netlify)

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 60
Web Scraping – Beispiele

…oder den Verlauf von Preisen festzustellen.

Preissuchmaschinen scrapen regelmäßig Webshops (Produkte,


Flüge, Konzertkarten…) um den besten Preis anzuzeigen…
Bilder: idealo.de, 2022-04-19

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 61
Web Scraping – Beispiele

Google Crawler / Bot „indiziert“ Inhalte von


Webseiten für das Ranking und die Darstellung
von Ergebnissen auf Suchergebnisseiten (SERPs)

Bilder: google.de, 2022-04-19

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 62
Web Scraping – Beispiel „Large Language Models“ (LLMs)

Bild: https://lifearchitect.ai/chatgpt/, Abruf: 2023-03-15.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 63
Web Scraping

XML-basierte Ressource (in diesem Fall: statische Webseite)

Import der Python Bibliothek „Beautiful Soup“

Bild: https://www.crummy.com/software/BeautifulSoup/bs4/doc/, 2022-04-19.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 64
Web Scraping

XML-basierte Ressource (in diesem Fall: statischedes


Extraktion Webseite)
Seitentitels (ganzer Tag,
CSS-Klasse oder Textinhalt)

Zugriffsmethoden zum Auffinden aller Links


(HTML-Klasse „anchor“ oder per „id“-Attribut)

Import der Python Bibliothek „Beautiful Soup“

Bild: https://www.crummy.com/software/BeautifulSoup/bs4/doc/, 2022-04-19.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 65
Web Scraping

2) RECHTSKLICK

1) RECHTSKLICK →
„Inspect Element“

CSS Selector: #menu-description > span


XPath: //*[@id="menu-description"]/span

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 66
Web Scraping – Rechtliche Aspekte

• Rechtliche Grauzone
• Schöpfungshöhe von Datenbanken (Soziale Netzwerke,
Archive/Sammlungen)
• Alles, was öffentlich ist, kann leicht automatisiert
verarbeitet werden (insb. auf Plattformen, wo
Informationen strukturiert, z. B. in Profilen, zur Verfügung
gestellt werden)

• Grundsätzlich: Wenn technische Schutzmaßnahmen


vorhanden sind und überwunden werden, ist es nicht
legal! → Unlauterer Wettbewerb gem.§ 4 Nr. 10 UWG
• Ansonsten: Nutzungsbedingungen prüfen! Oftmals
explizite Verbote von Scraping, weil viele Geschäftsmodelle
auf Daten basieren.
Quelle: https://www.ra-plutte.de/bgh-zum-automatisierten-auslesen-fremder-websites-via-screen-scraping/, 2022-04-19

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 67
Web Scraping – Rechtliche Aspekte

Technische Empfehlung an Crawler


nicht zu scrapen:
robots.txt
User-agent: *
Disallow: /

Rechtliches Verbot zum Scrapen


personenbezogener Daten:
GDPR/DSGVO

Quellen
https://www.derstandard.de/story/2000125702302/daten-von-
500-millionen-linkedin-nutzern-werden-im-netz-verkauft,
https://www.facebook.com/apps/site_scraping_tos_terms.php,
Abruf: 2021-04-21.

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 68
Der Sprung in die echte Welt – Digitalisierung analoger Signale

Grundsatz der Digitalisierung: Alles, was in der analogen Welt wahrgenommen werden kann,
kann auch digital erfasst und verarbeitet werden.

Instrumente für die Erhebung analoger Daten


• Manuelle Erfassung
• Beobachtung mit Strichlisten, „Klicker“ bei Personenzählung etc.
• Befragungen
• Elektronische Sensoren (als Ersatz für menschliche Sinne)
• Optische Sensoren (Kameras, Scanner, Helligkeit…)
• Chemische Sensoren (CO2, Feinstaub, Gefahrenstoffe…)
• Sensoren für Feuchtigkeit, Wasser- und Luftdruck, Temperatur
• Gyroskope, Bewegungs- und Beschleunigungssensoren
• …

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 69
Der Sprung in die echte Welt – Digitalisierung analoger Signale

Frequenz: 1 Bild / Minute (= 1 Hz)


Webcams: https://erlebnis-brandenburg.de/webcams

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 70
Der Sprung in die echte Welt – Digitalisierung analoger Signale

Labels:

Selbst ausprobieren:
https://cloud.google.com/vision/docs/drag-and-drop

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 71
Daten selbst etikettieren (data labeling)

https://github.com/heartexlabs/awesome-data-labeling

Bilder

Texte

…3D-Aufnahmen, LIDAR, Zeitreihen und mehr!

Töne
Predictive Analytics & Big Data
Technische Hochschule Brandenburg · University of Applied Sciences 72
Daten erheben über Crowdsourcing

➢ Crowdsourcing: Menschen erledigen gegen Bezahlung kleine Aufgaben über eine mehr oder
weniger standardisierte Schnittstelle

Typische Aufgaben
• Bilder taggen (Jugendschutz, Inhaltsprüfung…)
• Rechtschreibkorrektur
• Übersetzungen
• Dokument-Transkriptionen (Kassenzettel abtippen…)
• Recherche von Informationen im Internet
• Produkte/Dienstleistungen bewerten

➢ Hochgradig problematische Arbeitsbedingungen der „Clickworker“

Schöner SZ-Magazin-Artikel von Laura Meschede dazu: https://www.alternativer-medienpreis.de/wp-content/uploads/2019/05/Laura_Meschede_Die_Mensch-Maschine.pdf

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 73
Offen gebliebene Fragen?
Feedback zur Lerneinheit?

Prof. Dr.-Ing. André Nitze


andre.nitze@th-brandenburg.de

Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Predictive Analytics & Big Data


Technische Hochschule Brandenburg · University of Applied Sciences 74

Das könnte Ihnen auch gefallen