Beruflich Dokumente
Kultur Dokumente
Datenerhebung
• Extraktion der Daten aus • Datenformat und • Laden der Daten in ein
Datenquelle(n) Schema festlegen Data Warehouse,
Twitter • Daten bereinigen und Datenbank oder andere
SCM
aggregieren Datensenke
CRM Blob
storage • Qualitätssicherung
ERP MySQL •…
Die Rolle Data Engineer sorgt für die Automatisierung des ETL-Prozesses in
Form einer ETL-Pipeline. – Meist mit Scripting-Werkzeugen.
Offene Datenquellen
• Govdata
• Statista
• Kaggle
• Schnittstellen (APIs)
• Einzelne Webseiten
• …
https://www.kaggle.com/datasets
https://archive.ics.uci.edu/ml/index.php
https://github.com/awesomedata/awesome-public-datasets
https://registry.opendata.aws
https://datasetsearch.research.google.com
…
Lösungsansätze
• Kombination und Anreicherung existierender Datensätze
• Nutzung synthetischer Daten (mit hohem Aufwand und Verzerrungsgefahr)
• Extraktion aus öffentlichen Quellen (v.a. Internet) durch „Web Scraping“
➢ Automatisierter Abruf von Ressourcen aus dem Internet zur systematischen Extraktion von
Daten
Typischer Ablauf
1) Herunterladen der Ressource (HTML/XML-Datei…) von ihrer Adresse (URL)
2) Parsen des wohlstrukturierten Dokuments (Zeichensatz, Tags, Verschachtelung, Validität…)
3) Speichern der extrahierten Daten zur Weiterverarbeitung
Werkzeuge
• Scripting (Python/PHP-Script + Cronjob, z. B., „Beautiful Soup“, cURL)
• Automatisierungs-Tools (Selenium, „headless“-Browser, Software-Test-Frameworks)
• SaaS-Produkte (process automation / robotic process automation, z. B., Apify, Scrapy,
ScraperAPI, ProWebScraper, Netlify)
2) RECHTSKLICK
1) RECHTSKLICK →
„Inspect Element“
• Rechtliche Grauzone
• Schöpfungshöhe von Datenbanken (Soziale Netzwerke,
Archive/Sammlungen)
• Alles, was öffentlich ist, kann leicht automatisiert
verarbeitet werden (insb. auf Plattformen, wo
Informationen strukturiert, z. B. in Profilen, zur Verfügung
gestellt werden)
Quellen
https://www.derstandard.de/story/2000125702302/daten-von-
500-millionen-linkedin-nutzern-werden-im-netz-verkauft,
https://www.facebook.com/apps/site_scraping_tos_terms.php,
Abruf: 2021-04-21.
Grundsatz der Digitalisierung: Alles, was in der analogen Welt wahrgenommen werden kann,
kann auch digital erfasst und verarbeitet werden.
Labels:
Selbst ausprobieren:
https://cloud.google.com/vision/docs/drag-and-drop
https://github.com/heartexlabs/awesome-data-labeling
Bilder
Texte
Töne
Predictive Analytics & Big Data
Technische Hochschule Brandenburg · University of Applied Sciences 72
Daten erheben über Crowdsourcing
➢ Crowdsourcing: Menschen erledigen gegen Bezahlung kleine Aufgaben über eine mehr oder
weniger standardisierte Schnittstelle
Typische Aufgaben
• Bilder taggen (Jugendschutz, Inhaltsprüfung…)
• Rechtschreibkorrektur
• Übersetzungen
• Dokument-Transkriptionen (Kassenzettel abtippen…)
• Recherche von Informationen im Internet
• Produkte/Dienstleistungen bewerten