Sie sind auf Seite 1von 25

NFDI4Ing

Selbstlernangebot zum Thema

…Daten erheben

Dieses Werk ist unter der Lizenz CC BY 4.0 zugänglich.


1
von Daten zu Entscheidungen

Warum das Erheben von Daten wichtig ist.

150 – ein Datum (Zahl)

150 °C am Karolinenplatz – das Datum erhält einen Kontext und wird so zur Information.

Tweet & Normaltemperatur – die Information wird mit vernetzt und so zu Wissen.

Rettungsmaßnahmen – Mit unserem Wissen können wir Gegenmaßnahmen einleiten.


(Weisheit: Einen solchen Brand löschen wir am besten mit Methode XY)

150 °C
150
Karolinenplatz Normaltemperatur: -10 – 35 °C
2
Daten – Information – Wissen – Weisheit

Daten sind die Grundlage unserer Wissensgesellschaft.

Daten sind der Rohstoff des 21. Jahrhunderts.


WEISHEIT Daten sind die Grundlagen für Wissen und Weisheit.

Jede Forschung beruht auf Daten.


WISSEN
Welche Daten wie erhoben und genutzt werden, ist abhängig von:
INFORMATION Forschungsfrage

Forschungsdesign
DATEN
vgl. Untersuchungsmethode

3
Daten sind nicht gleich Information.

Metadaten und FAIR-Prinzipien sichern den Informationswert von Daten.

[Michener et al (1997):
https://doi.org/10.1890/1051-0761(1997)007[0330:NMFTES]2.0.CO;2]
4
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

5
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

6
Art der Datenerhebung

Methodenentscheidung abhängig von Forschungsfrage und Indikatoren.

Kann ich es erfragen? → Befragung

Kann ich es beobachten? → Beobachtung

Kann ich es ausprobieren? → Experiment

Kann ich es herauslesen? → Dokumentenanalyse

7
Art der Datenerhebung - Experiment

Experimente: real (Messungen) oder in silico (Simulationen)

Messungen
Messverfahren beschreiben: Aufbau und Messmethoden.
Konfiguration des Prüfstandes ist wichtiges Metadatum.
Charakteristika (Kennlinien, Unsicherheiten, Toleranzen) verbauter
Komponenten dokumentieren.
Art der Rohdaten dokumentieren (Zeitschriebe, Spannungswerte, …)

Simulationen
Basieren auf einem Modell des technischen Systems, das untersucht werden soll.
Konfiguration der Simulation ist wichtiges Metadatum.
Eigenschaften des Modells, gewählte Parameter, Solver-Einstellungen …
Simulationsergebnisse müssen verifiziert und validiert werden.

Simulationen können durch Messungen validiert werden.


8
Art der Datenerhebung – Befragungen und Beobachtungen

Sozio-technische Systeme agieren mit ihrer Umwelt.

u.A. Untersuchung der Mensch – Maschine – Schnittstelle oder der Auswirkungen


eines technischen Systems und/oder Regularien auf Menschen.
weniger Struktur und mehr Subjektivität wie bei Experimenten
Kontext der Datenerhebung (Wer, Wann, Was, Wie) dokumentieren.
Situation und Umgebungsbedingungen sind wichtige Metadaten

Interdisziplinarität beachten
Zusammenspiel Ingenieur-, Geistes- und Sozialwissenschaften
Fachtermini beschreiben, um eindeutiges Verständnis zu gewährleisten.
Standardisierte Verfahren aus der jeweiligen Disziplin nutzen.

Standards bei der Datenerhebung (z.B. bei Interviews) minimieren die Subjektivität und
erhöhen die Vergleichbarkeit der Ergebnisse.

9
Art der Datenerhebung – Dokumentenanalyse

Die Ermittlung des Stands der Forschung und der Technik ist unabdingbar.

Literaturrecherche ist Basis jedes Forschungsprojektes, um Desiderate


aufzudecken.
Ein umfassender Überblick ist aufgrund der Menge an Quellen schwierig.
Text – Mining – Technologien unterstützen die Analyse.
Bei der Suche sollten auch Synonyme zur Anwendung kommen, um möglichst viele
Ergebnisse aufzuspüren.
Die Dokumentation der Metadaten der gefunden Dokumente ist wichtig.
Autor:in, Erscheinungsjahr, Titel, Art des Dokumentes, verwendete
Suchbegriffe…
Verwendung von Literaturverwaltungsprogrammen oder Knowledge Graphen

Projekt Open Research Knowledge Graph (ORKG)


Ziel ist, Publikationen (Paper) in einer strukturierten Form zu beschreiben.
Paper sind maschinenlesbar und können miteinander verglichen werden.
10
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

11
Suchen und Finden von Daten

Entspricht dem Nachnutzen von Daten.

Das Nachnutzen von Daten bezieht sich nicht nur darauf bereits erhobene Daten für eine
andere Forschungsfrage zu verwenden, sondern auch zur Validierung oder Ergänzung
eigener Daten.

Folgende Aspekte sind zu beachten:


Datensuche: übergreifende Datenportale, institutionelle Repositorien, Datenjournale
Nachhaltigkeit: Überprüfung der Datenqualität
Rechtmäßigkeit: Überprüfung der Urheberrechte und Lizenzen
Quellenangaben: Zitation fremder Daten

12
Exkurs: europäische Plattform für Daten zu Covid-19

Datenmanagement während der Covid-19 Pandemie

Patientendaten werden gesammelt, aufbereitet und nutzbar gemacht.

Weitere Datenquellen werden verknüpft.

Plattform besteht aus drei Komponenten:


SARS-CoV-2 Data Hubs
federated European Genome-phenome Archive
COVID-19 Data Portal

Beschleunigung der
Forschung und
Entwicklung passender
Impfstoffe.
Quelle: https://www.covid19dataportal.org/
13
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

14
Nachnutzung von Daten – Beispiel
Nutzung von Geoinformationsdaten und Zensusdaten für infrastrukturelle
Planungen

Infrastrukturplanung benötigt Wissen über das zu versorgende System.


zeitliche Entwicklung einer Siedlung hinsichtlich Größe und Bevölkerungszahl
Kombination mehrerer Datenquellen und eines Modells zur Analyse des Systems.

Aussagen über
F=… Eigenschaften
von Siedlungen
GEOINFORMATIONSDATEN ZENSUSDATEN MATHEMATISCHES MODELL

Quellen:
Friesen, John (2021): Modellierung und Analyse urbaner informeller Siedlungen für infrastrukturelle Planungen, Dissertation, TU Darmstadt
Pelz, P. F. ; Friesen, John ; Hartig, Jakob (2019): Similar size of slums caused by a Turing instability of migration behavior.
In: Physical Review E, 99, S. 022302. American Physical Society, DOI: 10.1103/PhysRevE.99.022302

15
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

16
Metadaten bei der Erhebung

Informationsmodell des Experiments ermöglicht strukturierte Erfassung.

Ein Informationsmodell ist die abstrakte Abbildung von Objekten, ihrer Eigenschaften und
Beziehungen zueinander. Dabei muss das Modell den Hertz‘schen Anforderungen (i) klar,
(ii) knapp, (iii) konsistent und (iv) korrekt genügen.

Standardisierung durch Nutzung von Vokabularen und Ontologien


Metadata4Ing
Modellierung auf verschiedenen Ebenen
Forschungsprojekt, Prüfstand, Komponenten, …
systematische Beschreibung der Datenerhebung
Informationsmodell vor der Datenerhebung erstellen.
Modularer Aufbau ermöglicht die Erweiterung und Anpassung des Modells.

17
Metadaten bei der Erhebung - Informationsmodell

Beispiel eines Prüfstandes für eine Lehrveranstaltung

Modellierung auf oberster Ebene - vorhandene Informationen:


Lehrveranstaltung ist ein Praktikum, hat eine Modulnummer, eine
Modulverantwortlichkeit und ein Start- und Enddatum
Ein Versuch ist Teil der Lehrveranstaltung und hat einen Namen
Der Versuch wird von 3 Studierenden durchgeführt, diese haben jeweils einen
Namen und eine ID (Matrikelnummer)
Praktikum Research Project

schrittweise Modellierung (von grob nach fein) professor


start date
end date
Detailgrad der Modellierung part of

ist eine spezifische Entscheidung. ersuch Processing Step

name

Die modellierten Eigenschaften müssen has Participant


has Participant
has Participant

bei der Datenerhebung als Metadaten Studierende r Person Studierende r Person Studierende r Person

mit aufgezeichnet werden. name name name

genutzt wurde Metadata4ing, mit eigenen Ergänzungen 18


Metadaten bei der Erhebung - Informationsmodell

Beispiel eines Prüfstandes für eine Lehrveranstaltung

Modellierung entlang Versuchsdurchführung und Auswertung:


Aufbau
Durchführung der Messung
ersuch Processing Step
Analyse und Visualisierung
Bericht schreiben part of
part of
part of
part of

has emplo ed tool


Aufbau tool essung Processing Step Anal se Processing Step isualisierung Processing Step ericht Processing Step
precedes precedes precedes

has emploe ed tool has input


has emplo ed tool
has output has output has input has output iagramme ataset has input
part of
raw data ataset aggregated data ataset
Komponenten tool esstechnik tool

essgr e Processing Step

has emplo ed tool


part of

Sensor tool Die Festlegung der relevanten Eigenschaften (Metadaten) erfolgt spezifisch.
Zur Beschreibung können fachspezifische Ontologien wie z.B. Semantic
genutzt wurde Metadata4ing Sensor Network Ontology oder SOSA Ontology genutzt werden.
19
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

20
Integrität von Daten

bezieht sich auf Korrektheit, Vollständigkeit und Konsistenz von Daten.

Datensicherheit und Datenqualität sind Bausteine der Datenintegrität.


zwei Arten von Datenintegrität: physikalisch und logisch
Gewährleistung von Korrektheit und Vollständigkeit während Speicherung und
Nutzung
Fehler, die die Integrität beeinflussen:
Anwendung: falsche Eingaben, Kopien, Löschung
Übertragung: Verlust, Formatierungsfehler
Software: Bugs, Viren
kompromittierte Hardware
Maßnahmen:
Sicherungskopien
eingeschränkter Datenzugriff
Log-Dateien für Nachvollziehbarkeit von Änderungen
regelmäßige Validierung der Daten
21
Agenda

1 Art der Datenerhebung 14:00 – 14:10

2 Suchen und Finden von Daten

3 Nachnutzung von Daten

4 Metadaten bei der Erhebung

5 Integrität von Daten

6 Datenqualität

22
Datenqualität

Inhaltliche und formale Datenqualität sind bei der Erhebung zu beachten.

formale Datenqualität: Datenformat, Metadaten


Informationsmodell als Basis der Metadaten
Wahl eines passenden Datenformates (Anforderungskatalog erstellen)
Analyse bereits mitdenken: Welches Format brauche ich für die Analyse?
Ist dieses zu dem Format der Rohdaten kompatibel?
Betrachtung der Schnittstellen zwischen Datenformaten.

inhaltliche Datenqualität: Unsicherheit, statistische Relevanz


Charakteristiken der verbauten Sensorik und Aktorik
Betrachtung systematischer Unsicherheiten
Messgenauigkeit und – auflösung
z.B. Beachtung des Nyquist – Shannon – Abtasttheorem

Bei der Datenerhebung stets prüfen, ob aufgenommene Messwerte realistisch sind.


Dafür Testmessungen durchführen. 23
Datenqualität

vier Dimensionen von Datenqualität

intrinsische kontextuelle repräsentat- Zugriffsqualität


Datenqualität Datenqualität ionelle
Datenqualität
• Glaubwürdigkeit • Mehrwert • Zugriff
• Verständlichkeit

• Korrektheit • Relevanz • Bearbeitung


• Eindeutigkeit

• Objektivität • Aktualität • Konsistenz

• Reputation • Vollständigkeit • Übersichtlichkeit

• Umfang

24
NFDI4Ing
Selbstlernangebot zum Thema

…Daten erheben

Dieses Werk ist unter der Lizenz CC BY 4.0 zugänglich.


25

Das könnte Ihnen auch gefallen