ATA Leaning

IV.
DATA C LEANING die besten Ergebnisse für den jeweiligen Anwendungsbereich

Data Cleaning Routinen erzielen ein ”Säubern“ der Daten, liefert. (nach [5])
indem fehlende Werte ersetzt, fehlerhafte Daten angepasst, B. Fehlerhafte Daten
Ausreißer entfernt und Inkonsistenzen aufgelöst werden. (nach
[3]) Es wird zwischen zwei Arten von fehlerhaften Daten un-
terschieden: Invalide Werte liegen außerhalb des möglichen
A. Fehlende Werte Wertebereichs. Diese können leicht erkannt und entweder
Für die Ersetzung von nicht erfassten Werten in Tupeln korrigiert oder verworfen werden. Dahingegen beinhalten
können die folgenden automatisierten Methoden herangezogen störungsbehaftete Daten zufällige Fehler und Abweichungen
werden (nach [5]). Wichtig ist hierbei, dass der neue Wert in einem bestimmten erfassten Attribut (nach [3]). Um die
jeweils repräsentativ ist, sodass die Validität des Datensatzes Daten zu “glätten“ gibt es verschiedene Techniken:
gewährt bleibt. 1) Computergestützte Untersuchung: Indem man zunächst
1) Tupel verwerfen: Dies ist ein sehr konservativer An- die Daten in Cluster sortiert und anschließend eine Übersicht
satz, bei dem Tupel, die nicht in allen Attributen korrekte über die Daten erstellt, kann ein Mensch die Ausreißer iden-
Werte besitzen, verworfen werden. Der Vorteil davon ist, tifizieren und erkennen. Zudem können so bisher unbekannte
dass dadurch Datenfehler, die auf fehlenden Werten beru- Programmierregeln entdeckt werden, wie zum Beispiel dass
hen vermieden werden. Dahingegen ergibt sich ein großer 9999 für einen fehlenden Wert in der Attributspalte “Jahr“
Nachteil: Die Aussagekraft der nachfolgenden Datenanalysen verwendet wird (aus [4]). Dieses Verfahren kann allerdings
wird beeinträchtigt, da viele Tupel unnötigerweise komplett keine kleineren Abweichungen korrigieren.
verworfen werden und dabei wichtige Informationen verloren 2) Regression: Für die Erkennung von kleinen Abweichun-
gehen können. Da in der Praxis ein Großteil der Instanzen gen dient die Regression. Indem der Verlauf der Daten aus
fehlende Werte besitzen ist dies keine sinnvolle Methode. kontinuierlichen Wertebereichen durch eine mathematische
2) Durchschnittliche Werte einsetzen: Ein fehlender Wert Funktion angenähert wird, können Gesetzmäßigkeiten erkannt
kann in Abhängigkeit der im Datensatz vorhandenen Wer- und damit neue Werte vorhergesagt werden.
te geschätzt werden. Bei kategorischen Wertebereichen wie Ein etwas komplexerer Ansatz, um Ausreißer zu erkennen
zum Beispiel ”sonnig”, “bewölkt“, etc. kann schlicht der wird im Kapitel 8 beschrieben, um ein Beispiel dafür zu geben
am häufigsten vorkommende Wert gewählt werden. Bei kon- welche Algorithmen in der Praxis verwendet werden.
tinuierlichen Wertebereichen, z.B. Temperaturskalen, kann
der Durchschnittwert gebildet und eingesetzt werden. Diese C. Inkonsistente Daten
Strategie bringt allerdings ein störendes ”Rauschen” in den Das Entfernen von Inkonsistenz ähnelt bezüglich des
Datensatz. So wäre es zum Beispiel nicht ratsam, einen Ablaufs der Computergestützten Untersuchung. Ein Computer
fehlenden Temperaturwert im Monat November durch den kann beispielsweise Routinen auf den Daten laufen lassen, um
Jahresdurchschnitt der Temperaturwerte zu ersetzen, da der gleichnamige Attribute mit unterschiedlichen Bedeutungen
Temperaturverlauf genauer durch mathematische Funktionen bzw. unterschiedlich genannte Attribute, die dieselben Werte
angenähert werden könnte. beschreiben, zu erkennen. Ebenso können auf der Grundlage
3) Wahrscheinliche Werte berechnen: Durch Data Mining von funktionalen Abhängigkeiten zwischen Attributen Werte
Methoden wie Association Rules oder Bayes’sche Netze mit widersprüchlichen funktionalen Bedingungen gefunden
können für fehlende Werte wahrscheinliche Ersatzwerte be- werden. (nach [3]) In den meisten Fällen müssen die
rechnet werden. Diese Methoden gehen allerdings schon einen Inkonsistenzen jedoch manuell aufgelöst werden.
Schritt weiter in der Data Mining Pipeline.
4) Markierenden Wert einsetzen: Falls wahrscheinliche Nachdem die einzelnen Methoden und Algorithmen auf
Werte nicht ermittelbar sind, bleibt die Möglichkeit den fehlenden Daten angewandt wurden, stehen nun Datensätze mit
den Wert explizit als Lücke zu markieren. Hierbei kann zusätz- bestmöglich korrigierten Daten bereit. Diese müssen nun
lich zwischen unbekannten, absichtlich nicht erfassten und noch zusammengefügt, transformiert und reduziert werden.
irrelevanten fehlenden Werten unterschieden werden. Wenn
beispielsweise bei einer archäologischen Untersuchung das V. DATA I NTEGRATION
Skelett nicht vollständig rekonstruierbar ist und damit ein Für Data Mining-basierte Analysen wird oft ein große An-
Attribut ”Skelettgröße” keinen Wert annehmen kann, so ist zahl an Daten aus verschiedenen Quellen benötigt. So müssen
dies eine wichtige Information und muss extra gespeichert beispielsweise für computergestützte Entscheidungsfindung in
werden. Unternehmen Daten aus den einzelnen Abteilungen zusam-
Diese Methoden sind die grundlegenden Ansätze im Um- mengefügt werden, ehe mit der Analyse begonnen werden
gang mit fehlenden Werten. Jedoch gibt es, wie so oft im kann. Zudem werden oft auch externe Quellen wie zum
Bereich des Data Minings, keine eine Methode, die vertrau- Beispiel Demografie-Statistiken herangezogen. Dadurch ent-
enswürdiger als alle anderen für jeden beliebigen Datensatz steht die Herausforderung der Data Integration, verschiedene
ist. In der Praxis müssen daher eine Reihe möglicher Stra- Schemata, Datentypen, Attributbezeichnungen etc. in einen
tegien angewandt werden und diejenige ermittelt werden, die Datensatz zu integrieren. Bezüglich des oben beschriebenen

ATA Leaning

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

ATA Leaning

Hochgeladen von

Copyright:

Verfügbare Formate

IV.

DATA C LEANING die besten Ergebnisse für den jeweiligen Anwendungsbereich

Das könnte Ihnen auch gefallen