Sie sind auf Seite 1von 1

IV.

DATA C LEANING die besten Ergebnisse für den jeweiligen Anwendungsbereich


Data Cleaning Routinen erzielen ein ”Säubern“ der Daten, liefert. (nach [5])
indem fehlende Werte ersetzt, fehlerhafte Daten angepasst, B. Fehlerhafte Daten
Ausreißer entfernt und Inkonsistenzen aufgelöst werden. (nach
[3]) Es wird zwischen zwei Arten von fehlerhaften Daten un-
terschieden: Invalide Werte liegen außerhalb des möglichen
A. Fehlende Werte Wertebereichs. Diese können leicht erkannt und entweder
Für die Ersetzung von nicht erfassten Werten in Tupeln korrigiert oder verworfen werden. Dahingegen beinhalten
können die folgenden automatisierten Methoden herangezogen störungsbehaftete Daten zufällige Fehler und Abweichungen
werden (nach [5]). Wichtig ist hierbei, dass der neue Wert in einem bestimmten erfassten Attribut (nach [3]). Um die
jeweils repräsentativ ist, sodass die Validität des Datensatzes Daten zu “glätten“ gibt es verschiedene Techniken:
gewährt bleibt. 1) Computergestützte Untersuchung: Indem man zunächst
1) Tupel verwerfen: Dies ist ein sehr konservativer An- die Daten in Cluster sortiert und anschließend eine Übersicht
satz, bei dem Tupel, die nicht in allen Attributen korrekte über die Daten erstellt, kann ein Mensch die Ausreißer iden-
Werte besitzen, verworfen werden. Der Vorteil davon ist, tifizieren und erkennen. Zudem können so bisher unbekannte
dass dadurch Datenfehler, die auf fehlenden Werten beru- Programmierregeln entdeckt werden, wie zum Beispiel dass
hen vermieden werden. Dahingegen ergibt sich ein großer 9999 für einen fehlenden Wert in der Attributspalte “Jahr“
Nachteil: Die Aussagekraft der nachfolgenden Datenanalysen verwendet wird (aus [4]). Dieses Verfahren kann allerdings
wird beeinträchtigt, da viele Tupel unnötigerweise komplett keine kleineren Abweichungen korrigieren.
verworfen werden und dabei wichtige Informationen verloren 2) Regression: Für die Erkennung von kleinen Abweichun-
gehen können. Da in der Praxis ein Großteil der Instanzen gen dient die Regression. Indem der Verlauf der Daten aus
fehlende Werte besitzen ist dies keine sinnvolle Methode. kontinuierlichen Wertebereichen durch eine mathematische
2) Durchschnittliche Werte einsetzen: Ein fehlender Wert Funktion angenähert wird, können Gesetzmäßigkeiten erkannt
kann in Abhängigkeit der im Datensatz vorhandenen Wer- und damit neue Werte vorhergesagt werden.
te geschätzt werden. Bei kategorischen Wertebereichen wie Ein etwas komplexerer Ansatz, um Ausreißer zu erkennen
zum Beispiel ”sonnig”, “bewölkt“, etc. kann schlicht der wird im Kapitel 8 beschrieben, um ein Beispiel dafür zu geben
am häufigsten vorkommende Wert gewählt werden. Bei kon- welche Algorithmen in der Praxis verwendet werden.
tinuierlichen Wertebereichen, z.B. Temperaturskalen, kann
der Durchschnittwert gebildet und eingesetzt werden. Diese C. Inkonsistente Daten
Strategie bringt allerdings ein störendes ”Rauschen” in den Das Entfernen von Inkonsistenz ähnelt bezüglich des
Datensatz. So wäre es zum Beispiel nicht ratsam, einen Ablaufs der Computergestützten Untersuchung. Ein Computer
fehlenden Temperaturwert im Monat November durch den kann beispielsweise Routinen auf den Daten laufen lassen, um
Jahresdurchschnitt der Temperaturwerte zu ersetzen, da der gleichnamige Attribute mit unterschiedlichen Bedeutungen
Temperaturverlauf genauer durch mathematische Funktionen bzw. unterschiedlich genannte Attribute, die dieselben Werte
angenähert werden könnte. beschreiben, zu erkennen. Ebenso können auf der Grundlage
3) Wahrscheinliche Werte berechnen: Durch Data Mining von funktionalen Abhängigkeiten zwischen Attributen Werte
Methoden wie Association Rules oder Bayes’sche Netze mit widersprüchlichen funktionalen Bedingungen gefunden
können für fehlende Werte wahrscheinliche Ersatzwerte be- werden. (nach [3]) In den meisten Fällen müssen die
rechnet werden. Diese Methoden gehen allerdings schon einen Inkonsistenzen jedoch manuell aufgelöst werden.
Schritt weiter in der Data Mining Pipeline.
4) Markierenden Wert einsetzen: Falls wahrscheinliche Nachdem die einzelnen Methoden und Algorithmen auf
Werte nicht ermittelbar sind, bleibt die Möglichkeit den fehlen- den Daten angewandt wurden, stehen nun Datensätze mit
den Wert explizit als Lücke zu markieren. Hierbei kann zusätz- bestmöglich korrigierten Daten bereit. Diese müssen nun
lich zwischen unbekannten, absichtlich nicht erfassten und noch zusammengefügt, transformiert und reduziert werden.
irrelevanten fehlenden Werten unterschieden werden. Wenn
beispielsweise bei einer archäologischen Untersuchung das V. DATA I NTEGRATION
Skelett nicht vollständig rekonstruierbar ist und damit ein Für Data Mining-basierte Analysen wird oft ein große An-
Attribut ”Skelettgröße” keinen Wert annehmen kann, so ist zahl an Daten aus verschiedenen Quellen benötigt. So müssen
dies eine wichtige Information und muss extra gespeichert beispielsweise für computergestützte Entscheidungsfindung in
werden. Unternehmen Daten aus den einzelnen Abteilungen zusam-
Diese Methoden sind die grundlegenden Ansätze im Um- mengefügt werden, ehe mit der Analyse begonnen werden
gang mit fehlenden Werten. Jedoch gibt es, wie so oft im kann. Zudem werden oft auch externe Quellen wie zum
Bereich des Data Minings, keine eine Methode, die vertrau- Beispiel Demografie-Statistiken herangezogen. Dadurch ent-
enswürdiger als alle anderen für jeden beliebigen Datensatz steht die Herausforderung der Data Integration, verschiedene
ist. In der Praxis müssen daher eine Reihe möglicher Stra- Schemata, Datentypen, Attributbezeichnungen etc. in einen
tegien angewandt werden und diejenige ermittelt werden, die Datensatz zu integrieren. Bezüglich des oben beschriebenen

Das könnte Ihnen auch gefallen