Beruflich Dokumente
Kultur Dokumente
Winfried Hoke
Aufgabenstellung:
• Cluster- Analyse
• Dendogramme
• Prinzip, Bau
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 2/9
Inhaltsverzeichnis
1. Cluster-Analyse......................................................................................................................3
1.1. Cluster-Analyse: Prinzip.................................................................................................3
1.2. Cluster-Analyse: Distanzanalyse.....................................................................................3
1.2.1. Agglomeratives Clustering.......................................................................................4
1.2.2. Divisives Clustering.................................................................................................4
2. Dendrogramme.......................................................................................................................4
3. Beispiele.................................................................................................................................5
3.1. Stachel et al 2000............................................................................................................5
3.2. Vollmann 2005................................................................................................................7
Literatur- und Quellenverzeichnis..............................................................................................9
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 3/9
1. Cluster-Analyse
Die Cluster-Analyse (oder auch Clustering, Ballungsanalyse) ist eine Methode der
Visualisierung, bei der in einem zwei- oder auch dreidimensionalen Koordinaten-
system Gruppen abgebildet werden um bestimmte Eigenschaften oder Ausprä-
gungen - oder auch Unähnlichkeiten - darzustellen. Das Verfahren kann sehr stark
an die Ansprüche und Verwendungszwecke angepasst werden. Die gute, einfache
graphische Darstellungsform von unter Umständen komplexen Ausgangsdaten ist
der entscheidende Vorteil der Cluster-Analyse.
(Wikipedia, s.a.)
Beispielsweise sollen Äpfel untersucht werden: Es werden die Größen der Äpfel
sowie deren Farbe festgehalten. Diese Daten werden dann je auf eine Achse
aufgetragen und im Idealfall können dann Gruppierungen der Apfelsorten
wahrgenommen werden (sog. Punktwolken): Zum Beispiel sind alle Apfel, die näher
mit der Sorte A verwandt sind, schwerer und grüner als solche der Sorte B.
Doch oft ist die Vorgehensweise etwas komplizierter; Es gibt mehr als zwei
Datensätze als Quelle und dadurch müssen verschiedene Datensätze zusammen-
gefasst werden um dadurch ein optimales Clustering zu erreichen, bei denen am
besten erkennbar sein soll, dass es eben zu Gruppen kommt - dass es Unterschiede
gibt.
Bei den fertig gestellten Cluster-Analysen gibt es noch weiter Optionen um die
Distanz, also den Unterschied zwischen den Gruppierungen zu messen:
Entweder wird die Entfernung zwischen den nächst zueinander gelegenen Punkten
gemessen (Abb. 1), oder die zwischen denen am weitesten von einander entfernten
(Abb. 2) oder die Mittel-
werte der einzelnen
Punktwolken. Dieses
Distanz- oder Unähnlich-
keitsmaß ist der aus-
schlaggebende Index
der Cluster-Analyse.
(Klawonn, s.a) Abb. 1 Abb. 2 Abb. 3
Diese beiden Methoden der Clustererstellung sind beide hierarchischer Art, das
heißt, es gibt mehrere Ebenen. „Je tiefer die Ebene, desto mehr Cluster entsprechen
dieser Ebene“ (Klawonn, s.a.: S. 8). Das kann wiederum graphisch dargestellt
werden in Form eines Dendrogrammes.
2. Dendrogramme
Dendron (griech.) ist der Baum, deshalb heißt das Dendrogramm auch Baumdia-
gramm.
Das Dendrogramm ist eine Methode zur Visualisierung von Ergebnissen der Cluster-
Analyse. „Objekte werden nach Ähnlichkeit der Merkmalsausprägung zu Clustern
gruppiert. Beginnend mit vielen Clustern wird die Anzahl nach und nach reduziert, so
dass Objekte mit einer größeren Distanz in der Merkmalsausprägung im Fortgang
der Analyse sich in einem Cluster wieder finden.“ (Wikipedia/Dendrogramm).
Will man die Clusterteilmengen mit dem Aufbau eines Baumes vergleichen, so sind
die einzelnen Blätter die Cluster mit nur einem Element. Die Knoten darunter stellen
die Vereinigung ähnlicher Cluster dar. Die Kante zwischen zwei Knoten enthält als
Eigenschaft noch die Entfernung zwischen den beiden repräsentierenden Mengen
von Objekten. „Zusätzlich zur Distanzfunktion zwischen einzelnen Objekten muss
hier auch eine Distanzfunktion zwischen Mengen von Objekten vorgegeben
werden.“ (Wikipedia/Dendrogramm).
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 5/9
3. Beispiele
Es werden in 3.1 und 3.2 zwei Beispiele vorgestellt.
Abb. 9
Im zweiten Beispiel wird Camelina (Leindotter) untersucht: Diese Pflanze bietet nur
beschränkt Informationen über die genetischen Gegebenheiten. Dennoch wurden
aus 130 Quellen aus der ganzen Welt der Ölgehalt, der Proteininhalt und das
Gewicht von 1000
Körnern gemessen
– Es wurden also
anhand der pheno-
typischen Erkennt-
nisse vier Gruppen
gebildet (g1-g4).
Anhand von geno-
typischer Analyse
mithilfe der RAPD-
Methode (also dem
Vergleichen von
durch Primer defi-
nierte Gensequen-
zen) wurde das in
Abbildung 10 dar-
gestellte Dendro-
gramm erstellt. Es
ist in Überein-
Abb. 10 stimmung mit Abb.
11 eindeutig ersichtlich, dass die genotypischen mit den phenotypischen
Ähnlichkeiten übereinstimmen. Zwar gibt es Unregelmäßigkeiten, doch ist eine
Zusammengehörigkeit der einzelnen Sorten innerhalb einer Gruppe unabstreitbar.
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 8/9
Abb. 11
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 9/9
Vollmann, J, Grausgruber H., Stift, G, Dryzhyruk, V., Lelley, T, 2005: Genetic diversity
in camelina germplasm as revealed by seed quality characteristics and RAPD
polymorphism. Berlin: Blackwell Verlag, 446-453.
Abbildungsverzeichnis