W. Hoke Mngmt. Gen. Ress. WS0809: Clustering & Dendrogramme

W. Hoke Mngmt. gen. Ress.
WS0809: Clustering & Dendrogramme 1/9
Winfried Hoke
Management genetischer Ressourcen
Prof. Dr. DI. Johann VOLLMANN
Aufgabenstellung:
• Cluster- Analyse
• Dendogramme
• zur Darstellung genetischer Diversität
• Prinzip, Bau
W. Hoke Mngmt. gen. Ress. WS0809: Clustering & Dendrogramme 2/9
Inhaltsverzeichnis
1. Cluster-Analyse......................................................................................................................3
1.1. Cluster-Analyse: Prinzip.................................................................................................3
1.2. Cluster-Analyse: Distanzanalyse.....................................................................................3
1.2.1. Agglomeratives Clustering.......................................................................................4
1.2.2. Divisives Clustering.................................................................................................4
2. Dendrogramme.......................................................................................................................4
3. Beispiele.................................................................................................................................5
3.1. Stachel et al 2000............................................................................................................5
3.2. Vollmann 2005................................................................................................................7
Literatur- und Quellenverzeichnis..............................................................................................9
1. Cluster-Analyse
Die Cluster-Analyse (oder auch Clustering, Ballungsanalyse) ist eine Methode der
Visualisierung, bei der in einem zwei- oder auch dreidimensionalen Koordinaten-
system Gruppen abgebildet werden um bestimmte Eigenschaften oder Ausprä-
gungen - oder auch Unähnlichkeiten - darzustellen. Das Verfahren kann sehr stark
an die Ansprüche und Verwendungszwecke angepasst werden. Die gute, einfache
graphische Darstellungsform von unter Umständen komplexen Ausgangsdaten ist
der entscheidende Vorteil der Cluster-Analyse.
(Wikipedia, s.a.)
1.1. Cluster-Analyse: Prinzip
Beispielsweise sollen Äpfel untersucht werden: Es werden die Größen der Äpfel
sowie deren Farbe festgehalten. Diese Daten werden dann je auf eine Achse
aufgetragen und im Idealfall können dann Gruppierungen der Apfelsorten
wahrgenommen werden (sog. Punktwolken): Zum Beispiel sind alle Apfel, die näher
mit der Sorte A verwandt sind, schwerer und grüner als solche der Sorte B.
Doch oft ist die Vorgehensweise etwas komplizierter; Es gibt mehr als zwei
Datensätze als Quelle und dadurch müssen verschiedene Datensätze zusammen-
gefasst werden um dadurch ein optimales Clustering zu erreichen, bei denen am
besten erkennbar sein soll, dass es eben zu Gruppen kommt - dass es Unterschiede
gibt.
Bei den fertig gestellten Cluster-Analysen gibt es noch weiter Optionen um die
Distanz, also den Unterschied zwischen den Gruppierungen zu messen:
1.2. Cluster-Analyse: Distanzanalyse
Entweder wird die Entfernung zwischen den nächst zueinander gelegenen Punkten
gemessen (Abb. 1), oder die zwischen denen am weitesten von einander entfernten
(Abb. 2) oder die Mittel-
werte der einzelnen
Punktwolken. Dieses
Distanz- oder Unähnlich-
keitsmaß ist der aus-
schlaggebende Index
der Cluster-Analyse.
(Klawonn, s.a) Abb. 1 Abb. 2 Abb. 3
Es gibt diese zwei Methoden um ein Clustering zu erstellen.

1.2.1. Agglomeratives Clustering
Beim agglomerativen Clus-

tering bildet jedes Objekt
sein eigenes Cluster. Diese
werden paarweise zusam-
mengefügt. Bei jedem wei-
teren Schritt werden die
ähnlichsten Cluster zusam-
mengefügt. (Punkt x1 und x2
sind ähnlich, und Punkt x4 Abb. 4 Abb. 5
und x5 sind ähnlich. Das
Objekt (x1,x2) und x3 sind ähnlicher als x3 und (x4,x5), also stehen sich am Ende
(x1,x2) und (x3,x4,x5) gegenüber.) (Klawonn, s.a.: S. 10)
1.2.2. Divisives Clustering
Im Gegensatz zum agglomerativen Clustering bilden alle Objekte zuerst einen

großen Cluster. Dieser wird in jedem weiteren Schritt weiter aufgespalten, sodass
die Teilcluster möglichst unähnlich sind. (Klawonn, s.a.)
Diese beiden Methoden der Clustererstellung sind beide hierarchischer Art, das
heißt, es gibt mehrere Ebenen. „Je tiefer die Ebene, desto mehr Cluster entsprechen
dieser Ebene“ (Klawonn, s.a.: S. 8). Das kann wiederum graphisch dargestellt
werden in Form eines Dendrogrammes.
2. Dendrogramme
Dendron (griech.) ist der Baum, deshalb heißt das Dendrogramm auch Baumdia-
gramm.
Das Dendrogramm ist eine Methode zur Visualisierung von Ergebnissen der Cluster-
Analyse. „Objekte werden nach Ähnlichkeit der Merkmalsausprägung zu Clustern
gruppiert. Beginnend mit vielen Clustern wird die Anzahl nach und nach reduziert, so
dass Objekte mit einer größeren Distanz in der Merkmalsausprägung im Fortgang
der Analyse sich in einem Cluster wieder finden.“ (Wikipedia/Dendrogramm).
Will man die Clusterteilmengen mit dem Aufbau eines Baumes vergleichen, so sind
die einzelnen Blätter die Cluster mit nur einem Element. Die Knoten darunter stellen
die Vereinigung ähnlicher Cluster dar. Die Kante zwischen zwei Knoten enthält als
Eigenschaft noch die Entfernung zwischen den beiden repräsentierenden Mengen
von Objekten. „Zusätzlich zur Distanzfunktion zwischen einzelnen Objekten muss
hier auch eine Distanzfunktion zwischen Mengen von Objekten vorgegeben
werden.“ (Wikipedia/Dendrogramm).
In Abbildung 6 werden wieder Beziehungen

zwischen verschiedenen Daten in Form von
Clustern dargestellt. Die horizontalen Linien stellen
einen Cluster dar: die sich am meisten ähnelnden
Objekte. Dieser „Ast“ stellt einen neuen Cluster
dar, der mit einem weiteren Clusterpaar kombiniert
wird (oder auch mit einem Punkt, der noch nicht
mit einem andern verbunden wurde). So werden
alle Punkte in Form von Clustern miteinander
verbunden. Die andere Dimension als die, die die
Cluster anzeigt, also in Abb. 6 die vertikale Achse,
stellt den Abstand eines bestimmten Paares von
Abb. 6 Objekten an. (Lohninger, s.a.)
Anders gesagt zeigt diese Art der graphischen
Darstellung, wie die unterschiedlichen Proben zueinander verwandt/ähnlich oder
unähnlich sind - ob sie kurze Distanzen (kurze Striche) oder lange Distanzen (lange
Striche) haben. Das ist direkt mit den Analysen aus der Cluster-Analyse
vergleichbar.
3. Beispiele
Es werden in 3.1 und 3.2 zwei Beispiele vorgestellt.
3.1. Stachel et al 2000

“Application of microsatellites in wheat (Triticum aestivumL.) for studying genetic
differentiation caused by selection for adaptation and use”
In diesem Beispiel wurden 42 Weizenproben aus den agro-ökologischen Gebieten

(agro-ecological areas - AEAs) Österreich (A), Ungarn (H) und Deutschland (D)
genommen. Dabei wurde zwischen Proben von Qualitäts- (Q) und von Futterweizen
(F) unterschieden. Aus jedem Land kommen zu gleichen Teilen Futter- und
Qualitätsweizen. Darin wurden Allele gefunden, die verglichen wurden: “Cluster
analysis clearly differentiated the varieties according to the three AEAs and, within
each AEA, into quality wheats from feed wheats. Analysis of variance revealed
highly significant differences of distance data between AEAs as well as between
quality groups." (Stachel et al., 2000: S. 242)
Ziel der Arbeit war es, mit Hilfe von Mikrosatelliten den Genotyp von 60 verschie-
denen Sorten aus den drei AEAs die genetische „Entfremdung“ (differentiation)
durch Selektion für Anpassung und Endgebrauch zu messen.
Um an die zu untersuchenden Allele zu kommen, wurde die DNS durch unterschied-
liche Vorgänge isoliert um dann in einer Elektrophorese sichtbar zu werden. Es
wurde nicht nur die Anzahl der gefundenen Allele erfasst, sondern auch die relative
Häufigkeit innerhalb der Population. Diese Daten wurden dann mithilfe Software-
unterstützung weiterverarbeitet.
Das Resultat wies 60 Weizenarten mit 42 verschiedenen Gen-Loci und 202 ver-
schiedenen Allelen (mit durchschnittlich 4,8 Allelen pro Locus) aus.
Nach den Untersuchungen mit Hilfe

unterschiedlicher Methoden (Elektro-
phorese etc) konnte folgendes
gewonnen werden: Abbildung 7
zeigt die genetischen Distanzen
zwischen den unterschiedlichen
Kombinationen von den Ländern
(AEAs: A, H, D) und den Sorten Abb. 7
(Qualität und Futter: Q, F).
Die Daten wurden in das Dendro-
gramm in der Abbildung 8
eingebracht: Links stehen die
verschiedenen Sorten (Szindbad,
Zugoly..) mit dem Kürzel des Landes
(H, A, D) und der Art des Weizens: f
für Futter- oder q für Qualitätsweizen.
Beispielsweise gibt es zwischen
Szindbad und Zugoly nur einen
kleinen Unterschied ( - eine kleine
genetische Distanz) - die beiden sind
sehr ähnlich. Zwischen Csomoc und
Repce ist der Unterschied viel größer;
sie sind weniger ähnlich. Dieser
Unterschied wird hier anhand der
Länge der Kanten bis zum Knoten
dargestellt.
Es handelt sich hier um den Genotyp,
das heißt es kann sich z.B. bei
genotypisch unterschiedlichen um
phenotypisch gleiche Sorten handeln.
Die Verteilung der Knotenpunkte und
die „Verästelung“ verraten, dass sämt-
liche Hf-Sorten ähnlich sind, aber
auch alle Hq-Sorten. Diese
zusammen, also alle Sorten aus
Ungarn, bilden ca. bei der
genetischen Distanz von 18 einen
letzten Ast, der mit allen anderen
verbunden wird. Auch bei diesen zeigt
sich, dass die Aq-Sorten, die Af-
Sorten und die Df-Sorten ähnlich sind
und innerhalb des Landes ebenfalls. Abb. 8
Weiters zeigen sich Ausnahmen: Die Dq-Sorten sind nicht einheitlich, hier könnte es
sich beispielsweise um Nord- und Süddeutschland handeln, die ein unabhängiges
eigenständiges System bilden, in denen die Sorten unterschiedliche Entwicklungen
haben. Die Sorte Zombor (Hf) spaltet sich auch von den anderen Hf-Sorten ab.
Diese Art von Dendrogrammen (Abb. 8)

ist die klassische Methode, um
genetische Verwandtschaft zu visua-
lisieren. Doch nicht nur mit zwei, sondern
auch mit drei Dimensionen ist es möglich
die Distanzen gut darzustellen (Abb. 9).
Es ist wiederum deutlich zu erkennen,
dass die drei AEAs je ein Cluster bilden;
sie sind voneinander getrennt, sie sind
unterschiedlich.
(Stachel et al., 2000)
Abb. 9
3.2. Vollmann 2005
Im zweiten Beispiel wird Camelina (Leindotter) untersucht: Diese Pflanze bietet nur
beschränkt Informationen über die genetischen Gegebenheiten. Dennoch wurden
aus 130 Quellen aus der ganzen Welt der Ölgehalt, der Proteininhalt und das
Gewicht von 1000
Körnern gemessen
– Es wurden also
anhand der pheno-
typischen Erkennt-
nisse vier Gruppen
gebildet (g1-g4).
Anhand von geno-
typischer Analyse
mithilfe der RAPD-
Methode (also dem
Vergleichen von
durch Primer defi-
nierte Gensequen-
zen) wurde das in
Abbildung 10 dar-
gestellte Dendro-
gramm erstellt. Es
ist in Überein-
Abb. 10 stimmung mit Abb.
11 eindeutig ersichtlich, dass die genotypischen mit den phenotypischen
Ähnlichkeiten übereinstimmen. Zwar gibt es Unregelmäßigkeiten, doch ist eine
Zusammengehörigkeit der einzelnen Sorten innerhalb einer Gruppe unabstreitbar.
Abb. 11
Literatur- und Quellenverzeichnis
Klawonn, F., s.a., Fachhochschule Braunschweig/Wolfenbüttel. Verfügbar in

http://public.rz.fh-wolfenbuettel.de/~klawonn/Vorlesungen/pdf/clustering.pdf (Abfrage
am 27. Dezember 2008)
Lohninger, N., s.a., Verfügbar in
http://www.statistics4u.com/fundstat_germ/cc_dendrograms.html (Abfrage am 27.
Dezember 2008)
Stachel, M., Lelley, T., Grausgruber H. und Vollmann J, 2000. Application of

microsatellites in wheat (Triticum aestivumL.) for studying genetic differentiation
caused by selection for adaptation and use. Springer-Verlag., 242-248.
Vollmann, J, Grausgruber H., Stift, G, Dryzhyruk, V., Lelley, T, 2005: Genetic diversity
in camelina germplasm as revealed by seed quality characteristics and RAPD
polymorphism. Berlin: Blackwell Verlag, 446-453.
Wikipedia, n.n., s.a., Verfügbar in http://de.wikipedia.org/wiki/Clusteranalyse und

http://de.wikipedia.org/wiki/Dendrogramm (Abfragen am 27. Dezember 2008)
Abbildungsverzeichnis
Abb. 1, Abb. 2, Abb. 3: Wikipedia, s.a.
Abb. 4, Abb. 5: Klawonn, s.a.
Abb. 6: Lohninger, s.a.
Abb. 7, Abb. 8: Stachel et al., 2000, S. 244
Abb. 9: Stachel et al., 2000, S. 245
Abb. 10: Vollmann, 2005, S. 451
Abb. 11: Vollmann, 2005, S. 452

W. Hoke Mngmt. Gen. Ress. WS0809: Clustering & Dendrogramme

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

W. Hoke Mngmt. Gen. Ress. WS0809: Clustering & Dendrogramme

Hochgeladen von

Copyright:

Verfügbare Formate

W. Hoke Mngmt. gen. Ress.

WS0809: Clustering & Dendrogramme 1/9

Management genetischer Ressourcen

Prof. Dr. DI. Johann VOLLMANN

• zur Darstellung genetischer Diversität

1.1. Cluster-Analyse: Prinzip

1.2. Cluster-Analyse: Distanzanalyse

Es gibt diese zwei Methoden um ein Clustering zu erstellen.

1.2.1. Agglomeratives Clustering

Beim agglomerativen Clus-

1.2.2. Divisives Clustering

Im Gegensatz zum agglomerativen Clustering bilden alle Objekte zuerst einen

In Abbildung 6 werden wieder Beziehungen

3.1. Stachel et al 2000

In diesem Beispiel wurden 42 Weizenproben aus den agro-ökologischen Gebieten

Nach den Untersuchungen mit Hilfe

Diese Art von Dendrogrammen (Abb. 8)

3.2. Vollmann 2005

Literatur- und Quellenverzeichnis

Klawonn, F., s.a., Fachhochschule Braunschweig/Wolfenbüttel. Verfügbar in

Stachel, M., Lelley, T., Grausgruber H. und Vollmann J, 2000. Application of

Wikipedia, n.n., s.a., Verfügbar in http://de.wikipedia.org/wiki/Clusteranalyse und

Abb. 1, Abb. 2, Abb. 3: Wikipedia, s.a.

Abb. 4, Abb. 5: Klawonn, s.a.

Abb. 6: Lohninger, s.a.

Abb. 7, Abb. 8: Stachel et al., 2000, S. 244

Abb. 9: Stachel et al., 2000, S. 245

Abb. 10: Vollmann, 2005, S. 451

Abb. 11: Vollmann, 2005, S. 452

Das könnte Ihnen auch gefallen