Sie sind auf Seite 1von 71
Institut für Soziologie Professur für empirische Sozialforschung Prof . Dr. Johannes Kopp Dr. Daniel Lois

Institut für Soziologie Professur für empirische Sozialforschung Prof. Dr. Johannes Kopp Dr. Daniel Lois

Clusteranalyse

Stand: Dezember 2009

Inhaltsverzeichnis

1. Clusteranalyse: Grundlagen

3

2. Hierarchische Clusteranalyse in SPSS

27

3. Clusterzentrenanalyse in SPSS

55

4. Literatur

72

Clusteranalyse: Grundlagen

Aufgabe der Clusteranalyse: Aufteilung einer zunächst ungeordneten Menge von Objekten in Gruppen ähnlicher Objekte (Cluster)

Die derselben Gruppe zugeordneten Objekte sollen eine möglichst hohe Ähnlichkeit aufweisen, während die Objekte unterschiedlicher Gruppen möglichst verschieden sein sollen

Es handelt sich um ein exploratives Verfahren: Es wird insbesondere dann eingesetzt, wenn eine Menge von Objekten durch eine Vielzahl von Einzelmerkmalen beschrieben wird und daher unüberschaubar wird

Clusteranalyse: Grundlagen

Beispiel für eine einfache Gruppeneinteilung: eine Gruppe von Personen wird nach dem Merkmal Geschlecht in zwei homogene Gruppen eingeteilt. Ähnlichkeit wird nur über ein Merkmal definiert

Beispiel für eine komplexe Gruppeneinteilung: gesucht sind x Lebensstilgruppen. Ähnlichkeit soll über eine Kombination von Merkmalen gemessen werden: 10 Freizeitaktivitäten, 10 Lebenseinstellungen

Um die Ähnlichkeit von Objekten zu messen, wird daher ein Verfahren benötigt, mit dem Kombinationen aus mehreren Merkmalen miteinander verglichen werden können

Clusteranalyse: Grundlagen

Folgende Grafik zeigt eine Menge von Objekten (20 Personen). Zu jedem Objekt liegen Daten zu zwei Merkalen vor (x und y-Achse)

Durch Betrachten der grafischen Darstellung erkennt man vier zusammen liegende Punktehaufen (Cluster). Die Identifizierung dieser Cluster ist Aufgabe der Clusteranalyse

Sind mehr als zwei Merkmale pro Objekt erfasst, wird es zunehmend schwieriger, die Datenvektoren grafisch darzustellen und Strukturen darin zu erkennen

Rechnerisch lässt sich diese Aufgabe jedoch bewältigen. Bei der Clusteranalyse handelt es sich daher um eine numerische Klassifikation

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 6

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 7

Clusteranalyse: Grundlagen

Um das Grundprinzip nachzuvollziehen, sollen die durch Betrachten gefundenen Cluster rechnerisch reproduziert werden

Dazu ist die Definition einer Maßzahl notwendig, die den Grad der Verschiedenheit der Objekte bezüglich der Merkmale beschreibt (sog. Distanzmaß).

Ein gebräuchliches Maß für metrische Daten ist die Euklidische Distanz. Sie wird für zwei Punkte der Ebene, A: (x a , x b ) und B: (y a , y b ) berechnet nach:

d ( A B = , ) ( x − x )² + y −
d
(
A B =
,
)
(
x − x
+ y − y
(
A
B
A
B

Für die Personen 1 und 2 (1: (4,0, 1,0); 2: (3,0, 1,7)) ergibt sich z.B.:

1 und 2 (1: (4,0, 1,0); 2: (3,0, 1,7)) ergibt sich z.B.: d ( A ,

d ( A, B ) = ( 4,0 3,0)² + (1,0 1,7 )² = 1, 22

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 9

Clusteranalyse: Grundlagen

Nachfolgende Tabelle zeigt die Euklidischen Distanzen aller möglichen Paare von Punkten (Distanztabelle)

Aus der Distanztabelle kann ein sog. Minimalbaum konstruiert werden (graphentheoretisches Clusterverfahren)

Ein Graph beschreibt eine Menge von Punkten, von denen gewisse durch Linien verbunden sind. Die Punkte des Minimalbaums entsprechen den zu klassifizierenden Objekten (Personen). Die Länge der Verbindungslinien bestimmt die gesuchte Klassifikation

Man beginnt mit einem beliebigen Punkt, z.B. mit Person 1, und sucht in der Tabelle den nächst gelegenen. Dies ist d (1,19) = 0,54

Es werden zwei Punkte, die durch eine Linie der Länge 0,54 verbunden sind, auf ein Blatt Papier gezeichnet und mit 1 und 19 beschriftet:

Clusteranalyse 11
Clusteranalyse
11

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Als nächstes wird derjenige Punkt gesucht, der dieser Konfiguration am n ä c h

Als nächstes wird derjenige Punkt gesucht, der dieser Konfiguration am nächsten liegt. Dazu denkt man sich die Spalten 1 und 19 gestrichen und sucht in den Zeilen 1 und 19 den kleinsten Wert (wobei die Diagonale übergangen wird)

Man findet als Minimum in Zeile 1 den Wert d (1,13) = 0,58 und in Zeile 19 den Wert d (19,20) = 0,32. Da 0,32 kleiner als 0,58 ist, liegt Punkt 20 der bisher aufgezeichneten Konfiguration am nächsten. Es ergibt sich:

Clusteranalyse 13
Clusteranalyse
13

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen D er di eser K on fi gura ti on n ächst ge legene

Der dieser Konfiguration nächstgelegene Punkt ist wegen d (19,15) = 0,50 und d (20,15) = 0,50 der Punkt 15

Potentielle Verbindungspunkte für 15 sind die Punkte 19 und 20. Es ist gleichgültig, welcher der äquivalenten Punkte (19 oder 20) gewählt wird. Per Münzwurf fällt die Wahl auf 20:

Clusteranalyse 15
Clusteranalyse
15

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Setzt man das Verfahren für alle Objekte fort, entsteht daraus der fertige Minimalbaum

Setzt man das Verfahren für alle Objekte fort, entsteht daraus der fertige Minimalbaum (nächste Folie). Entfernt man alle Linien, die einen Schwellenwert von z.B. (!) 0,60 übersteigen (gestrichelte Linien), zerfällt der Baum in vier Teilstücke, die den bereits bekannten Clustern entsprechen

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 17

Clusteranalyse: Grundlagen

Bisher haben wir zwei Clusterverfahren kennen gelernt: das Verfahren des Betrachtens (das nur bei sehr wenigen Merkmalen sinnvoll ist) und das Minimalbaumverfahren.

Grundsätzlich unterscheidet man zwischen zwei Varianten:

a) hierarchische Clusterverfahren, die Hierarchien disjunkter Cluster erzeugen (z.B. Minimalbaumverfahren)

Durch den Schwellenwert 0,60 wurde sich im Beispiel zuvor für eine Stufe dieser Hierarchie entschieden (4er Clusterlösung). Hätte man 0,81 als Schwellenwert gewählt, wären nur zwei Cluster entstanden. Diese 2er- Lösung ist der 4er Lösung hierarchisch übergeordnet

Clusteranalyse: Grundlagen

b) nicht-hierarchischen Clusterverfahren: Beim hierarchischen Verfahren werden Objekte, die einmal zu einem Cluster zusammengefasst wurden, auf späteren Stufen der Clusterbildung nicht mehr getrennt.

Bei nicht hierarchischen Verfahren (z.B. Clusterzentrenanalyse in SPSS) können Cluster auf späteren Stufen wieder aufgespalten werden

Clusteranalyse: Grundlagen

Hierarchische Klassifikation

Bei der hierarchischen Clusteranalyse wird meist agglomerativ vorgegangen (vgl. Minimalbaumkonstruktion):

Zunächst wird jedes Objekt (im Beispiel jede der 20 Personen) als eigensndiges Cluster angesehen. Die beiden Cluster, zwischen denen die geringste Distanz besteht, werden zu einem gemeinsamen Cluster zusammengefasst. Die Zahl der verbleibenden Cluster verringert sich um 1

Für die verbleibenden Objekte (von denen einer zwei Objekte enthält) werden erneut Distanzwerte für alle Paare berechnet und wiederum die beiden Cluster mit dem kleinsten Distanzwert zusammengefasst

Diese Prozedur wird solange fortgesetzt, bis sämtliche Objekte zu einem Cluster zusammengefasst wurden

Clusteranalyse: Grundlagen

Anhand des konstruierten Minimalbaums wird deutlich, dass die kleinste Distanz im Baum 0,22 beträgt. Auf diesem Verschmelzungsniveau werden daher die Personen 10 und 16, die zunächst jeweils ein eigenes Cluster bilden, zu einem Cluster vereinigt (siehe Abbildung nächste Folie)

Es folgen die Verschmelzungen der Personen 19 und 20 sowie 7 und 14 auf dem Niveau 0,32, auf dem auch Person 17 in die erste Zweiergruppe aufgenommen wird (10,16,17)

Das nächste Niveau ist 0,36, dem folgende Gruppierung entspricht:

(10,16,17,7,14); (19,20); (12,4). Die restlichen Personen sind bei einem Verschmelzungsniveau von 0,36 immer noch isoliert

Das Endergebnis dieser agglomerativen Gruppenbildung kann grafisch mit Hilfe des Dendogramms dargestellt werden (übernächste Folie). Werden die Äste des Dendogramms in der Höhe 0,60 durchgesägt, resultieren wiederum die vier bekannten Gruppen

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 22

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 23

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 24

Clusteranalyse: Grundlagen

Clusteranalyse: Grundlagen Clusteranalyse 25

Clusteranalyse: Grundlagen

Das abschließende Resultat der Prozedur (ein sämtliche Objekte umfassendes Cluster) ist natürlich nicht das Ergebnis, das man sich von der Clusteranalyse erhofft

Das eigentliche Ergebnis besteht in dem Weg, den einzelnen Schritten der hierarchischen Clusterbildung: erster Schritt: alle Objekte sind isoliert letzter Schritt: alle Objekte sind in einem Cluster vereinigt

Es muss ein optimales Verschmelzungsniveau (eine bestimmte Stufe in der Hierarchie) gefunden werden, bei dem sichergestellt ist, dass die Objekte in einem Cluster nicht zu heterogen und die Unterschiede zwischen den Clustern nicht zu gering sind (s.u.)

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS Clusteranalyse 27

Hierarchische Clusteranalyse in SPSS

Menü: Analysieren – Klassifizieren – Hierarchische Clusteranalyse

– Klassifizieren – Hierarchische Clusteranalyse I m M en ü Statis tik kö nnen Si e

Im Menü Statistik nnen Sie die Zuordnungsübersicht anfordern, die detaillierte Informationen über den Agglomerationsprozess enthält (s.u.)

Die Distanz-Matrix zeigt die Distanzen zwischen den einzelnen Objekten bzw. Fällen (vgl. Distanztabelle Folie 10). Die Werte hängen vom verwendeten Distanzmaß ab (s.u.)

Außerdem kann für jeden Fall die Clusterzugehörigkeit ausgegeben werden

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS Clusteranalyse 29

Hierarchische Clusteranalyse in SPSS

Unter Diagramme kann das Dendogramm (siehe auch Folie 22) sowie Eiszapfendiagramme angefordert werden (s.u.) Die Diagramme machen nur bei relativ kleinen Fallzahlen Sinn, da sie ansonsten unübersichtlich werden

Im Menü Methode werden die Clustermethode und das Distanzmaß ausgewählt. Außerdem können die Werte der Merkmalsvariablen transformiert werden

Eine Transformation ist dann notwendig, wenn die in die Clusteranalyse eingehenden Merkmalsvariablen eine unterschiedliche Metrik haben

Hierarchische Clusteranalyse in SPSS

Würde z.B. eine Distanzmatrix der Merkmale Körpergewicht in Kg (z.B. 76 Kg) und Körpergröße in Meter (z.B. 1,80 m) berechnet, würden die Distanzwerte des Körpergewichts die Distanzwerte der Körpergröße um ein Vielfaches übertreffen und daher die Klassifikation dominieren

In diesem Fall sollten die Daten standardisiert werden: Von jedem Datum wird das arithmetische Mittel des Merkmals subtrahiert und diese Differenz durch die Standardabweichung des Merkmals dividiert (Z-Transformation)

Hierarchische Clusteranalyse in SPSS

Clustermethoden

Die verschiedenen Clustermethoden messen die Distanzwerte zwischen verschiedenen Clustern auf unterschiedliche Art und Weise

Im ersten Schritt der hierarchischen Clusteranalyse werden für alle Objektpaare Distanzwerte berechnet. Die beiden Objekte mit der kleinsten Distanz werden verschmolzen

Im zweiten Schritt lassen sich die zu vereinigenden Cluster nicht mehr so einfach ermitteln, da ein Cluster bereits aus zwei Objekten besteht. Wie wird die Distanz nun ermittelt? Man unterscheidet u.a. zwischen folgenden Gruppen von Verfahren:

A) Nächste-Nachbarn-Verfahren: Die Cluster werden so gebildet, dass jedes Klassifikationsobjekt eine bestimmte Anzahl von nächsten Nachbarn in dem Cluster hat, dem es angehört

Hierarchische Clusteranalyse in SPSS

Ein Klassifikationsobjekt j wird dabei als nächster Nachbar des Klassifikationsobjekt i bezeichnet, wenn es zu i eine Distanz größer/gleich einem bestimmten Schwellenwert aufweist. Man unterscheidet u.a. zwischen dem

Single-Linkage (= Methode des nächsten Nachbarn): Ein noch unklassifizierter Punkt wird einem Cluster zugewiesen, wenn es darin mindestens einen Punkt gibt, zu dem der fragliche Punkt eine genügend kleine Distanz hat (> Schwellenwert)

Die anderen Punkte des Clusters spielen dann keine Rolle mehr: ein einziger Punkt des Clusters stellt eine Verbindung zu einem Objekt her (so war auch das Vorgehen bei der Konstruktion des Minimalbaus). Diese Methode kann zur Bildung von Ketten, also lang gestreckten Clustern, beitragen (siehe Grafik)

Es liegt beim Single-Linkage folglich eine Vorstellung von einer schwachen Homogenität innerhalb der Cluster vor

Hierarchische Clusteranalyse in SPSS

Beim Single-Linkage kann der Fall auftreten, dass zwei Punkte desselben Clusters eine größere Distanz aufweisen als Punkte verschiedener Cluster. Um dies zu vermeiden, kann man das

Complete Linkage (= Methode des entferntesten Nachbarn) anwenden. Hier wird gefordert, dass der fragliche Punkt zu jedem Punkt des Clusters, in das er aufgenommen werden soll, eine Distanz unterhalb des Schwellenwertes aufweist. Alle Klassifikationsobjekte müssen also nächste Nachbarn sein

In der Grafik entspricht die Schwellendistanz dem Kreisdurchmesser. Alle Punkte innerhalb eines der Kreise haben untereinander eine geringere Distanz als der Schwellenwert zulässt. Auf diese Weise entstehen statt eines (single linkage) zwei (runde) Cluster

Es liegt also eine sehr strenge Forderung hinsichtlich der Homogenität der Cluster vor, die man beim Complete-Linkage auch als Cliquen bezeichnet

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS Clusteranalyse 35

Hierarchische Clusteranalyse in SPSS

Eine weitere Gruppe von Clusterverfahren sind die Mittelwertmodelle. Hier werden die Cluster durch die durchschnittliche paarweise Ähnlichkeit bzw. Unähnlichkeit der Klassifikationsobjekte innerhalb der Cluster und/oder zwischen den Clustern charakterisiert. Dazu gehören:

Linkage zwischen den Gruppen (bei SPSS die Voreinstellung): Es werden alle möglichen Paare zwischen den Objekten der beiden Cluster gebildet und für jedes Paar die Distanz berechnet.

Das arithmetische Mittel dieser Distanzen wird als Distanz zwischen den beiden Clustern angesehen.

Linkage innerhalb der Gruppen: Es werden sämtliche Paare betrachtet, die sich aus den in den beiden Clustern enthaltenen Objekten bilden lassen (also auch solche Paare zwischen Objekten desselben Clusters). Das arithmetische Mittel aller Distanzen ergibt die Distanz zwischen den Clustern

Hierarchische Clusteranalyse in SPSS

Berechnungsbeispiel zum Linkage zwischen den Gruppen

Ausgangspunkt ist ein Datensatz mit sieben Fällen und einer Merkmalsvariablen (sieben eindimensionale Objektvektoren), die bereits willkürlich in drei Cluster unterteilt sind:

A: (4, 5, 6) ; B: (8, 9) ; C: (10, 13)

Ausgehend von dieser Dreiergruppierung wird eine optimale Zweiergruppierung gesucht, wobei es drei Möglichkeiten gibt:

I: (4, 5, 6, 8, 9) ; (10, 13)

II: (4, 5, 6) ; (8, 9, 10, 13)

III: (4, 5, 6, 10, 13); (8, 9)

Möglichkeit III scheint von vorneherein auszuscheiden. Die Entscheidung fällt also zwischen den Möglichkeiten I und II

Hierarchische Clusteranalyse in SPSS

1) Bildung aller möglichen Paare zwischen den Objekten der beiden Cluster und Berechnung der Distanz für jedes der Paare (Distanzmaß:

Euklidischer Abstand)

2) Bildung des arithmetischen Mittels der Paar-Distanzen. Da 3,0 kleiner als 3,5 ist, ist Möglichkeit II die optimale Lösung:

Möglichkeit I: (4, 5, 6, 8, 9)

Möglichkeit II: (8, 9, 10, 13)

4,9)

6,8)

6,9)

( 4

(

(

(

d

d

d

d

d

d

d =

(5,8)

(5,9)

=

=

=

=

=

+

− 8)² = 4 ( 4 9)² − = 5 (5 8)² − = 3
− 8)² = 4
( 4 9)²
=
5
(5 8)²
=
3
(5 9)²
=
4
( 6 8)²
=
2
( 6 9)²
=
3
5
+ +
3
4
+
2 3) / 6
+

( 4,8) = ( 4

=

3,5

d

(8,10)

=

(8,10) = (8 − 10 ) ² = 2

(8 10 ) ² = 2

d

(8,13)

=

(8 13)² −
(8 13)²

=

5

d

(9 , 10 )

=

(9 10) ² −
(9 10) ²

=

1

d

(9,13)

=

(9 − 13)²
(9 − 13)²

=

4

d =

( 2

+

5

1

+ +

4) / 4

=

3 , 0

Hierarchische Clusteranalyse in SPSS

Schließlich stehen verschiedene Clusterzentren-Verfahren zur Verfügung. Hier wird angenommen, dass ein Cluster durch seine Clusterzentren repräsentiert wird. Es zählen u.a. dazu:

Zentroid-Clustering: Für jeden Cluster werden die arithmetischen Mittelwerte aus den Werten berechnet, welche die Cluster-Objekte in den einzelnen Merkmalsvariablen aufweisen.

Für jede Merkmalsvariable ergibt sich somit ein Mittelwert pro Cluster (Clusterzentrum). Die Distanz zwischen zwei Clustern wird nun anstatt aus den einzelnen Variablenwerten aus den arithmetischen Mittelwerten der Variablen berechnet

Hierarchische Clusteranalyse in SPSS

Bei der Ward-Methode werden wie bei der Zentroid-Methode für jedes Cluster die Variablenmittelwerte berechnet.

Anschließend werden die Distanzen der einzelnen Objekte eines Clusters zum Clustermittelwert bestimmt und für alle Objekte aufsummiert.

Die beiden Objekte bzw. Cluster werden zusammengefasst, bei denen sich durch die Verschmelzung der geringste Zuwachs der Gesamtsumme der Distanzen ergibt

Die Ward-Methode hat sich mittlerweile in sozialwissenschaftlichen Anwendungen durchgesetzt, wird also sehr häufig angewendet

Ein Vorteil dieser Methode besteht darin, dass sie selten zu sehr unausgeglichenen Gruppengrößen führt

Hierarchische Clusteranalyse in SPSS

Berechnungsbeispiel zum Zentroid-Clustering

1) Berechnung des arithmetischen Mittels jeder Merkmalsvariablen (hier nur eine) pro Cluster (= Zentroid)

2) Berechnung der Distanz (Euklidischer Abstand) zwischen den Clustern anhand der arithmetischen Mittelwerte der Merkmalsvariable. Die Verschmelzung von Cluster B mit C ist wiederum die optimale Lösung:

AM

AM

AM

ClusterA

ClusterB

ClusterC

= 6 = 5

3

9

= = 8,5

4

+ 5 +

8

+

2

10 13

+

= = 11,5

2

6 = 5 3 9 = = 8,5 4 + 5 + 8 + 2 10

= (5 8,5)² = 3,5

+ 5 + 8 + 2 10 13 + = = 11,5 2 = (5 −

d ( A, B )

d

=+ = = 11,5 2 = (5 − 8,5)² = 3,5 d ( A , B

6,5

d ( B C = , ) (8,5 11,5)² − = 3,0
d
(
B C =
,
)
(8,5 11,5)²
=
3,0

Hierarchische Clusteranalyse in SPSS

Berechnungsbeispiel zur Ward-Methode

1) Berechnung des Zentroiden C des Clusters, das durch die Vereinigung von Cluster C(i) und C(j) entsteht (fiktives Objekt)

2) Berechnung der quadrierten euklidischen Distanzen d(i) und d(j) der Zentroide von C(i) zu C und C(j) zu C

3) Berechnung des sog. ESSQ-Wertes (error sum of squares) über folgende Formel (wobei d der quadrierten Euklidischen Distanz und n der Anzahl der Objekte im jeweiligen Cluster entspricht):

ESSQ (i , j ) = n

* d

i

i

+ n

j

* d

j

4) Das Minimum aller möglichen ESSQ-Werte bestimmt dann die beiden Cluster, die vereinigt werden

Hierarchische Clusteranalyse in SPSS

Cluster A: (4, 5, 6); Cluster B: (8, 9); Cluster C: (10, 13)

Zentroid C bei einer Verschmelzung von A mit B:

(4 + 5 + 6 + 8 + 9) / 5 = 6,4 Zentroide der Eltern (arithmetische Mittelwerte der Merkmalsvariable):

Cluster A: 5; Cluster B: 8,5 ESSQ der Eltern:

ESSQ

3 * (5 6, 4 )² 2 * (8,5 6, 4 )² 14, 7

+

=

=

A , B

Zentroid C bei einer Verschmelzung von B mit C:

(8 + 9 + 10 +13) / 4 = 10,0 Zentroide der Eltern:

Cluster B: 8,5; Cluster C: 11,5 ESSQ der Eltern: ESS

2 * 8 5 10 ²

(

,

)

2 * 11 5 10 ²

(

,

)

Q

=

B , C

+

=

9 0

,

Da 9,0 kleiner als 14,7 ist, ist die Verschmelzung B-C wiederum die l

op ma e

ti

sung

Hierarchische Clusteranalyse in SPSS

Neben der Cluster-Methode können im Menü Methode auch verschiedene Distanzmaße ausgewählt werden (Voreinstellung ist der quadrierte euklidische Abstand, andere Distanzmaßen siehe weiterführende Literatur im Anhang)

Zu beachten ist hier, dass für intervallskalierte (metrische) Daten und binäre (Dummy-)Variablen jeweils spezielle Distanzmaße ausgewählt werden müssen!

Im Menü Speichern nnen neue Variablen erstellt werden, in denen r jeden Fall festgehalten wird, welchem Cluster er angehört. Dabei muss die Anzahl der zu bildenden Cluster vom Benutzer festgelegt werden

Hierarchische Clusteranalyse in SPSS

Zunächst werden für alle Paare, die sich aus den Objekten bilden lassen, Distanzwerte berechnet. Diese können in der Distanzmatrix ausgegeben werden.

Die Matrix ist symmetrisch, so dass alle Distanzwerte zweimal aufgeführt werden. In der Diagonale stehen Nullen: die Distanz eines Objektes zu sich selbst ist 0

Der markierte Wert gibt an, dass die Unähnlichkeit von Fall 81 und 796 mit 3,136 quantifiziert wird (quadrierter euklidischer Abstand).

Aus der Distanzmatrix können bereits erste Tendenzen abgelesen werden:

so ist z.B. zu vermuten, dass die Fälle 81, 796 und 88 durch ihre geringe Distanz bereits auf niedrigen Verschmelzungsniveaus zu einem Cluster zusammengefasst werden können

Clusteranalyse in SPSS Clusteranalyse 46
Clusteranalyse in SPSS
Clusteranalyse
46

Hierarchische Clusteranalyse in SPSS

Die „Zuordnungsübersicht“ zeigt den Verlauf der Clusterbildung von der ersten Stufe (alle Objekte sind isoliert) bis zur letzten (alle Objekte sind in einem einzigen Cluster vereint)

Jede Zeile beschreibt eine Stufe der Agglomeration. Die erste Zeile beschreibt somit das Zusammenfassen zweier Objekte zu einem Cluster, konkret der Fälle 88 und 256, zwischen denen in der Distanzmatrix auch der kleinste Distanzwert ausgegeben ist (1,243)

Die Spalten 2 und 3 geben also an, welche Objekte (bzw. später: welche Cluster) in dem jeweiligen Schritt verschmolzen werden

Unter Koeffizientenwird die zwischen den Objekten bzw. Clustern gemessene Distanz ausgegeben. Sie wächst kontinuierlich, da zunächst die Objekte (Cluster) mit der größten Ähnlichkeit zusammengefasst werden, dann diejenigen mit der zweitgrößten Ähnlichkeit usw.

Clusteranalyse in SPSS Clusteranalyse 48
Clusteranalyse in SPSS
Clusteranalyse
48

Hierarchische Clusteranalyse in SPSS

Die Distanzwerte steigen zunächst moderat an, bis auf späteren Stufen (hier ungefähr ab der 20. Stufe) ein beschleunigter Anstieg beobachtet werden kann

Dieser Verlauf ist typisch: auf den unteren Stufen werden meist noch eine Reihe von Clustern mit recht hoher Ähnlichkeit gefunden, während auf späteren Stufen zunehmend auch unähnlichere Cluster zusammengefasst werden müssen (hier ab der 21. Stufe).

Dies ist ein Hinweis darauf, dass die Clusterbildung womöglich nach der 20. Stufe sinnvoll beendet werden sollte und die bis dahin gefundene Clustereinteilung das Endergebnis ist

Die optimale Clusterzahl kann abgelesen werden, indem man die Differenz zwischen der Anzahl der zu klassifizierenden Objekte (im Beispiel 24) und dem Fusionsschritt bildet, nach dem ein deutlicher Anstieg der Distanzwerte („Koeffizienten“) zu beobachten ist (hier 20):

24 - 20 = 4. Eine 4er Clusterlösung wäre hier also optimal

Hierarchische Clusteranalyse in SPSS

Zunächst bezieht sich eine Nummer, z.B. „3“ auf ein einzelnes Objekt

Wird dieses Objekt zu einem Cluster vereinigt (z.B. im ersten Schritt 3 mit 8), bezeichnet die Nummer nicht mehr das einzelne Objekt, sondern den gesamten Cluster (3 steht für den Cluster aus 3 und 8)

Bezieht sich eine Nummer nicht mehr auf ein Objekt, sondern ein Cluster, wird in der Spalte „Erstes Vorkommen des Clusters“ angegeben, auf welcher Stufe das jeweilige Cluster gebildet wurde

So wird bei Schritt 4 angegeben, dass Cluster 3 (bestehend aus den Objekten 3 und 8) in Schritt 1 gebildet wurde

Die letzte Spalte („chster Schritt“) gibt r jede Stufe der Clusterbildung an, auf welcher späteren Stufe der gerade neu gebildete Cluster mit einem anderen zusammengefasst wird

Clusteranalyse in SPSS Clusteranalyse 51
Clusteranalyse in SPSS
Clusteranalyse
51

Hierarchische Clusteranalyse in SPSS

Das Eiszapfendiagramm stellt den Verlauf der Clusterbildung grafisch dar. Jede Zeile bezieht sich auf eine Stufe der Agglomeration, wobei die erste Zeile (1 Cluster) den Endpunkt darstellt

Die Spalten stehen jeweils für ein Objekt (Spalte 1 z.B. für den Fall 655).

In der untersten Zeile (23 Cluster) sind die Fälle 655 und 161 durch einen Freiraum (leere Spalte dazwischen) getrennt. Dies symbolisiert, dass die beiden Objekte unterschiedlichen Clustern zugeordnet sind

Die Spalte zwischen den Fällen 256 und 88 ist dagegen mit Kreuzen ausgefüllt. Die beiden Fälle werden also gleich im ersten Schritt der Clusterbildung vereint (vgl. Zuordnungsübersicht)

Auf der vierten Stufe der Clusterbildung (20 Cluster) wird dann der Fall 399 mit dem Cluster (256, 88) verschmolzen usw.

Clusteranalyse in SPSS Clusteranalyse 53
Clusteranalyse in SPSS
Clusteranalyse
53

Hierarchische Clusteranalyse in SPSS

Auch im Dendogramm wird der Ablauf der Clusterbildung von der ersten bis zur letzten Stufe grafisch dargestellt

Es ist hier im Vergleich zum Eiszapfendiagramm jedoch nicht nur sichtbar, auf welcher Stufe welche Verschmelzungen stattfinden. Zusätzlich wird deutlich, wie groß die Distanz zwischen den zusammengefassten Clustern jeweils ist (es handelt sich hier um transformierte Distanzen mit einem Wertebereich zwischen 0 und 25)

Jede Zeile des Diagramms repräsentiert ein Objekt. Die Linien repräsentieren die Verschmelzungen zwischen den Objekten. Zum Beispiel wurden auf einem recht niedrigen Verschmelzungsniveau von etwa 1,0 die Objekte 81 und 796 vereinigt (roter Kasten)

Dieses Cluster (81, 796) wurde in einem späteren Schritt (Verschmelzungsniveau von ca. 2,0) mit dem Fall 819 zu einem neuen Cluster (81, 796, 819) verschmolzen usw.

Clusterzentrenanalyse in SPSS

Die hierarchische Clusteranalyse hat den Nachteil, dass sie bei sehr großen Stichproben rechenintensiv wird

Für große Stichproben empfiehlt sich die sog. Clusterzentrenanalyse, die im Vergleich zum hierarchischen Verfahren einige Vereinfachungen enthält:

Die Anzahl der zu bildenden Cluster muss vom Benutzer vorgegeben werden

Wenn sich die Clusteranzahl nicht aus theoretischen Überlegungen ergibt, sollte mit einer Stichprobe aus den zu untersuchenden Objekten eine hierarchische Clusteranalyse durchgeführt werden, um die optimale Anzahl zu bestimmen

Zum Beispiel kann dazu unter Daten - Fälle auswählen die Option „Stichprobe“ benutzt werden (z.B. 10%-Stichprobe aus dem Datensatz)

Clusterzentrenanalyse in SPSS

Zweite Vereinfachung: Nicht nur die Anzahl der Cluster, sondern auch das Zentrum jedes Clusters wird von der Clusterzentrenanalyse als bekannt vorausgesetzt

Das Zentrum jedes Clusters besteht aus den (arithmetischen) Mittelwerten der Merkmalsvariablen der Objekte pro Cluster (siehe nächste Folie).

Bei der Clusterzentrenanalyse wird jedes Objekt dem Cluster zugeordnet, zu dessen Clusterzentrum seine Distanz am geringsten ist. Der paarweise Vergleich der hierarchischen Clusteranalyse wird damit überflüssig

Clusterzentrenanalyse in SPSS

Im folgenden Beispiel wurde zunächst mit einer 10%-Stichprobe des Datensatz eine hierarchische Clusteranalyse gerechnet, nach deren Ergebnissen eine 3er-Clusterlösung optimal ist

Unter Analysieren – Mittelwerte vergleichen – Mittelwerte wurden nun die Mittelwerte der Merkmalsvariablen pro Cluster berechnet (dies sind die Merkmalswerte des Clusterzentrums, siehe nächste Folie)

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 58

Clusterzentrenanalyse in SPSS

Die Clusterzentren-Werte werden nun in einer neuen Datei namens „Zentren“ abgespeichert, die SPSS bei der Clusterzentrenanalyse im Hauptmenü unter „Anfangswerte einlesen aus“ vorzugeben ist

Jede Zeile entspricht einem Cluster. Anhand der Variablen „Cluster_“ ist SPSS vorzugeben, um welchen Cluster es sich jeweils handelt

In den nachfolgenden Spalten stehen die Clusterzentrenwerte der Merkmalsvariablen

j eweils handelt In den nachfolgenden Spalten stehen die Clusterzentrenwerte der Merkmalsvariablen Clusteranalyse 59

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 60

Clusterzentrenanalyse in SPSS

Die Clusterzentrenanalyse geht nun wie folgt vor:

Für jedes Objekt werden die euklidischen Distanzen zu den drei Clusterzentren berechnet, so dass sich für jedes Objekt drei Distanzwerte ergeben. Das Objekt wird dem Cluster zugeordnet, zu dem es die geringste Distanz aufweist

Nachdem alle Objekte auf die Cluster verteilt wurden, werden für jeden Cluster neue Clusterzentren berechnet

Anhand der neu berechneten Clusterzentren werden die Objekte nun erneut auf die einzelnen Cluster verteilt. Anschließend werden wieder neue Clusterzentren berechnet usw.

Dieser Prozess wird solange fortgesetzt, bis das erneute Zuordnen der Objekte nur noch minimale Veränderungen gegenüber dem vorherigen Ergebnis bewirkt. Die Höchstzahl der Wiederholungen (Iterationen) sollte im Menü Iterieren unbedingt von 10 auf 99 erhöht werden!

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 62

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 63

Clusterzentrenanalyse in SPSS

Das Iterationsprotokoll (nächste Folie) dokumentiert diesen Prozess

Nachdem im ersten Iterationsschritt jedes Objekt anhand der vorgegebenen, anfänglichen Clusterzentren einem Cluster zugeordnet wurde, werden neue Clusterzentren berechnet

Die erste Zeile des Iterationsprotokolls zeigt, wie stark diese neu berechneten Clusterzentren von den anfänglichen abweichen.

Das neue Zentrum von Cluster 1 weicht nach dem ersten Iterationsschritt z.B. von seinem ursprünglich vorgegebenen um den Wert 0,255 ab

Clusterzentrenanalyse in SPSS

Das Klassifikationsergebnis wird nun in den weiteren Iterationsschritten immer weiter optimiert, was an den abnehmenden Distanzen zwischen den pro Schritt jeweils neu berechneten Clusterzentren zu den Zentren des vorhergehenden Schritts erkennbar ist

Die Neuzuteilung im 19 Schritt bewirkt allenfalls noch minimale Veränderungen (Distanzen kleiner 0,000), wodurch der Iterationsprozess nach dem 19 Schritt beendet wird.

Die hier vorgenommene Zuteilung ist das Endergebnis

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 66

Clusterzentrenanalyse in SPSS

Mit Hilfe des Outputs ANOVA kann getestet werden, ob sich die drei Cluster tatsächlich hinsichtlich jeder Merkmalsvariablen signifikant unterscheiden

Überlegung: Wenn die Clusteranalyse erfolgreich war, müssen die Unterschiede zwischen den Objekten eines Clusters klein und zwischen den Objekten verschiedener Cluster groß sein

Die Werte der Merkmalsvariablen pro Objekt sollten also möglichst wenig vom Clustermittelwert abweichen.

Gleichzeitig müssen die Mittelwerte, die sich für eine Variable in den verschiedenen Clustern ergeben, möglichst stark um den Stichprobenmittelwert der Variablen streuen

Clusterzentrenanalyse in SPSS

Es wird daher für jede Merkmalsvariable die Quadratsumme innerhalb der Cluster („Fehler: Mittel der Quadrate“) und zwischen den Clustern („Cluster:

Mittel der Quadrate“) angegeben. Der Quotient daraus ist der F-Wert

Ein hoher F- und ein geringer Signifikanzwert weisen darauf hin, dass sich die Werte der betreffenden Variable innerhalb der Cluster tatsächlich ähnlicher sind als die Werte in unterschiedlichen Clustern

Dies ist hier bei jeder Variablen der Fall

Clusterzentrenanalyse in SPSS

Clusterzentrenanalyse in SPSS Clusteranalyse 69

Clusteranalyse: Anwendungsempfehlungen

Skalenniveau der Merkmalsvariablen: Bei der hierarchischen Clusteranalyse können binäre (d.h. nominale) Variablen (mit nur zwei Ausprägungen) und metrische Variablen verarbeitet werden, bei der Clusterzentrenanalyse nur metrische

Es empfiehlt sich, bei der hierarchischen Clusteranalyse entweder nur metrische oder nur binäre Variablen zu verwenden. Wenn Sie über binäre und metrische Daten verfügen, können die metrischen Variablen binarisiert werden (siehe hierzu: Backhaus et al. 2006: 507ff)

Zusammenhänge zwischen den Daten: Hohe Korrelationen zwischen metrischen Merkmalsvariablen können zu einer unerwünschten Gewichtung einzelner Merkmale führen

Es empfiehlt sich daher, vor der Clusteranalyse durch eine Hauptkomponentenanalyse die Dimensionen der Objektvektoren zu verringern, insbesondere bei einer großen Zahl von Merkmalen

Literatur

Deichsel & Trampich (1985): Clusteranalyse und Diskriminanzanalyse. Stuttgart / New York: Fischer.

Bacher, Johann (1994): Clusteranalyse. Anwendungsorientierte Einführung. München / Wien: Oldenbourg.

Backhaus, Erichson & Plinke (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin:

Springer.