Sie sind auf Seite 1von 71

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.

Daniel Lois

Clusteranalyse

Stand: Dezember 2009

Inhaltsverzeichnis
1. Clusteranalyse: Grundlagen 2. Hierarchische Clusteranalyse in SPSS 3. Clusterzentrenanalyse in SPSS 4 Literatur 4. 3 27 55 72

Clusteranalyse

Clusteranalyse: Grundlagen
Aufgabe der Clusteranalyse: Aufteilung einer zunchst ungeordneten

Menge von Objekten in Gruppen hnlicher Objekte (Cluster) Die derselben Gruppe zugeordneten Objekte sollen eine mglichst hohe hnlichkeit aufweisen, whrend die Objekte unterschiedlicher Gruppen mglichst li h t verschieden hi d sein i sollen ll Es handelt sich um ein exploratives Verfahren: Es wird insbesondere dann eingesetzt, eingesetzt wenn eine Menge von Objekten durch eine Vielzahl von Einzelmerkmalen beschrieben wird und daher unberschaubar wird

Clusteranalyse

Clusteranalyse: Grundlagen
Beispiel fr eine einfache Gruppeneinteilung: eine Gruppe von Personen wird nach dem Merkmal Geschlecht in zwei homogene Gruppen eingeteilt. hnlichkeit wird ird nur n r ber ein Merkmal definiert Beispiel fr eine komplexe Gruppeneinteilung: gesucht sind x Lebensstilgruppen. g pp hnlichkeit soll ber eine Kombination von Merkmalen gemessen werden: 10 Freizeitaktivitten, 10 Lebenseinstellungen Um die hnlichkeit von Objekten zu messen, wird daher ein Verfahren b ti t mit bentigt, it d dem Kombinationen K bi ti aus mehreren h Merkmalen M k l miteinander it i d verglichen werden knnen

Clusteranalyse

Clusteranalyse: Grundlagen
Folgende Grafik zeigt eine Menge von Objekten (20 Personen). Zu jedem Objekt liegen Daten zu zwei Merkalen vor (x und y-Achse) Durch Betrachten der grafischen Darstellung erkennt man vier zusammen liegende Punktehaufen (Cluster). Die Identifizierung dieser Cluster ist Aufgabe g der Clusteranalyse y Sind mehr als zwei Merkmale pro Objekt erfasst, wird es zunehmend schwieriger, die Datenvektoren grafisch darzustellen und Strukturen darin zu erkennen k Rechnerisch lsst sich diese Aufgabe jedoch bewltigen. Bei der Clusteranalyse handelt es sich daher um eine numerische Klassifikation

Clusteranalyse

Clusteranalyse: Grundlagen

Clusteranalyse

Clusteranalyse: Grundlagen

Clusteranalyse

Clusteranalyse: Grundlagen
Um das Grundprinzip nachzuvollziehen, sollen die durch Betrachten

gefundenen Cluster rechnerisch reproduziert werden Dazu ist die Definition einer Mazahl notwendig, die den Grad der Verschiedenheit der Objekte bezglich der Merkmale beschreibt (sog. Distanzma). ) Ein gebruchliches Ma fr metrische Daten ist die Euklidische Distanz. Sie wird fr zwei Punkte der Ebene, A: (xa, xb) und B: (ya, yb) berechnet nach: h

d ( A, B) = ( x A x B ) + ( y A y B )
Fr die Personen 1 und 2 (1: (4,0, 1,0); 2: (3,0, 1,7)) ergibt sich z.B.:

d ( A, B) = (4,0 3,0) + (1,0 1,7 ) = 1,22


Clusteranalyse 8

Clusteranalyse: Grundlagen

Clusteranalyse

Clusteranalyse: Grundlagen
Nachfolgende Tabelle zeigt die Euklidischen Distanzen aller mglichen

Paare von Punkten (Distanztabelle) Aus der Distanztabelle kann ein sog. Minimalbaum konstruiert werden (graphentheoretisches Clusterverfahren) Ein Ei Graph G h beschreibt b h ibt eine i Menge M von Punkten, P kt von d denen gewisse i d durch h Linien verbunden sind. Die Punkte des Minimalbaums entsprechen den zu klassifizierenden Objekten (Personen). Die Lnge der Verbindungslinien b ti bestimmt t die di gesuchte ht Kl Klassifikation ifik ti Man beginnt mit einem beliebigen Punkt, z.B. mit Person 1, und sucht in der Tabelle den nchst gelegenen. Dies ist d (1,19) = 0,54 Es werden zwei Punkte, die durch eine Linie der Lnge 0,54 verbunden sind, auf ein Blatt Papier gezeichnet und mit 1 und 19 beschriftet:

Clusteranalyse

10

Clusteranalyse

11

Clusteranalyse: Grundlagen

Als nchstes wird derjenige Punkt gesucht, der dieser Konfiguration

am nchsten liegt liegt. Dazu denkt man sich die Spalten 1 und 19 gestrichen und sucht in den Zeilen 1 und 19 den kleinsten Wert (wobei die Diagonale bergangen wird) Man findet als Minimum in Zeile 1 den Wert d (1,13) = 0,58 und in Zeile 19 den Wert d (19,20) = 0,32. Da 0,32 kleiner als 0,58 ist, liegt Punkt 20 der bisher aufgezeichneten g Konfiguration g am nchsten. Es ergibt g sich:
Clusteranalyse 12

Clusteranalyse

13

Clusteranalyse: Grundlagen

Der D di dieser K Konfiguration fi ti nchstgelegene h t l Punkt P kt i ist t wegen

d (19,15) = 0,50 und d (20,15) = 0,50 der Punkt 15 Potentielle Verbindungspunkte fr 15 sind die Punkte 19 und 20. Es ist gleichgltig, welcher der quivalenten Punkte (19 oder 20) gewhlt wird. Per Mnzwurf fllt die Wahl auf 20:
Clusteranalyse 14

Clusteranalyse

15

Clusteranalyse: Grundlagen

Setzt man das Verfahren fr alle Objekte fort, entsteht daraus der

fertige Minimalbaum (nchste Folie). Entfernt man alle Linien, die einen Schwellenwert von z.B. (!) 0,60 bersteigen (gestrichelte Linien), zerfllt der Baum in vier Teilstcke, die den bereits bekannten Clustern entsprechen
Clusteranalyse 16

Clusteranalyse: Grundlagen

Clusteranalyse

17

Clusteranalyse: Grundlagen
Bisher haben wir zwei Clusterverfahren kennen gelernt: das Verfahren

des Betrachtens (das nur bei sehr wenigen Merkmalen sinnvoll ist) und das Minimalba m erfahren Minimalbaumverfahren. Grundstzlich unterscheidet man zwischen zwei Varianten: a) ) hierarchische hi hi h Clusterverfahren, Cl t f h die di Hi Hierarchien hi di disjunkter j kt Cl Cluster t erzeugen (z.B. Minimalbaumverfahren) Durch den Schwellenwert 0,60 wurde sich im Beispiel zuvor fr eine Stufe dieser Hierarchie entschieden (4er Clusterlsung). Htte man 0,81 als Schwellenwert gewhlt, wren nur zwei Cluster entstanden. Diese 2erLsung ist der 4er Lsung hierarchisch bergeordnet

Clusteranalyse

18

Clusteranalyse: Grundlagen
b) nicht-hierarchischen Clusterverfahren: Beim hierarchischen Verfahren werden Objekte, die einmal zu einem Cluster zusammengefasst wurden, auf f spteren Stufen S f der Clusterbildung C nicht mehr getrennt. Bei nicht hierarchischen Verfahren (z.B. Clusterzentrenanalyse in SPSS) knnen Cluster auf spteren Stufen wieder aufgespalten werden

Clusteranalyse

19

Clusteranalyse: Grundlagen
Hierarchische Klassifikation Bei der hierarchischen Clusteranalyse y wird meist agglomerativ gg vorgegangen (vgl. Minimalbaumkonstruktion): Zunchst wird jedes Objekt (im Beispiel jede der 20 Personen) als eigenstndiges i t di Cl Cluster t angesehen. h Di Die b beiden id Cl Cluster, t zwischen i h d denen di die geringste Distanz besteht, werden zu einem gemeinsamen Cluster zusammengefasst. Die Zahl der verbleibenden Cluster verringert sich um 1 Fr die verbleibenden Objekte (von denen einer zwei Objekte enthlt) werden erneut Distanzwerte fr alle Paare berechnet und wiederum die beiden Cluster mit dem kleinsten Distanzwert zusammengefasst Diese Prozedur wird solange fortgesetzt, bis smtliche Objekte zu einem Cluster zusammengefasst wurden

Clusteranalyse

20

Clusteranalyse: Grundlagen
Anhand des konstruierten Minimalbaums wird deutlich, dass die kleinste Distanz im Baum 0,22 betrgt. Auf diesem Verschmelzungsniveau werden daher die Personen 10 und nd 16 16, die zunchst nchst je jeweils eils ein eigenes Cl Cluster ster bilden, zu einem Cluster vereinigt (siehe Abbildung nchste Folie) Es folgen g die Verschmelzungen g der Personen 19 und 20 sowie 7 und 14 auf dem Niveau 0,32, auf dem auch Person 17 in die erste Zweiergruppe aufgenommen wird (10,16,17) Das D nchste h t Ni Niveau i ist t0 0,36, 36 d dem f folgende l d G Gruppierung i entspricht: t i ht (10,16,17,7,14); (19,20); (12,4). Die restlichen Personen sind bei einem Verschmelzungsniveau von 0,36 immer noch isoliert Das Endergebnis dieser agglomerativen Gruppenbildung kann grafisch mit Hilfe des Dendogramms dargestellt werden (bernchste Folie). Werden die ste des Dendogramms in der Hhe 0,60 0 60 durchgesgt, durchgesgt resultieren wiederum die vier bekannten Gruppen

Clusteranalyse

21

Clusteranalyse: Grundlagen

Clusteranalyse

22

Clusteranalyse: Grundlagen

Clusteranalyse

23

Clusteranalyse: Grundlagen

Clusteranalyse

24

Clusteranalyse: Grundlagen

Clusteranalyse

25

Clusteranalyse: Grundlagen
Das abschlieende Resultat der Prozedur (ein smtliche Objekte umfassendes Cluster) ist natrlich nicht das Ergebnis, das man sich von der Cl steranal se erhofft Clusteranalyse Das eigentliche Ergebnis besteht in dem Weg, den einzelnen Schritten der hierarchischen Clusterbildung: g erster Schritt: alle Objekte j sind isoliert letzter Schritt: alle Objekte sind in einem Cluster vereinigt Es muss ein optimales Verschmelzungsniveau (eine bestimmte Stufe in d Hi der Hierarchie) hi ) gefunden f d werden, d b bei id dem sichergestellt i h t llt i ist, t d dass di die Objekte in einem Cluster nicht zu heterogen und die Unterschiede zwischen den Clustern nicht zu gering sind (s.u.)

Clusteranalyse

26

Hierarchische Clusteranalyse in SPSS

Clusteranalyse

27

Hierarchische Clusteranalyse in SPSS


Men: Analysieren Klassifizieren Hierarchische Clusteranalyse
Im I Men M Statistik St ti tik knnen k Si Sie di die

Zuordnungsbersicht anfordern, die detaillierte Informationen ber den A l Agglomerationsprozess ti enthlt thlt ( (s.u.) ) Die Distanz-Matrix zeigt die Distanzen zwischen den einzelnen Objekten bzw. Fllen (vgl. Distanztabelle Folie 10). Die Werte hngen vom verwendeten Distanzma ab (s.u.) Auerdem kann fr jeden Fall die Clusterzugehrigkeit ausgegeben werden

Clusteranalyse

28

Hierarchische Clusteranalyse in SPSS

Clusteranalyse

29

Hierarchische Clusteranalyse in SPSS


Unter Diagramme kann das Dendogramm (siehe auch Folie 22) sowie Eiszapfendiagramme angefordert werden (s.u.) Die Diagramme machen nur bei relativ relati kleinen Fallzahlen Fall ahlen Sinn Sinn, da sie ansonsten unbersichtlich nbersichtlich werden erden Im Men Methode werden die Clustermethode und das Distanzma ausgewhlt. g Auerdem knnen die Werte der Merkmalsvariablen transformiert werden Eine Transformation ist dann notwendig, wenn die in die Clusteranalyse eingehenden i h d M Merkmalsvariablen k l i bl eine i unterschiedliche t hi dli h M Metrik t ik h haben b

Clusteranalyse

30

Hierarchische Clusteranalyse in SPSS


Wrde z.B. eine Distanzmatrix der Merkmale Krpergewicht in Kg (z.B. 76 Kg) und Krpergre in Meter (z.B. 1,80 m) berechnet, wrden die Distanzwerte des Krpergewichts die Distanzwerte der Krpergre um ein Vielfaches bertreffen und daher die Klassifikation dominieren In diesem Fall sollten die Daten standardisiert werden: Von jedem Datum wird das arithmetische Mittel des Merkmals subtrahiert und diese Differenz durch die Standardabweichung des Merkmals dividiert (Z-Transformation)

Clusteranalyse

31

Hierarchische Clusteranalyse in SPSS


Clustermethoden Die verschiedenen Clustermethoden messen die Distanzwerte zwischen verschiedenen Clustern auf unterschiedliche Art und Weise Im ersten Schritt der hierarchischen Clusteranalyse werden fr alle Obj kt Objektpaare Distanzwerte Di t t berechnet. b h t Di Die b beiden id Obj Objekte kt mit it d der kl kleinsten i t Distanz werden verschmolzen Im zweiten Schritt lassen sich die zu vereinigenden Cluster nicht mehr so einfach ermitteln, da ein Cluster bereits aus zwei Objekten besteht. Wie wird die Distanz nun ermittelt? Man unterscheidet u.a. zwischen folgenden Gruppen von Verfahren: A) Nchste-Nachbarn-Verfahren: Die Cluster werden so gebildet, dass jedes Klassifikationsobjekt eine bestimmte Anzahl von nchsten Nachbarn i d in dem Cl Cluster h hat, d dem es angehrt h

Clusteranalyse

32

Hierarchische Clusteranalyse in SPSS


Ein Klassifikationsobjekt j wird dabei als nchster Nachbar des Klassifikationsobjekt i bezeichnet, wenn es zu i eine Distanz grer/gleich einem bestimmten Schwellenwert Sch ellen ert aufweist. a f eist Man unterscheidet nterscheidet u.a. a zwischen dem
Single-Linkage g g ( (= Methode des nchsten Nachbarn): ) Ein noch

unklassifizierter Punkt wird einem Cluster zugewiesen, wenn es darin mindestens einen Punkt gibt, zu dem der fragliche Punkt eine gengend kleine Distanz hat (> ( Schwellenwert) Die anderen Punkte des Clusters spielen dann keine Rolle mehr: ein einziger Punkt des Clusters stellt eine Verbindung zu einem Objekt her ( war auch (so hd das V Vorgehen h b bei id der K Konstruktion t kti d des Mi Minimalbaus). i lb ) Diese Methode kann zur Bildung von Ketten, also lang gestreckten Clustern, beitragen (siehe Grafik) Es liegt beim Single-Linkage folglich eine Vorstellung von einer schwachen Homogenitt innerhalb der Cluster vor
Clusteranalyse 33

Hierarchische Clusteranalyse in SPSS


Beim Single-Linkage kann der Fall auftreten, dass zwei Punkte desselben Clusters eine grere Distanz aufweisen als Punkte verschiedener Cluster. Um dies zu vermeiden, ermeiden kann man das Complete Linkage (= Methode des entferntesten Nachbarn) anwenden. Hier wird g gefordert, , dass der fragliche g Punkt zu j jedem Punkt des Clusters, in das er aufgenommen werden soll, eine Distanz unterhalb des Schwellenwertes aufweist. Alle Klassifikationsobjekte mssen also nchste Nachbarn sein In der Grafik entspricht die Schwellendistanz dem Kreisdurchmesser. Alle Punkte innerhalb eines der Kreise haben untereinander eine geringere i Di Distanz t als l d der S Schwellenwert h ll t zulsst. l t A Auf f di diese W Weise i entstehen statt eines (single linkage) zwei (runde) Cluster Es liegt also eine sehr strenge Forderung hinsichtlich der Homogenitt der Cluster vor, die man beim Complete-Linkage auch als Cliquen bezeichnet
Clusteranalyse 34

Hierarchische Clusteranalyse in SPSS

Clusteranalyse

35

Hierarchische Clusteranalyse in SPSS


Eine weitere Gruppe von Clusterverfahren sind die Mittelwertmodelle. Hier werden die Cluster durch die durchschnittliche paarweise hnlichkeit b bzw. Unhnlichkeit der Klassifikationsobjekte innerhalb der Cl Cluster ster und/oder nd/oder zwischen den Clustern charakterisiert. Dazu gehren: Linkage g zwischen den Gruppen pp ( (bei SPSS die Voreinstellung): g) Es werden alle mglichen Paare zwischen den Objekten der beiden Cluster gebildet und fr jedes Paar die Distanz berechnet. Das D arithmetische ith ti h Mitt Mittel l dieser di Distanzen Di t wird i d als l Di Distanz t zwischen i h den beiden Clustern angesehen. Linkage innerhalb der Gruppen: Es werden smtliche Paare betrachtet, die sich aus den in den beiden Clustern enthaltenen Objekten bilden lassen (also auch solche Paare zwischen Objekten desselben Clusters) Clusters). Das arithmetische Mittel aller Distanzen ergibt die Distanz zwischen den Clustern

Clusteranalyse

36

Hierarchische Clusteranalyse in SPSS


Berechnungsbeispiel zum Linkage zwischen den Gruppen Ausgangspunkt g g p ist ein Datensatz mit sieben Fllen und einer Merkmalsvariablen (sieben eindimensionale Objektvektoren), die bereits willkrlich in drei Cluster unterteilt sind: A (4, A: (4 5 5, 6) ; B B: (8 (8, 9) ; C C: (10 (10, 13) Ausgehend von dieser Dreiergruppierung wird eine optimale Zweiergruppierung gesucht, wobei es drei Mglichkeiten gibt: I: (4, 5, 6, 8, 9) ; (10, 13) II: (4, 5, 6) ; (8, 9, 10, 13) III: (4, 5, 6, 10, 13); (8, 9) Mglichkeit III scheint von vorneherein auszuscheiden. auszuscheiden Die Entscheidung fllt also zwischen den Mglichkeiten I und II

Clusteranalyse

37

Hierarchische Clusteranalyse in SPSS


1) Bildung aller mglichen Paare zwischen den Objekten der beiden Cluster und Berechnung der Distanz fr jedes der Paare (Distanzma: Euklidischer Abstand) ) 2) Bildung des arithmetischen Mittels der Paar-Distanzen. Da 3,0 kleiner als 3,5 ist, ist Mglichkeit II die optimale Lsung: Mglichkeit I: (4, 5, 6, 8, 9)
d (4,8) = (4 8) = 4 d (4,9) = (4 9) = 5 d (5,8) = (5 8) = 3 d (5,9) = (5 9) = 4 d (6,8) = (6 8) = 2 d (6,9) = (6 9) = 3 d = (4 + 5 + 3 + 4 + 2 + 3) / 6 = 3,5
Clusteranalyse 38

Mglichkeit II: (8, 9, 10, 13)

d (8,10) = (8 10) ) = 2 d (8,13) = (8 13) = 5 d (9,10) = (9 10) ) = 1 d (9,13) = (9 13) = 4 d = (2 + 5 + 1 + 4) / 4 = 3,0

Hierarchische Clusteranalyse in SPSS


Schlielich stehen verschiedene Clusterzentren-Verfahren zur Verfgung. Hier wird angenommen, dass ein Cluster durch seine Cl ster entren reprsentiert wird. Clusterzentren ird Es zhlen hlen u.a. a da dazu: Zentroid-Clustering: Fr jeden Cluster werden die arithmetischen Mittelwerte aus den Werten berechnet, , welche die Cluster-Objekte j in den einzelnen Merkmalsvariablen aufweisen. Fr jede Merkmalsvariable ergibt sich somit ein Mittelwert pro Cluster (Cl t (Clusterzentrum). t ) Di Die Di Distanz t zwischen i h zwei i Cl Clustern t wird i d nun anstatt t tt aus den einzelnen Variablenwerten aus den arithmetischen Mittelwerten der Variablen berechnet

Clusteranalyse

39

Hierarchische Clusteranalyse in SPSS


Bei der Ward-Methode werden wie bei der Zentroid-Methode fr jedes Cluster die Variablenmittelwerte berechnet. Anschlieend werden die Distanzen der einzelnen Objekte eines Clusters zum Clustermittelwert bestimmt und fr alle Objekte aufsummiert. Die Di b beiden id Obj Objekte kt b bzw. Cl Cluster t werden d zusammengefasst, f t b bei id denen sich durch die Verschmelzung der geringste Zuwachs der Gesamtsumme der Distanzen ergibt Die Ward-Methode hat sich mittlerweile in sozialwissenschaftlichen Anwendungen durchgesetzt, wird also sehr hufig angewendet Ein Ei Vorteil V t il dieser di M Methode th d b besteht t ht d darin, i d dass sie i selten lt zu sehr h unausgeglichenen Gruppengren fhrt

Clusteranalyse

40

Hierarchische Clusteranalyse in SPSS


Berechnungsbeispiel zum Zentroid-Clustering 1) ) Berechnung g des arithmetischen Mittels j jeder Merkmalsvariablen ( (hier nur eine) pro Cluster (= Zentroid) 2) Berechnung der Distanz (Euklidischer Abstand) zwischen den Clustern anhand h dd der arithmetischen ith ti h Mitt Mittelwerte l t d der M Merkmalsvariable. k l i bl Di Die Verschmelzung von Cluster B mit C ist wiederum die optimale Lsung:

AM ClusterA = AM ClusterB AM ClusterC

4+5+6 =5 3 8+9 = = 8,5 2 10 + 13 = = 11,5 2

d ( A, B) = (5 8,5) = 3,5 d ( A, C ) = (5 11,5) = 6,5 d ( B, C ) = (8,5 11,5) = 3,0

Clusteranalyse

41

Hierarchische Clusteranalyse in SPSS


Berechnungsbeispiel zur Ward-Methode 1) ) Berechnung g des Zentroiden C des Clusters, , das durch die Vereinigung g g von Cluster C(i) und C(j) entsteht (fiktives Objekt) 2) Berechnung der quadrierten euklidischen Distanzen d(i) und d(j) der Z t id von C(i) zu C und Zentroide d C(j) zu C 3) Berechnung des sog. ESSQ-Wertes (error sum of squares) ber folgende Formel (wobei d der quadrierten Euklidischen Distanz und n der Anzahl der Objekte im jeweiligen Cluster entspricht):

ESSQ(i, j ) = ni * d i + n j * d j
4) Das Minimum aller mglichen ESSQ-Werte bestimmt dann die beiden Cl Cluster, di die vereinigt i i werden d

Clusteranalyse

42

Hierarchische Clusteranalyse in SPSS


Cluster A: (4, 5, 6); Cluster B: (8, 9); Cluster C: (10, 13) Zentroid C bei einer Verschmelzung von A mit B: (4 + 5 + 6 + 8 + 9) / 5 = 6,4 Zentroide der Eltern (arithmetische Mittelwerte der Merkmalsvariable): Cluster A: 5; Cluster B: 8 8,5 5 ESSQ der Eltern:

ESSQ A, B = 3 * (5 6,4) + 2 * (8,5 6,4) = 14,7

Zentroid C bei einer Verschmelzung von B mit C: (8 + 9 + 10 +13) / 4 = 10,0 Zentroide der Eltern: Cluster B: 8,5; Cluster C: 11,5 ESSQ der Eltern:

ESSQ B ,C = 2 * (8,5 10) ) + 2 * (11,5 10) ) = 9,0

Da 9,0 kleiner als 14,7 ist, ist die Verschmelzung B-C wiederum die optimale Lsung
Clusteranalyse 43

Hierarchische Clusteranalyse in SPSS


Neben der Cluster-Methode knnen im Men Methode auch verschiedene Distanzmae ausgewhlt werden (Voreinstellung ist der q adrierte e quadrierte euklidische klidische Abstand Abstand, andere Distan Distanzmaen maen siehe weiterfhrende eiterfhrende Literatur im Anhang) Zu beachten ist hier, , dass fr intervallskalierte (metrische) ( ) Daten und binre (Dummy-)Variablen jeweils spezielle Distanzmae ausgewhlt werden mssen! Im I Men M Speichern S i h k knnen neue V Variablen i bl erstellt t llt werden, d i in d denen f fr jeden Fall festgehalten wird, welchem Cluster er angehrt. Dabei muss die Anzahl der zu bildenden Cluster vom Benutzer festgelegt werden

Clusteranalyse

44

Hierarchische Clusteranalyse in SPSS


Zunchst werden fr alle Paare, die sich aus den Objekten bilden lassen, Distanzwerte berechnet. Diese knnen in der Distanzmatrix ausgegeben werden. erden Die Matrix ist symmetrisch, so dass alle Distanzwerte zweimal aufgefhrt werden. In der Diagonale g stehen Nullen: die Distanz eines Objektes j zu sich selbst ist 0 Der markierte Wert gibt an, dass die Unhnlichkeit von Fall 81 und 796 mit 3 136 quantifiziert 3,136 tifi i t wird i d (quadrierter ( d i t euklidischer klidi h Ab Abstand). t d) Aus der Distanzmatrix knnen bereits erste Tendenzen abgelesen werden: so ist z.B. zu vermuten, dass die Flle 81, 796 und 88 durch ihre geringe Distanz bereits auf niedrigen Verschmelzungsniveaus zu einem Cluster zusammengefasst werden knnen

Clusteranalyse

45

Clusteranalyse in SPSS

Clusteranalyse

46

Hierarchische Clusteranalyse in SPSS


Die Zuordnungsbersicht zeigt den Verlauf der Clusterbildung von der ersten Stufe (alle Objekte sind isoliert) bis zur letzten (alle Objekte sind in einem einzigen ein igen Cluster Cl ster vereint) ereint) Jede Zeile beschreibt eine Stufe der Agglomeration. Die erste Zeile beschreibt somit das Zusammenfassen zweier Objekte j zu einem Cluster, , konkret der Flle 88 und 256, zwischen denen in der Distanzmatrix auch der kleinste Distanzwert ausgegeben ist (1,243) Die Di S Spalten lt 2 und d 3 geben b also l an, welche l h Obj Objekte kt (b (bzw. spter: t welche l h Cluster) in dem jeweiligen Schritt verschmolzen werden Unter Koeffizienten Koeffizienten wird die zwischen den Objekten bzw. Clustern gemessene Distanz ausgegeben. Sie wchst kontinuierlich, da zunchst die Objekte (Cluster) mit der grten hnlichkeit zusammengefasst werden, dann diejenigen mit der zweitgrten hnlichkeit usw. usw

Clusteranalyse

47

Clusteranalyse in SPSS

Clusteranalyse

48

Hierarchische Clusteranalyse in SPSS


Die Distanzwerte steigen zunchst moderat an, bis auf spteren Stufen (hier ungefhr ab der 20. Stufe) ein beschleunigter Anstieg beobachtet werden erden kann Dieser Verlauf ist typisch: auf den unteren Stufen werden meist noch eine Reihe von Clustern mit recht hoher hnlichkeit g gefunden, , whrend auf spteren Stufen zunehmend auch unhnlichere Cluster zusammengefasst werden mssen (hier ab der 21. Stufe). Dies Di i ist t ein i Hi Hinweis i d darauf, f d dass di die Cl Clusterbildung t bild womglich li h nach hd der 20. Stufe sinnvoll beendet werden sollte und die bis dahin gefundene Clustereinteilung das Endergebnis ist Die optimale Clusterzahl kann abgelesen werden, indem man die Differenz zwischen der Anzahl der zu klassifizierenden Objekte (im Beispiel 24) und dem Fusionsschritt bildet, nach dem ein deutlicher Anstieg der Distanzwerte (Koeffizienten) zu beobachten ist (hier 20): 24 - 20 = 4. Eine 4er Clusterlsung wre hier also optimal
Clusteranalyse 49

Hierarchische Clusteranalyse in SPSS


Zunchst bezieht sich eine Nummer, z.B. 3 auf ein einzelnes Objekt Wird dieses Objekt j zu einem Cluster vereinigt g ( (z.B. im ersten Schritt 3 mit 8), bezeichnet die Nummer nicht mehr das einzelne Objekt, sondern den gesamten Cluster (3 steht fr den Cluster aus 3 und 8) Bezieht B i ht sich i h eine i N Nummer nicht i ht mehr h auf f ein i Obj Objekt, kt sondern d ein i Cl Cluster, t wird in der Spalte Erstes Vorkommen des Clusters angegeben, auf welcher Stufe das jeweilige Cluster gebildet wurde So wird bei Schritt 4 angegeben, dass Cluster 3 (bestehend aus den Objekten 3 und 8) in Schritt 1 gebildet wurde Die Di l letzte t t S Spalte lt (Nchster ( N h t Schritt) S h itt) gibt ibt fr f jede j d Stufe St f der d Clusterbildung Cl t bild an, auf welcher spteren Stufe der gerade neu gebildete Cluster mit einem anderen zusammengefasst wird

Clusteranalyse

50

Clusteranalyse in SPSS

Clusteranalyse

51

Hierarchische Clusteranalyse in SPSS


Das Eiszapfendiagramm stellt den Verlauf der Clusterbildung grafisch dar. Jede Zeile bezieht sich auf eine Stufe der Agglomeration, wobei die erste Zeile (1 Cl Cluster) ster) den Endp Endpunkt nkt darstellt Die Spalten stehen jeweils fr ein Objekt (Spalte 1 z.B. fr den Fall 655). In I der d untersten t t Zeile Z il (23 Cluster) Cl t ) sind i d di die Fll Flle 655 und d 161 d durch h einen i Freiraum (leere Spalte dazwischen) getrennt. Dies symbolisiert, dass die beiden Objekte unterschiedlichen Clustern zugeordnet sind Die Spalte zwischen den Fllen 256 und 88 ist dagegen mit Kreuzen ausgefllt. Die beiden Flle werden also gleich im ersten Schritt der Clusterbildung vereint (vgl. Zuordnungsbersicht) Auf der vierten Stufe der Clusterbildung (20 Cluster) wird dann der Fall 399 mit dem Cluster (256, 88) verschmolzen usw.

Clusteranalyse

52

Clusteranalyse in SPSS

Clusteranalyse

53

Hierarchische Clusteranalyse in SPSS


Auch im Dendogramm wird der Ablauf der Clusterbildung von der ersten bis zur letzten Stufe grafisch dargestellt Es ist hier im Vergleich zum Eiszapfendiagramm jedoch nicht nur sichtbar, auf welcher Stufe welche Verschmelzungen stattfinden. Zustzlich wird deutlich, , wie gro g die Distanz zwischen den zusammengefassten g Clustern jeweils ist (es handelt sich hier um transformierte Distanzen mit einem Wertebereich zwischen 0 und 25) Jede J d Z Zeile il d des Di Diagramms reprsentiert ti t ein i Obj Objekt. kt Di Die Li Linien i reprsentieren die Verschmelzungen zwischen den Objekten. Zum Beispiel wurden auf einem recht niedrigen Verschmelzungsniveau von etwa 1,0 die Obj kt 81 und Objekte d 796 vereinigt i i t( (roter t K Kasten) t ) Dieses Cluster (81, 796) wurde in einem spteren Schritt (Verschmelzungsniveau von ca ca. 2 2,0) 0) mit dem Fall 819 zu einem neuen Cluster (81, 796, 819) verschmolzen usw.

Clusteranalyse

54

Clusterzentrenanalyse in SPSS
Die hierarchische Clusteranalyse hat den Nachteil, dass sie bei sehr groen Stichproben rechenintensiv wird Fr groe Stichproben empfiehlt sich die sog. Clusterzentrenanalyse, die im Vergleich zum hierarchischen Verfahren einige Vereinfachungen enthlt: Die Di A Anzahl hl d der zu bild bildenden d Cl Cluster t muss vom B Benutzer t vorgegeben b werden Wenn sich die Clusteranzahl nicht aus theoretischen berlegungen ergibt, sollte mit einer Stichprobe aus den zu untersuchenden Objekten eine hierarchische Clusteranalyse durchgefhrt werden, um die optimale Anzahl zu bestimmen Zum Beispiel kann dazu unter Daten - Flle auswhlen die Option Stichprobe benutzt werden (z.B. 10%-Stichprobe aus dem Datensatz)

Clusteranalyse

55

Clusterzentrenanalyse in SPSS
Zweite Vereinfachung: Nicht nur die Anzahl der Cluster, sondern auch das Zentrum jedes Clusters wird von der Clusterzentrenanalyse als bekannt vorausgesetzt Das Zentrum jedes Clusters besteht aus den (arithmetischen) Mittelwerten der Merkmalsvariablen der Objekte pro Cluster (siehe nchste Folie) Folie). Bei der Clusterzentrenanalyse wird jedes Objekt dem Cluster zugeordnet, zu dessen Clusterzentrum seine Distanz am geringsten ist. Der paarweise Vergleich der hierarchischen Clusteranalyse wird damit berflssig

Clusteranalyse

56

Clusterzentrenanalyse in SPSS
Im folgenden Beispiel wurde zunchst mit einer 10%-Stichprobe des Datensatz eine hierarchische Clusteranalyse gerechnet, nach deren Ergebnissen eine 3er 3er-Clusterlsung Cl sterls ng optimal ist Unter Analysieren Mittelwerte vergleichen Mittelwerte wurden nun die Mittelwerte der Merkmalsvariablen p pro Cluster berechnet ( (dies sind die Merkmalswerte des Clusterzentrums, siehe nchste Folie)

Clusteranalyse

57

Clusterzentrenanalyse in SPSS

Clusteranalyse

58

Clusterzentrenanalyse in SPSS
Die Clusterzentren-Werte werden nun in einer neuen Datei namens Zentren abgespeichert, die SPSS bei der Clusterzentrenanalyse im Hauptmen unter Anfangswerte Anfangswerte einlesen aus aus vorzugeben ist Jede Zeile entspricht einem Cluster. Anhand der Variablen Cluster_ ist SPSS vorzugeben, g um welchen Cluster es sich j jeweils handelt In den nachfolgenden Spalten stehen die Clusterzentrenwerte der Merkmalsvariablen

Clusteranalyse

59

Clusterzentrenanalyse in SPSS

Clusteranalyse

60

Clusterzentrenanalyse in SPSS
Die Clusterzentrenanalyse geht nun wie folgt vor:
Fr j jedes Objekt j werden die euklidischen Distanzen zu den drei Clusterzentren berechnet, so dass sich fr jedes Objekt drei Distanzwerte ergeben. Das Objekt wird dem Cluster zugeordnet, zu dem es die geringste Distanz aufweist Nachdem alle Objekte auf die Cluster verteilt wurden, werden fr jeden Cluster neue Clusterzentren berechnet Anhand der neu berechneten Clusterzentren werden die Objekte nun erneut auf die einzelnen Cluster verteilt. Anschlieend werden wieder neue Clusterzentren berechnet usw. Dieser Prozess wird solange fortgesetzt, bis das erneute Zuordnen der Objekte nur noch minimale Vernderungen gegenber dem vorherigen Ergebnis bewirkt. Die Hchstzahl der Wiederholungen g ( (Iterationen) ) sollte im Men Iterieren unbedingt von 10 auf 99 erhht werden!

Clusteranalyse

61

Clusterzentrenanalyse in SPSS

Clusteranalyse

62

Clusterzentrenanalyse in SPSS

Clusteranalyse

63

Clusterzentrenanalyse in SPSS
Das Iterationsprotokoll (nchste Folie) dokumentiert diesen Prozess
Nachdem im ersten Iterationsschritt j jedes Objekt j anhand der vorgegebenen, g g anfnglichen Clusterzentren einem Cluster zugeordnet wurde, werden neue Clusterzentren berechnet Die erste Zeile des Iterationsprotokolls zeigt zeigt, wie stark diese neu berechneten Clusterzentren von den anfnglichen abweichen. Das neue Zentrum von Cluster 1 weicht nach dem ersten Iterationsschritt z.B. von seinem ursprnglich vorgegebenen um den Wert 0,255 ab

Clusteranalyse

64

Clusterzentrenanalyse in SPSS
Das Klassifikationsergebnis wird nun in den weiteren Iterationsschritten immer weiter optimiert, was an den abnehmenden Distanzen zwischen den pro Schritt jeweils neu berechneten Clusterzentren zu den Zentren des vorhergehenden Schritts erkennbar ist Die Neuzuteilung im 19 Schritt bewirkt allenfalls noch minimale Vernderungen (Distanzen kleiner 0,000), wodurch der Iterationsprozess nach dem 19 Schritt beendet wird. Die hier vorgenommene Zuteilung ist das Endergebnis

Clusteranalyse

65

Clusterzentrenanalyse in SPSS

Clusteranalyse

66

Clusterzentrenanalyse in SPSS
Mit Hilfe des Outputs ANOVA kann getestet werden, ob sich die drei Cluster tatschlich hinsichtlich jeder Merkmalsvariablen signifikant unterscheiden nterscheiden berlegung: Wenn die Clusteranalyse erfolgreich war, mssen die Unterschiede zwischen den Objekten j eines Clusters klein und zwischen den Objekten verschiedener Cluster gro sein Die Werte der Merkmalsvariablen pro Objekt sollten also mglichst wenig vom Clustermittelwert Cl t itt l t abweichen. b i h Gleichzeitig mssen die Mittelwerte, die sich fr eine Variable in den verschiedenen Clustern ergeben, mglichst stark um den Stichprobenmittelwert der Variablen streuen

Clusteranalyse

67

Clusterzentrenanalyse in SPSS
Es wird daher fr jede Merkmalsvariable die Quadratsumme innerhalb der

Cluster (Fehler: Mittel der Quadrate) und zwischen den Clustern (Cluster: Mittel der Quadrate) Q adrate) angegeben. angegeben Der Q Quotient otient dara daraus s ist der F F-Wert Wert Ein hoher F- und ein geringer Signifikanzwert weisen darauf hin, dass sich die Werte der betreffenden Variable innerhalb der Cluster tatschlich hnlicher sind als die Werte in unterschiedlichen Clustern Dies ist hier bei jeder Variablen der Fall

Clusteranalyse

68

Clusterzentrenanalyse in SPSS

Clusteranalyse

69

Clusteranalyse: Anwendungsempfehlungen
Skalenniveau der Merkmalsvariablen: Bei der hierarchischen Clusteranalyse knnen binre (d.h. nominale) Variablen (mit nur zwei A sprg ngen) und Ausprgungen) nd metrische Variablen verarbeitet erarbeitet werden, erden bei der Clusterzentrenanalyse nur metrische Es empfiehlt p sich, , bei der hierarchischen Clusteranalyse y entweder nur metrische oder nur binre Variablen zu verwenden. Wenn Sie ber binre und metrische Daten verfgen, knnen die metrischen Variablen binarisiert werden (siehe hierzu: Backhaus et al. 2006: 507ff) Zusammenhnge zwischen den Daten: Hohe Korrelationen zwischen metrischen Merkmalsvariablen knnen zu einer unerwnschten Gewichtung einzelner i l M Merkmale k l fh fhren Es empfiehlt sich daher, vor der Clusteranalyse durch eine Hauptkomponentenanalyse die Dimensionen der Objektvektoren zu verringern, insbesondere bei einer groen Zahl von Merkmalen

Clusteranalyse

70

Literatur

Deichsel & Trampich (1985): Clusteranalyse und Diskriminanzanalyse. Stuttgart / New York: Fischer. Bacher, Johann (1994): Clusteranalyse. Anwendungsorientierte Einfhrung. Mnchen / Wien: Oldenbourg. Backhaus, Erichson & Plinke (2006): Multivariate Analysemethoden Eine anwendungsorientierte Einfhrung Analysemethoden. Einfhrung. Berlin: Springer.

Clusteranalyse

71

Das könnte Ihnen auch gefallen