Cluster Analyse

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.
Daniel Lois
Clusteranalyse
Stand: Dezember 2009
Inhaltsverzeichnis
1. Clusteranalyse: Grundlagen 2. Hierarchische Clusteranalyse in SPSS 3. Clusterzentrenanalyse in SPSS 4 Literatur 4. 3 27 55 72
Clusteranalyse
Clusteranalyse: Grundlagen
Aufgabe der Clusteranalyse: Aufteilung einer zunchst ungeordneten
Menge von Objekten in Gruppen hnlicher Objekte (Cluster) Die derselben Gruppe zugeordneten Objekte sollen eine mglichst hohe hnlichkeit aufweisen, whrend die Objekte unterschiedlicher Gruppen mglichst li h t verschieden hi d sein i sollen ll Es handelt sich um ein exploratives Verfahren: Es wird insbesondere dann eingesetzt, eingesetzt wenn eine Menge von Objekten durch eine Vielzahl von Einzelmerkmalen beschrieben wird und daher unberschaubar wird
Clusteranalyse
Beispiel fr eine einfache Gruppeneinteilung: eine Gruppe von Personen wird nach dem Merkmal Geschlecht in zwei homogene Gruppen eingeteilt. hnlichkeit wird ird nur n r ber ein Merkmal definiert Beispiel fr eine komplexe Gruppeneinteilung: gesucht sind x Lebensstilgruppen. g pp hnlichkeit soll ber eine Kombination von Merkmalen gemessen werden: 10 Freizeitaktivitten, 10 Lebenseinstellungen Um die hnlichkeit von Objekten zu messen, wird daher ein Verfahren b ti t mit bentigt, it d dem Kombinationen K bi ti aus mehreren h Merkmalen M k l miteinander it i d verglichen werden knnen
Clusteranalyse
Folgende Grafik zeigt eine Menge von Objekten (20 Personen). Zu jedem Objekt liegen Daten zu zwei Merkalen vor (x und y-Achse) Durch Betrachten der grafischen Darstellung erkennt man vier zusammen liegende Punktehaufen (Cluster). Die Identifizierung dieser Cluster ist Aufgabe g der Clusteranalyse y Sind mehr als zwei Merkmale pro Objekt erfasst, wird es zunehmend schwieriger, die Datenvektoren grafisch darzustellen und Strukturen darin zu erkennen k Rechnerisch lsst sich diese Aufgabe jedoch bewltigen. Bei der Clusteranalyse handelt es sich daher um eine numerische Klassifikation
Clusteranalyse
Clusteranalyse
Clusteranalyse
Um das Grundprinzip nachzuvollziehen, sollen die durch Betrachten
gefundenen Cluster rechnerisch reproduziert werden Dazu ist die Definition einer Mazahl notwendig, die den Grad der Verschiedenheit der Objekte bezglich der Merkmale beschreibt (sog. Distanzma). ) Ein gebruchliches Ma fr metrische Daten ist die Euklidische Distanz. Sie wird fr zwei Punkte der Ebene, A: (xa, xb) und B: (ya, yb) berechnet nach: h
d ( A, B) = ( x A x B ) + ( y A y B )
Fr die Personen 1 und 2 (1: (4,0, 1,0); 2: (3,0, 1,7)) ergibt sich z.B.:
d ( A, B) = (4,0 3,0) + (1,0 1,7 ) = 1,22

Clusteranalyse 8
Clusteranalyse
Nachfolgende Tabelle zeigt die Euklidischen Distanzen aller mglichen
Paare von Punkten (Distanztabelle) Aus der Distanztabelle kann ein sog. Minimalbaum konstruiert werden (graphentheoretisches Clusterverfahren) Ein Ei Graph G h beschreibt b h ibt eine i Menge M von Punkten, P kt von d denen gewisse i d durch h Linien verbunden sind. Die Punkte des Minimalbaums entsprechen den zu klassifizierenden Objekten (Personen). Die Lnge der Verbindungslinien b ti bestimmt t die di gesuchte ht Kl Klassifikation ifik ti Man beginnt mit einem beliebigen Punkt, z.B. mit Person 1, und sucht in der Tabelle den nchst gelegenen. Dies ist d (1,19) = 0,54 Es werden zwei Punkte, die durch eine Linie der Lnge 0,54 verbunden sind, auf ein Blatt Papier gezeichnet und mit 1 und 19 beschriftet:
Clusteranalyse
10
Clusteranalyse
11
Als nchstes wird derjenige Punkt gesucht, der dieser Konfiguration
am nchsten liegt liegt. Dazu denkt man sich die Spalten 1 und 19 gestrichen und sucht in den Zeilen 1 und 19 den kleinsten Wert (wobei die Diagonale bergangen wird) Man findet als Minimum in Zeile 1 den Wert d (1,13) = 0,58 und in Zeile 19 den Wert d (19,20) = 0,32. Da 0,32 kleiner als 0,58 ist, liegt Punkt 20 der bisher aufgezeichneten g Konfiguration g am nchsten. Es ergibt g sich:
Clusteranalyse 12
Clusteranalyse
13
Der D di dieser K Konfiguration fi ti nchstgelegene h t l Punkt P kt i ist t wegen
d (19,15) = 0,50 und d (20,15) = 0,50 der Punkt 15 Potentielle Verbindungspunkte fr 15 sind die Punkte 19 und 20. Es ist gleichgltig, welcher der quivalenten Punkte (19 oder 20) gewhlt wird. Per Mnzwurf fllt die Wahl auf 20:
Clusteranalyse 14
Clusteranalyse
15
Setzt man das Verfahren fr alle Objekte fort, entsteht daraus der
fertige Minimalbaum (nchste Folie). Entfernt man alle Linien, die einen Schwellenwert von z.B. (!) 0,60 bersteigen (gestrichelte Linien), zerfllt der Baum in vier Teilstcke, die den bereits bekannten Clustern entsprechen
Clusteranalyse 16
Clusteranalyse
17
Bisher haben wir zwei Clusterverfahren kennen gelernt: das Verfahren
des Betrachtens (das nur bei sehr wenigen Merkmalen sinnvoll ist) und das Minimalba m erfahren Minimalbaumverfahren. Grundstzlich unterscheidet man zwischen zwei Varianten: a) ) hierarchische hi hi h Clusterverfahren, Cl t f h die di Hi Hierarchien hi di disjunkter j kt Cl Cluster t erzeugen (z.B. Minimalbaumverfahren) Durch den Schwellenwert 0,60 wurde sich im Beispiel zuvor fr eine Stufe dieser Hierarchie entschieden (4er Clusterlsung). Htte man 0,81 als Schwellenwert gewhlt, wren nur zwei Cluster entstanden. Diese 2erLsung ist der 4er Lsung hierarchisch bergeordnet
Clusteranalyse
18
b) nicht-hierarchischen Clusterverfahren: Beim hierarchischen Verfahren werden Objekte, die einmal zu einem Cluster zusammengefasst wurden, auf f spteren Stufen S f der Clusterbildung C nicht mehr getrennt. Bei nicht hierarchischen Verfahren (z.B. Clusterzentrenanalyse in SPSS) knnen Cluster auf spteren Stufen wieder aufgespalten werden
Clusteranalyse
19
Hierarchische Klassifikation Bei der hierarchischen Clusteranalyse y wird meist agglomerativ gg vorgegangen (vgl. Minimalbaumkonstruktion): Zunchst wird jedes Objekt (im Beispiel jede der 20 Personen) als eigenstndiges i t di Cl Cluster t angesehen. h Di Die b beiden id Cl Cluster, t zwischen i h d denen di die geringste Distanz besteht, werden zu einem gemeinsamen Cluster zusammengefasst. Die Zahl der verbleibenden Cluster verringert sich um 1 Fr die verbleibenden Objekte (von denen einer zwei Objekte enthlt) werden erneut Distanzwerte fr alle Paare berechnet und wiederum die beiden Cluster mit dem kleinsten Distanzwert zusammengefasst Diese Prozedur wird solange fortgesetzt, bis smtliche Objekte zu einem Cluster zusammengefasst wurden
Clusteranalyse
20
Anhand des konstruierten Minimalbaums wird deutlich, dass die kleinste Distanz im Baum 0,22 betrgt. Auf diesem Verschmelzungsniveau werden daher die Personen 10 und nd 16 16, die zunchst nchst je jeweils eils ein eigenes Cl Cluster ster bilden, zu einem Cluster vereinigt (siehe Abbildung nchste Folie) Es folgen g die Verschmelzungen g der Personen 19 und 20 sowie 7 und 14 auf dem Niveau 0,32, auf dem auch Person 17 in die erste Zweiergruppe aufgenommen wird (10,16,17) Das D nchste h t Ni Niveau i ist t0 0,36, 36 d dem f folgende l d G Gruppierung i entspricht: t i ht (10,16,17,7,14); (19,20); (12,4). Die restlichen Personen sind bei einem Verschmelzungsniveau von 0,36 immer noch isoliert Das Endergebnis dieser agglomerativen Gruppenbildung kann grafisch mit Hilfe des Dendogramms dargestellt werden (bernchste Folie). Werden die ste des Dendogramms in der Hhe 0,60 0 60 durchgesgt, durchgesgt resultieren wiederum die vier bekannten Gruppen
Clusteranalyse
21
Clusteranalyse
22
Clusteranalyse
23
Clusteranalyse
24
Clusteranalyse
25
Das abschlieende Resultat der Prozedur (ein smtliche Objekte umfassendes Cluster) ist natrlich nicht das Ergebnis, das man sich von der Cl steranal se erhofft Clusteranalyse Das eigentliche Ergebnis besteht in dem Weg, den einzelnen Schritten der hierarchischen Clusterbildung: g erster Schritt: alle Objekte j sind isoliert letzter Schritt: alle Objekte sind in einem Cluster vereinigt Es muss ein optimales Verschmelzungsniveau (eine bestimmte Stufe in d Hi der Hierarchie) hi ) gefunden f d werden, d b bei id dem sichergestellt i h t llt i ist, t d dass di die Objekte in einem Cluster nicht zu heterogen und die Unterschiede zwischen den Clustern nicht zu gering sind (s.u.)
Clusteranalyse
26
Hierarchische Clusteranalyse in SPSS
Clusteranalyse
27

Men: Analysieren Klassifizieren Hierarchische Clusteranalyse
Im I Men M Statistik St ti tik knnen k Si Sie di die
Zuordnungsbersicht anfordern, die detaillierte Informationen ber den A l Agglomerationsprozess ti enthlt thlt ( (s.u.) ) Die Distanz-Matrix zeigt die Distanzen zwischen den einzelnen Objekten bzw. Fllen (vgl. Distanztabelle Folie 10). Die Werte hngen vom verwendeten Distanzma ab (s.u.) Auerdem kann fr jeden Fall die Clusterzugehrigkeit ausgegeben werden
Clusteranalyse
28
Clusteranalyse
29

Unter Diagramme kann das Dendogramm (siehe auch Folie 22) sowie Eiszapfendiagramme angefordert werden (s.u.) Die Diagramme machen nur bei relativ relati kleinen Fallzahlen Fall ahlen Sinn Sinn, da sie ansonsten unbersichtlich nbersichtlich werden erden Im Men Methode werden die Clustermethode und das Distanzma ausgewhlt. g Auerdem knnen die Werte der Merkmalsvariablen transformiert werden Eine Transformation ist dann notwendig, wenn die in die Clusteranalyse eingehenden i h d M Merkmalsvariablen k l i bl eine i unterschiedliche t hi dli h M Metrik t ik h haben b
Clusteranalyse
30

Wrde z.B. eine Distanzmatrix der Merkmale Krpergewicht in Kg (z.B. 76 Kg) und Krpergre in Meter (z.B. 1,80 m) berechnet, wrden die Distanzwerte des Krpergewichts die Distanzwerte der Krpergre um ein Vielfaches bertreffen und daher die Klassifikation dominieren In diesem Fall sollten die Daten standardisiert werden: Von jedem Datum wird das arithmetische Mittel des Merkmals subtrahiert und diese Differenz durch die Standardabweichung des Merkmals dividiert (Z-Transformation)
Clusteranalyse
31

Clustermethoden Die verschiedenen Clustermethoden messen die Distanzwerte zwischen verschiedenen Clustern auf unterschiedliche Art und Weise Im ersten Schritt der hierarchischen Clusteranalyse werden fr alle Obj kt Objektpaare Distanzwerte Di t t berechnet. b h t Di Die b beiden id Obj Objekte kt mit it d der kl kleinsten i t Distanz werden verschmolzen Im zweiten Schritt lassen sich die zu vereinigenden Cluster nicht mehr so einfach ermitteln, da ein Cluster bereits aus zwei Objekten besteht. Wie wird die Distanz nun ermittelt? Man unterscheidet u.a. zwischen folgenden Gruppen von Verfahren: A) Nchste-Nachbarn-Verfahren: Die Cluster werden so gebildet, dass jedes Klassifikationsobjekt eine bestimmte Anzahl von nchsten Nachbarn i d in dem Cl Cluster h hat, d dem es angehrt h
Clusteranalyse
32

Ein Klassifikationsobjekt j wird dabei als nchster Nachbar des Klassifikationsobjekt i bezeichnet, wenn es zu i eine Distanz grer/gleich einem bestimmten Schwellenwert Sch ellen ert aufweist. a f eist Man unterscheidet nterscheidet u.a. a zwischen dem
Single-Linkage g g ( (= Methode des nchsten Nachbarn): ) Ein noch
unklassifizierter Punkt wird einem Cluster zugewiesen, wenn es darin mindestens einen Punkt gibt, zu dem der fragliche Punkt eine gengend kleine Distanz hat (> ( Schwellenwert) Die anderen Punkte des Clusters spielen dann keine Rolle mehr: ein einziger Punkt des Clusters stellt eine Verbindung zu einem Objekt her ( war auch (so hd das V Vorgehen h b bei id der K Konstruktion t kti d des Mi Minimalbaus). i lb ) Diese Methode kann zur Bildung von Ketten, also lang gestreckten Clustern, beitragen (siehe Grafik) Es liegt beim Single-Linkage folglich eine Vorstellung von einer schwachen Homogenitt innerhalb der Cluster vor
Clusteranalyse 33

Beim Single-Linkage kann der Fall auftreten, dass zwei Punkte desselben Clusters eine grere Distanz aufweisen als Punkte verschiedener Cluster. Um dies zu vermeiden, ermeiden kann man das Complete Linkage (= Methode des entferntesten Nachbarn) anwenden. Hier wird g gefordert, , dass der fragliche g Punkt zu j jedem Punkt des Clusters, in das er aufgenommen werden soll, eine Distanz unterhalb des Schwellenwertes aufweist. Alle Klassifikationsobjekte mssen also nchste Nachbarn sein In der Grafik entspricht die Schwellendistanz dem Kreisdurchmesser. Alle Punkte innerhalb eines der Kreise haben untereinander eine geringere i Di Distanz t als l d der S Schwellenwert h ll t zulsst. l t A Auf f di diese W Weise i entstehen statt eines (single linkage) zwei (runde) Cluster Es liegt also eine sehr strenge Forderung hinsichtlich der Homogenitt der Cluster vor, die man beim Complete-Linkage auch als Cliquen bezeichnet
Clusteranalyse 34
Clusteranalyse
35

Eine weitere Gruppe von Clusterverfahren sind die Mittelwertmodelle. Hier werden die Cluster durch die durchschnittliche paarweise hnlichkeit b bzw. Unhnlichkeit der Klassifikationsobjekte innerhalb der Cl Cluster ster und/oder nd/oder zwischen den Clustern charakterisiert. Dazu gehren: Linkage g zwischen den Gruppen pp ( (bei SPSS die Voreinstellung): g) Es werden alle mglichen Paare zwischen den Objekten der beiden Cluster gebildet und fr jedes Paar die Distanz berechnet. Das D arithmetische ith ti h Mitt Mittel l dieser di Distanzen Di t wird i d als l Di Distanz t zwischen i h den beiden Clustern angesehen. Linkage innerhalb der Gruppen: Es werden smtliche Paare betrachtet, die sich aus den in den beiden Clustern enthaltenen Objekten bilden lassen (also auch solche Paare zwischen Objekten desselben Clusters) Clusters). Das arithmetische Mittel aller Distanzen ergibt die Distanz zwischen den Clustern
Clusteranalyse
36

Berechnungsbeispiel zum Linkage zwischen den Gruppen Ausgangspunkt g g p ist ein Datensatz mit sieben Fllen und einer Merkmalsvariablen (sieben eindimensionale Objektvektoren), die bereits willkrlich in drei Cluster unterteilt sind: A (4, A: (4 5 5, 6) ; B B: (8 (8, 9) ; C C: (10 (10, 13) Ausgehend von dieser Dreiergruppierung wird eine optimale Zweiergruppierung gesucht, wobei es drei Mglichkeiten gibt: I: (4, 5, 6, 8, 9) ; (10, 13) II: (4, 5, 6) ; (8, 9, 10, 13) III: (4, 5, 6, 10, 13); (8, 9) Mglichkeit III scheint von vorneherein auszuscheiden. auszuscheiden Die Entscheidung fllt also zwischen den Mglichkeiten I und II
Clusteranalyse
37

1) Bildung aller mglichen Paare zwischen den Objekten der beiden Cluster und Berechnung der Distanz fr jedes der Paare (Distanzma: Euklidischer Abstand) ) 2) Bildung des arithmetischen Mittels der Paar-Distanzen. Da 3,0 kleiner als 3,5 ist, ist Mglichkeit II die optimale Lsung: Mglichkeit I: (4, 5, 6, 8, 9)
d (4,8) = (4 8) = 4 d (4,9) = (4 9) = 5 d (5,8) = (5 8) = 3 d (5,9) = (5 9) = 4 d (6,8) = (6 8) = 2 d (6,9) = (6 9) = 3 d = (4 + 5 + 3 + 4 + 2 + 3) / 6 = 3,5
Clusteranalyse 38
Mglichkeit II: (8, 9, 10, 13)
d (8,10) = (8 10) ) = 2 d (8,13) = (8 13) = 5 d (9,10) = (9 10) ) = 1 d (9,13) = (9 13) = 4 d = (2 + 5 + 1 + 4) / 4 = 3,0

Schlielich stehen verschiedene Clusterzentren-Verfahren zur Verfgung. Hier wird angenommen, dass ein Cluster durch seine Cl ster entren reprsentiert wird. Clusterzentren ird Es zhlen hlen u.a. a da dazu: Zentroid-Clustering: Fr jeden Cluster werden die arithmetischen Mittelwerte aus den Werten berechnet, , welche die Cluster-Objekte j in den einzelnen Merkmalsvariablen aufweisen. Fr jede Merkmalsvariable ergibt sich somit ein Mittelwert pro Cluster (Cl t (Clusterzentrum). t ) Di Die Di Distanz t zwischen i h zwei i Cl Clustern t wird i d nun anstatt t tt aus den einzelnen Variablenwerten aus den arithmetischen Mittelwerten der Variablen berechnet
Clusteranalyse
39

Bei der Ward-Methode werden wie bei der Zentroid-Methode fr jedes Cluster die Variablenmittelwerte berechnet. Anschlieend werden die Distanzen der einzelnen Objekte eines Clusters zum Clustermittelwert bestimmt und fr alle Objekte aufsummiert. Die Di b beiden id Obj Objekte kt b bzw. Cl Cluster t werden d zusammengefasst, f t b bei id denen sich durch die Verschmelzung der geringste Zuwachs der Gesamtsumme der Distanzen ergibt Die Ward-Methode hat sich mittlerweile in sozialwissenschaftlichen Anwendungen durchgesetzt, wird also sehr hufig angewendet Ein Ei Vorteil V t il dieser di M Methode th d b besteht t ht d darin, i d dass sie i selten lt zu sehr h unausgeglichenen Gruppengren fhrt
Clusteranalyse
40

Berechnungsbeispiel zum Zentroid-Clustering 1) ) Berechnung g des arithmetischen Mittels j jeder Merkmalsvariablen ( (hier nur eine) pro Cluster (= Zentroid) 2) Berechnung der Distanz (Euklidischer Abstand) zwischen den Clustern anhand h dd der arithmetischen ith ti h Mitt Mittelwerte l t d der M Merkmalsvariable. k l i bl Di Die Verschmelzung von Cluster B mit C ist wiederum die optimale Lsung:
AM ClusterA = AM ClusterB AM ClusterC
4+5+6 =5 3 8+9 = = 8,5 2 10 + 13 = = 11,5 2
d ( A, B) = (5 8,5) = 3,5 d ( A, C ) = (5 11,5) = 6,5 d ( B, C ) = (8,5 11,5) = 3,0
Clusteranalyse
41

Berechnungsbeispiel zur Ward-Methode 1) ) Berechnung g des Zentroiden C des Clusters, , das durch die Vereinigung g g von Cluster C(i) und C(j) entsteht (fiktives Objekt) 2) Berechnung der quadrierten euklidischen Distanzen d(i) und d(j) der Z t id von C(i) zu C und Zentroide d C(j) zu C 3) Berechnung des sog. ESSQ-Wertes (error sum of squares) ber folgende Formel (wobei d der quadrierten Euklidischen Distanz und n der Anzahl der Objekte im jeweiligen Cluster entspricht):
ESSQ(i, j ) = ni * d i + n j * d j
4) Das Minimum aller mglichen ESSQ-Werte bestimmt dann die beiden Cl Cluster, di die vereinigt i i werden d
Clusteranalyse
42

Cluster A: (4, 5, 6); Cluster B: (8, 9); Cluster C: (10, 13) Zentroid C bei einer Verschmelzung von A mit B: (4 + 5 + 6 + 8 + 9) / 5 = 6,4 Zentroide der Eltern (arithmetische Mittelwerte der Merkmalsvariable): Cluster A: 5; Cluster B: 8 8,5 5 ESSQ der Eltern:
ESSQ A, B = 3 * (5 6,4) + 2 * (8,5 6,4) = 14,7
Zentroid C bei einer Verschmelzung von B mit C: (8 + 9 + 10 +13) / 4 = 10,0 Zentroide der Eltern: Cluster B: 8,5; Cluster C: 11,5 ESSQ der Eltern:
ESSQ B ,C = 2 * (8,5 10) ) + 2 * (11,5 10) ) = 9,0
Da 9,0 kleiner als 14,7 ist, ist die Verschmelzung B-C wiederum die optimale Lsung
Clusteranalyse 43

Neben der Cluster-Methode knnen im Men Methode auch verschiedene Distanzmae ausgewhlt werden (Voreinstellung ist der q adrierte e quadrierte euklidische klidische Abstand Abstand, andere Distan Distanzmaen maen siehe weiterfhrende eiterfhrende Literatur im Anhang) Zu beachten ist hier, , dass fr intervallskalierte (metrische) ( ) Daten und binre (Dummy-)Variablen jeweils spezielle Distanzmae ausgewhlt werden mssen! Im I Men M Speichern S i h k knnen neue V Variablen i bl erstellt t llt werden, d i in d denen f fr jeden Fall festgehalten wird, welchem Cluster er angehrt. Dabei muss die Anzahl der zu bildenden Cluster vom Benutzer festgelegt werden
Clusteranalyse
44

Zunchst werden fr alle Paare, die sich aus den Objekten bilden lassen, Distanzwerte berechnet. Diese knnen in der Distanzmatrix ausgegeben werden. erden Die Matrix ist symmetrisch, so dass alle Distanzwerte zweimal aufgefhrt werden. In der Diagonale g stehen Nullen: die Distanz eines Objektes j zu sich selbst ist 0 Der markierte Wert gibt an, dass die Unhnlichkeit von Fall 81 und 796 mit 3 136 quantifiziert 3,136 tifi i t wird i d (quadrierter ( d i t euklidischer klidi h Ab Abstand). t d) Aus der Distanzmatrix knnen bereits erste Tendenzen abgelesen werden: so ist z.B. zu vermuten, dass die Flle 81, 796 und 88 durch ihre geringe Distanz bereits auf niedrigen Verschmelzungsniveaus zu einem Cluster zusammengefasst werden knnen
Clusteranalyse
45
Clusteranalyse in SPSS
Clusteranalyse
46

Die Zuordnungsbersicht zeigt den Verlauf der Clusterbildung von der ersten Stufe (alle Objekte sind isoliert) bis zur letzten (alle Objekte sind in einem einzigen ein igen Cluster Cl ster vereint) ereint) Jede Zeile beschreibt eine Stufe der Agglomeration. Die erste Zeile beschreibt somit das Zusammenfassen zweier Objekte j zu einem Cluster, , konkret der Flle 88 und 256, zwischen denen in der Distanzmatrix auch der kleinste Distanzwert ausgegeben ist (1,243) Die Di S Spalten lt 2 und d 3 geben b also l an, welche l h Obj Objekte kt (b (bzw. spter: t welche l h Cluster) in dem jeweiligen Schritt verschmolzen werden Unter Koeffizienten Koeffizienten wird die zwischen den Objekten bzw. Clustern gemessene Distanz ausgegeben. Sie wchst kontinuierlich, da zunchst die Objekte (Cluster) mit der grten hnlichkeit zusammengefasst werden, dann diejenigen mit der zweitgrten hnlichkeit usw. usw
Clusteranalyse
47
Clusteranalyse
48

Die Distanzwerte steigen zunchst moderat an, bis auf spteren Stufen (hier ungefhr ab der 20. Stufe) ein beschleunigter Anstieg beobachtet werden erden kann Dieser Verlauf ist typisch: auf den unteren Stufen werden meist noch eine Reihe von Clustern mit recht hoher hnlichkeit g gefunden, , whrend auf spteren Stufen zunehmend auch unhnlichere Cluster zusammengefasst werden mssen (hier ab der 21. Stufe). Dies Di i ist t ein i Hi Hinweis i d darauf, f d dass di die Cl Clusterbildung t bild womglich li h nach hd der 20. Stufe sinnvoll beendet werden sollte und die bis dahin gefundene Clustereinteilung das Endergebnis ist Die optimale Clusterzahl kann abgelesen werden, indem man die Differenz zwischen der Anzahl der zu klassifizierenden Objekte (im Beispiel 24) und dem Fusionsschritt bildet, nach dem ein deutlicher Anstieg der Distanzwerte (Koeffizienten) zu beobachten ist (hier 20): 24 - 20 = 4. Eine 4er Clusterlsung wre hier also optimal
Clusteranalyse 49

Zunchst bezieht sich eine Nummer, z.B. 3 auf ein einzelnes Objekt Wird dieses Objekt j zu einem Cluster vereinigt g ( (z.B. im ersten Schritt 3 mit 8), bezeichnet die Nummer nicht mehr das einzelne Objekt, sondern den gesamten Cluster (3 steht fr den Cluster aus 3 und 8) Bezieht B i ht sich i h eine i N Nummer nicht i ht mehr h auf f ein i Obj Objekt, kt sondern d ein i Cl Cluster, t wird in der Spalte Erstes Vorkommen des Clusters angegeben, auf welcher Stufe das jeweilige Cluster gebildet wurde So wird bei Schritt 4 angegeben, dass Cluster 3 (bestehend aus den Objekten 3 und 8) in Schritt 1 gebildet wurde Die Di l letzte t t S Spalte lt (Nchster ( N h t Schritt) S h itt) gibt ibt fr f jede j d Stufe St f der d Clusterbildung Cl t bild an, auf welcher spteren Stufe der gerade neu gebildete Cluster mit einem anderen zusammengefasst wird
Clusteranalyse
50
Clusteranalyse
51

Das Eiszapfendiagramm stellt den Verlauf der Clusterbildung grafisch dar. Jede Zeile bezieht sich auf eine Stufe der Agglomeration, wobei die erste Zeile (1 Cl Cluster) ster) den Endp Endpunkt nkt darstellt Die Spalten stehen jeweils fr ein Objekt (Spalte 1 z.B. fr den Fall 655). In I der d untersten t t Zeile Z il (23 Cluster) Cl t ) sind i d di die Fll Flle 655 und d 161 d durch h einen i Freiraum (leere Spalte dazwischen) getrennt. Dies symbolisiert, dass die beiden Objekte unterschiedlichen Clustern zugeordnet sind Die Spalte zwischen den Fllen 256 und 88 ist dagegen mit Kreuzen ausgefllt. Die beiden Flle werden also gleich im ersten Schritt der Clusterbildung vereint (vgl. Zuordnungsbersicht) Auf der vierten Stufe der Clusterbildung (20 Cluster) wird dann der Fall 399 mit dem Cluster (256, 88) verschmolzen usw.
Clusteranalyse
52
Clusteranalyse
53

Auch im Dendogramm wird der Ablauf der Clusterbildung von der ersten bis zur letzten Stufe grafisch dargestellt Es ist hier im Vergleich zum Eiszapfendiagramm jedoch nicht nur sichtbar, auf welcher Stufe welche Verschmelzungen stattfinden. Zustzlich wird deutlich, , wie gro g die Distanz zwischen den zusammengefassten g Clustern jeweils ist (es handelt sich hier um transformierte Distanzen mit einem Wertebereich zwischen 0 und 25) Jede J d Z Zeile il d des Di Diagramms reprsentiert ti t ein i Obj Objekt. kt Di Die Li Linien i reprsentieren die Verschmelzungen zwischen den Objekten. Zum Beispiel wurden auf einem recht niedrigen Verschmelzungsniveau von etwa 1,0 die Obj kt 81 und Objekte d 796 vereinigt i i t( (roter t K Kasten) t ) Dieses Cluster (81, 796) wurde in einem spteren Schritt (Verschmelzungsniveau von ca ca. 2 2,0) 0) mit dem Fall 819 zu einem neuen Cluster (81, 796, 819) verschmolzen usw.
Clusteranalyse
54
Clusterzentrenanalyse in SPSS
Die hierarchische Clusteranalyse hat den Nachteil, dass sie bei sehr groen Stichproben rechenintensiv wird Fr groe Stichproben empfiehlt sich die sog. Clusterzentrenanalyse, die im Vergleich zum hierarchischen Verfahren einige Vereinfachungen enthlt: Die Di A Anzahl hl d der zu bild bildenden d Cl Cluster t muss vom B Benutzer t vorgegeben b werden Wenn sich die Clusteranzahl nicht aus theoretischen berlegungen ergibt, sollte mit einer Stichprobe aus den zu untersuchenden Objekten eine hierarchische Clusteranalyse durchgefhrt werden, um die optimale Anzahl zu bestimmen Zum Beispiel kann dazu unter Daten - Flle auswhlen die Option Stichprobe benutzt werden (z.B. 10%-Stichprobe aus dem Datensatz)
Clusteranalyse
55
Zweite Vereinfachung: Nicht nur die Anzahl der Cluster, sondern auch das Zentrum jedes Clusters wird von der Clusterzentrenanalyse als bekannt vorausgesetzt Das Zentrum jedes Clusters besteht aus den (arithmetischen) Mittelwerten der Merkmalsvariablen der Objekte pro Cluster (siehe nchste Folie) Folie). Bei der Clusterzentrenanalyse wird jedes Objekt dem Cluster zugeordnet, zu dessen Clusterzentrum seine Distanz am geringsten ist. Der paarweise Vergleich der hierarchischen Clusteranalyse wird damit berflssig
Clusteranalyse
56
Im folgenden Beispiel wurde zunchst mit einer 10%-Stichprobe des Datensatz eine hierarchische Clusteranalyse gerechnet, nach deren Ergebnissen eine 3er 3er-Clusterlsung Cl sterls ng optimal ist Unter Analysieren Mittelwerte vergleichen Mittelwerte wurden nun die Mittelwerte der Merkmalsvariablen p pro Cluster berechnet ( (dies sind die Merkmalswerte des Clusterzentrums, siehe nchste Folie)
Clusteranalyse
57
Clusteranalyse
58
Die Clusterzentren-Werte werden nun in einer neuen Datei namens Zentren abgespeichert, die SPSS bei der Clusterzentrenanalyse im Hauptmen unter Anfangswerte Anfangswerte einlesen aus aus vorzugeben ist Jede Zeile entspricht einem Cluster. Anhand der Variablen Cluster_ ist SPSS vorzugeben, g um welchen Cluster es sich j jeweils handelt In den nachfolgenden Spalten stehen die Clusterzentrenwerte der Merkmalsvariablen
Clusteranalyse
59
Clusteranalyse
60
Die Clusterzentrenanalyse geht nun wie folgt vor:
Fr j jedes Objekt j werden die euklidischen Distanzen zu den drei Clusterzentren berechnet, so dass sich fr jedes Objekt drei Distanzwerte ergeben. Das Objekt wird dem Cluster zugeordnet, zu dem es die geringste Distanz aufweist Nachdem alle Objekte auf die Cluster verteilt wurden, werden fr jeden Cluster neue Clusterzentren berechnet Anhand der neu berechneten Clusterzentren werden die Objekte nun erneut auf die einzelnen Cluster verteilt. Anschlieend werden wieder neue Clusterzentren berechnet usw. Dieser Prozess wird solange fortgesetzt, bis das erneute Zuordnen der Objekte nur noch minimale Vernderungen gegenber dem vorherigen Ergebnis bewirkt. Die Hchstzahl der Wiederholungen g ( (Iterationen) ) sollte im Men Iterieren unbedingt von 10 auf 99 erhht werden!
Clusteranalyse
61
Clusteranalyse
62
Clusteranalyse
63
Das Iterationsprotokoll (nchste Folie) dokumentiert diesen Prozess
Nachdem im ersten Iterationsschritt j jedes Objekt j anhand der vorgegebenen, g g anfnglichen Clusterzentren einem Cluster zugeordnet wurde, werden neue Clusterzentren berechnet Die erste Zeile des Iterationsprotokolls zeigt zeigt, wie stark diese neu berechneten Clusterzentren von den anfnglichen abweichen. Das neue Zentrum von Cluster 1 weicht nach dem ersten Iterationsschritt z.B. von seinem ursprnglich vorgegebenen um den Wert 0,255 ab
Clusteranalyse
64
Das Klassifikationsergebnis wird nun in den weiteren Iterationsschritten immer weiter optimiert, was an den abnehmenden Distanzen zwischen den pro Schritt jeweils neu berechneten Clusterzentren zu den Zentren des vorhergehenden Schritts erkennbar ist Die Neuzuteilung im 19 Schritt bewirkt allenfalls noch minimale Vernderungen (Distanzen kleiner 0,000), wodurch der Iterationsprozess nach dem 19 Schritt beendet wird. Die hier vorgenommene Zuteilung ist das Endergebnis
Clusteranalyse
65
Clusteranalyse
66
Mit Hilfe des Outputs ANOVA kann getestet werden, ob sich die drei Cluster tatschlich hinsichtlich jeder Merkmalsvariablen signifikant unterscheiden nterscheiden berlegung: Wenn die Clusteranalyse erfolgreich war, mssen die Unterschiede zwischen den Objekten j eines Clusters klein und zwischen den Objekten verschiedener Cluster gro sein Die Werte der Merkmalsvariablen pro Objekt sollten also mglichst wenig vom Clustermittelwert Cl t itt l t abweichen. b i h Gleichzeitig mssen die Mittelwerte, die sich fr eine Variable in den verschiedenen Clustern ergeben, mglichst stark um den Stichprobenmittelwert der Variablen streuen
Clusteranalyse
67
Es wird daher fr jede Merkmalsvariable die Quadratsumme innerhalb der
Cluster (Fehler: Mittel der Quadrate) und zwischen den Clustern (Cluster: Mittel der Quadrate) Q adrate) angegeben. angegeben Der Q Quotient otient dara daraus s ist der F F-Wert Wert Ein hoher F- und ein geringer Signifikanzwert weisen darauf hin, dass sich die Werte der betreffenden Variable innerhalb der Cluster tatschlich hnlicher sind als die Werte in unterschiedlichen Clustern Dies ist hier bei jeder Variablen der Fall
Clusteranalyse
68
Clusteranalyse
69
Clusteranalyse: Anwendungsempfehlungen
Skalenniveau der Merkmalsvariablen: Bei der hierarchischen Clusteranalyse knnen binre (d.h. nominale) Variablen (mit nur zwei A sprg ngen) und Ausprgungen) nd metrische Variablen verarbeitet erarbeitet werden, erden bei der Clusterzentrenanalyse nur metrische Es empfiehlt p sich, , bei der hierarchischen Clusteranalyse y entweder nur metrische oder nur binre Variablen zu verwenden. Wenn Sie ber binre und metrische Daten verfgen, knnen die metrischen Variablen binarisiert werden (siehe hierzu: Backhaus et al. 2006: 507ff) Zusammenhnge zwischen den Daten: Hohe Korrelationen zwischen metrischen Merkmalsvariablen knnen zu einer unerwnschten Gewichtung einzelner i l M Merkmale k l fh fhren Es empfiehlt sich daher, vor der Clusteranalyse durch eine Hauptkomponentenanalyse die Dimensionen der Objektvektoren zu verringern, insbesondere bei einer groen Zahl von Merkmalen
Clusteranalyse
70
Literatur
Deichsel & Trampich (1985): Clusteranalyse und Diskriminanzanalyse. Stuttgart / New York: Fischer. Bacher, Johann (1994): Clusteranalyse. Anwendungsorientierte Einfhrung. Mnchen / Wien: Oldenbourg. Backhaus, Erichson & Plinke (2006): Multivariate Analysemethoden Eine anwendungsorientierte Einfhrung Analysemethoden. Einfhrung. Berlin: Springer.
Clusteranalyse
71

Cluster Analyse

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cluster Analyse

Hochgeladen von

Copyright:

Verfügbare Formate

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.

Stand: Dezember 2009

d ( A, B) = (4,0 3,0) + (1,0 1,7 ) = 1,22

Als nchstes wird derjenige Punkt gesucht, der dieser Konfiguration

Der D di dieser K Konfiguration fi ti nchstgelegene h t l Punkt P kt i ist t wegen

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Mglichkeit II: (8, 9, 10, 13)

d (8,10) = (8 10) ) = 2 d (8,13) = (8 13) = 5 d (9,10) = (9 10) ) = 1 d (9,13) = (9 13) = 4 d = (2 + 5 + 1 + 4) / 4 = 3,0

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

AM ClusterA = AM ClusterB AM ClusterC

4+5+6 =5 3 8+9 = = 8,5 2 10 + 13 = = 11,5 2

d ( A, B) = (5 8,5) = 3,5 d ( A, C ) = (5 11,5) = 6,5 d ( B, C ) = (8,5 11,5) = 3,0

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

ESSQ A, B = 3 * (5 6,4) + 2 * (8,5 6,4) = 14,7

ESSQ B ,C = 2 * (8,5 10) ) + 2 * (11,5 10) ) = 9,0

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Hierarchische Clusteranalyse in SPSS

Das könnte Ihnen auch gefallen