Sie sind auf Seite 1von 63

Clusteranalyse

Clusteranalyse

Einführung
Regressionsanalyse
Logistische Regression gitterförmigem straßennetz zurücklegen
hier sieht man müsste
Varianzanalyse
cov nicht null

Hauptkomponentenanalyse
euklidische distanz würde das heir machen - ohne ellipse

Faktorenanalyse
Clusteranalyse
- Motivation gibt durch bayes etc. modernere verfahren!
- Ähnlichkeiten und Distanzen ähnlcihkeiten und distanzen stark von variablennieau abhängig
- Hierarchische Clusterverfahren <- dann auf ähnlichkeiten und distanzen aufbauend

- Partitionerende Clusterverfahren

LS Statistik und Ökonometrie SoSe 2020 173


Clusteranalyse Motivation

Clusteranalyse
geht jetzt um statistische einheiten/merkamlsträger/beobachtungen im gegensatz zur FA
Motivation

Die Clusteranalyse stellt eine Methode zur Bildung von Klassen dar.
Eine Menge von Objekten werden mittels verschiedener Merkmale in
mehrere Teilmengen unterteilt
Dabei sollen ähnliche Objekte zu derselben Klasse zugeordnet werden.
Befinden sich Objekte nicht in der gleichen Klasse, so sollten sie sich
deutlich unterscheiden
Dies bedeutet, dass die Klassen bezüglich der Merkmale möglichst
homogen sind und sich voneinander unterscheiden homogene klassen die zueinander
(gegenseitig) heterogen sind
Zielsetzung ist das Auffinden von homogenen Teilgruppen und
demnach eine Datenreduzierung. Nachfolgend ist eine Anwendung
weiterer multivariater Verfahren in den Klassen möglich, sowie eine
nähere Untersuchung und Interpretation der Gruppen
Zur Interpretation der Gruppen können weitere Merkmale
nach info in best. variablen wird klassifziert
herangezogen werden
- zweite art: untersuchungsvariablen - die auf gebildete klassen
angewendet werden
LS Statistik und Ökonometrie SoSe 2020 174
Clusteranalyse Motivation

Beispiele:
- Typisierung anhand von Verhaltensweisen
- Klassifikation von Patienten nach Krankheitssymptomen
- Einteilung der Wählerschaft einer Partei
- Segmentation der Käufer eines Produktes
bei klassischer CA objekt nur in einer klasse!
I.d.R wird jedes Objekt nur einer Klasse zugeordnet, wobei die
Einteilung als Partition bzw. Zerlegung bezeichnet wird. Es kann
jedoch auch erforderlich sein, ein Objekt zu mehreren Klassen
zuzuordnen, welche nicht-disjunkte Klassifizierung bzw. clumping
methods genannt werden
Allgemein lassen sich die Partitionen unterscheiden in:
- Deskriptive Klassifikationsverfahren (Hierarchische Verfahren, Optimale
Partition)
- Stochastischen Verfahren (Mischverteilungsverfahren, Verteilungsfreie
Verfahren, Stochastische Partitionen)
z.b. latent class analysis: nicht disjunkt - wahrshceinlichkeit dass objekt in bestimmte klasse gehört!

LS Statistik und Ökonometrie SoSe 2020 175


Clusteranalyse Motivation

Beispiel (Studierende)
Merkmale von fünf Studierenden (Handl, 2002) ordinal
ID Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
1 m 23 171 60 n j 2 j
2 m 21 187 75 n j 1 n
3 w 20 180 65 n n 3 j
4 w 20 165 55 j n 2 j
5 m 23 193 81 n n 3 n
⇒ Bestimme die Ähnlichkeit bzw. Distanz zwischen diesen
ID's -> problem: wir haben verschiedene skalenniveaus in versch. variablen

LS Statistik und Ökonometrie SoSe 2020 176


Clusteranalyse Ähnlichkeiten und Distanzen

Clusteranalyse
ähnlichkeit und distanz wie bei variation vs. konzentration
Ähnlichkeiten und Distanzen gehören zusammen
similarity von objekten i und j
Gesucht ist ein Wert sij , der die Ähnlichkeit zwischen dem Objekt i
und Objekt j misst, welcher umso größer ist, je ähnlicher sich die
beiden Objekte sind. Bezeichnet wird sij als Ähnlichkeitskoeffizient
mit: diese haben die eigenschaft -> objekt a und b sowie b und a selbe ähnlichkeit
sij = sji , sij ≤ sii mit i,j = 1, . . . ,n
<= meint dass anderes merkmal maximal so gleich ist wie objekt i mit sich selbst
Häufig sind diese normiert, so dass gilt: 0 ≤ sij ≤ 1
Die Distanz dij ist ein Ausdruck für die Unähnlichkeit zwischen zwei
Objekten. Diese ist umso größer, je unähnlicher sich die Objekte sind
distanz zu sich selbst ist 0 , daher

dij = dji , dii = 0, dij ≥ dii


distanz gleich egal wie rum

Eine metrische Distanz erfüllt zusätzlich die Dreiecksungleichung:


drittes objekt k:

dij ≤ dik + djk


kommt später noch, aber wohl wichtig

LS Statistik und Ökonometrie SoSe 2020 177


Clusteranalyse Ähnlichkeiten und Distanzen

Die Distanzen bzw. Ähnlichkeiten zwischen den Objekten werden in


einer Distanz- bzw. Ähnlichkeitsmatrix dargestellt:
bei metrisch eig nur distanz  
bei niedrigen skalenniveaus
d11 . . . d1n distanz zu sich selbst und
anderen
distanz oder ähnlichkeit meist  .. . .. .
.. 
D= .

hier sind nur noch distanzen drin und
dn1 . . . dnn keine eigentlichen werte mehr!

wie bei vcov - wo mit sich selbst auf


Transformation: Ähnlichkeiten in Distanzen hauptdiagonalen

Für normierte Ähnlichkeitskoffizienten 0 ≤ sij ≤ 1 gilt:


wichtige botschaft eig nur:
gegenseitig transformierbar dij = 1 − sij → 0 ≤ dij ≤ 1
und gibt normierte vs. nicht normierte

Für Ähnlichkeitskoffizienten, mit −1 ≤ sij ≤ 1, gilt:


q
dij = 2(1 − sij )

Transformation: Distanzen in Ähnlichkeiten


dij
sij = 1 − mit a = max dij
a
LS Statistik und Ökonometrie SoSe 2020 178
Clusteranalyse Ähnlichkeiten und Distanzen

Die Berechnung von Ähnlichkeiten bzw. Distanzen ist mit einem


Informationsverlust verbunden. Die Auswahl ist abhängig vom
konkreten Sachverhalt und dem vorliegendem Skalenniveau
invarianz
Formales Kriterium ist die Invarianzeigenschaft gegenüber den v.a. bei
nicht-metrisch
Transformationen, die aufgrund des Skalenniveaus zulässig sind problem

Im Moment gibt es kein zufriedenstellendes Maß bei Vorliegen von


gibt eigentlich schon!
ordinalskalierten oder verschieden skalierten Merkmalen
Die Ähnlichkeiten bzw. Distanzen werden im Folgenden getrennt nach
dem Skalenniveau betrachtet

LS Statistik und Ökonometrie SoSe 2020 179


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Clusteranalyse
Ähnlichkeiten und Distanzen – Binäre Merkmale

Sämtliche Merkmale besitzen nur zwei Ausprägungen: ”1” für


Merkmal ist vorhanden und ”0” für Merkmal ist nicht vorhanden
Unterschieden wird dabei in:
- Symmetrische Merkmale, Objekte sind sich ähnlich auch, wenn diese
das Merkmal nicht besitzen d.h. objekte ähnlich wenn beide 1 ODER wenn beide 0
- Asymmetrische Merkmale, Objekte sind sich weder ähnlich noch
unähnlich, wenn das Merkmal bei beiden nicht vorhanden ist
Daraus folgt eine unterschiedliche Motivation der Ähnlichkeitsmaße

LS Statistik und Ökonometrie SoSe 2020 180


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Die Anzahl an Übereinstimmungen bzw. Nichtübereinstimmungen


zwischen den Merkmalen zweier Objekte i, j wird über eine
Kontingenztabelle festgehalten
j

Objekt j
1 0
Objekt i
1 a c a+c
pos. übereins.
i
0 b d b+d
neg. übereis.

a+b c+d p
Die Gesamtzahl der Übereinstimmungen beträgt a + d und ergibt sich
aus a den positiven und d den negativen Übereinstimmungen. Die
Zahl der Merkmale, die nicht übereinstimmen ist c + b

LS Statistik und Ökonometrie SoSe 2020 181


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Beispiel (Studierende)
Betrachtung der ersten beiden Studierenden:
ID Geschlecht Raucher Auto MatheLK
1 m n j j
2 m n j 0
Kodierung der Merkmale: 1 = ”j” und ”m” bzw. 0 = ”n” und ”w”
ID Geschlecht Raucher Auto MatheLK m auch 1!!
objekt 1 1 0 1 1 ja = 1
nein = 0
objekt 2 1 0 1 0
Kontingenztabelle der Übereinstimmungen/Nichtübereinstimmtungen
Objekt 2
1 0 nächste folien basieren auf
dieser matrix
Objekt 1

1 2 1 3 WICHTIG :ANORDNUNG VON


AC
BD
0 0 1 1
2 2 4
LS Statistik und Ökonometrie SoSe 2020 182
Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Für symmetrischen Merkmale sollen sich die Werte des


Ähnlichkeitskoeffizienten nicht ändern, wenn die Kodierung getauscht
wird. Das Ähnlichkeitsmaß ist abhängig von a + d und b + c
Die Maße von Gower und Legendre (1986) können zu einer Klasse
zusammengefasst werden:
a + d sind übereinstimmende
a+d
sGL1
ij = bzw. dGL1
ij = 1 − sGL1
ij
a + d + θ(b + c)
thta steuert die nicht-übereinst.

θ > 0 steuert, wie viel Gewicht die Gesamtzahl der


Übereinstimmungen bzw. die der Nichtübereinstimmungen erhält
- Für θ = 1 ergibt sich der Simple-Matching-Koeffizient
mit zahlen eingesetzt: 3/4
a+d b + c hier mit eignesetzt = 1/4
sSM
ij = bzw. dSM
ij =
a+d+b+c a+d+b+c
- Für θ = 2 ergibt sich der Maß von Rogers und Tanimoto (1960)
= 3/5
1 - 3/5 = 2/5
a+d 2(b + c)
sRT
ij = bzw. dRT
ij = für distanz aus
a + d + 2(b + c) a + d + 2(b + c) ähnlichkeit
hier nicht-übereinst.
doppelt gewichtet
LS Statistik und Ökonometrie SoSe 2020 183
Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Eine weitere Klasse stellen die M-Koeffizienten dar:


hier d auch mit berücksichtigt
gamma auch dabei
γ(a + d)
sM
ij = mit 0 ≤ γ ≤ 1
γ(a + d) + (1 − γ)(b + c)

für jedes γ ist 0 ≤ sM


ij ≤ 1
ähnlichkeitswerte zwischen 0 und 1
mit verschiedenen gammas
1
Für γ = 2 ergibt sich der Simple-Matching-Koeffizient erhält man versch. maße
1
Für γ = 3 ergibt sich das Maß von Rogers und Tanimoto
2
Für γ = 3 ergibt das Maß von Sokal und Sneath (1963)

2(a + d)
sSS
ij =
2(a + d) + b + c

Die genannten symmetrischen Koeffizienten sind invariant gegenüber


eineindeutigen Transformationen eines oder mehrere Merkmale

LS Statistik und Ökonometrie SoSe 2020 184


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Für asymmetrische Merkmale können nach Gower und Legendre


angewendet werden: hier fehlt jetzt immer d in formeln
distanz ist wieder 1 minus ähnlichkeit

a
sGL2
ij = bzw. dGL2
ij = 1 − sGL2
ij
a + θ(b + c)
theta steuert wieder und soll größer 0

wobei θ > 0 ist. Die negativen Übereinstimmungen finden keine


Berücksichtigung ähnlichkeit nimmt ab und unähnlichkeit nimmt zu da d wegfällt -> werte fallen niedriger aus?!
- Für θ = 1 erhält man den Jaccard-Koeffizienten 1 minus 2/3 = 1/3
= 2/3
a b+c
sJA
ij = bzw. dJA
ij =
a+b+c a+b+c
- Für θ = 2 das Maß von Sokal und Sneath (1973)

a 2(b + c)
sSO2
ij = bzw. dSO2
ij =
a
a + 2(b + c) a + 2(b + c)
c

b d

LS Statistik und Ökonometrie SoSe 2020 185


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Weitere Koeffizienten sind die S-Koeffizienten, welche ebenso die


negativen Übereinstimmungen nicht berücksichtigen

γ(a)
sSij = mit 0 ≤ γ ≤ 1
γ(a) + (1 − γ)(b + c)

für jedes γ ist 0 ≤ sSij ≤ 1 wenn für gamma diese werte eingsetzt, dann
erneut vorige maße ergeben
1
Für γ = 2 ergibt sich der Jaccard-Koeffizient
1
Für γ = 3 ergibt sich das Maß von Sokal und Sneath (1973)
Die asymmetrischen Maße sind nicht invariant gegenüber
eineindeutigen Transformationen. Für jedes θ bzw. γ ergibt sich die
gleiche Rangordnung der Ähnlichkeiten
Die Rangordnungen der symmetrischen stimmen jedoch nicht
unbedingt mit denen der asymmetrischen Koeffizienten überein

LS Statistik und Ökonometrie SoSe 2020 186


Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale

Beispiel (Studierende)
= symmetrisch
Ähnlichkeitsmatrix nach dem Simple-Matching-Koeffizient
 
1.00 0.75 0.50 0.25 0.50
 0.75 1.00 0.25 0.00 0.75 
S SM = 
 
 0.50 0.25 1.00 0.75 0.50  
 0.25 0.00 0.75 1.00 0.25 
0.50 0.75 0.50 0.25 1.00

Ähnlichkeitsmatrix nach dem Jaccard-Koeffizienten


= assymmetrisch
 
1.00 0.67 0.33 0.25 0.33 => entweder gleiche
oder niedrigere
 0.67 1.00 0.00 0.00 0.50  werte da d fehlt!!

S JA = 
 
 0.33 0.00 1.00 0.50 0.00 

 0.25 0.00 0.50 1.00 0.00 
0.33 0.50 0.00 0.00 1.00
auf hauptdiagonalen immer 1, da zu sich selbst maximal ähnlich
bei distanz wäre hauptdiagonale = 0 !!!

LS Statistik und Ökonometrie SoSe 2020 187


Clusteranalyse Ähnlichkeiten und Distanzen – Nominalskalierte Merkmale

Clusteranalyse
jetzt nominal
Ähnlichkeiten und Distanzen – Nominalskalierte Merkmale

Betrachtet werden Merkmale mit nominalen Skalenniveau und mehr


als zwei Ausprägungen
Die Ähnlichkeit von Objekten anhand nominalskalierter Merkmale
erfolgt auf Basis des verallgemeinerten M-Koeffizienten von Sneath
uij
sij =
p
mit p der Anzahl der betrachteten Merkmale und uij der Anzahl der
sprich wo selbe werte
Merkmale, die bei beiden Objekten i und j identisch sind aufweisen
Der Wertebereich des Koeffizienten ist 0 ≤ sij ≤ 1. Dieser ist zudem
invariant gegenüber eineindeutigen Transformationen
Weiter sind Modifikationen möglich, so dass Übereinstimmungen bzw.
Nichtübereinstimmungen verschieden gewichtet werden können

LS Statistik und Ökonometrie SoSe 2020 188


Clusteranalyse Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale

Clusteranalyse
Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale

Ordinale Merkmale besitzen qualitative Ausprägungen, die in eine


Rangordnung gebracht werden können. Für ein Merkmal X mit m
Ausprägungen ergibt sich folgende Rangreihe
größe nach geordnet

X1  X2  . . .  Xm
Ähnlichkeitsmaß beruhend auf den Rängen: Ordne die Ausprägungen
mögl. 1 der Größe nach. Die höchste Ausprägung bekommt den Rang 1 und
die niedrigste den Rang m zugewiesen HIER KEIN UNTERSHIED S UND D
Rangi − Rangj Rangi − Rangj
sij = , dij =
Spannweite Spannweite
Ähnlichkeitsmaß beruht auf binären Hilfsvariablen: Es werden m
mögl. 2
Hilfsvariablen eingeführt. Nimmt die Ausprägung den Rang k an, so
werden den ersten k Hilfsvariablen der Wert 1 zugewiesen und den
weiteren der Wert 0. Die Berechnung erfolgt dann über den binären
Fall in binäre hilfsvariablen mit 0 und 1 umtransformiert
LS Statistik und Ökonometrie SoSe 2020 189
Clusteranalyse Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale

Alternative Ähnlichkeitsmaße
- Spearman’s ρ
- Goodman/Kruskal’s γ
- Kendall’s τ
- Goodman’s µ goodman nich so wichtig!

LS Statistik und Ökonometrie SoSe 2020 190


Clusteranalyse Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale

Beispiel (Studierende)
Das Merkmal Cola gibt auf einer Skala von 1 bis 3 an, ob dem
Studierenden das Getränk schmeckt oder nicht. Student 1 gab dafür
den Wert 2 an und Student 2 den Wert 1
Nach dem Ähnlichkeitsmaß beruhend auf den Rängen ergibt sich
hier für ähnlichkeit wert
Rang1 − Rang2 |2 − 1|
s12 =1− =1− = 0.5
Spannweite 2

Nach dem Ähnlichkeitsmaß beruhend auf den Hilfsvariablen ergibt


sich:
ID Hilfsvariablen
1 2 3
1 1 1 0 -> sie stimmen bis auf eine hilfsvariable
überein!
2 1 1 0
2
sSM
12 = = 0.67
3
LS Statistik und Ökonometrie SoSe 2020 191
Clusteranalyse höheres
Ähnlichkeiten und Distanzen – Quantitative maß weißt auf mehr
Merkmale
ähnlichkeit hin ABER kein
"je... desto..." da keine lineare
Clusteranalyse beziehung

jetzt bei metrisch -


Ähnlichkeiten und Distanzen – Quantitative Merkmale hierum geht es meiste zeit

Betrachtet werden Merkmale, welche intervall- bzw. verhältnisskaliert


sind.
jetzt geht es eigentlich nur noch
Bei diesen Merkmalstypen ist die Maßeinheit frei wählbar, so dass die um distanzen!
Distanz bzw. Ähnlichkeit nicht von der Maßeinheit abhängen sollte.
Ein solches Distanzmaß wird als skaleninvariant bezeichnet

x̃i = Cxi mit C = diag(c1 , . . . ,cp )

Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Bei intervallskalierten Merkmalen ist zudem der Koordinatenursprung distanz zwischen i und j kann man
frei wählbar, so dass die Distanz nicht vom gewählten so messen:
entweder direkt oder um eck
Koordinatenursprung abhängig sein sollte. herum
Diese Eigenschaft heißt Translationsinvarianz verschiebbarkeit dieser beiden objekte im raum
ohne dass was passiert mit distanz
x̃i = xi + b mit b ∈ Rp
auch wenn ich mit b hier arbeite
verändert sich nichts!!
Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Für quantitative Merkmale werden Distanzen berechnet
LS Statistik und Ökonometrie SoSe 2020 192
Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale

Eine allgemeine Klasse von Distanzen sind die Minkowski-q-Metriken


(Lq -Distanz): q dient als platzhalter -> q muss größer 1 sein

p
!1
q

dqij
X
q
= |xik − xjk | mit q ≥ 1
k=1 d.h. wi rkönnen relativ robust verschiebungen
sprich wir können diese relativ robust verwenden im raum anstellen
Diese sind metrische Distanzen und translationsinvariant, aber nicht
skaleninvariant. Dies bedeutet, dass die Distanzen abhängig sind von
den Maßeinheiten der Merkmale
Eine mögliche Normierung der Daten ist abhängig von q:
xk − x̄k
x̃k =
sqk

mit !1
n n q
1X 1X
x̄k = xik und sqk = |xjk − x̄k |q
n n
i=1 i=1

LS Statistik und Ökonometrie SoSe 2020 193


Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale

Die wichtigsten Minkowski-q-Metriken:


- Die City-Block-Metrik ergibt sich bei q = 1:
p
!
X
d1ij = |xik − xjk |
k=1

mit der Normierung:


n
!
xk − x̄k 1X
x̃k = und s1k = |xjk − x̄k |
s1k n i=1

- Die Euklidische Distanz bei q = 2:


p
! 12
X = kürzeste distanz zwischen
d2ij = |xik − xjk |2 zwei punkten und entsprechender

k=1 normierung

mit der Normierung:


n
! 21
xk − x̄k 1X
x̃k = und s2k = |xjk − x̄k |2
s2k n i=1

LS Statistik und Ökonometrie SoSe 2020 194


Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale

euklidische distanz berücksichtigt bestimmte info nicht:


wenn wir bei multivariat verhältnis aller punkte anschauen -> in vcov matrix gegeben
-> diese vcov matrix S ist hier zentrum von mahalanobix-distanz

Eine weiteres Maß ist die Mahalanobis-Distanz, welche translations-


und skaleninvariant ist:
q
dM
ij = (xi − xj )0 S−1 (xi − xj )

mit
1
S= (x − x̄)0 (x − x̄)
n
bzw. S ist inverse der empirischen vcov matrix
info über gesamte abhängigkeitsstruktur der objekte hier berücksichtigt!

LS Statistik und Ökonometrie SoSe 2020 195


Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale

Beispiel (Studierende)
Der Datensatz enthält drei quantitative Merkmale: Alter, Gewicht,
Körpergröße
ID Alter Größe Gewicht
1 23 171 60
2 21 187 75
3 20 180 65
4 20 165 55
5 23 193 81

LS Statistik und Ökonometrie SoSe 2020 196


Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale

basieren auf tabelle


Beispiel (Studierende) letzte folie

Die Distanzmatrix auf Basis der Euklidischen Distanz lautet


> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> dist(Studis)
1 2 3 4 distanz mit sich selbst (wäre 0) ist raus
2 22.022716
d=
3 10.723805 12.247449
4 8.366600 29.748950 18.027756
5 30.413813 8.717798 20.832667 38.327536
⇒ Die Personen 1 und 4 sind sich am ähnlichsten und die Personen 4
da kleinste eukl. distanz
und 5 am unähnlichsten

LS Statistik und Ökonometrie SoSe 2020 197


Clusteranalyse Ähnlichkeiten und Distanzen – Gemischt skaliert

Clusteranalyse
Ähnlichkeiten und Distanzen – Gemischt skaliert

bei gemischtem skalenniveau:

In der Praxis liegen die Merkmale zumeist nicht nur in einem


Skalenniveau vor, sondern sind gemischt skaliert.
Für die Berechnung der Distanzen bzw. Ähnlichkeiten gibt es mehrere
Vorschläge:
1
- Transformation aller Variablen auf das niedrigste Niveau (Verbunden
mit einem Informationsverlust)
- Betrachte qualitative als quantitative Merkmale (Qualitative Merkmale
2 bekommen einen höheren Aussagegehalt, als sie eigentlich besitzen)
- Berechne für jeden Skalentyp die entsprechende Distanz bzw.
Ähnlichkeit und aggregiere diese zu einer Maßzahl (Wie ist die
3
Umsetzung?)
1 besser als 2

3 nach skalengerechter berechnung aggregierung

LS Statistik und Ökonometrie SoSe 2020 198


Clusteranalyse Ähnlichkeiten und Distanzen – Gemischt skaliert
zu 3
Aggregation verschiedener Distanzen
Möglichkeit 1: Gewichtetes Mittel der Distanzen
1 quan
(anom dnom ord
ij + aord dij + aquan dij )
p
mit a der Anzahl der Merkmale, die einem bestimmten Typ
entsprechen. Voraussetzung ist, dass die Maßeinheiten stimmen
Möglichkeit 2: Koeffizient nach Gower (1971)
Pp (k) (k)
apannweite ist abstand niedriste und höchste k=1 δij dij
ausprägung dij = Pp (k)
k=1 δij
mit δij werden fehlende Beobachtungen und die Symmetrie von binären
Merkmalen berücksichtigt
(
(k) 1, Beobachtung von Merkmal k bei beiden Objekten vorhanden
δij =
0, Beobachtung fehlend

bzw. für ein asymmetrisches binäres Merkmal


(
(k) 1, Merkmal k hat bei beiden Objekten nicht den Wert 0
δij =
0, Merkmal k hat bei beiden Objekten den Wert 0
LS Statistik und Ökonometrie SoSe 2020 199
Clusteranalyse Ähnlichkeiten und Distanzen – Gemischt skaliert

(k)
(Zu Möglichkeit 2) Die Distanzen dij werden berechnet:
- bei binären oder nominalskalierten Merkmalen

(
(k) 6 xjk
1, xik =
dij =
0, xik = xjk

- bei quantitativen und ordinalen Merkmalen

(k) |xik − xjk |


dij =
Spannweite

LS Statistik und Ökonometrie SoSe 2020 200


Clusteranalyse Ähnlichkeiten und Distanzen – Gemischt skaliert

Beispiel (Koeffizient von Gower für Person 1 und 2)


Daten
ID Geschlecht Alter Größe Gewicht
Raucher Auto Cola MatheLK
1 m 23 171 60 n j 2 j
2 m 21 187 75 n j 1 n
(k)
Bei symmetrischen binären Merkmalen (δij ist für alle binären
Merkmale gleich 1, da keine fehlenden Daten)
Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
(k) 2 16 15 1
d12 0 3 22 26
0 0 2
1
(k)
δ12 1 1 1 1 1 1 1 1
 
1 2 1
d12 = 0 + + . . . + + 1 = 0.4339
8 3 2
Bei asymmetrischen binären Merkmalen: Geschlecht ist asymmetrisch
0=männlich
Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
(k) 2 16 16 1
d12 0 3 22 22
0 0 2
1
(k)
δ12 0 1 1 1 1 1 1 1
 
1 2 1
d12 = 0 + + . . . + + 1 = 0.4339
8 3 2
LS Statistik und Ökonometrie SoSe 2020 201
Clusteranalyse Hierarchische Clusterverfahren

diversiv: beginnend von geamtmenge wird immer wieder abgeschnitten und damit
Clusteranalyse klassen

agglomerativ: anfangs jedes objekt eine klasse und am ende habe ich alle in eine
Hierarchische Clusterverfahren klasse fusioniert
jeweils frage: wo mach ich den cut?

Zielsetzung ist Bildung von Gruppen durch Partitionierung auf Basis


von p Merkmalen und n Objekten Objekte von 1 bis n

Ausgangspunkt ist eine Objektmenge O = O1 , . . . ,On . Unter einer


Partition versteht man eine Zerlegung der Objektmenge O in
Teilmengen C1 , . . . , Ck mit k ≤ n, so dass jedes Element von O
genau zu einer Teilmenge gehört im extremfall menge der o's gleich c's
Die Teilmengen werden als Klassen, Segmente oder Cluster
bezeichnet
Objekte innerhalb einer Klasse sollen sehr ähnlich sein, während sich
die Klassen unterscheiden. Die Klassen sind intern kohärent, aber
extern isoliert -> ander ausgedrückt
Fokusiert werden die Verfahren der Hierarchischen Clusteranalyse,
welche sich unterscheiden in divisive und agglomerative Verfahren.
Die Partitionierung erfolgt auf Basis der Distanz- bzw.
Ähnlichkeitsmatrix
LS Statistik und Ökonometrie SoSe 2020 202
Clusteranalyse Hierarchische Clusterverfahren

Bei den divisiven Verfahren bildet der Ausgangspunkt die


Objektmenge O. O1 bis On befindet sich in enier klasse
Die Hierarchien entstehen durch die schrittweise Zerlegung der bereits
vorhandenen Klassen beginnend mit der Objektmenge O. Der Prozess
wird solange fortgesetzt, bis sich jedes Objekt in einer eigenen Klasse
befindet.
Die Klassenzahl wird somit im Laufe des Verfahrens größer. Die
Homogenität nimmt damit ständig zu
von extrem: superklasse - alle in einer

bis anderes extrem jedes objekt


einzelne klasse

-> iwo dazwischen gute lösung


homogenität nimmt zu nach unten ->
da jedes
LS objekt mit und
Statistik sich selbst maximal homogen
Ökonometrie SoSe 2020 203
Clusteranalyse Hierarchische Clusterverfahren

sukzessive vereinigung statt trenung

Bei den agglomerativen Verfahren werden die Klassen sukzessive


vereinigt. Den Beginn bildet die feinste Zerlegung der Objektmenge in
C1 , . . . , Cn und endet, wenn alle Objekte in eine Klasse fusioniert sind.
Die Anzahl der Klassen verkleinert sich und die Homogenität nimmt
ständig ab
Spezielle agglomerativen Verfahren:
1
- Single-Linkage-Verfahren
2- Complete-Linkage-Verfahren
3 - Average-Linkage-Verfahren
- Wardverfahren
4

Betrachtet werden im Folgenden nur die agglomerativen Verfahren

homogenität nimmt sukzessive nach


LS Statistik und Ökonometrie SoSe
unten hin ab, unten max.2020
heterogenität 204
Clusteranalyse Hierarchische Clusterverfahren

Die Partitionen und die zugehörigen Distanzen werden in einem


Dendrogramm dargestellt. Daran ist der Prozess der Klassenbildung
sichtbar zeigt partitionierung und entsprechende distanz bei teilung

Beispiel (Studierende)
Klassenbildung bei fünf Studierenden anhand der quantitativen
Merkmale (Alter, Größe, Gewicht)
Dendrogram
40
je weiter nach oben gehe,
desto heterogener
30

20

10

0
1 und 4 zunächst verschmolzen, kurz danach
2 5 3 1 4 2 und 5, erst danach 3 1 und 4, am ende alle
hier 5 studierende

Der Index h misst die Homogenität der Klassen. Je kleiner der Wert
ist, desto ähnlicher sind sich die Objekte und umso homogener sind
die Klassen. Jedem Wert von h ist genau eine Partition zugeordnet
LS Statistik und Ökonometrie SoSe 2020 205
Clusteranalyse Hierarchische Clusterverfahren

Aus dem Dendrogramm wird die kophenetische Matrix gewonnen.


Diese ist eine zugehörige Abstandsmatrix D∗ , welche die Abstände
zwischen einen Objekt i und j als die Homogenität h misst, bei der
die beiden Objekte zum ersten Mal in einer Klasse liegen

Beispiel – Fortsetzung (Studierende)


Die Werte für h am Beispiel lauten

h = (8.37, 8.72, 18.03, 38.33)


das hier ist höhe der verschmelzungen in dentrogramm letzte folie

Die zugehörige kophenetische Matrix ergibt: das ist spezielle abstanzmatrix bezogen
auf dentrogramm:
 
0 38.33 18.03 8.37 38.33
 38.33 0 38.33 38.33 8.72 

 
D =  18.03 38.33
 0 18.03 38.33 
wir sehen objekt 
1 und 4 verschmelzen  8.37 38.33 18.03 0 38.33 
bei 8.37
38.33 8.72 38.33 38.33 0

LS Statistik und Ökonometrie SoSe 2020 206


HIERARCHISCHE VERFAHREN HIER ALLGEMEIN Clusteranalyse Hierarchische Clusterverfahren

Allgemeines Vorgehen bei den agglomerativen Verfahren


1. Definiere für jedes Objekt eine eigene Klasse Ci , mit den Distanzen

Cij = dij

2. Suche das Paar mit der kleinsten Distanz bzw. größten Ähnlichkeit

min{dij |dij > 0} bzw. max{sij |sij > 0}

Falls mehrere Paare zur Auswahl stehen, wähle eines zufällig aus. Sind
k und m die beiden Objekte mit der kleinsten Distanz bzw. größten
Ähnlichkeit, dann verschmelze diese zu einer neuen Klasse Ckm
3. Bestimme den Abstand zwischen der neuen Klasse und den
verbliebenen Klassen bzw. Objekten und erstelle eine neue
Distanzmatrix
4. Wiederhole die Schritte 2 und 3 solange bis nur noch eine Klasse
vorhanden ist mit maximaler heterogentiät
Das Single-, Complete- und Average-Linkage-Verfahren unterscheiden
sich in der Berechnung des Abstandes in Schritt 3

LS Statistik und Ökonometrie SoSe 2020 207


Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage

Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage

GEHT UM ABSCHNITT 3!!


Das Single-Linkage-Verfahren wird auch bezeichnet als ”nearest
neighbour method”
Als Abstandsmaß wird die minimale Distanz bzw. maximale
Ähnlichkeit zwischen der neu gebildeten Klasse und den restlichen
Klassen verwendet
Zwischen der fusionierten Klasse Ckm und dem Objekt i ergibt sich:

d{km}.{i} = min{d{k}.{i} , d{m}.{i} }


minimale distanz
bzw. oder maximale ähnlichkeit
s{km}.{i} = max{s{k}.{i} , s{m}.{i} }
Für jeden Fusionsschritt I lässt sich der Homogenitätsindex hI
angeben. Dieser lautet:
homog.index bidlet
hI = min min di.j
minimumd idstanz

bzw. oder max ähnl. ab


hI = max max si.j
LS Statistik und Ökonometrie SoSe 2020 208
Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage

Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
3. Bestimme die neuen Distanzen:
diese distanz d{1,4}.{2} = min{d{1}.{2} , d{4}.{2} } = min{22.02, 29.75} = 22.02
zw. 1 und 4 =
10.72 ist
8.37 d{1,4}.{3} = min{d{1}.{3} , d{4}.{3} } = min{10.72, 18.03} = 10.72 kleintes
-> das dann
neues
jeweisl mit d{1,4}.{5} = min{d{1}.{5} , d{4}.{5} } = min{30.41, 38.33} = 30.41 minimum
wert 2 3 und
5 bzw. restlich sprich 10.72 wären kleinstes minimum
verglichen allen für diese neue klasse

LS Statistik und Ökonometrie SoSe 2020 209


Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage

Beispiel (Studierende)
roter kasten aus letzter folie
... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 22.02 0
3 10.72 12.25 0
5 30.41 8.72 20.83 0 8.72 -> 2 und 5 als nächstes
fusioniert
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden

LS Statistik und Ökonometrie SoSe 2020 210


Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage in R

Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage in R

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="single")
> Ob$height
[1] 8.366600 8.717798 10.723805 12.247449
> plclust(Ob)

homogenitätszuwachs von 12 da 12 auf y-skala


12
11
Height
10

3
9
8

dist(Studis)
hclust (*, "single")

LS Statistik und Ökonometrie SoSe 2020 211


Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage

Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage ist praktisch furthest neighbour method

Das Complete-Linkage-Verfahren wird auch bezeichnet als ”furthest


neighbour method”
Als Abstandsmaß wird die maximale Distanz bzw. minimale DAS GITL IMMER NUR FÜR
Ähnlichkeit zwischen der neu gebildeten Klasse und den restlichen ABSCHNITT 3
Klassen verwendet
Zwischen der fusionierten Klasse Ckm und der Objekt i ergibt sich:

d{km}.{i} = max{d{k}.{i} , d{m}.{i} }

bzw.
s{km}.{i} = min{s{k}.{i} , s{m}.{i} }
Für jeden Fusionsschritt I lässt sich der Homogenitätsindex hI
angeben. Dieser lautet:

hI = min max di.j

bzw.
hI = max min si.j
LS Statistik und Ökonometrie SoSe 2020 212
Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage

Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
schritt 1 aus liste:
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
selbe werte wie vorhin, wir nehmen nur jetzt
3. Bestimme die neuen Distanzen: größeren wert
d{1,4}.{2} = max{d{1}.{2} , d{4}.{2} } = max{22.02, 29.75} = 29.75
d{1,4}.{3} = max{d{1}.{3} , d{4}.{3} } = max{10.72, 18.03} = 18.03
d{1,4}.{5} = max{d{1}.{5} , d{4}.{5} } = max{30.41, 38.33} = 38.33

LS Statistik und Ökonometrie SoSe 2020 213


Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage

Beispiel (Studierende)
... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 29.75 0
3 18.03 12.25 0
5 38.33 8.72 20.83 0
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden

LS Statistik und Ökonometrie SoSe 2020 214


Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage in R

Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage in R

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="complete")
> Ob$height
[1] 8.366600 8.717798 18.027756 38.327536
> plclust(Ob)

hier haben wir noch mehr homogenität - bei 38,33


30
Height
20

wert springt hier nach oben im vgl. zu single linkage


3
5 10

hier unten mit 1-4 und 2-5 bleibt gleich


2

dist(Studis)
hclust (*, "complete")

LS Statistik und Ökonometrie SoSe 2020 215


Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage

Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage

Als Abstandsmaß wird die durchschnittliche Distanz bzw. Ähnlichkeit


zwischen allen möglichen Paardistanzen zwischen den Elementen der
einen Klasse und den Elementen der anderen Klasse bestimmt
Zwischen der fusionierten Klasse Cm und der Klasse Ck ergibt sich:
1 X X
d{km} · i = dij
nk n m
i∈Ck j∈Cm

bzw.
1 X X
s{km} · i = sij
nk n m
i∈Ck j∈Cm

Für jeden Fusionsschritt I lässt sich der Homogenitätsindex hI


angeben. Dieser lautet:
1 X X
hI = min dij
nk nm
i∈Ck j∈Cm

bzw.
1 X X
hI = max sij
nk nm
i∈Ck j∈Cm

LS Statistik und Ökonometrie SoSe 2020 216


Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage

Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
3. Bestimme die neuen Distanzen: selbe werte wie vorhin, nur
X X 1 jetzt mit mittelwert gemacht!
d{1,4}.{2} = dij
nk nm i∈Ck j∈Cm
1 1
= (d12 + d42 ) = (22.02 + 29.75) = 25.885
2·1 2·1
1
d{1,4}.{3} = (10.72 + 18.03) = 14.375
2·1
1
d{1,4}.{5} = (30.41 + 38.33) = 34.37
2·1
Die neue Distanzmatrix wird wie bisher aufgestellt
LS Statistik und Ökonometrie SoSe 2020 217
Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage in R

Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage in R

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="average")
> Ob$height
[1] 8.366600 8.717798 14.375781 25.598855
> plclust(Ob)

im vgl. zu complete linkage wohl homog.verlust


25
20

bisschen niedriger als bei compelte linkage aber


Height
15

höher als bei single linkage


3
10

5
5

dist(Studis)
hclust (*, "average")

LS Statistik und Ökonometrie SoSe 2020 218


Clusteranalyse Hierarchische Clusterverfahren – Ward Verfahren

Clusteranalyse
Hierarchische Clusterverfahren – Ward Verfahren NUR für intervallskalierte merkmale

Bei dem Wardverfahren sollten alle Merkmale intervallskaliert


vorliegen
Jede Klasse wird repräsentiert durch ihren Klassenschwerpunkt:
1 X
x̄k = xi hypothetischer wert wird klasse
nk zugewiesen
i∈Ck

wobei xi den Datenvektor des Objektes i bezeichnet


Die Basis der Verfahrens stellt die Streuung innerhalb einer Klasse dar:
X
||xi − x̄k ||2
i∈Ck

Die Homogenität einer Partition ist die Summe der Streuungen


innerhalb der Klassen. Bei g Klassen ergibt sich:
g X
X
hI = ||xi − x̄k ||2
k=1 i∈Ck
LS Statistik und Ökonometrie SoSe 2020 219
Clusteranalyse Hierarchische Clusterverfahren – Ward Verfahren

Bei der Fusion von zwei Klassen Ck und Cm entsteht ein


Homogenitätsverlust, der ausgedrückt wird durch:
dieser entsteht immer basierend auf klassenschwerpunkt:
durch fusion wird fusioniert wo
nk nm
hI − hI−1 = ||xi − x̄k ||2 homogenitätsverlust minimal
wird
nk + nm
mit nk , nm der Anzahl der Elementen in den jeweiligen Klassen
Wähle die beiden zu fusionierenden Klassen so, dass der entstehenden
Homogenitätsverlust minimal wird

LS Statistik und Ökonometrie SoSe 2020 220


Clusteranalyse Hierarchische Clusterverfahren – Ward in R

Clusteranalyse
Hierarchische Clusterverfahren – Ward in R

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="ward")
> Ob$height
[1] 8.366600 8.717798 16.378841 46.308396
> plclust(Ob)
40
30
Height
20
10

3
2

4
0

dist(Studis)
hclust (*, "ward")

LS Statistik und Ökonometrie SoSe 2020 221


Clusteranalyse Hierarchische Clusterverfahren – Eigenschaften der Verfahren

Clusteranalyse hier konkurrieren v.a. single, average und complete linkage verfahren

Hierarchische Clusterverfahren – Eigenschaften der Verfahren wann welches?

Wenn die Klassen kohärent und isoliert sind, dann entdecken alle
angesprochenen Verfahren die Klassen
Wenn die Klassen zwar kohärent aber nicht isoliert sind, dann neigt
das Single-Linkage-Verfahren zu einer Kettenstruktur und findet die
Klassen nicht -> signle linkage bekommt dann probleme
Wenn die Klassen isoliert vorliegen, aber nicht kohärent sind, dann
eignet sich das Single-Linkage, während das Complete- und
Average-Linkage teilweise zu anderen Zuordnungen führt
-> ich nehme ja am weitesten
Das Complete-Linkage reagiert sensibel auf Ausreißer entfernter nachbar = ausreißer
das hier wäre schlauchförmig -> nicht kohärent
kohärente und
isolierte
klassen:

LS Statistik und Ökonometrie SoSe 2020 222


Clusteranalyse Hierarchische Clusterverfahren – Güte der Lösung

Clusteranalyse
frage der anzahl der klassen
Hierarchische Clusterverfahren – Güte der Lösung

Eine Möglichkeit besteht in einem Vergleich der Distanzmatrix mit


der kophenetischen Distanzmatrix. Bestimmt wird die Korrelation
zwischen den beiden Matrizen, welche als die kophenetische
Korrelation bezeichnet wird. Je höher der Wert desto besser die
erzielte Lösung. Der Koeffizient kann zugleich zur Auswahl
verschiedener agglomerativer Verfahren verwendet werden.
Entschieden wird sich für das Verfahren mit dem höchsten Wert
Der Gamma-Koeffizient kann zur Beurteilung der Clusterlösung
herangezogen werden. Bestimmt wird die Anzahl der konkordanten
(C) und diskonkordanten (D) Paare auf Basis der Distanzmatrix und
kophenetischen Distanzmatrix
solche verfahren zusätzlich zu dentrogramm
C −D
γ= mit 0 ≤ γ ≤ 1
C +D

Bacher (1994) schlägt folgende Übersicht vor:


Wert Bewertung
0.9 ≤ γ ≤ 1.0 sehr gut
0.8 ≤ γ < 0.9 gut
0.7 ≤ γ < 0.8 befriedigend
0.6 ≤ γ < 0.7 noch ausreichend
0 ≤ γ < 0.6 nicht ausreichend
LS Statistik und Ökonometrie SoSe 2020 223
Clusteranalyse Hierarchische Clusterverfahren – Güte der Lösung

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> dist(Studis)
1 2 3 4
2 22.022716
3 10.723805 12.247449
4 8.366600 29.748950 18.027756
5 30.413813 8.717798 20.832667 38.327536
> Com=hclust(dist(Studis),method="complete")
> copCom=cophenetic(Com)
> copCom
1 2 3 4
2 38.327536
3 18.027756 38.327536
4 8.366600 38.327536 18.027756
5 38.327536 8.717798 38.327536 38.327536
> cor(dist(Studis),copCom)
[1] 0.732737 das hier ist korrelation zwischen distanzmatrix und kophenetische matrix

LS Statistik und Ökonometrie SoSe 2020 224


Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen

Clusteranalyse
Hierarchische Clusterverfahren – Anzahl der Klassen

Häufig werden dafür die Distanzen betrachtet, bei denen die einzelnen
Partitionen gebildet werden. Bei den agglomerativen Verfahren stellen
diese den Homogenitätsindex hI dar und werden u.a. als das
Verschmelzungsniveau αi bezeichnet
Vorschlag von Jobson (1992):
- Betrachtet werden die Verschmelzungsniveaus α0 , α1 , . . . , αn−1
- Zu jedem αi gehören n − i Klassen. So wird α0 = 0 gesetzt und es
gibt n zugehörige Gruppen. Zu α1 gibt es n − 1 Gruppen usw.
- Ist die Differenz αj+1 − αj groß im Verhältnis zu der Differenz
αi+1 − αi mit i < j , so sind n − (j + 1) Klassen zu empfehlen
- Grafisch werden die Zuwächse über eine Treppenfunktion dargestellt

Beispiel (Studierende)
> alpha=c(0,Com$height)
> alpha
[1] 0.000000 8.366600 8.717798 18.027756 38.327536
> diff(alpha)
[1] 8.3666003 0.3511976 9.3099585 20.2997794
LS Statistik und Ökonometrie SoSe 2020 225
Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen

Beispiel (Studierende)
> plot(rep(1,2),c(0,Com$height[1]),xaxt="n",yaxt="n",
xlim=c(0,5),ylim=c(0,45),type="l",xlab="i",ylab="alpha")
> for(i in 2:4) lines(c(i,i),c(Com$height[i-1],Com$height[i]))
> for(j in 1:4) lines(c(j,j+1),rep(Com$height[j],2))
> axis(1,at=0:4,labels=5:1)

alpha

5 4 3 2 1
i

LS Statistik und Ökonometrie SoSe 2020 226


Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen

Ein weiterer Vorschlag stammt von Mojena (1977), welcher ebenso


auf den Verschmelzungsniveaus beruht
Für die Verschmelzungsniveaus αi wird der Mittelwert und die
Standardabweichung bestimmt:
n−1
1 X
ᾱ = αi
n − 1 i=1
v
u n−1
u 1 X
sα = t (αi − ᾱ)2
n − 2 i=1
Im Anschluss werden die standardisierten Niveaus berechnet:
α − ᾱ
α̃i =

Suche den Index i bei dem zum ersten Mal
hier ist dann cut
α̃i > 2.75
die Anzahl der Klassen ist dann n + 1 − i
Milligan und Cooper (1985) empfehlen α̃i > 1.25
LS Statistik und Ökonometrie SoSe 2020 227
Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen

Beispiel (Studierende)
> alpha=Com$height
> stalpha=(alpha-mean(alpha))/sd(alpha)
> stalpha
[1] -0.7116017 -0.6865938 -0.0236528 1.4218483

Nach Milligan und Cooper ist i = 4, so dass die empfohlene Anzahl


der Klassen n + 1 − i = 5 + 1 − 4 = 2 ist

LS Statistik und Ökonometrie SoSe 2020 228


Clusteranalyse Partitionierende Clusterverfahren

Clusteranalyse
Partitionierende Clusterverfahren

Bei den hierarchischen Verfahren bleiben zwei Objekte in derselben


Klasse, es entstehen Hierarchien. Bei den partitionierenden Verfahren
ist dies nicht gegeben bei partitionierende verfahren tausche ich ständig klassen ->
braucht viel rechnerkapazität

Diese Art der Klassifikation misst die Güte einer Partition mittels
eines Gütekriteriums. Die Optimierung der Partitionen geschieht auf
Basis der Güte. Die Verfahren werden auch als optimale Partitionen
bezeichnet
ggf. findet sich nur lokales optimum
aber wenn homogenität für mich hoch genug ist dann passt das

LS Statistik und Ökonometrie SoSe 2020 229


Clusteranalyse Partitionierende Clusterverfahren

Die Bestimmung der optimalen Einteilung der n Objekte in g Klassen


mit 1 ≤ g ≤ n ist abhängig von: für lokale optima dann gütekriterien wieder genutzt
- Der Wahl des Gütekriteriums, wobei das Skalenniveau der Merkmale
beachtet werden muss. Eine richtige Wahl gibt es hierbei nicht
- Die rechnerische Ermittlung einer optimalen Partition. Die Anzahl der
möglichen Partitionen ist dabei:
g  
1 X g
(−1)k (g − k)n
g! k
k=0
weil zu viele möglichkeiten nur lokal optimale lösung gewählt!

Für n = 20 und g = 2 ergeben sich bereits 524287 Möglichkeiten, somit


wird zu heuristischen Verfahren (lokal optimale Lösungen) übergangen
- Der Bestimmung der Klassenzahl, diese wird i.d.R a-priori vorgegeben
oder im Laufe der Prozedur bestimmt
1. hierarchsiche CL -> gibt mir zahl der klassen
-> wenn ich diese habe, dann
2. bestimmung von g für partitionierende clusteranalyse

LS Statistik und Ökonometrie SoSe 2020 230


Clusteranalyse Partitionierende Clusterverfahren – Austauschverfahren

Clusteranalyse
Partitionierende Clusterverfahren – Austauschverfahren
gibt verschiedene verfahren wie hill-climbing oder k-means verfahren
-> wenn keine verbesserung mehr, dann am ziel angekommen

Das Austauschverfahren ist auch bekannt als ”hill climbing method”


Folgende Prozedur wird durchgeführt müssen mehrere startpartitionierungen ver-
wenden, da wir nicht wissen ob diese optimal
1. Vorgegeben wird eine erste Startpartition C 0 war
2. In der Partition C I wird für jedes Objekt überprüft, ob sich Wert des
Gütekriteriums verbessert, wenn dieses Objekt einer anderen Klasse
zugeordnet wird
3. Ausgetauscht wird das Objekt, das die größte Verbesserung bewirkt, in
diese neue
die entsprechende Klasse. Es entsteht eine neue Partition C I+1 einfach so
bezeichnet
4. Die Schritte 2 und 3 werden so lange durchgeführt bis keine
Verbesserung mehr auftritt
Es wird empfohlen mehrere Startpartitionen zu verwenden und die
Lösung zu wählen, deren Gütekriterium minimal bzw. maximal ist

LS Statistik und Ökonometrie SoSe 2020 231


Clusteranalyse Partitionierende Clusterverfahren – K-Means

Clusteranalyse
Partitionierende Clusterverfahren – K-Means

K-Means setzt quantitative Merkmale voraus


Folgende Prozedur wird durchgeführt
1. Basis ist eine willkürlich gewählte Startpartition C 0
2. Für die Klassen der Partition C I wird der Mittelpunktsvektor, auch
”Zentroid” genannt, gewählt
3. Für jedes Objekt werden die Distanzen zu diesen Zentroiden berechnet
und jedes Objekt wird der Klasse zugeordnet, für die die Distanz
minimal ist. Es entsteht eine neue Einteilung C I+1
4. Die Schritte 2 und 3 werden so lange durchgeführt bis keine
Umsortierung mehr notwendig ist

LS Statistik und Ökonometrie SoSe 2020 232


Clusteranalyse Partitionierende Clusterverfahren – Umsetzung in R

Clusteranalyse
Partitionierende Clusterverfahren – Umsetzung in R

Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> KM=kmeans(Studis,2)
> KM
K-means clustering with 2 clusters of sizes 2, 3

Cluster means:
Alter Groesse Gewicht
1 22 190 78
2 21 172 60

Clustering vector:
[1] 2 1 2 2 1

Within cluster sum of squares by cluster:


[1] 38 170
(between_SS / total_SS = 78.9 %)

Available components:

[1] "cluster" "centers" "totss" "withinss"


[5] "tot.withinss" "betweenss" "size"

LS Statistik und Ökonometrie SoSe 2020 233


Clusteranalyse Partitionierende Clusterverfahren – Umsetzung in R

Beispiel (Studierende)
> plot(Studis[,-1], col = KM$cluster, lwd=2)
>
> #Der Stern für die Zentren:
> points(KM$centers[,-1], col=1:2, pch=8, lwd=2)

80
75 ●
Gewicht
70
65


60


55

165 170 175 180 185 190


Groesse

LS Statistik und Ökonometrie SoSe 2020 234


Clusteranalyse Partitionierende Clusterverfahren – Umsetzung in R

Beispiel (Auto)
33 VW-Golf 3 mit Merkmalen Alter in Jahren, Gefahrene Kilometer
(in tausend) und Angebotspreis (in DM) (vgl. Handl 2002, S. 8)
> Auto <- read.table("Daten_Auto.txt", header=TRUE)
> head(Auto, n=3)
Alter km Angebotspreis
1 2 15 21800
2 2 66 18800
3 2 29 20500
> wss=c()
> for(i in 2:27)
+ {
+ Erg=kmeans(Auto[,-c(1,2)],i)
+ wss[i]=sum(Erg$withinss)
+ }
> plot(1:27,wss,type="b", lwd=2)
0.0e+00 4.0e+07 8.0e+07 1.2e+08


wss


● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25
1:27

LS Statistik und Ökonometrie SoSe 2020 235

Das könnte Ihnen auch gefallen