Clusteranalyse

Clusteranalyse
Clusteranalyse
Einführung
Regressionsanalyse
Logistische Regression gitterförmigem straßennetz zurücklegen
hier sieht man müsste
Varianzanalyse
cov nicht null
Hauptkomponentenanalyse
euklidische distanz würde das heir machen - ohne ellipse
Faktorenanalyse
Clusteranalyse
- Motivation gibt durch bayes etc. modernere verfahren!
- Ähnlichkeiten und Distanzen ähnlcihkeiten und distanzen stark von variablennieau abhängig
- Hierarchische Clusterverfahren <- dann auf ähnlichkeiten und distanzen aufbauend
- Partitionerende Clusterverfahren
LS Statistik und Ökonometrie SoSe 2020 173

Clusteranalyse Motivation
Clusteranalyse
geht jetzt um statistische einheiten/merkamlsträger/beobachtungen im gegensatz zur FA
Motivation
Die Clusteranalyse stellt eine Methode zur Bildung von Klassen dar.
Eine Menge von Objekten werden mittels verschiedener Merkmale in
mehrere Teilmengen unterteilt
Dabei sollen ähnliche Objekte zu derselben Klasse zugeordnet werden.
Befinden sich Objekte nicht in der gleichen Klasse, so sollten sie sich
deutlich unterscheiden
Dies bedeutet, dass die Klassen bezüglich der Merkmale möglichst
homogen sind und sich voneinander unterscheiden homogene klassen die zueinander
(gegenseitig) heterogen sind
Zielsetzung ist das Auffinden von homogenen Teilgruppen und
demnach eine Datenreduzierung. Nachfolgend ist eine Anwendung
weiterer multivariater Verfahren in den Klassen möglich, sowie eine
nähere Untersuchung und Interpretation der Gruppen
Zur Interpretation der Gruppen können weitere Merkmale
nach info in best. variablen wird klassifziert
herangezogen werden
- zweite art: untersuchungsvariablen - die auf gebildete klassen
angewendet werden
Beispiele:
- Typisierung anhand von Verhaltensweisen
- Klassifikation von Patienten nach Krankheitssymptomen
- Einteilung der Wählerschaft einer Partei
- Segmentation der Käufer eines Produktes
bei klassischer CA objekt nur in einer klasse!
I.d.R wird jedes Objekt nur einer Klasse zugeordnet, wobei die
Einteilung als Partition bzw. Zerlegung bezeichnet wird. Es kann
jedoch auch erforderlich sein, ein Objekt zu mehreren Klassen
zuzuordnen, welche nicht-disjunkte Klassifizierung bzw. clumping
methods genannt werden
Allgemein lassen sich die Partitionen unterscheiden in:
- Deskriptive Klassifikationsverfahren (Hierarchische Verfahren, Optimale
Partition)
- Stochastischen Verfahren (Mischverteilungsverfahren, Verteilungsfreie
Verfahren, Stochastische Partitionen)
z.b. latent class analysis: nicht disjunkt - wahrshceinlichkeit dass objekt in bestimmte klasse gehört!

Beispiel (Studierende)
Merkmale von fünf Studierenden (Handl, 2002) ordinal
ID Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
1 m 23 171 60 n j 2 j
2 m 21 187 75 n j 1 n
3 w 20 180 65 n n 3 j
4 w 20 165 55 j n 2 j
5 m 23 193 81 n n 3 n
⇒ Bestimme die Ähnlichkeit bzw. Distanz zwischen diesen
ID's -> problem: wir haben verschiedene skalenniveaus in versch. variablen

Clusteranalyse Ähnlichkeiten und Distanzen
Clusteranalyse
ähnlichkeit und distanz wie bei variation vs. konzentration
Ähnlichkeiten und Distanzen gehören zusammen
similarity von objekten i und j
Gesucht ist ein Wert sij , der die Ähnlichkeit zwischen dem Objekt i
und Objekt j misst, welcher umso größer ist, je ähnlicher sich die
beiden Objekte sind. Bezeichnet wird sij als Ähnlichkeitskoeffizient
mit: diese haben die eigenschaft -> objekt a und b sowie b und a selbe ähnlichkeit
sij = sji , sij ≤ sii mit i,j = 1, . . . ,n
<= meint dass anderes merkmal maximal so gleich ist wie objekt i mit sich selbst
Häufig sind diese normiert, so dass gilt: 0 ≤ sij ≤ 1
Die Distanz dij ist ein Ausdruck für die Unähnlichkeit zwischen zwei
Objekten. Diese ist umso größer, je unähnlicher sich die Objekte sind
distanz zu sich selbst ist 0 , daher
dij = dji , dii = 0, dij ≥ dii

distanz gleich egal wie rum
Eine metrische Distanz erfüllt zusätzlich die Dreiecksungleichung:

drittes objekt k:
dij ≤ dik + djk

kommt später noch, aber wohl wichtig

Die Distanzen bzw. Ähnlichkeiten zwischen den Objekten werden in

einer Distanz- bzw. Ähnlichkeitsmatrix dargestellt:
bei metrisch eig nur distanz  
bei niedrigen skalenniveaus
d11 . . . d1n distanz zu sich selbst und
anderen
distanz oder ähnlichkeit meist  .. . .. .
.. 
D= .

hier sind nur noch distanzen drin und
dn1 . . . dnn keine eigentlichen werte mehr!
wie bei vcov - wo mit sich selbst auf

Transformation: Ähnlichkeiten in Distanzen hauptdiagonalen
Für normierte Ähnlichkeitskoffizienten 0 ≤ sij ≤ 1 gilt:

wichtige botschaft eig nur:
gegenseitig transformierbar dij = 1 − sij → 0 ≤ dij ≤ 1
und gibt normierte vs. nicht normierte
Für Ähnlichkeitskoffizienten, mit −1 ≤ sij ≤ 1, gilt:

q
dij = 2(1 − sij )
Transformation: Distanzen in Ähnlichkeiten

dij
sij = 1 − mit a = max dij
a
Die Berechnung von Ähnlichkeiten bzw. Distanzen ist mit einem

Informationsverlust verbunden. Die Auswahl ist abhängig vom
konkreten Sachverhalt und dem vorliegendem Skalenniveau
invarianz
Formales Kriterium ist die Invarianzeigenschaft gegenüber den v.a. bei
nicht-metrisch
Transformationen, die aufgrund des Skalenniveaus zulässig sind problem
Im Moment gibt es kein zufriedenstellendes Maß bei Vorliegen von

gibt eigentlich schon!
ordinalskalierten oder verschieden skalierten Merkmalen
Die Ähnlichkeiten bzw. Distanzen werden im Folgenden getrennt nach
dem Skalenniveau betrachtet

Clusteranalyse Ähnlichkeiten und Distanzen – Binäre Merkmale
Clusteranalyse
Ähnlichkeiten und Distanzen – Binäre Merkmale
Sämtliche Merkmale besitzen nur zwei Ausprägungen: ”1” für

Merkmal ist vorhanden und ”0” für Merkmal ist nicht vorhanden
Unterschieden wird dabei in:
- Symmetrische Merkmale, Objekte sind sich ähnlich auch, wenn diese
das Merkmal nicht besitzen d.h. objekte ähnlich wenn beide 1 ODER wenn beide 0
- Asymmetrische Merkmale, Objekte sind sich weder ähnlich noch
unähnlich, wenn das Merkmal bei beiden nicht vorhanden ist
Daraus folgt eine unterschiedliche Motivation der Ähnlichkeitsmaße

Die Anzahl an Übereinstimmungen bzw. Nichtübereinstimmungen

zwischen den Merkmalen zweier Objekte i, j wird über eine
Kontingenztabelle festgehalten
j
Objekt j
1 0
Objekt i
1 a c a+c
pos. übereins.
i
0 b d b+d
neg. übereis.
a+b c+d p
Die Gesamtzahl der Übereinstimmungen beträgt a + d und ergibt sich
aus a den positiven und d den negativen Übereinstimmungen. Die
Zahl der Merkmale, die nicht übereinstimmen ist c + b

Betrachtung der ersten beiden Studierenden:
ID Geschlecht Raucher Auto MatheLK
1 m n j j
2 m n j 0
Kodierung der Merkmale: 1 = ”j” und ”m” bzw. 0 = ”n” und ”w”
ID Geschlecht Raucher Auto MatheLK m auch 1!!
objekt 1 1 0 1 1 ja = 1
nein = 0
objekt 2 1 0 1 0
Kontingenztabelle der Übereinstimmungen/Nichtübereinstimmtungen
Objekt 2
1 0 nächste folien basieren auf
dieser matrix
Objekt 1
1 2 1 3 WICHTIG :ANORDNUNG VON

AC
BD
0 0 1 1
2 2 4
Für symmetrischen Merkmale sollen sich die Werte des

Ähnlichkeitskoeffizienten nicht ändern, wenn die Kodierung getauscht
wird. Das Ähnlichkeitsmaß ist abhängig von a + d und b + c
Die Maße von Gower und Legendre (1986) können zu einer Klasse
zusammengefasst werden:
a + d sind übereinstimmende
a+d
sGL1
ij = bzw. dGL1
ij = 1 − sGL1
ij
a + d + θ(b + c)
thta steuert die nicht-übereinst.
θ > 0 steuert, wie viel Gewicht die Gesamtzahl der

Übereinstimmungen bzw. die der Nichtübereinstimmungen erhält
- Für θ = 1 ergibt sich der Simple-Matching-Koeffizient
mit zahlen eingesetzt: 3/4
a+d b + c hier mit eignesetzt = 1/4
sSM
ij = bzw. dSM
ij =
a+d+b+c a+d+b+c
- Für θ = 2 ergibt sich der Maß von Rogers und Tanimoto (1960)
= 3/5
1 - 3/5 = 2/5
a+d 2(b + c)
sRT
ij = bzw. dRT
ij = für distanz aus
a + d + 2(b + c) a + d + 2(b + c) ähnlichkeit
hier nicht-übereinst.
doppelt gewichtet
Eine weitere Klasse stellen die M-Koeffizienten dar:

hier d auch mit berücksichtigt
gamma auch dabei
γ(a + d)
sM
ij = mit 0 ≤ γ ≤ 1
γ(a + d) + (1 − γ)(b + c)
für jedes γ ist 0 ≤ sM

ij ≤ 1
ähnlichkeitswerte zwischen 0 und 1
mit verschiedenen gammas
1
Für γ = 2 ergibt sich der Simple-Matching-Koeffizient erhält man versch. maße
1
Für γ = 3 ergibt sich das Maß von Rogers und Tanimoto
2
Für γ = 3 ergibt das Maß von Sokal und Sneath (1963)
2(a + d)
sSS
ij =
2(a + d) + b + c
Die genannten symmetrischen Koeffizienten sind invariant gegenüber

eineindeutigen Transformationen eines oder mehrere Merkmale

Für asymmetrische Merkmale können nach Gower und Legendre

angewendet werden: hier fehlt jetzt immer d in formeln
distanz ist wieder 1 minus ähnlichkeit
a
sGL2
ij = bzw. dGL2
ij = 1 − sGL2
ij
a + θ(b + c)
theta steuert wieder und soll größer 0
wobei θ > 0 ist. Die negativen Übereinstimmungen finden keine

Berücksichtigung ähnlichkeit nimmt ab und unähnlichkeit nimmt zu da d wegfällt -> werte fallen niedriger aus?!
- Für θ = 1 erhält man den Jaccard-Koeffizienten 1 minus 2/3 = 1/3
= 2/3
a b+c
sJA
ij = bzw. dJA
ij =
a+b+c a+b+c
- Für θ = 2 das Maß von Sokal und Sneath (1973)
a 2(b + c)
sSO2
ij = bzw. dSO2
ij =
a
a + 2(b + c) a + 2(b + c)
c
b d

Weitere Koeffizienten sind die S-Koeffizienten, welche ebenso die

negativen Übereinstimmungen nicht berücksichtigen
γ(a)
sSij = mit 0 ≤ γ ≤ 1
γ(a) + (1 − γ)(b + c)
für jedes γ ist 0 ≤ sSij ≤ 1 wenn für gamma diese werte eingsetzt, dann
erneut vorige maße ergeben
1
Für γ = 2 ergibt sich der Jaccard-Koeffizient
1
Für γ = 3 ergibt sich das Maß von Sokal und Sneath (1973)
Die asymmetrischen Maße sind nicht invariant gegenüber
eineindeutigen Transformationen. Für jedes θ bzw. γ ergibt sich die
gleiche Rangordnung der Ähnlichkeiten
Die Rangordnungen der symmetrischen stimmen jedoch nicht
unbedingt mit denen der asymmetrischen Koeffizienten überein

= symmetrisch
Ähnlichkeitsmatrix nach dem Simple-Matching-Koeffizient
 
1.00 0.75 0.50 0.25 0.50
 0.75 1.00 0.25 0.00 0.75 
S SM = 
 
 0.50 0.25 1.00 0.75 0.50  
 0.25 0.00 0.75 1.00 0.25 
0.50 0.75 0.50 0.25 1.00
Ähnlichkeitsmatrix nach dem Jaccard-Koeffizienten

= assymmetrisch
 
1.00 0.67 0.33 0.25 0.33 => entweder gleiche
oder niedrigere
 0.67 1.00 0.00 0.00 0.50  werte da d fehlt!!
S JA = 
 
 0.33 0.00 1.00 0.50 0.00 

 0.25 0.00 0.50 1.00 0.00 
0.33 0.50 0.00 0.00 1.00
auf hauptdiagonalen immer 1, da zu sich selbst maximal ähnlich
bei distanz wäre hauptdiagonale = 0 !!!

Clusteranalyse Ähnlichkeiten und Distanzen – Nominalskalierte Merkmale
Clusteranalyse
jetzt nominal
Ähnlichkeiten und Distanzen – Nominalskalierte Merkmale
Betrachtet werden Merkmale mit nominalen Skalenniveau und mehr

als zwei Ausprägungen
Die Ähnlichkeit von Objekten anhand nominalskalierter Merkmale
erfolgt auf Basis des verallgemeinerten M-Koeffizienten von Sneath
uij
sij =
p
mit p der Anzahl der betrachteten Merkmale und uij der Anzahl der
sprich wo selbe werte
Merkmale, die bei beiden Objekten i und j identisch sind aufweisen
Der Wertebereich des Koeffizienten ist 0 ≤ sij ≤ 1. Dieser ist zudem
invariant gegenüber eineindeutigen Transformationen
Weiter sind Modifikationen möglich, so dass Übereinstimmungen bzw.
Nichtübereinstimmungen verschieden gewichtet werden können

Clusteranalyse Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale
Clusteranalyse
Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale
Ordinale Merkmale besitzen qualitative Ausprägungen, die in eine

Rangordnung gebracht werden können. Für ein Merkmal X mit m
Ausprägungen ergibt sich folgende Rangreihe
größe nach geordnet
X1 X2 . . . Xm
Ähnlichkeitsmaß beruhend auf den Rängen: Ordne die Ausprägungen
mögl. 1 der Größe nach. Die höchste Ausprägung bekommt den Rang 1 und
die niedrigste den Rang m zugewiesen HIER KEIN UNTERSHIED S UND D
Rangi − Rangj Rangi − Rangj
sij = , dij =
Spannweite Spannweite
Ähnlichkeitsmaß beruht auf binären Hilfsvariablen: Es werden m
mögl. 2
Hilfsvariablen eingeführt. Nimmt die Ausprägung den Rang k an, so
werden den ersten k Hilfsvariablen der Wert 1 zugewiesen und den
weiteren der Wert 0. Die Berechnung erfolgt dann über den binären
Fall in binäre hilfsvariablen mit 0 und 1 umtransformiert
Alternative Ähnlichkeitsmaße
- Spearman’s ρ
- Goodman/Kruskal’s γ
- Kendall’s τ
- Goodman’s µ goodman nich so wichtig!

Das Merkmal Cola gibt auf einer Skala von 1 bis 3 an, ob dem
Studierenden das Getränk schmeckt oder nicht. Student 1 gab dafür
den Wert 2 an und Student 2 den Wert 1
Nach dem Ähnlichkeitsmaß beruhend auf den Rängen ergibt sich
hier für ähnlichkeit wert
Rang1 − Rang2 |2 − 1|
s12 =1− =1− = 0.5
Spannweite 2
Nach dem Ähnlichkeitsmaß beruhend auf den Hilfsvariablen ergibt

sich:
ID Hilfsvariablen
1 2 3
1 1 1 0 -> sie stimmen bis auf eine hilfsvariable
überein!
2 1 1 0
2
sSM
12 = = 0.67
3
Clusteranalyse höheres
Ähnlichkeiten und Distanzen – Quantitative maß weißt auf mehr
Merkmale
ähnlichkeit hin ABER kein
"je... desto..." da keine lineare
Clusteranalyse beziehung
jetzt bei metrisch -

Ähnlichkeiten und Distanzen – Quantitative Merkmale hierum geht es meiste zeit
Betrachtet werden Merkmale, welche intervall- bzw. verhältnisskaliert

sind.
jetzt geht es eigentlich nur noch
Bei diesen Merkmalstypen ist die Maßeinheit frei wählbar, so dass die um distanzen!
Distanz bzw. Ähnlichkeit nicht von der Maßeinheit abhängen sollte.
Ein solches Distanzmaß wird als skaleninvariant bezeichnet
x̃i = Cxi mit C = diag(c1 , . . . ,cp )
Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Bei intervallskalierten Merkmalen ist zudem der Koordinatenursprung distanz zwischen i und j kann man
frei wählbar, so dass die Distanz nicht vom gewählten so messen:
entweder direkt oder um eck
Koordinatenursprung abhängig sein sollte. herum
Diese Eigenschaft heißt Translationsinvarianz verschiebbarkeit dieser beiden objekte im raum
ohne dass was passiert mit distanz
x̃i = xi + b mit b ∈ Rp
auch wenn ich mit b hier arbeite
verändert sich nichts!!
Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Für quantitative Merkmale werden Distanzen berechnet
Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale
Eine allgemeine Klasse von Distanzen sind die Minkowski-q-Metriken

(Lq -Distanz): q dient als platzhalter -> q muss größer 1 sein
p
!1
q
dqij
X
q
= |xik − xjk | mit q ≥ 1
k=1 d.h. wi rkönnen relativ robust verschiebungen
sprich wir können diese relativ robust verwenden im raum anstellen
Diese sind metrische Distanzen und translationsinvariant, aber nicht
skaleninvariant. Dies bedeutet, dass die Distanzen abhängig sind von
den Maßeinheiten der Merkmale
Eine mögliche Normierung der Daten ist abhängig von q:
xk − x̄k
x̃k =
sqk
mit !1
n n q
1X 1X
x̄k = xik und sqk = |xjk − x̄k |q
n n
i=1 i=1

Die wichtigsten Minkowski-q-Metriken:

- Die City-Block-Metrik ergibt sich bei q = 1:
p
!
X
d1ij = |xik − xjk |
k=1
mit der Normierung:

n
!
xk − x̄k 1X
x̃k = und s1k = |xjk − x̄k |
s1k n i=1
- Die Euklidische Distanz bei q = 2:

p
! 12
X = kürzeste distanz zwischen
d2ij = |xik − xjk |2 zwei punkten und entsprechender
k=1 normierung
mit der Normierung:

n
! 21
xk − x̄k 1X
x̃k = und s2k = |xjk − x̄k |2
s2k n i=1

euklidische distanz berücksichtigt bestimmte info nicht:

wenn wir bei multivariat verhältnis aller punkte anschauen -> in vcov matrix gegeben
-> diese vcov matrix S ist hier zentrum von mahalanobix-distanz
Eine weiteres Maß ist die Mahalanobis-Distanz, welche translations-

und skaleninvariant ist:
q
dM
ij = (xi − xj )0 S−1 (xi − xj )
mit
1
S= (x − x̄)0 (x − x̄)
n
bzw. S ist inverse der empirischen vcov matrix
info über gesamte abhängigkeitsstruktur der objekte hier berücksichtigt!

Der Datensatz enthält drei quantitative Merkmale: Alter, Gewicht,
Körpergröße
ID Alter Größe Gewicht
1 23 171 60
2 21 187 75
3 20 180 65
4 20 165 55
5 23 193 81

basieren auf tabelle

Beispiel (Studierende) letzte folie
Die Distanzmatrix auf Basis der Euklidischen Distanz lautet

> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> dist(Studis)
1 2 3 4 distanz mit sich selbst (wäre 0) ist raus
2 22.022716
d=
3 10.723805 12.247449
4 8.366600 29.748950 18.027756
5 30.413813 8.717798 20.832667 38.327536
⇒ Die Personen 1 und 4 sind sich am ähnlichsten und die Personen 4
da kleinste eukl. distanz
und 5 am unähnlichsten

Clusteranalyse Ähnlichkeiten und Distanzen – Gemischt skaliert
Clusteranalyse
Ähnlichkeiten und Distanzen – Gemischt skaliert
bei gemischtem skalenniveau:
In der Praxis liegen die Merkmale zumeist nicht nur in einem

Skalenniveau vor, sondern sind gemischt skaliert.
Für die Berechnung der Distanzen bzw. Ähnlichkeiten gibt es mehrere
Vorschläge:
1
- Transformation aller Variablen auf das niedrigste Niveau (Verbunden
mit einem Informationsverlust)
- Betrachte qualitative als quantitative Merkmale (Qualitative Merkmale
2 bekommen einen höheren Aussagegehalt, als sie eigentlich besitzen)
- Berechne für jeden Skalentyp die entsprechende Distanz bzw.
Ähnlichkeit und aggregiere diese zu einer Maßzahl (Wie ist die
3
Umsetzung?)
1 besser als 2
3 nach skalengerechter berechnung aggregierung

zu 3
Aggregation verschiedener Distanzen
Möglichkeit 1: Gewichtetes Mittel der Distanzen
1 quan
(anom dnom ord
ij + aord dij + aquan dij )
p
mit a der Anzahl der Merkmale, die einem bestimmten Typ
entsprechen. Voraussetzung ist, dass die Maßeinheiten stimmen
Möglichkeit 2: Koeffizient nach Gower (1971)
Pp (k) (k)
apannweite ist abstand niedriste und höchste k=1 δij dij
ausprägung dij = Pp (k)
k=1 δij
mit δij werden fehlende Beobachtungen und die Symmetrie von binären
Merkmalen berücksichtigt
(
(k) 1, Beobachtung von Merkmal k bei beiden Objekten vorhanden
δij =
0, Beobachtung fehlend
bzw. für ein asymmetrisches binäres Merkmal

(
(k) 1, Merkmal k hat bei beiden Objekten nicht den Wert 0
δij =
0, Merkmal k hat bei beiden Objekten den Wert 0
(k)
(Zu Möglichkeit 2) Die Distanzen dij werden berechnet:
- bei binären oder nominalskalierten Merkmalen
(
(k) 6 xjk
1, xik =
dij =
0, xik = xjk
- bei quantitativen und ordinalen Merkmalen
(k) |xik − xjk |

dij =
Spannweite

Beispiel (Koeffizient von Gower für Person 1 und 2)

Daten
ID Geschlecht Alter Größe Gewicht
Raucher Auto Cola MatheLK
1 m 23 171 60 n j 2 j
2 m 21 187 75 n j 1 n
(k)
Bei symmetrischen binären Merkmalen (δij ist für alle binären
Merkmale gleich 1, da keine fehlenden Daten)
Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
(k) 2 16 15 1
d12 0 3 22 26
0 0 2
1
(k)
δ12 1 1 1 1 1 1 1 1

1 2 1
d12 = 0 + + . . . + + 1 = 0.4339
8 3 2
Bei asymmetrischen binären Merkmalen: Geschlecht ist asymmetrisch
0=männlich
Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
(k) 2 16 16 1
d12 0 3 22 22
0 0 2
1
(k)
δ12 0 1 1 1 1 1 1 1

1 2 1
d12 = 0 + + . . . + + 1 = 0.4339
8 3 2
Clusteranalyse Hierarchische Clusterverfahren
diversiv: beginnend von geamtmenge wird immer wieder abgeschnitten und damit
Clusteranalyse klassen
agglomerativ: anfangs jedes objekt eine klasse und am ende habe ich alle in eine
Hierarchische Clusterverfahren klasse fusioniert
jeweils frage: wo mach ich den cut?
Zielsetzung ist Bildung von Gruppen durch Partitionierung auf Basis

von p Merkmalen und n Objekten Objekte von 1 bis n
Ausgangspunkt ist eine Objektmenge O = O1 , . . . ,On . Unter einer

Partition versteht man eine Zerlegung der Objektmenge O in
Teilmengen C1 , . . . , Ck mit k ≤ n, so dass jedes Element von O
genau zu einer Teilmenge gehört im extremfall menge der o's gleich c's
Die Teilmengen werden als Klassen, Segmente oder Cluster
bezeichnet
Objekte innerhalb einer Klasse sollen sehr ähnlich sein, während sich
die Klassen unterscheiden. Die Klassen sind intern kohärent, aber
extern isoliert -> ander ausgedrückt
Fokusiert werden die Verfahren der Hierarchischen Clusteranalyse,
welche sich unterscheiden in divisive und agglomerative Verfahren.
Die Partitionierung erfolgt auf Basis der Distanz- bzw.
Ähnlichkeitsmatrix
Bei den divisiven Verfahren bildet der Ausgangspunkt die

Objektmenge O. O1 bis On befindet sich in enier klasse
Die Hierarchien entstehen durch die schrittweise Zerlegung der bereits
vorhandenen Klassen beginnend mit der Objektmenge O. Der Prozess
wird solange fortgesetzt, bis sich jedes Objekt in einer eigenen Klasse
befindet.
Die Klassenzahl wird somit im Laufe des Verfahrens größer. Die
Homogenität nimmt damit ständig zu
von extrem: superklasse - alle in einer
bis anderes extrem jedes objekt

einzelne klasse
-> iwo dazwischen gute lösung

homogenität nimmt zu nach unten ->
da jedes
LS objekt mit und
Statistik sich selbst maximal homogen
Ökonometrie SoSe 2020 203
sukzessive vereinigung statt trenung
Bei den agglomerativen Verfahren werden die Klassen sukzessive

vereinigt. Den Beginn bildet die feinste Zerlegung der Objektmenge in
C1 , . . . , Cn und endet, wenn alle Objekte in eine Klasse fusioniert sind.
Die Anzahl der Klassen verkleinert sich und die Homogenität nimmt
ständig ab
Spezielle agglomerativen Verfahren:
1
- Single-Linkage-Verfahren
2- Complete-Linkage-Verfahren
3 - Average-Linkage-Verfahren
- Wardverfahren
4
Betrachtet werden im Folgenden nur die agglomerativen Verfahren
homogenität nimmt sukzessive nach

LS Statistik und Ökonometrie SoSe
unten hin ab, unten max.2020
heterogenität 204
Die Partitionen und die zugehörigen Distanzen werden in einem

Dendrogramm dargestellt. Daran ist der Prozess der Klassenbildung
sichtbar zeigt partitionierung und entsprechende distanz bei teilung
Klassenbildung bei fünf Studierenden anhand der quantitativen
Merkmale (Alter, Größe, Gewicht)
Dendrogram
40
je weiter nach oben gehe,
desto heterogener
30
20
10
0
1 und 4 zunächst verschmolzen, kurz danach
2 5 3 1 4 2 und 5, erst danach 3 1 und 4, am ende alle
hier 5 studierende
Der Index h misst die Homogenität der Klassen. Je kleiner der Wert
ist, desto ähnlicher sind sich die Objekte und umso homogener sind
die Klassen. Jedem Wert von h ist genau eine Partition zugeordnet
Aus dem Dendrogramm wird die kophenetische Matrix gewonnen.

Diese ist eine zugehörige Abstandsmatrix D∗ , welche die Abstände
zwischen einen Objekt i und j als die Homogenität h misst, bei der
die beiden Objekte zum ersten Mal in einer Klasse liegen
Beispiel – Fortsetzung (Studierende)

Die Werte für h am Beispiel lauten
h = (8.37, 8.72, 18.03, 38.33)

das hier ist höhe der verschmelzungen in dentrogramm letzte folie
Die zugehörige kophenetische Matrix ergibt: das ist spezielle abstanzmatrix bezogen
auf dentrogramm:
 
0 38.33 18.03 8.37 38.33
 38.33 0 38.33 38.33 8.72 
∗
 
D =  18.03 38.33
 0 18.03 38.33 
wir sehen objekt 
1 und 4 verschmelzen  8.37 38.33 18.03 0 38.33 
bei 8.37
38.33 8.72 38.33 38.33 0

HIERARCHISCHE VERFAHREN HIER ALLGEMEIN Clusteranalyse Hierarchische Clusterverfahren
Allgemeines Vorgehen bei den agglomerativen Verfahren

1. Definiere für jedes Objekt eine eigene Klasse Ci , mit den Distanzen
Cij = dij
2. Suche das Paar mit der kleinsten Distanz bzw. größten Ähnlichkeit
min{dij |dij > 0} bzw. max{sij |sij > 0}
Falls mehrere Paare zur Auswahl stehen, wähle eines zufällig aus. Sind
k und m die beiden Objekte mit der kleinsten Distanz bzw. größten
Ähnlichkeit, dann verschmelze diese zu einer neuen Klasse Ckm
3. Bestimme den Abstand zwischen der neuen Klasse und den
verbliebenen Klassen bzw. Objekten und erstelle eine neue
Distanzmatrix
4. Wiederhole die Schritte 2 und 3 solange bis nur noch eine Klasse
vorhanden ist mit maximaler heterogentiät
Das Single-, Complete- und Average-Linkage-Verfahren unterscheiden
sich in der Berechnung des Abstandes in Schritt 3

Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage
Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage
GEHT UM ABSCHNITT 3!!

Das Single-Linkage-Verfahren wird auch bezeichnet als ”nearest
neighbour method”
Als Abstandsmaß wird die minimale Distanz bzw. maximale
Ähnlichkeit zwischen der neu gebildeten Klasse und den restlichen
Klassen verwendet
Zwischen der fusionierten Klasse Ckm und dem Objekt i ergibt sich:
d{km}.{i} = min{d{k}.{i} , d{m}.{i} }

minimale distanz
bzw. oder maximale ähnlichkeit
s{km}.{i} = max{s{k}.{i} , s{m}.{i} }
Für jeden Fusionsschritt I lässt sich der Homogenitätsindex hI
angeben. Dieser lautet:
homog.index bidlet
hI = min min di.j
minimumd idstanz
bzw. oder max ähnl. ab

hI = max max si.j
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
3. Bestimme die neuen Distanzen:
diese distanz d{1,4}.{2} = min{d{1}.{2} , d{4}.{2} } = min{22.02, 29.75} = 22.02
zw. 1 und 4 =
10.72 ist
8.37 d{1,4}.{3} = min{d{1}.{3} , d{4}.{3} } = min{10.72, 18.03} = 10.72 kleintes
-> das dann
neues
jeweisl mit d{1,4}.{5} = min{d{1}.{5} , d{4}.{5} } = min{30.41, 38.33} = 30.41 minimum
wert 2 3 und
5 bzw. restlich sprich 10.72 wären kleinstes minimum
verglichen allen für diese neue klasse

roter kasten aus letzter folie
... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 22.02 0
3 10.72 12.25 0
5 30.41 8.72 20.83 0 8.72 -> 2 und 5 als nächstes
fusioniert
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden

Clusteranalyse Hierarchische Clusterverfahren – Single-Linkage in R
Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage in R
> Ob=hclust(dist(Studis),method="single")
> Ob$height
[1] 8.366600 8.717798 10.723805 12.247449
> plclust(Ob)
homogenitätszuwachs von 12 da 12 auf y-skala

12
11
Height
10
3
9
8
dist(Studis)
hclust (*, "single")

Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage
Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage ist praktisch furthest neighbour method
Das Complete-Linkage-Verfahren wird auch bezeichnet als ”furthest

neighbour method”
Als Abstandsmaß wird die maximale Distanz bzw. minimale DAS GITL IMMER NUR FÜR
Ähnlichkeit zwischen der neu gebildeten Klasse und den restlichen ABSCHNITT 3
Klassen verwendet
Zwischen der fusionierten Klasse Ckm und der Objekt i ergibt sich:
d{km}.{i} = max{d{k}.{i} , d{m}.{i} }
bzw.
s{km}.{i} = min{s{k}.{i} , s{m}.{i} }
hI = min max di.j
bzw.
hI = max min si.j
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
schritt 1 aus liste:
selbe werte wie vorhin, wir nehmen nur jetzt
3. Bestimme die neuen Distanzen: größeren wert
d{1,4}.{2} = max{d{1}.{2} , d{4}.{2} } = max{22.02, 29.75} = 29.75
d{1,4}.{3} = max{d{1}.{3} , d{4}.{3} } = max{10.72, 18.03} = 18.03
d{1,4}.{5} = max{d{1}.{5} , d{4}.{5} } = max{30.41, 38.33} = 38.33

... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 29.75 0
3 18.03 12.25 0
5 38.33 8.72 20.83 0
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden

Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage in R
Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage in R
> Ob=hclust(dist(Studis),method="complete")
> Ob$height
[1] 8.366600 8.717798 18.027756 38.327536
> plclust(Ob)
hier haben wir noch mehr homogenität - bei 38,33

30
Height
20
wert springt hier nach oben im vgl. zu single linkage

3
5 10
hier unten mit 1-4 und 2-5 bleibt gleich

2
dist(Studis)
hclust (*, "complete")

Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage
Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage
Als Abstandsmaß wird die durchschnittliche Distanz bzw. Ähnlichkeit

zwischen allen möglichen Paardistanzen zwischen den Elementen der
einen Klasse und den Elementen der anderen Klasse bestimmt
Zwischen der fusionierten Klasse Cm und der Klasse Ck ergibt sich:
1 X X
d{km} · i = dij
nk n m
i∈Ck j∈Cm
bzw.
1 X X
s{km} · i = sij
nk n m
i∈Ck j∈Cm

1 X X
hI = min dij
nk nm
i∈Ck j∈Cm
bzw.
1 X X
hI = max sij
nk nm
i∈Ck j∈Cm

Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
3. Bestimme die neuen Distanzen: selbe werte wie vorhin, nur
X X 1 jetzt mit mittelwert gemacht!
d{1,4}.{2} = dij
nk nm i∈Ck j∈Cm
1 1
= (d12 + d42 ) = (22.02 + 29.75) = 25.885
2·1 2·1
1
d{1,4}.{3} = (10.72 + 18.03) = 14.375
2·1
1
d{1,4}.{5} = (30.41 + 38.33) = 34.37
2·1
Die neue Distanzmatrix wird wie bisher aufgestellt
Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage in R
Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage in R
> Ob=hclust(dist(Studis),method="average")
> Ob$height
[1] 8.366600 8.717798 14.375781 25.598855
> plclust(Ob)
im vgl. zu complete linkage wohl homog.verlust

25
20
bisschen niedriger als bei compelte linkage aber

Height
15
höher als bei single linkage

3
10
5
5
dist(Studis)
hclust (*, "average")

Clusteranalyse Hierarchische Clusterverfahren – Ward Verfahren
Clusteranalyse
Hierarchische Clusterverfahren – Ward Verfahren NUR für intervallskalierte merkmale
Bei dem Wardverfahren sollten alle Merkmale intervallskaliert

vorliegen
Jede Klasse wird repräsentiert durch ihren Klassenschwerpunkt:
1 X
x̄k = xi hypothetischer wert wird klasse
nk zugewiesen
i∈Ck
wobei xi den Datenvektor des Objektes i bezeichnet

Die Basis der Verfahrens stellt die Streuung innerhalb einer Klasse dar:
X
||xi − x̄k ||2
i∈Ck
Die Homogenität einer Partition ist die Summe der Streuungen

innerhalb der Klassen. Bei g Klassen ergibt sich:
g X
X
hI = ||xi − x̄k ||2
k=1 i∈Ck
Clusteranalyse Hierarchische Clusterverfahren – Ward Verfahren
Bei der Fusion von zwei Klassen Ck und Cm entsteht ein

Homogenitätsverlust, der ausgedrückt wird durch:
dieser entsteht immer basierend auf klassenschwerpunkt:
durch fusion wird fusioniert wo
nk nm
hI − hI−1 = ||xi − x̄k ||2 homogenitätsverlust minimal
wird
nk + nm
mit nk , nm der Anzahl der Elementen in den jeweiligen Klassen
Wähle die beiden zu fusionierenden Klassen so, dass der entstehenden
Homogenitätsverlust minimal wird

Clusteranalyse Hierarchische Clusterverfahren – Ward in R
Clusteranalyse
Hierarchische Clusterverfahren – Ward in R
> Ob=hclust(dist(Studis),method="ward")
> Ob$height
[1] 8.366600 8.717798 16.378841 46.308396
> plclust(Ob)
40
30
Height
20
10
3
2
4
0
dist(Studis)
hclust (*, "ward")

Clusteranalyse Hierarchische Clusterverfahren – Eigenschaften der Verfahren
Clusteranalyse hier konkurrieren v.a. single, average und complete linkage verfahren
Hierarchische Clusterverfahren – Eigenschaften der Verfahren wann welches?
Wenn die Klassen kohärent und isoliert sind, dann entdecken alle
angesprochenen Verfahren die Klassen
Wenn die Klassen zwar kohärent aber nicht isoliert sind, dann neigt
das Single-Linkage-Verfahren zu einer Kettenstruktur und findet die
Klassen nicht -> signle linkage bekommt dann probleme
Wenn die Klassen isoliert vorliegen, aber nicht kohärent sind, dann
eignet sich das Single-Linkage, während das Complete- und
Average-Linkage teilweise zu anderen Zuordnungen führt
-> ich nehme ja am weitesten
Das Complete-Linkage reagiert sensibel auf Ausreißer entfernter nachbar = ausreißer
das hier wäre schlauchförmig -> nicht kohärent
kohärente und
isolierte
klassen:

Clusteranalyse Hierarchische Clusterverfahren – Güte der Lösung
Clusteranalyse
frage der anzahl der klassen
Hierarchische Clusterverfahren – Güte der Lösung
Eine Möglichkeit besteht in einem Vergleich der Distanzmatrix mit

der kophenetischen Distanzmatrix. Bestimmt wird die Korrelation
zwischen den beiden Matrizen, welche als die kophenetische
Korrelation bezeichnet wird. Je höher der Wert desto besser die
erzielte Lösung. Der Koeffizient kann zugleich zur Auswahl
verschiedener agglomerativer Verfahren verwendet werden.
Entschieden wird sich für das Verfahren mit dem höchsten Wert
Der Gamma-Koeffizient kann zur Beurteilung der Clusterlösung
herangezogen werden. Bestimmt wird die Anzahl der konkordanten
(C) und diskonkordanten (D) Paare auf Basis der Distanzmatrix und
kophenetischen Distanzmatrix
solche verfahren zusätzlich zu dentrogramm
C −D
γ= mit 0 ≤ γ ≤ 1
C +D
Bacher (1994) schlägt folgende Übersicht vor:

Wert Bewertung
0.9 ≤ γ ≤ 1.0 sehr gut
0.8 ≤ γ < 0.9 gut
0.7 ≤ γ < 0.8 befriedigend
0.6 ≤ γ < 0.7 noch ausreichend
0 ≤ γ < 0.6 nicht ausreichend
Clusteranalyse Hierarchische Clusterverfahren – Güte der Lösung
> dist(Studis)
1 2 3 4
2 22.022716
3 10.723805 12.247449
4 8.366600 29.748950 18.027756
5 30.413813 8.717798 20.832667 38.327536
> Com=hclust(dist(Studis),method="complete")
> copCom=cophenetic(Com)
> copCom
1 2 3 4
2 38.327536
3 18.027756 38.327536
4 8.366600 38.327536 18.027756
5 38.327536 8.717798 38.327536 38.327536
> cor(dist(Studis),copCom)
[1] 0.732737 das hier ist korrelation zwischen distanzmatrix und kophenetische matrix

Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen
Clusteranalyse
Hierarchische Clusterverfahren – Anzahl der Klassen
Häufig werden dafür die Distanzen betrachtet, bei denen die einzelnen
Partitionen gebildet werden. Bei den agglomerativen Verfahren stellen
diese den Homogenitätsindex hI dar und werden u.a. als das
Verschmelzungsniveau αi bezeichnet
Vorschlag von Jobson (1992):
- Betrachtet werden die Verschmelzungsniveaus α0 , α1 , . . . , αn−1
- Zu jedem αi gehören n − i Klassen. So wird α0 = 0 gesetzt und es
gibt n zugehörige Gruppen. Zu α1 gibt es n − 1 Gruppen usw.
- Ist die Differenz αj+1 − αj groß im Verhältnis zu der Differenz
αi+1 − αi mit i < j , so sind n − (j + 1) Klassen zu empfehlen
- Grafisch werden die Zuwächse über eine Treppenfunktion dargestellt
> alpha=c(0,Com$height)
> alpha
[1] 0.000000 8.366600 8.717798 18.027756 38.327536
> diff(alpha)
[1] 8.3666003 0.3511976 9.3099585 20.2997794
> plot(rep(1,2),c(0,Com$height[1]),xaxt="n",yaxt="n",
xlim=c(0,5),ylim=c(0,45),type="l",xlab="i",ylab="alpha")
> for(i in 2:4) lines(c(i,i),c(Com$height[i-1],Com$height[i]))
> for(j in 1:4) lines(c(j,j+1),rep(Com$height[j],2))
> axis(1,at=0:4,labels=5:1)
alpha
5 4 3 2 1
i

Ein weiterer Vorschlag stammt von Mojena (1977), welcher ebenso

auf den Verschmelzungsniveaus beruht
Für die Verschmelzungsniveaus αi wird der Mittelwert und die
Standardabweichung bestimmt:
n−1
1 X
ᾱ = αi
n − 1 i=1
v
u n−1
u 1 X
sα = t (αi − ᾱ)2
n − 2 i=1
Im Anschluss werden die standardisierten Niveaus berechnet:
α − ᾱ
α̃i =
sα
Suche den Index i bei dem zum ersten Mal
hier ist dann cut
α̃i > 2.75
die Anzahl der Klassen ist dann n + 1 − i
Milligan und Cooper (1985) empfehlen α̃i > 1.25
> alpha=Com$height
> stalpha=(alpha-mean(alpha))/sd(alpha)
> stalpha
[1] -0.7116017 -0.6865938 -0.0236528 1.4218483
Nach Milligan und Cooper ist i = 4, so dass die empfohlene Anzahl

der Klassen n + 1 − i = 5 + 1 − 4 = 2 ist

Clusteranalyse Partitionierende Clusterverfahren
Clusteranalyse
Partitionierende Clusterverfahren
Bei den hierarchischen Verfahren bleiben zwei Objekte in derselben

Klasse, es entstehen Hierarchien. Bei den partitionierenden Verfahren
ist dies nicht gegeben bei partitionierende verfahren tausche ich ständig klassen ->
braucht viel rechnerkapazität
Diese Art der Klassifikation misst die Güte einer Partition mittels
eines Gütekriteriums. Die Optimierung der Partitionen geschieht auf
Basis der Güte. Die Verfahren werden auch als optimale Partitionen
bezeichnet
ggf. findet sich nur lokales optimum
aber wenn homogenität für mich hoch genug ist dann passt das

Clusteranalyse Partitionierende Clusterverfahren
Die Bestimmung der optimalen Einteilung der n Objekte in g Klassen

mit 1 ≤ g ≤ n ist abhängig von: für lokale optima dann gütekriterien wieder genutzt
- Der Wahl des Gütekriteriums, wobei das Skalenniveau der Merkmale
beachtet werden muss. Eine richtige Wahl gibt es hierbei nicht
- Die rechnerische Ermittlung einer optimalen Partition. Die Anzahl der
möglichen Partitionen ist dabei:
g
1 X g
(−1)k (g − k)n
g! k
k=0
weil zu viele möglichkeiten nur lokal optimale lösung gewählt!
Für n = 20 und g = 2 ergeben sich bereits 524287 Möglichkeiten, somit

wird zu heuristischen Verfahren (lokal optimale Lösungen) übergangen
- Der Bestimmung der Klassenzahl, diese wird i.d.R a-priori vorgegeben
oder im Laufe der Prozedur bestimmt
1. hierarchsiche CL -> gibt mir zahl der klassen
-> wenn ich diese habe, dann
2. bestimmung von g für partitionierende clusteranalyse

Clusteranalyse Partitionierende Clusterverfahren – Austauschverfahren
Clusteranalyse
Partitionierende Clusterverfahren – Austauschverfahren
gibt verschiedene verfahren wie hill-climbing oder k-means verfahren
-> wenn keine verbesserung mehr, dann am ziel angekommen
Das Austauschverfahren ist auch bekannt als ”hill climbing method”

Folgende Prozedur wird durchgeführt müssen mehrere startpartitionierungen ver-
wenden, da wir nicht wissen ob diese optimal
1. Vorgegeben wird eine erste Startpartition C 0 war
2. In der Partition C I wird für jedes Objekt überprüft, ob sich Wert des
Gütekriteriums verbessert, wenn dieses Objekt einer anderen Klasse
zugeordnet wird
3. Ausgetauscht wird das Objekt, das die größte Verbesserung bewirkt, in
diese neue
die entsprechende Klasse. Es entsteht eine neue Partition C I+1 einfach so
bezeichnet
4. Die Schritte 2 und 3 werden so lange durchgeführt bis keine
Verbesserung mehr auftritt
Es wird empfohlen mehrere Startpartitionen zu verwenden und die
Lösung zu wählen, deren Gütekriterium minimal bzw. maximal ist

Clusteranalyse Partitionierende Clusterverfahren – K-Means
Clusteranalyse
Partitionierende Clusterverfahren – K-Means
K-Means setzt quantitative Merkmale voraus

Folgende Prozedur wird durchgeführt
1. Basis ist eine willkürlich gewählte Startpartition C 0
2. Für die Klassen der Partition C I wird der Mittelpunktsvektor, auch
”Zentroid” genannt, gewählt
3. Für jedes Objekt werden die Distanzen zu diesen Zentroiden berechnet
und jedes Objekt wird der Klasse zugeordnet, für die die Distanz
minimal ist. Es entsteht eine neue Einteilung C I+1
4. Die Schritte 2 und 3 werden so lange durchgeführt bis keine
Umsortierung mehr notwendig ist

Clusteranalyse Partitionierende Clusterverfahren – Umsetzung in R
Clusteranalyse
Partitionierende Clusterverfahren – Umsetzung in R
> KM=kmeans(Studis,2)
> KM
K-means clustering with 2 clusters of sizes 2, 3
Cluster means:
Alter Groesse Gewicht
1 22 190 78
2 21 172 60
Clustering vector:
[1] 2 1 2 2 1
Within cluster sum of squares by cluster:

[1] 38 170
(between_SS / total_SS = 78.9 %)
Available components:
[1] "cluster" "centers" "totss" "withinss"

[5] "tot.withinss" "betweenss" "size"

> plot(Studis[,-1], col = KM$cluster, lwd=2)
>
> #Der Stern für die Zentren:
> points(KM$centers[,-1], col=1:2, pch=8, lwd=2)
80
75 ●
Gewicht
70
65
●
60
●
55
165 170 175 180 185 190

Groesse

Beispiel (Auto)
33 VW-Golf 3 mit Merkmalen Alter in Jahren, Gefahrene Kilometer
(in tausend) und Angebotspreis (in DM) (vgl. Handl 2002, S. 8)
> Auto <- read.table("Daten_Auto.txt", header=TRUE)
> head(Auto, n=3)
Alter km Angebotspreis
1 2 15 21800
2 2 66 18800
3 2 29 20500
> wss=c()
> for(i in 2:27)
+ {
+ Erg=kmeans(Auto[,-c(1,2)],i)
+ wss[i]=sum(Erg$withinss)
+ }
> plot(1:27,wss,type="b", lwd=2)
0.0e+00 4.0e+07 8.0e+07 1.2e+08
●
wss
●
●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25
1:27

Clusteranalyse

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Clusteranalyse

Hochgeladen von

Copyright:

Verfügbare Formate

Clusteranalyse

LS Statistik und Ökonometrie SoSe 2020 173

LS Statistik und Ökonometrie SoSe 2020 175

LS Statistik und Ökonometrie SoSe 2020 176

dij = dji , dii = 0, dij ≥ dii

Eine metrische Distanz erfüllt zusätzlich die Dreiecksungleichung:

dij ≤ dik + djk

LS Statistik und Ökonometrie SoSe 2020 177

Die Distanzen bzw. Ähnlichkeiten zwischen den Objekten werden in

wie bei vcov - wo mit sich selbst auf

Für normierte Ähnlichkeitskoffizienten 0 ≤ sij ≤ 1 gilt:

Für Ähnlichkeitskoffizienten, mit −1 ≤ sij ≤ 1, gilt:

Transformation: Distanzen in Ähnlichkeiten

Die Berechnung von Ähnlichkeiten bzw. Distanzen ist mit einem

Im Moment gibt es kein zufriedenstellendes Maß bei Vorliegen von

LS Statistik und Ökonometrie SoSe 2020 179

Sämtliche Merkmale besitzen nur zwei Ausprägungen: ”1” für

LS Statistik und Ökonometrie SoSe 2020 180

Die Anzahl an Übereinstimmungen bzw. Nichtübereinstimmungen

LS Statistik und Ökonometrie SoSe 2020 181

1 2 1 3 WICHTIG :ANORDNUNG VON

Für symmetrischen Merkmale sollen sich die Werte des

θ > 0 steuert, wie viel Gewicht die Gesamtzahl der

Eine weitere Klasse stellen die M-Koeffizienten dar:

für jedes γ ist 0 ≤ sM

Die genannten symmetrischen Koeffizienten sind invariant gegenüber

LS Statistik und Ökonometrie SoSe 2020 184

Für asymmetrische Merkmale können nach Gower und Legendre

wobei θ > 0 ist. Die negativen Übereinstimmungen finden keine

LS Statistik und Ökonometrie SoSe 2020 185

Weitere Koeffizienten sind die S-Koeffizienten, welche ebenso die

LS Statistik und Ökonometrie SoSe 2020 186

Ähnlichkeitsmatrix nach dem Jaccard-Koeffizienten

LS Statistik und Ökonometrie SoSe 2020 187

Betrachtet werden Merkmale mit nominalen Skalenniveau und mehr

LS Statistik und Ökonometrie SoSe 2020 188

Ordinale Merkmale besitzen qualitative Ausprägungen, die in eine

LS Statistik und Ökonometrie SoSe 2020 190

Nach dem Ähnlichkeitsmaß beruhend auf den Hilfsvariablen ergibt

jetzt bei metrisch -

Betrachtet werden Merkmale, welche intervall- bzw. verhältnisskaliert

x̃i = Cxi mit C = diag(c1 , . . . ,cp )

Eine allgemeine Klasse von Distanzen sind die Minkowski-q-Metriken

LS Statistik und Ökonometrie SoSe 2020 193

Die wichtigsten Minkowski-q-Metriken:

mit der Normierung:

- Die Euklidische Distanz bei q = 2:

mit der Normierung:

LS Statistik und Ökonometrie SoSe 2020 194

euklidische distanz berücksichtigt bestimmte info nicht:

Eine weiteres Maß ist die Mahalanobis-Distanz, welche translations-

LS Statistik und Ökonometrie SoSe 2020 195

LS Statistik und Ökonometrie SoSe 2020 196

basieren auf tabelle

Die Distanzmatrix auf Basis der Euklidischen Distanz lautet

LS Statistik und Ökonometrie SoSe 2020 197

bei gemischtem skalenniveau:

In der Praxis liegen die Merkmale zumeist nicht nur in einem

3 nach skalengerechter berechnung aggregierung

LS Statistik und Ökonometrie SoSe 2020 198

bzw. für ein asymmetrisches binäres Merkmal

- bei quantitativen und ordinalen Merkmalen

(k) |xik − xjk |