Beruflich Dokumente
Kultur Dokumente
Clusteranalyse
Einführung
Regressionsanalyse
Logistische Regression gitterförmigem straßennetz zurücklegen
hier sieht man müsste
Varianzanalyse
cov nicht null
Hauptkomponentenanalyse
euklidische distanz würde das heir machen - ohne ellipse
Faktorenanalyse
Clusteranalyse
- Motivation gibt durch bayes etc. modernere verfahren!
- Ähnlichkeiten und Distanzen ähnlcihkeiten und distanzen stark von variablennieau abhängig
- Hierarchische Clusterverfahren <- dann auf ähnlichkeiten und distanzen aufbauend
- Partitionerende Clusterverfahren
Clusteranalyse
geht jetzt um statistische einheiten/merkamlsträger/beobachtungen im gegensatz zur FA
Motivation
Die Clusteranalyse stellt eine Methode zur Bildung von Klassen dar.
Eine Menge von Objekten werden mittels verschiedener Merkmale in
mehrere Teilmengen unterteilt
Dabei sollen ähnliche Objekte zu derselben Klasse zugeordnet werden.
Befinden sich Objekte nicht in der gleichen Klasse, so sollten sie sich
deutlich unterscheiden
Dies bedeutet, dass die Klassen bezüglich der Merkmale möglichst
homogen sind und sich voneinander unterscheiden homogene klassen die zueinander
(gegenseitig) heterogen sind
Zielsetzung ist das Auffinden von homogenen Teilgruppen und
demnach eine Datenreduzierung. Nachfolgend ist eine Anwendung
weiterer multivariater Verfahren in den Klassen möglich, sowie eine
nähere Untersuchung und Interpretation der Gruppen
Zur Interpretation der Gruppen können weitere Merkmale
nach info in best. variablen wird klassifziert
herangezogen werden
- zweite art: untersuchungsvariablen - die auf gebildete klassen
angewendet werden
LS Statistik und Ökonometrie SoSe 2020 174
Clusteranalyse Motivation
Beispiele:
- Typisierung anhand von Verhaltensweisen
- Klassifikation von Patienten nach Krankheitssymptomen
- Einteilung der Wählerschaft einer Partei
- Segmentation der Käufer eines Produktes
bei klassischer CA objekt nur in einer klasse!
I.d.R wird jedes Objekt nur einer Klasse zugeordnet, wobei die
Einteilung als Partition bzw. Zerlegung bezeichnet wird. Es kann
jedoch auch erforderlich sein, ein Objekt zu mehreren Klassen
zuzuordnen, welche nicht-disjunkte Klassifizierung bzw. clumping
methods genannt werden
Allgemein lassen sich die Partitionen unterscheiden in:
- Deskriptive Klassifikationsverfahren (Hierarchische Verfahren, Optimale
Partition)
- Stochastischen Verfahren (Mischverteilungsverfahren, Verteilungsfreie
Verfahren, Stochastische Partitionen)
z.b. latent class analysis: nicht disjunkt - wahrshceinlichkeit dass objekt in bestimmte klasse gehört!
Beispiel (Studierende)
Merkmale von fünf Studierenden (Handl, 2002) ordinal
ID Geschlecht Alter Größe Gewicht Raucher Auto Cola MatheLK
1 m 23 171 60 n j 2 j
2 m 21 187 75 n j 1 n
3 w 20 180 65 n n 3 j
4 w 20 165 55 j n 2 j
5 m 23 193 81 n n 3 n
⇒ Bestimme die Ähnlichkeit bzw. Distanz zwischen diesen
ID's -> problem: wir haben verschiedene skalenniveaus in versch. variablen
Clusteranalyse
ähnlichkeit und distanz wie bei variation vs. konzentration
Ähnlichkeiten und Distanzen gehören zusammen
similarity von objekten i und j
Gesucht ist ein Wert sij , der die Ähnlichkeit zwischen dem Objekt i
und Objekt j misst, welcher umso größer ist, je ähnlicher sich die
beiden Objekte sind. Bezeichnet wird sij als Ähnlichkeitskoeffizient
mit: diese haben die eigenschaft -> objekt a und b sowie b und a selbe ähnlichkeit
sij = sji , sij ≤ sii mit i,j = 1, . . . ,n
<= meint dass anderes merkmal maximal so gleich ist wie objekt i mit sich selbst
Häufig sind diese normiert, so dass gilt: 0 ≤ sij ≤ 1
Die Distanz dij ist ein Ausdruck für die Unähnlichkeit zwischen zwei
Objekten. Diese ist umso größer, je unähnlicher sich die Objekte sind
distanz zu sich selbst ist 0 , daher
Clusteranalyse
Ähnlichkeiten und Distanzen – Binäre Merkmale
Objekt j
1 0
Objekt i
1 a c a+c
pos. übereins.
i
0 b d b+d
neg. übereis.
a+b c+d p
Die Gesamtzahl der Übereinstimmungen beträgt a + d und ergibt sich
aus a den positiven und d den negativen Übereinstimmungen. Die
Zahl der Merkmale, die nicht übereinstimmen ist c + b
Beispiel (Studierende)
Betrachtung der ersten beiden Studierenden:
ID Geschlecht Raucher Auto MatheLK
1 m n j j
2 m n j 0
Kodierung der Merkmale: 1 = ”j” und ”m” bzw. 0 = ”n” und ”w”
ID Geschlecht Raucher Auto MatheLK m auch 1!!
objekt 1 1 0 1 1 ja = 1
nein = 0
objekt 2 1 0 1 0
Kontingenztabelle der Übereinstimmungen/Nichtübereinstimmtungen
Objekt 2
1 0 nächste folien basieren auf
dieser matrix
Objekt 1
2(a + d)
sSS
ij =
2(a + d) + b + c
a
sGL2
ij = bzw. dGL2
ij = 1 − sGL2
ij
a + θ(b + c)
theta steuert wieder und soll größer 0
a 2(b + c)
sSO2
ij = bzw. dSO2
ij =
a
a + 2(b + c) a + 2(b + c)
c
b d
γ(a)
sSij = mit 0 ≤ γ ≤ 1
γ(a) + (1 − γ)(b + c)
für jedes γ ist 0 ≤ sSij ≤ 1 wenn für gamma diese werte eingsetzt, dann
erneut vorige maße ergeben
1
Für γ = 2 ergibt sich der Jaccard-Koeffizient
1
Für γ = 3 ergibt sich das Maß von Sokal und Sneath (1973)
Die asymmetrischen Maße sind nicht invariant gegenüber
eineindeutigen Transformationen. Für jedes θ bzw. γ ergibt sich die
gleiche Rangordnung der Ähnlichkeiten
Die Rangordnungen der symmetrischen stimmen jedoch nicht
unbedingt mit denen der asymmetrischen Koeffizienten überein
Beispiel (Studierende)
= symmetrisch
Ähnlichkeitsmatrix nach dem Simple-Matching-Koeffizient
1.00 0.75 0.50 0.25 0.50
0.75 1.00 0.25 0.00 0.75
S SM =
0.50 0.25 1.00 0.75 0.50
0.25 0.00 0.75 1.00 0.25
0.50 0.75 0.50 0.25 1.00
S JA =
0.33 0.00 1.00 0.50 0.00
0.25 0.00 0.50 1.00 0.00
0.33 0.50 0.00 0.00 1.00
auf hauptdiagonalen immer 1, da zu sich selbst maximal ähnlich
bei distanz wäre hauptdiagonale = 0 !!!
Clusteranalyse
jetzt nominal
Ähnlichkeiten und Distanzen – Nominalskalierte Merkmale
Clusteranalyse
Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale
X1 X2 . . . Xm
Ähnlichkeitsmaß beruhend auf den Rängen: Ordne die Ausprägungen
mögl. 1 der Größe nach. Die höchste Ausprägung bekommt den Rang 1 und
die niedrigste den Rang m zugewiesen HIER KEIN UNTERSHIED S UND D
Rangi − Rangj Rangi − Rangj
sij = , dij =
Spannweite Spannweite
Ähnlichkeitsmaß beruht auf binären Hilfsvariablen: Es werden m
mögl. 2
Hilfsvariablen eingeführt. Nimmt die Ausprägung den Rang k an, so
werden den ersten k Hilfsvariablen der Wert 1 zugewiesen und den
weiteren der Wert 0. Die Berechnung erfolgt dann über den binären
Fall in binäre hilfsvariablen mit 0 und 1 umtransformiert
LS Statistik und Ökonometrie SoSe 2020 189
Clusteranalyse Ähnlichkeiten und Distanzen – Ordinalskalierte Merkmale
Alternative Ähnlichkeitsmaße
- Spearman’s ρ
- Goodman/Kruskal’s γ
- Kendall’s τ
- Goodman’s µ goodman nich so wichtig!
Beispiel (Studierende)
Das Merkmal Cola gibt auf einer Skala von 1 bis 3 an, ob dem
Studierenden das Getränk schmeckt oder nicht. Student 1 gab dafür
den Wert 2 an und Student 2 den Wert 1
Nach dem Ähnlichkeitsmaß beruhend auf den Rängen ergibt sich
hier für ähnlichkeit wert
Rang1 − Rang2 |2 − 1|
s12 =1− =1− = 0.5
Spannweite 2
Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Bei intervallskalierten Merkmalen ist zudem der Koordinatenursprung distanz zwischen i und j kann man
frei wählbar, so dass die Distanz nicht vom gewählten so messen:
entweder direkt oder um eck
Koordinatenursprung abhängig sein sollte. herum
Diese Eigenschaft heißt Translationsinvarianz verschiebbarkeit dieser beiden objekte im raum
ohne dass was passiert mit distanz
x̃i = xi + b mit b ∈ Rp
auch wenn ich mit b hier arbeite
verändert sich nichts!!
Es gilt:
d(xi , xj ) = d(x̃i ,x̃j )
Für quantitative Merkmale werden Distanzen berechnet
LS Statistik und Ökonometrie SoSe 2020 192
Clusteranalyse Ähnlichkeiten und Distanzen – Quantitative Merkmale
p
!1
q
dqij
X
q
= |xik − xjk | mit q ≥ 1
k=1 d.h. wi rkönnen relativ robust verschiebungen
sprich wir können diese relativ robust verwenden im raum anstellen
Diese sind metrische Distanzen und translationsinvariant, aber nicht
skaleninvariant. Dies bedeutet, dass die Distanzen abhängig sind von
den Maßeinheiten der Merkmale
Eine mögliche Normierung der Daten ist abhängig von q:
xk − x̄k
x̃k =
sqk
mit !1
n n q
1X 1X
x̄k = xik und sqk = |xjk − x̄k |q
n n
i=1 i=1
k=1 normierung
mit
1
S= (x − x̄)0 (x − x̄)
n
bzw. S ist inverse der empirischen vcov matrix
info über gesamte abhängigkeitsstruktur der objekte hier berücksichtigt!
Beispiel (Studierende)
Der Datensatz enthält drei quantitative Merkmale: Alter, Gewicht,
Körpergröße
ID Alter Größe Gewicht
1 23 171 60
2 21 187 75
3 20 180 65
4 20 165 55
5 23 193 81
Clusteranalyse
Ähnlichkeiten und Distanzen – Gemischt skaliert
(k)
(Zu Möglichkeit 2) Die Distanzen dij werden berechnet:
- bei binären oder nominalskalierten Merkmalen
(
(k) 6 xjk
1, xik =
dij =
0, xik = xjk
diversiv: beginnend von geamtmenge wird immer wieder abgeschnitten und damit
Clusteranalyse klassen
agglomerativ: anfangs jedes objekt eine klasse und am ende habe ich alle in eine
Hierarchische Clusterverfahren klasse fusioniert
jeweils frage: wo mach ich den cut?
Beispiel (Studierende)
Klassenbildung bei fünf Studierenden anhand der quantitativen
Merkmale (Alter, Größe, Gewicht)
Dendrogram
40
je weiter nach oben gehe,
desto heterogener
30
20
10
0
1 und 4 zunächst verschmolzen, kurz danach
2 5 3 1 4 2 und 5, erst danach 3 1 und 4, am ende alle
hier 5 studierende
Der Index h misst die Homogenität der Klassen. Je kleiner der Wert
ist, desto ähnlicher sind sich die Objekte und umso homogener sind
die Klassen. Jedem Wert von h ist genau eine Partition zugeordnet
LS Statistik und Ökonometrie SoSe 2020 205
Clusteranalyse Hierarchische Clusterverfahren
Die zugehörige kophenetische Matrix ergibt: das ist spezielle abstanzmatrix bezogen
auf dentrogramm:
0 38.33 18.03 8.37 38.33
38.33 0 38.33 38.33 8.72
∗
D = 18.03 38.33
0 18.03 38.33
wir sehen objekt
1 und 4 verschmelzen 8.37 38.33 18.03 0 38.33
bei 8.37
38.33 8.72 38.33 38.33 0
Cij = dij
2. Suche das Paar mit der kleinsten Distanz bzw. größten Ähnlichkeit
Falls mehrere Paare zur Auswahl stehen, wähle eines zufällig aus. Sind
k und m die beiden Objekte mit der kleinsten Distanz bzw. größten
Ähnlichkeit, dann verschmelze diese zu einer neuen Klasse Ckm
3. Bestimme den Abstand zwischen der neuen Klasse und den
verbliebenen Klassen bzw. Objekten und erstelle eine neue
Distanzmatrix
4. Wiederhole die Schritte 2 und 3 solange bis nur noch eine Klasse
vorhanden ist mit maximaler heterogentiät
Das Single-, Complete- und Average-Linkage-Verfahren unterscheiden
sich in der Berechnung des Abstandes in Schritt 3
Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage
Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
3. Bestimme die neuen Distanzen:
diese distanz d{1,4}.{2} = min{d{1}.{2} , d{4}.{2} } = min{22.02, 29.75} = 22.02
zw. 1 und 4 =
10.72 ist
8.37 d{1,4}.{3} = min{d{1}.{3} , d{4}.{3} } = min{10.72, 18.03} = 10.72 kleintes
-> das dann
neues
jeweisl mit d{1,4}.{5} = min{d{1}.{5} , d{4}.{5} } = min{30.41, 38.33} = 30.41 minimum
wert 2 3 und
5 bzw. restlich sprich 10.72 wären kleinstes minimum
verglichen allen für diese neue klasse
Beispiel (Studierende)
roter kasten aus letzter folie
... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 22.02 0
3 10.72 12.25 0
5 30.41 8.72 20.83 0 8.72 -> 2 und 5 als nächstes
fusioniert
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden
Clusteranalyse
Hierarchische Clusterverfahren – Single-Linkage in R
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="single")
> Ob$height
[1] 8.366600 8.717798 10.723805 12.247449
> plclust(Ob)
3
9
8
dist(Studis)
hclust (*, "single")
Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage ist praktisch furthest neighbour method
bzw.
s{km}.{i} = min{s{k}.{i} , s{m}.{i} }
Für jeden Fusionsschritt I lässt sich der Homogenitätsindex hI
angeben. Dieser lautet:
bzw.
hI = max min si.j
LS Statistik und Ökonometrie SoSe 2020 212
Clusteranalyse Hierarchische Clusterverfahren – Complete-Linkage
Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
schritt 1 aus liste:
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
selbe werte wie vorhin, wir nehmen nur jetzt
3. Bestimme die neuen Distanzen: größeren wert
d{1,4}.{2} = max{d{1}.{2} , d{4}.{2} } = max{22.02, 29.75} = 29.75
d{1,4}.{3} = max{d{1}.{3} , d{4}.{3} } = max{10.72, 18.03} = 18.03
d{1,4}.{5} = max{d{1}.{5} , d{4}.{5} } = max{30.41, 38.33} = 38.33
Beispiel (Studierende)
... und erstelle die neue Distanzmatrix:
1,4 2 3 5
1,4 0
2 29.75 0
3 18.03 12.25 0
5 38.33 8.72 20.83 0
Diese ist Ausgangsbasis für den zweiten Fusionsschritt. In diesem
werden die beiden Objekte 2 und 5 fusioniert mit dem
Homogenitätsindex h2 = 8.72
4. Diese Schritte werden solange durchgeführt bis sich alle fünf Objekte
in einer Klasse befinden
Clusteranalyse
Hierarchische Clusterverfahren – Complete-Linkage in R
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="complete")
> Ob$height
[1] 8.366600 8.717798 18.027756 38.327536
> plclust(Ob)
dist(Studis)
hclust (*, "complete")
Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage
bzw.
1 X X
s{km} · i = sij
nk n m
i∈Ck j∈Cm
bzw.
1 X X
hI = max sij
nk nm
i∈Ck j∈Cm
Beispiel (Studierende)
1. Die Distanzmatrix lautet:
1 2 3 4 5
1 0
2 22.02 0
3 10.72 12.25 0
4 8.37 29.75 18.03 0
5 30.41 8.72 20.83 38.33 0
2. Im ersten Schritt werden die Objekte 1 und 4 mit der kleinsten
Distanz fusioniert. Der Homogenitätsindex beträgt h1 = 8.37
3. Bestimme die neuen Distanzen: selbe werte wie vorhin, nur
X X 1 jetzt mit mittelwert gemacht!
d{1,4}.{2} = dij
nk nm i∈Ck j∈Cm
1 1
= (d12 + d42 ) = (22.02 + 29.75) = 25.885
2·1 2·1
1
d{1,4}.{3} = (10.72 + 18.03) = 14.375
2·1
1
d{1,4}.{5} = (30.41 + 38.33) = 34.37
2·1
Die neue Distanzmatrix wird wie bisher aufgestellt
LS Statistik und Ökonometrie SoSe 2020 217
Clusteranalyse Hierarchische Clusterverfahren – Average-Linkage in R
Clusteranalyse
Hierarchische Clusterverfahren – Average-Linkage in R
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="average")
> Ob$height
[1] 8.366600 8.717798 14.375781 25.598855
> plclust(Ob)
5
5
dist(Studis)
hclust (*, "average")
Clusteranalyse
Hierarchische Clusterverfahren – Ward Verfahren NUR für intervallskalierte merkmale
Clusteranalyse
Hierarchische Clusterverfahren – Ward in R
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> Ob=hclust(dist(Studis),method="ward")
> Ob$height
[1] 8.366600 8.717798 16.378841 46.308396
> plclust(Ob)
40
30
Height
20
10
3
2
4
0
dist(Studis)
hclust (*, "ward")
Clusteranalyse hier konkurrieren v.a. single, average und complete linkage verfahren
Wenn die Klassen kohärent und isoliert sind, dann entdecken alle
angesprochenen Verfahren die Klassen
Wenn die Klassen zwar kohärent aber nicht isoliert sind, dann neigt
das Single-Linkage-Verfahren zu einer Kettenstruktur und findet die
Klassen nicht -> signle linkage bekommt dann probleme
Wenn die Klassen isoliert vorliegen, aber nicht kohärent sind, dann
eignet sich das Single-Linkage, während das Complete- und
Average-Linkage teilweise zu anderen Zuordnungen führt
-> ich nehme ja am weitesten
Das Complete-Linkage reagiert sensibel auf Ausreißer entfernter nachbar = ausreißer
das hier wäre schlauchförmig -> nicht kohärent
kohärente und
isolierte
klassen:
Clusteranalyse
frage der anzahl der klassen
Hierarchische Clusterverfahren – Güte der Lösung
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> dist(Studis)
1 2 3 4
2 22.022716
3 10.723805 12.247449
4 8.366600 29.748950 18.027756
5 30.413813 8.717798 20.832667 38.327536
> Com=hclust(dist(Studis),method="complete")
> copCom=cophenetic(Com)
> copCom
1 2 3 4
2 38.327536
3 18.027756 38.327536
4 8.366600 38.327536 18.027756
5 38.327536 8.717798 38.327536 38.327536
> cor(dist(Studis),copCom)
[1] 0.732737 das hier ist korrelation zwischen distanzmatrix und kophenetische matrix
Clusteranalyse
Hierarchische Clusterverfahren – Anzahl der Klassen
Häufig werden dafür die Distanzen betrachtet, bei denen die einzelnen
Partitionen gebildet werden. Bei den agglomerativen Verfahren stellen
diese den Homogenitätsindex hI dar und werden u.a. als das
Verschmelzungsniveau αi bezeichnet
Vorschlag von Jobson (1992):
- Betrachtet werden die Verschmelzungsniveaus α0 , α1 , . . . , αn−1
- Zu jedem αi gehören n − i Klassen. So wird α0 = 0 gesetzt und es
gibt n zugehörige Gruppen. Zu α1 gibt es n − 1 Gruppen usw.
- Ist die Differenz αj+1 − αj groß im Verhältnis zu der Differenz
αi+1 − αi mit i < j , so sind n − (j + 1) Klassen zu empfehlen
- Grafisch werden die Zuwächse über eine Treppenfunktion dargestellt
Beispiel (Studierende)
> alpha=c(0,Com$height)
> alpha
[1] 0.000000 8.366600 8.717798 18.027756 38.327536
> diff(alpha)
[1] 8.3666003 0.3511976 9.3099585 20.2997794
LS Statistik und Ökonometrie SoSe 2020 225
Clusteranalyse Hierarchische Clusterverfahren – Anzahl der Klassen
Beispiel (Studierende)
> plot(rep(1,2),c(0,Com$height[1]),xaxt="n",yaxt="n",
xlim=c(0,5),ylim=c(0,45),type="l",xlab="i",ylab="alpha")
> for(i in 2:4) lines(c(i,i),c(Com$height[i-1],Com$height[i]))
> for(j in 1:4) lines(c(j,j+1),rep(Com$height[j],2))
> axis(1,at=0:4,labels=5:1)
alpha
5 4 3 2 1
i
Beispiel (Studierende)
> alpha=Com$height
> stalpha=(alpha-mean(alpha))/sd(alpha)
> stalpha
[1] -0.7116017 -0.6865938 -0.0236528 1.4218483
Clusteranalyse
Partitionierende Clusterverfahren
Diese Art der Klassifikation misst die Güte einer Partition mittels
eines Gütekriteriums. Die Optimierung der Partitionen geschieht auf
Basis der Güte. Die Verfahren werden auch als optimale Partitionen
bezeichnet
ggf. findet sich nur lokales optimum
aber wenn homogenität für mich hoch genug ist dann passt das
Clusteranalyse
Partitionierende Clusterverfahren – Austauschverfahren
gibt verschiedene verfahren wie hill-climbing oder k-means verfahren
-> wenn keine verbesserung mehr, dann am ziel angekommen
Clusteranalyse
Partitionierende Clusterverfahren – K-Means
Clusteranalyse
Partitionierende Clusterverfahren – Umsetzung in R
Beispiel (Studierende)
> Studis=(read.table(".../Daten_Erstsemester.txt",header=TRUE))
> KM=kmeans(Studis,2)
> KM
K-means clustering with 2 clusters of sizes 2, 3
Cluster means:
Alter Groesse Gewicht
1 22 190 78
2 21 172 60
Clustering vector:
[1] 2 1 2 2 1
Available components:
Beispiel (Studierende)
> plot(Studis[,-1], col = KM$cluster, lwd=2)
>
> #Der Stern für die Zentren:
> points(KM$centers[,-1], col=1:2, pch=8, lwd=2)
80
75 ●
Gewicht
70
65
●
60
●
55
Beispiel (Auto)
33 VW-Golf 3 mit Merkmalen Alter in Jahren, Gefahrene Kilometer
(in tausend) und Angebotspreis (in DM) (vgl. Handl 2002, S. 8)
> Auto <- read.table("Daten_Auto.txt", header=TRUE)
> head(Auto, n=3)
Alter km Angebotspreis
1 2 15 21800
2 2 66 18800
3 2 29 20500
> wss=c()
> for(i in 2:27)
+ {
+ Erg=kmeans(Auto[,-c(1,2)],i)
+ wss[i]=sum(Erg$withinss)
+ }
> plot(1:27,wss,type="b", lwd=2)
0.0e+00 4.0e+07 8.0e+07 1.2e+08
●
wss
●
●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25
1:27