Sie sind auf Seite 1von 12

HIERARCHISSCHE CLUSTERALALYSE

THEORETISCHE GRUNDLAGEN
Studentin:
IOANA MUSTEA

FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
UNIVERSITT POLITEHNICA BUKAREST
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
Gliederung


UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
1. Begriff
2. Verfahren der Clusteranalyse
3. Hierarchische Verfahren
4. hnlichkeitsmae
5. Clusteranalytische Methoden
6. Dendrogramme
7. Einsatzgebiete





Grundidee:

Analyse einer heterogenen Gesamtheit von Objekten, mit dem
Ziel, homogene Teilmengen zu identifizieren.



Anzahl der Objekte muss bei Stichproben reprsentativ sein;

Ausreier ausschlieen/ eliminieren;

nur relevante Merkmale bercksichtigen.
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN

1. Begriff

Methodisch unterscheidet man zwei Hauptgruppen von Clusteranalysen:

- Hierarchische Verfahren
Man beginnt mit einer Aufteilung, bei der jedes Objekt ein eigenes Cluster
bildet und fusioniert schrittweise die beiden Objekte mit der kleinsten Distanz.

- Nichthierarchische Verfahren
Man gibt eine Aufteilung in k Cluster vor und versucht sie zu verbessern,
indem man Objekte in andere Cluster verschiebt.
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
2. Verfahren der Clusteranalyse
3. Hierarchische Verfahren
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN

1. Man beginnt bei einer Aufteilung, bei der jedes Objekt ein eigenes
Cluster bildet. Clusterzahl K ist identisch mit Objektzahl N.

2. Man berechnet die paarweisen Distanzen und fusioniert die beiden
Objekte mit der kleinsten Distanz. Dadurch reduziert sich die Zahl der
Cluster um 1.

3. Neuberechnung der Distanzmatrix mit der berucksichtigten
Transformation zweier Cluster. Die hnlichsten Cluster werden
miteinander fusioniert.

4. Im letzten Schritt sind alle Objekte zu einem Cluster zusammengefat.



4. hnlichkeitsmae
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
gegeben ist eine Datenmatrix mit den m Variablen X
i
spaltenweise und den j=1..n
Bezugseinheiten (meist Raumeinheiten) zeilenweise:







- sinnvolles hnlichkeitsma ist Abstand der Vektoren im Variablenraum:

=
=
=
|
|
|
|
|
.
|

\
|

= =
m
i
ki ji jk
jk
km jm
k j
k j
k j jk
x x d
m d
x x
x x
x x
x x d
1
2
2 2
1 1
) (
) dim( ,
...

) ( ) dim( ,
...
... ... ... ...
...
...
2 1
2 22 21
1 12 11
m n X
x x x
x x x
x x x
X
nm n n
m
m
= =
5. hnlichkeitsmae (II)
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
neben den Distanzmaen kann auch der Korrelationskoeffizient
zwischen x
j
und x
k
ber alle i=1..m Variablen als hnlichkeitsma
fungieren:






- je nher r
jk
an +1, desto grer die hnlichkeit der Bezugseinheiten;

- grte Unhnlichkeit bei r
jk
= -1

= =
=


=
m
i
k ki
m
i
j ji
m
i
k ki j ji
jk
x x x x
x x x x
r
1
2
1
2
1
) ( ) (
) ( ) (
6. Clusteranalytische Methoden
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN

Complete linkage (Maximummethode)
Es werden diejenigen zwei Cluster
vereinigt, bei denen die beiden Objekte
mit der grten Distanz aufweisen.




Single linkage (Minimummethode)
Es werden diejenigen zwei Cluster
vereinigt, die die beiden Objekte mit der
grten hnlichkeit (kleinsten Distanz)
enthalten.

Average linkage: fr jeweils zwei Cluster wird der Durchschnitt aller wechselweisen
Objektdistanzen berechnet. Die beiden Cluster mit der niedrigsten Durchschnittsdistanz
werden vereinigt.
7. Dendrogramme
UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN
Das Dendrogramm stellt die hierarchische Zerlegung der Datenmenge in
immer kleinere Teilmengen dar.

Die Wurzel reprsentiert ein einziges Cluster, das die gesamte Menge enthlt.

Die Bltter des Baumes reprsentieren Cluster, in denen sich je ein einzelnes
Objekt der Datenmenge befindet.

Ein innerer Knoten reprsentiert die Vereinigung aller seiner Kindknoten.

Jede Kante zwischen einem Knoten und einem seiner Kindknoten hat als
Attribut noch die Distanz zwischen den beiden reprsentierenden Mengen von
Objekten.

UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN

8. Einsatzgebiete

Sozialwissenschaften: Gruppenverhalten untersuchen

Wirtschaftswissenschaften: Untersuchung von Konsumenten,
Produkten, Firmen, Testmrkte ermitteln, Produkte vergleichen und sogar
ganze Wirtschaftsregionen mit aktuellen oder vergangenen Entwicklungen
verbinden.

Biologie: Gruppierungen im Tier- und Pflanzenreich uberprft und nach
neuen Verwandtschaften gesucht.

Medizin: Patienten 'Gruppieren' und so Zusammenhnge zu finden, die
eine Einzelfallbetrachtung nicht zeigen wurde.

UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN

9. Literatur

Thomas Eckes, Helmut Robach: Clusteranalysen, Verlag W.
Kohlhammer, Stuttgard.

Michael Stasius: Clusteranalyse -Arten und Anwendungen, Seminararbeit,
15. Dezember 2009.

http://www.tu-chemnitz.de/hsw/psychologie/professuren/method/
homepages/ ts/ methodenlehre/meth11.pdf

http://www.uni-due.de/imperia/md/content/soziologie/stein/skript_
clusteranalyse_ sose2011.pdf

Vielen Dank fr Ihre

AUFMERKSAMKEIT!



UNIVERSITT POLITEHNICA BUKAREST| FAKULTT FR INGENIEURWESEN IN FREMDSPRACHEN