Sie sind auf Seite 1von 11

Bauhaus Universitt Weimar Fakultt Medien Fachbereich Medienmanagement

Referat

Multivariate Analyseverfahren: Die Clusteranalyse


von Antje Mews

gehalten im Seminar

Marktforschung
Leitung: Anne Werthmann

WS 99/00

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

II

Inhaltsverzeichnis
Seite 1. Einfhrung 2. Die Clusteranalyse 2.1. 2.2. 2.3. Definition Aufgabe und Ziel Vorgehen 1 1 1 2 2 2 3 4 5 5 5 7 8

2.3.1. Wahl der Klassifikationsmerkmale 2.3.2. Wahl des Proximittsmaes 2.3.3. Wahl des Fusionierungsalgorithmus 2.3.4. Wahl der Clusteranzahl 2.3.5. berprfung der gefundenen Clusterlsungen 2.3.6. Interpretation der Cluster Literaturverzeichnis Abbildungsverzeichnis

Anhang

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

1. Einfhrung In der Marktforschung gibt es verschiedene Arten, wie gewonnene Daten zusammengefat, interpretiert und analysiert werden knnen. Man unterscheidet grundlegend zwischen uni-, bi- und multivariaten Analysemethoden.

Die grte Bedeutung sowie eine zunehmende praktische Verwendung kommt hier den multivariaten Analysen zu, da es durch sie mglich geworden ist, unter anderem komplexe vieldimensionale Marketingphnomene und probleme untersuchbar zu machen. Im Gegensatz zu den uni- / bivariaten Analysemethoden werden bei den multivariaten statistischen Methoden an einer Vielzahl von Objekten bzw. Merkmalstrgern (Elemente, Personen, Produkte) mehrere Variablen gemessen und zur Beantwortung spezifischer Fragestellungen gleichzeitig ausgewertet.1

Der Clusteranalyse, eine Methode der multivariaten Verfahren, welche nachfolgend vorgestellt werden soll, hat vor allem in der Marktforschung eine groe Bedeutung. Ihr Vorteil zu anderen Verfahren liegt darin, da kein spezielles Skalenniveau erforderlich ist, wie bei anderen Analysearten.

2. Die Clusteranalyse

2.1. Definition

Unter einem Cluster ist eine Gruppe von Objekten, die hnliche Eigenschaften besitzen, zu verstehen. Die Clusteranalyse ist ein Verfahren zur Gruppenbildung, wobei die Cluster in sich homogen aber untereinander heterogen sind. Die Anwendung dieses Verfahrens ist vor allem in der Marktforschung und Marktsegmentierung, aber auch in anderen Gebieten, wie zum Beispiel in der Physik zu finden.

2.2. Aufgabe und Ziel

www.snafu.de/%7Eherbst/clust1.html, S. 1

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

Die grundlegende Aufgabe der Clusteranalyse besteht darin, aus einer bestimmten Ausgangsmenge von Objekten Untergruppen durch die Feststellung von Homogenitt zu bilden. Die Objekte werden dabei durch verschiedene Merkmale beschrieben, die gleichzeitig herangezogen werden. Durch diese Art der Datenanalyse kann eine Klassifikation oder auch eine Typenbildung erreicht werden.

Abgrenzung zur Faktorenanalyse Im Gegensatz zur Faktorenanalyse, deren Ziel die Datenverdichtung durch Verkleinerung des Merkmalvariablenraumes bei Konstanz des Objektraumes ist, zielen die vielfltigen Verfahren der Clusteranalyse auf die Klassifikation der Objekte.2

Eine gnstige Voraussetzung fr die Clusteranalyse ist die Verknpfung mit der Faktorenanalyse um eine sogenannte doppelte Datenreduktion zu erreichen, die die Untersuchung transparenter durch wenige Cluster und wenige Variablen macht.

2.3. Vorgehen

Durch die vielen verschiedenen Merkmale, die gleichzeitig zur Beschreibung der Objekte herangezogen werden, sind auch verschiedenste Clusterlsungen mglich. Es ist daher zweckmig, mehrere Clusterlsungen errechnen zu lassen und die geeignetste auszusuchen. Die Clusteranalyse kann man in mehrere aufeinanderfolgende Ablaufschritte unterteilen.

2.3.1. Wahl der Klassifikationsmerkmale

Vor der Durchfhrung der Clusteranalyse ist es wichtig und sinnvoll die Eigenschaften der Objekte zu bestimmen, nach denen sie gruppiert werden sollen. Wichtig hierbei ist, da zwar kein bestimmtes Skalenniveau vorausgesetzt wird, allerdings mu von einer einheitlichen Skala ausgegangen werden, da ansonsten ein Vergleich nicht mglich ist. Als weiteres Merkmal fr die heranzuziehenden Eigen-

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

schaften gilt, da sie unabhngig voneinander sein sollen, was beispielsweise durch eine vorangehende Faktorenanalyse gewhrleistet werden kann.

2.3.2. Wahl des Proximittsmaes

Die Ausgangsmenge der Objekte ist in eine hnlichkeits- bzw. Distanzmatrix umzuwandeln. Fr eine einfachere Weiterverwertung geschieht dies unter Zuhilfenahme einer geeigneten Mazahl, dem Proximittsmastab, welcher immer auf einem Paarvergleich basiert. Das heit, es werden fr das Paar die Ausprgung der Eigenschaften und der Grad an den bereinstimmungen untersucht und daraus eine Mazahl gebildet.

Es gibt verschiedene Proximittsmastbe und die Wahl hngt vordergrndig von zwei Variablen ab, dem verwendeten Skalentyp und der Frage: Besteht das Interesse eher an einem absoluten Unterschied oder an einem hnlichen Profilverlauf?.

Korrelationsma Nach dieser, in der Praxis uerst umstrittenen Methode, wird ein Korrelationseffizient bestimmt. Die Voraussetzung ist eine Intervallskalierung.

Distanzma Hier wird die Distanz in einem geometrischen Raum gemessen, je hnlicher sich die Objekte sind, desto kleiner ist die Distanz. Bekannte Methoden sind fr dieses Verfahren die City-Block-Distanz oder der Euklidschen Distanz. Grundlage ist hier eine metrische Skalierung.

hnlichkeitskoeffizient In der Praxis kommt dieser Methode eine groe Bedeutung und eine hufige Anwendung zu. Als Beispiel soll hier der Tanimoto-Koeffizient genannt sein. So wird die Zahl der Eigenschaften, die beide Objekte besitzen durch die Zahl der Eigenschaften, die jeweils nur ein Objekt besitzt dividiert. Der Koeffizient kann hierbei zwischen

www.snafu.de/%7Eherbst/clust1.html, S. 1

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

0 und 1 liegen, wobei 0 die totale Unhnlichkeit darstellt. Basis fr die Bestimmung des hnlichkeitskoeffizienten ist eine Nominalskala.

Probabilistisches Proximittsma Die Grundlage fr dieses Ma ist die Wahrscheinlichkeitsrechnung. Es werden die beobachteten bereinstimmungen den zuflligen gegenbergestellt. Dieses Ma ist fr alle Skalen geeignet und lst da Problem der Zuflligkeit.

2.3.3. Wahl des Fusionierungsalgorithmus

An die Bestimmung des Proximittsmaes schliet sich der Fusionierungsproze an. Hier werden die Objekte anhand des Proximitsmaes zu Clustern zusammengefat. Auch bei diesem Verfahren gibt es mehrere Mglichkeiten, unter denen die zweckmigste zu whlen ist. Im allgemeinen werden die Verfahren nach hierarchische oder nichthierarchische Methoden unterschieden.

hierarchisches Verfahren Beim hierarchischen Verfahren unterscheidet man weiterhin zwischen agglomerativ und divisiv. Der divisiven Technik wird nur eine untergeordnete Bedeutung zuteil, bei ihr wird die Grundgesamtheit in feinere Gruppen unterteilt. Ein Beispiel fr die aggregierte Technik ist das Single-Linage-Verfahren und geht davon aus, da jedes Objekt einzeln bereits als Cluster oder Gruppe gesehen wird und diese anschlieend zu Greren Gruppen zusammengefat werden. Ausgegangen wird von den einzelnen Objekten, wobei sich die nchst grere Gruppe bildet, indem die hnlichsten aggregiert werden. Daraufhin werden die nchstgelegenen einzelnen Objekte oder auch Gruppen weiterhin fusioniert.

nichthierarchische Verfahren Unter die nichthierarchischen Verfahren zhlen das Optimierungsverfahren, welches die Mini- bzw. Maximierung eines Entscheidungskriteriums verlangt, die Klumpung

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

und die Dichtesuchtechnik, wobei in einem metrischen Raum die Dichte der Objekte entscheidend ist.

2.3.4. Wahl der Clusteranzahl

Nun stellt sich die Frage nach der Anzahl der Cluster. Wieviele sind optimal? Es gibt hierfr kein absolutes Kriterium. Allerdings sollte sich vorwiegend an der Zielfragestellung orientiert werden und die dafr zweckmige Anzahl gebildet werden. Daher ist es sinnvoll, einige Varianten auszuprobieren und mit dem gesuchten Ergebnis zu vergleichen.

2.3.5. berprfung der Clusterlsungen

Die berprfung der Clusterlsungen kann anhand der sogenannten F-Werte, die zwischen 0 und 1 liegen sollten, erfolgen. So wird die Varianz der Variablen in dem Cluster durch die Varianz der Variablen der Grundgesamtheit dividiert. Je kleiner der erhaltene F-Wert ausfllt, er sollte unter 1 liegen, desto homogener ist das untersuchte Cluster. Weiterhin sind auch andere Verfahren, Analysen oder Tests mglich.

2.3.6. Interpretation der Cluster

Auch die Interpretation der Cluster kann ber eine bestimmte Formel erfolgen. Eine der gngigsten Methoden ist die Ermittlung der T-Werte. Hierbei wird die Differenz zwischen den Mittelwerten der Variablen im Cluster und der Grundgesamtheit gebildet und durch die Streuung der Variablen der Grundgesamtheit dividiert. Der erhaltene Wert kann negativ, was eine Unterreprsentanz der Variablen darstellt, oder positiv, was eine berreprsentanz der Variablen darstellt, sein. Auch die Interpretation kann durch andere Verfahren ermittelt bzw. dargestellt werden. Wichtig fr die Interpretation ist natrlich, da die anfnglich aufgestellte These mglichst belegt oder widerlegt wird.

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

Literaturverzeichnis

Berekoven, Ludwig; Eckert, Werner; Ellenrieder, Peter: Marktforschung: methodische Grundlagen und praktische Anwendung, 7. Auflage, Wiesbaden, Gabler Verlag, 1996

Henze, Arno: Marktforschung: Grundlage fr Marketing und Marktpolitik, Stuttgart, Ulmer Verlag, 1994

Kamenz, Uwe: Marktforschung Einfhrung mit Fallbeispielen, Aufgaben und Lsungen, Stuttgart, Schffer-Poeschel Verlag, 1997

Meffert, Heribert (1998): Marketing - Grundlagen marktorientierter Unternehmensfhrung, Konzepte - Instrumente - Praxisbeispiele, 8. Auflage, Wiesbaden, Gabler Verlag, 1998

Mschen, Dr., Jutta: Skript Seminar zur Marktforschung, Weimar, Oktober 1999

www.snafu.de/%7Eherbst/clust1.html [Stand 06.01.2000]

Multivariate Analyseverfahren: Die Clusteranalyse


Referat von Antje Mews

Abbildungsverzeichnis

Abb :

Ablaufschritte und Entscheidungsprobleme der Clusteranalyse Beispiel einer Clusteranalyse

Ablaufschritte und Entscheidungsprobleme der Clusteranalyse

Konkretisierung der Problemstellung der Untersuchung

Was ist das Ziel der Untersuchung? Welche Hypothesen sollen getestet werden? Wie lassen sich die Untersuchungsobjekte beschreiben? Wieviele Objekte sollen bercksichtigt werden?

Bestimmung der zu klassifizierenden Objekte -

Auswahl der Variablen -

Sollen qualitative und/oder quantitative Merkmale herangezogen werden? Wie gro soll die Zahl der Variablen sein? Ist eine Standardisierung sinnvoll?

Festlegung des hnlichkeits- bzw. Distanzmaes -

Welches hnlichkeits- bzw. Distanzma soll gewhlt werden? Wie sind gemischte Variablen zu bewerten?

Auswahl eines Algorithmus zur Gruppierung -

Welcher Gruppenalgorithmus soll gewhlt werden? Welche Auswirkungen hat ein Wechsel des Algorithmus?

Bestimmung der Gruppenzahl

Wieviele Gruppen sollen gebildet werden? Wie verndern sich die Ergebnisse bei verschiedener Gruppenzahl?

Durchfhrung des Gruppiervorganges Wie unterscheiden sich die ermittelten Cluster? Lassen sich die Ergebnisse sinnvoll interpretieren?

Analyse und Interpredation der Ergebnisse

Quelle: Henze, Arno: Marktforschung: Grundlage fr Marketing und Marktpolitik, Stuttgart, Ulmer Verlag, 1994, S. 116

Beispiel fr eine Clusteranalyse


Ausgangsmatrix fr ein Fnf-Produkte-Beispiel Eigenschaften j Marken k Rama Homa Flora SB Weihnachtsbutter Kaloriengehalt 1 2 3 5 6 Preis 2 3 2 4 7 Vitaminisierungsgrad 1 3 7 7 6

Profilverlauf fr drei Produkte 1 Kalorien Preis Vitamine Rama SB Weihnachtsbutter 2 3 4 5 6 7

Niveauunterschiede zwischen Rama und Weihnachtsbutter (WB) sowie Flora und SB nach der quadrierten Euklidschen Distanz:

dRama, WB = [1 - 6] + [2 - 7] + [1 - 6] = 75

Flora, SB =

[3 - 5] + [2 - 4] + [1 -7] = 44

Matrix der quadrierten Euklidschen Distanz Rama 0 6 4 56 75 Homa 0 6 26 41 Flora SB Weihnachtsbutter

Rama Homa Flora SB Weihnachtsbutter

0 44 59

0 11

Dendogramm fr das Single-Linkage-Verfahren

Durchlauf 4 3 2 1

Distanz 26 11 6 4

Rama

Flora

Homa

SB

Weihnachtsbutter

Quelle: Henze, Arno: Marktforschung: Grundlage fr Marketing und Marktpolitik, Stuttgart, Ulmer Verlag, 1994