Sie sind auf Seite 1von 14

Kapitel 5

Faktorenanalyse
5.1 Einfuhrung

Die Faktorenanalyse ist wie die Hauptkomponentenanlyse eine variablenorientierte Methode, die dann angebracht ist, wenn die Variablen gleichwertig sind, d.h. wenn es keine Unterscheidung zwischen abhangigen und unabhangigen Variablen gibt. Die Idee ist, neue Variablen - Faktoren - zu konstruieren, die hoffentlich zu einem besseren Verstandnis der Daten
fuhren. Wahrend in der Hauptkomponentenanlyse eine orthogonale Transformation der Daten durchgefuhrt wird, der kein statistisches Modell zugrunde liegt, basiert die Faktorenanalyse auf einem statistischen Modell. Die Faktorenanalyse versucht in erster Linie die Kovarianzstruktur der Daten zu erklaren und weniger die Varianzen. Varianzen, die nicht durch die
gemeinsamen Faktoren erklart werden konnen, werden durch Rest- oder Fehlerterme erklart.
Die grundlegenden Ideen der Faktorenanalyse wurden um 1900 u.a. von Francis Galton und
Charles Spearman entwickelt. Sie entstanden aus dem Versuch von Psychologen, den Begriff ,Intelligenz besser zu verstehen. Intelligenztests bestehen aus einer Vielzahl an Fragen,
die mehr oder weniger von sprachlichen oder mathematischen Fahigkeiten oder Gedachtnisleistungen usw. bestehen. Faktorenanalyse wurde entwickelt, um solche Testergebnisse
daraufhin zu untersuchen, ob ,Intelligenz auf einen einzigen allgemeinen Faktor oder auf
mehrere auf spezielle Bereiche eingeschrankte Faktoren wie ,mathematische Fahigkeiten
zuruckgeht.
Die Faktorenanalyse vermeidet einige Problematiken der Hauptkomponentenanalyse, bringt
aber durch die Vielzahl der fraglichen Annahmen neue Probleme.

5.2 Das Modell der Faktorenanalyse


Nehmen Sie an, dass wir Beobachtungen von m Variablen Y1 , Y2 , . . . , Ym mit Erwartungswertvektor und Kovarianzmatrix haben. Da wir die Kovarianzstruktur der Daten erklaren
wollen, nehmen wir zur Vereinfachung an, dass = 0 gilt. Eine Verschiebung der Daten
a ndert nicht die Kovarianzstruktur. Wir nehmen auerdem an, dass vollen Rang besitzt.
Das Modell der Faktorenanalyse nimmt an, dass es p (p < m) zugrundeliegende Faktoren
gibt, die wir mit f1 , f2 , . . . , fp bezeichnen. Jede Variable ist eine Linearkombination dieser
Faktoren und einer Residualvariablen, so dass
Yj = j1f1 + . . . + jp fp + ej
68

j = 1, . . . , m

(5.1)

5.2. DAS MODELL DER FAKTORENANALYSE

69

In Gleichung 5.1 heien die Koeffizienten oder Gewichte {jk } Faktorladungen, d.h. jk ist
die Ladung der j-ten Variablen auf den k-ten Faktor. Die Variable ej beschreibt die restliche
fur die j-te Variable spezifische Variation.
Die Faktoren {fj } heien haufig auch gemeinsame Faktoren, wahrend die Restterme {ej }
spezifische Faktoren heien. Man vergleiche die Gleichung 5.1 mit der inversen Transformation (Gleichung 4.17: Y = AZ + ) der Hauptkomponentenanalyse.
Gewohnlich werden die folgenden Annahmen gemacht:
a) Die spezifischen Faktoren sind untereinander und von den gemeinsamen Faktoren unabhangig.
b) Die gemeinsamen Faktoren sind unabhangig.
c) Alle Faktoren haben Erwartungswert 0.
d) Alle gemeinsamen Faktoren haben Varianz 1.
e) Die Varianz des spezifischen Faktors ej wird mit jj bezeichnet und heit auch Einzelrestvarianz.
f) Die gemeinsamen und die spezifischen Faktoren haben jeweils eine multivariate Normalverteilung.
Die letzte Annahme impliziert, dass Y auch eine multivariate Normalverteilung hat. Dabei
ist Y t = [Y1 , Y2 , . . . , Ym ]. Die vielen Annahmen sind ein Nachteil der Faktorenanalyse. Sie
sollten jedoch auch nicht zu ernst genommen werden.
Beachten Sie bitte, dass Gleichung 5.1 eine Beziehung zwischen Zufallsvariablen ist. Wir
hatten die r-te Beobachtung der j-ten Variablen mit xrj bezeichnet. Dann ist
xrj =

p
X

jk frk + ej

k=1

Dabei ist frk die Auspragung des k-ten gemeinsamen Faktors fur die r-te Beobachtung. In
Matrixform wird das Modell so geschrieben:
Y = f + e

(5.2)

Dabei ist f t = [f1 , f2 , . . . , fp ] und et = [e1 , e2 , . . . , em ] und

11
21
..
.

12
22

. . . 1p
. . . 2p
..
.

m1 m2 . . . mp

Hier ist eine m p-Matrix und sollte nicht mit der Diagonalmatrix der Eigenwerte aus
dem vorigen Kapitel verwechselt werden.
Da die Faktoren nach unseren Annahmen unabhangig sind , gilt:

70

KAPITEL 5. FAKTORENANALYSE

p
X

Var(Yj ) = 2j1 + 2j2 + . . . + 2jp + Var(ej ) =

2jk + jj

(5.3)

k=1

Dabei wurde ausgenutzt, dass die gemeinsamen Faktoren die Varianz 1 haben. Die durch die
gemeinsamen Faktoren erklarte Varianz ist h2j :=

p
P

k=1

2jk und heit die Kommunalitat der

j-ten Variablen. Man beachte, dass die Kommunalitaten gerade die Diagonalelemente in der
Matrix

t =

11
21
..
.

12
22

. . . 1p
. . . 2p
..
.

m1 m2 . . . mp

11 21 . . . m1
12 22 . . . m2
..
..
.
.
1p 2p . . . mp

p
X

k=1

ik jk

i,j=1,...,m

sind.
Ferner folgt aus Gleichung 5.1 fur i 6= j wegen der Unabhangigkeits-Annahmen
Cov(Yi , Yj ) = Cov

p
X

r=1

ir fr + ei ,

p
X

jk fk + ej

k=1

p
X

k=1

ik jk Varfk =

p
X

ik jk

k=1

Daher ist die Kovarianzmatrix von Y gegeben durch:


= t +

(5.4)

Dabei ist

11 0 . . .
0 22 . . .
..
.
0

0
0
..
.

. . . mm

Gleichung 5.4 ist von entscheidender Bedeutung fur die Faktorenanalyse. Da eine Diagonalmatrix ist, werden die Elemente auerhalb der Diagonalen von exakt durch die Faktoren
erklart. Diese Gleichung zeigt auch, dass die Bestimmung der Faktorladungen a quivalent zur
Zerlegung der Kovarianzmatrix in diese spezielle Form ist, wobei zu beachten ist, dass die
Diagonalelemente von nichtnegativ sein mussen.
Wenn uns also eine Kovarianzmatrix gegeben ist, so stehen wir jetzt vor der Frage, unter
welchen Bedingungen eine Zerlegung von wie in Gleichung 5.4 moglich ist. Und wenn es
eine solche Zerlegung gibt, kommt die Frage, ob die Zerlegung eindeutig ist.
Wir haben also im Rahmen der Faktorenanalyse die folgenden Parameter zu schatzen:
a) Die Faktorladungen jk . Das sind mp Parameter.
b) DieVarianzen der spezifischen Faktoren, d.h jj , das sind weitere m Parameter.
Insgesamt sind also m(p + 1) Parameter zu schatzen. Nun gibt es m(m + 1)/2 Varianzen
und Kovarianzen in der Kovarianzmatrix , so dass Gleichung 5.4 ein Gleichungssystem


5.3. SCHATZUNG
DER FAKTORLADUNGEN

71

mit m(m + 1)/2 Gleichungen ist. Wir verlangen, dass die Anzahl der Parameter kleiner ist
als die Anzahl der Gleichungen, d.h. m(p + 1) < m(m + 1)/2 oder p < (m 1)/2. Das
bedeutet: p sollte im Vergleich zu m klein sein. Dies garantiert jedoch keine Losung.
Betrachten wir den Fall p = 1. Dann ist ein m1-Spaltenvektor mit t = [11 , 21 , . . . , m1 ].
Dann impliziert Gleichung 5.4, dass die Elemente der Kovarianzmatrix = t auerhalb
der Diagonalen die folgende Gestalt haben mussen:

21 11
..
.

11 21

11 31
21 31

. . . 11 m1
. . . 21 m1
..
.

m1 11 m1 21 m1 31 . . .

Falls wir die Korrelationsmatrix anstelle der Kovarianzmatrix analysieren, so impliziert dieses Resultat, dass
i1
Korr(Yi , Yk )
=
Korr(Yj , Yk )
j1
Dies bedeutet, dass die Elemente der Korrelationsmatrix auerhalb der Diagonalen in zwei
Zeilen oder Spalten in einem konstanten Verhaltnis stehen mussen. Wenn die erste Zeile
der Korrelationsmatrix [1, 12 , 13 , . . . , 1m ] ist, so muss z.B. die zweite Zeile die Gestalt
[12 , 1, c13 , . . . , c1m ] haben, wobei c = 21 /11 ist. Dieses Muster muss auch annahernd
in der geschatzten Korrelationsmatrix gelten. Genau dieses Muster fuhrte um 1900 Charles
Spearman bei der Untersuchung von Examensnoten dazu, ein Ein-Faktoren-Modell zu vermuten.
Eine Losung fur p = 1 existiert nicht immer. Wenn sie existiert, so ist sie i.a., jedoch nicht
immer, eindeutig. Wenn fur p > 1 eine Losung existiert, so ist sie nicht eindeutig. Wenn
eine Losung des Gleichungssystems in 5.4 ist und T eine orthogonale (p p)-Matrix ist, so
gilt
(T )(T )t = T T t t = t

(5.5)

Die Ladungen in und (T ) sind verschieden, jedoch konnen beide die Kovarianzstruktur von Y erzeugen. Jede Losung kann also durch eine orthogonale Matrix in eine weitere
Losung transformiert werden. Da eine orthogonale Matrix einer Drehung entspricht, spricht
man auch von einer Rotation der Losung. Moglicherweise lassen sich die Faktoren nach
einer Rotation einfacher interpretieren.

5.3 Schatzung der Faktorladungen


Die Parameter des Modells der Faktorenanalyse sind aus den Daten zu schatzen. Da man
in der Regel die Korrelationsmatrix benutzt, werden wir uns auf diesen Fall beschranken.
Wir setzen also fur unsere Variablen Yj in den Gleichungen 5.1 und 5.2 voraus, dass sie
standardisiert sind, d.h. E(Yj ) = 0 und Var(Yj ) = 1. Nach Gleichung 5.3 haben wir dann
1=

p
X

k=1

2jk + jj

72

KAPITEL 5. FAKTORENANALYSE

Wir berechnen noch die Kovarianz zwischen der standardisierten Originalvariablen Yi und
dem Faktor fj :
cov(Yi , fj ) = cov(

p
X

ik fk + ei , fj ) =

k=1

p
X

ik Cov(fk , fj ) + Cov(ei , fj ) = ij Var(fj ) = ij

k=1

Dabei wurde benutzt, dass die gemeinsamen Faktoren untereinander und von den spezifischen Faktoren unabhangig sein sollen. Da sowohl Yi als auch fi Varianz 1 haben, gilt auch:
Korr(Yi , fj ) = ij
Die Faktorladung ist also gerade der Korrelationskoeffizient zwischen der i-ten standardisierten Variablen und dem j-ten Faktor (vergleichen Sie mit dem Begriff der Komponentenladungen auf S. 49).
Die praktische Durchfuhrung einer Faktorenanalyse besteht aus folgenden Schritten (vgl.
Rinne, 2000, S. 133):
a) Berechnung der geschatzten Korrelationsmatrix R aus der (standardisiereten) Originaldatenmatrix X.
b) Festlegung der Anzahl p gemeinsamer Faktoren.
c) Bestimmung der Kommunalitaten h2j bzw. wegen Gleichung 5.3 der Einzelrestvarianzen jj .
d) Berechnung der reduzierten Korrelationsmatrix Rh = R .
e) Berechnung der Faktorladungen, so dass t = Rh .
f) Eventuell Rotation der Faktoren, d.h. statt wird T fur eine orthogonale Matrix T
verwendet.
g) Berechnung der Faktorenwerte f .
Es gibt verschiedene Methoden zur Bestimmung der Faktorladungen. Wir gehen hier nur auf
die beiden Methoden ein, die in Zusammenhang mit der Hauptkomponentenanalyse stehen.
Der Maximum-Likelihood-Ansatz wird bei Rinne (2000, S. 134) kurz beschrieben. Ausfuhrlichere Darstellungen findet man bei Fahrmeir, Hamerle und Tutz (1996), Hartung und Elpelt

(1995), Uberla
(1975) und bei Johnson und Wichern (1999).
Auf die der Hauptkomponentenanalyse zugrundeliegende Hauptachsentransformation der
standardisierten Originalvariablen bauen die beiden folgenden Methoden der Faktorenanalyse auf:
Hauptkomponentenmethode
Hauptfaktorenmethode
Wir hatten im vorigen Kapitel die Hauptkomponenten mit Zj bezeichnet. Die Varianz der
j-ten Hauptkomponente war gleich dem Eigenwert j . Die standardisierten Hauptkomponenten
q
Zj = Zj / j


5.3. SCHATZUNG
DER FAKTORLADUNGEN

73

bezeichnet man auch als Hauptfaktoren (siehe S. 49). Die Hauptkomponentenmethode


wahlt die ersten p Hauptfaktoren Z1 , . . . , Zp als Faktoren aus, d.h. f1 = Z1 , . . . , fp = Zp .
Die Faktorladungen - die Korrelationskoeffizienten zwischen den Faktoren und den standardisierten Originalvariablen - sind in diesem Fall die Komponentenladungen (siehe S. 49),
d.h.
(p) = [a1 , a2 , . . . , ap ]

Dabei ist ai = ai i , wobei ai der i-te Eigenvektor und i der i-te Eigenwert der Korrelationsmatrix ist.
Gleichung 5.4 ist in diesem Fall gegeben durch
R = (p) t(p) + (p)
die Korrelationsmatrix des reduzierten Modells (siehe Gleichung
Dabei ist (p) t(p) = R
4.24) und (p) ist die Rest- oder Fehlermatrix R (siehe Gleichung 4.24). Entgegen den
Forderungen ist (p) keine Diagonalmatrix. Die Kommunalitaten werden bei dieser Methode
nicht im voraus bestimmt. Sie ergeben sich durch die Festlegung von p.
Die Hauptfaktorenmethode verlangt zunachst eine Festlegung der Kommunalitaten h2j . Zur
Festlegung der Kommunalitaten geben wir hier zwei Methoden wieder (siehe auch Rinne,
2000, S. 136). Im ersten Fall wird
h2j = max |rji|
i6=j

j = 1, . . . , m

(5.6)

verwendet, d.h. der dem Betrage nach grote Korrelationskoeffizient zwischen Yj und einer
anderen Variablen. Im zweiten Fall wird
h2j = 1 1/r jj

(5.7)

gesetzt. Dabei ist r jj das j-te Diagonalelement der Inversen der Korrelationsmatrix, also
von R1 . Demnach ist h2j (siehe Rinne, 2000, S. 136) das multiple Bestimmtheitsma einer
Regression von Yj auf alle anderen Variablen. Es ist das Quadrat des multiplen Korrelationskoeffizienten, der sich als maximale Korrelation zwischen Yj und einer Linearkombination
der u brigen Variablen interpretrieren lasst.
Gehen wir jetzt davon aus, dass die Kommunalitaten h2j festgelegt sind. Dann sind die Einzelrestvarianzen jj = 1 h2j . Aus diesen wird die diagonale Einzelrestvarianzmatrix
gebildet und damit dann
Rh = R
(5.8)
Auf Rh wendet man dann eine Hauptachsentransformation an, d.h. man berechnet die zu
Rh geho
renden Eigenwerte i und die Eigenvektoren ai und daraus die Ladungsvektoren

ai = ai i (vergleiche S. 49). Dann ist die Ladungsmatrix


= [a1 , a2 , . . . , am ]
und es gilt Rh = t und somit
R = t +

(5.9)

74

KAPITEL 5. FAKTORENANALYSE

Man berechnet damit die Hauptkomponenten Z = Y A, wobei A = [a1 , a2 , . . . , am ] die


Matrix der Eigenvektoren ist. Die Matrix Rh kann neben Eigenwerten von Null auch negative
Eigenwerte haben. Streicht man diese oder behalt man wie in der Hauptkomponentenanalyse
u blich nur die groten p Eigenwerte bei, so ist die Ladungsmatrix
(p) = [a1 , a2 , . . . , ap ]
nicht mehr in der Lage Rh zu reproduzieren. Man erhalt
R = (p) t(p) + (p)
Dabei ist (p) = + (t (p) t(p) ) keine Diagonalmatrix mehr.

5.4 Interpretation und Rotation


Zur Interpretation der Faktoren schaut man sich die Faktorladungen an, insbesondere mit
welchen Variablen die Faktoren hoch laden. Die Interpretation ist auf jeden Fall subjektiv.
Gelegentlich ist die Interpretation nach einer Rotation einfacher. Wir hatten fruher gesehen,
dass die Losungen nicht eindeutig sind. Ist eine Losung, so auch T fur jede orthogonale
Matrix T. Die Multiplikation mit einer orthogonalen Matrix entspricht einer Drehung. Zur
Veranschaulichung denke man sich die m standardisierten Originalvariablen am Ort ihrer Ladungspaare in die von zwei Faktoren aufgespannte Faktorebene eingetragen. Das Ziel einer
Rotation ist es, die Faktoren, d.h. die Achsen des Koordinatensystems so zu drehen, dass die
Variablen naher an den neuen Achsen liegen, d.h. dann, dass die Variablen nur mit einem der
beiden Faktoren hoch laden. Die haufig verwendete Varimax-Methode versucht ein Modell
der Faktorenanalyse zu finden, bei dem jeder Faktor mit einer Gruppe der Variablen hoch
korreliert, mit den restlichen dagegen nahezu unkorreliert ist. Dies bedeutet, von den Variablen aus betrachtet, dass sie sich so gruppieren lassen, dass alle Variablen einer Gruppe nur
mit einem Faktor hoch korrelieren. Fur eine ausfuhrlichere Darstellung sei auf Rinne (2000,
S. 136-138) verwiesen. Man erreicht eine Drehung um den Winkel mit der Matrix
T =

cos() sin()
sin() cos()

Ist > 0 wird gegen den Uhrzeigersinn gedreht. Ist < 0 wird im Uhrzeigersinn gedreht.
In machen Darstelllungen in der Literatur wird grundsatzlich ein positiver Winkel betrachtet. Da cos() = cos() und sin() = sin() erreicht man dann eine Drehung im
Uhrzeigersinn um den Winkel mit der Matrix
T =

cos() sin()
sin()
cos()

Eine Drehung mit einer gleichzeitigen Spiegelung an der x-Achse erreicht man, indem man
die Vorzeichen in der zweiten Spalte der Drehmatrix a ndert. In den R-Ausgaben wird die
erste Darstellung verwendet.
Bei Rinne (2000, S. 139) findet man eine Formel fur den optimalen Drehwinkel nach der
Varimax-Methode. Man kann die Drehungen fur verschiedene Faktorebenen hintereinanderschalten. (Zum Thema Rotation siehe auch Johnson und Wichern, 2007, S. 505. Man beachte
jedoch, das Johnson und Wichern offensichtlich in ihren Drehmatrizen den Winkel negativ
messen. Ihre Formeln sind deshalb genau umgekehrt zu den obigen.)

5.5. BEISPIEL

75

5.5 Beispiel
Wir u bernehmen ein Beispiel aus Rinne (2000, S. 140). Ein Autohaus hat 25 Kunden, die
im letzten Jahr einen Neuwagen bestimmten Typs gekauft haben, gebeten, durch Angabe
einer Punktzahl zwischen 0 und 20 auszudrucken, wie wichtig ihnen die folgenden sieben
Merkmale beim Kauf eines Autos waren:
X1 - Anschaffungspreis
X2 - Betriebskosten
X3 - Umfang der Serienausstattung
X4 - Styling der Karosserie
X5 - Prestige der Marke
X6 - Fahrkomfort
X7 - Raumangebot
Wir haben die Daten in ein data.frame mit dem Namen auto.frame geschrieben.
auto.frame
X1 X2
1
7
7
2
4
9
3
10 10
4
5
5
5
12 11
6
12 14
7
12 11
8
5
8
9
3
6
10 12 12
11
8
9
12 14 14
13
4
4
14
6
7
15 14 11
16 12 11
17
9
7
18
8
4
19
9 10
20 10
9
21
8 10
22
9 12
23 15 18
24 10 11
25 12 13

X3
6
4
7
7
12
10
10
7
6
10
9
11
7
7
13
11
8
7
9
9
8
10
17
10
12

X4
7
9
6
15
11
9
5
11
16
0
10
8
10
2
4
14
10
4
10
6
10
8
14
8
10

X5
11
11
6
17
11
9
6
14
20
3
11
10
13
6
5
8
7
6
12
8
9
7
14
11
8

X6
8
5
3
13
13
10
8
9
13
4
11
11
8
5
7
10
9
5
10
9
11
6
17
10
10

X7
9
9
4
19
12
9
5
14
16
0
11
7
15
3
3
9
8
6
8
8
11
5
14
12
9

76

KAPITEL 5. FAKTORENANALYSE

Wir berechnen die Korrelationsmatrix:


Auto.cor<-cor(Auto.frame)
round(Auto.cor,digits=4)
X1
X2
X3
X4
X5
X6
X7
X1
1.0000
0.8143
0.8690 -0.2242 -0.5014 0.1700 -0.4315
X2
0.8143
1.0000
0.7980
0.0057 -0.2187 0.2979 -0.2339
X3
0.8690
0.7980
1.0000
0.0686 -0.1808 0.4726 -0.0983
X4 -0.2242
0.0057
0.0686
1.0000
0.8163 0.7758
0.8589
X5 -0.5014 -0.2187 -0.1808
0.8163
1.0000 0.6812
0.9090
X6
0.1700
0.2979
0.4726
0.7758
0.6812 1.0000
0.7364
X7 -0.4315 -0.2339 -0.0983
0.8589
0.9090 0.7364
1.0000
Wir berechnen die Eigenwerte:
Auto.eigen<-eigen(cor(Auto.frame))$values
round(Auto.eigen,digits=4)
3.5668 2.8133 0.2586 0.1630 0.0818 0.0655 0.0510
Wir berechnen den kumulierten Anteil der durch die ersten Hauptkomponenten erklarten
Variation:
round(cumsum(Auto.eigen/7)*100,digits=2)
50.95 91.14 94.84 97.17 98.34 99.27 100.00
Es gibt zwei Eigenwerte groer als Eins, die 91.14% der Gesamtvariation ausmachen. Daher
liegt es nahe, zwei Faktoren zu extrahieren. Wir bestimmen die zugehorigen Eigenvektoren
und dann die Komponentenladungen:
Auto.eigenvektor12<-eigen(cor(Auto.frame))$vectors[,1:2]
round(Auto.eigenvektor12,digits=4)
-0.3097 0.4647
-0.1903 0.5014
-0.1423 0.5497
0.4595 0.2115
0.5057 0.0544
0.3501 0.4175
0.5081 0.0919
Auto.Ladung<-Auto.eigenvektor12%*%diag(sqrt(Auto.eigen[1:2]))
round(Auto.Ladung,digits=4)
[,1]
[,2]
X1 -0.5849 0.7794
X2 -0.3593 0.8410
X3 -0.2688 0.9221
X4 0.8678 0.3548
X5 0.9551 0.0912
X6 0.6612 0.7002
X7 0.9597 0.1542
Die Matrix Auto.Ladung entspricht der Matrix (2) in der fruheren Bezeichnungsweise
=
im theoretischen Teil. Die Kommunalitaten sind die Diagonalelemente der Matrix: R
t
(2) (2) . Wir erhalten sie also mit dem Befehl:

5.5. BEISPIEL

77

Auto.Kommun<-diag(Auto.Ladung%*%t(Auto.Ladung))
round(Auto.Kommun,digits=4)
0.9496 0.8364 0.9225 0.8789 0.9205 0.9274 0.9447
Die Restmatrix ist (2) = R (2) t(2) . Wir erhalten sie mit dem Befehl:
Auto.Rest<-Auto.cor-Auto.Ladung%*%t(Auto.Ladung)
round(Auto.Rest,digits=4)
X1
X2
X3
X4
X5
X6
X1
0.0504 -0.0514 -0.0069
0.0068 -0.0139
0.0109
X2 -0.0514
0.1636 -0.0741
0.0191
0.0478 -0.0534
X3 -0.0069 -0.0741
0.0775 -0.0253 -0.0081
0.0046
X4
0.0068
0.0191 -0.0253
0.1211 -0.0449 -0.0464
X5 -0.0139
0.0478 -0.0081 -0.0449
0.0795 -0.0141
X6
0.0109 -0.0534
0.0046 -0.0464 -0.0141
0.0726
X7
0.0096 -0.0188
0.0175 -0.0286 -0.0217 -0.0060

X7
0.0096
-0.0188
0.0175
-0.0286
-0.0217
-0.0060
0.0553

Der optimale Drehwinkel nach der Varimax-Methode ist = 21.8 . Dies ergibt die Rotationsmatrix

T =

cos() sin()
sin() cos()

0.9284 0.3716
0.3716
0.9284

Wir erhalten die Ladungsmatrix fur die gedrehten Faktoren durch die Gleichung
(2) = (2) T

In R erhalten wir es so:


Dreh.mat<-matrix(c(0.9284,-0.3716,0.3716,0.9284),byrow=T,nrow=2)
Auto.Dreh.Ladung<-Auto.Ladung%*%Dreh.mat
round(Auto.Dreh.Ladung,digits=4)
[,1]
[,2]
X1 -0.2534 0.9409
X2 -0.0211 0.9143
X3 0.0931 0.9559
X4 0.9375 0.0069
X5 0.9206 -0.2702
X6 0.8740 0.4044
X7 0.9483 -0.2134
Nach der Drehung ist die Interpretation der Faktoren einfacher. Die Variablen X4 bis X7
laden den ersten Faktor hoch, wahrend die drei anderen Variablen X1 bis X3 den zweiten
Faktor hochladen. Rinne (2000, S. 136) gibt zur Interpretation der Faktoren den folgenden
Tip: Man trage die Variablen zeilen- und die Faktoren spaltenweise in ein Tableau. Es werden
nicht die Ladungen in das Tableau eingetragen, sondern ein Zeichen, wenn die Ladung hoch
ist, z.B. ein +, wenn |jk | > 0.5. In diesem Fall wurden wir das folgende Tableau erhalten:

78

KAPITEL 5. FAKTORENANALYSE

f1
X1
X2
X3
X4
X5
X6
X7

f2
+
+
+

+
+
+
+

Den ersten Faktor konnte man nach dem ,,gemeinsamen Nenner der letzten vier Variablen
als ,,Produktdesign bezeichnen, wahrend man den zweiten Faktor nach den ersten drei Variablen als ,,Wirtschaftlichkeit bezeichnen konnte.

1.0

Wir stellen die Variablen durch ihre Faktorladungen im 2-dimensionalen Faktorenraum dar.
Abbildung 5.1 zeigt die Variablen vor der Drehung, Abbildung 5.2 nach der Drehung. Die
Variablen liegen nach der Drehung deutlich naher an den Koordinatenachsen, die Korrelationen mit den Faktoren werden dadurch groer. Die Faktoren sind dadurch besser zu identifizieren.

X2 X3
X6

0.0

X4
X7
X5

1.0

0.5

2. Faktor

0.5

X1

1.0

0.5

0.0

0.5

1.0

1. Faktor

Abbildung 5.1: Darstellung der Variablen im Faktorenraum vor der Drehung


plot(Auto.Ladung,type="n",xlim=c(-1,1),ylim=c(-1,1),xlab="1. Faktor",
ylab="2. Faktor")
null<-rep(0,7)
arrows(null,null,Auto.Ladung[,1],Auto.Ladung[,2])
abline(h=0)
abline(v=0)
identify(Auto.Ladung,labels=c("X1","X2","X3","X4","X5","X6","X7"))
und
plot(Auto.Dreh.Ladung,type="n",xlim=c(-1,1),ylim=c(-1,1),xlab="1.
Faktor", ylab="2. Faktor")
arrows(null,null,Auto.Dreh.Ladung[,1],Auto.Dreh.Ladung[,2])
abline(h=0)
abline(v=0)

5.6. FAKTORENANALYSE IN R

79

X3

X6

0.0

X4
X7
X5

1.0

0.5

2. Faktor

0.5

1.0

X1
X2

1.0

0.5

0.0

0.5

1.0

1. Faktor

Abbildung 5.2: Darstellung der Variablen im Faktorraum nach der Drehung


identify(Auto.Dreh.Ladung,labels=c("X1","X2","X3","X4","X5","X6","X7"))

5.6 Faktorenanalyse in R
In R gibt es im Package mva die Funktion factanal. Ein Aufruf mit dem Befehl:
factanal(Auto.frame,factors=2)
ergibt die folgende Ausgabe:
Call:
factanal(x = Auto.frame, factors = 2)
Uniquenesses:
X1
X2
X3
X4
X5
X6
X7
0.026 0.288 0.110 0.191 0.094 0.074 0.072
Loadings:
Factor1 Factor2
X1
-0.253
0.954
X2
0.843
X3
0.938
X4
0.899
X5
0.910
-0.280
X6
0.871
0.409
X7
0.942
-0.204
Factor1 Factor2
SS loadings
3.356
2.788
Proportion Var
0.479
0.398
Cumulative Var
0.479
0.878
Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 4.96 on 8 degrees of freedom.

80

KAPITEL 5. FAKTORENANALYSE

The p-value is 0.762


Was bedeuten die einzelnen Teile der Ausgabe?
a) Uniquenesses: Dies ist ein anderer englischer Ausdruck fur die spezifischen Varianzen. Es werden also die Varianzen von ej , j = 1, . . . , 7 ausgegeben.
b) Loadings: Die Faktorenladungen. Unbedeutende Ladungen werden nicht ausgedruckt.
c) SS loadings: Die Summe der Quadrate der Faktorenladungen in der jeweiligen
Spalte. Dies entpricht der Varianz, die durch diesen Faktor erklart wird.
d) Proportion Var: Anteil der Varianz, die durch diesen Faktor erklart wird. Dies
ist SS loadings dividiert durch die Anzahl der Variablen.
e) Cumulative Var: Der kumulierte Anteil der erklarten Varianz.
f) Test of the hypothesis that 2 factors are sufficient: Es wird
die Nullhypothese gepruft, dass zwei Faktoren ausreichen, d.h. es wird die Gultigkeit
des Modells mit zwei Faktoren gepruft. Die Prufgroe ist asymptotisch 2 -verteilt mit
[(m p)2 m p]/2 Freiheitsgraden. Hier ist m = 7 und p = 2, also [(7 2)2 7
2]/2 = [259]/2 = 8. Der Wert der Prufgroe ist 4.96. Der P-Wert ist die Wahrscheinlichkeit unter der Hypothese einen extremeren, d.h. groeren Wert zu beobachten. Es
ist
round(1-pchisq(4.96,8),digits=3)
0.762,
also gleich dem P-Wert. Weitere Informationen zu diesem Test finden Sie bei Johnson
und Wichern (1999, S. 537).
Wir erfahren in der Hilfe, dass die Maximum-Likelihood-Methode zur Berechnung der Faktorenladungen verwendet wird. Wir drucken noch einmal alle Faktorenladungen aus, um sie
dann grafisch darzustellen.
Auto.Lade.ML<-factanal(Auto.frame,factors=2)$loadings[,1:2]
round(Auto.Lade.ML,digits=4)
Factor1 Factor2
X1 -0.2533
0.9536
X2 -0.0332
0.8431
X3
0.0953
0.9384
X4
0.8995
0.0004
X5
0.9096 -0.2803
X6
0.8708
0.4090
X7
0.9417 -0.2039
plot(Auto.Lade.ML, type="n", xlim=c(-1,1), ylim=c(-1,1), xlab="1.
Faktor", ylab="2. Faktor")
arrows(null, null, Auto.Lade.ML[,1], Auto.Lade.ML[,2])
abline(h=0)
abline(v=0)
identify(Auto.Lade.ML,labels=c("X1", "X2", "X3", "X4", "X5", "X6",
"X7"))

5.6. FAKTORENANALYSE IN R

81

1.0

X1
X3

X6

X4

0.0

2. Faktor

0.5

X2

X7

1.0

0.5

X5

1.0

0.5

0.0

0.5

1.0

1. Faktor

Abbildung 5.3: Darstellung der Variablen im Faktorraum nach ML-Methode berechnet


Die Ergebnisse sind also unseren fruheren Ergebnissen sehr a hnlich.
Die Funktion varimax rotiert Ladungsmatrizen und gibt die Rotationsmatrix an. Wir wenden sie auf das Objekt Auto.Ladung an, das die Ladungen der ersten beiden nach der
Hauptkomponentenmethode berechneten Faktoren enthalt:
varimax(Auto.Ladung)
$loadings
[,1]
[, 2]
X1 -0.25243600
0.941206538
X2 -0.02010872
0.914345779
X3
0.09408922
0.955842717
X4
0.93749938
0.005961848
X5
0.92029132 -0.271209940
X6
0.87444020
0.403469382
X7
0.94802273 -0.214429463
$rotmat
[,1]
[,2]
[1,] 0.9285955 -0.3710936
[2,] 0.3710936
0.9285955
Was bedeuten diese Ausgaben?
a) $loadings: Hier werden die Faktorenladungen nach der Rotation ausgegeben.
b) $rotmat: Hier wird die Rotationsmatrix, die wir fruher mit T bezeichnet haben, ausgegeben.

Das könnte Ihnen auch gefallen