Sie sind auf Seite 1von 13

Konfirmatorische Faktorenanalyse

Handout zum interdisziplinären Seminar Wintersemester 2008/09

Prof. Dr. Helmut Küchenhoff und Prof. Dr. Markus Bühner

Barbara Felderer

Thomas Hirschmann

26.11.2008

1

Inhaltsverzeichnis

1 Grundlagen

3

2 Empirische und implizierte Kovarianzmatrix

 

3

2.1 Identifikation

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

2.1.1 Unteridentifizierte Modelle und Parameterrestriktionen

.

.

.

.

.

.

.

.

.

.

.

5

2.1.2 Gerade identifizierte Modelle

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

6

2.1.3 Überidentifizierte Modelle

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2.2 Regeln zur Feststellung von Identifizierten Modellen

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2.2.1 t-Regel

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2.2.2 Drei-Indikatoren Regel .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

2.2.3 Zwei-Indikatoren Regel .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

3 Parameterschätzung

 

8

3.1 OLS-Diskrepanzfunktion

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

3.2 GLS-Diskrepanzfunktion

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

3.3 ML-Diskrepanzfunktion

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

4 Datenbeispiel

11

4.1 eine latente Variable mit je 2 Indikatoren

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

4.2 eine latente Variablen mit je 3 Indikatoren

 

11

4.3 Modelle mit 12 Indikatoren

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

4.3.1 korreliete latente Variablen

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

4.3.2 unkorrelierte latente Variablen

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

5 Zusammenfassung

12

Literatur

13

1 Grundlagen

1 Grundlagen

Die konfirmatorische Faktorenanalyse testet ein aus der Theorie abgeleitetes Modell über Zusam-

menhänge zwischen latenten Variablen und manifesten Größen. Im Gegensatz zur explorativen

Faktorenanalyse werden hier auch Korrelationen zwischen den Störtermen zugelassen. Ziel ist es,

zu Testen, ob das angenommene Strukturmodell mit den erhobenen Daten vereinbar ist. Für den

Modelltest wird die aus den erhobenen Daten errechnete empirische Kovarianzmatrix mit einer

aus der Theorie abgeleiteten impliziten Kovarianzmatrix verglichen. Dieser Vergleich erfordert ei-

ne Schätzung der theoretischen Parameter des Modells aus den empirisch beobachteten Daten.

Diese Schätzung ist nur möglich, wenn die empirischen Daten ausreichend Information zur Be-

stimmung aller Parameter des Modells enthalten. Ist dies der Fall, ist das Modell identifiziert,

die Schätzungs-Voraussetzung der Identifikation erfüllt. Fällt der Unterschied der implizierten und

empirischen Kovarianzmatrix gering genug aus, wird das Modell beibehalten, andernfalls wird es

verworfen.

Um die Modellparameter zu schätzen, werden zunächst die empirische und die theoretische

Kovarianzmatrix gleichgesetzt:

Σ = Σ(θ)

2 Empirische und implizierte Kovarianzmatrix

Das erstellte Modell besitzt die Gleichung:

X = Λ x ξ + δ

COV(ξ j , δ j ) = 0, für alle i und j

E(δ j ) = 0, für alle i und j

Das Modell besagt, dass die latenten Variablen ξ mit dem Faktor Λ auf die manifesten Variablen

X laden. δ bezeichnet dabei den Messfehler, dessen Erwartungswert 0 ist und der nicht mit den

latenten Variablen korreliert ist. Ziel der konfirmatorischen Faktorenanalyse ist es, die Werte für

Λ x , Φ und Θ(δ) zu schätzen. Hierfür wird zunächst die Kovarianzmatrix Σ der erhobenen Variablen

erstellt, hier exemplarisch für eine latente und drei manifeste Variablen:

Σ =

   Var(x 2 )

Cov(x 3 , x 2 ) Var(x 3 )

Var(x 1 )

Cov(x 2 , x 1 )

Cov(x 3 , x 1 )

3

2 Empirische und implizierte Kovarianzmatrix

dann wird die implizierte/theoretische Kovarianzmatrix erstellt:

Σ(θ) =

E(xx )

=

E[(Λ x ξ + δ)(ξ Λ x

+ δ )]

=

Λ x E(ξξ x

+ Θ δ

=

Λ x ΦΛ x + Θ δ

Geht man von einer latenten Variablen ξ 1 aus, enthält das Modell die Matrix der Faktorladungen

Λ x =

λ

λ

λ

11

21

31

die Kovarianzmatrix der latenten Variablen

Φ = φ 11

und die Kovarianzmatrix der Messfehler

Θ δ =

   Var(δ 2 )

Cov(δ 2 , δ 3 ) Var(δ 3 )

Var(δ 1 )

Cov(δ 1 , δ 2 )

Cov(δ 1 , δ 3 )

Die theoretische Kovarianzmatrix ergibt sich dann als:

Σ(θ) =

λ 11 2 φ 11 + Var(δ 1 )

 
Cov(δ 2 , δ 1 )

Cov(δ 3 , δ 1 ) λ 31 λ 21 φ 11

λ 21 λ 11 φ 11 +

λ 31 λ 11 φ 11

+

λ 21 2 φ 11 + Var(δ 2 )

2

+ Cov(δ 3 , δ 2 ) λ 31 φ 11 + Var(δ 3 )

Um nun die Parameter zu schätzen, müssen die beiden Matrizen gleichgesetzt werden. Voraus-

setzung für die Schätzung ist, dass die implizierte Kovarianzmatrix identifiziert ist.

2.1 Identifikation

Wenn ein Modell identifiziert ist, besitzt es eine eindeutige Lösung.Mit anderen Worten, es darf

keine Parametervektoren θ 1 und θ 2 geben mit denen gilt Σ(θ 1 ) = Σ(θ 2 ), wenn nicht gilt θ 1 = θ 2 .

Wenn also zwei unterschiedliche Parametervektoren θ zu derselben Kovarianzmatrix Σ(θ) führen ist

1

das Modell nicht identifiziert. In der empirischen qxq-Kovarianzmatrix Σ sind 2 (q)(q + 1) bekannte

4

2 Empirische und implizierte Kovarianzmatrix

Parameter enthalten, wobei q die Anzahl der Indikatoren darstellt. Geht man von n latenten Va- riablen aus, enthält die zu schätzende Matrix Λ x qn Elemente, die Matrix Φ 2 (n)(n + 1) Elemente und die Matrix Θ δ enthält 1 2 (q)(q + 1) Elemente, sodass insgesamt qn + 2 (n)(n + 1) + 1 2 (q)(q + 1) Parameter zu schätzen sind. Wie man leicht erkennen kann, enthält die theoretische Kovarianz- matrix qn + 1 2 (n)(n + 1) mehr Parameter als die empirische Kovarianzmatrix. Das Modell kann so nicht geschätzt werden, da es unteridentifiziert ist, es müssen Parameterrestriktionen eingeführt werden. Zuvor ist es nötig, den latenten Variablen eine Metrik zuzuweisen. Dies kann dadurch geschehen, dass für jedes ξ i eine Referenzvariable gebildet wird, indem eine Ladung der manifesten Variablen auf Eins gesetzt wird. Als Referenzvariable sollte die Variable verwendet werden, die den besten Indikator für die latente Variable darstellt und die eine hohe Reliabilität besitzt. Da auch die Fehlervariablen geschätzt werden müssen, brauchen auch diese eine Metrik. Eine andere Möglichkeit den latenten Variablen eine Metrik zuzuweisen besteht darin, ihre Varianz auf eins zu fixieren. Dieses Vorgehen ermöglicht es, die Signifikanz für jede Ladung des Items zu ermitteln, ausserdem kann die Kovarianz zwischen latenten Variablen als Korrelation interpretiert werden. Es ist allerdings zu beachten, dass dieses Vorgehen nicht für Multigruppenvergleiche geeignet ist.

1

1

2.1.1 Unteridentifizierte Modelle und Parameterrestriktionen

1

Wie im vorherigen Abschnitt gezeigt, enthält die impliziete Kovarianzmatrix qn+ 2 (n)(n+1) mehr Parameter als die empirische Kovarianzmatrix. Übersteigt die Anzahl der zu schätzenden Parame- ter die Anzahl der bekannten Parameter ist das Modell unteridentifiziert und das Gleichungssystem kann so nicht eindeutig gelöst werden. Es gibt keine eindeutigen Lösungen für die Parameter und es kann nicht entschieden werden, welche wahr sind. Für das Beispiel aus Abschnitt eins ergibt sich beim Gleichsetzen der Matrizen ein Gleichungssystem mit sechs bekannten und 10 unbekannten Parametern. Es ist leicht zu erkennen, dass hier keine eindeutige Lösung möglich ist. Um die Parameter trozdem schätzen zu können, muss deren Anzahl verringert werden. Hierfür müssen Parameterrestriktionen eingeführt werden. Diese können zum Beispiel beinhalten, dass einzelnen Parametern ein fester Wert zugeweisen wird. Weist man den Faktorladungen eine Metrik zu, hat man schon die Parameterrestiktion Λ 11 = 1 erzielt. Eine Andere Möglichkeit besteht darin, einzelne Ladungen auf null zu setzen, wenn man davon ausgeht, dass sie nicht auf die latente Variable laden. Man kann weiterhin alle Nebendiagonalelemente von Θ δ null setzen, wenn man von unkorrlelierten Fehlern ausgeht. Die Annahme unkorrelierter Fehler führt beispielsweise dazu, dass alle Elemente der Fehlermatrix Θ δ ausser der Diagonalen auf Null gesetzt werden. Die Annhame, dass eine latent Variable keinen Einfluss auf einen oder mehrere der manifesten Variablen hat führt dazu, dass die entsprechenden λ i auf Null gesetzt werden. Eine weitere Möglichkeit die Anzahl der freien Parameter zu reduzieren besteht darin, zwei oder mehrere Parameter gleich zu setzten, sodass nur noch ein Wert für diese geschätzt werden muss.

5

2 Empirische und implizierte Kovarianzmatrix

2.1.2 Gerade identifizierte Modelle

Ein Gleichungssystem ist dann gerade identifiziert, wenn die Anzahl der freien Parameter der An-

zahl der gesuchten Parameter entspricht. Sind die einzelnen Modellgleichungen linear unabhängig,

besitzt das Gleichungssystem genau eine Lösung pro Parameter und ist identifiziert. Allerdings

ist zu beachten, dass in solchen Modellen die Anzahl der Freiheitsgrade null ist und damit kein

Modelltest möglich ist. Das Modell aus Abschnitt eins enthält eine latente und drei manifeste Va-

riablen. Somit bestht die empirische Kovarianzmatrix aus 1 2 q(q + 1) = 6 festen Parametern. Ohne

weitere Restriktionen enthält die implizierte Kovarianzmatrix qn + 2 n(n + 1) + 2 q(q + 1) = 10

zu schätzende Parameter: die Schätzgleichung ist nicht identifizierbar. Um die Parameter schätzen

zu können darf die implizierte Kovarianzmatrix höchstens 6 freie Parameter enthalten, das heißt,

das Modell muss beschränkt werden. Geht man von unkorrelierten Messfehlern aus, kann man

alle Elemente ausserhalb der Diagonalen von Θ δ null setzen und damit drei Parameter einsparen.

Wenn man ausserdem den λij eine Metrik zuweist und damit λ 11 auf eins fixiert, wird das Modell

identifizierbar. Als implizierte Kovarianzmatrix ergibt sich dann:

1

1

Σ(θ) =

   λ 2

φ 11 + Var(δ 1 )

λ 21 φ 11

λ 31 φ 11

21 φ 11 + Var(δ 2 )

λ 31 λ 21 φ 11

λ

2

31 φ 11 + Var(δ 3 )

Setzt man nun die beiden Matrizen gleich erhält man ein Gleichungssystem, das aus sechs be-

kannten und sechs unbekannten Parametern besteht:

Var(δ 1 ) = φ 11 + Var(δ 1 )

und so weiter.

Cov(δ 1 , δ 2 ) = λ 21 φ 11

Löst man die Gleichungen nach den gesuchten Parametern auf erhält man folgende Lösungen:

= Cov(x 2 , x 3 )

λ

Cov(x 1 , x 3 )

λ 31 = Cov(x 2 , x 3 )

Cov(x 1 , x 2 )

φ 11 = Cov(x 1 , x 2 )Cov(x 1 , x 3 )

21

Cov(x 2 , x 3 )

Var(δ 1 ) = Var(x 2 ) φ 11

Var(δ 2 ) = Var(x 2 ) λ 2

21 φ 11

2

Var(δ 3 ) = Var(x 3 ) λ 31 φ11

6

2 Empirische und implizierte Kovarianzmatrix

Wie man leicht erkennen kann, ist das Gleichungssystem für alle freien Parameter eindeutig

lösbar. Hier ist allerdings zu beachten, dass die Anzahl der Freiheitsgrade, die sich aus der Differenz

der festen und der freien Parameter bestimmen lässt null ist, weshalb ein Modelltest nicht möglich

ist.

2.1.3

Überidentifizierte Modelle

Setzt man für das oben genannte Modell eine weitere Beschränkung, zum Beispiel φ 11 = 1 erhält

man ein Gleichungssystem mit sechs bekannten und fünf unbekannten Parametern. Die implizierte

Kovarianzmatrix ergibt sich dann als:

Σ(θ) =

1

+ Var(δ 1 )

λ

λ

21

31

λ 2

21

+ Var(δ 2 )

λ 31 λ 21

λ

2

31

+ Var(δ 3 )

Setzt man nun die Matrizen gleich, erhält man ein Gleichungssystem, das zu widersprüchli-

chen Lösungen führt. Das Modell ist überidentifiziert und analytisch nicht lösbar. Die Parameter

müssen in einem iterativen Verfahren geschätzt werden. Da die Anzahl der festen Parameter die

Anzahl der freien Parameter übersteigt, besitzen überidentifizierte Modelle eine positive Anzahl

an Freiheitsgraden, d.h das Modell kann auf seine Güte getestet werden.

2.2 Regeln zur Feststellung von Identifizierten Modellen

Für komplexe Modelle ist es oft nicht einfach festzustellen, ob sie identifiziert sind oder nicht.Im

Folgenden sollen drei Regeln zur Feststellung von identifizierten Modellen vorgestellt werden. Alle

setzen voraus, dass den Parametern eine Metrik zugewiesen wurde.

2.2.1 t-Regel

t

2 1 (q)(q + 1)

Die t- Regel besagt, dass die Anzahl der zu schätzenden Parameter t höchstens gleich der Anzahl

der bekannten Parameter sein darf. Die t- Regel ist eine notwendige, aber nicht hinreichende

Bedingung für die Identifikation eines Models.

7

3 Parameterschätzung

2.2.2 Drei-Indikatoren Regel

Wie bereits gezeigt ist ein Modell mit einer latenten Variabeln ξ und drei Indikatoren dann iden- tifiziert, wenn Θ δ eine Diagonalmatrix ist, das heisst, wenn die Kovarianzen der Fehler null sind, und wenn den Faktorladungen eine Metrik zugewiesen wurde. Sind mehr als drei Indikatoren im Modell enthalten, ist es überidentifiziert. Allgemein ist ein Modell mit mehreren latenten Variablen für die je drei Indikatoren gemessen werden dann identifiziert, wenn jede Spalte von Λ x genau ein Element ungleich Null besitzt und Θ δ eine Diagonalmatrix ist, wobei für Φ keine Restriktionen gelten. Dann können für alle ξ i die Ladungen λ ij , die Korrelationen φ jj der latenten Variablen und die Varianzen der Fehler Var(δ i ) identifiziert werden. Da den Ladungen eine Metrik zugewiesen wurde, können auch die Nebendiagonalelemente von Φ identifiziert werden. Diese entsprechen dann den Kovarianzen der manifesten Variablen. Die Drei-Indikatoren Regel ist eine hinreichende aber nicht notwendige Bedingung zur Identifikation eines Modells.

2.2.3 Zwei-Indikatoren Regel

Eine weniger restriktive Regel für Modelle mit mehreren latenten Variablen ξ ist die Zwei-Idikatoren Regel. Wenn Θ δ eine Diagonalmatrix ist und den Faktorladungen eine Metrik zugewiesen wurde, reichen zwei Indikatoren für jede latente Variable aus um das Modell zu indentifizieren, vorausge- setzt für jede latente Variable wird nur ein λ ij getestet. Eine Erweiterung des Modells besagt, dass ein Modell auch dann identifiziert sein kann, wenn einige Elemente ausserhalb der Diagonalen von Φ null sind. Dann musss gelten, dass es mindestens zwei Indikatoren für jede latente Variable gibt, jede Spalte von Λ x genau ein Element ungleich null enthält, jede Spalte von Φ mindestens ein Element ausserhalb der Diagonalen enthält, das ungleich null ist und Θ δ eine Diagonalmatrix ist. Auch die Zwei-Faktoren Regel ist eine hinreichende aber nicht notwendige Bedingung zur Identifikation eines Modells.

3 Parameterschätzung

Ist das Modell überidentifiziert, können die freien Parameter nicht analytisch berechnet werden, sondern müssen mit Hilfe geeigneter iterativer Verfahren geschätzt werden. Hierbei werden zu- nächst für die freien Parameter vorläufige Werte, sogenannte Startwerte eingesetzt. Die dadurch entstehende implizierte Kovarianzmatrix wird mit der empirischen verglichen und die Abweichung zwischen den Matrizen wird mit Hilfe einer Diskrepanzfunktion geschätzt. Der Vorgang wird so lange wiederholt, bis die Schätung konvergiert, sich also die Diskrepanz nicht mehr verringern lässt. Hierbei können unterschiedliche Diskrepanzfunktionen verwendet werden, die sich je nach Schätzmethode unterscheiden. Ihnen gemeinsame Eigenschaften sind:

8

3 Parameterschätzung

(1)F , Σ(θ)) 0 für alle θ Θ;

(2)F , Σ(θ)) = 0 genau dann, wenn Σ(θ) = Σ;

(3)F , Σ(θ)) ist zweimal stetig differenzierbar in Σ(θ) und Σ

Die Schätung hat zum Ziel, die Diskrepanzfunktion F zu minimieren

F , Σ(θ)) = min F , Σ(θ))

θΘ

3.1 OLS-Diskrepanzfunktion

Die OLS- Diskrepanzfunktion (ordinary least squares) geht nach dem Prinzip der kleinsten Qua-

drate vor:

1

F OLS , Σ(θ)) = 2 tr Σ(θ)] 2

Hinter tr Σ(θ)] 2 verbirgt sich die Summe der quadrierten Abweichungen der Varianzen der

empirischen und der impliziten Kovarianzmatrix, die in der Spur der quadrierten Residualmatrix

angegeben sind. Diese werden dem Faktor 1 2 multipliziert.

Um die Diskrepanzfunktion zu minimieren, müssen die implizite und die empirische Kovarianz-

matrizen eingesetzt werden. Anschließend wird die Funktion partiell nach allen zu schätzenden

Parametern abgeleitet, die resultierenden Schätzgleichungen werden null gesetzt. Wenn die Ma-

trix der zweiten partiellen Ableitungen für die ermittelten Parameterschätzer positiv definit ist,

handelt es sich um das Minimum von F OLS Zur Veranschaulichung sei ein Beipiel gegeben. Wegen

der einfacheren Berechnung der Determinanten soll hier von zwei Indikatoren ausgegangen werden.

Daraus folgt die empirische Kovarianzmatrix:

Σ =

Var(x 1 )

Cov(x 2 , x 1 ) Var(x 2 )

Als überidentifizierte implizite Kovarianzmatrix wird angenommen

Σ =

φ 11 + Varδ(1)

φ 11

φ 11

Werden die beiden Matrixen in die Diskrepanzfunktion eingesetzt erhält man

F OLS =

2 1 ((Var(y 1 ) φ 11 Var(δ 1 ) 2 + 2(Cov(y 1 , x 1 ) φ 11 ) 2 +

(Var(x 1 ) φ 11 ) 2 )

Leitet man F OLS nach φ 11 und Var(δ 1 ) ab,erhält man:

∂F OLS

∂φ 11

= Var(x 1 ) 2Cov(x 1 , x 2 ) Var(x 2 ) + 4φ11 + Varδ 1

9

3 Parameterschätzung

∂F OLS

Var(δ 1

) = Var(x 1 ) + φ 11 + Var(δ 11 )

Löst man diese beiden Funktionen nach φ 11 und Var(δ 1 ) auf erhält man die Parameterschät- zer, die Lösungen müssen iterativ ermittelt werden. Die OlS-Diskrepanzfunktion benötigt keine Verteilungsannahme, die Schätzung ist konsistent aber nicht effizient und weder skaleninvariant (die Ergebnisse unterscheiden sich für Kovarianz und Korrelationsmatrixen) noch skalenfrei (Un- terschiede je nach Verwendung von Rohwerten und transformierten Werten).

3.2 GLS-Diskrepanzfunktion

Die GLS- Diskrepanzfunktion (generalized least squares) ist eine Verallgemeinerung der kleinsten Quadrate Methode. Hier werden die Differenzen der beiden Matrizen noch mit der Inversen der empirischen Kovarianzmatrix gewichtet:

F GLS , Σ(θ)) = 1 2 tr Σ(θ))Σ 1 2

Auch die GLS-Diskrepanzfunktion kommt ohne Verteilungsannahmen aus. Sie ist besonders geeignet für ordinale bzw. dichotome Variablen oder stetige Merkmale, die nicht normalverteilt sind. Wenn das Modell korrekt ist, folgt F GLS einer χ 2 -Verteilung mit 1 2 (q)(q + 1) t Freiheitsgraden.

3.3 ML-Diskrepanzfunktion

Die ML-Diskrepanzfunktion ist die am meisten verwendete Methode. Voraussetzung ist, dass die x i multivariat normalverteilt sind. Die Modellparameter werden gemäß dem ML-Prinzip so geschätzt, dass die empirischen Varianzen und Kovarianzen maximal wahrscheinlich sind.

F Ml , Σ(θ)) = ln |Σ(θ)| + tr(ΣΣ(θ)) ln |Σ| − (p + q)

Um das Minimum von F ML zu erhalten muss die Diskrepanzfinktion nach allen gesuchten Parme- tern partiell abgeleitet werden. Sind diese Ableitungen alle null und ist die Matrix der zweiten Ableitungen positiv definit, so handelt es sich um ein Minimum. Sind die Indikatoren normalver- teilt, entsprechen die mit Hilfe von F ML ermittelten Schätzwerte den ML-Schätzern. Die ML-Diskrepanzfunktion besitzt einige wichtige Eigenschaften: asymptotische Unverzerrtheit, asymptotische Konsistenz und asymptotische Effizienz, die Schätzer sind asymptotisch normalver- teilt. Ausserdem ist der ML-Schätzer skaleninvariant und skalenfrei. Die Diskrepanzfunktion F ML folgt einer χ 2 -Verteilung mit 2 q(q + 1) t Freiheitsgraden.

1

10

4 Datenbeispiel

4 Datenbeispiel

Im Folgenden sollen mehrere Beispiele das Vorgehen einer konfirmatorischen Faktrorenanalyse veranschaulichen. Alle Beispiele beziehen sich auf den Neo-FFI.

4.1 eine latente Variable mit je 2 Indikatoren

In diesem Modell werden für Neurotizismus nur die beiden stärksten Ladungen verwendet. Der Test auf Normalverteilung der Indikatoren fällt negativ aus, eine Bollen-Stine-Bootstrap-Korrektur ist nötig. Die Identifikation scheitert jedoch: das Modell ist mit nur zwei Indikatoren unteridentifiziert. Auch bei Parameterrestriktion (Annahme von Tau-Äquivalenz: λ 11 = λ 21 ) kann kein Modelltest durchgeführt werden, da das Modell gerade identifiziert ist.

4.2 eine latente Variablen mit je 3 Indikatoren

Im folgenden Modell wird die Anzahl der Indikatoren pro latenter Variable auf die drei Items mit den höchsten Ladungen erhöht. Das Modell ist zunächst nicht identifiziert, da es sechs bekannte und sieben unbekannte Parameter enthält. Nach Annahme einer Tau-Äuqivalenz ist das Modell (über)identifiziert (jetzt nur noch vier unbekannte Parameter) und die Parameter können geschätzt werden.

4.3 Modelle mit 12 Indikatoren

Die folgenden Modelle verwenden Neurotizismus und Extraversion als latente Variablen und jeweils alle 12 Items als Indikatoren.

4.3.1 korreliete latente Variablen

In diesem Modell wird davon ausgegangen, dass Neurotizismus und Extraversion korreliert sind. Dieses Modell beinhaltet somit im unrestringierten Fall 351 zu schätzende Parameter, wobei durch die empirische Kovarianzmatrix nur 300 Parameter fixiert sind. Treffen wir die Annahme, dass die Kovarianzen der Störterme δ ij null sind für alle i = j reduziert sich die Anzahl der zu schätzenden Parameter auf 75, das Modell ist also überidentifiziert, die Parameter können somit geschätzt werden.

4.3.2 unkorrelierte latente Variablen

Das obige Modell wird nun unter der Annahme unkorrelierter latenter Variablen konstruiert. Dar- aus folgt, dass die Nebendiagonalelemente von Φ null gesetzt werden und dass davon ausgegangen wird, dass auf jedes x i nur eine latente Variable lädt. Dies wiederum hat zur Folge,dass die Hälfte

11

5 Zusammenfassung

der Parameter in Λ x auf null fixiert wird. Dies beschränkt die Anzahl der Parameter weiter auf 62. Das Modell ist überidentifiziert, die Parameter können geschätzt werden.

5 Zusammenfassung

Wie gezeigt wurde ist es zur Schätung der Parameter wichtig, dass das Modell identifiziert ist. Um Identifizierbarkeit zu gewährleisten, müssen immer Restriktionen eingeführt werden. Das Problem der Unteridentifikation stellt sich aber in erster Linie für Modelle mit wenigen Indikatoren. Bei Modellen mit vielen Indikatoren (> 3) reicht meist die (theoretisch sinnvolle) Annahme unkorre- lierter Fehler um Identifikation zu erhalten. Für Modelle mit zwei oder drei Indikatoren wurden Regeln zur Identifikation aufgestellt. Die Schätzung der Parameter folgt durch Minimierung einer Diskrepanzfunktion, die je nach Datenlage gewählt wird. Anschließend an die Parameterschätzung wird das Modell auf seine Passung an die erhobenen Daten getestet.

12

Literatur

Literatur

Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson.

Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley.

Fahrmeir, L., A. Hamerle, and G. Tutz (1996). Multivariate statistische Verfahren (2 ed.). Berlin:

de Gruyter.

13