Sie sind auf Seite 1von 63
Institut für Soziologie Professur für empirische Sozialforschung Prof. Dr. Johannes Ko pp Dr. Daniel Lois

Institut für Soziologie Professur für empirische Sozialforschung Prof. Dr. Johannes Kopp Dr. Daniel Lois

Einführung in die Panelanalyse

Stand: Juli 2009

Inhaltsverzeichnis

1. Panel-Analyse: Grundlagen

3

2. Regressionsverfahren für Paneldaten: FE und RE

16

3. Ein Beispiel mit SOEP-Daten

44

4. Zwischenfazit: FE oder RE?

57

5. Ein FE-Modell für zwei Wellen

59

6. Literaturempfehlungen

63

Panel-Analyse: Grundlagen

Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen

Paneldaten haben gegenüber Querschnittdaten mehrere Vorteile:

Sie erlauben die Analyse von individuellen Entwicklungen, da es neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt

Sie enthalten Informationen zur zeitlichen Abfolge von Zusnden und Ereignissen

Sie erlauben die Kontrolle unbeobachteter individueller Heterogenität

Sie sind informativer (enthalten z.B. mehr Variabilität und Freiheitsgrade)

Panel-Analyse: Grundlagen

Ein Beispiel: Grundlage ist ein Datensatz von 5 Personen mit Partner, die noch nicht verheiratet sind

Die abhängige Variable ist die Lebenszufriedenheit (10-fach abgestuft von 1 = sehr unzufrieden bis 10 = sehr zufrieden)

Die unabhängige Variable ist die Heirat

Auf der nächsten Folie ist die Entwicklung der Lebenszufriedenheit bei diesen 5 Personen über 4 Panelwellen dargestellt

Die gestrichelten Linien stehen für Personen, die jeweils zwischen Welle 2 und 3 heiraten

Die durchgezogenen Linien repräsentieren Personen, die innerhalb des Beobachtungszeitraums nicht heiraten

Panel-Analyse: Grundlagen

12

10

Positiver Effekt der Heirat

Panel-Analyse: Grundlagen 12 10 Positiver Effekt der Heirat 8 6 4 2 0 Lebenszufrie denheit Keine
Panel-Analyse: Grundlagen 12 10 Positiver Effekt der Heirat 8 6 4 2 0 Lebenszufrie denheit Keine
8 6 4 2 0 Lebenszufrie denheit
8
6
4
2
0
Lebenszufrie denheit
Effekt der Heirat 8 6 4 2 0 Lebenszufrie denheit Keine Heirat Heirat zwischen Welle 2

Keine Heirat

Heirat zwischen Welle 2 und 3

1234

Panelwelle

Selbstselektion: Personen, die heiraten, sind bereits vor der Heirat zufriedener

Panel-Analyse: Grundlagen

Die Abbildung deutet auf das Vorliegen von drei Effekten hin:

Erstens gibt es einen schwachen Zeit- oder Periodeneffekt, da die Lebenszufriedenheit über die Zeit hinweg tendenziell abfällt

Zweitens finden sich Hinweise auf eine Selbstselektion: Diejenigen Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die Personen, die nicht heiraten

Drittens zeigt sich ein kausaler (positiver) Effekt der Heirat auf die Zufriedenheit. Diese erhöht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich. In der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht

Panel-Analyse: Grundlagen

Das Beispiel verdeutlicht, dass bei Paneldaten verschiedene Quellen von Heterogenität differenziert werden müssen

Es gibt nicht nur – wie bei Querschnittdaten – Varianz zwischen den Personen (Personen, die heiraten, sind zufriedener)

Zusätzlich entsteht durch die wiederholte Befragung im Panel Varianz innerhalb von Personen (Personen werden durch die Heirat zufriedener)

Entsprechend dieser Varianzquellen sind Regressionsverfahren r Paneldaten entwickelt worden, die entweder nur die Varianz zwischen Personen (between), die Varianz innerhalb von Personen (within) oder beides nutzen

Diese Verfahren werden entlang dieser Logik im vorliegenden Skript kurz vorgestellt, wobei der Schwerpunkt auf Modelle für metrische abhängige Variable liegt

Panel-Analyse: Grundlagen

Varianz zwischen Personen steht bereits in Querschnittdaten zur Vergung

Der Hauptvorteil von Paneldaten besteht daher in der Erzeugung von Varianz innerhalb von Personen

Es besteht also die Möglichkeit von Quasi-Experimenten: Wir interessieren uns dafür, wie sich Personen im Hinblick auf eine abhängige Variable (z.B. Lebenszufriedenheit) verändern, die z.B. ein Ereignis (hier: Heirat) zwischen den Befragungswellen erleben („Experimentalgruppe“) oder nicht (Vergleichsgruppe)

Im Rahmen von Panelanalysen kann also – im Gegensatz zu Querschnittdaten – der kausale Effekt eines treatments (z.B. eines Ereignisses) auf die abhängige Variable bestimmt werden

Panel-Analyse: Grundlagen

Hierzu eine etwas formellerer Exkurs: Wir interessieren uns für den kausalen Effekt eines „treatments“ T (hier: Heirat) auf eine abhängige Variable y (hier: Lebenszufriedenheit)

Wenn i das jeweilige Individuum bezeichnet, t ein Zeitindex ist und C für die Messung vor dem treatment steht, schätzen wir mit Querschnittdaten folgendes (sog. between-estimation):

y

T i , t

0

- y

C

j, t

0

Geschätzt wird also die Differenz bei der abhängigen Variablen zwischen Personen, die das treatment zum Zeitpunkt t 0 erlebt haben und anderen Personen, die es zum Zeitpunkt t 0 noch nicht erlebt haben

Panel-Analyse: Grundlagen

Der tatsächliche kausale Effekt des treatments wird hier nur dann korrekt geschätzt, wenn sich die Personen der Gruppen i und j nicht im Hinblick auf unbeobachtete Merkmale unterscheiden

Da es sich hierbei in der Regel um eine unrealistische Annahme handelt, wird auf Paneldaten zuckgegriffen. Hier wird die sog. within- Schätzung durchgeführt:

y

T i , t

1

- y

C i , t

0

Geschätzt wird also, wie sich die abhängige Variable zum Zeitpunkt t 1 im Vergleich zum ersten Messzeitpunkt t 0 vor dem treatment – bei denselben Personen verändert hat (deswegen within, Varianz innerhalb von Personen)

Panel-Analyse: Grundlagen

Der tatsächliche kausale Effekt des treatments wird hier korrekt geschätzt, wenn es keine unbeobachtete Heterogenität innerhalb von Personen gibt (d.h. die Personen i sich über die Zeit bei unbeobachteten Merkmalen verändern)

Außerdem können Periodeneffekte (z.B. Alterungseffekte) die Schätzung verzerren, weshalb man eine sog. difference-in-difference Schätzung durchführen kann:

( y

T

i , t 1

C

- y ) - ( y

i

, t

0

C

j, t

1

- y

C

j, t

0

)

Es werden also Personen im Hinblick auf ihre Veränderung bei der abhängigen Variablen verglichen, die das treatment entweder erlebt haben (linke Seite) oder nicht (rechte Seite, Kontrollgruppe)

Panel-Analyse: Grundlagen

Verdeutlichen wir dies anhand des Beispiels der fünf Personen, die entweder heiraten oder nicht (siehe Folie 5)

Wie groß ist der kausale Effekt der Heirat auf die Lebenszufriedenheit? Dies kann mit der difference-in-difference Methode ausgerechnet werden, wobei sich das folgende Beispiel nur auf einen Vergleich der Wellen 2 und 3 bezieht

für jede Person wird die Differenz der Lebenszufriedenheit vor und nach der Heirat bzw. bei dauerhaft Ledigen zwischen den Wellen 2 und 3 berechnet

diese Differenzen werden für Personen die heiraten und für ledige Personen gemittelt

schließlich ist die Differenz der Vorher-Nachher-Differenz der Personen mit und ohne Heirat der kausale Effekt. Im Beispiel steigt die Lebenszufriedenheit durch die Heirat um 2,17 Punkte:

( 4,6 - 4 ,8 ) + ( 3,5 - 3,8) + ( 6 6 ) (10 - 8) + ( 9 - 7 )

3

-

2

=

-0,17 - 2

=

-2,17

Panel-Analyse: Grundlagen

Vor der Berechnung von Regressionsmodellen müssen die Paneldaten richtig aufbereitet werden

Die Ausgangssituation ist in der Regel das sog. wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt für Personen; zeitveränderliche Variablen werden in separaten Spalten (hier: je 4) abgespeichert:

a t e n S pa lt e n (hier: je 4 ) a b gespe

Dieser Datensatz muss nun ins long-Format umstrukturiert werden. In STATA geht dies u.a. über den reshape long-Befehl, in SPSS über den Befehl varstocases (Daten – Umstrukturieren – Variablen in Fälle)

Panel-Analyse: Grundlagen

Die folgenden Befehle bewirken die Umstrukturierung vom wide- ins long-Format. „j(wave)“ erzeugt in STATA eine neue Variable „wave“ mit fortlaufenden Zahlen von 1-4. Zeitkonstante Variablen (z.B. Geschlecht) müssen im reshape long Befehl nicht explizit aufgeführt werden.

STATA: reshape long zf heirat, i(id) j(wave)

SPSS: varstocases /make heirat from heirat1 heirat2 heirat3 heirat4 /make zf from zf1 zf2 zf3 zf4 /index = wave(4) /keep = id /null = drop.

„/null = drop“ bedeutet im SPSS-Befehl, dass Fälle mit missings bei allen transponierten Variablen aus dem Datensatz entfernt werden

Panel-Analyse: Grundlagen

Personen fließen im long- Format nun in der Form von Zeilen mehrfach in den Datensatz ein; anstatt fünf Zeilen im wide-Format gibt es nun also 20 Zeilen (jeweils vier pro Person)

Pro Variable gibt es im long- Format jedoch nur noch eine Spalte

Die ID ist notwendig, um die personenspezifischen Beobachtungen identifizieren zu können

Spalte Die ID ist notwendig, um die personenspezifischen Beobachtung en identifizieren zu können Panelanalyse 15

Regressionsmodelle für Paneldaten: FE und RE

Nun können wir dazu übergehen, den Effekt der Heirat (x) auf die Lebenszufriedenheit (y) mit Regressionsmodellen zu analysieren

Eine erste Möglichkeit wäre, eine einfache OLS-Regression mit den gepoolten Daten zu berechnen (i steht für Personen, t für Messzeitpunkte bzw. Panelwellen und u für den Fehlerterm):

y

it

=β+β x + u

0

1

it

it

Das Ergebnis ist auf der nächsten Folie dargestellt. Laut diesem Modell führt eine Heirat dazu, dass sich die Lebenszufriedenheit um 4,03 Punkte erhöht

Wie wir noch sehen werden, ist dieses Ergebnis stark verzerrt und gibt nicht den tatsächlichen kausalen Effekt der Heirat auf die Zufriedenheit wieder

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 17

Regressionsmodelle für Paneldaten: FE und RE

Dies liegt daran, dass sich der Effekt der Heirat (b = 4,03) in der OLS- Regression aus zwei Quellen speißt: erstens fließt ein, dass die Heirat die Zufriedenheit erhöht (within-Varianz)

Zweitens gibt es insofern eine Selektion, da Personen, die heiraten, im Durchschnitt bereits zufriedener sind (between-Varianz)

Technisch gesehen besteht das Problem darin, dass – durch die Selbstselektion – der Fehlerterm u mit der unabhängigen Variablen x (Heirat) korreliert, wodurch eine der Annahmen der OLS-Regression verletzt wird

Um die Frage zu beurteilen, inwiefern die Heirat die Zufriedenheit erhöht, muss daher auf geeignetere Verfahren zurückgegriffen werden

Regressionsmodelle für Paneldaten: FE und RE

Im Folgenden werden zwei Regressionsmodelle für Paneldaten vorgestellt: das fixed-effects (FE) Modell und das random-effects (RE) Modell

Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitveränderlichen Kovariaten (z.B. von Ereignissen) auf eine metrische abhängige Variable zu identifizieren. Es basiert ausschließlich auf der Varianz innerhalb von Personen

In das RE-Modell fließt sowohl die Varianz zwischen als auch innerhalb von Personen ein. In diesem Verfahren können auch zeitkonstante Variablen berücksichtigt werden

Sowohl das FE als auch das RE-Modell tragen zudem der Tatsache Rechnung, dass Personen im Rahmen des Panels mehrfach beobachtet werden und diese personenspezifischen Beobachtungen statistisch nicht unabhängig sind

Regressionsmodelle für Paneldaten: FE und RE

Der Ausgangspunkt der FE-Regression ist folgendes Fehlerkompo- nentenmodell:

y

it

x + v

1

it

i

it

Hier wird der Fehlerterm (u) aufgeteilt in einen personenspezifischen Fehler, der zeitkonstant ist (v i ) und einen ideosynkratischen Fehler (ε it ).

Diese Gleichung kann über die Zeit für jede Person i gemittelt werden, so dass sie sich ausschließlich auf die Varianz zwischen Personen bezieht:

y

i

x + v

1

i

i

i

Wird die zweite von der ersten Gleichung abgezogen, ergibt sich das FE-Modell:

Regressionsmodelle für Paneldaten: FE und RE

y

it

y ( x x ) +ε −ε

i

1

it

i

it

i

Im Unterschied zur OLS-Regression werden in der fixed-effects Gleichung die abhängige Variable y und die unabhängige Variable x in der Form ihrer Abweichungen vom personenspezifischen Mittelwert repräsentiert (nur die Varianz innerhalb von Personen ist also von Interesse)

Bezogen auf die Abbildung in Folie 4 wird mit dem FE-Modell folglich ausschließlich überprüft, inwieweit die Heirat die Zufriedenheit erhöht (within)

Die Tatsache, dass Personen, die heiraten, vor der Heirat bereits zufriedener sind (between), beeinflusst diese Schätzung nicht

Regressionsmodelle für Paneldaten: FE und RE

Eine der wichtigsten Eigenschaften des FE-Modells ist, dass der zeitkonstante personenspezifische Fehler (v i ) durch die Subtraktion der beiden Gleichungen eliminiert wird

Dies ist aus folgenden Gründen zentral: Es gibt möglicherweise

zeitkonstante Faktoren (repsentiert durch v

i ),

di

e zu e

in

e

r

Selbstselektion führen, also sowohl die Wahrscheinlichkeit einer Heirat

und den Ausgangswert der abhängigen Variablen (Lebenszufriedenheit) beeinflussen

Zum Beispiel sind westdeutsche Personen gleichzeitig im Durchschnitt zufriedener als ostdeutsche und heiraten häufiger

Diese zeitkonstanten Personenmerkmale (z.B. auch Persönlich- keit, Kindheitserfahrungen, Geburtskohorte, genetische Eigenschaften usw.) können entweder beobachtet oder unbeobachtet sein

Regressionsmodelle für Paneldaten: FE und RE

Der wesentliche Vorteil des FE-Modells besteht darin, dass die Einflüsse von allen zeitkonstanten Merkmalen kontrolliert werden, gleichgültig, ob sie beobachtet werden oder nicht!

Dieser Vorteil geht allerdings auch mit Nachteilen einher: Erstens hat das FE-Modell in der Regel eine geringere statistische Power“ als z.B. das RE-Modell, da es nur auf der within-Varianz basiert (d.h., dass die Effekte tendenziell seltener signifikant werden)

Zweitens können im FE-Modell keine zeitkonstanten Variablen (z.B. Geschlecht, Ost/West, etc.) aufgenommen werden

Die nachfolgende Folie zeigt das Ergebnis einer fixed-effects Regression der Heirat auf die Zufriedenheit

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 24

Regressionsmodelle für Paneldaten: FE und RE

Zunächst zu den Syntaxbefehlen oberhalb der Tabelle: mit „tsset“ wird der Datensatz in STATA zu einem Paneldatensatz erklärt

Mit der Angabe der „id“ wird festgelegt, welche personenspezifischen Beobachtungen zusammengehören

Mit „wave“ wird die Variable definiert, die angibt, um welchen Messzeitpunkt es sich handelt

STATA teilt mit, dass im Datensatz 5 Personen enthalten sind („id, 1 to 5“) und es 4 Wellen gibt („wave, 1 to 4“)

Der Befehl für eine fixed-effets Regression lautet xtreg zf (abhängige Variable) heirat (unabhängige Variable), fe (für fixed-effects)

Regressionsmodelle für Paneldaten: FE und RE

Das wichtigste Ergebnis des Outputs ist, dass die Heirat laut FE-Modell einen positiven Effekt auf die Lebenszufriedenheit in Höhe von b = 1,95 hat. Dies ist der tatsächliche (kausale) Effekt

Damit wird deutlich, dass die OLS-Regression den Einfluss der Heirat deutlich überschätzt (b = 4,03).

Der Output enthält noch einige weitere Bestandteile, die nicht selbsterklärend sind, d.h. in normalen OLS-Regressionen nicht vorkommen

Bei „sigma_u“ handelt es sich um die between-subject Standard- abweichung, die in der FE-Schätzung kontrolliert wird

„sigma_e“ bezieht sich entsprechend auf die within-subject Standardabweichung

Regressionsmodelle für Paneldaten: FE und RE

Bei „rho“ handelt es sich um den sog. Intraklassenkorrelations- koeffizienten. Er gibt diesem Modell den Anteil der personenspezifischen (between) Varianz an der Gesamtvarianz wieder

Der Intraklassenkorrelationskoeffizient wird allgemein in hierarchisch strukturierten Daten (d.h. Mehrebenendaten) angewendet. Paneldaten sind Mehrebenendaten: Ebene 1 ist die Zeit (within) und Ebene 2 entspricht den Personen (between)

Die Berechnung von rho lautet wie folgt:

s igma _ u ²

rho =

+

sigma _ u ² sigma _ e ²

Nach Kontrolle der Variablen „heirat“ geht im Beispiel 98% der Gesamtfehlervarianz auf between-Varianz zurück

Regressionsmodelle für Paneldaten: FE und RE

Ein weiterer nützlicher Bestandteil des Outputs ist die Korrelation zwischen den personenspezifischen Konstanten (u_i, s.u.) und der unabhängigen Variable x (hier: Heirat)

Diese wird hier mir r = .53 angegeben

Dies zeigt direkt an, dass Selbstselektion vorliegt: diejenigen Personen, die zufriedener sind, heiraten eher

Wäre die Korrelation negativ würde dies entsprechend bedeuten, dass Personen, die zufriedener sind, eher nicht heiraten

Aber nochmal: Das Schätzergebnis des FE-Modells wird durch die Korrelation der zeitkonstanten Personeneigenschaften mit der unabhängigen Variablen nicht beeinflusst (dies ist beim RE-Modell anders, s.u.)

Regressionsmodelle für Paneldaten: FE und RE

Darüber hinaus werden drei R²-Werte ausgewiesen. Das between-R² ist die quadrierte Korrelation zwischen dem personenspezifischen Mittelwert (über alle Wellen) von y und dem vorhergesagten personenspezifischen Mittelwert von y

Das overall-R² ist die quadrierte Korrelation zwischen den y-Werten und den vorhergesagten y-Werten

Das within-R² ist im Rahmen der FE-Schätzung am wichtigsten. Es sagt aus, dass die Veränderung der Lebenszufriedenheit durch die Variable „heirat“ zu fast 90% erklärt werden kann

Unterhalb der Tabelle wird ferner ein zusätzlicher F-Test ausgewiesen, der die Nullhypothese „alle u_i sind = 0“ testet

Regressionsmodelle für Paneldaten: FE und RE

Um den Zweck dieses Tests zu verdeutlichen, wird nun erläutert, dass das FE-Modell auch auf eine andere Weise geschätzt werden kann (durch ein sog. least quares dummy variable (LSDV) model)

Auf der nächsten Folie ist eine ganze normale OLS-Regression auf die Zufriedenheit dargestellt, in der neben der unabhängigen Variablen „heirat“ vier Dummy-Variablen für 4 der 5 Personen im Datensatz enthalten sind (die fünfte Person ist die Referenz)

Der Effekt des Dummys „dp1“ (b = -1,1) bedeutet also, dass die erste Person – verglichen mit der fünften – eine geringere durchschnittliche Zufriedenheit über alle Wellen aufweist

Wichtig ist, dass der geschätzte Effekt der Heirat auf die Zufriedenheit exakt derselbe ist wie im FE-Modell, das mit xtreg geschätzt wurde (b = 1,95). Dies gilt auch für den Standardfehler und den t-Wert

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 31

Regressionsmodelle für Paneldaten: FE und RE

Die Ergebnisse stimmen exakt überein, da in der OLS-Regression alle zeitkonstanten Eigenschaften der Personen (z.B. ihre Persönlichkeit) über die Dummy-Variablen kontrolliert werden

Der multivariate Effekt der zeitveränderlichen Variablen „heirat“ bezieht sich dadurch ausschließlich auf Veränderungen innerhalb einer Person, also die within-Varianz

Nun wird verständlich, was im FE-Modell der F-Test für die Nullhypothese „alle u_i = 0“ bedeutet

Die „u_i“ sind die personenspezifischen Dummy-Variablen

Da die Nullhypothese, dass alle diese Dummy-Variablen einen Effekt von 0 haben, nicht abgelehnt werden kann (F = 143,1, p < .001, siehe Folie 24), liegt unbeobachtete personenspezifische Heterogenität vor, die nicht zu vernachlässigen ist

Regressionsmodelle für Paneldaten: FE und RE

Ein Nachteil des FE-Modells besteht wie gesagt darin, dass die Effekte von zeitkonstanten Variablen nicht geschätzt werden können

Dies ist im Rahmen des RE -Modells möglich, dass alternativ zum FE- Modell im Rahmen von xtreg zur Verfügung steht

Das random-effects Modell hat folgende Form:

y

i

t

=β +β x + v

0

1

i

t

i

i

t

Es handelt sich hier somit ebenfalls um ein Fehlerkomponentenmodell mit einem zeitkonstanten personenspezi ischen Fehler (v i ) und einem

f

idiosynkratrischen Fehler (ε it ), der über die Zeit und über Personen variiert

Regressionsmodelle für Paneldaten: FE und RE

Der Unterschied zum FE-Modell besteht in der Behandlung von v i

Die zeitkonstanten, personenspezifischen Einflüsse (v ) werden im RE- Modell nicht – wie z.B. im LSDV-Modell über Dummy-Variablen – fix geschätzt

Stattdessen wird angenommen, dass v i eine normalverteilte „latente“ Variable ist. Geschätzt wird lediglich die Varianz dieser latenten Variablen (deshalb random effects)

Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schätzung der Parameter

i

Dies hat einige wichtige Konsequenzen für die Voraussetzungen des Modells und seine Interpretation:

Regressionsmodelle für Paneldaten: FE und RE

Die Effekte im RE-Modell sind eine Mischung aus between- und within- Schätzungen

Dies bedeutet im Beispiel, dass im RE-Modell implizit davon ausgegangen wird, dass

a) sowohl der die Zufriedenheit steigernde Effekt einer Heirat (within),

b) als auch die Tatsache, dass Personen, die heiraten, generell zufriedener sind (between),

dazu beitragen, dass zwischen Heirat und Zufriedenheit ein positiver Zusammenhang besteht

Regressionsmodelle für Paneldaten: FE und RE

Eine wichtige Annahme im RE-Modell ist, dass die Korrelation zwischen den zeitkonstanten Personeneinflüssen v i und der bzw. den unabhängigen Variablen 0 ist: Corr (x it , v i ) = 0

Das Modell funktioniert also nur, wenn es „irrelevante“ personen- spezifische Heterogenität gibt, die nicht mit den unabhängigen Variablen korreliert

Im Beispiel bedeutet dies, dass es keine Selbstselektion in den Daten geben dürfte, um mit einem RE-Modell zu verzerrungsfreien Schätzungen zu kommen

D.h. Personen, die heiraten, rften nicht vor der Heirat bereits im Durchschnitt zufriedener sein

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 37

Regressionsmodelle für Paneldaten: FE und RE

Im Ergebnis zeigt sich, dass der positive Effekt der Heirat auf die Zufriedenheit im RE-Modell – trotz Selbstselektion – nur unwesentlich überschätzt wird (b = 1,99 versus b = 1,95 im FE-Modell)

Wie groß der Bias des RE-Schätzers ist, hängt in erster Linie davon ab, wie groß die Varianz zwischen Personen im Verhältnis zur Varianz innerhalb von Personen ist

Je größer die Varianz zwischen Personen im Verhältnis zur Varianz innerhalb von Personen ist (je mehr Heterogenität es also zwischen Personen gibt), desto weniger verzerrt ist der RE- gegenüber dem FE- Schätzer

Im STATA-Output gibt der Koeffizient „theta“ über das Varianzverhältnis Auskunft. Wenn die between-Varianz (sigma_u) deutlich größer ist als die within-Varianz (sigma_e), tendiert theta zu 1

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Dies ist im Beispiel auf Folie 36 der Fall, wo

Dies ist im Beispiel auf Folie 36 der Fall, wo theta = .88 ist

Links ist ein zweiter Datensatz dargestellt, in dem es deutlich mehr Varianz innerhalb von Personen gibt

Bei Personen, die heiraten, wurde nichts verändert

Personen, die nicht heiraten, sind nun jedoch nicht nur im Durchschnitt unzufriedener, sondern verändern sich stärker über die Zeit (mehr within-Varianz)

Regressionsmodelle für Paneldaten: FE und RE

Die nächste Folie zeigt, dass in dem veränderten Datensatz mit mehr within-Varianz deutliche Unterschiede zwischen der FE- und der RE- Schätzung auftreten

Der kausale positive Effekt der Heirat auf die Zufriedenheit wird im FE- Modell weiterhin korrekt geschätzt (b = 1,95)

Das RE-Modell überschätzt den Effekt nun dagegen stark (b = 3,41) und kommt in die Nähe der ursprünglichen OLS-Schätzung (b = 4,03)

Das RE-Modell ist im veränderten Datensatz also nicht mehr dazu geeignet, um den kausalen Effekt der Heirat verzerrungsfrei zu schätzen

Regressionsmodelle für Paneldaten: FE und RE

Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 41
Regressionsmodelle für Paneldaten: FE und RE Panelanalyse 41

Regressionsmodelle für Paneldaten: FE und RE

Hierzu abschließend noch eine formellere Darstellung. Das RE-Modell ist nichts anderes als eine gepoolte OLS-Regression auf die in der folgenden Weise transformierten Daten:

y

it

[

−θ y (1 −θ) ( x −θ x ) + (1 −θ) v +ε −θε

i

0

1

it

i

i

it

i

]

Auffällig ist die Ähnlichkeit mit der Formel für das FE-Modell (s.o) – mit dem Unterschied, dass zusätzlich theta (θ) in der Gleichung enthalten ist

theta ist wie folgt definiert (T = Anzahl der Panelwellen):

sigma _ e ² θ= − 1 T * sigma _ u ² sigma _
sigma _ e ²
θ= −
1
T * sigma _ u ² sigma _ e ²
+

Regressionsmodelle für Paneldaten: FE und RE

Wenn also θ = 1 ist, entspricht das RE-Modell dem FE-Modell (in der Gleichung werden die Konstante β 0 und alle zeitkonstanten personenspezifischen Einflüsse v i eliminiert)

Wenn θ = 0 ist, entspricht das RE-Modell einer OLS-Regression

θ tendiert zu 1, wenn die Varianz zwischen den Personen (sigma_u²) deutlich größer ist als die Varianz innerhalb von Personen

θ tendiert entsprechend zu 0, wenn die Varianz innerhalb (sigma_e²) deutlich größer ist als die Varianz zwischen Personen; insbesondere in dieser Situation kann es dazu kommen, dass der RE-Schätzer verzerrt ist

Die Formel zeigt außerdem, dass sich das RE- und das FE-Modell mit steigender Anzahl von Panelwellen (T) einander annähern

Ein Beispiel mit SOEP-Daten

Alle bisherigen Folien bezogen sich auf ein konstruiertes Beispiel mit nur 5 Personen; im Folgenden wird zu derselben Fragestellung eine kleine Analyse mit vier Wellen des SOEP (1998 bis 2001) durchgeführt

Gegenstand der Analyse sind Frauen und Männer, die im Jahr 1998 ledig und 18 Jahre oder älter sind. Die Fragestellung lautet, ob eine Heirat die allgemeine Lebenszufriedenheit erhöht (gemessen von 1- 10, 10 = sehr zufrieden)

Beginnen wir mit einem RE-Modell, dessen Output auf der nächsten Folie dargestellt ist

Laut dieser Schätzung hat die Heirat einen positiven Effekt auf die Lebenszufriedenheit in Höhe von b = 0,145.

Ein Beispiel mit SOEP-Daten

Ein Beispiel mit SOEP-Daten Panelanalyse 45

Ein Beispiel mit SOEP-Daten

Das RE-Modell kann um weitere zeitkonstante und zeitveränderliche Variablen erweitert werden

Im Folgenden werden daher zunächst drei Dummy-Variablen für die ersten drei untersuchten Wellen eingeführt; die vierte Welle ist die Referenz

Es ist immer eine gute Idee, mögliche Periodeneffekte zu kontrollieren. Wenn sich z.B. zu einem bestimmten Zeitpunkt die Lebenszufriedenheit bei allen Personen systematisch verändert, können die Schätzungen für Effekte einzelner Kovariaten verzerrt werden

Außerdem werden die zeitkonstanten Variablen Geschlecht und Ost/West berücksichtigt

Ein Beispiel mit SOEP-Daten

Ein Beispiel mit SOEP-Daten Panelanalyse 47

Ein Beispiel mit SOEP-Daten

Auch nach Kontrolle der genannten Kovariaten verbleibt ein positiver Effekt der Heirat, der sich sogar leicht verstärkt (b = 0,156)

Außerdem zeigt sich, dass es keine signifikanten Periodeneffekte gibt (gemessen über die Dummys nwave1-nwave3), Männer (sex=1) über alle Panelwellen tendenziell unzufriedener sind als Frauen und ostdeutsche Personen (ow=1) deutlich unzufriedener als westdeutsche

Ob der positive Effekt der zeitveränderlichen Variablen Heirat auf die Lebenszufriedenheit kausal ist, lässt sich im RE-Modell jedoch nicht mit Sicherheit beantworten

Da im RE-Modell auch die Varianz zwischen Personen berücksichtigt wird, kann es zu Selektionseffekten kommen (Personen, die heiraten, sind vor der Heirat bereits zufriedener)

Ein Beispiel mit SOEP-Daten

Das Vorliegen von Selektionseffekten kann überprüft werden, indem ein FE-Modell mit der unabhängigen Variablen „heirat“ berechnet und die Korrelation zwischen u_i und x interpretiert wird

Im Beispiel ist diese Korrelation für Frauen leicht positiv (r = .08, nicht dargestellt), zufriedene Frauen heiraten also offenbar eher (für Männer zeigt sich dagegen eine leicht negative Korrelation)

Eine zweite Möglichkeit besteht darin, die Lebenszufriedenheit im Jahr 1998, d.h. zu einem Zeitpunkt, wo alle Personen noch ledig sind, zwischen Personen zu vergleichen, die in den nächsten drei Wellen heiraten oder nicht

Es bestätigt sich, dass Männer, die heiraten, signifikant zufriedener sind als die Vergleichsgruppe (7,5 vs. 7,07). Das gleiche gilt für Frauen (7,5 versus 7,16). Es gibt also in der Tat eine Selbstselektion

Ein Beispiel mit SOEP-Daten

Der potentielle Bias, der durch diese Selektion entstehen kann, würde nur dann nicht ins Gewicht fallen, wenn die between-Varianz deutlich größer wäre als die within-Varianz

Der Output lässt jedoch bereits erkennen, dass das Verhältnis der beiden Varianzen ausgeglichen ist (rho = .48)

Um die Ergebnisse abzusichern, wird daher eine FE-Schätzung durchgeführt, in die zusätzlich Dummys für die Panelwellen einfließen; alle zeitkonstanten Variablen (Geschlecht, Ost/West) können dabei nicht mehr berücksichtigt werden

Die Ergebnisse zeigen, dass eine Heirat laut FE-Schätzung keinen kausalen Effekt auf die Lebenszufriedenheit hat; der RE-Schätzer ist demzufolge nach oben hin verzerrt!

Ein Beispiel mit SOEP-Daten

Ein Beispiel mit SOEP-Daten Panelanalyse 51

Ein Beispiel mit SOEP-Daten

Die bisherigen Ergebnisse deuten darauf hin, dass im vorliegenden Fall ein RE-Modell nicht angemessen ist

Es gibt zusätzlich einen formellen Test (sog. Hausman-Test) mit dem überprüft werden kann, ob der RE-Schätzer gegenüber dem FE- Schätzer verzerrt ist

Dazu müssen im Anschluss an die RE- bzw. FE-Regression (jeweils nur mit der unabhängigen Variablen „heirat“) die Schätzergebnisse im Datensatz abgespeichert werden (Befehl: „estimates store fixed“, wobei „fixed“ ein vom Benutzer frei wählbarer Name ist)

Der Befehl für den Hausman-Test lautet dann: hausman fixed random

Auf der nächsten Folie sind die Ergebnisse dargestellt

Ein Beispiel mit SOEP-Daten

Ein Beispiel mit SOEP-Daten Panelanalyse 53

Ein Beispiel mit SOEP-Daten

Der Hausman-Test testet die Nullhypothese, dass die Koeffizienten, die durch das RE-Modell für eine zeitveränderliche Variable geschätzt werden, dieselben sind wie im FE-Modell

Wenn dies der Fall ist, ist der unten angegebene χ²-Wert insignifikant (p > .05) und es ist unproblematisch, ein RE-Modell anzuwenden

Wenn der χ²-Wert dagegen signifikant ist (wie in unserem Beispiel: χ² = 26,6, df = 1, p < .05), sollte man an ein FE-Modell bevorzugen

Inhaltlich ergibt sich damit im Beispiel eine Enttäuschung: Ein signifikanter positiver kausaler Effekt der Eheschließung auf die allgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruck nicht nachgewiesen werden

Ein Beispiel mit SOEP-Daten

Abschließend soll noch erwähnt werden, dass auch zeitkonstante Kovariate (z.B. das Geschlecht) – in der Form von Interaktionseffekten mit zeitveränderlichen Kovariaten in das FE-Modell aufgenommen werden können

Auf der nächsten Folie geht der Interaktionseffekt sex*heirat, genannt „int2“, in das Modell ein

Es zeigt sich, dass der Effekt der Eheschließung bei Frauen (sex=0) der Richtung nach positiv, aber nicht signifikant ist (b = 0,09)

Bei Männern ist er dagegen der Richtung nach sogar negativ (b = 0,09 – 0,18 = -0,09); der Unterschied zwischen Männern und Frauen ist jedoch ebenfalls nicht signifikant (p = 0,15)

Zu beachten ist, dass im Unterschied zu normalen Regressionsmodellen – der Haupteffekt der zeitkonstanten Variablen sex nicht mit ins Modell aufgenommen wird

Ein Beispiel mit SOEP-Daten

Ein Beispiel mit SOEP-Daten Panelanalyse 56

Zwischenfazit: FE oder RE?

In vielen Anwendungssituationen wird die zentrale Voraussetzung des RE-Modells, dass die unabhängigen Variablen nicht mit den zeitkonstanten Personeneigenschaften (v i ) korrelieren, verletzt sein

Um in diesen Fällen unverzerrte Schätzer zu erhalten, sollte man das FE-Modell nutzen

Das RE-Modell schätzt zwar die Effekte von zeitkonstanten Kovariaten. Der eigentliche Sinn von Panelanalysen besteht jedoch nicht in der Analyse der between-Varianz, die auch im Querschnitt ausgewertet werden kann

Um die Stärke der Paneldaten voll zu nutzen, sollte man sich vielmehr auf die Effekte von einigen wenigen zeitveränderlichen Variablen, die dichotom oder auch metrisch sein können, konzentrieren und das FE- Modell konsequent anwenden

Zwischenfazit: FE oder RE?

Weitere Vorteile des FE- gegenüber dem RE-Modell bestehen darin, dass die Schätzung auch dann robust bleibt, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es Panelmortalität gibt, die mit zeitkonstanten Personeneigenschaften (v i ) systematisch zusammenhängt

Das FE-Modell kann darüber hinaus auch bei dichotomen oder ordinalen abhängigen Variablen oder im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen Überblick gibt Allison 2001)

Zudem besteht die Möglichkeit einer Hybrid-Methode, in der FE- und RE-Schätzungen kombiniert werden (siehe Allison 2001: 23ff)

Für weiterführende Informationen zur Panelanalyse siehe die Literaturangaben

Ein FE-Modell für zwei Wellen

Ferner wird nun kurz vorgestellt, wie man ein FE-Modell für eine metrische AV auf einfache Weise schätzen kann, wenn man nur über Daten aus zwei Panelwellen verfügt

Hier kann auf die sog. Differenzscore-Regression zurückgegriffen werden:

(y

i2

- y ) x

i1

1

i

i

Eine Umstrukturierung der Daten ins long-Format ist nicht notwendig. Vielmehr wird zunächst der Wert der abhängigen Variablen zum zweiten Messzeitpunkt vom Wert zum ersten Messzeitpunkt abgezogen (dies ist der Differenzscore)

Auf diesen Differenzscore wird dann eine einfache OLS-Regression berechnet

Ein FE-Modell für zwei Wellen

Die Differenzscore-Regression hat die gleichen Eigenschaften wie ein FE-Modell für mehr als zwei Wellen:

Es können nur zeitveränderliche unabhängige Variablen verschiedenen Messniveaus bereücksichtigt werden, wobei metrische unabhängige Variablen ebenfalls als Differenzscore einfließen

Zusätzlich besteht die Möglichkeit, Interaktionseffekte zwischen zeitkonstanten und zeitabhängigen Kovariaten zu modellieren

Auch die Differenzscore-Regression weist den wesentlichen Vorteil aller FE-Modelle auf, dass ausschließlich die within-Varianz ausgewertet wird und die Schätzung von allen zeitkonstanten Personeneigenschaften (und damit von einigen potentiellen Selektionseffekten) unbeeinflusst bleibt

Ein FE-Modell für zwei Wellen

Die folgende Folie zeigt ein mit SPSS berechnetes Beispiel

Die abhängige Variable ist die Ruhestandsorientierung 1996 (t ) und 2000 (t 2 ); die Ruhestandsorientierung 2000 wird von der Ruhestandsorientierung 1996 abgezogen

Die unabhängige Variable ist die Beteiligung an beruflicher Weiterbildung im Zeitraum 1997-1999 (1 = ja, 0 = nein)

1

Im Ergebnis zeigt sich, dass sich die Ruhestandsorientierung durch die Weiterbildung leicht reduzieren zu scheint (b = -0,103)

Der altersbedingte allgemeine Anstieg der Ruhestandsorientierung wird in diesem Modell kontrolliert, da es sich um eine difference-in-difference- Schätzung handelt (siehe Folie 12); d.h. die Veränderung über die Zeit in der Gruppe der Nichtteilnehmer (siehe Konstante) wird kontrolliert

Ein FE-Modell für zwei Wellen

Koeffizienten a

   

Standardisiert

   

Nicht standardisierte Koeffizienten

e

Koeffizienten

 

Standardf

 

Modell

B

ehler

Beta

T

Signifikanz

1

(Konstante) Zwischen t1 und t2 an Weiterbildung teilgenommen

,

095

,

018

 

5 165

,

,

000

-,103

,035

-,041

-2,966

,003

a. Abhängige Variable: Ruhestandsorientierung t2 - t1

Literaturempfehlungen

Einführungen:

Allison, P.D. (1994): Using panel data to estimate the effects of events. Sociological Methods & Research, 23, 174-199.

Halaby, C. (2004): Panel models in sociological research. Annual Review of Sociology, 30, 507-544.

FE-Modelle:

Allison, P.D. (2001): Fixed effects regression models. Sage University paper series in quantitative applications in the social sciences; 160. Thousand Oaks: Sage

Überblickspapier über RE- und FE-Modelle:

Brüderl, Josef: Panel data analysis (http://www.sowi.unimannheim.de/lehrstuehle/lessm/veranst/Panelanalyse.pdf)

Technische Einführung:

Wooldrige, J. (2003): Introductory econometrics: A modern approach. Thomson.

Speziell zur Zwei-Wellen-Panel-Analyse:

Johnson, D. (2005): Two-wave panel analysis: Comparing statistical methods for studying the effects of transitions. Journal of Marriage and Family, 67, 1061-1075.