Sie sind auf Seite 1von 63

Institut fr Soziologie Professur fr empirische Sozialforschung Prof. Dr. Johannes Kopp pp Dr.

Daniel Lois

Einfhrung in die Panelanalyse


Stand: Juli 2009

Inhaltsverzeichnis
1. Panel-Analyse: Grundlagen 2. Regressionsverfahren fr Paneldaten: FE und RE 3. Ein Beispiel mit SOEP-Daten 4. Zwischenfazit: FE oder RE? 5 Ein FE 5. FE-Modell Modell fr zwei Wellen 6. Literaturempfehlungen 3 16 44 57 59 63

3 Ereignisdatenanalyse

Panel-Analyse: Grundlagen
Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen Paneldaten haben gegenber Querschnittdaten mehrere Vorteile: Sie erlauben die Analyse von individuellen Entwicklungen, da es neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden und Ereignissen Sie erlauben die Kontrolle unbeobachteter individueller Heterogenitt Sie sind informativer (enthalten z.B. mehr Variabilitt und Freiheitsgrade)

Panelanalyse

Panel-Analyse: Grundlagen
Ein Beispiel: Grundlage ist ein Datensatz von 5 Personen mit Partner, die noch nicht verheiratet sind Die abhngige Variable ist die Lebenszufriedenheit (10-fach abgestuft von 1 = sehr unzufrieden bis 10 = sehr zufrieden) Die unabhngige Variable ist die Heirat Auf der nchsten Folie ist die Entwicklung der Lebenszufriedenheit bei diesen 5 Personen ber 4 Panelwellen dargestellt Die gestrichelten Linien stehen fr Personen, die jeweils zwischen Welle 2 und 3 heiraten Die durchgezogenen Linien reprsentieren Personen, die innerhalb des Beobachtungszeitraums nicht heiraten

Panelanalyse

Panel-Analyse: Grundlagen
12 10 L Lebenszufried denheit 8 6 4 2 0 1 2 Panelwelle 3 4

Positiver Effekt der Heirat

Keine Heirat Heirat zwischen Welle 2 und 3

Selbstselektion: Personen, die heiraten, sind bereits vor der Heirat zufriedener

Panelanalyse

Panel-Analyse: Grundlagen
Die Abbildung deutet auf das Vorliegen von drei Effekten hin: E Erstens t gibt ibt es einen i schwachen h h ZeitZ it oder d P Periodeneffekt i d ff kt, da d di die Lebenszufriedenheit ber die Zeit hinweg tendenziell abfllt Zweitens finden sich Hinweise auf eine Selbstselektion: Diejenigen Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die Personen, die nicht heiraten D Drittens itt zeigt i t sich i h ein i kausaler k l (positiver) ( iti ) Effekt Eff kt der d H Heirat i t auf f di die Zufriedenheit. Diese erhht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich. In der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht

Panelanalyse

Panel-Analyse: Grundlagen
Das Beispiel verdeutlicht, dass bei Paneldaten verschiedene Quellen von o Heterogenitt ete oge tt d differenziert e e e t werden e de mssen sse Es gibt nicht nur wie bei Querschnittdaten Varianz zwischen den Personen (Personen, die heiraten, sind zufriedener) Zustzlich entsteht durch die wiederholte Befragung im Panel Varianz innerhalb von Personen (Personen werden durch die Heirat zufriedener) E Entsprechend t h d di dieser V Varianzquellen i ll sind i dR Regressionsverfahren i f h f fr Paneldaten entwickelt worden, die entweder nur die Varianz zwischen Personen (between), die Varianz innerhalb von Personen (within) oder beides nutzen Diese Verfahren werden entlang dieser Logik im vorliegenden Skript kurz vorgestellt wobei der Schwerpunkt auf Modelle fr metrische abhngige vorgestellt, Variable liegt

Panelanalyse

Panel-Analyse: Grundlagen
Varianz zwischen Personen steht bereits in Querschnittdaten zur V f Verfgung Der Hauptvorteil von Paneldaten besteht daher in der Erzeugung von Varianz innerhalb von Personen Es besteht also die Mglichkeit von Quasi-Experimenten: Wir interessieren uns dafr, wie sich Personen im Hinblick auf eine abhngige bh i V Variable i bl ( (z.B. B L Lebenszufriedenheit) b f i d h it) verndern, d di die z.B. B ein i Ereignis (hier: Heirat) zwischen den Befragungswellen erleben (Experimentalgruppe) oder nicht (Vergleichsgruppe) Im Rahmen von Panelanalysen kann also im Gegensatz zu Querschnittdaten der kausale Effekt eines treatments (z.B. eines Ereignisses) auf die abhngige Variable bestimmt werden

Panelanalyse

Panel-Analyse: Grundlagen
Hierzu eine etwas formellerer Exkurs: Wir interessieren uns fr den kausalen Effekt eines treatments T (hier: Heirat) auf eine abhngige Variable y (hier: Lebenszufriedenheit) Wenn i das jeweilige Individuum bezeichnet, t ein Zeitindex ist und C fr die Messung vor dem treatment steht, steht schtzen wir mit Querschnittdaten folgendes (sog. between-estimation):
C yT y i ,t 0 j, t 0

Geschtzt wird also die Differenz bei der abhngigen Variablen zwischen Personen, die das treatment zum Zeitpunkt t0 erlebt haben und anderen Personen, die es zum Zeitpunkt t0 noch nicht erlebt haben

Panelanalyse

Panel-Analyse: Grundlagen
Der tatschliche kausale Effekt des treatments wird hier nur dann korrekt geschtzt, wenn sich die Personen der Gruppen i und j nicht im Hinblick auf unbeobachtete Merkmale unterscheiden Da es sich hierbei in der Regel um eine unrealistische Annahme handelt wird auf Paneldaten zurckgegriffen handelt, zurckgegriffen. Hier wird die sog sog. withinSchtzung durchgefhrt:
C yT y i , t1 i ,t 0

Geschtzt wird also, wie sich die abhngige Variable zum Zeitpunkt t1 im Vergleich zum ersten Messzeitpunkt t0 vor dem treatment bei denselben Personen verndert hat (deswegen within, Varianz innerhalb von Personen) )

Panelanalyse

10

Panel-Analyse: Grundlagen
Der tatschliche kausale Effekt des treatments wird hier korrekt geschtzt, wenn es keine unbeobachtete Heterogenitt innerhalb von Personen gibt (d.h. die Personen i sich ber die Zeit bei unbeobachteten Merkmalen verndern) Auerdem knnen Periodeneffekte (z (z.B. B Alterungseffekte) die Schtzung verzerren, weshalb man eine sog. difference-in-difference Schtzung durchfhren kann:
C C C ( yT y ) ( y y i , t1 i ,t 0 j, t1 j, t 0 )

Es werden also Personen im Hinblick auf ihre Vernderung bei der abhngigen Variablen verglichen, die das treatment entweder erlebt haben ( (linke Seite) ) oder nicht ( (rechte Seite, Kontrollgruppe) g pp )

Panelanalyse

11

Panel-Analyse: Grundlagen
Verdeutlichen wir dies anhand des Beispiels der fnf Personen, die entweder heiraten oder nicht (siehe Folie 5)
Wie gro ist der kausale Effekt der Heirat auf die Lebenszufriedenheit? Dies kann mit der difference-in-difference Methode ausgerechnet werden, wobei sich das folgende Beispiel nur auf einen Vergleich der Wellen 2 und 3 bezieht fr jede Person wird die Differenz der Lebenszufriedenheit vor und nach der Heirat bzw. bei dauerhaft Ledigen zwischen den Wellen 2 und 3 berechnet diese Differenzen werden fr Personen die heiraten und fr ledige Personen gemittelt schlielich ist die Differenz der Vorher-Nachher-Differenz der Personen mit und ohne Heirat der kausale Effekt Effekt. Im Beispiel steigt die Lebenszufriedenheit durch die Heirat um 2,17 Punkte:

( 4,6 - 4,8 , ) + (3,5 - 3,8) + (6 6) (10 - 8) + (9 - 7) = -0,17 - 2 = -2,17 3 2

Panelanalyse

12

Panel-Analyse: Grundlagen
Vor der Berechnung von Regressionsmodellen mssen die Paneldaten richtig aufbereitet werden Die Ausgangssituation ist in der Regel das sog. wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt fr Personen; zeitvernderliche Variablen werden in separaten Spalten (hier: je 4) abgespeichert:

Dieser Datensatz muss nun ins long-Format umstrukturiert werden. In STATA geht dies u u.a. a ber den reshape long-Befehl, Befehl in SPSS ber den Befehl varstocases (Daten Umstrukturieren Variablen in Flle)

Panelanalyse

13

Panel-Analyse: Grundlagen
Die folgenden Befehle bewirken die Umstrukturierung vom wide- ins long-Format. j(wave) erzeugt in STATA eine neue Variable wave mit fortlaufenden Zahlen von 1-4. Zeitkonstante Variablen (z.B. Geschlecht) mssen im reshape long Befehl nicht explizit aufgefhrt werden. STATA: reshape long zf heirat, heirat i(id) j(wave) SPSS: varstocases /make heirat from heirat1 heirat2 heirat3 heirat4 /make zf from zf1 zf2 zf3 zf4 /index = wave(4) /keep = id /null = drop. /null = drop bedeutet im SPSS-Befehl, dass Flle mit missings bei allen transponierten Variablen aus dem Datensatz entfernt werden

Panelanalyse

14

Panel-Analyse: Grundlagen
Personen flieen im longFormat nun in der Form von Zeilen mehrfach in den Datensatz ein; anstatt fnf Zeilen im wide-Format gibt es nun also 20 Zeilen (jeweils vier pro Person) Pro Variable gibt es im longlong Format jedoch nur noch eine Spalte Die ID ist notwendig, um die personenspezifischen Beobachtungen g identifizieren zu knnen

Panelanalyse

15

Regressionsmodelle fr Paneldaten: FE und RE


Nun knnen wir dazu bergehen, den Effekt der Heirat (x) auf die Lebenszufriedenheit (y) mit Regressionsmodellen zu analysieren Eine erste Mglichkeit wre, eine einfache OLS-Regression mit den gepoolten Daten zu berechnen (i steht fr Personen, t fr Messzeitpunkte bzw. bzw Panelwellen und u fr den Fehlerterm):

y it = 0 + 1x it + u it
Das Ergebnis ist auf der nchsten Folie dargestellt. Laut diesem Modell fhrt eine Heirat dazu, dass sich die Lebenszufriedenheit um 4,03 Punkte erhht Wie wir noch sehen werden, ist dieses Ergebnis stark verzerrt und gibt nicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheit wieder

Panelanalyse

16

Regressionsmodelle fr Paneldaten: FE und RE

Panelanalyse

17

Regressionsmodelle fr Paneldaten: FE und RE


Dies liegt daran, dass sich der Effekt der Heirat (b = 4,03) in der OLSRegression aus zwei Quellen speit: erstens fliet ein, dass die Heirat die Zufriedenheit erhht (within-Varianz) Zweitens gibt es insofern eine Selektion, da Personen, die heiraten, im Durchschnitt bereits zufriedener sind (between-Varianz) Technisch gesehen besteht das Problem darin, dass durch die Selbstselektion der Fehlerterm u mit der unabhngigen Variablen x (Heirat) korreliert, wodurch eine der Annahmen der OLS-Regression verletzt wird Um die Frage zu beurteilen, beurteilen inwiefern die Heirat die Zufriedenheit erhht, muss daher auf geeignetere Verfahren zurckgegriffen werden

Panelanalyse

18

Regressionsmodelle fr Paneldaten: FE und RE


Im Folgenden werden zwei Regressionsmodelle fr Paneldaten vorgestellt: das fixed-effects (FE) Modell und das random-effects (RE) Modell Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitvernderlichen Kovariaten (z.B. (z B von Ereignissen) auf eine metrische abhngige Variable zu identifizieren. Es basiert ausschlielich auf der Varianz innerhalb von Personen In das RE-Modell fliet sowohl die Varianz zwischen als auch innerhalb von Personen ein. In diesem Verfahren knnen auch zeitkonstante Variablen bercksichtigt werden Sowohl das FE als auch das RE-Modell tragen zudem der Tatsache Rechnung, dass Personen im Rahmen des Panels mehrfach beobachtet werden und diese personenspezifischen Beobachtungen statistisch nicht unabhngig sind

Panelanalyse

19

Regressionsmodelle fr Paneldaten: FE und RE


Der Ausgangspunkt der FE-Regression ist folgendes Fehlerkomponentenmodell:

y it = 1x it + v i + it
Hier wird der Fehlerterm (u) aufgeteilt in einen personenspezifischen Fehler, der zeitkonstant ist (vi) und einen ideosynkratischen Fehler (it). Diese Gleichung kann ber die Zeit fr jede Person i gemittelt werden, so dass sie sich ausschlielich auf die Varianz zwischen Personen bezieht:

y i = 1x i + v i + i
Wird die zweite von der ersten Gleichung abgezogen, ergibt sich das FE-Modell:
Panelanalyse 20

Regressionsmodelle fr Paneldaten: FE und RE

y it y i = 1 ( x it x i ) + it i
Im Unterschied zur OLS-Regression werden in der fixed-effects Gleichung die abhngige Variable y und die unabhngige Variable x in der Form ihrer Abweichungen vom personenspezifischen Mittelwert reprsentiert (nur die Varianz innerhalb von Personen ist also von Interesse) Bezogen auf die Abbildung in Folie 4 wird mit dem FE-Modell folglich ausschlielich berprft, inwieweit die Heirat die Zufriedenheit erhht (within) Die Tatsache, dass Personen, die heiraten, vor der Heirat bereits zufriedener sind ( (between), ) beeinflusst diese Schtzung g nicht

Panelanalyse

21

Regressionsmodelle fr Paneldaten: FE und RE


Eine der wichtigsten Eigenschaften des FE-Modells ist, dass der zeitkonstante personenspezifische Fehler (vi) durch die Subtraktion der beiden Gleichungen eliminiert wird Dies ist aus folgenden Grnden zentral: Es gibt mglicherweise zeitkonstante Faktoren (reprsentiert durch vi), ) die zu einer Selbstselektion fhren, also sowohl die Wahrscheinlichkeit einer Heirat und den Ausgangswert der abhngigen Variablen (Lebenszufriedenheit) beeinflussen Zum Beispiel sind westdeutsche Personen gleichzeitig im Durchschnitt zufriedener als ostdeutsche und heiraten hufiger Diese zeitkonstanten Personenmerkmale (z.B. auch Persnlichkeit, Kindheitserfahrungen, Geburtskohorte, genetische Eigenschaften usw ) knnen entweder beobachtet oder unbeobachtet sein usw.)

Panelanalyse

22

Regressionsmodelle fr Paneldaten: FE und RE


Der wesentliche Vorteil des FE-Modells besteht darin, dass die Einflsse von allen zeitkonstanten Merkmalen kontrolliert werden, gleichgltig, ob sie beobachtet werden oder nicht! Dieser Vorteil geht allerdings auch mit Nachteilen einher: Erstens hat das FE-Modell in der Regel eine geringere statistische Power Power als z z.B. B das RE-Modell, da es nur auf der within-Varianz basiert (d.h., dass die Effekte tendenziell seltener signifikant werden) Zweitens knnen im FE-Modell keine zeitkonstanten Variablen (z.B. Geschlecht, Ost/West, etc.) aufgenommen werden Die nachfolgende Folie zeigt das Ergebnis einer fixed-effects fixed effects Regression der Heirat auf die Zufriedenheit

Panelanalyse

23

Regressionsmodelle fr Paneldaten: FE und RE

Panelanalyse

24

Regressionsmodelle fr Paneldaten: FE und RE


Zunchst zu den Syntaxbefehlen oberhalb der Tabelle: mit tsset wird der Datensatz in STATA zu einem Paneldatensatz erklrt Mit der Angabe der id wird festgelegt, welche personenspezifischen Beobachtungen zusammengehren Mit wave wird die Variable definiert, die angibt, um welchen Messzeitpunkt es sich handelt STATA teilt mit, mit dass im Datensatz 5 Personen enthalten sind ( (id, id 1 to 5) und es 4 Wellen gibt (wave, 1 to 4) Der Befehl fr eine fixed-effets Regression lautet xtreg zf (abhngige Variable) heirat (unabhngige Variable), fe (fr fixed-effects)

Panelanalyse

25

Regressionsmodelle fr Paneldaten: FE und RE


Das wichtigste Ergebnis des Outputs ist, dass die Heirat laut FE-Modell einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 1,95 hat. Dies ist der tatschliche (kausale) Effekt Damit wird deutlich, dass die OLS-Regression den Einfluss der Heirat deutlich berschtzt (b = 4 4,03). 03) Der Output enthlt noch einige weitere Bestandteile, die nicht selbsterklrend sind, d.h. in normalen OLS-Regressionen nicht vorkommen Bei sigma_u handelt es sich um die between-subject Standardabweichung die in der FE-Schtzung abweichung, FE Schtzung kontrolliert wird sigma_e bezieht sich entsprechend auf die within-subject Standardabweichung g

Panelanalyse

26

Regressionsmodelle fr Paneldaten: FE und RE


Bei rho handelt es sich um den sog. Intraklassenkorrelationskoeffizienten. Er gibt diesem Modell den Anteil der personenspezifischen (between) Varianz an der Gesamtvarianz wieder Der Intraklassenkorrelationskoeffizient wird allgemein in hierarchisch strukturierten Daten (d (d.h. h Mehrebenendaten) angewendet angewendet. Paneldaten sind Mehrebenendaten: Ebene 1 ist die Zeit (within) und Ebene 2 entspricht den Personen (between) Die Berechnung von rho lautet wie folgt:
rho = sigma i _ u sigma _ u + sigma _ e

Nach Kontrolle der Variablen heirat geht im Beispiel 98% der Gesamtfehlervarianz auf between-Varianz zurck

Panelanalyse

27

Regressionsmodelle fr Paneldaten: FE und RE


Ein weiterer ntzlicher Bestandteil des Outputs ist die Korrelation zwischen den personenspezifischen Konstanten (u_i, s.u.) und der unabhngigen Variable x (hier: Heirat) Diese wird hier mir r = .53 angegeben Dies zeigt direkt an, dass Selbstselektion vorliegt: diejenigen Personen, die zufriedener sind, heiraten eher Wre die Korrelation negativ wrde dies entsprechend bedeuten, bedeuten dass Personen, die zufriedener sind, eher nicht heiraten Aber nochmal: Das Schtzergebnis des FE-Modells wird durch die Korrelation der zeitkonstanten Personeneigenschaften mit der unabhngigen Variablen nicht beeinflusst (dies ist beim RE-Modell anders, s.u.) )

Panelanalyse

28

Regressionsmodelle fr Paneldaten: FE und RE


Darber hinaus werden drei R-Werte ausgewiesen. Das between-R ist die quadrierte Korrelation zwischen dem personenspezifischen Mittelwert (ber alle Wellen) von y und dem vorhergesagten personenspezifischen Mittelwert von y Das overall-R overall-R ist die quadrierte Korrelation zwischen den y-Werten und den vorhergesagten y-Werten Das within-R ist im Rahmen der FE-Schtzung am wichtigsten. Es sagt aus, dass die Vernderung der Lebenszufriedenheit durch die Variable heirat zu fast 90% erklrt werden kann Unterhalb der Tabelle wird ferner ein zustzlicher F F-Test Test ausgewiesen, der die Nullhypothese alle u_i sind = 0 testet

Panelanalyse

29

Regressionsmodelle fr Paneldaten: FE und RE


Um den Zweck dieses Tests zu verdeutlichen, wird nun erlutert, dass das FE-Modell auch auf eine andere Weise geschtzt werden kann (durch ein sog. least quares dummy variable (LSDV) model) Auf der nchsten Folie ist eine ganze normale OLS-Regression auf die Zufriedenheit dargestellt dargestellt, in der neben der unabhngigen Variablen heirat vier Dummy-Variablen fr 4 der 5 Personen im Datensatz enthalten sind (die fnfte Person ist die Referenz) Der Effekt des Dummys dp1 (b = -1,1) bedeutet also, dass die erste Person verglichen mit der fnften eine geringere durchschnittliche Zufriedenheit ber alle Wellen aufweist Wichtig ist, dass der geschtzte Effekt der Heirat auf die Zufriedenheit exakt derselbe ist wie im FE-Modell, das mit xtreg geschtzt wurde (b = 1 95) Dies gilt auch fr den Standardfehler und den t 1,95). t-Wert Wert

Panelanalyse

30

Regressionsmodelle fr Paneldaten: FE und RE

Panelanalyse

31

Regressionsmodelle fr Paneldaten: FE und RE


Die Ergebnisse stimmen exakt berein, da in der OLS-Regression alle zeitkonstanten Eigenschaften der Personen (z.B. ihre Persnlichkeit) ber die Dummy-Variablen kontrolliert werden Der multivariate Effekt der zeitvernderlichen Variablen heirat bezieht sich dadurch ausschlielich auf Vernderungen innerhalb einer Person, also die within-Varianz Nun wird verstndlich, was im FE-Modell der F-Test fr die Nullhypothese alle u_i = 0 bedeutet Die u_i sind die personenspezifischen Dummy-Variablen Da die Nullhypothese, dass alle diese Dummy-Variablen einen Effekt von 0 haben, nicht abgelehnt werden kann (F = 143,1, p < .001, siehe Folie 24), ) liegt g unbeobachtete p personenspezifische p Heterogenitt g vor, die nicht zu vernachlssigen ist

Panelanalyse

32

Regressionsmodelle fr Paneldaten: FE und RE


Ein Nachteil des FE-Modells besteht wie gesagt darin, dass die Effekte von zeitkonstanten Variablen nicht geschtzt werden knnen Dies ist im Rahmen des RE -Modells mglich, dass alternativ zum FEModell im Rahmen von xtreg zur Verfgung steht Das random-effects Modell hat folgende Form:

y it = 0 + 1x it + v i + it
Es handelt sich hier somit ebenfalls um ein Fehlerkomponentenmodell mit einem zeitkonstanten personenspezifischen Fehler (vi) und einem idiosynkratrischen Fehler (it), der ber die Zeit und ber Personen variiert

Panelanalyse

33

Regressionsmodelle fr Paneldaten: FE und RE


Der Unterschied zum FE-Modell besteht in der Behandlung von vi Die zeitkonstanten, zeitkonstanten personenspezifischen Einflsse (vi) werden im REModell nicht wie z.B. im LSDV-Modell ber Dummy-Variablen fix geschtzt Stattdessen wird angenommen, dass vi eine normalverteilte latente Variable ist. Geschtzt wird lediglich die Varianz dieser latenten Variablen (deshalb random effects) Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schtzung der Parameter Dies hat einige wichtige Konsequenzen fr die Voraussetzungen des Modells und seine Interpretation:

Panelanalyse

34

Regressionsmodelle fr Paneldaten: FE und RE


Die Effekte im RE-Modell sind eine Mischung aus between- und withinSchtzungen Dies bedeutet im Beispiel, dass im RE-Modell implizit davon ausgegangen wird, dass a) sowohl der die Zufriedenheit steigernde Effekt einer Heirat (within), b) als auch die Tatsache, Tatsache dass Personen Personen, die heiraten heiraten, generell zufriedener sind (between), dazu beitragen, dass zwischen Heirat und Zufriedenheit ein positiver Zusammenhang besteht

Panelanalyse

35

Regressionsmodelle fr Paneldaten: FE und RE


Eine wichtige Annahme im RE-Modell ist, dass die Korrelation zwischen den zeitkonstanten Personeneinflssen vi und der bzw. den unabhngigen Variablen 0 ist: Corr (xit, vi) = 0 Das Modell funktioniert also nur, wenn es irrelevante personenspezifische ifi h Heterogenitt H t itt gibt, ibt die di nicht i ht mit it den d unabhngigen bh i V Variablen i bl korreliert Im Beispiel bedeutet dies, dass es keine Selbstselektion in den Daten geben drfte, um mit einem RE-Modell zu verzerrungsfreien Schtzungen zu kommen D D.h. h P Personen, di die h heiraten, i t d drften ft nicht i ht vor d der H Heirat i tb bereits it i im Durchschnitt zufriedener sein

Panelanalyse

36

Regressionsmodelle fr Paneldaten: FE und RE

Panelanalyse

37

Regressionsmodelle fr Paneldaten: FE und RE


Im Ergebnis zeigt sich, dass der positive Effekt der Heirat auf die Zufriedenheit im RE-Modell trotz Selbstselektion nur unwesentlich berschtzt wird (b = 1,99 versus b = 1,95 im FE-Modell) Wie gro der Bias des RE-Schtzers ist, hngt in erster Linie davon ab wie gro die Varianz zwischen Personen im Verhltnis zur Varianz ab, innerhalb von Personen ist Je grer die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist (je mehr Heterogenitt es also zwischen Personen gibt), desto weniger verzerrt ist der RE- gegenber dem FESchtzer Im STATA-Output gibt der Koeffizient theta ber das Varianzverhltnis Auskunft. Wenn die between-Varianz (sigma_u) deutlich grer ist als die within-Varianz within Varianz (sigma (sigma_e), e) tendiert theta zu 1

Panelanalyse

38

Regressionsmodelle fr Paneldaten: FE und RE


Dies ist im Beispiel auf Folie 36 der Fall, wo theta = .88 ist Links ist ein zweiter Datensatz dargestellt, in dem es deutlich mehr Varianz innerhalb von Personen gibt Bei Personen, die heiraten, wurde nichts verndert Personen Personen, die nicht heiraten, sind nun jedoch nicht nur im Durchschnitt unzufriedener sondern unzufriedener, verndern sich strker ber die Zeit (mehr within-Varianz)
Panelanalyse 39

Regressionsmodelle fr Paneldaten: FE und RE


Die nchste Folie zeigt, dass in dem vernderten Datensatz mit mehr within-Varianz deutliche Unterschiede zwischen der FE- und der RESchtzung auftreten Der kausale positive Effekt der Heirat auf die Zufriedenheit wird im FEModell weiterhin korrekt geschtzt (b = 1 1,95) 95) Das RE-Modell berschtzt den Effekt nun dagegen stark (b = 3,41) und kommt in die Nhe der ursprnglichen OLS-Schtzung (b = 4,03) Das RE-Modell ist im vernderten Datensatz also nicht mehr dazu geeignet, um den kausalen Effekt der Heirat verzerrungsfrei zu schtzen

Panelanalyse

40

Regressionsmodelle fr Paneldaten: FE und RE

Panelanalyse

41

Regressionsmodelle fr Paneldaten: FE und RE


Hierzu abschlieend noch eine formellere Darstellung. Das RE-Modell ist nichts anderes als eine gepoolte OLS-Regression auf die in der folgenden Weise transformierten Daten:

y it y i = 0 (1 ) + 1 ( x it x i ) + [(1 ) v i + it i ]
Auffllig ist die hnlichkeit mit der Formel fr das FE-Modell (s.o) mit dem Unterschied, Unterschied dass zustzlich theta () in der Gleichung enthalten ist theta ist wie folgt definiert (T = Anzahl der Panelwellen):

= 1

sigma _ e T * sigma _ u + sigma _ e

Panelanalyse

42

Regressionsmodelle fr Paneldaten: FE und RE


Wenn also = 1 ist, entspricht das RE-Modell dem FE-Modell (in der Gleichung werden die Konstante 0 und alle zeitkonstanten personenspezifischen Einflsse vi eliminiert) Wenn = 0 ist, entspricht das RE-Modell einer OLS-Regression tendiert zu 1, wenn die Varianz zwischen den Personen (sigma_u) deutlich grer ist als die Varianz innerhalb von Personen tendiert entsprechend zu 0 0, wenn die Varianz innerhalb (sigma (sigma_e e) ) deutlich grer ist als die Varianz zwischen Personen; insbesondere in dieser Situation kann es dazu kommen, dass der RE-Schtzer verzerrt ist

Die Formel zeigt auerdem, dass sich das RE- und das FE-Modell mit steigender g Anzahl von Panelwellen ( (T) ) einander annhern

Panelanalyse

43

Ein Beispiel mit SOEP-Daten


Alle bisherigen Folien bezogen sich auf ein konstruiertes Beispiel mit nur 5 Personen; im Folgenden wird zu derselben Fragestellung eine kleine Analyse mit vier Wellen des SOEP (1998 bis 2001) durchgefhrt Gegenstand der Analyse sind Frauen und Mnner, die im Jahr 1998 ledig und 18 Jahre oder lter sind. sind Die Fragestellung lautet lautet, ob eine Heirat die allgemeine Lebenszufriedenheit erhht (gemessen von 110, 10 = sehr zufrieden) Beginnen wir mit einem RE-Modell, dessen Output auf der nchsten Folie dargestellt ist Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 0,145.

Panelanalyse

44

Ein Beispiel mit SOEP-Daten

Panelanalyse

45

Ein Beispiel mit SOEP-Daten


Das RE-Modell kann um weitere zeitkonstante und zeitvernderliche Variablen erweitert werden Im Folgenden werden daher zunchst drei Dummy-Variablen fr die ersten drei untersuchten Wellen eingefhrt; die vierte Welle ist die Referenz Es ist immer eine gute Idee, mgliche Periodeneffekte zu kontrollieren. Wenn sich z.B. zu einem bestimmten Zeitpunkt die Lebenszufriedenheit bei allen Personen systematisch verndert, knnen die Schtzungen fr Effekte einzelner Kovariaten verzerrt werden Auerdem werden die zeitkonstanten Variablen Geschlecht und Ost/West bercksichtigt

Panelanalyse

46

Ein Beispiel mit SOEP-Daten

Panelanalyse

47

Ein Beispiel mit SOEP-Daten


Auch nach Kontrolle der genannten Kovariaten verbleibt ein positiver Effekt der Heirat, der sich sogar leicht verstrkt (b = 0,156) Auerdem zeigt sich, dass es keine signifikanten Periodeneffekte gibt (gemessen ber die Dummys nwave1-nwave3), Mnner (sex=1) ber alle Panelwellen tendenziell unzufriedener sind als Frauen und ostdeutsche Personen (ow=1) deutlich unzufriedener als westdeutsche Ob der positive Effekt der zeitvernderlichen Variablen Heirat auf die Lebenszufriedenheit kausal ist, lsst sich im RE-Modell jedoch nicht mit Sicherheit beantworten Da im RE-Modell RE Modell auch die Varianz zwischen Personen bercksichtigt wird, kann es zu Selektionseffekten kommen (Personen, die heiraten, sind vor der Heirat bereits zufriedener)

Panelanalyse

48

Ein Beispiel mit SOEP-Daten


Das Vorliegen von Selektionseffekten kann berprft werden, indem ein FE-Modell mit der unabhngigen Variablen heirat berechnet und die Korrelation zwischen u_i und x interpretiert wird Im Beispiel ist diese Korrelation fr Frauen leicht positiv (r = .08, nicht dargestellt) zufriedene Frauen heiraten also offenbar eher (fr Mnner dargestellt), zeigt sich dagegen eine leicht negative Korrelation) Eine zweite Mglichkeit besteht darin, die Lebenszufriedenheit im Jahr 1998, d.h. zu einem Zeitpunkt, wo alle Personen noch ledig sind, zwischen Personen zu vergleichen, die in den nchsten drei Wellen heiraten oder nicht Es besttigt sich, dass Mnner, die heiraten, signifikant zufriedener sind als die Vergleichsgruppe (7,5 vs. 7,07). Das gleiche gilt fr Frauen (7,5 versus 7 7,16). 16) Es gibt also in der Tat eine Selbstselektion

Panelanalyse

49

Ein Beispiel mit SOEP-Daten


Der potentielle Bias, der durch diese Selektion entstehen kann, wrde nur dann nicht ins Gewicht fallen, wenn die between-Varianz deutlich grer wre als die within-Varianz Der Output lsst jedoch bereits erkennen, dass das Verhltnis der beiden Varianzen ausgeglichen ist (rho = .48) 48) Um die Ergebnisse abzusichern, wird daher eine FE-Schtzung durchgefhrt, in die zustzlich Dummys fr die Panelwellen einflieen; alle zeitkonstanten Variablen (Geschlecht, Ost/West) knnen dabei nicht mehr bercksichtigt werden Die Ergebnisse zeigen zeigen, dass eine Heirat laut FE-Schtzung FE Schtzung keinen kausalen Effekt auf die Lebenszufriedenheit hat; der RE-Schtzer ist demzufolge nach oben hin verzerrt!

Panelanalyse

50

Ein Beispiel mit SOEP-Daten

Panelanalyse

51

Ein Beispiel mit SOEP-Daten


Die bisherigen Ergebnisse deuten darauf hin, dass im vorliegenden Fall ein RE-Modell nicht angemessen ist Es gibt zustzlich einen formellen Test (sog. Hausman-Test) mit dem berprft werden kann, ob der RE-Schtzer gegenber dem FESchtzer verzerrt ist Dazu mssen im Anschluss an die RE- bzw. FE-Regression (jeweils nur mit der unabhngigen Variablen heirat) die Schtzergebnisse im Datensatz abgespeichert werden (Befehl: estimates store fixed, wobei fixed ein vom Benutzer frei whlbarer Name ist) Der Befehl fr den Hausman-Test Hausman Test lautet dann: hausman hausman fixed random random Auf der nchsten Folie sind die Ergebnisse dargestellt

Panelanalyse

52

Ein Beispiel mit SOEP-Daten

Panelanalyse

53

Ein Beispiel mit SOEP-Daten


Der Hausman-Test testet die Nullhypothese, dass die Koeffizienten, die durch das RE-Modell fr eine zeitvernderliche Variable geschtzt werden, dieselben sind wie im FE-Modell Wenn dies der Fall ist, ist der unten angegebene -Wert insignifikant (p > .05) 05) und es ist unproblematisch, unproblematisch ein RE-Modell anzuwenden Wenn der -Wert dagegen signifikant ist (wie in unserem Beispiel: = 26,6, df = 1, p < .05), sollte man an ein FE-Modell bevorzugen Inhaltlich ergibt sich damit im Beispiel eine Enttuschung: Ein signifikanter positiver kausaler Effekt der Eheschlieung auf die allgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruck nicht nachgewiesen werden

Panelanalyse

54

Ein Beispiel mit SOEP-Daten


Abschlieend soll noch erwhnt werden, dass auch zeitkonstante Kovariate (z.B. das Geschlecht) in der Form von Interaktionseffekten mit zeitvernderlichen Kovariaten in das FE-Modell aufgenommen werden knnen Auf der nchsten Folie geht der Interaktionseffekt sex sex*heirat heirat , genannt int2, in das Modell ein Es zeigt sich, dass der Effekt der Eheschlieung bei Frauen (sex=0) der Richtung nach positiv, aber nicht signifikant ist (b = 0,09) Bei Mnnern ist er dagegen der Richtung nach sogar negativ (b = 0,09 0 18 = -0,09); 0,18 0 09); der Unterschied zwischen Mnnern und Frauen ist jedoch ebenfalls nicht signifikant (p = 0,15) Zu beachten ist, dass im Unterschied zu normalen Regressionsmodellen der Haupteffekt der zeitkonstanten Variablen sex nicht mit ins Modell aufgenommen wird
Panelanalyse 55

Ein Beispiel mit SOEP-Daten

Panelanalyse

56

Zwischenfazit: FE oder RE?


In vielen Anwendungssituationen wird die zentrale Voraussetzung des RE-Modells, dass die unabhngigen Variablen nicht mit den zeitkonstanten Personeneigenschaften (vi) korrelieren, verletzt sein Um in diesen Fllen unverzerrte Schtzer zu erhalten, sollte man das FE-Modell nutzen Das RE-Modell schtzt zwar die Effekte von zeitkonstanten Kovariaten. Der eigentliche Sinn von Panelanalysen besteht jedoch nicht in der Analyse der between-Varianz, die auch im Querschnitt ausgewertet werden kann Um die Strke der Paneldaten voll zu nutzen nutzen, sollte man sich vielmehr auf die Effekte von einigen wenigen zeitvernderlichen Variablen, die dichotom oder auch metrisch sein knnen, konzentrieren und das FEModell konsequent anwenden

Panelanalyse

57

Zwischenfazit: FE oder RE?


Weitere Vorteile des FE- gegenber dem RE-Modell bestehen darin, dass die Schtzung auch dann robust bleibt, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es Panelmortalitt gibt, die mit zeitkonstanten Personeneigenschaften (vi) systematisch zusammenhngt Das FE-Modell kann darber hinaus auch bei dichotomen oder ordinalen abhngigen Variablen oder im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen berblick gibt Allison 2001) Zudem besteht die Mglichkeit einer Hybrid-Methode, in der FE- und RE-Schtzungen kombiniert werden (siehe Allison 2001: 23ff) Fr weiterfhrende Informationen zur Panelanalyse siehe die Literaturangaben

Panelanalyse

58

Ein FE-Modell fr zwei Wellen


Ferner wird nun kurz vorgestellt, wie man ein FE-Modell fr eine metrische AV auf einfache Weise schtzen kann, wenn man nur ber Daten aus zwei Panelwellen verfgt Hier kann auf die sog. Differenzscore-Regression zurckgegriffen werden:

(yi2 - yi1) = 1xi + i


Eine Umstrukturierung der Daten ins long-Format ist nicht notwendig. Vielmehr wird zunchst der Wert der abhngigen Variablen zum zweiten Messzeitpunkt vom Wert zum ersten Messzeitpunkt abgezogen (dies ist der Differenzscore) Auf diesen Differenzscore wird dann eine einfache OLS-Regression OLS Regression berechnet

Panelanalyse

59

Ein FE-Modell fr zwei Wellen


Die Differenzscore-Regression hat die gleichen Eigenschaften wie ein FE-Modell fr mehr als zwei Wellen: Es knnen nur zeitvernderliche unabhngige Variablen verschiedenen Messniveaus berecksichtigt werden, wobei metrische unabhngige Variablen ebenfalls als Differenzscore einflieen Zustzlich besteht die Mglichkeit, Interaktionseffekte zwischen zeitkonstanten und zeitabhngigen Kovariaten zu modellieren Auch die Differenzscore-Regression weist den wesentlichen Vorteil aller FE-Modelle auf, dass ausschlielich die within-Varianz ausgewertet wird und die Schtzung von allen zeitkonstanten Personeneigenschaften (und damit von einigen potentiellen Selektionseffekten) unbeeinflusst bleibt

Panelanalyse

60

Ein FE-Modell fr zwei Wellen


Die folgende Folie zeigt ein mit SPSS berechnetes Beispiel Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und 2000 (t2); die Ruhestandsorientierung 2000 wird von der Ruhestandsorientierung 1996 abgezogen Die unabhngige Variable ist die Beteiligung an beruflicher Weiterbildung im Zeitraum 1997-1999 (1 = ja, 0 = nein) Im Ergebnis zeigt sich, sich dass sich die Ruhestandsorientierung durch die Weiterbildung leicht reduzieren zu scheint (b = -0,103) Der altersbedingte allgemeine Anstieg der Ruhestandsorientierung wird in diesem Modell kontrolliert, da es sich um eine difference-in-differenceSchtzung handelt (siehe Folie 12); d.h. die Vernderung ber die Zeit in der Gruppe pp der Nichtteilnehmer ( (siehe Konstante) ) wird kontrolliert

Panelanalyse

61

Ein FE-Modell fr zwei Wellen

Koeffizienten a Nicht standardisierte Koeffizienten Standardf ehler B ,095 ,018 -,103 ,035 Standardisiert e Koeffizienten Beta T 5,165 -2,966 Signifikanz ,000 ,003

Modell 1

( (Konstante) ) Zwischen t1 und t2 an Weiterbildung teilgenommen

-,041

a. Abhngige Abh i V Variable: i bl R Ruhestandsorientierung h d i i t2 2 - t1 1

Zwei-Wellen-Panelanalyse

62

Literaturempfehlungen
Einfhrungen: Allison, P.D. (1994): Using panel data to estimate the effects of events. Sociological Methods & Research, 23, 174-199. Halaby, C. (2004): Panel models in sociological research. Annual Review of Sociology, 30, 507-544. FE-Modelle: Allison, P.D. (2001): Fixed effects regression models. Sage University paper series in quantitative applications in the social sciences; 160. Thousand Oaks: Sage berblickspapier ber RE- und FE-Modelle: Brderl, Josef: Panel data analysis (http://www sowi unimannheim de/lehrstuehle/lessm/veranst/Panelanalyse pdf) (http://www.sowi.unimannheim.de/lehrstuehle/lessm/veranst/Panelanalyse.pdf) Technische Einfhrung: Wooldrige, J. (2003): Introductory econometrics: A modern approach. Thomson. Speziell zur Zwei-Wellen-Panel-Analyse: Johnson, D. (2005): Two-wave panel analysis: Comparing statistical methods for studying the effects of transitions. Journal of Marriage and Family, 67, 1061-1075.

Panelanalyse

63

Das könnte Ihnen auch gefallen