Sie sind auf Seite 1von 73

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.

Daniel Lois

Zeitdiskrete Ereignisdatenanalyse

Stand: August 2009

Inhaltsverzeichnis
1. Zeitdiskrete EDA: Grundlagen 2. Modellierung der Verweildauerabhngigkeit 3. Spezielle Probleme (z.B. konkurrierende Risiken) 4. Literatur 3 31 47 73

Ereignisdatenanalyse

Zeitdiskrete EDA: Grundlagen


Das folgende Skript beschftigt sich mit der sog. zeitdiskreten Ereignisdatenanalyse Besprochen werden einige theoretische Grundlagen des Verfahrens sowie seine Anwendung in SPSS Allgemeine Grundlagen der Ereignisdatenanalyse sowie Verfahren fr zeitkontinuierliche Daten werden im gleichnamigen Skript vorgestellt Fr die zeitdiskrete Ereignisdatenanalyse gibt es ein Standardwerk (Singer & Willett 2003: 325-468), an dem sich das folgende Skript orientiert und das allen Interessierten fr weiterfhrende Informationen ausdrcklich empfohlen wird

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen


Zeitdiskrete Ereignisdatenanalysen kommen wie der Name schon sagt immer dann zum Einsatz, wenn die Wartezeiten (die Zeit von Prozessbeginn bis Ereigniseintritt oder Zensierung) diskret gemessen wurde Da die Erhebung zeitkontinuierlicher Daten aufwendig ist ist, werden Wartezeiten oft unprzise gemessen, so dass sie hufig in gruppierter Form vorliegen Eine Trennung vom Ehepartner kann z.B. zu jedem Zeitpunkt erfolgen; oft ist allerdings in den Daten nur erfasst, in welchem Kalenderjahr oder in welchem Monat sich die Trennung bzw. Scheidung ereignet hat

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen


Zeitdiskrete Ereignisdatenanalysen sind die Standardmethode zur Auswertung von Paneldaten (siehe die englischsprachige Fachliteratur) In einem Panel werden Wartezeiten typischerweise diskret gemessen, da Personen in regelmigen Abstnden (z.B. einem Jahr) wiederholt befragt werden Die nchste Folie verdeutlicht den Unterschied zwischen zeitkontinuierlichen und zeitdiskreten Verlaufsdaten an einem Beispiel (der Lnge von Jobepisoden bis zu einem Ereignis x, z.B. Arbeitslosigkeit oder Ttigkeitswechsel) Im Diagramm oben werden die Ereignisdaten retrospektiv erhoben erhoben, im unteren Beispiel im Rahmen eines Panels

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen


Bei Retrospektivbefragungen liegen zeitkontinuierliche Verlaufsdaten vor, die eine zeitgenaue Auskunft ber Beginn und Ende sowie Anfangsund Zielzustand jeder Episode geben Panelstudien ohne Retrospektivfragen liefern im Unterschied dazu zeitdiskrete Verlaufsdaten: zu jedem Erhebungszeitpunkt ist der Zustand bekannt, der Prozess wird jedoch nur unvollstndig erfasst ber die Ereignisgeschichte zwischen zwei Erhebungszeitpunkten mssen deshalb Annahmen gemacht werden: Hat sich der Zustand im Vergleich zur Vorwelle nicht verndert, so wird davon ausgegangen, dass kein Ereignis eingetreten ist Verndert sich der Zustand, so wird angenommen, dass ein Wechsel vom Zustand der Vorwelle zum Zustand der jetzigen Welle eingetreten ist; der genaue Zeitpunkt bleibt jedoch unbekannt

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen


Die Grundlagen des Verfahrens werden im Folgenden zunchst anhand eines stark vereinfachten Beispiels besprochen Beim Beispieldatensatz handelt es sich um eine Zufallsstichprobe von n = 130 Personen aus dem SOEP Enthalten sind Personen, die mit ihrem Partner in einer nichtehelichen Lebensgemeinschaft leben; untersucht wird der bergang in die erste Ehe in einem Beobachtungszeitraum von vier Kohabitationsjahren Der erste Schritt besteht in der Datenaufbereitung Wie bei vielen Analysen mit Panelanalysen, mssen die Daten auch bei der zeitdiskreten EDA vom sog. wide-Format ins long-Format umstrukturiert werden

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen


Die nchste Folie zeigt das wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt fr Personen; zeitvernderliche Variablen werden in separaten Spalten nebeneinander abgespeichert Dargestellt ist hier u.a. die abhngige Variable (heirat1-heirat4). Hier ist fr insgesamt 4 Jahre des Zusammenwohnens erfasst erfasst, ob die entsprechende Person entweder unverheiratet ist (= 0) oder geheiratet hat (= 1) Die Frau mit der ID 1 bleibt z.B. bis einschlielich zum vierten Kohabitationsjahr unverheiratet (Rechtszensierung) Die Frau mit der ID 2 heiratet im zweiten Jahr nach dem Zusammenzug; der Beobachtungszeitraum endet entsprechend in diesem Jahr Die Frau mit der ID 3 wurde ab dem zweiten Kohabitationsjahr j nicht mehr befragt (Panelmortalitt), die Daten sind hier entsprechend frher rechtszensiert

Zeitdiskrete EDA

Zeitdiskrete EDA: Grundlagen

Zeitdiskrete EDA

10

Zeitdiskrete EDA: Grundlagen


Die nchste Folie zeigt den SPSS-Syntax-Befehl zur Umstrukturierung des Datensatzes ins long-Format (Men: Daten Umstrukturieren ausgewhlte Variablen in Flle) Es ist ersichtlich, dass, z.B. bei der abhngigen Variablen, die Informationen aus den 4 einzelnen Spalten (heirat1-heirat4 ( heirat1-heirat4) ) zu einer Variablen (einer Spalte) im long-Format zusammengefasst werden Damit SPSS wei, welche personenspezifischen Beobachtungen zusammengehren, wird unter KEEP die Personen-ID angegeben; zeitkonstante Variablen (im Men: mit festem Format) knnen ebenfalls hier angegeben werden Index = Index1(4) bedeutet, dass SPSS eine neue Variable Index1 erstellt, die hier der laufenden Nummer des Kohabitationsjahres entspricht

Zeitdiskrete EDA

11

Zeitdiskrete EDA: Grundlagen

VARSTOCASES /MAKE heirat h i FROM heirat1 h i 1h heirat2 i 2h heirat3 i 3h heirat4 i 4 /MAKE kdau FROM kdau1 kdau2 kdau3 kdau4 /MAKE alter FROM alter1 alter2 alter3 alter4 /INDEX = Index1(4) I d 1(4) /KEEP = id /NULL = KEEP.

/null = keep bedeutet im SPSS-Befehl, dass Flle mit missings bei allen a e t transponierten a spo e te Variablen a ab e im Datensatz ate sat e enthalten t a te b bleiben; e be ; so soll dies nicht der Fall sein, heit der Befehl /null = drop

Zeitdiskrete EDA

12

Zeitdiskrete EDA: Grundlagen

Zeitdiskrete EDA

13

Zeitdiskrete EDA: Grundlagen


Das Ergebnis der Umstrukturierung: Personen fli i flieen im long-Format l F t nun in i der Form von Zeilen mehrfach in den Datensatz ein (hier j jeweils il 4 4-mal) l) Pro Variable gibt es im longFormat jedoch nur noch eine Spalte Die ID identifiziert die personenspezifischen Beobachtungen

Zeitdiskrete EDA

14

Zeitdiskrete EDA: Grundlagen


Der zweite Schritt besteht nun darin, die Ereignisdaten explorativ zu beschreiben Eine geeignete Vorgehensweise ist hier wie auch bei zeitkontinuierlichen Verlaufsdaten die Erstellung einer Sterbetafel Dies erfolgt bei der zeitdiskreten EDA von Hand, d.h. ohne das entsprechende SPSS-Men, das nur fr zeitkontinuierliche Daten geeignet ist Bei der Erstellung der Sterbetafel wird als Messung der Verweildauer die Kohabitationsdauer in Jahren verwendet

Zeitdiskrete EDA

15

Zeitdiskrete EDA: Grundlagen

Alle bentigten Informationen zur Erstellung der Sterbetafel erhlt man indem man eine Kreuztabelle zwischen der Kohabitationsdauer man, (kdau) und der abhngigen Variablen (heirat) erstellt

Zeitdiskrete EDA

16

Zeitdiskrete EDA: Grundlagen


Die Sterbetafel enthlt verschiedene Kennwerte, die uns aus der EDA fr zeitkontinuierliche Verlaufsdaten bereits bekannt sind: Das Risk-Set entspricht der Anzahl von Personen, die in einem bestimmten Intervall noch dem Heiratsrisiko ausgesetzt sind Zu Beginn des ersten Kohabitationsjahres knnen z.B. alle Personen im Datensatz (n = 127) noch heiraten; diese Zahl reduziert sich in spteren Wellen durch Eheschlieungen bzw. Zensierungen Weiterhin wird ersichtlich, wie viele Personen im entsprechenden Intervall heiraten und wie viele Personen am Ende des entsprechenden Intervalls zensiert werden

Zeitdiskrete EDA

17

Zeitdiskrete EDA: Grundlagen

Zeitdiskrete EDA

18

Zeitdiskrete EDA: Grundlagen


Die Anzahl der Zensierungen sieht man der oben dargestellten Kreuztabelle indirekt an: Zu Beginn des ersten Kohabitationsjahres sind z.B. 127 Personen im Risk-Set. Im Laufe dieses ersten Jahres heiraten 11 Personen Die Differenz (127-11 = 116) entspricht jedoch nicht der Anzahl der Personen, die im nchsten Intervall (1-2) noch im Risk-Set sind (105); die Differenz (116-105 = 11) entspricht der Anzahl der Zensierungen Kommen wir nun zu den beiden zentralen Funktionen der EDA: Hazardrate und berlebensfunktion

Zeitdiskrete EDA

19

Zeitdiskrete EDA: Grundlagen


In einer diskreten Ereignisanalyse misst die abhngige Variable nicht (wie in der zeitkontinuierlichen EDA) die Zeit bis zu einem Ereigniseintritt Es handelt sich vielmehr, wie die Datenaufbereitung verdeutlicht hat, um eine binre Variable, die misst, ob ein Ereignis zu einem bestimmten Zeitpunkt eintritt oder nicht Die bergangs- oder Hazardrate (r) ist somit definiert als die konditionale Wahrscheinlichkeit, dass ein Ereignis zu einem bestimmten Zeitintervall (T=j) beobachtet wird und dieses Ereignis noch nicht vor dem Zeitintervall j eingetreten ist Formell lsst sich dies wie folgt ausdrcken:

Zeitdiskrete EDA

20

Zeitdiskrete EDA: Grundlagen


r ( t ji ) = Pr( Ti = j) | Ti j)
T reprsentiert eine diskrete Zufallsvariable, deren Ausprgungen Ti die Zeitintervalle j anzeigen, zu dem bei einer Person i das Ereignis eintritt Wenn eine Person also im zweiten Kohabitationsjahr heiratet, ist Ti = 2 Der Ausdruck oben beschreibt nun die Wahrscheinlichkeit, dass eine Person i das Ereignis im Zeitintervall j erlebt, unter der Bedingung, dass sie das Ereignis nicht schon vor j erlebt hat Die Hazardrate informiert also ber die Wahrscheinlichkeit des Ereigniseintritts bei denjenigen Personen, die noch im Risk-Set sind

Zeitdiskrete EDA

21

Zeitdiskrete EDA: Grundlagen


Der Ausdruck verdeutlicht weiterhin, dass jede Person i ihre eigene Harzardfunktion hat, die ihr Risiko des Ereigniseintritts ber die Zeit beschreibt Um eine Maximum-Likelihood-Schtzung der Hazardrate fr die Stichprobe (bzw. (bzw eine zufllig ausgewhlte Person) zu erhalten, bedienen wir uns der Sterbetafel. Hier ist die Hazardrate wie folgt definiert:

r(t j ) =

n events n at risk

j j

Es wird also ganz einfach die Anzahl der im Zeitintervall j eingetrenenen Ereignisse durch die Anzahl der Personen im Risk-Set Risk Set geteilt, geteilt die im Zeitintervall j das Ereignis noch erleben knnen

Zeitdiskrete EDA

22

Zeitdiskrete EDA: Grundlagen


Die bedingte Heiratswahrscheinlichkeit im ersten Jahr nach dem Zusammenziehen betrgt also 11 / 127 = 0,086; im zweiten Jahr 24 / 105 = 0,228 usw. Der zweite zentrale Kennwert, die berlebensfunktion, wird direkt aus der Hazardrate abgeleitet. abgeleitet Sie entspricht in der zeitdiskreten EDA der Wahrscheinlichkeit, dass eine Person i die Zeitperiode j ohne Ereignis berlebt:

S( t ij ) = Pr( Ti > j)
Fr eine zufllig ausgewhlte Person knnen wir die berlebensfunktion anhand der Sterbetafel wie folgt berechnen:

Zeitdiskrete EDA

23

Zeitdiskrete EDA: Grundlagen


S( t j ) = [1 r ( t j )][1 r ( t j1 )][(1 r ( t j2 )]...[1 r ( t1 )]
Der Ausdruck bedeutet, dass die fr ein Zeitintervall j geschtzte berlebensfunktion als Produkt des Komplementrwertes der Hazardrate in diesem Zeitintervall und allen vorhergehenden berechnet wird Zum Beispiel berechnet sich die berlebensfunktion fr das dritte Kohabitationsjahr als (1-0,91)*(1-0,7) = 0,5; 50% der Personen haben also bis zum Ende des dritten Kohabitationsjahres geheiratet Das dritte Kohabitationsjahr ist damit zugleich der Median der berlebenszeit (Details zu dessen Berechnung siehe: Singer & Willett 2003: 337f) )

Zeitdiskrete EDA

24

Zeitdiskrete EDA: Grundlagen


Anteil unverh heirateter Pers sonen 1 2 3 4 0,4 0,35 0,3 Haz zardrate (r) 0,25 0,2 0 15 0,15 0,1 0,05 0 1 0,9 08 0,8 0,7 0,6 0,5 04 0,4 0,3 0,2 0,1 0 0 1 2 3 4

Die grafische Darstellung der nichtparametrischen Schtzung von Hazardrate und berlebensfunktion auf der Basis der Sterbetafel ist sinnvoll, um einen ersten Eindruck vom Prozessverlauf zu erhalten

Zeitdiskrete EDA

25

Zeitdiskrete EDA: Grundlagen


Welches Regressionsverfahren wird bei der zeitdiskreten EDA nun verwendet? Die Antwort ist einfach: in der Regel eine normale logistische Regression, wie sie in fast jedem Softwarepacket zur Verfgung steht Bei annhernd zeitkontinuierlich (z.B. monatsgenau) gemessenen Daten steht alternativ das sog. komplementre log-logistische Modell (in SPSS unter verallgemeinerte lineare Modelle) zur Verfgung Einziger substantieller Unterschied: Whrend bei der logistischen Regression die Odds-Ratios das Verhltnis der bedingten Chancen des Ereigniseintritts wiedergeben, wiedergeben drcken die Odds Odds-Ratios Ratios bei der komplementren log-logistischen Regression das Verhltnis der Hazardraten (also der bedingten Wahrscheinlichkeiten) zueinander aus (wie bei der Cox Cox-Regression) Regression)

Zeitdiskrete EDA

26

Zeitdiskrete EDA: Grundlagen


bertragen auf die zeitdiskrete EDA nimmt das logistische Regressionsmodell folgende Form an (AV: 1 = Ereignis, Ereignis 0 = Rechtszensierung):

Pj ( t i ) = a j ( t i ) + b j1x1 + b j2 x 2 t 1 + t L Log 1 P (t ) j i
Wobei: Pj(t j( i) = Wahrscheinlichkeit, dass das Ereignis g j zum Zeitpunkt ti eintritt aj(ti) = Regressionskonstante bji = Regressionsgewichte x1 = zeitkonstante Kovariate (z.B. Geschlecht) x2t-1 = zeitabhngige Kovariate (z.B. Einkommen, Kinderzahl) t = Verweildauer im Ausgangszustand

Zeitdiskrete EDA

27

Zeitdiskrete EDA: Grundlagen


Zeitvernderliche Kovariate knnen im long-Format leicht verarbeitet werden, da jede Person mehrfach (hier: pro Kohabitationsjahr einmal) in den Datensatz eingeht und daher alle Variablen zumindest alle 12 Monate aktualisiert werden knnen Die Modellierung der Verweildauer t (hier: Kohabitationsdauer) Kohabitationsdauer), die als Kovariate in das Modell einfliet, bleibt dem Benutzer in der zeitdiskreten EDA selbst berlassen; hiermit beschftigt sich ausfhrlich der nchste Abschnitt Abschlieend wird nun fr das Einfhrungsbeispiel der Zusammenhang zwischen Kohabitationsdauer und Heiratswahrscheinlichkeit mit einer logistischen Regression berprft:

Zeitdiskrete EDA

28

Zeitdiskrete EDA: Grundlagen


Variablen in der Gleichung Regressions Standardf koeffizientB ehler kdau ,505 ,128 Konstante -2,594 ,344 Wald 15,515 56,874 df 1 1 Sig. ,000 ,000 Exp(B) 1,656 ,075

Schritt a 1

a. In Schritt 1 eingegebene Variablen: kdau.

Im Modell wird durch die Aufnahme der Kohabitationsdauer als metrische UV ein linearer Zusammenhang unterstellt, der sich im Rahmen der Sterbetafel (s.o.) gezeigt hatte Mit jedem Jahr, das die Kohabitationsdauer ansteigt, erhht sich die bedingte Chance, dass das Heiratsereignis eintritt, um etwa 66% (eb = 1 66) 1,66)

Zeitdiskrete EDA

29

Zeitdiskrete EDA: Grundlagen


Der Output der logistischen Regression ist bei der zeitdiskreten Ereignisdatenanalyse etwas anders zu interpretieren als bei der CoxRegression Die Interpretation der b-Koeffizienten erfolgt wie bei der Cox-Regression: Ist b z z.B. B positiv positiv, hat die jeweilige Kovariatenausprgung einen positiven Effekt auf die Hazardrate Der Unterschied betrifft die exponierten b-Koeffizienten (exp(b) bzw. eb) Diese zeigen bei der zeitdiskreten Ereignisanalyse an, wie sich die bedingte Chance des Ereigniseintritts (nicht die Hazardrate!) verndert wenn sich die Kovariate um eine Einheit erhht (Chance = verndert, Sterbewahrscheinlichkeit / berlebenswahrscheinlichkeit)

Zeitdiskrete EDA

30

Verweildauerabhngigkeit
Bei der zeitdiskreten EDA muss sich der Benutzer nach der Datenaufbereitung und einer explorativen Analyse der Daten Gedanken machen, wie die Verweildauerabhngigkeit modelliert wird Dies wird im Folgenden anhand eines neuen Beispiels erlutert. Es geht wieder um den bergang lediger Frauen in die erste Ehe; Grundlage sind diesmal jedoch insgesamt acht SOEP-Wellen und eine deutlich grere Fallzahl (etwa n = 2000) Im Unterschied zu oben wird die Verweildauerabhngigkeit nun ber das Alter der Frau modelliert Der erste Schritt besteht wiederum darin darin, die empirische (nicht(nicht parametrische) Hazardrate graphisch anzuschauen

Zeitdiskrete EDA

31

Verweildauerabhngigkeit
Wenn man sich die Mhe der Erstellung einer Sterbetafel nicht machen mchte, bietet sich folgende Vorgehensweise an: Codieren Sie den Ereignisindikator mit 0 und 1 und plotten Sie ein Liniendiagramm ber das Alter, wobei die Linie dem Prozentsatz der Flle oberhalb des Wertes 0 entspricht Das Ergebnis ist auf der nchsten Folie dargestellt; wie man sieht, ergibt sich der bekannte glockenfrmige Zusammenhang zwischen Alter und Heiratswahrscheinlichkeit Der unruhige Verlauf der Linie ist fr empirische Hazardraten nicht untypisch und kommt durch die geringe Besetzung einzelner Altersjahrgnge zustande

Zeitdiskrete EDA

32

Verweildauerabhngigkeit

17,50

Empi irische Hazardrate r (t), berg gang zur Ehe

15,00

12,50

10 00 10,00

7,50

5,00

19

21

23

25

27

29

31 33 35 37 Alter der Frau

39

41

43

45

47

Zeitdiskrete EDA

33

Verweildauerabhngigkeit
Wie kann man diesen Zusammenhang nun modellieren? Wenn Sie hnlich wie bei der Cox-Regression mglichst wenig theoretische Annahmen machen und den Verlauf der Hazardrate aus den Daten schtzen wollen, gehen Sie wie folgt vor: Sie nehmen fr jedes Zeitintervall (hier: Altersjahr) eine Dummyvariable in das Regressionsmodell auf, wobei die letzte oder erste Kategorie die Referenzkategorie ist Problem: Die Hazardrate kann fr diejenigen Zeitpunkte nicht geschtzt werden, in denen kein Ereignis beobachtet wird (fr diese Zeitpunkte gibt es keinen b b-Koeffizienten) Koeffizienten)

Zeitdiskrete EDA

34

Verweildauerabhngigkeit
Auf der folgenden Folie ist ein Beispiel abgebildet. Die Kategorie age(1) entspricht dem 19. Lebensjahr, die Referenzkategorie ist das 47. Lebensjahr Man sieht, dass die Hazardrate ab dem 23. Lebensjahr bzw. age(5) signifikant hher liegt als im 47. 47 Lebensjahr Tabellarisch bersichtlich darstellbar ist das Modell aufgrund der groen Anzahl der Dummys nicht; auch die Interpretierbarkeit der Effekte einzelner Dummys kann schwierig sein, wenn Altersjahrgnge nur schwach besetzt sind Das Pseudo Pseudo-R R fr dieses Modell als Ma fr die Modellanpassung betrgt 2,6%

Zeitdiskrete EDA

35

Verweildauerabhngigkeit

Zeitdiskrete EDA

36

Verweildauerabhngigkeit
Eine weitere Mglichkeit besteht darin, die Verweildauer in Anlehnung an das piecewise constant exponential model in Kategorien einzuteilen (z.B. 5-Jahres-Kategorien) Diese Methode ist flexibel, relativ anschaulich und tabellarisch gut darstellbar Mit der Kategorienbildung ist allerdings ein Informationsverlust verbunden, da angenommen wird, dass die Hazardrate innerhalb der Kategorien konstant ist Im folgenden Beispiel wurde das Alter in 5-Jahres-Kategorien eingeteilt mit Ausnahme der letzten Kategorie (41 Jahre und eingeteilt, lter, Referenz)

Zeitdiskrete EDA

37

Verweildauerabhngigkeit

Variablen in der Gleichung Regressions koeffizientB Schritt a 1 agekat agekat(1) agekat(2) agekat(3) agekat(4) agekat(5) Konstante ,145 ,785 ,939 ,710 ,396 -2 669 -2,669 Standardf ehler ,202 ,181 ,183 ,194 ,217 ,170 170 Wald 62,237 ,516 18,856 26,349 13,369 3,311 246 581 246,581 df 5 1 1 1 1 1 1 Sig. Sig ,000 ,472 ,000 ,000 ,000 ,069 ,000 000 Exp(B) 1,156 2,193 2,557 2,035 1,485 ,069 069

a. In Schritt 1 eingegebene Variablen: agekat.

Zeitdiskrete EDA

38

Verweildauerabhngigkeit
agekat(1) entspricht den 16-20jhrigen, agekat(2) den 2125jhrigen, agekat(3) den 26-30jhrigen usw. Referenzkategorie sind die ber 41jhrigen Frauen Die Hazardrate der 26-30jhrigen Frauen liegt relativ zu den ber 41jhrigen Frauen am hchsten, whrend die darunter und darber liegenden Kategorien abfallen (glockenfrmiger Verlauf) Das Pseudo Pseudo-R R fr dieses Modell betrgt 1,8% 1 8% gegenber 2 2,6% 6% im Modell, wo fr jede Alterskategorie eine Dummy-Variable aufgenommen wurde Durch die Zusatzannahme einer in Teilabschnitten konstant verlaufenden Hazardrate (siehe Plot nchste Folie) hat sich die Modellanpassung also verschlechtert

Zeitdiskrete EDA

39

Verweildauerabhngigkeit

0,15000

V Vorhergesagt te Hazardrate r(t)

0 12500 0,12500

0,10000

0,07500

0,05000

17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Alter der Frau

Zeitdiskrete EDA

40

Verweildauerabhngigkeit
Wenn die empirische Hazardrate glockenfrmig oder u-frmig verluft, besteht eine weitere Modellierungsmglichkeit in der Aufnahme eines linearen und quadrierten bzw. logarithmierten Terms der Verweildauer Mit der Kombination linear linear + quadriert quadriert verluft die vorhergesagte Hazardrate gleichmig glocken- bzw. u-frmig Im Falle der Variante linear + logarithmiert lassen sich sichelfrmige Verlufe abbilden (siehe Beispiele nchste Folien)

Zeitdiskrete EDA

41

Verweildauerabhngigkeit
Die Hazardrate steigt zunchst an und fllt dann ab (umgekehrte uForm), wenn der lineare Term positiv und der quadrierte (ageq) negativ ist Bei der Variante linear + logarithmiert ist es anders herum: Bei einem umgekehrt u-frmigen Verlauf ist der lineare Term negativ und der logarithmierte (agel) positiv Die dargestellten Modellierungsvarianten entsprechen den parametrischen Modellen in der EDA fr zeitkontinuierliche Daten Sie erlauben den Test von Hypothesen ber die Verweildauerabhngigkeit und kommen mit relativ wenigen Parametern aus; ihre Passung auf die Daten muss jedoch berprft werden

Zeitdiskrete EDA

42

Verweildauerabhngigkeit

Variablen in der Gleichung Regressions koeffizientB ,174 - 006 -,006 -2,962 Standardf ehler ,025 ,001 001 ,158 Wald 48,359 49 819 49,819 349,396 df 1 1 1 Sig. ,000 ,000 000 ,000 Exp(B) 1,190 ,994 994 ,052

Schritt a 1

age ageq Konstante

a. In Schritt 1 eingegebene Variablen: age, ageq.

Variablen in der Gleichung Regressions koeffizientB -,153 1,805 -4,394 Standardf ehler ,021 ,240 ,335 Wald 53,022 56,726 172,110 df 1 1 1 Sig. ,000 ,000 ,000 Exp(B) ,858 6,083 ,012

Schritt a 1

age agel Konstante

a. In Schritt 1 eingegebene Variablen: age, agel.

Zeitdiskrete EDA

43

Verweildauerabhngigkeit

0,15000

Vorherg gesagte Hazardrate, linear + quadriert

0,12500

0,10000

0,07500

0,05000

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

Alter der Frau

Zeitdiskrete EDA

44

Verweildauerabhngigkeit

Vorherges sagte Hazard drate, linear + logarithmiert

0 14000 0,14000

0,12000

0,10000

0,08000

0,06000

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

Alter der Frau

Zeitdiskrete EDA

45

Verweildauerabhngigkeit
Pseudo-R betrgt fr die Variante linear + quadriert 1,5% und fr die Parameterisierung linear + logarithmiert 1,7% Insgesamt kann man folgendes Fazit ziehen: Wenn alle Informationen in den Daten ausgenutzt werden (pro Zeitintervall ein Dummy) wird die beste Modellanpassung erzielt Werden Zusatzannahmen gemacht (in Teilabschnitten konstante Hazardrate, glockenfrmiger oder sichelfrmiger Verlauf der Hazardrate) sinkt die Modellanpassung Relativ gut schneiden die Varianten ab, bei denen die Verweildauer in Kategorien eingeteilt wird (piecewise constant) bzw. bzw die logarithmierte zusammen mit der linearen Verweildauer verwendet wird

Zeitdiskrete EDA

46

Spezielle Probleme
Im Folgenden werden einige Erweiterungen und Probleme diskutiert, die ber die Einfhrungsbeispiele hinausgehen Hufig mssen in der Analyse konkurrierende Risiken unterschieden werden Beim folgenden Beispiel knnen nichtehelich kohabitierende Frauen die nichteheliche Lebensgemeinschaft durch zwei konkurrierende bergnge verlassen: a) eine Heirat und b) eine Trennung In der zeitdiskreten EDA bestehen zwei Mglichkeiten, ein Modell fr konkurrierende Risiken zu schtzen Die erste Mglichkeit besteht einfach in der Verwendung einer multinomialen logistischen Regression

Zeitdiskrete EDA

47

Spezielle Probleme
Dieses Verfahren ist fr kategoriale abhngige Variable mit mehr als zwei Ausprgungen geeignet (siehe das entsprechende Skript) Im Beispiel nimmt die AV drei Ausprgungen an: 0 = Verbleib in der NEL, 1 = Heirat und 2 = Trennung Geschtzt wird dann folgendes Modell:

Pj ( t ) = a j ( t ) + b j1x1 + b j2 x 2 t 1 + t Log 1 P (t) j


Die Notation ist dieselbe wie oben (Folie 27); es gibt nun aber mehrere Ereignisse (j = 1 fr eine Heirat und j = 2 fr eine Trennung)

Zeitdiskrete EDA

48

Spezielle Probleme

Zeitdiskrete EDA

49

Spezielle Probleme
Im Beispiel wird berprft, welchen Effekt das Alter (t) (mit den Kategorien 18-26, 27-29, 30-34, lter als 34), die Bildung der Frau (educ) und das bedarfsgewichtete Haushaltseinkommen (hhnetto) auf die konkurrierenden Risiken hat Die Ergebnisse sind auf der nchsten Folie dargestellt dargestellt. Im Altersbereich 27-34 Jahre liegt die bedingte Heiratswahrscheinlichkeit signifikant hher als bei ber 34-jhrigen Personen; das Trennungsrisiko ist bei unter 26jhrigen besonders hoch Die Bildung der Frau hat einen negativen Effekt auf beide konkurrierende Risiken Das Haushaltseinkommen hat einen positiven Effekt auf die bergangsrate in die erste Ehe, dagegen keinen Effekt auf die bergangsrate in eine Trennung

Zeitdiskrete EDA

50

Spezielle Probleme

Zeitdiskrete EDA

51

Spezielle Probleme
Es handelt sich jeweils um bedingte Effekte. Die Effekte auf den bergang in die Ehe stehen also unter der Bedingung, dass sich die Partner nicht trennen und umgekehrt Ein Nachteil der multinomialen Regression besteht darin, dass die Verweildauerabhngigkeit nicht fr die konkurrierenden Ereignisse individuell modelliert werden kann Alternativ knnen Sie auch fr jedes der konkurrierenden Risiken eine separate Analyse durchfhren (Begg & Gray 1984) Dazu mssen alle Zeilen im Datensatz, in denen konkurrierende Ereignisse eintreten (also entweder Heirat oder Trennung) aus der Analyse ausgeschlossen werden (z.B. durch Filtersetzung); anschlieend knnen Sie wie oben die binre logistische Regression verwenden

Zeitdiskrete EDA

52

Spezielle Probleme
Auch in der zeitdiskreten EDA knnen ferner Timing-Effekte modelliert werden Wie bei der Cox-Rregression und den meisten parametrischen Verfahren in der EDA fr zeitkontinuierliche Daten liegt der zeitdiskreten EDA eine Proportionalittsannahme zugrunde Wenn Sie diese Proportionalittsannahme testen und Timing-Effekte modellieren wollen, knnen Sie Interaktionseffekte zwischen der Verweildauer und der entsprechenden Kovariate in das Modell aufnehmen Hierzu ein Beispiel: Untersucht wird der Einfluss der Bildung auf den bergang zum ersten Kind

Zeitdiskrete EDA

53

Spezielle Probleme
Die Hypothese lautet, dass es neben einem Humankapitaleffekt des Bildungsniveaus einen Institutioneneffekt der Bildung gibt Dieser besagt, dass eine Ausbildungsphase den bergang zum ersten Kind verzgert; wir gehen also explizit von einem Timing-Effekt aus (vgl. Brderl & Diekmann 1994) Die nchste Folie zeigt zunchst ein Standardmodell ohne den Test des Timing-Effektes Die Verweildauer wird ber das Alter gemessen, das in sechs Kategorien eingeteilt wurde (14-19, 20-22, 23-25, 26-28, 29-31 (Referenz), 32-36) Gegenber der Referenzkategorie (29-31 Jahre), in der die bergangsrate ihr Maximum erreicht, liegt die Geburtswahrscheinlichkeit bei j jngeren g und lteren Frauen niedriger g (g (glockenfrmiger g Verlauf) )

Zeitdiskrete EDA

54

Spezielle Probleme

Variablen in der Gleichung g Regressions Standardf koeffizientB ehler -,051 , ,011 , -,046 ,021 -1,024 ,099 -2,298 -,878 -,550 -,209 209 -,381 -1,091 ,211 ,156 ,137 ,134 134 ,202 ,217 Wald 19,570 , 4,649 106,020 137,203 118,807 31,849 16,112 2 424 2,424 3,546 25,345 df 1 1 1 5 1 1 1 1 1 1 Sig. ,000 , ,031 ,000 ,000 ,000 ,000 ,000 ,120 120 ,060 ,000 Exp(B) ,950 , ,955 ,359 ,101 ,416 ,577 ,812 812 ,683 ,336

Schritt a 1

Index1 educ ausbild alterkat2 alterkat2(1) alterkat2(2) alterkat2(3) alterkat2(4) alterkat2(5) Konstante

a In Schritt 1 eingegebene Variablen: Index1 a. Index1, educ educ, ausbild ausbild, alterkat2 alterkat2.

Zeitdiskrete EDA

55

Spezielle Probleme
Auerdem zeigen sich negative Effekte des Bildungsniveaus (educ) und einer Ausbildungsphase zwei Jahre vor der Geburt (ausbild) auf die bergangsrate Es kann jedoch eingewendet werden, dass das Modell fehlspezifiziert ist da die Proportionalittsannahme fr den Ausbildungsstatus ist, Ausbildungsstatus, der einen Timing-Effekt ausben soll, nicht erfllt ist Die Proportionalittsannahme bedeutet in diesem Fall, dass im dargestellten Modell implizit davon ausgegangen wird, dass die Richtung und Strke der Alterseffekte fr alle Personen (ob in Ausbildung oder nicht) gleich ist Um diese Annahme fr den Ausbildungsstatus zu testen, wird ein Interaktionseffekt berechnet:

Zeitdiskrete EDA

56

Spezielle Probleme
Variablen in der Gleichung Regressions g koeffizientB -,050 -,049 -,153 -2,324 -,603 -,432 -,111 -,259 -,574 -1,285 -,871 -,725 -1,077 , -1,202 Standardf ehler ,012 ,021 ,273 ,256 ,170 ,149 ,146 ,210 ,397 ,322 ,329 ,354 1,062 , ,223 Wald 18,823 5,163 ,314 94,442 82,178 12,636 8,400 ,577 1,522 17,458 2,092 15,932 6,997 4,199 1,030 , 29,163 df 1 1 1 5 1 1 1 1 1 5 1 1 1 1 1 1 Sig. ,000 ,023 ,575 ,000 ,000 ,000 ,004 ,447 ,217 ,004 ,148 ,000 ,008 ,040 ,310 , ,000 Exp(B) ,951 ,952 ,858 ,098 ,547 ,649 ,895 ,772 ,563 ,277 ,418 ,484 ,341 , ,301

Schritt a 1

Index1 educ ausbild alterkat2 alterkat2(1) alterkat2(2) alterkat2(3) alterkat2(4) alterkat2(5) alterkat2 * ausbild alterkat2(1) by ausbild alterkat2(2) by ausbild alterkat2(3) by ausbild alterkat2(4) by ausbild alterkat2(5) ( ) by y ausbild Konstante

a. In Schritt 1 eingegebene Variablen: Index1, educ, ausbild, alterkat2, alterkat2 * ausbild .

Zeitdiskrete EDA

57

Spezielle Probleme
Es zeigt sich, dass einige Interaktionseffekte zwischen Altersbereichen und der Ausbildungsvariable hochsignifikant werden; das Modell war also tatschlich fehlspezifiziert Betrachten wir Haupt- und Interaktionseffekt fr den Altersbereich 20-22 Jahre: 20-22-jhrige Frauen Frauen, die nicht in Ausbildung sind, haben gegenber 29-31 Frauen eine niedrigere bergangsrate (b = -0,603, Haupteffekt) Wenn 20-22jhrige Frauen dagegen in Ausbildung sind, ist der Unterschied im Vergleich zu den 29-31jhrigen Frauen noch grer (b = -1,285 fr den Interaktionseffekt alterkat2(2)*ausbild) Die Ausbildungsphase verzgert die Geburt also u.a. im Altersbereich 20-22 Jahre

Zeitdiskrete EDA

58

Spezielle Probleme
Es empfiehlt sich, den Timing-Effekt grafisch zu betrachten Dazu werden die vorhergesagten Wahrscheinlichkeiten (also die Hazardrate) im Datensatz abgespeichert und mit einem mehrfachen Liniendiagramm getrennt fr Personen mit und ohne Ausbildungsphase dargestellt (nchste Folie) Es ist zu erkennen, dass die bergangsrate bei Personen ohne Ausbildungsphase deutlich frher ansteigt, was den vermuteten TimingEffekt besttigt

Zeitdiskrete EDA

59

Spezielle Probleme
0,12

In Ausbildung (t-2) nein ja

0,10

0,08

Haz zardrate

0,06

0,04

0,02

0,00 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Lebensalter

Zeitdiskrete EDA

60

Spezielle Probleme
Das nchste zu diskutierende Problem betrifft eine mgliche Linksstutzung der Panelstichprobe Bei Paneldaten kann es vorkommen, dass Personen bereits eine gewisse Zeit dem Risiko eines Zustandswechsels ausgesetzt waren bevor sie in die Panelstichprobe gelangen waren, Dieses Problem, das als Linksstutzung bezeichnet wird, ist auf der nchsten Folie dargestellt Dort sind vier Ereignisgeschichten einzeichnet, jeweils beginnend mit einem Startpunkt s (z.B. Mindestheiratsalter) und endend mit einem Ereignis e (z.B. (z B Heirat) bzw. bzw Rechtszensierung

Zeitdiskrete EDA

61

Spezielle Probleme

Zeitdiskrete EDA

62

Spezielle Probleme
Bei den beiden grau gefrbten Ereignisgeschichten handelt es sich um normale Flle, bei denen der Startpunkt der Ereignisgeschichte innerhalb des Beobachtungszeitraums liegt Die schwarzen Ereignisgeschichten sind dagegen linksgestutzt, da der Startzeitpunkt s zwar bekannt ist (deshalb handelt es sich nicht um eine Linkszensierung), jedoch vor dem Beobachtungszeitraum datiert ist Die Linksstutzung kann dazu fhren, dass die Panelstichprobe insofern selektiv ist, da Personen mit hoher bergangsneigung das Ereignis bereits erlebt haben, bevor der Beobachtungszeitraum im Panel beginnt

Zeitdiskrete EDA

63

Spezielle Probleme
Sind die Daten linksgestutzt, sind Verfahren anzuwenden, die auf einer sog. conditional likelihood basieren Die zeitdiskrete EDA gehrt dazu: Hier entspricht die abhngige Variable ja der Wahrscheinlichkeit, dass das Ereignis in einem bestimmten Zeitintervall eintritt eintritt, unter der Bedingung, dass es zuvor noch nicht eingetreten ist Werden dagegen bei linksgestutzten Daten Verfahren fr die zeitkontiuierliche EDA (Cox-Regression, etc.) angewendet, kommt es zu einer Unterschtzung der bergangsraten (siehe Guo 1993) Auch wenn die zeitdiskrete EDA also speziell fr linksgestutzte Daten geeignet ist, sind bei der Interpretation verschiedene Aspekte zu beachten:

Zeitdiskrete EDA

64

Spezielle Probleme
Das Beispiel auf der folgenden Folie zeigt eine Panelanalyse mit linksgestutzten Daten Die abhngige Variable ist der bergang zum ersten Kind; Gegenstand der Analyse sind Frauen, die Anfang 1994 kinderlos sind Der Beobachtungszeitraum im Panel erstreckt sich von 1994 bis 2001, umfasst also bis zu 9 Panelwellen Die Daten werden hier entsprechend der Panelstruktur anhand der historischen Zeit aufbereitet (die Zeilen im Datensatz entsprechen also den Panelwellen) Dies fhrt dazu, dass verschiedene Geburtskohorten jeweils nur in bestimmten Altersbereichen in der Panelstichprobe vertreten sind

Zeitdiskrete EDA

65

Spezielle Probleme

Zeitdiskrete EDA

66

Spezielle Probleme
Frauen, die 1964 oder frher geboren wurden, sind im Beobachtungszeitraum zwischen 30 und 49 Jahre alt; hier ist die Linksstutzung am deutlichsten ausgeprgt Eine 1960 geborene Frau ist z.B. schon etwa 20 Jahre dem Risiko einer ersten Geburt ausgesetzt ausgesetzt, wenn sie erstmals im Panel beobachtet wird Alle Frauen des Geburtsjahrganges 1960, die schon vor 1994 ihr erstes Kind bekommen haben, gelangen nicht in die Stichprobe Frauen der Geburtsjahrgnge ab 1971 sind im Beobachtungszeitraum zwischen 17 und 30 Jahre alt; hier ist das Ausma der Linksstutzung geringer

Zeitdiskrete EDA

67

Spezielle Probleme
Frauen, die 1964 oder frher geboren wurden, sind im Beobachtungszeitraum zwischen 30 und 49 Jahre alt; hier ist die Linksstutzung am deutlichsten ausgeprgt Eine 1960 geborene Frau ist z.B. schon etwa 20 Jahre dem Risiko einer ersten Geburt ausgesetzt ausgesetzt, wenn die erstmals im Panel beobachtet wird Alle Frauen des Geburtsjahrganges 1960, die schon vor 1994 ihr erstes Kind bekommen haben, gelangen nicht in die Stichprobe Frauen der Geburtsjahrgnge ab 1971 sind im Beobachtungszeitraum zwischen 17 und 30 Jahre alt; hier ist das Ausma der Linksstutzung geringer

Zeitdiskrete EDA

68

Spezielle Probleme
Probleme bei der Interpretation ergeben sich nun z.B., wenn man auf der Basis der dargestellten Panelstichprobe den Zusammenhang zwischen Alter und Geburtswahrscheinlichkeit analysieren will Auf der nchsten Folie ist die entsprechende Hazardrate dargestellt In der EDA fr zeitkontinuierliche Daten ist man gewohnt, dass dieselben Individuen ber die gesamte Prozesszeit beobachtet werden; dies ist in der Panelstichprobe wegen der Linksstutzung jedoch nicht der Fall Wie in der Grafik kenntlich gemacht wurde, kann die Hazardrate fr die Geburtsjahrgnge 1971 und spter nur im Altersbereich 17-31 Jahre geschtzt werden

Zeitdiskrete EDA

69

Spezielle Probleme
3er Kohorteneinteilung bis 1964 1965-1970 1971 1971+

0,15

Vorhergesagte Ha azardrate, ers stes Kind

0,125

0,10

0,075

0,05

0,025

0 00 0,00

11 13 15 17 19 21 23 25 27 29 31 33 35

Alter der Frau (-14)

Zeitdiskrete EDA

70

Spezielle Probleme
Fr Frauen der Geburtsjahrgnge 1965-1970 kann die Hazardrate nur im Altersbereich 23-36 Jahre berechnet werden usw. Wie ist nun mit derartigen Multi-Kohorten-Daten umzugehen? John B. Willett teilt hierzu auf Anfrage mit, dass es bei dieser Datenstruktur angemessen ist zu testen, ob es Interaktionseffekte zwischen der Geburtskohorte und den Kovariaten gibt Wenn weder die Haupteffekte der Kohorte, Kohorte noch die Interaktionseffekte zwischen Kohorte und Kovariaten, signifkant sind, kann eine einzelne Hazardrate bzw. berlebensfunktion ausgegeben werden, obwohl es sich um Multi Multi-Kohorten-Daten Kohorten Daten handelt

Zeitdiskrete EDA

71

Spezielle Probleme
Falls die Haupteffekte der Geburtskohorte oder entsprechende Interaktionseffekte signifikant sind, sind diese allerdings bei der Modellschtzung zu kontrollieren Eine weitere Mglichkeit besteht natrlich darin, die Linksstutzung zu begrenzen oder ganz zu vermeiden, vermeiden indem nur entsprechende Geburtsjahrgnge ausgewhlt werden, bei denen der Prozessbeginn innerhalb der Beobachtungszeit im Panel liegt Zum Beispiel wird im aktuellen Familienpanel eine Geburtskohorte der 15-17jhrigen befragt, die die meisten biografischen bergnge noch vor sich hat

Zeitdiskrete EDA

72

Literatur
Singer, J. D. & Willett, J. B. (2003): Applied Longitudinal Data Analysis. Oxford University Press. Methodenpapier von Singer et al. zur zeitdiskreten EDA: http://gseacademic.harvard.edu/~willetjo/pdf%20files/Willett_and_Singer_JCCP199 3.pdf Yamaguchi, K. (1991): Event History Analysis. Newbury Park, London, New Delhi: Sage Publications. Allison, P.D. (1984): Event history analysis. Regression for longitudinal event data. Beverly Hills, London, New Dehli: Sage. Guo, G. (1993): Event-history for left-truncated data. In: Marsden, P.V. (Hrsg.): Sociological methodology, Vol. 23. Oxford: Blackwell.

Zeitdiskrete EDA

73