Verlaufsdatenanalyse Intern

Präliminarien
Statistische Grundkonzepte und Software-Umsetzung

Verfahren
Literatur und Webseiten
Verlaufsdatenanalyse. Voraussetzungen,
Analysemöglichkeiten und Probleme
Prof. Dr. Wolfgang Ludwig-Mayerhofer
Universität Siegen – Philosophische Fakultät, Seminar für Sozialwissenschaften
Prof. Dr. Wolfgang Ludwig-Mayerhofer Verlaufsdatenanalyse

Präliminarien
Verfahren
Überblick
1 Präliminarien
2 Statistische Grundkonzepte und Software-Umsetzung
3 Verfahren
4 Literatur und Webseiten
2 / 51
Präliminarien
Verfahren
1 Präliminarien
3 Verfahren
3 / 51
Präliminarien
Verfahren
Zeitbezogene Daten: Die wichtigsten Formen
Paneldaten: Im Prinzip die gleichen Informationen in

(optimalerweise) regelmäßigen Abständen, i. d. R. aV und uV (also
Kausalanalyse)
Zeitreihendaten: I. d. R. sehr lange Beobachtungen eines Phänomens
(viele Messwerte), Erklärung der Entwicklung „aus sich selbst“
(Trends, Autokorrelation etc.)
Verlaufsdaten/Event (History)-Daten: Zeit = Dauer bis zu einem
Zustandswechsel (bzw. Funktion davon) als aV; dazu erklärende
Variablen (hier fast immer als Kovariaten bezeichnet), die auch
ihrerseits Event (History)-Struktur haben können.
!! Datenstruktur muss nicht identisch mit Datenerhebungsstruktur sein

(SOEP oder NEPS erheben Panel- und Event History-Daten).
4 / 51
Präliminarien
Verfahren
Verlaufsdaten: Vorkommen und Anwendungsbereiche

Versicherungswirtschaft: Was ist die erwartete Lebensdauer von
Menschen (gegebenenfalls in Abhängigkeit von bestimmten
Eigenschaften)?
Sozialwissenschaften: Wie lange dauern Ehen? Wie lang bleiben
Beschäftigte beim selben Arbeitgeber? Wie lange können sich
Regierungen an der Macht halten? Wie lang dauert es, bis neu
gegründete Firmen pleite gehen?
Qualitätsmanagement: Wie lang dauert es, bis ein Drucker kaputt
geht – bis Milch beginnt, sauer zu werden (MHD!) – usw.
Medizin/Public Health: Wie lang überleben Patienten nach einer
Operation? Kann ein Medikament die Genesung beschleunigen?
Je nach disziplinärer Herkunft firmieren statistische Analyseverfahren
unter Begriffen wie Survival (Data) Analysis, Event (History) Analysis,
Analysis of Failure Times, (Hazard) Rate Models u. v. a. m.
5 / 51
Präliminarien
Verfahren
Warum Verlaufsdatenanalyse?
Verlaufsdatenanalyse aka Event History Analysis (EHA) aka
Ereignisanalyse aka Survival-Analyse aka Analysis of Failure Times aka
Verweildaueranalyse aka Reliability Analysis, weil . . .
Zensierte/trunkierte Daten (kein zwingender Grund für EHA)

Verteilung der Störgrößen fast nie NV
Zeitveränderliche Kovariaten
Analysemöglichkeiten:
Deskriptiv/explorativ: Verteilungsfreie Verfahren (auch graphisch),

dazu gegebenenenfalls Signifikanztests für Gruppenunterschiede
Semi-parametrische Regressionsmodelle
Parametrische Regressionsmodelle
6 / 51
Präliminarien
Verfahren
Ereignisse und zeitliche Strukturen

Ereignisse, Ereignisse . . .
Mehrere Zielzustände („Competing Risks“) (in Stata spezielles

Modell)
Wiederholte Ereignisse
Zeit
Zeit = Prozesszeit (aber: was ist das?)
diskret (wenige / u. U. fixe Zeitpunkte)
stetig
Dieser Kurs beschränkt sich auf einmalige Ereignisse mit einem einzigen
Zielzustand sowie stetige Zeit.
7 / 51
Präliminarien
Verfahren
Datenstrukturen: Was man wissen / beachten sollte
Schwierige/problematische Daten(strukturen):
Vollständigkeit der Daten (Lücken, fehlende [und scheinbar

fehlende] Fälle)
Unklare Daten (zeitlich oder sachlich) – gleichzeitige Episoden,
kurze Episoden etc.
Was ist überhaupt Ereignis?
Unabhängigkeit von Zensierungen und Ereignissen?
8 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
1 Präliminarien
Grundkonzepte
Software
3 Verfahren
9 / 51
Präliminarien
Verfahren Software
Verteilung von Überlebensdauern

Dichtefunktion allgemein: Zb
P(a 6 X 6 b) = f (x)dx
a
Beispiel: Exponentialverteilung mit f (x) = λe −λx für x ≥ 0

.6
.4
.2
0
0 2 4 6 8 10
Angewandt auf Überlebensdauern:

P(t < T < t + ∆t)
f (t) = lim
∆t→0 ∆t
10 / 51
Präliminarien
Verfahren Software
Kumulierte Verteilung von Überlebensdauern

Verteilungsfunktion allgemein:
Zx
F (x) = P(−∞ 6 X 6 x) = f (u)du
−∞
−λx
Beispiel: Exponentialverteilung mit F (x) = 1 − e für x ≥ 0
1
.8
.6
.4
.2
0
0 2 4 6 8 10
Angewandt auf Überlebensdauern: Z t

F (t) = P(T ≤ t) = f (u)du
0
11 / 51
Präliminarien
Verfahren Software
Die wichtigsten Größen in der Verlaufsdatenanalyse

Überlebensfunktion (Survivorfunktion):
S(t) = P(T > t) = 1 − F (t)
Hazardrate (Übergangsrate):
P(t < T < t + ∆t|T ≥ t) f (t)

r (t) = lim =
∆t→0 ∆t S(t)
Kumulative Hazardrate:
Z t
R(t) = r (u)du
0
12 / 51
Präliminarien
Verfahren Software
Software-Pakete
Die wichtigsten Statistik-Pakete enthalten Prozeduren/Pakete zur

Analyse von Verlaufsdaten:
Stata
SAS
R, siehe
https://cran.r-project.org/web/views/Survival.html
SPSS (sehr eingeschränkt)
TDA – Transition Data Analysis
Mplus (kenne ich nicht gut genug)
13 / 51
Präliminarien
Verfahren Software
Zeitbezogene Daten in Stata

Zeit kann im Prinzip durch beliebige numerische Variablen erfasst
werden – die Umsetzung hängt auch von der erforderlichen/
gewünschten/möglichen Genauigkeit ab.
Stata bietet die Möglichkeit, Daten bezogen auf Uhrzeit und den
Kalender in speziellen Formaten abzulegen – von Tausendstel einer
Sekunde bis hin zu Jahrhunderten. Dies ermöglicht exakte
Berechnungen, über längere Zeiträume auch unter Berücksichtigung
von Schaltjahren etc.
In der (sozialwissenschaftlichen) Praxis haben wir es häufig mit
Daten auf Monatsbasis zu tun. Diese können in einfacher Weise
durch Bezugnahme auf einen beliebigen Bezugsmonat codiert und
weiterverarbeitet werden.
Im Datensatz für diese Übung ist außerdem bereits die Dauer des
untersuchten Prozesses als Variable enthalten.
14 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Modellierung: Parametrische Modelle
Verfahren
Modellierung: Semi-parametrische Analyse
1 Präliminarien
3 Verfahren
Die Daten
4 Literatur und Webseiten 15 / 51

Die Daten
Präliminarien
Verfahren
Datensatz
The data set comes from a larger study of high school seniors, whose
main results have been published by Coleman/Hoffer (1987) and
Coleman/Hoffer/Kilgore (1982). The data refer to persons who have
entered four year colleges and for whom follow-up information was
gathered about whether they finished college or dropped out of it
prematurely.
Veröffentlicht in:
Yamaguchi, Kazuo. 1991. Event History Analysis, Newbury Park: Sage,
Chapter 6, Table 6.6 (p. 152-7)
Die veröffentlichten Daten sind teilweise fehlerhaft; die Fehler sind hier
korrigiert.
Dateiname: Beispieldatensatz_Yamaguchi.dta
Ort: Z:\ESF-Pool\Daten\Statistik_III
16 / 51
Die Daten
Präliminarien
Verfahren
Datenstruktur
Mindestens eine Variable, die die Dauer bis zum Erreichen des
Zielzustandes oder bis zur Zensierung angibt (hier: p_dur)
Hier wird angenommen, dass die Prozesszeit bei „0“ beginnt. Bei
allen anderen Datenkonstellationen (mehrere Ereignisse, alternativer
Beginn der Prozesszeit, Lücken in den Daten usw.) müssen Beginn
und Ende explizit im Datensatz vorhanden sein. Achtung –
Handbuch/Hilfefunktion lesen!
Sofern Zensierungen vorhanden, muss Variable vorhanden sein, die
angibt, ob Ereignis eingetreten ist oder nicht (hier p_status).
Außerdem: Kovariaten; bei zeitverändlichen Kovariaten mit Angabe
des Zeitpunktes der Änderung (u. U. implizit; hier: t_mar mit Bezug
auf t_col)
17 / 51
Die Daten
Präliminarien
Verfahren
Die Life Table-Analyse (Sterbetafelanalyse) I

Die Life Table-Analyse geht von diskreten Zeiten aus bzw. fasst stetige
Zeit in diskrete Zeiträume zusammen (im folgenden als l bezeichnet).
El =Zahl der Fälle mit einem Ereignis im Intervall l
Zl =Zahl der zensierten Fälle im Intervall l
Die Risikomenge: Zahl der Fälle, die im jeweiligen Intervall dem Risiko
eines Ereignisses unterliegt. Setzt sich zusammen aus:
Zahl der Fälle, die zu Beginn eines jeden Intervalls noch nicht
ausgeschieden sind: für das erste Intervall gleich N, dann:
Nl = Nl−1 − El−1 − Zl−1
Unter Annahme, dass die Zensierungen gleichmäßig über das gesamte
Intervall verteilt sind, folgt für die Risikomenge R:
Rl = Nl − 0.5Zl
18 / 51
Die Daten
Präliminarien
Verfahren
Die Life Table-Analyse (Sterbetafelanalyse) II

Die bedingte Wahrscheinlichkeit, in einem Intervall ein Ereignis zu haben,
wird definiert als
El
ql =
Rl
Dementsprechend ist die (bedingte) Wahrscheinlichkeit, in dem Intervall
kein Ereignis zu haben (also das Intervall zu überleben)
pl = 1 − ql
Für die Survivorfunktion ergibt sich:
S1 = 1, Sl6=1 = Sl−1 pl−1
Achtung – Stata (aber auch manche andere Software) gibt nicht (wie hier
angenommen) S(l) am Beginn, sondern S(l) am Ende des Intervalls aus (was
identisch ist mit S(l) zu Beginn des nächsten Intervalls)! Auch die folgenden
Formeln beziehen sich aber auf die „herkömmliche“ Schreibweise, in der S(l)
sich auf den Beginn jeweiligen Intervalls bezieht.
19 / 51
Die Daten
Präliminarien
Verfahren
Die Life Table-Analyse (Sterbetafelanalyse) III
Dichtefunktion:
Sl − Sl+1
ft =
hl
mit hl = Intervallbreite (in der jeweiligen Zeiteinheit).
Hazardrate:
ft
rt =
Sl
mit
Sl + Sl+1
Sl =
2
S l ist also gewissermaßen die „durchschnittliche“ Survivorfunktion

während des Intervalls.
20 / 51
Die Daten
Präliminarien
Verfahren
Die Life Table-Analyse mit Stata

ltable timevar [deadvar] [if][in][weight][, options]
Beispiele für Gruppierung der Zeiten:
, interval(6) Intervalle von 6 Zeiteinheiten

, interval(0(12)240) von 0 bis 240 in 12-er Schritten
, interval(6,12,24,48) 0 bis <6, . . . , 24 bis <48, 48 und mehr
Weitere Optionen
failure F(t) statt S(t)

hazard h(t) statt S(t) (nicht als Graphik)
by(groupvar) Gruppenvergleiche
test Zwei Tests für Gruppenvergleiche
21 / 51
Die Daten
Präliminarien
Verfahren
Life Table-Analyse, weitere Optionen
Optionen für Graphiken:
graph Plottet S(t)

overlay Plots für Gruppen überlagert in einer Graphik
Ersetzt (impliziert) graph!
ci Konfidenzintervalle in Plots
plotopts Optionen für Graphik
plot#opts Optionen für Plot der #. Gruppe
notable Unterdrückt Tabelle
22 / 51
Die Daten
Präliminarien
Verfahren
Das „Setten“ von Verlaufsdaten

Alle Verfahren außer der Life Table-Schätzung erfordern, dass die Daten
„gesettet“ werden; anders gesagt: Stata erhält vorab Information über die
„Zeit“ und „Ereignis“-Variablen und konstruiert daraus seine eigene
Datenmatrix.
stset timevar, [failure(eventvar[==value[s]])] [id(idvar)]
[...]
failure erforderlich bei Zensierungen; ohne Angabe von Werten

wird angenommen, dass Ereignisse mit 1 kodiert sind.
id erforderlich, falls mehrere Zeilen pro Fall (Splitting!),
Zahlreiche weitere Optionen (z.B. time0 bei Lücken in den
zeitbezogenen Variablen).
st liefert minimale, stdescribe etwas mehr Information über aktuelles
„setting“ der Daten.
23 / 51
Die Daten
Präliminarien
Verfahren
Der Kaplan-Meier-(Product-Limit-)Schätzer
Für stetige Zeit; S(t) ändert sich mit jedem einzelnen Ereignis.
Y
S(t) = pl
l|tl <t
Beispiel:
sts graph[, by(avgrades)]

graph ist gar nicht nötig (Voreinstellung!). Optionen hazard bzw.
cumhaz liefer (kumulierte) Hazardrate. Mehr Optionen im Do-File.
sts list [, by(avgrades)]

Bringt Zahlen statt Graphik.
Mehr über Hilfe zu sts graph, sts list, sts test und sts
generate.
24 / 51
Die Daten
Präliminarien
Verfahren
Modellschätzung allgemein I
Statistische Modelle erlauben
die (Netto-)Einflüsse mehrerer Kovariaten simultan zu untersuchen,

und dabei
Annahmen über Änderungen der Hazardrate im Zeitverlauf zu
modellieren (Ausnahme: Cox-Modell).
25 / 51
Die Daten
Präliminarien
Verfahren
Modellschätzung allgemein II
Die Koeffizienten können mittels Maximum Likelihood geschätzt werden

(das später vorgestellte Cox-Modell mittels Partial Likelihood). Für die
Inferenzstatistik gelten daher die üblichen Regeln:
Test für das Gesamtmodell (H0 : Alle Regressionskoeffizienten gleich

null) durch Likelihood-Quotienten-Test.
Tests für einzelne Koeffizienten: z-Test bzw. Wald-Test oder, wenn
Zweifel an deren Gültigkeit bestehen: Ebenfalls
Likelihood-Quotienten-Test.
Ab Stata Version 15 können Modelle auch auf der Grundlage von

Bayes-Statistik geschätzt werden (hier nicht behandelt).
26 / 51
Die Daten
Präliminarien
Verfahren
Modelle für stetige oder diskrete Zeit?
Ob die (Prozess-)Zeit stetig oder diskret gemessen wurde, ist relativ

(Messgenauigkeit). In Stata (wie auch sonst meist; Ausnahme: TDA) gilt:
Für Modelle mit diskreter Zeit(-messung) gibt es keine eigenen

Prozeduren; sie werden nach geeigneter Aufbereitung der Daten mit
Modellen für diskrete aV (logistische Regression) geschätzt.
Eine Reihe von bekannten Modellen mit stetiger Zeit ist über die
streg-Suite verfügbar; nutzer-definierte Modelle sind möglich (siehe
auch Folie „Ergänzungen“).
27 / 51
Die Daten
Präliminarien
Verfahren
PH und AFT
Stata unterscheidet bei Standard-Modellen zwei Modellklassen oder
-formulierungen:
Proportional Hazard-(PH-)Modelle: h(t|xj ) = h0 (t)exp(xj β x )

Koeffizient + → Hazard-Rate + → schnelleres „Sterben“
Accelerated Failure Time-(AFT-)Modelle: ln(tj ) = xj β x + j
Koeffizient + → Dauer + → langsameres „Sterben“
Erstere lassen sich in Stata überwiegend auch als AFT-Modelle

darstellen, aber letztere umgekehrt nicht in (nicht-proportionalen)
Hazards ausdrücken (obwohl es prinzipiell möglich wäre).
Daneben lassen sich im Rahmen eines linearen Regressionsmodells auch

lineare Einflüsse auf die Zeit modellieren (bei Zensierungen z. B. mit
intreg oder tobit).
28 / 51
Die Daten
Präliminarien
Verfahren
Übersicht I
Verfügbare Modelle in Stata Standard-Distribution (Version 13.1)

(Erläuterungen siehe auch nächste Folien):
Option Modell PH AF Form der Rate

d(e) Exponential + + →
d(gom) Gompertz + – % oder &
d(w) Weibull + + % oder &
d(ll) Log-logistisch – + y oder &
d(ln) Log-normal – + y
d(gam) Generalisiertes Gamma – + variabel
Aufruf verschiedener Modelle erfolgt im wesentlichen über Option

d(...) (für „distribution“): streg list-of-indepvar, option[s]
29 / 51
Die Daten
Präliminarien
Verfahren
Übersicht II
Ergänzungen der Standard-Distribution (ausgewählte Pakete):
stpiece: Paket von Jesper Sørensen für das Piecewise Constant

Exponential (PCE)-Modell
stgenreg: Paket von Crowther & Lambert zur Spezifikation
beliebiger (analytisch ausdrückbarer) Hazardraten (Schätzung über
numerische Integration; Definition der Hazardrate in Mata).
stpm2: Paket von Lambert & Royston für flexible Modelle,
einschließlich Splines und fraktionale Polynome; benötigt u. U.
weitere ado-Files.
Alle Pakete können über ssc installiert werden.
30 / 51
Die Daten
Präliminarien
Verfahren
Wahl des geeigneten Modells

Wenn Annahme über funktionale Form der Hazardrate vorliegt:
Modell schätzen
Vergleich mit PCE oder Gamma-Modell
AIC/BIC? Leider wg. unterschiedlicher Definitionen der
Likelihood schwierig.
Residuenanalyse
Wenn keine Annahme über funktionale Form der Hazardrate

vorliegt:
Cox-Modell schätzen (aber: in Soziologie eher nicht gängig;
und: was tun, wenn nicht proportional?); oder:
PCE-Modell schätzen; oder
generalisiertes Gamma-Modell (und dann?)
Es bleibt immer das Problem unbeobachteter Heterogenität (frailty
models als Lösung?).
31 / 51
Die Daten
Präliminarien
Verfahren
Modellergebnisse – jenseits der Zahlen
Die meisten Modelle erlauben eine Visualisierung der Modellergebnisse

bzw. von Implikationen derselben:
margins mit marginsplot stellt (u. a.) Mediane der geschätzten

Verweildauer dar.
stcurve ermöglicht die Visualisierung von Hazardraten oder
Survivor-Funktionen.
32 / 51
Die Daten
Präliminarien
Verfahren
Das Exponential-Modell
PH-Formulierung:
h(t|xj ) = h0 (t)e xj βx
= e β0 +xj βx
Ausgabe der Modellparameter als Hazard Ratio, also als Veränderung der
Hazardrate! Alternative Ausgaben mit weiteren Optionen: . . .
nohr: Koeffizienten
time: Koeffizienten in AFT-Formulierung
tr: AFT-Koeffizienten, ausgedrückt als Time Ratio
Das Exponentialmodell nimmt eine konstante Hazardrate an; das

Pieceweise Constant Exponential-Modell unterstellt diese Konstanz nur
innerhalb der definierten „Pieces“ (Zeitabschnitte).
33 / 51
Die Daten
Präliminarien
Verfahren
Das Weibull-Modell
PH-Formulierung:
= pt p−1 e β0 +xj βx
Es gilt also:
p = 1: Hazardrate konstant (=Exponentialmodell)

p > 1: Hazardrate %
p < 1: Hazardrate &
Stata gibt außerdem ln(p) und 1/p aus, weil diese in alternativen
Parametrisierungen des Modells vorkommen können.
−βPH
„Übersetzung“ der Koeffizienten von PH in AFT: βAFT =
p
34 / 51
Die Daten
Präliminarien
Verfahren
Das Weibull-Modell (cont’d)

Da p die Form der Hazardrate beeinflusst, wird es als Shape-Parameter
bezeichnet.
In Stata werden p bzw. weitere Shape-Parameter als „ancillary

parameters“ (Hilfsparameter) bezeichnet. Sie können auch als Funktion
von Kovariaten modelliert werden. Im vorliegenden Fall also statt
ln(p) = p0 (konstant):
ln(p) = p0 + zj pz
für beliebige Kovariaten z, wobei gelten kann, aber nicht muss: z ∈ x.
Das gleiche Prinzip gilt auch für Hilfsparameter der folgenden Modelle.
Umsetzung in Stata mit mit Option anc bzw. (bei zwei Hilfsparametern)
anc2
35 / 51
Die Daten
Präliminarien
Verfahren
Das log-logistische Modell

„Klassische“ Formulierungen für die Hazardrate nach Kalbfleisch & Prentice
(1980, S. 28; links) bzw. Blossfeld & Rohwer (2002, S. 202; rechts).
γ−1 γ
β0 +xj β x β +x β
e e 0 j xt
γ γ e ( 0 )
β +xj β x
t γ−1
h(t|xj ) =
β +x β
γ = β0 +xj β x
γ
1+ e 0 j x t 1+ e t
Der Stata-Output muss hier wie folgt geändert werden: γ(hier) = 1/γ(Stata) ;
β(hier) = −β(Stata)
Eine Parametrisierung, in die man die Stata-Koeffizienten direkt einsetzen kann:

1 β +x β
1 γ −1
exp − 0 γ j
x
γ
t
h(t|xj ) = 1 β +x β x

1+t γ exp − 0 γ j
In beiden Fällen bedeutet γ(Stata) ≥ 1 eine monoton fallende, γ(Stata) < 1 eine
zuerst steigende, dann fallende Hazardrate.
36 / 51
Die Daten
Präliminarien
Verfahren
Das log-normale Modell
Formulierung für die Hazardrate (nach Blossfeld & Rohwer 2002, S. 204)
1 φ(zt ) ln(t) − (β0 + xj β x )

h(t|xj ) = mit zt =
σt 1 − Φ(zt ) σ
wobei φ(zt ) bzw. Φ(zt ) die Dichte bzw. die Verteilungsfunktion einer
Standardnormalverteilung an der Stelle zt sind. (Achtung: σ ist nicht die
Standardabweichung der SNV [wäre dann ja überflüssig], sondern der
Shape-Parameter!)
Hier steigt die Hazardrate zunächst und fällt dann; der initiale Anstieg ist
umso steiler, je größer σ.
37 / 51
Die Daten
Präliminarien
Verfahren
Das Gompertz-Modell
Die Formulierung des Modell in Stata (PH):
= e γt e β0 +xj βx
Die Hazardrate wächst (exponentiell) wenn γ > 0, sonst nimmt sie ab.
Bei abnehmender Hazardrate erreicht S(t) niemals den Wert 0, was
inhaltlich angemessen sein kann oder nicht.
38 / 51
Die Daten
Präliminarien
Verfahren
Das generalisierte Gamma-Modell I

Das generalisierte Gamma-Modell ist sehr flexibel (siehe Pfeile; λ
entspricht κ in Stata; Quelle: Cox et al. 2007)
4356 C. COX ET AL.
3
(c, ∞) (∞, d)
σ)
( λ=
m ma
Ga
2
(∞, ∞)
Shape (λ)
(0, ∞) (∞, 0) Weibull
1
Ammag (λ
= 1/σ) (c, 0)
(0, d)
(0, 0) log normal
Inv
0
ers σ)
eG Inverse Ammag ( λ
am
ma
(λ
σ)
Inverse Weibull
−1
0 1 2 3
Scale (σ)
Figure 1. A schematic representation in the (, ) half-plane of the generalized gamma

distribution family. The four regions defined by the two curves include the four common
types of hazard function: increasing and decreasing failure rate, bathtub and arc-shaped.
39 / 51
Die Daten
Präliminarien
Verfahren
Das generalisierte Gamma-Modell II

Form der Hazard-Rate im generalisierten Gamma-Modell:
κ = σ = 1: Entspricht Exponential-Modell
κ = 1: Entspricht Weibull-Modell
κ = 0: Entspricht log-normalem Modell
σ > 1 und 1/σ ≤ κ ≤ σ: Monoton fallend
0 < σ < 1 und σ ≤ κ ≤ 1/σ: Monoton steigend
κ > max{σ, 1/σ}: Badewannenförmig
κ < min{σ, 1/σ}: Bogenförmig
Quelle: Cox et al. 2007

40 / 51
Die Daten
Präliminarien
Verfahren
Modellprüfung: Residuen
Arten von Residuen:
Cox-Snell-Residuen (sehr allgemeine Definition von Residuen;
speziell hier:) keine ,echten‘ Residuen, sondern Ausdruck des
geschätzten Modells.
→ Prüfung der Adäquatheit des gewählten Modells
Martingale-Residuen: Größere Verwandtschaft mit ,echten‘ Residuen
(Unterschied zwischen Modellschätzung und tatsächlichen
Beobachtungen).
→ Prüfung der funktionalen Verknüpfung von uV mit aV
Deviance Residuals (Devianz-Residuen?): Größte Verwandtschaft
mit ,traditionellen‘ Residuen (sind symmetrisch um Null verteilt).
→ Prüfung auf Ausreißer (nicht gut durch das Modell erklärte Fälle)
Statistiken zum Einfluss einzelner Fälle scheinen für parametrische

Modelle (im Unterschied zu Cox-Modell) in Stata nicht implementiert
(wer’s selber programmieren mag: Collett 2003, S. 244). 41 / 51
Die Daten
Präliminarien
Verfahren
Das Piecewise Constant Exponential-Modell
Im PCE-Modell wird die (mögliche) Zeitveränderlichkeit der Hazardrate

dadurch modelliert, dass die Prozesszeit in (beliebige zu definierende)
Zeitabschnitte t eingeteilt wir, für die jeweils eine unterschiedliche
Konstante β0t geschätzt wird.
Es spielt in der angelsächsischen (vor allem US-amerikanischen) Literatur

keine Rolle; in Deutschland und teilweise Europa ist es wegen des großen
Einflusses von Hans-Peter Blossfeld weit verbreitet.
PH-Formulierung: h(t|xj ) = e β0t +xj βx
Umsetzung in Stata am besten mit stpiece. Diese Prozedur erlaubt

auch die Modellierung abschnittsspezifischer Einflüsse von Kovariaten
(über die Option tv).
42 / 51
Die Daten
Präliminarien
Verfahren
Zeitveränderliche Kovariaten: Das Problem
Häufig werden Einflüsse untersucht, die sich im Verlauf des untersuchten

Prozesses ändern. Es kann sich um binäre (in unserem Beispiel:
verheiratet ja/nein), aber auch um quantitative Merkmale handeln
(letzteres z. B.: Zahl der Kinder).
Die entsprechenden Merkmale können daher nicht als unabhängige

Variablen mit fixen Ausprägungen in die Analyse aufgenommen werden.
43 / 51
Die Daten
Präliminarien
Verfahren
Die Lösung
Eine allgemeine Lösung für das Problem zeitveränderlicher Kovariaten ist
das Episodensplitting: Die einzenen Episoden werden in zwei oder mehr
Unterepisoden gesplittet dergestalt, dass die gesplitteten Episoden für
unterschiedliche Ausprägungen der zeitverändlichen uV stehen.
Originalepisode:
Id Beginn Ende Event Heirat
1 0 41 1 34
Nach Episodensplitting:
Id Beginn Ende Event Verheiratet
1 0 34 0 0
1 34 41 1 1
44 / 51
Die Daten
Präliminarien
Verfahren
Episodensplitting mit Stata

Mit der Prozedur stsplit können die Episoden zu festen (von der
Nutzerin zu spezifizierenden) Zeitpunkten oder in Beziehung auf den
Eintritt anderer Ereignisse gesplittet werden.
Beispiel Fall Nr. 53: Eintritt ins College in Monat 9, Heirat im Monat 43.
Da Prozesszeit mit 0 beginnt, muss zunächst Heirat auf Prozesszeit
bezogen werden (Addition von 0,5, weil dies auch zu Dauer hinzugezählt
wurde):
gen marcol = t_mar − t_col + 0.5
Nun kann zum Zeitpunkt von marcol gesplittet werden:
stsplit verheir, at(0) after(marcol)
Die Variable verheir hat nun Werte von −1 (vor Heirat) und 0 (ab
Heirat).
45 / 51
Die Daten
Präliminarien
Verfahren
Mehr zu zeitveränderlichen Kovariaten in Stata
Statt stsplit können natürlich auch die üblichen Befehle zur

Datenaufbereitung eingesetzt werden. Beispielsweise können zu
splittende Episoden mit expand # vervielfältigt (mit dem Faktor #)
und anschließend entsprechend aufbereitet werden.
Für die (gleich zu besprechende) Cox-Regression gibt es eigene
Möglichkeiten, zeitveränderliche Kovariaten zu definieren.
Episodensplitting hat aber die gleichen Wirkungen und ist somit
universell einsetzbar.
46 / 51
Die Daten
Präliminarien
Verfahren
Das Cox-Modell I
Geschätzt werden die β-Parameter (Regressionsgewichte) für folgende

Gleichung:
r (t|X) = r0 (t) exp(β1 X1 + . . . βk Xk )
Dabei ist r0 (t) der sog.„Baseline Hazard“, die „Grundrate“ des Prozesses,
die im Rahmen des PL-Verfahrens nicht geschätzt wird (eine Konstante
β0 taucht daher in der Formel nicht auf). Geschätzt werden also nur die
Einflüsse der Kovariaten, d. h. die relativen Änderungen der unbekannten
Rate.
Der Baseline Hazard kann aber durch andere Verfahren doch noch
angenähert werden.
47 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
1 Präliminarien
3 Verfahren
Literatur
Webseiten
48 / 51
Präliminarien
Verfahren Webseiten
Literatur
Blossfeld, H.-P., K. Golsch, and G. Rohwer. 2007. Event History Analysis with
Stata. Mahwah, New Jersey: Lawrence Erlbaum Associates.
Blossfeld, Hans-Peter, and Götz Rohwer. 2002 (2. Aufl.). Techniques of Event
History Modeling. New Approaches to Causal Analysis. Hillsdale, NJ: Erlbaum.
Box-Steffensmeier, Janet M., and Bradford S. Jones. 2004. Event History

Modeling: A Guide for Social Scientists. Cambridge, Cambridge University
Press.
Cleves, M., R. G. Gutierrez, W. Gould, and Y. V. Marchenko. 2010. An

Introduction to Survival Analysis Using Stata (Third Edition). College Station,
Texas: Stata Press.
Coleman, James S., and T. Hoffer. 1987. Public and Private High Schools: The
Impact of Communities, New York.
49 / 51
Präliminarien
Verfahren Webseiten
Literatur
Coleman, James S., and S. Kilgore. 1982. High School Achievement: Public,
Catholic and Private Schools Compared, New York.
Collett, David. 2003. Modelling Survival Data in Medical Research. Second

Edition. London: Chapman & Hall/CRC.
Cox, Christopher, Haitao Chu, Michael F. Schneider, and Alvaro Muñoz. 2007.
Parametric survival analysis and taxonomy of hazard functions for the
generalized gamma distribution. Statistics in Medicine 26 (23):4352-4374.
Crowther, Michael J., and Paul C. Lambert. 2013. stgenreg: A Stata Package
for General Parametric Survival Analysis. Journal of Statistical Software 53
(12):(no page numbers).
Kalbfleisch, J. D., and R. L. Prentice. 1980. The Statistical Analysis of Failure

Time Data. New York: Wiley.
50 / 51
Präliminarien
Verfahren Webseiten
Hilfreiche Webseiten
Bradford S. Jones (Ko-Autor von Buch mit Box-Steffensmeier):

http://psfaculty.ucdavis.edu/bsjjones/eventhistory.html
Seite zum Kurs von Stephen Jenkins:

https://www.iser.essex.ac.uk/resources/survival-
analysis-with-stata
Seite bei der UCLA (leider ohne parametrische Modelle):

http://www.ats.ucla.edu/stat/stata/seminars/stata-survival/
Last, aber sicherlich auch least mein Stata Guide:

http://wlm.userweb.mwn.de/Stata/
„Analysis of time-to-event data“ findet sich ziemlich weit unten in der
Navigationsleiste. Enthält allerdings nichts, was nicht auch in dieser
Präsentation steht.
51 / 51

Verlaufsdatenanalyse Intern

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Verlaufsdatenanalyse Intern

Hochgeladen von

Copyright:

Verfügbare Formate

Präliminarien

Statistische Grundkonzepte und Software-Umsetzung

Prof. Dr. Wolfgang Ludwig-Mayerhofer

Universität Siegen – Philosophische Fakultät, Seminar für Sozialwissenschaften

Prof. Dr. Wolfgang Ludwig-Mayerhofer Verlaufsdatenanalyse

2 Statistische Grundkonzepte und Software-Umsetzung

4 Literatur und Webseiten

2 Statistische Grundkonzepte und Software-Umsetzung

4 Literatur und Webseiten

Zeitbezogene Daten: Die wichtigsten Formen

Paneldaten: Im Prinzip die gleichen Informationen in

!! Datenstruktur muss nicht identisch mit Datenerhebungsstruktur sein

Verlaufsdaten: Vorkommen und Anwendungsbereiche

Zensierte/trunkierte Daten (kein zwingender Grund für EHA)

Deskriptiv/explorativ: Verteilungsfreie Verfahren (auch graphisch),

Ereignisse und zeitliche Strukturen

Mehrere Zielzustände („Competing Risks“) (in Stata spezielles

Datenstrukturen: Was man wissen / beachten sollte

Vollständigkeit der Daten (Lücken, fehlende [und scheinbar

2 Statistische Grundkonzepte und Software-Umsetzung

4 Literatur und Webseiten

Verteilung von Überlebensdauern

Beispiel: Exponentialverteilung mit f (x) = λe −λx für x ≥ 0

Angewandt auf Überlebensdauern:

Kumulierte Verteilung von Überlebensdauern

Angewandt auf Überlebensdauern: Z t

Die wichtigsten Größen in der Verlaufsdatenanalyse

S(t) = P(T > t) = 1 − F (t)

P(t < T < t + ∆t|T ≥ t) f (t)

Die wichtigsten Statistik-Pakete enthalten Prozeduren/Pakete zur

Zeitbezogene Daten in Stata

2 Statistische Grundkonzepte und Software-Umsetzung

4 Literatur und Webseiten 15 / 51

Die Life Table-Analyse (Sterbetafelanalyse) I

Die Life Table-Analyse (Sterbetafelanalyse) II

Die Life Table-Analyse (Sterbetafelanalyse) III

S l ist also gewissermaßen die „durchschnittliche“ Survivorfunktion

Die Life Table-Analyse mit Stata

Beispiele für Gruppierung der Zeiten:

, interval(6) Intervalle von 6 Zeiteinheiten

failure F(t) statt S(t)

Life Table-Analyse, weitere Optionen

Optionen für Graphiken:

graph Plottet S(t)

Das „Setten“ von Verlaufsdaten

failure erforderlich bei Zensierungen; ohne Angabe von Werten

sts graph[, by(avgrades)]

sts list [, by(avgrades)]

Statistische Modelle erlauben

die (Netto-)Einflüsse mehrerer Kovariaten simultan zu untersuchen,

Die Koeffizienten können mittels Maximum Likelihood geschätzt werden

Test für das Gesamtmodell (H0 : Alle Regressionskoeffizienten gleich

Ab Stata Version 15 können Modelle auch auf der Grundlage von

Modelle für stetige oder diskrete Zeit?

Ob die (Prozess-)Zeit stetig oder diskret gemessen wurde, ist relativ

Für Modelle mit diskreter Zeit(-messung) gibt es keine eigenen

Proportional Hazard-(PH-)Modelle: h(t|xj ) = h0 (t)exp(xj β x )

Erstere lassen sich in Stata überwiegend auch als AFT-Modelle

Daneben lassen sich im Rahmen eines linearen Regressionsmodells auch

Verfügbare Modelle in Stata Standard-Distribution (Version 13.1)

Option Modell PH AF Form der Rate

Aufruf verschiedener Modelle erfolgt im wesentlichen über Option

Ergänzungen der Standard-Distribution (ausgewählte Pakete):