Sie sind auf Seite 1von 51

Präliminarien

Statistische Grundkonzepte und Software-Umsetzung


Verfahren
Literatur und Webseiten

Verlaufsdatenanalyse. Voraussetzungen,
Analysemöglichkeiten und Probleme

Prof. Dr. Wolfgang Ludwig-Mayerhofer

Universität Siegen – Philosophische Fakultät, Seminar für Sozialwissenschaften

Prof. Dr. Wolfgang Ludwig-Mayerhofer Verlaufsdatenanalyse


Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Überblick

1 Präliminarien

2 Statistische Grundkonzepte und Software-Umsetzung

3 Verfahren

4 Literatur und Webseiten

2 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

1 Präliminarien

2 Statistische Grundkonzepte und Software-Umsetzung

3 Verfahren

4 Literatur und Webseiten

3 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Zeitbezogene Daten: Die wichtigsten Formen

Paneldaten: Im Prinzip die gleichen Informationen in


(optimalerweise) regelmäßigen Abständen, i. d. R. aV und uV (also
Kausalanalyse)
Zeitreihendaten: I. d. R. sehr lange Beobachtungen eines Phänomens
(viele Messwerte), Erklärung der Entwicklung „aus sich selbst“
(Trends, Autokorrelation etc.)
Verlaufsdaten/Event (History)-Daten: Zeit = Dauer bis zu einem
Zustandswechsel (bzw. Funktion davon) als aV; dazu erklärende
Variablen (hier fast immer als Kovariaten bezeichnet), die auch
ihrerseits Event (History)-Struktur haben können.

!! Datenstruktur muss nicht identisch mit Datenerhebungsstruktur sein


(SOEP oder NEPS erheben Panel- und Event History-Daten).
4 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Verlaufsdaten: Vorkommen und Anwendungsbereiche


Versicherungswirtschaft: Was ist die erwartete Lebensdauer von
Menschen (gegebenenfalls in Abhängigkeit von bestimmten
Eigenschaften)?
Sozialwissenschaften: Wie lange dauern Ehen? Wie lang bleiben
Beschäftigte beim selben Arbeitgeber? Wie lange können sich
Regierungen an der Macht halten? Wie lang dauert es, bis neu
gegründete Firmen pleite gehen?
Qualitätsmanagement: Wie lang dauert es, bis ein Drucker kaputt
geht – bis Milch beginnt, sauer zu werden (MHD!) – usw.
Medizin/Public Health: Wie lang überleben Patienten nach einer
Operation? Kann ein Medikament die Genesung beschleunigen?
Je nach disziplinärer Herkunft firmieren statistische Analyseverfahren
unter Begriffen wie Survival (Data) Analysis, Event (History) Analysis,
Analysis of Failure Times, (Hazard) Rate Models u. v. a. m.
5 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Warum Verlaufsdatenanalyse?
Verlaufsdatenanalyse aka Event History Analysis (EHA) aka
Ereignisanalyse aka Survival-Analyse aka Analysis of Failure Times aka
Verweildaueranalyse aka Reliability Analysis, weil . . .

Zensierte/trunkierte Daten (kein zwingender Grund für EHA)


Verteilung der Störgrößen fast nie NV
Zeitveränderliche Kovariaten

Analysemöglichkeiten:

Deskriptiv/explorativ: Verteilungsfreie Verfahren (auch graphisch),


dazu gegebenenenfalls Signifikanztests für Gruppenunterschiede
Semi-parametrische Regressionsmodelle
Parametrische Regressionsmodelle
6 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Ereignisse und zeitliche Strukturen


Ereignisse, Ereignisse . . .

Mehrere Zielzustände („Competing Risks“) (in Stata spezielles


Modell)
Wiederholte Ereignisse

Zeit
Zeit = Prozesszeit (aber: was ist das?)
diskret (wenige / u. U. fixe Zeitpunkte)
stetig

Dieser Kurs beschränkt sich auf einmalige Ereignisse mit einem einzigen
Zielzustand sowie stetige Zeit.
7 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten

Datenstrukturen: Was man wissen / beachten sollte

Schwierige/problematische Daten(strukturen):

Vollständigkeit der Daten (Lücken, fehlende [und scheinbar


fehlende] Fälle)
Unklare Daten (zeitlich oder sachlich) – gleichzeitige Episoden,
kurze Episoden etc.
Was ist überhaupt Ereignis?
Unabhängigkeit von Zensierungen und Ereignissen?

8 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

1 Präliminarien

2 Statistische Grundkonzepte und Software-Umsetzung

Grundkonzepte

Software

3 Verfahren

4 Literatur und Webseiten

9 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

Verteilung von Überlebensdauern


Dichtefunktion allgemein: Zb
P(a 6 X 6 b) = f (x)dx
a

Beispiel: Exponentialverteilung mit f (x) = λe −λx für x ≥ 0


.6

.4

.2

0
0 2 4 6 8 10

Angewandt auf Überlebensdauern:


P(t < T < t + ∆t)
f (t) = lim
∆t→0 ∆t
10 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

Kumulierte Verteilung von Überlebensdauern


Verteilungsfunktion allgemein:
Zx
F (x) = P(−∞ 6 X 6 x) = f (u)du
−∞
−λx
Beispiel: Exponentialverteilung mit F (x) = 1 − e für x ≥ 0
1

.8

.6

.4

.2

0
0 2 4 6 8 10

Angewandt auf Überlebensdauern: Z t


F (t) = P(T ≤ t) = f (u)du
0
11 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

Die wichtigsten Größen in der Verlaufsdatenanalyse


Überlebensfunktion (Survivorfunktion):

S(t) = P(T > t) = 1 − F (t)

Hazardrate (Übergangsrate):

P(t < T < t + ∆t|T ≥ t) f (t)


r (t) = lim =
∆t→0 ∆t S(t)

Kumulative Hazardrate:
Z t
R(t) = r (u)du
0

12 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

Software-Pakete

Die wichtigsten Statistik-Pakete enthalten Prozeduren/Pakete zur


Analyse von Verlaufsdaten:

Stata
SAS
R, siehe
https://cran.r-project.org/web/views/Survival.html
SPSS (sehr eingeschränkt)
TDA – Transition Data Analysis
Mplus (kenne ich nicht gut genug)

13 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten

Zeitbezogene Daten in Stata


Zeit kann im Prinzip durch beliebige numerische Variablen erfasst
werden – die Umsetzung hängt auch von der erforderlichen/
gewünschten/möglichen Genauigkeit ab.
Stata bietet die Möglichkeit, Daten bezogen auf Uhrzeit und den
Kalender in speziellen Formaten abzulegen – von Tausendstel einer
Sekunde bis hin zu Jahrhunderten. Dies ermöglicht exakte
Berechnungen, über längere Zeiträume auch unter Berücksichtigung
von Schaltjahren etc.
In der (sozialwissenschaftlichen) Praxis haben wir es häufig mit
Daten auf Monatsbasis zu tun. Diese können in einfacher Weise
durch Bezugnahme auf einen beliebigen Bezugsmonat codiert und
weiterverarbeitet werden.
Im Datensatz für diese Übung ist außerdem bereits die Dauer des
untersuchten Prozesses als Variable enthalten.
14 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

1 Präliminarien

2 Statistische Grundkonzepte und Software-Umsetzung

3 Verfahren
Die Daten
Explorative/bivariate Analysen
Modellierung: Parametrische Modelle
Zeitveränderliche Kovariaten
Modellierung: Semi-parametrische Analyse

4 Literatur und Webseiten 15 / 51


Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Datensatz
The data set comes from a larger study of high school seniors, whose
main results have been published by Coleman/Hoffer (1987) and
Coleman/Hoffer/Kilgore (1982). The data refer to persons who have
entered four year colleges and for whom follow-up information was
gathered about whether they finished college or dropped out of it
prematurely.
Veröffentlicht in:
Yamaguchi, Kazuo. 1991. Event History Analysis, Newbury Park: Sage,
Chapter 6, Table 6.6 (p. 152-7)
Die veröffentlichten Daten sind teilweise fehlerhaft; die Fehler sind hier
korrigiert.

Dateiname: Beispieldatensatz_Yamaguchi.dta
Ort: Z:\ESF-Pool\Daten\Statistik_III
16 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Datenstruktur

Mindestens eine Variable, die die Dauer bis zum Erreichen des
Zielzustandes oder bis zur Zensierung angibt (hier: p_dur)
Hier wird angenommen, dass die Prozesszeit bei „0“ beginnt. Bei
allen anderen Datenkonstellationen (mehrere Ereignisse, alternativer
Beginn der Prozesszeit, Lücken in den Daten usw.) müssen Beginn
und Ende explizit im Datensatz vorhanden sein. Achtung –
Handbuch/Hilfefunktion lesen!
Sofern Zensierungen vorhanden, muss Variable vorhanden sein, die
angibt, ob Ereignis eingetreten ist oder nicht (hier p_status).
Außerdem: Kovariaten; bei zeitverändlichen Kovariaten mit Angabe
des Zeitpunktes der Änderung (u. U. implizit; hier: t_mar mit Bezug
auf t_col)

17 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Die Life Table-Analyse (Sterbetafelanalyse) I


Die Life Table-Analyse geht von diskreten Zeiten aus bzw. fasst stetige
Zeit in diskrete Zeiträume zusammen (im folgenden als l bezeichnet).
El =Zahl der Fälle mit einem Ereignis im Intervall l
Zl =Zahl der zensierten Fälle im Intervall l
Die Risikomenge: Zahl der Fälle, die im jeweiligen Intervall dem Risiko
eines Ereignisses unterliegt. Setzt sich zusammen aus:
Zahl der Fälle, die zu Beginn eines jeden Intervalls noch nicht
ausgeschieden sind: für das erste Intervall gleich N, dann:
Nl = Nl−1 − El−1 − Zl−1
Unter Annahme, dass die Zensierungen gleichmäßig über das gesamte
Intervall verteilt sind, folgt für die Risikomenge R:
Rl = Nl − 0.5Zl
18 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Die Life Table-Analyse (Sterbetafelanalyse) II


Die bedingte Wahrscheinlichkeit, in einem Intervall ein Ereignis zu haben,
wird definiert als
El
ql =
Rl
Dementsprechend ist die (bedingte) Wahrscheinlichkeit, in dem Intervall
kein Ereignis zu haben (also das Intervall zu überleben)
pl = 1 − ql
Für die Survivorfunktion ergibt sich:
S1 = 1, Sl6=1 = Sl−1 pl−1

Achtung – Stata (aber auch manche andere Software) gibt nicht (wie hier
angenommen) S(l) am Beginn, sondern S(l) am Ende des Intervalls aus (was
identisch ist mit S(l) zu Beginn des nächsten Intervalls)! Auch die folgenden
Formeln beziehen sich aber auf die „herkömmliche“ Schreibweise, in der S(l)
sich auf den Beginn jeweiligen Intervalls bezieht.
19 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Die Life Table-Analyse (Sterbetafelanalyse) III

Dichtefunktion:
Sl − Sl+1
ft =
hl
mit hl = Intervallbreite (in der jeweiligen Zeiteinheit).

Hazardrate:
ft
rt =
Sl
mit
Sl + Sl+1
Sl =
2

S l ist also gewissermaßen die „durchschnittliche“ Survivorfunktion


während des Intervalls.

20 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Die Life Table-Analyse mit Stata


ltable timevar [deadvar] [if][in][weight][, options]

Beispiele für Gruppierung der Zeiten:

, interval(6) Intervalle von 6 Zeiteinheiten


, interval(0(12)240) von 0 bis 240 in 12-er Schritten
, interval(6,12,24,48) 0 bis <6, . . . , 24 bis <48, 48 und mehr

Weitere Optionen

failure F(t) statt S(t)


hazard h(t) statt S(t) (nicht als Graphik)
by(groupvar) Gruppenvergleiche
test Zwei Tests für Gruppenvergleiche

21 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Life Table-Analyse, weitere Optionen

Optionen für Graphiken:

graph Plottet S(t)


overlay Plots für Gruppen überlagert in einer Graphik
Ersetzt (impliziert) graph!
ci Konfidenzintervalle in Plots
plotopts Optionen für Graphik
plot#opts Optionen für Plot der #. Gruppe
notable Unterdrückt Tabelle

22 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das „Setten“ von Verlaufsdaten


Alle Verfahren außer der Life Table-Schätzung erfordern, dass die Daten
„gesettet“ werden; anders gesagt: Stata erhält vorab Information über die
„Zeit“ und „Ereignis“-Variablen und konstruiert daraus seine eigene
Datenmatrix.
stset timevar, [failure(eventvar[==value[s]])] [id(idvar)]
[...]

failure erforderlich bei Zensierungen; ohne Angabe von Werten


wird angenommen, dass Ereignisse mit 1 kodiert sind.
id erforderlich, falls mehrere Zeilen pro Fall (Splitting!),
Zahlreiche weitere Optionen (z.B. time0 bei Lücken in den
zeitbezogenen Variablen).
st liefert minimale, stdescribe etwas mehr Information über aktuelles
„setting“ der Daten.
23 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Der Kaplan-Meier-(Product-Limit-)Schätzer
Für stetige Zeit; S(t) ändert sich mit jedem einzelnen Ereignis.
Y
S(t) = pl
l|tl <t

Beispiel:

sts graph[, by(avgrades)]


graph ist gar nicht nötig (Voreinstellung!). Optionen hazard bzw.
cumhaz liefer (kumulierte) Hazardrate. Mehr Optionen im Do-File.

sts list [, by(avgrades)]


Bringt Zahlen statt Graphik.

Mehr über Hilfe zu sts graph, sts list, sts test und sts
generate.
24 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Modellschätzung allgemein I

Statistische Modelle erlauben

die (Netto-)Einflüsse mehrerer Kovariaten simultan zu untersuchen,


und dabei
Annahmen über Änderungen der Hazardrate im Zeitverlauf zu
modellieren (Ausnahme: Cox-Modell).

25 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Modellschätzung allgemein II

Die Koeffizienten können mittels Maximum Likelihood geschätzt werden


(das später vorgestellte Cox-Modell mittels Partial Likelihood). Für die
Inferenzstatistik gelten daher die üblichen Regeln:

Test für das Gesamtmodell (H0 : Alle Regressionskoeffizienten gleich


null) durch Likelihood-Quotienten-Test.
Tests für einzelne Koeffizienten: z-Test bzw. Wald-Test oder, wenn
Zweifel an deren Gültigkeit bestehen: Ebenfalls
Likelihood-Quotienten-Test.

Ab Stata Version 15 können Modelle auch auf der Grundlage von


Bayes-Statistik geschätzt werden (hier nicht behandelt).

26 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Modelle für stetige oder diskrete Zeit?

Ob die (Prozess-)Zeit stetig oder diskret gemessen wurde, ist relativ


(Messgenauigkeit). In Stata (wie auch sonst meist; Ausnahme: TDA) gilt:

Für Modelle mit diskreter Zeit(-messung) gibt es keine eigenen


Prozeduren; sie werden nach geeigneter Aufbereitung der Daten mit
Modellen für diskrete aV (logistische Regression) geschätzt.
Eine Reihe von bekannten Modellen mit stetiger Zeit ist über die
streg-Suite verfügbar; nutzer-definierte Modelle sind möglich (siehe
auch Folie „Ergänzungen“).

27 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

PH und AFT
Stata unterscheidet bei Standard-Modellen zwei Modellklassen oder
-formulierungen:

Proportional Hazard-(PH-)Modelle: h(t|xj ) = h0 (t)exp(xj β x )


Koeffizient + → Hazard-Rate + → schnelleres „Sterben“
Accelerated Failure Time-(AFT-)Modelle: ln(tj ) = xj β x + j
Koeffizient + → Dauer + → langsameres „Sterben“

Erstere lassen sich in Stata überwiegend auch als AFT-Modelle


darstellen, aber letztere umgekehrt nicht in (nicht-proportionalen)
Hazards ausdrücken (obwohl es prinzipiell möglich wäre).

Daneben lassen sich im Rahmen eines linearen Regressionsmodells auch


lineare Einflüsse auf die Zeit modellieren (bei Zensierungen z. B. mit
intreg oder tobit).
28 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Übersicht I

Verfügbare Modelle in Stata Standard-Distribution (Version 13.1)


(Erläuterungen siehe auch nächste Folien):

Option Modell PH AF Form der Rate


d(e) Exponential + + →
d(gom) Gompertz + – % oder &
d(w) Weibull + + % oder &
d(ll) Log-logistisch – + y oder &
d(ln) Log-normal – + y
d(gam) Generalisiertes Gamma – + variabel

Aufruf verschiedener Modelle erfolgt im wesentlichen über Option


d(...) (für „distribution“): streg list-of-indepvar, option[s]

29 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Übersicht II

Ergänzungen der Standard-Distribution (ausgewählte Pakete):

stpiece: Paket von Jesper Sørensen für das Piecewise Constant


Exponential (PCE)-Modell
stgenreg: Paket von Crowther & Lambert zur Spezifikation
beliebiger (analytisch ausdrückbarer) Hazardraten (Schätzung über
numerische Integration; Definition der Hazardrate in Mata).
stpm2: Paket von Lambert & Royston für flexible Modelle,
einschließlich Splines und fraktionale Polynome; benötigt u. U.
weitere ado-Files.

Alle Pakete können über ssc installiert werden.

30 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Wahl des geeigneten Modells


Wenn Annahme über funktionale Form der Hazardrate vorliegt:
Modell schätzen
Vergleich mit PCE oder Gamma-Modell
AIC/BIC? Leider wg. unterschiedlicher Definitionen der
Likelihood schwierig.
Residuenanalyse

Wenn keine Annahme über funktionale Form der Hazardrate


vorliegt:
Cox-Modell schätzen (aber: in Soziologie eher nicht gängig;
und: was tun, wenn nicht proportional?); oder:
PCE-Modell schätzen; oder
generalisiertes Gamma-Modell (und dann?)
Es bleibt immer das Problem unbeobachteter Heterogenität (frailty
models als Lösung?).
31 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Modellergebnisse – jenseits der Zahlen

Die meisten Modelle erlauben eine Visualisierung der Modellergebnisse


bzw. von Implikationen derselben:

margins mit marginsplot stellt (u. a.) Mediane der geschätzten


Verweildauer dar.
stcurve ermöglicht die Visualisierung von Hazardraten oder
Survivor-Funktionen.

32 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Exponential-Modell
PH-Formulierung:

h(t|xj ) = h0 (t)e xj βx
= e β0 +xj βx

Ausgabe der Modellparameter als Hazard Ratio, also als Veränderung der
Hazardrate! Alternative Ausgaben mit weiteren Optionen: . . .

nohr: Koeffizienten
time: Koeffizienten in AFT-Formulierung
tr: AFT-Koeffizienten, ausgedrückt als Time Ratio

Das Exponentialmodell nimmt eine konstante Hazardrate an; das


Pieceweise Constant Exponential-Modell unterstellt diese Konstanz nur
innerhalb der definierten „Pieces“ (Zeitabschnitte).
33 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Weibull-Modell
PH-Formulierung:
h(t|xj ) = h0 (t)e xj βx
= pt p−1 e β0 +xj βx
Es gilt also:

p = 1: Hazardrate konstant (=Exponentialmodell)


p > 1: Hazardrate %
p < 1: Hazardrate &

Stata gibt außerdem ln(p) und 1/p aus, weil diese in alternativen
Parametrisierungen des Modells vorkommen können.
−βPH
„Übersetzung“ der Koeffizienten von PH in AFT: βAFT =
p
34 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Weibull-Modell (cont’d)


Da p die Form der Hazardrate beeinflusst, wird es als Shape-Parameter
bezeichnet.

In Stata werden p bzw. weitere Shape-Parameter als „ancillary


parameters“ (Hilfsparameter) bezeichnet. Sie können auch als Funktion
von Kovariaten modelliert werden. Im vorliegenden Fall also statt
ln(p) = p0 (konstant):

ln(p) = p0 + zj pz

für beliebige Kovariaten z, wobei gelten kann, aber nicht muss: z ∈ x.

Das gleiche Prinzip gilt auch für Hilfsparameter der folgenden Modelle.
Umsetzung in Stata mit mit Option anc bzw. (bei zwei Hilfsparametern)
anc2
35 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das log-logistische Modell


„Klassische“ Formulierungen für die Hazardrate nach Kalbfleisch & Prentice
(1980, S. 28; links) bzw. Blossfeld & Rohwer (2002, S. 202; rechts).
 γ−1 γ
β0 +xj β x β +x β
e e 0 j xt
γ γ e ( 0 )
β +xj β x
t γ−1
h(t|xj ) = 
β +x β
γ = β0 +xj β x

1+ e 0 j x t 1+ e t

Der Stata-Output muss hier wie folgt geändert werden: γ(hier) = 1/γ(Stata) ;
β(hier) = −β(Stata)

Eine Parametrisierung, in die man die Stata-Koeffizienten direkt einsetzen kann:


1  β +x β 
1 γ −1
exp − 0 γ j
x
γ
t
h(t|xj ) = 1  β +x β x

1+t γ exp − 0 γ j

In beiden Fällen bedeutet γ(Stata) ≥ 1 eine monoton fallende, γ(Stata) < 1 eine
zuerst steigende, dann fallende Hazardrate.
36 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das log-normale Modell

Formulierung für die Hazardrate (nach Blossfeld & Rohwer 2002, S. 204)

1 φ(zt ) ln(t) − (β0 + xj β x )


h(t|xj ) = mit zt =
σt 1 − Φ(zt ) σ
wobei φ(zt ) bzw. Φ(zt ) die Dichte bzw. die Verteilungsfunktion einer
Standardnormalverteilung an der Stelle zt sind. (Achtung: σ ist nicht die
Standardabweichung der SNV [wäre dann ja überflüssig], sondern der
Shape-Parameter!)

Hier steigt die Hazardrate zunächst und fällt dann; der initiale Anstieg ist
umso steiler, je größer σ.

37 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Gompertz-Modell

Die Formulierung des Modell in Stata (PH):

h(t|xj ) = h0 (t)e xj βx
= e γt e β0 +xj βx

Die Hazardrate wächst (exponentiell) wenn γ > 0, sonst nimmt sie ab.
Bei abnehmender Hazardrate erreicht S(t) niemals den Wert 0, was
inhaltlich angemessen sein kann oder nicht.

38 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das generalisierte Gamma-Modell I


Das generalisierte Gamma-Modell ist sehr flexibel (siehe Pfeile; λ
entspricht κ in Stata; Quelle: Cox et al. 2007)
4356 C. COX ET AL.

3
(c, ∞) (∞, d)
σ)
( λ=
m ma
Ga
2
(∞, ∞)

Shape (λ)
(0, ∞) (∞, 0) Weibull
1
Ammag (λ
= 1/σ) (c, 0)
(0, d)
(0, 0) log normal
Inv
0
ers σ)
eG Inverse Ammag ( λ
am
ma

σ)
Inverse Weibull
−1

0 1 2 3
Scale (σ)

Figure 1. A schematic representation in the (, ) half-plane of the generalized gamma


distribution family. The four regions defined by the two curves include the four common
types of hazard function: increasing and decreasing failure rate, bathtub and arc-shaped.
39 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das generalisierte Gamma-Modell II


Form der Hazard-Rate im generalisierten Gamma-Modell:

κ = σ = 1: Entspricht Exponential-Modell
κ = 1: Entspricht Weibull-Modell
κ = 0: Entspricht log-normalem Modell
σ > 1 und 1/σ ≤ κ ≤ σ: Monoton fallend
0 < σ < 1 und σ ≤ κ ≤ 1/σ: Monoton steigend
κ > max{σ, 1/σ}: Badewannenförmig
κ < min{σ, 1/σ}: Bogenförmig

Quelle: Cox et al. 2007


40 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Modellprüfung: Residuen
Arten von Residuen:
Cox-Snell-Residuen (sehr allgemeine Definition von Residuen;
speziell hier:) keine ,echten‘ Residuen, sondern Ausdruck des
geschätzten Modells.
→ Prüfung der Adäquatheit des gewählten Modells
Martingale-Residuen: Größere Verwandtschaft mit ,echten‘ Residuen
(Unterschied zwischen Modellschätzung und tatsächlichen
Beobachtungen).
→ Prüfung der funktionalen Verknüpfung von uV mit aV
Deviance Residuals (Devianz-Residuen?): Größte Verwandtschaft
mit ,traditionellen‘ Residuen (sind symmetrisch um Null verteilt).
→ Prüfung auf Ausreißer (nicht gut durch das Modell erklärte Fälle)

Statistiken zum Einfluss einzelner Fälle scheinen für parametrische


Modelle (im Unterschied zu Cox-Modell) in Stata nicht implementiert
(wer’s selber programmieren mag: Collett 2003, S. 244). 41 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Piecewise Constant Exponential-Modell

Im PCE-Modell wird die (mögliche) Zeitveränderlichkeit der Hazardrate


dadurch modelliert, dass die Prozesszeit in (beliebige zu definierende)
Zeitabschnitte t eingeteilt wir, für die jeweils eine unterschiedliche
Konstante β0t geschätzt wird.

Es spielt in der angelsächsischen (vor allem US-amerikanischen) Literatur


keine Rolle; in Deutschland und teilweise Europa ist es wegen des großen
Einflusses von Hans-Peter Blossfeld weit verbreitet.

PH-Formulierung: h(t|xj ) = e β0t +xj βx

Umsetzung in Stata am besten mit stpiece. Diese Prozedur erlaubt


auch die Modellierung abschnittsspezifischer Einflüsse von Kovariaten
(über die Option tv).

42 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Zeitveränderliche Kovariaten: Das Problem

Häufig werden Einflüsse untersucht, die sich im Verlauf des untersuchten


Prozesses ändern. Es kann sich um binäre (in unserem Beispiel:
verheiratet ja/nein), aber auch um quantitative Merkmale handeln
(letzteres z. B.: Zahl der Kinder).

Die entsprechenden Merkmale können daher nicht als unabhängige


Variablen mit fixen Ausprägungen in die Analyse aufgenommen werden.

43 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Die Lösung
Eine allgemeine Lösung für das Problem zeitveränderlicher Kovariaten ist
das Episodensplitting: Die einzenen Episoden werden in zwei oder mehr
Unterepisoden gesplittet dergestalt, dass die gesplitteten Episoden für
unterschiedliche Ausprägungen der zeitverändlichen uV stehen.

Originalepisode:
Id Beginn Ende Event Heirat
1 0 41 1 34

Nach Episodensplitting:
Id Beginn Ende Event Verheiratet
1 0 34 0 0
1 34 41 1 1

44 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Episodensplitting mit Stata


Mit der Prozedur stsplit können die Episoden zu festen (von der
Nutzerin zu spezifizierenden) Zeitpunkten oder in Beziehung auf den
Eintritt anderer Ereignisse gesplittet werden.
Beispiel Fall Nr. 53: Eintritt ins College in Monat 9, Heirat im Monat 43.
Da Prozesszeit mit 0 beginnt, muss zunächst Heirat auf Prozesszeit
bezogen werden (Addition von 0,5, weil dies auch zu Dauer hinzugezählt
wurde):
gen marcol = t_mar − t_col + 0.5
Nun kann zum Zeitpunkt von marcol gesplittet werden:

stsplit verheir, at(0) after(marcol)

Die Variable verheir hat nun Werte von −1 (vor Heirat) und 0 (ab
Heirat).
45 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Mehr zu zeitveränderlichen Kovariaten in Stata

Statt stsplit können natürlich auch die üblichen Befehle zur


Datenaufbereitung eingesetzt werden. Beispielsweise können zu
splittende Episoden mit expand # vervielfältigt (mit dem Faktor #)
und anschließend entsprechend aufbereitet werden.
Für die (gleich zu besprechende) Cox-Regression gibt es eigene
Möglichkeiten, zeitveränderliche Kovariaten zu definieren.
Episodensplitting hat aber die gleichen Wirkungen und ist somit
universell einsetzbar.

46 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse

Das Cox-Modell I

Geschätzt werden die β-Parameter (Regressionsgewichte) für folgende


Gleichung:
r (t|X) = r0 (t) exp(β1 X1 + . . . βk Xk )

Dabei ist r0 (t) der sog.„Baseline Hazard“, die „Grundrate“ des Prozesses,
die im Rahmen des PL-Verfahrens nicht geschätzt wird (eine Konstante
β0 taucht daher in der Formel nicht auf). Geschätzt werden also nur die
Einflüsse der Kovariaten, d. h. die relativen Änderungen der unbekannten
Rate.

Der Baseline Hazard kann aber durch andere Verfahren doch noch
angenähert werden.

47 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten

1 Präliminarien

2 Statistische Grundkonzepte und Software-Umsetzung

3 Verfahren

4 Literatur und Webseiten

Literatur

Webseiten

48 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten

Literatur
Blossfeld, H.-P., K. Golsch, and G. Rohwer. 2007. Event History Analysis with
Stata. Mahwah, New Jersey: Lawrence Erlbaum Associates.

Blossfeld, Hans-Peter, and Götz Rohwer. 2002 (2. Aufl.). Techniques of Event
History Modeling. New Approaches to Causal Analysis. Hillsdale, NJ: Erlbaum.

Box-Steffensmeier, Janet M., and Bradford S. Jones. 2004. Event History


Modeling: A Guide for Social Scientists. Cambridge, Cambridge University
Press.

Cleves, M., R. G. Gutierrez, W. Gould, and Y. V. Marchenko. 2010. An


Introduction to Survival Analysis Using Stata (Third Edition). College Station,
Texas: Stata Press.

Coleman, James S., and T. Hoffer. 1987. Public and Private High Schools: The
Impact of Communities, New York.

49 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten

Literatur
Coleman, James S., and S. Kilgore. 1982. High School Achievement: Public,
Catholic and Private Schools Compared, New York.

Collett, David. 2003. Modelling Survival Data in Medical Research. Second


Edition. London: Chapman & Hall/CRC.

Cox, Christopher, Haitao Chu, Michael F. Schneider, and Alvaro Muñoz. 2007.
Parametric survival analysis and taxonomy of hazard functions for the
generalized gamma distribution. Statistics in Medicine 26 (23):4352-4374.

Crowther, Michael J., and Paul C. Lambert. 2013. stgenreg: A Stata Package
for General Parametric Survival Analysis. Journal of Statistical Software 53
(12):(no page numbers).

Kalbfleisch, J. D., and R. L. Prentice. 1980. The Statistical Analysis of Failure


Time Data. New York: Wiley.

50 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten

Hilfreiche Webseiten

Bradford S. Jones (Ko-Autor von Buch mit Box-Steffensmeier):


http://psfaculty.ucdavis.edu/bsjjones/eventhistory.html

Seite zum Kurs von Stephen Jenkins:


https://www.iser.essex.ac.uk/resources/survival-
analysis-with-stata

Seite bei der UCLA (leider ohne parametrische Modelle):


http://www.ats.ucla.edu/stat/stata/seminars/stata-survival/

Last, aber sicherlich auch least mein Stata Guide:


http://wlm.userweb.mwn.de/Stata/
„Analysis of time-to-event data“ findet sich ziemlich weit unten in der
Navigationsleiste. Enthält allerdings nichts, was nicht auch in dieser
Präsentation steht.

51 / 51