Beruflich Dokumente
Kultur Dokumente
Verlaufsdatenanalyse. Voraussetzungen,
Analysemöglichkeiten und Probleme
Überblick
1 Präliminarien
3 Verfahren
2 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten
1 Präliminarien
3 Verfahren
3 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten
Warum Verlaufsdatenanalyse?
Verlaufsdatenanalyse aka Event History Analysis (EHA) aka
Ereignisanalyse aka Survival-Analyse aka Analysis of Failure Times aka
Verweildaueranalyse aka Reliability Analysis, weil . . .
Analysemöglichkeiten:
Zeit
Zeit = Prozesszeit (aber: was ist das?)
diskret (wenige / u. U. fixe Zeitpunkte)
stetig
Dieser Kurs beschränkt sich auf einmalige Ereignisse mit einem einzigen
Zielzustand sowie stetige Zeit.
7 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung
Verfahren
Literatur und Webseiten
Schwierige/problematische Daten(strukturen):
8 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten
1 Präliminarien
Grundkonzepte
Software
3 Verfahren
9 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten
.4
.2
0
0 2 4 6 8 10
.8
.6
.4
.2
0
0 2 4 6 8 10
Hazardrate (Übergangsrate):
Kumulative Hazardrate:
Z t
R(t) = r (u)du
0
12 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten
Software-Pakete
Stata
SAS
R, siehe
https://cran.r-project.org/web/views/Survival.html
SPSS (sehr eingeschränkt)
TDA – Transition Data Analysis
Mplus (kenne ich nicht gut genug)
13 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Grundkonzepte
Verfahren Software
Literatur und Webseiten
1 Präliminarien
3 Verfahren
Die Daten
Explorative/bivariate Analysen
Modellierung: Parametrische Modelle
Zeitveränderliche Kovariaten
Modellierung: Semi-parametrische Analyse
Datensatz
The data set comes from a larger study of high school seniors, whose
main results have been published by Coleman/Hoffer (1987) and
Coleman/Hoffer/Kilgore (1982). The data refer to persons who have
entered four year colleges and for whom follow-up information was
gathered about whether they finished college or dropped out of it
prematurely.
Veröffentlicht in:
Yamaguchi, Kazuo. 1991. Event History Analysis, Newbury Park: Sage,
Chapter 6, Table 6.6 (p. 152-7)
Die veröffentlichten Daten sind teilweise fehlerhaft; die Fehler sind hier
korrigiert.
Dateiname: Beispieldatensatz_Yamaguchi.dta
Ort: Z:\ESF-Pool\Daten\Statistik_III
16 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Datenstruktur
Mindestens eine Variable, die die Dauer bis zum Erreichen des
Zielzustandes oder bis zur Zensierung angibt (hier: p_dur)
Hier wird angenommen, dass die Prozesszeit bei „0“ beginnt. Bei
allen anderen Datenkonstellationen (mehrere Ereignisse, alternativer
Beginn der Prozesszeit, Lücken in den Daten usw.) müssen Beginn
und Ende explizit im Datensatz vorhanden sein. Achtung –
Handbuch/Hilfefunktion lesen!
Sofern Zensierungen vorhanden, muss Variable vorhanden sein, die
angibt, ob Ereignis eingetreten ist oder nicht (hier p_status).
Außerdem: Kovariaten; bei zeitverändlichen Kovariaten mit Angabe
des Zeitpunktes der Änderung (u. U. implizit; hier: t_mar mit Bezug
auf t_col)
17 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Achtung – Stata (aber auch manche andere Software) gibt nicht (wie hier
angenommen) S(l) am Beginn, sondern S(l) am Ende des Intervalls aus (was
identisch ist mit S(l) zu Beginn des nächsten Intervalls)! Auch die folgenden
Formeln beziehen sich aber auf die „herkömmliche“ Schreibweise, in der S(l)
sich auf den Beginn jeweiligen Intervalls bezieht.
19 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Dichtefunktion:
Sl − Sl+1
ft =
hl
mit hl = Intervallbreite (in der jeweiligen Zeiteinheit).
Hazardrate:
ft
rt =
Sl
mit
Sl + Sl+1
Sl =
2
20 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Weitere Optionen
21 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
22 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Der Kaplan-Meier-(Product-Limit-)Schätzer
Für stetige Zeit; S(t) ändert sich mit jedem einzelnen Ereignis.
Y
S(t) = pl
l|tl <t
Beispiel:
Mehr über Hilfe zu sts graph, sts list, sts test und sts
generate.
24 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Modellschätzung allgemein I
25 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Modellschätzung allgemein II
26 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
27 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
PH und AFT
Stata unterscheidet bei Standard-Modellen zwei Modellklassen oder
-formulierungen:
Übersicht I
29 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Übersicht II
30 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
32 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Das Exponential-Modell
PH-Formulierung:
h(t|xj ) = h0 (t)e xj βx
= e β0 +xj βx
Ausgabe der Modellparameter als Hazard Ratio, also als Veränderung der
Hazardrate! Alternative Ausgaben mit weiteren Optionen: . . .
nohr: Koeffizienten
time: Koeffizienten in AFT-Formulierung
tr: AFT-Koeffizienten, ausgedrückt als Time Ratio
Das Weibull-Modell
PH-Formulierung:
h(t|xj ) = h0 (t)e xj βx
= pt p−1 e β0 +xj βx
Es gilt also:
Stata gibt außerdem ln(p) und 1/p aus, weil diese in alternativen
Parametrisierungen des Modells vorkommen können.
−βPH
„Übersetzung“ der Koeffizienten von PH in AFT: βAFT =
p
34 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
ln(p) = p0 + zj pz
Das gleiche Prinzip gilt auch für Hilfsparameter der folgenden Modelle.
Umsetzung in Stata mit mit Option anc bzw. (bei zwei Hilfsparametern)
anc2
35 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Der Stata-Output muss hier wie folgt geändert werden: γ(hier) = 1/γ(Stata) ;
β(hier) = −β(Stata)
In beiden Fällen bedeutet γ(Stata) ≥ 1 eine monoton fallende, γ(Stata) < 1 eine
zuerst steigende, dann fallende Hazardrate.
36 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Formulierung für die Hazardrate (nach Blossfeld & Rohwer 2002, S. 204)
Hier steigt die Hazardrate zunächst und fällt dann; der initiale Anstieg ist
umso steiler, je größer σ.
37 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Das Gompertz-Modell
h(t|xj ) = h0 (t)e xj βx
= e γt e β0 +xj βx
Die Hazardrate wächst (exponentiell) wenn γ > 0, sonst nimmt sie ab.
Bei abnehmender Hazardrate erreicht S(t) niemals den Wert 0, was
inhaltlich angemessen sein kann oder nicht.
38 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
3
(c, ∞) (∞, d)
σ)
( λ=
m ma
Ga
2
(∞, ∞)
Shape (λ)
(0, ∞) (∞, 0) Weibull
1
Ammag (λ
= 1/σ) (c, 0)
(0, d)
(0, 0) log normal
Inv
0
ers σ)
eG Inverse Ammag ( λ
am
ma
(λ
σ)
Inverse Weibull
−1
0 1 2 3
Scale (σ)
κ = σ = 1: Entspricht Exponential-Modell
κ = 1: Entspricht Weibull-Modell
κ = 0: Entspricht log-normalem Modell
σ > 1 und 1/σ ≤ κ ≤ σ: Monoton fallend
0 < σ < 1 und σ ≤ κ ≤ 1/σ: Monoton steigend
κ > max{σ, 1/σ}: Badewannenförmig
κ < min{σ, 1/σ}: Bogenförmig
Modellprüfung: Residuen
Arten von Residuen:
Cox-Snell-Residuen (sehr allgemeine Definition von Residuen;
speziell hier:) keine ,echten‘ Residuen, sondern Ausdruck des
geschätzten Modells.
→ Prüfung der Adäquatheit des gewählten Modells
Martingale-Residuen: Größere Verwandtschaft mit ,echten‘ Residuen
(Unterschied zwischen Modellschätzung und tatsächlichen
Beobachtungen).
→ Prüfung der funktionalen Verknüpfung von uV mit aV
Deviance Residuals (Devianz-Residuen?): Größte Verwandtschaft
mit ,traditionellen‘ Residuen (sind symmetrisch um Null verteilt).
→ Prüfung auf Ausreißer (nicht gut durch das Modell erklärte Fälle)
42 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
43 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Die Lösung
Eine allgemeine Lösung für das Problem zeitveränderlicher Kovariaten ist
das Episodensplitting: Die einzenen Episoden werden in zwei oder mehr
Unterepisoden gesplittet dergestalt, dass die gesplitteten Episoden für
unterschiedliche Ausprägungen der zeitverändlichen uV stehen.
Originalepisode:
Id Beginn Ende Event Heirat
1 0 41 1 34
Nach Episodensplitting:
Id Beginn Ende Event Verheiratet
1 0 34 0 0
1 34 41 1 1
44 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Die Variable verheir hat nun Werte von −1 (vor Heirat) und 0 (ab
Heirat).
45 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
46 / 51
Die Daten
Präliminarien
Explorative/bivariate Analysen
Statistische Grundkonzepte und Software-Umsetzung
Modellierung: Parametrische Modelle
Verfahren
Zeitveränderliche Kovariaten
Literatur und Webseiten
Modellierung: Semi-parametrische Analyse
Das Cox-Modell I
Dabei ist r0 (t) der sog.„Baseline Hazard“, die „Grundrate“ des Prozesses,
die im Rahmen des PL-Verfahrens nicht geschätzt wird (eine Konstante
β0 taucht daher in der Formel nicht auf). Geschätzt werden also nur die
Einflüsse der Kovariaten, d. h. die relativen Änderungen der unbekannten
Rate.
Der Baseline Hazard kann aber durch andere Verfahren doch noch
angenähert werden.
47 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten
1 Präliminarien
3 Verfahren
Literatur
Webseiten
48 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten
Literatur
Blossfeld, H.-P., K. Golsch, and G. Rohwer. 2007. Event History Analysis with
Stata. Mahwah, New Jersey: Lawrence Erlbaum Associates.
Blossfeld, Hans-Peter, and Götz Rohwer. 2002 (2. Aufl.). Techniques of Event
History Modeling. New Approaches to Causal Analysis. Hillsdale, NJ: Erlbaum.
Coleman, James S., and T. Hoffer. 1987. Public and Private High Schools: The
Impact of Communities, New York.
49 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten
Literatur
Coleman, James S., and S. Kilgore. 1982. High School Achievement: Public,
Catholic and Private Schools Compared, New York.
Cox, Christopher, Haitao Chu, Michael F. Schneider, and Alvaro Muñoz. 2007.
Parametric survival analysis and taxonomy of hazard functions for the
generalized gamma distribution. Statistics in Medicine 26 (23):4352-4374.
Crowther, Michael J., and Paul C. Lambert. 2013. stgenreg: A Stata Package
for General Parametric Survival Analysis. Journal of Statistical Software 53
(12):(no page numbers).
50 / 51
Präliminarien
Statistische Grundkonzepte und Software-Umsetzung Literatur
Verfahren Webseiten
Literatur und Webseiten
Hilfreiche Webseiten
51 / 51