Stoetzer2020 Book RegressionsanalyseInDerEmpiris

Matthias-W.
Stoetzer
Regressionsanalyse in der
empirischen Wirtschafts-
und Sozialforschung Band 2
Komplexe Verfahren
Inkl.
SN Flashcards
Lern-App
Regressionsanalyse in der empirischen
Wirtschafts- und Sozialforschung Band 2
Matthias-W. Stoetzer
Regressionsanalyse in der
empirischen Wirtschafts-
und Sozialforschung Band 2
Komplexe Verfahren
Matthias-W. Stoetzer
Fachbereich Betriebswirtschaft
Ernst-Abbe-Hochschule Jena
Jena, Deutschland
ISBN 978-3-662-61437-2 ISBN 978-3-662-61438-9

(eBook)
https://doi.org/10.1007/978-3-662-61438-9
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte
bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Gabler
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich
vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere
für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verar-
beitung in elektronischen Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem
Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung
unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen
Zeicheninhabers sind zu beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem
Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder
die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder
Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröf-
fentlichten Karten und Institutionsadressen neutral.
Springer Gabler ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von
Springer Nature.
Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Gesamtüberblick
Band 1 zur Regressionsanalyse (Stoetzer 2017) erläutert, dass es sich um ein vielfältig
einsetzbares statistisches Verfahren handelt. Der vorliegende Band 2 führt dies fort und
zeigt, wie mit spezifischen Verfahren auch andere Formen von Daten analysierbar sind:
• Wovon hängt es ab, ob ein Passagier den Untergang der Titanic im Jahr 1912 überlebt
hat oder nicht? (Kap. 2)
• Welche Faktoren beeinflussen die Wahlentscheidung für „Die Linke“, „SPD“, „CDU“
„FDP“ oder „AfD“? (Kap. 2)
• Wie lässt sich die monatliche Entwicklung der Arbeitslosigkeit in Deutschland für den
Zeitraum 2005 bis 2019 erklären? (Kap. 3)
• Inwieweit ist es möglich, die tägliche Kursentwicklung der BMW-Aktie vom August
2017 bis zum August 2019 zu prognostizieren? (Kap. 3)
• Welche Auswirkung auf die Zahl der Erstsemester an den deutschen Hochschulen hatte
die Einführung von Studiengebühren in einer Reihe von Bundesländern von 2006 bis
2014? (Kap. 4)
• Ist das hohe Sparvolumen oder die Geldpolitik der Europäischen Zentralbank ursäch-
lich für die extrem niedrigen Zinsen in der Eurozone? (Kap. 4)
• Welche Folgen hat es, wenn bei einzelnen Beobachtungen die Daten für bestimmte
Variablen nicht vorhanden sind, und welche Möglichkeiten des Umgangs mit diesem
Problem existieren? (Kap. 5)
Es wird deutlich, dass die Regressionsanalyse geeignet ist, Daten zu analysieren, egal,
• ob diese metrisches, ordinales oder nominales Skalenniveau besitzen,

• ob diese erklärt werden sollen (abhängige Variablen) oder zur Erklärung herangezogen
werden (unabhängige Variablen),
• ob Querschnittsdaten, Zeitreihen oder Paneldaten vorliegen,
und in bestimmten Fällen auch einzelne fehlende Datenwerte ersetzt werden können,
also eine Regression nicht verhindern. Die oben genannten Fragen zielen darauf ab, eine
V
VI Gesamtüberblick
Entwicklung vorherzusagen oder insbesondere kausal zu erklären. Einführend stellt

Kap. 1 daher zunächst dar, welche grundsätzlichen Probleme kausale Schlussfolgerungen
aufwerfen.
Auch der vorliegende Band verzichtet – trotz erhöhter Komplexität – auf mathemati-
sche Ausführungen sowie statistisch-ökonometrische Herleitungen und Beweise. Die fol-
genden fünf Aspekte bilden den roten Faden:
• Welche Fragestellung kann ich mit welchem Regressionsverfahren untersuchen?

• Welche Voraussetzungen muss ich bei der praktischen Durchführung des jeweiligen
Verfahrens berücksichtigen?
• Wie führe ich mittels SPSS oder Stata eine konkrete Regression durch?
• Wie sind meine Ergebnisse richtig zu interpretieren?
• Wo liegen die Probleme und Grenzen dieser Interpretation?
Die Kapitel sind so aufgebaut, dass ein selbstständiges Studium problemlos möglich
ist. Dazu sind jedem Kapitel die wichtigsten Lernziele und Schlüsselbegriffe vorange-
stellt. Jedes Kapitel wird abgeschlossen von einer Reihe von Übungsaufgaben, deren Lö-
sungen sich am Ende des jeweiligen Kapitels befinden. Die vielen Beispiele im Text und
in den Aufgaben basieren in der Regel auf realen Daten und praktischen Problemen. Sämt-
liche Datensätze werden über die Homepage zur Verfügung gestellt. Die Inhalte aller
wichtigen Elemente der Regressionsverfahren werden verbal und häufig auch grafisch er-
läutert. Alle Schritte sind daher intuitiv nachvollziehbar, nur die Grundrechenarten und
das Lesen einer einfachen Gleichung müssen bekannt sein. Wer tiefer in exakte statistische
Herleitungen und Beweise einsteigen möchte, erhält dazu genauere Literaturhinweise. In
allen Kapiteln zu den Regressionsverfahren und Tests werden diese jeweils an Hand der
Statistikprogramme SPSS und Stata kurz erklärt. Diese Abschnitte haben lediglich einfüh-
renden Charakter; es wird hauptsächlich der leicht verständliche menübasierte Umgang
Schritt für Schritt mittels Screenshots erläutert. Weitergehende syntaxbasierte Verfahren
werden nur ausnahmsweise behandelt. Einige Stellen geben Hinweise zu den in SPSS und
Stata ebenfalls existierenden Makros für speziellere statistische Methoden.
Obwohl die grundlegenden mathematischen Verfahren übereinstimmen, haben sich in
den Sozialwissenschaften, d. h. der Ökonomie, der Soziologie, der Politikwissenschaft
und der Psychologie, historisch bedingt sehr unterschiedliche Begriffe durchgesetzt. Da
rüber hinaus verwenden auch die medizinische Forschung und die Biostatistik ihre eige-
nen Ausdrucksweisen. Um Gemeinsamkeiten aufzuzeigen und zur Entwirrung beizutra-
gen, verweist der Text einerseits an vielen Stellen auf solche Synonyme und erläutert
andererseits, dass bestimmte identische Begriffe unterschiedliche Bedeutungen haben.
Aufbau des Buches

Grundlegende Probleme, Grenzen und Möglichkeiten der Datenanalyse stellt Kap. 1 dar.
Es rekapituliert und vertieft die entsprechenden Ausführungen des vierten Kapitels im
ersten Band (Stoetzer 2017). Kap. 2 erläutert Regressionsverfahren, bei denen die
Gesamtüberblick VII
abhängige Variable kein metrisches Skalenniveau besitzt. Die Analyse von Zeitreihen
weist Besonderheiten auf, die im Kap. 3 beschrieben werden. Darauf aufbauend erlauben
Paneldatensätze weitergehende Untersuchungen. Die entsprechenden Möglichkeiten hin-
sichtlich der Überprüfung kausaler Wirkungen erörtert Kap. 4. Viele Datensätze besitzen
nicht für alle Variablen und alle Beobachtungen komplette Informationen. Der Umgang
mit solchen fehlenden Werten wird im Kap. 5 dargestellt.
Literaturhinweise
Die gängigen Lehrbücher behandeln die hier thematisierten Probleme zum Teil nur relativ
knapp. Die im Folgenden erörterten Verfahren werden aber umfassend in der jeweiligen
Spezialliteratur dargestellt. Im Vergleich zum ersten Band sind daher in jedem Kapitel
vermehrt einschlägige Literaturhinweise zu finden.
Eine sehr eingängige Erläuterung anhand von konkreten Anwendungen der Regression
bietet Studenmund (2016). Die besten englischen Lehrbücher zur Regression in der Volks-
wirtschaftslehre sind Wooldridge (2018) sowie Stock und Watson (2015). In den Sozial-
wissenschaften vermitteln Field (2018) sowie Tabachnick und Fidell (2019) einen Ein-
stieg – insbesondere hinsichtlich des Einsatzes von SPSS.
Eine gute Einführung in Deutsch auf soziologischem Hintergrund geben Urban und
Mayerl (2018). Für die Betriebswirtschaftslehre sind Backhaus et al. (2018) und Herr-
mann et al. (2014) zu empfehlen. Sie behandeln in Einzelbeiträgen nicht nur die Regressi-
onsanalyse, sondern auch eine ganze Reihe weiterer statistischer Verfahren. Hervorzuhe-
ben ist für beide Sammelbände die Orientierung und Erläuterung anhand konkreter
Anwendungen aus der Marktforschung.
Wer sich für die exakten mathematischen Herleitungen und statistischen Fundierungen
der Regression interessiert, dem ist der weltweit verbreitete Referenztext von Greene
(2018) zu empfehlen.
Onlineeinführungen/Ressourcen zu SPSS und Stata

Als Einstieg sollten Sie eine komplette Einführung (wie das vorliegende Buch) durchar-
beiten, um die Orientierung zu behalten. Wenn notwendig, greifen Sie zunächst auf die
folgenden Onlineressourcen zurück, die sich durch eine hohe Qualität und Verständlich-
keit auszeichnen:
• UCLA (University of California Los Angeles – IDRE): ats.ucla.edu/stat/

• Williams, Richard: University of Notre Dame: www3.nd.edu/~rwilliam/
• Stata Video Tutorials: www.stata.com/links/video-tutorials/
• IBM SPSS Video Tutorials: econometricsacademy/home/about.
Die Econometrics Academy ist eine Non-Profit-Organisation. Ihre Videos sind verläss-
liche Anleitungen für den Umgang mit SPSS, aber auch Stata und andere statistische Soft-
wareprogramme. Die von IBM SPSS selbst bereitgestellten Videotutorials sind im wesent-
lichen Marketingvideos, die kaum weiterhelfen.
VIII Gesamtüberblick
Wichtige und häufig hilfreiche Informationsquellen bei speziellen Problemen und kon-
kreten Fragen sind die einschlägigen Diskussionsforen. Die folgenden Onlineforen sind
empfehlenswert:
• Stata: https://www.statalist.org/forums/
• SPSS: http://www.spss-forum.de/
Ob zum eigenen Problem Antworten vorliegen, ist vorab natürlich nicht sicher. Aber in
beiden Foren können nach Anmeldung auch Fragen gestellt werden.
Darüber hinaus enthalten – wie oben erwähnt – die einzelnen Kapitel dieses Buches an
zahlreichen Stellen Hinweise auf weiterführende und vertiefende Literatur sowie On-
linequellen.
Die Darstellungen und Beispiele beziehen sich im Wesentlichen auf SPSS in der Ver-
sion 25 und auf Stata Release 16. Alle für SPSS 25 vorhandenen PDF-Dokumentationen
finden sich unter IBM SPSS 25 (2017). Die älteren Dokumentationen zu den Versionen
IBM SPSS 20 und 22 sind aber wesentlich ausführlicher und daher erheblich besser geeig-
net. Die Stata-Dokumentationen sind äußerst umfangreich und außerdem sehr gut nach-
vollziehbar, da sie die Verfahren anhand von (praktischen) Beispielen erläutern. Darüber
hinaus werden dort für alle Methoden die zugrundliegenden Fachaufsätze und verwende-
ten statistischen Formeln aufgeführt. Sämtliche Dokumentationen sind frei im Internet
zugänglich (Stata 2019).
Auch der vorliegende 2. Band der Regressionsanalyse profitiert von den zahlreichen
Fragen und Hinweisen der Studierenden – insbesondere aus meinem Lehrforschungspro-
jekt im Rahmen des Masterstudiums an der EAH Jena. Besonderer Dank gilt diesmal
Herrn Ralf Klinkowski, der verschiedene Kapitel kritisch durchgesehen hat. Anregenden
Diskussionen mit den Kollegen Klaus Watzka, Martin Bösch und Thomas Wöhner ver-
dankt das Buch eine Reihe von Verbesserungen.
Literatur
Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2018). Multivariate Analysemetho-
den (15. Aufl.). Berlin/Heidelberg.
Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London.
Greene, W. H. (2018). Econometric analysis (8. Aufl.). Boston.
Herrmann, A., & Homburg, Chr. (2014). Marktforschung: Methoden – Anwendungen –
Praxisbeispiele (3. Aufl.). Wiesbaden.
IBM SPSS 25. (2017). ftp://public.dhe.ibm.com/software/analytics/ spss/documentation/
statistics/25.0/en/client/Manuals. Zugegriffen am 09.08.2019.
Stata. (2019). https://www.stata.com/features/documentation/. Zugegriffen am 09.08.2019.
Gesamtüberblick IX
Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics, updated 3. Aufl.
(Global Edition). Amsterdam.
Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts-und Sozialfor-
schung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin.
Studenmund. (2016). Using econometrics: A practical guide (7. Aufl.). Harlow.
Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston.
Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und
Praxis (5. Aufl.). Wiesbaden.
Wooldridge, J. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston.
Inhaltsverzeichnis
1 Einführung: Kausale Aussagen und Prognosemodelle�� 1

1.1 Überblick�� 2
1.2 Deskriptive und explorative Datenanalyse�� 2
1.3 Kausale Schlussfolgerungen �� 3
1.3.1 Kausalität als Problem�� 3
1.3.2 Das Rubin-Neyman-Kausalmodell �� 6
1.3.3 Granger-Kausalität�� 15
1.3.4 Strukturgleichungsmodelle (Kausalmodelle)�� 17
1.3.5 Fazit: Kausale Identifikation oder Fiktion?�� 19
1.4 Prognosemodelle und Klassifikationsmodelle�� 20
1.5 Ausblick: Data Mining, Big Data und Deep Learning �� 21
1.6 Übungsaufgaben�� 23
1.7 Lösungen�� 24
Literatur�� 26
2 Abhängige Variablen mit begrenztem Wertebereich�� 29
2.2 Einführung�� 30
2.3 Logistische Regression (Logit-, Probit-Analyse) �� 30
2.3.1 Der Ansatz der logistischen Regression�� 30
2.3.2 Modellschätzung und Interpretation �� 42
2.3.3 Voraussetzungen und Probleme�� 51
2.3.4 Ergänzungen und Fazit�� 61
2.4 Andere Formen abhängiger Variablen mit begrenztem Wertebereich�� 64
2.4.1 Ordinale und multinomiale abhängige Variablen�� 64
2.4.2 Zählvariablen und spezielle Variablenbeschränkungen�� 67
2.4.3 Zusammenfassung�� 69
2.5 Durchführung in SPSS und Stata�� 70
Literatur�� 105
XI
XII Inhaltsverzeichnis
3 Zeitreihenanalyse und dynamische Modelle �� 109

3.2 Datengrundlage �� 110
3.3 Einfache Regressionsanalyse der Daten mehrerer Perioden�� 121
3.4 Autokorrelation der Fehler�� 123
3.4.1 Einführung�� 123
3.4.2 Überprüfung�� 127
3.4.3 Vorgehen bei Autokorrelation �� 131
3.5 Exogenität der unabhängigen Variablen�� 134
3.6 Stationarität von Zeitreihen�� 136
3.6.1 Überblick�� 136
3.6.2 Folgen und Überprüfung von Nicht-Stationarität �� 140
3.6.3 Vorgehen bei Nicht-Stationarität�� 148
3.7 Modellspezifikation�� 151
3.7.1 Ermittlung der Lags und Leads�� 151
3.8 Weiterführende Verfahren �� 153
3.8.1 Prognosemodelle�� 153
3.8.2 Langfristige Zusammenhänge�� 157
Literatur�� 223
4 Paneldatenanalyse�� 227
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren�� 228
4.3 Abweichungsanalysen bei Paneldaten�� 233
4.4 Echte Paneldaten (Longitudinal Data)�� 236
4.4.1 Überblick�� 236
4.4.2 Gepooltes OLS-Verfahren�� 237
4.4.3 Fixed-Effects-Verfahren�� 240
4.4.4 Random-Effects-Verfahren �� 244
4.4.5 First-Differences-Methode�� 245
4.4.6 Wahl des Spezifikationsansatzes�� 252
4.5 Unechte Paneldaten (gepoolte Querschnittsdaten) �� 256
4.6 Weiterführende Aspekte�� 261
Literatur�� 294
Inhaltsverzeichnis XIII
5 Fehlende Datenwerte/Missing Values�� 297

5.2 Die Relevanz fehlender Datenwerte�� 298
5.3 Formen von Missing Values�� 300
5.3.1 Einführung�� 300
5.3.2 Missing Completely at Random (MCAR)�� 301
5.3.3 Missing at Random �� 303
5.3.4 Missing Not at Random�� 304
5.4 Umgang mit fehlenden Daten �� 304
5.4.1 Fallweiser Ausschluss (Listwise Deletion) �� 305
5.4.2 Imputationsmethoden�� 306
5.4.3 Maximum-Likelihood-Verfahren�� 310
5.5 Zusammenfassung�� 310
Literatur�� 356
6 Anhang I Maximum-Likelihood-Schätzung�� 359
6.1 Einführung in die Maximum-Likelihood-Schätzung�� 359
6.2 Anwendungen des Maximum-Likelihood-Verfahrens�� 368
Literatur�� 369
Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
Einführung: Kausale Aussagen und
Prognosemodelle 1
Lernziele
Der Studierende soll:
• deskriptive und explorative Datenanalysen kennzeichnen können,

• in der Lage sein, die Probleme unbeobachteter Heterogenität (Omitted Variable
Bias), Simultanität und Selbstselektion zu erläutern,
• das Rubin-Neyman-Kausalmodell verstehen,
• die Aussagekraft der Granger-Kausalität überblicken,
• einschätzen können, inwieweit Kausalanalysen in Form von Strukturgleichungs-
modellen Ursache-Wirkungs-Beziehungen ermitteln,
• wissen, worin sich Prognosemodelle von kausalen Analysen unterscheiden,
• die Möglichkeiten und Grenzen kontrollierter Zufallsexperimente verstehen,
• die wichtigsten Verfahren überblicken, um kausale Zusammenhänge zu
identifizieren, wie Matching- und Paneldatenanalyse, Instrumentvariablen und
Regression-Discontinuity-Methode,
• Quasiexperimente und natürliche Experimente charakterisieren können.
cc Wichtige Grundbegriffe Explorative Datenanalyse, Granger-Kausalität, Rubin-

Neyman-Kausalmodell, Kausalanalyse, Beobachtungsdaten, Experimentaldaten, RCT –
Randomized Controlled Trial, Strukturgleichungsmodelle, Cochrane-Richtlinien, evi-
denzbasierte Wirtschaftspolitik, unbeobachtete Heterogenität, Selbstselektion, Average
Treatment Effect (ATE)
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 1

M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und
Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_1
2 1 Einführung: Kausale Aussagen und Prognosemodelle
1.1 Überblick
Regressionsmodelle können im einfachsten Fall zur Ermittlung und Beschreibung von

Zusammenhängen zwischen Variablen herangezogen werden (Abschn. 1.2). Zweitens be-
steht ihr Nutzen aber vor allem darin, kausale Abhängigkeiten zu identifizieren und drit-
tens Prognosen zukünftiger Entwicklungen zu fundieren. Abschn. 1.3 erläutert daher
grundlegende Probleme bei der Ermittlung von Ursache-Wirkungs-Zusammenhängen. Er
konkretisiert und erweitert den Abschnitt 4.1 im Band 1 (Stoetzer 2017). Darauf basierend
beschreibt Abschn. 1.4 kurz Aspekte des Einsatzes von Regressionsanalysen zur Vorher-
sage zukünftiger Entwicklungen. Abschließend fasst Abschn. 1.5 die Ergebnisse zusam-
men und erläutert deren Relevanz im Kontext der aktuellen Diskussion zu Big Data und
Data Mining.
1.2 Deskriptive und explorative Datenanalyse
Empirische Untersuchungen haben ggf. nur den Zweck, mögliche Muster bzw. Zusam-
menhänge in den Daten zu beschreiben und zu entdecken. Dies ist ein klassisches Anwen-
dungsfeld der deskriptiven Statistik. Die Datendiagnose (bspw. Darstellung von Mini-
mum, Maximum, Mittelwert und Standardabweichung aller Variablen) und grafische
Methoden der Datenanalyse (bspw. Streudiagramme, Histogramme und Boxplots der Va-
riablen) sind wichtige Elemente. Sie gehören als Vorstufe zu jeder Regressionsanalyse.
Dies gilt auch für evtl. sinnvolle Datentransformationen (bspw. Logarithmierung von Va-
riablen).
Darüber hinaus können die Regressionsschätzungen ohne Probleme als Beschreibun-
gen von Zusammenhängen interpretiert werden. Zum Beispiel ermittelt eine Analyse der
Einkommensunterschiede, dass der Regressionskoeffizient der unabhängigen Variablen
„Geschlecht Frau“ negativ und signifikant ist. Die deskriptive Auswertung lautet, dass das
Einkommen (im Durchschnitt) geringer ist, wenn es sich bei einem Beschäftigten um eine
Frau handelt. Zum kausalen Problem, ob das Einkommen genau deshalb geringer ist, weil
es sich um eine Frau und nicht um einen Mann handelt, wird dabei aber keine Aussage
getroffen. Gleiches gilt etwa für einen positiven Regressionskoeffizienten einerseits des
Umfangs der Forschungs- und Entwicklungs- (F&E-)Subventionen, die ein Unternehmen
erhält, und andererseits der Zahl der von diesem Unternehmen angemeldeten Patente. Die
Regressionsanalyse bietet hier den Vorteil, die Beziehungen zwischen einer abhängigen
und mehreren unabhängigen Variablen zu ermitteln. Zum Beispiel kann so der Zusam-
menhang von Einkommen und Geschlecht unter Berücksichtigung der gleichzeitigen Ab-
hängigkeit des Einkommens vom Alter, Ausbildungsniveau und Familienstand berech-
net werden.
Solche deskriptiven Auswertungen dienen – ähnlich wie in Fallstudien – häufig dazu,
komplexere Beziehungen und mögliche weitere Einflussfaktoren festzustellen. Dies wird
1.3 Kausale Schlussfolgerungen 3
in der Statistik auch als EDA – Exploratory Data Analysis bezeichnet. Insbesondere
können so u. U. weitere oder andere Wirkungsmechanismen analysiert werden, die dann
die Grundlage besserer und komplexerer (oder auch einfacherer) Theorien bilden. Sie sind
insoweit (wertvolle) Vorstufen anschließender Kausalanalysen. Wichtig ist dabei – im Ge-
genteil zu Hypothesentests – vorurteilsfrei und möglichst flexibel die vorliegenden Daten
zu untersuchen. EDA kann vereinfacht, wie in Übersicht 1.1 dargestellt, charakterisiert
werden (Behrens 1997).
Übersicht 1.1 Elemente explorativer Datenanalyse

• Hervorhebung der inhaltlichen Bedeutung der Daten. Es geht primär um ein sub-
stanzielles Verständnis von Variablen und deren möglichen Zusammenhängen
• Betonung der grafischen Darstellung und Inspektion von Variablen bzw. Da-
tenmengen
• Schwerpunkt liegt auf der versuchsweisen Modellbildung und Hypothesengene-
rierung in einem iterativen Prozess der Modellspezifikation und Modellneuspe-
zifikation
• Ausgangspunkte sind Skepsis, Flexibilität und Sparsamkeit bezüglich der anzu-
wendenden statistischen Methoden
Big Data, Data Mining und Machine Learning sind aktuelle Anwendungen explorativer
Analysen. Zu den statistischen Methoden, die dabei zum Einsatz kommen, gehören unter
anderem diverse Regressionsverfahren. Auch Untersuchungen mittels der klassischen Re-
gression sind deskriptiv und zur Generierung von neuen Hypothesen sinnvoll (Tukey
1980). Standardmäßig ist dies zum Beispiel bei Strukturgleichungsmodellen mittels PLS
(Partial Least Squares) der Fall. Es muss aber bei der Interpretation der Ergebnisse immer
(!) beachtet werden, dass so nur bedingt bereits existierende Hypothesen getestet und kau-
sale Beziehungen dabei nicht „bewiesen“ werden. Dies gilt auch dann, wenn Verfahren der
schließenden Statistik (Inferenzstatistik, konfirmatorische Analyse) zum Einsatz kommen.
Ein klassisches Lehrbuch ist Tukey (1977), für den deutsche Sprachraum Cleff (2015)
und aktuell im Kontext Data Mining Tan et al. (2019).
1.3 Kausale Schlussfolgerungen
1.3.1 Kausalität als Problem
Führt die Vorgabe einer Mietobergrenze in Berlin (Mietendeckel) dazu, dass sozial schwa-
che Bevölkerungsschichten eher eine bezahlbare Wohnung finden? Welche Auswirkungen
haben Weiterbildungsmaßnahmen auf die Zahl der Langzeitarbeitslosen? Hat die Einfüh-
rung der Akkreditierung von Studiengängen im Rahmen der Bologna-Reform seit 2004
die Qualität der Studiengänge erhöht? Eine seit langem geführte und aktuelle Frage ist
auch der Nutzen eines generellen Tempolimits auf den deutschen Autobahnen.
Praktisches Beispiel: Der unklare Nutzen des Tempolimits
Im Dezember 2019 hat Bundesumweltministerien Svenja Schulze (SPD) eine allge-

meine Obergrenze der Geschwindigkeit auf den deutschen Straßen von 130 Kilometer
pro Stunde gefordert. Prompt lehnte der Bundesverkehrsminister Andreas Scheuer
(CSU) ein solches Tempolimit strikt ab. Im Jahr 2018 gab es in Deutschland 1424 Ge-
tötete im Straßenverkehr, davon 1012 auf Landstraßen, 232 auf Autobahnen und 180
innerorts.
Der Deutsche Verkehrssicherheitsrat schätzt durch Hochrechnungen der Unfallsta-
tistik des Jahres 2013, dass auf Autobahnabschnitten ohne Tempolimit durchschnittlich
30 % mehr Verkehrstote zu beklagen sind als auf Strecken mit Geschwindigkeitsgrenze.
Dagegen verweist der ADAC darauf, dass auf Abschnitten mit Tempolimits von 120
oder 130 Kilometern pro Stunde nicht weniger schwere Unfälle auftreten. Auch inter-
nationale Vergleiche mit Ländern, die Tempolimits vorschreiben (bspw. Belgien,
Frankreich und die USA) zeigen keinen klaren Zusammenhang von Geschwindigkeits-
begrenzungen und der Zahl der Verkehrstoten (European Transport Safety Council).
Der Gesamtverband der deutschen Versicherungswirtschaft stellt fest, dass geklärt
werden sollte, ob und in welchem Ausmaß eine Höchstgeschwindigkeit die Sicherheit
auf den Autobahnen erhöht. Er spricht von einer Forschungslücke, die diesbezüglich in
Deutschland existiert. Auch die Gewerkschaft der Polizei plädiert für ein entsprechen-
des unabhängiges wissenschaftliches Gutachten.
Quelle: Frankfurter Allgemeine Zeitung, 31.12.2019, Seite 17 ◄
Bei allen diesen Fragen geht es um die Klärung von Ursache einerseits und darauf zu-
rückzuführender Wirkung andererseits. Die Lösung solcher Probleme ist insbesondere
von David Hume (1748) auf eine empirische Grundlage gestellt worden.1 John Stuart Mill
hat 1882 die Antwort folgendermaßen präzisiert:
„If an instance in which the phenomenon under investigation occurs, and an instance in
which it does not occur, have every circumstance in common save one, that one occurring
only in the former; the circumstance in which alone the two instances differ, is the effect,
or the cause, or an indispensable part of the cause, of the phenomenon.“ (Mill 1882,
S. 483).
Allerdings ist der empirische Nachweis einer solchen Ursache-Wirkungs-Beziehung
auf der Basis von Beobachtungsdaten (Observational Data), d. h. Umfragedaten oder
1
Der Philosoph David Hume (1711–1776) gehört zu den englischen Empiristen des 17. Jh. Das
Problem kausaler Zusammenhänge ist vorher in der Regel (auch) mit theologischen Argumenten
beantwortet worden. Im Mittelalter wurde bspw. die Walnuss als Mittel gegen Kopfschmerz verwen-
det, weil die göttliche Schöpfung ihr ein Form gegeben hat, die dem menschlichen Gehirn ähnelt
(Signaturenlehre).
Modell 1 Modell 2
Störche Urbanisierung
Geburten Geburten
Modell 3 Modell 4
Urbanisierung Urbanisierung
Störche Störche
Geburten Geburten
Abb. 1.1 Zahl der Störche und Geburtenrate
aten der amtlichen Statistik, schwierig. Probleme kausaler Schlussfolgerungen mittels

D
Beobachtungsdaten verdeutlicht das Storchenbeispiel der Abb. 1.1 (Atteslander 2010,
S. 27–32). Zwischen der Zahl der Störche und der Zahl der Geburten in einer Region exis-
tiert eine signifikante positive Korrelation (mehr Störche mehr Babys bzw. weniger Stör-
che weniger Babys). Dies bestätigt eindrucksvoll die Theorie des Modells 1, dass Babys
von Störchen gebracht werden.
Kritiker bezweifeln dies. Sie zeigen in ihrem Modell 2, dass die Zahl der Geburten
negativ mit dem Urbanisierungsgrad einer Region korreliert – also nichts mit den Störchen
zu tun hat. Die Anhänger der Storchentheorie (sogenannte Storchisten) halten dagegen
und beweisen mit Modell 3, dass natürlich die Störche kausal für die Zahl der Geburten
verantwortlich sind. Tatsächlich ist es nämlich so, dass die zunehmende Urbanisierung zu
weniger Störchen geführt hat und deshalb die Zahl der Babys gesunken ist. Die Verfechter
der Urbanisationstheorie (inzwischen als Urbanisten bezeichnet) halten mit ihrem Modell
4 dagegen. Danach ist die zunehmende Urbanisierung die Ursache sowohl von sinkenden
Storchen- als auch Geburtenzahlen. Storchisten und Urbanisten stehen sich inzwischen
unversöhnlich gegenüber, und ein Storchist hat keine Chance, auf eine Professur an einer
von Urbanisten dominierten Hochschule berufen zu werden (umgekehrt gilt dies natürlich
auch für Urbanisten).
Das Beispiel erscheint uns nur deshalb absurd, weil wir die kausalen Zusammenhänge
kennen, bzw. uns ihrer zumindest subjektiv sicher sind. Das heißt, wir besitzen unabhängig
von den empirischen Daten (einer einzelnen Untersuchung) eine Vorstellung über die
wahren Einflussrichtungen der Variablen. Dies wird deutlich, wenn wir zur Illustration die
Störche durch Kühe ersetzen und die Daten sich nicht auf Deutschland, sondern auf Uttar
Pradesh (einen Bundesstaat in Indien) beziehen. Für einen gläubigen Hindu wäre die kau-
sale Wirkung der Abnahme der Zahl der Kühe und den daraus entstehenden negativen Fol-
gen für die Geburtenrate und den wirtschaftlichen Erfolg in diesem Bundesland plausibel
oder sogar zwingend. Viele Korrelationen von Variablen erhalten nur eine plausible kausale
Interpretation, weil wir bereits a priori eine Theorie besitzen, was Ursache und was Wir-
kung ist. Bei den in den Sozialwissenschaften fast immer vorhandenen zahlreichen mögli-
chen Auswirkungen und Einflussrichtungen vieler Faktoren ist dies aber unbefriedigend. In
empirischen Analysen muss anhand der Datenlage klarer ermittelbar sein, welche der kon-
kurrierenden Theorien (Modelle, Vermutungen) richtig sind oder zumindest welche Ergeb-
nisse bestimmte (gesellschafts-)politische Maßnahmen tatsächlich entfalten.
Um deutlich zu machen, dass zunächst nur Daten vorliegen, von denen offen ist, wie sie
und damit die Zusammenhänge zwischen ihnen genau zustande gekommen sind, wird in
der neueren Literatur üblicherweise von einem (unbekannten) Daten generierenden Pro-
zess (Data Generating Process) gesprochen. Die Ermittlung kausaler Zusammenhänge
bezeichnet man dann als Identifikationsproblem, bzw. die Methode, die dazu eingesetzt
wird, als Identifikationsmethode.
Die in den Sozialwissenschaften heute überwiegend akzeptierte Definition kausaler
Beziehungen ist das Rubin-Neyman-Kausalmodell (Abschn. 1.3.2). Andere Ansätze, um
kausale Aussagen zu fundieren, sind die Granger-Kausalität (Abschn. 1.3.3) und Struktur-
gleichungsmodelle (Abschn. 1.3.4). Der Abschn. 1.3.5 fasst die wesentlichen Erkennt-
nisse zusammen.
1.3.2 Das Rubin-Neyman-Kausalmodell
Die Idee, dass kausale Beziehungen darauf basieren, Wirkungen von Eingriffen im Rah-
men von Experimenten zu untersuchen, stammt aus den Naturwissenschaften, wird aller-
dings schon in der Bibel erwähnt.2 Bestimmte Rahmenbedingungen (bspw. Luftdruck und
Temperatur) oder Zugaben bestimmter Stoffe (bspw. chemische Verbindungen, Düngemit-
tel) werden kontrolliert verändert und dann analysiert, welche Folgen dies hinsichtlich
eines interessierenden Outputs (Festigkeit einer Klebeverbindung, Wachstum einer
Pflanze) bewirkt. Darauf aufbauend hat die medizinische Forschung zur Wirksamkeit von
2
Die Fundstelle ist in der Bibel im Alten Testament das Buch Daniel. Daniel soll von der feinen
Speise des Königs ernährt werden, um gesund zu bleiben. Er will dies aber aus religiösen Gründen
nicht und schlägt folgendes Experiment vor: „Versuche es doch zehn Tage lang …, dass man uns
Gemüse zu essen und Wasser zu trinken gibt. Danach soll man vor dir unser Aussehen und das Aus-
sehen der anderen jungen Männer anschauen, die von der feinen Speise des Königs essen; nach dem,
was du dann sehen wirst, handle weiter.“ (Daniel Kapitel 1 Satz 12–13).
Medikamenten, Operationsmethoden und Behandlungsverfahren Richtlinien und Emp-

fehlungen entwickelt. Die entsprechenden Anleitungen firmieren als Cochrane Richt
linien (Cochrane 2020). Grundlegend ist, dass die Ergebnisse durch Dritte (prinzipiell)
reproduzierbar sein müssen (Replikationsfähigkeit) und methodische Standards einge-
halten werden. Diese Orientierung auch der Wirtschafts- und Sozialpolitik an empirisch
nachweisbaren Kausalzusammenhängen wird als evidenzbasierte Politik bezeichnet, und
es wird gefordert, dass die praktische Politik sich daran orientieren sollte (Wissenschaftli-
cher Beirat BMWi 2013 und aktuell 2019).3
In den Sozialwissenschaften wird eine politische oder ökonomische Maßnahme (In
tervention) in der Literatur häufig als „Treatment“ bezeichnet. Ein solches Treatment ist
bspw. die Gewährung von Subventionen zur Forschungsförderung, die Einführung von
Studiengebühren, die Einrichtung eines Technologie- und Innovationszentrums oder die
Einstellung zusätzlicher Vertriebsmitarbeiter in 6 der 15 Vertriebsregionen unseres
Pkw-Beispiels aus Band 1 (Stoetzer 2017). Der Ausdruck meint umfassender aber auch
den Einfluss der Gewerkschaftszugehörigkeit auf das Monatseinkommen eines Mitarbei-
ters oder die Wirkungen unterschiedlicher Zinssätze auf die Kreditinanspruchnahme von
kleinen und mittleren Unternehmen (KMU). Er ist also nicht auf ökonomische Maßnah-
men (oder sozialpolitische Interventionen) im Sinn eines exogenen Eingriffs oder auf no-
minal skalierte Einflussfaktoren beschränkt, auch wenn die folgenden Beispiele sich auf
solche ökonomischen Eingriffe beziehen.
Der Einfluss eines solchen Treatments auf bestimmte Ergebnisse ist dann etwa der
Umfang der Innovationen (gemessen bspw. an den Patenten), die Veränderung der Zahl
der Studierenden, das Unternehmenswachstum (erfasst mittels dem Umsatz) und die Ent-
wicklung der Pkw-Verkäufe. Die interessierenden Ergebnisse werden auch Outcomes
oder Response genannt. Die inhaltlichen Fragen, die dahinter stehen, sind kausaler Natur,
d. h., es geht um Ursache-Wirkungs-Beziehungen: Steigern F&E-Subventionen die Inno-
vationstätigkeit von Unternehmen oder gibt es lediglich einen Mitnahmeeffekt? Verringert
die Einführung von Studiengebühren die Zahl der Studierenden? Erhöhen zusätzliche Ver-
triebsmitarbeiter wirklich die Verkaufszahlen eines Unternehmens? Werden durch die Ein-
richtung von staatlich geförderten Technologie- und Innovationszentren tatsächlich mehr
Arbeitsplätze geschaffen?
Die Frage, wie eine kausale Wirkung erfasst wird, war bereits im Band 1 Kap. 4 auf der
Grundlage des Rubin-Kausalmodells definiert worden (Stoetzer 2017). Wir sehen uns dies
hier noch einmal kurz und etwas formaler an. Das Kausalmodell von Rubin basiert auf
einer kontrafaktischen Feststellung.4 Zur Illustrierung verwenden wir im Folgenden die
3
Dies erscheint selbstverständlich, aber insbesondere die neue politische Ökonomie hat gezeigt,
dass in der praktischen Politik nicht sichergestellt ist, dass die politisch gewählten Maßnahmen ge-
eignet sind, ein angeblich verfolgtes Ziel zu erreichen, und noch weniger berücksichtigt wird, wel-
che Nebenwirkungen ggf. damit verbunden sind.
4
Für den kontrafaktischen Ansatz werden verschiedene Begriffe verwendet: Rubin-, Roy-Rubin-,
Neyman-Rubin- und Neyman-Holland-Rubin-Modell, nach den verschiedenen Autoren, die diese
Idee entdeckt, weiterentwickelt, präzisiert und popularisiert haben.
Frage, ob die projektbezogene Förderung (Subventionierung) von Innovationen die Zahl

der Innovationen eines Unternehmens steigert oder nicht. Inwieweit eine solche (wirt-
schaftspolitisch gewünschte) Steigerung der Innovativität durch diese Maßnahme erreicht
wird, ist offen, bspw. weil es unter Umständen lediglich zu Mitnahmeeffekten kommt. Der
kausale Effekt einer Maßnahme T (hier die projektbezogene Subventionierung von F&E)
auf ein Ergebnis (Outcome), d. h. eine bestimmte abhängige Variable Y (hier die Zahl der
Innovationen eines Unternehmens) ist definiert als:
D i = YiT - YiK (1.1)
Das Zeichen ∆i (Delta) ist die von der Ursache bewirkte Veränderung eines (vorab de-
finierten) Outcomes, d. h. der kausale Effekt für die Beobachtung i. YiT bezeichnet den
Outcome der Beobachtung i (d. h. des Unternehmen, der Hochschule, der Region, des
Individuums etc.), wenn sie einem Treatment T ausgesetzt wird. YiK ist der Outcome
derselben Beobachtung i, wenn sie keinem Treatment unterzogen wird. Zur sicheren Iden-
tifizierung einer kausalen Wirkung von F&E-Subventionen müssten wir also wissen, wie
sich die Zahl der Innovationen eines Subventionsempfängers entwickelt hätte, wenn die-
ses Unternehmen keine F&E-Förderung erhalten hätte. Und für die Unternehmen, die
keine F&E-Förderung erhalten haben, wäre es notwendig zu wissen, wie die Zahl der In-
novationen bei einer Förderung ausgefallen wäre. Diese kontrafaktischen Situationen (po
tenzielle Outcomes) kennen wir natürlich nicht. Was wir beobachten, ist nur einerseits die
Zahl der Innovationen in der Gruppe, die tatsächlich gefördert worden ist und andererseits
die Zahl der Innovationen bei den Unternehmen, die nicht gefördert worden sind. Es han-
delt sich um das fundamentale Problem bei der Ermittlung kausaler Zusammen
hänge, da ein und dasselbe Unternehmen (zu einem bestimmten Zeitpunkt) nicht gleich-
zeitig mit und ohne Treatment beobachtbar ist.
Wie lassen sich trotzdem kausale Wirkungen identifizieren? Wenn ein Querschnittsda-
tensatz mit z Beobachtungen vorliegt, vergleichen wir zwei Gruppen von Unternehmen.
Zum einen betrachten wir eine Gruppe von Unternehmen, die F&E-Subventionen erhalten
haben YiT=1,¼,m . Dies ist die Treatmentgruppe. Zum anderen ersetzen wir die uns unbekann-
ten kontrafaktischen Werte YiK=1,¼,m durch eine Gruppe von Unternehmen, die keine
F&E-Förderung erhalten haben: YiK=n ,¼,z . Dies ist die Kontrollgruppe. Die durchschnittli-
che kausale Wirkung ( D ) ist dann die Differenz der durchschnittlichen Zahl der Innovati-
onen von Treatment- und Kontrollgruppe. Sie ist wie folgt definiert:
D = YiT=1,¼,m - YiK=n ,¼,z (1.2)

Da wir üblicherweise unterstellen, dass eine Stichprobe vorliegt, handelt es sich um

geschätzte Größen. Die kausale Wirkung ist der sogenannte durchschnittliche Treatmentef-
fekt (ATE – Average Treatment Effect) Es ist aber intuitiv nachvollziehbar, dass diese
Differenz beider Gruppen nur dann die kausale Wirkung der F&E-Subvention darstellt,
wenn beide Gruppen sich nicht in anderen (relevanten) Aspekten unterscheiden. Das heißt,
es darf keine sogenannte „unbeobachtete Heterogenität“ (Omitted Variable Bias) vorlie-
gen. Mit der Regressionsanalyse ist es möglich, den Einfluss aller beobachteten Unter-
schiede zwischen der Treatment- und der Kontrollgruppe zu kontrollieren (d. h. deren
Einflüsse „herauszurechnen“). Eine multiple Regression ermittelt den Einfluss der exoge-
nen Variablen unter Konstanthaltung der Einflüsse der anderen exogenen Variablen – also
ceteris paribus (Stoetzer 2017). Alle beobachteten Unterschiede (Heterogenitäten) zwi-
schen den beiden Gruppen können wir also beseitigen. Für die unbeobachteten Unter-
schiede geht dies allerdings nicht, da wir dafür eben keine Daten (Variablen) besitzen.
Leider ist es in den Wirtschafts- und allgemein den Sozialwissenschaften bei allen nicht
experimentellen Daten (Beobachtungsdaten wie Umfragedaten und amtlichen Statisti-
ken) sehr wahrscheinlich, dass weitere eventuell relevante, aber nicht erfasste oder nicht
erfassbare Einflussfaktoren existieren.5 Inhaltlich ergeben sich daraus vor allem die vier
Probleme der Übersicht 1.2, die sich substanziell zum Teil überschneiden.
Übersicht 1.2 Probleme der Kausalanalyse

• Omitted Variable Bias (beobachtete und unbeobachtete Heterogenität, Confoun-
der, Moderator)
• Selbstselektion (Self-Selection)
• Umgekehrte Kausalrichtung (Reverse Causality)
• Simultanität (Simultaneity)
Bei F&E-Subventionen ist wahrscheinlich, dass Unternehmen mit stärkerer Innovati-

onsneigung sich auch um solch eine Projektförderung bemühen. Wenn man in dieser
Gruppe also die Zahl der Innovationen im Vergleich zu anderen Unternehmen analysiert,
stellt man schon wegen dieser Selbstselektion einen positiven Einfluss der F&E-
Subventionen fest, der tatsächlich gar nicht vorliegt.
Wie kann garantiert werden, dass Treatment- und Kontrollgruppe sich nicht systema-
tisch unterscheiden und die Wirkungsrichtung des Treatment eindeutig ist? Die Lösung
5
Alle diese Probleme führen zu einer Korrelation der exogenen Variablen mit dem Fehlerterm. Dies
firmiert in der ökonometrischen Literatur als Endogenität dieser Variablen, die eigentlich exogen
sein müssten. Vereinfacht ausgedrückt existiert ein Zusammenhang zwischen den exogenen Varia
blen (insbesondere den Hypothesenvariablen, hier dem Treatment) und dem Fehlerterm. Letzterer ist
dann natürlich kein reines Zufallsergebnis (weißes Rauschen), da wir ihn ja mit den exogenen Vari-
ablen „vorhersagen“ könnten. Dies verletzt die Annahme der einfachen linearen Regression, nach
der die Fehler (bzw. Residuen) ein reines Zufallsresultat sind (Stoetzer 2017, Kap. 1 und 4). Das
Problem des Omitted Variable Bias taucht auch unter der Bezeichnung Simpson’s Paradox in der
Literatur auf. Eine weitere inhaltliche Schwierigkeit firmiert als ökologischer Fehlschluss (Ecologi-
cal Fallacy). Sie tritt auf, da bei Zusammenhängen (Korrelationen) zwischen aggregierten Daten
nicht ohne weiteres geschlossen werden kann, dass diese Beziehung auch auf der Ebene der Indivi-
dualdaten existiert. Bspw. können demografische Merkmale der Bevölkerung auf Wahlkreisebene
mit den aggregierten Wahlergebnissen in den Wahlbezirken korrelieren. Daraus kann aber nicht
(ohne weiteres) abgeleitet werden, dass dies auch für das individuelle Wahlverhalten gilt.
besteht darin, dass beide Gruppen zufällige Stichproben aus der uns interessierenden
Grundgesamtheit (von Unternehmen, Individuen usw.) sind. Dies ist im Rahmen von kon
trollierten Experimenten möglich, bei denen die Beobachtungseinheiten, die das Treat-
ment erhalten, und die, die kein Treatment erhalten, mittels eines Zufallsverfahrens ausge-
wählt werden. Die erste Gruppe ist die Treatmentgruppe und die zweite Gruppe die
Kontrollgruppe. Ein solcher Randomized Controlled Trial (RCT) hat sich in den Sozial-
wissenschaften als Referenzmethode (Benchmark, Goldstandard) der Datengenerierung
etabliert. Durch die Zufallsauswahl ist prinzipiell sichergestellt, dass die beiden Gruppen
sich nicht systematisch unterscheiden, also kein Omitted Variable Bias (keine unbeobach-
tete Heterogenität) vorliegt und auch keine Selbstselektion stattfindet. Darüber hinaus ist
durch die Kontrolle (bewusste Manipulation) des Treatments grundsätzlich gesichert, dass
keine Simultanität oder umgekehrte Kausalrichtung die Ergebnisse verfälschen.
Außerhalb der Naturwissenschaften ist dies in Form von Laborexperimenten in der
Psychologie schon immer eine Standardmethode der Datengewinnung gewesen. In der
Ökonomie, Soziologie und Politologie geht es darum, RCT (auch) in realen Umgebungen
als sogenannte Feldexperimente zu realisieren.
Praktisches Beispiel: Was wirkt wirklich in der Entwicklungshilfe?
Der Nobelpreis für Ökonomie ist im Jahr 2019 an Esther Duflo, Abhijit Banerjee und
Michael Kremer verliehen worden. Ihre wissenschaftliche Leistung besteht in der kon-
sequenten Anwendung solcher Feldexperimente, um Fragen der Wirksamkeit von ent-
wicklungspolitischen Maßnahmen zu klären. Ausgangspunkt ist, dass nach 40 Jahren
Entwicklungshilfe für Afrika mit über 3 Billionen US-Dollar noch immer unklar ist, ob
diese Hilfe überhaupt etwas bewirkt hat (Duflo 2010). Bspw. zeigte ein RCT in Dörfern
in Kenia, dass die Senkung der Bildungskosten durch die Bezahlung von Schulunifor-
men die Abbrecherquoten, die Teenagerheiraten und das Kinderkriegen reduzierte. In
Hyderabad, Indien, testeten sie die Vergabe von Mikrokrediten an arme Frauen. Sie
fanden keine signifikanten Veränderungen in den Bereichen Gesundheit, Bildung oder
Frauenförderung. Ebenfalls für Indien stellten sie fest, dass die Impfraten für Kinder in
ländlichen Gebieten Indiens dramatisch ansteigen (von 5 Prozent auf 39 Prozent), wenn
ihren Familien einfache, begrenzte Anreize für Impfungen, wie zum Beispiel Portionen
von Linsen, als „Belohnung“ angeboten werden.
Quelle: Banerjee und Duflo (2011) ◄
Im Rahmen eines kontrollierten randomisierten (Feld-)Experiments die kausale Wir-

kung einer Intervention zu ermitteln, basiert aber auf mehreren Voraussetzungen. Erstens
sind RCT in vielen Fällen praktisch nicht realisierbar (bspw. aus ethischen Gründen,
siehe kurz dazu Stoetzer 2017, Kap. 4).
Zweitens ist in den Sozialwissenschaften (anders als in den Naturwissenschaften) im-
mer das Verhalten von Menschen relevant, die sich gegenseitig beeinflussen und Verände-
rungen antizipieren. Für RCT bedeutet dies, dass die Ergebnisse nur unter der SUTVA-
Bedingung (Stable Unit Treatment Value Assumption) gültig sind.6 Sie besagt, dass es
keine Effekte der Wirkung in einer der beiden Gruppen dadurch geben darf, dass die an-
dere Gruppe ein Treatment erhalten bzw. nicht erhalten hat. Konkret wird bspw. unter den
Langzeitarbeitslosen einer Region eine zufällig ausgewählte Treatmentgruppe durch ein
Bewerbungstraining gefördert und eine Kontrollgruppe nimmt an dieser Maßnahme nicht
teil. Wenn die Kontrollgruppe darauf reagiert, indem sie sich darum bemüht die entspre-
chenden Informationen zwar nicht von der Arbeitsagentur, aber von den Mitgliedern der
Treatmentgruppe zu erhalten, wird ein anschließender Vergleich der Erfolgsquote bei den
Bewerbungen von Treatment- und Kontrollgruppe ggf. keinen Unterschied feststellen. Die
falsche Schlussfolgerung ist, dass die Teilnahme am Bewerbungstraining wirkungslos
war. Jede Interferenz zwischen den beiden Gruppen muss also ausgeschlossen sein, um
eindeutige kausale Wirkungen zu identifizieren.
Drittens kann ein kontrolliertes Zufallsexperiment ggf. die interne Validität sicherstel-
len, allerdings bleibt die externe Validität eine offene Frage.7 Es ist dabei unsicher, ob die
Resultate von Experimenten auf andere Kontexte übertragbar sind. Bspw. führt ein von
allen Langzeitarbeitslosen absolviertes Bewerbungstraining zu keinem (weiteren) Rück-
gang der Arbeitslosenzahlen, wenn die Zahl der offenen Arbeitsplätze begrenzt ist. Dies
gilt entsprechend auch für Makroeffekte (allgemeine Gleichgewichtseffekte). Studien-
gebühren an den Hochschulen einzelner Bundesländer – wie in Deutschland von 2006 bis
2014 – haben mit hoher Wahrscheinlichkeit eine andere Wirkung auf die Zahl der Erstse-
mester einer Hochschule als gleich hohe Studiengebühren an allen deutschen Hochschulen.
Viertens ist streng genommen eine kausale Wirkungen nur zu ermitteln, wenn ein Treat-
ment (eine Veränderung, eine Manipulation) überhaupt möglich ist. Damit sind bei
strenger Auslegung kausale Einflüsse von bspw. Geschlecht oder sozialer Herkunft – aber
auch des Mondes auf Ebbe und Flut – nicht zu ermitteln, da sie nicht exogen im Rahmen
eines Experiments manipulierbar sind (Winship und Morgan 1999). Auch ist in der Ent-
wicklungspolitik die Relevanz der „Good Governance“ für ein erfolgreiches wirtschaftli-
ches Wachstum recht offensichtlich. Allerdings ist es nicht durchführbar unter den 47 –
entsprechend der Definition der Vereinten Nationen – am wenigsten entwickelten Staaten
der Welt (Least Developed Countries – LDC) 24 nach einem Zufallsverfahren auszuwäh-
len, dort anschließend Good Governance zu etablieren und nach 8 Jahren die ökonomische
Entwicklung beider Gruppen zu vergleichen.
Darüber hinaus kann mittels RCT nur begrenzt zwischen falschen und wahren
Theorien unterschieden werden. Das Ergebnis des kontrollierten Zufallsexperiments
6
Die Bedingungen, unter denen ein Treatment unabhängig von seinen potenziellen Resultaten und
damit auch von anderen Einflussfaktoren ist, werden in der Literatur unterschiedlich abgegrenzt und
bezeichnet. Sie nennen sich Conditional Independence (bzw. Conditional Mean Independence), Un-
confoundedness, Selection-on-Observables, Strong Ignorability (genauer dazu Drukker 2016).
7
Eine Studie besitzt interne Validität, wenn die getesteten kausalen Einflüsse auch in der Grundge-
samtheit (Population) vorliegen. Externe Validität ist gegeben, wenn die Ergebnisse auch auf andere
Grundgesamtheiten mit differierenden Rahmenbedingungen übertragbar sind.
sagt nur etwas über Ursache und Wirkung aus, aber enthält keine Informationen, warum
dies so ist. In der Seeschifffahrt war seit dem 16. Jh. Skorbut als Krankheit unter den See-
leuten ein großes Problem. Eines der ersten medizinischen Experimente wurde von James
Lind 1742 als Schiffsarzt durchgeführt (Thomas 1997, kritisch dazu Baron 2009). Er be-
handelte zwölf an Skorbut erkrankte Seeleute mit möglichst ähnlichen Symptomen und
unter identischen Bedingungen gleichzeitig mit sechs verschiedenen Methoden (jeweils
zwei Patienten mit der gleichen Methode). Zwei Kranke erhielten jeweils zwei Orangen
und eine Zitrone pro Tag. Sie waren (anders als die anderen Patienten) nach kurzer Zeit
(weitgehend) wieder gesund. Die Theorie von Lind war, dass saure bzw. säurehaltige Flüs-
sigkeiten den Patienten helfen. Die wahre Ursache – der Mangel an Vitamin C (Ascorbin-
säure) – wurde von ihm durch sein Experiment nicht identifiziert.
Die eingangs beschriebene kontrafaktische Definition eines kausalen Effekts ist auch
per se nicht ohne Probleme. Der oben erläuterte Average Treatment Effect (ATE) – auch
als ITT (Intention-to-Treat-Effekt bezeichnet – schätzt die mittlere Differenz zwischen der
Treatment- und der Kontrollgruppe in der Grundgesamtheit (der Population), auf die sich
die Stichprobe bezieht. Diese mittlere kausale Wirkung ist aber bei einer großen Variabili-
tät der Effekte zwischen den Beobachtungseinheiten, oder zwischen bestimmten Unter-
gruppen von Beobachtungseinheiten, wenig relevant. Auch ist für viele wirtschaftspoliti-
sche Eingriffe und sozialpolitische Maßnahmen festzuhalten, dass sie auf der freiwilligen
Teilnahme am Treatment beruhen und anders höchstens diktatorisch vorstellbar sind. Dies
gilt bspw. für ein Weiterbildungsseminar für Langzeitarbeitslose, die Gewährung von pro-
jektbezogenen F&E-Förderprogrammen und die Einführung von E-Learning-Plattformen
an bestimmten Hochschulen. Alle diese Beispiele zielen darauf ab, bestimmte positive
Effekte zu erzielen. Allerdings ist es nicht möglich oder nicht gewünscht, bestimmte Inter-
ventionen zu oktroyieren. Es resultieren unterschiedliche Teilnahmen an der Treatment-
und Kontrollgruppe, die nicht rein zufallsgesteuert sind und Unterschiede hinsichtlich der
Befolgung (Akzeptanz) des Treatments und des Nicht-Treatments. Aus diesen Differenzen
von idealem RCT und tatsächlichen Wirkungen resultieren verschiedene Effekte. Trotz-
dem kann eine kausale Wirkung, die sich auf die freiwillig teilnehmenden und das
Treatment befolgenden Personen (bzw. Unternehmen usw.) beschränkt, natürlich relevant
und wünschenswert sein. Dies ist dann der Average Treatment Effect of the Trea
ted (ATT).8
Allein aufgrund der sehr hohen Kosten von (Feld-)Experimenten mit einer ausreichend
großen Zahl von Teilnehmern sind wir in den Sozialwissenschaften im Allgemeinen auf
8
In Teilen der Literatur wird darüber hinaus zwischen einer ganzen Reihe von Effekten differenziert.
Die Unterschiede ergeben sich in erster Linie aufgrund der Frage, für welche Beobachtungsträger
(bspw. Individuen) ein Treatment intendiert ist, im Gegensatz zu den Individuen, die tatsächlich dem
Treatment ausgesetzt waren, und schließlich den Personen, die für ein Treatment in Frage kämen
(d. h. die Grundgesamtheit). Winship und Morgan (1999, S. 664–668) und Guo und Fraser (2015,
S. 48–52) erläutern die verschiedenen Ansätze. Die Verwendung der Begriffe bei verschiedenen
Autoren ist nicht immer einheitlich.
Beobachtungsdaten (Umfragedaten, Zensusdaten, Daten der amtlichen Statistik) ange-

wiesen. Allerdings sind in der Praxis in einer Reihe von Fällen sogenannte natürliche
Experimente anzutreffen (Dunning 2012).9 Dazu liegt eine Reihe von Beispielen mit in-
teressanten Resultaten vor. Der Einzug junger Männer zum Wehrdienst in den USA fand
während des Vietnamkriegs in Form eines Losverfahrens statt. Der Einfluss des Militär-
dienstes auf den späteren Erfolg im Berufsleben konnte so ähnlich wie in einem echten
RCT analysiert werden. Im Jahr 1992 erhöhte der US-Bundesstaat New Jersey den gelten-
den Mindestlohn von 4,25 $ auf 5,05 $, während im benachbarten Pennsylvania der Min-
destlohn unverändert bei 4,25 $ blieb. Vor allem in den angrenzenden Counties beider
Staaten war es so möglich, die Auswirkungen der Mindestlohnerhöhung auf die Zahl der
Arbeitsplätze in einem Niedriglohnsektor (den Fast-Food-Restaurants) zu vergleichen.
Die Einführung von Studiengebühren in Deutschland an den Hochschulen einzelner Bun-
desländer (und mit unterschiedlicher Dauer) in den Jahren 2006 bis 2014 ist ebenfalls ein
Beispiel eines natürlichen Experiments (siehe dazu Kap. 3).
Sowohl bei Beobachtungsdaten als auch bei natürlichen Experimenten sind die vorhan-
denen Daten „verschmutzt“, d. h. sie entsprechen nicht den Daten aus einem idealen
RCT. Mittels verschiedener Methoden wird dann versucht, die Daten so zu analysieren,
dass sie den Eigenschaften von RCT-Daten nahekommen, bzw. die Probleme der Über-
sicht 1.2 beseitigen. Die entsprechenden Verfahren werden unter dem Oberbegriff Qua
siexperimente zusammengefasst – Übersicht 1.3 listet die wichtigsten Varianten auf.
Das erste Verfahren, die klassische multiple Regression, basiert auf der Annahme, dass
alle relevanten Variablen berücksichtigt werden – die ceteris paribus Bedingung durch
deren Kontrolle erfüllt ist – und die Regressionskoeffizienten unserer Hypothesenvariablen
daher die kausalen Effekte identifizieren. Ob dies plausibel ist, kann nur im Einzelfall
entschieden werden, ist aber häufig eher unwahrscheinlich. Das zweite Verfahren (Instru-
mentvariablen) hat sich seit ca. 40 Jahren vor allem in der Ökonometrie etabliert. Die
anderen Ansätze sind jüngeren Ursprungs und werden seit ca. 25 Jahren vermehrt
eingesetzt.
Die Verfahren der Übersicht 1.3 sind miteinander kombinierbar, bspw. Instrumentvari-
ablen und Panelmethoden zur Untersuchung von Daten, die auf natürlichen Experimenten
beruhen. Alle Verfahren setzen aber jeweils voraus, dass bestimmte Annahmen erfüllt
sind. Das heißt, es existiert keine Möglichkeit, kausale Wirkungen zu identifizieren, ohne
dass bestimmte Voraussetzungen gegeben sind.
9
Weitere Beispiele sind: Welche Auswirkungen hat eine gesetzliche Krankenversicherungspflicht
auf die Gesundheit der Bevölkerung? Führen kleinere Schulklassen in der Grundschule zu bessern
Lernerfolgen? Diese und eine ganze Reihe von weiteren praktischen Anwendungsbeispielen erläu-
tern Angrist und Pischke (2009, 2015) im Kontext der Verfahren der Übersicht <1.3. Zu Grenzen und
Problemen von Experimenten siehe auch Stock und Watson (2015, Kap. 13).
Übersicht 1.3 Quasiexperimentelle Verfahren der Kausalanalyse

1) Aufnahme aller (relevanten) Einflussfaktoren: Sämtliche relevanten Variablen
sind vorhanden (beobachtet) und in der Spezifikation berücksichtigt (Conditio-
nal Ignorability) (Angrist und Pischke 2015)
2) Instrumentvariablen (Wooldridge 2018)
3) Matchingverfahren: Auswahl einer geeigneten (möglichst ähnlichen) Kontroll-
gruppe (Guo und Fraser 2015)
4) Inverse Probability Weighting, Reweighting: Gewichtung von Beobachtungen
bzw. Subgruppen, um Repräsentativität herzustellen (Guo und Fraser 2015)
5) Modellierung der (Selbst-)selektion – Heckman Selection Model (Clougherty
et al. 2016)
6) Regression-Discontinuity-Methoden (Cattaneo und Escanciano 2017)
7) Panelbasierte Verfahren – Fixe Effekte, Erste Differenzen, Differences-in-
Differences (Baltagi 2013)
Bei den jeweiligen Verfahren stehen jeweils Literaturquellen, die eine ausführlichere Dar-
stellung enthalten. Fundierte allgemeine Erläuterungen mit unterschiedlichen Schwerpunk-
ten sind Angrist und Pischke (2015); Guo und Fraser (2015) und Imbens und Rubin (2015).
Im Folgenden werden im Kap. 4 die panelbasierten Methoden des siebten Verfahrens
genauer erläutert und dabei auch auf ihre Anwendung im Zusammenhang mit natürlichen
Experimenten eingegangen. Dies erstens, weil die notwendigen echten und unechten Pa-
neldatensätze in den letzten 30 Jahren zunehmend verfügbar geworden sind. Zweitens
sind die einschlägigen Methoden zu ihrer Auswertung inzwischen standardmäßig in den
statistischen Programmpaketen implementiert. Drittens können die Methoden ausdifferen-
ziert entsprechend der konkreten Problemstellungen eingesetzt werden, und viertens han-
delt es sich um ein besonders robustes Verfahren zur Identifikation kausaler Wirkungen.
Praktisches Beispiel: The Achieving Society 1961
Warum sind bestimmte Staaten auf dem Globus reich und andere arm? Wieso gelingt es
Nationen, ihren Wohlstand deutlich zu erhöhen, während andere stagnieren oder sogar
zurückbleiben? Solche fundamentalen Fragen sind seit Adam Smith’s Buch „Inquiry
into the Nature and the Causes of the Wealth of Nations“ aus dem Jahr 1776 aktuell.
David McClelland untersuchte in einer breit angelegten Studie in den Jahren 1955
bis 1958 die Ursachen des Wirtschaftswachstums. Die bis dahin existierende Literatur
(u. a. Max Weber, Ellsworth Huntington, Arnold Toynbee) illustrierte die Erklärungen
mit Fallbeispielen. McClellands bezieht sich (als einer der ersten) in seinem methodi-
schen Ansatz auf die Logik eines (kontrollierten) Experiments nach Fisher (1935). Die
Beschreibung einzelner Fälle, um eine Hypothese zu fundieren, scheidet damit aus.
Dies zeigt sich bspw. bei der Frage des positiven Einflusses der protestantischen Ethik
(etwa für England, die Schweiz, Schweden und Deutschland plausibel, aber anderer-
seits sind das florierende katholische Belgien (im 19. Jh.) und Venedig (im 16. Jh.)
Gegenbeispiele). Da ein Experiment nicht möglich ist, zielt er darauf ab, die methodi-
schen Probleme von Beobachtungsdaten mit verschiedenen Verfahren zu beseitigen,
um so Korrelation (Verbundenheit) von kausalen Einflüssen (Verursachung) zu unter-
scheiden.
Erstens stellt er seine Analysen auf eine breite räumliche Basis und bezieht 26 Staa-
ten der Welt aus verschiedenen Regionen und mit differierenden Wohlstandsniveaus
ein. Zweitens ermittelt er mit identischen Abgrenzungen Daten zu längeren Zeiträumen
(1925 bis 1950). Damit wird bspw. der Einfluss des Gesundheitszustands der Bevölke-
rungen der Staaten im Jahr 1925 auf deren Wirtschaftswachstum in späteren Jahren bis
1950 untersucht. Wobei er auch mögliche umgekehrte Kausalrichtungen einbezieht
(Wohlstandsniveau im Jahr 1925 und Gesundheitszustand im Jahr 1950). Zur Kontrolle
weiterer möglicher Einflussfaktoren verwendet er Regressionsgleichungen. Nach sei-
ner Auffassung sind
psychologische bzw. verhaltenswissenschaftliche Phänomene treibende Faktoren
wirtschaftlichen Wachstums. Sie liegen für ihn in der Leistungsbereitschaft und Leis-
tungsmotivation der Bevölkerung. Dazu vergleicht er u. a. die Häufigkeit der Darstel-
lungen individueller Leistungen in der englischen Literatur von 1500 bis 1800 mit ei-
nem Indikator der wirtschaftlichen Zuwachsraten Englands jeweils 50 Jahre später – also
von 1550 bis 1850. Er kann mit diesem Ansatz zeigen, dass hier ein solcher verzögerter
positiver Zusammenhang existiert.
Quelle: McClelland (1961) ◄
1.3.3 Granger-Kausalität
Bereits nach David Hume (1711–1776) basieren kausale Zusammenhänge auf einer zeit
lichen Reihenfolge: Die Ursache muss zeitlich der Wirkung vorangehen. Dies führt zur
Überlegung, dass Ursache-Wirkungs-Beziehungen mittels Zeitreihendaten identifizierbar
sind. Granger (1969) hat diese Idee präzisiert. Falls eine Variable X kausalen Einfluss auf
die Variable Y ausübt, enthalten die gegenwärtigen und vergangenen Werte von X Infor-
mationen darüber, wie sich Y in der Zukunft entwickeln wird.
Daher liegt eine Granger-Kausalität zwischen zwei Variablen X und Y vor, wenn fol-
gende Bedingung erfüllt ist: Eine Variable X ist Granger-kausal hinsichtlich Y, wenn die zu-
künftigen Werte von Y bei Verwendung von vergangenen Werten von X besser prognostiziert
werden können als ohne die Verwendung der vergangenen Werte von X. Dies setzt voraus,
dass die Regressionsgleichung, die wir für die Prognose verwenden, richtig spezifiziert ist.
Eine bessere Prognose liegt dann vor, wenn die Fehlervarianz unter Einschluss von X geringer
ist. In Form einer Regression lässt sich diese Aussage überprüfen, darauf geht Kap. 3 kurz ein.
Auch ohne die Spezifikation dieser Regression zu überblicken, liegen aber verschie-
dene Einwände auf der Hand. Ein Problem besteht in der adäquaten zeitlichen Länge
der Beobachtungsdaten einer Zeitreihe. Beziehen sich makroökonomische Daten auf
Jahreswerte, können alle Wirkungen, die zwischen den Variablen innerhalb eines Jahres
auftreten, nicht eindeutig kausal identifiziert werden. Ist eine Erhöhung des Zinssatzes der
Zentralnotenbank innerhalb von maximal sechs Monaten mit einer Verringerung des Kre-
ditvergabevolumens der Banken verbunden, ist die Kausalrichtung zwischen diesen bei-
den Variablen auf der Basis von Jahresdaten für den Zinssatz und das Kreditvolumen nicht
mehr zu ermitteln. Dies gilt jedenfalls dann, wenn die Zinserhöhung im ersten Halbjahr
stattgefunden hat. Verfügen wir dagegen über Monatsdaten für beide Variablen, lässt sich
die Granger-Kausalität überprüfen.
Darüber hinaus verkürzt die obige Definition von (Granger-)Kausalität den Kausalitäts-
begriff von Rubin radikal. Kausale Beziehungen sind nach Granger aufeinander folgende
Veränderungen in der Zeit. Einfach formuliert „Aus danach ergibt sich deswegen“ (latei-
nisch: „Post hoc, ergo propter hoc“). Dies ist aber eine unzulässige Vereinfachung.
Die wichtigsten Einwände sind erstens, dass unter Umständen eine (nicht berücksich-
tigte) Drittvariable ursächlich ist, d. h. ein Omitted Variable Bias (eine unbeobachtete
Heterogenität) vorliegt. Zum Beispiel wird der Einfluss der Größe der F&E-Abteilung
(bspw. die Anzahl der dort Beschäftigten) auf die Zahl der Patente eines Unternehmens
untersucht und eine Granger-kausale Wirkung festgestellt. In Wirklichkeit ist aber eine
Drittvariable, nämlich der Gewinn des Unternehmens, entscheidend. Er steigt und führt
sowohl zu einer Zunahme der F&E-Mitarbeiter als auch der Patentierungsbemühungen,
wobei die Einstellung neuer F&E-Mitarbeiter schneller erfolgt als die Erteilung von Pa-
tenten (siehe dazu auch die Unterscheidung von Symptom und Ursache in der medizini-
schen Krankheitsforschung im Abschn. 1.4).
Zweitens können Antizipationseffekte zu einen vorlaufenden Feedback führen. Folgt
etwa die Wirtschaftspolitik der einfachen keynesianischen Idee, dass die Arbeitslosigkeit
(Variable Y) mittels entsprechender Fiskalpolitik in Form von Veränderungen der Staats-
ausgaben (Variable X) zu bekämpfen ist, basiert dies auf der Annahme, dass X kausal
Veränderungen von Y bewirkt. Steigende Arbeitslosenzahlen werden dann begleitet von
einer Erhöhung der Staatsausgaben, bzw. bereits die Erwartung steigender Arbeitslosen-
zahlen führt unter Umständen zu einer expansiven Fiskalpolitik. Im ersten Fall lässt sich
auf Grund von Simultanität keine Granger-Kausalität feststellen. Im zweiten Fall bedeutet
dies sogar, dass die (antizipierte) Arbeitslosigkeit Y Granger-kausal auf die Staatsausga-
ben X wirkt, obwohl die tatsächliche Wirkung von X nach Y verläuft.
Ein weiteres Beispiel verdeutlicht das Problem noch einmal. Wir stellen statistisch
hoch signifikant fest, dass ein Treatment, gemessen mittels einer Dummyvariablen Vitzili-
putzli, bei einem Menschen unabhängig vom Geschlecht, Alter und sozialem Hintergrund
zeitlich anschließend relativ schnell zum Tod dieser Person führt. Handelt es sich bei die-
ser Variablen Vitziliputzli um ein Gift, ist die ursächliche Wirkung für uns offensichtlich.
Wenn die Variable Vitziliputzli aber für die Aufnahme in ein Pflegeheim steht, liegt (hof-
fentlich) keine Kausalität vor. Erst unser Vorwissen (eine Theorie) macht aus der Variablen
Vitziliputzli eine inhaltlich und damit ggf. kausal interpretierbare Größe.
Zusammenfassend gilt, dass Kausalität immer auch Prognostizierbarkeit bedeutet.
Umgekehrt besagt aber Prognostizierbarkeit noch nichts hinsichtlich der kausalen Bezie-
hung zwischen Variablen. Ein kausaler Zusammenhang im Sinne der Wirkung eines Treat
ments (einer Intervention, Maßnahme usw.) auf eine abhängige Variable ist so nicht über-
prüfbar bzw. feststellbar. Der Begriff Granger-Kausalität ist daher irreführend, besser
sollte von Granger-Prognostizierbarkeit (Granger Predictiveness) gesprochen werden.
Eichler (2012) und Kirchgässner et al. (2014) stellen die wichtigsten Aspekte dar. Im Rah-
men von Prognosen ist die Verwendung von verzögerten abhängigen und unabhängigen
Variablen zur Erklärung darauf folgender Entwicklungen sinnvoll und eine gängige Me-
thode. Abschn. 1.4 und Kap. 2 stellen dies genauer dar.
1.3.4 Strukturgleichungsmodelle (Kausalmodelle)
Bestimmte Strukturgleichungsverfahren wie PLS zielen – wie im Abschn. 1.2 bereits er-
wähnt – primär darauf ab, mögliche Zusammenhänge und Abhängigkeiten (ggf. weitgehend
theoriefrei) zu ermitteln. Das heißt, es geht darum, Hypothesen zu entwickeln, aber nicht
darum, diese zu testen. Sie zählen insoweit zur Gruppe der explorativen statistischen Analy-
sen, sind im vorliegenden Kontext irrelevant und werden im Folgenden nicht weiter erörtert.
Strukturgleichungsmodelle (SEM – Simultaneous Equation Models bzw. Structural
Equation Models) sind eine Weiterentwicklung der Regressionsverfahren für komplexere
Zusammenhänge mit in der Regel mehreren abhängigen Variablen und Rückkoppelungs-
effekten sowie indirekten und nicht direkt beobachtbaren (sogenannten latenten) Varia
Sozialer Status
Vater
Ausbildung
Vater
Ausbildung
Mutter
Höchster Schul- Hochschul-

abschluss studium
Stadt
Geschlecht
Sozialer Status
Mutter
Abb. 1.2 Rekursives Modell des Hochschulstudiums

blen. In der Volkswirtschaftslehre sind sie ursprünglich zur Schätzung von makroökono-
mischen gesamtwirtschaftlichen Modellen entwickelt worden. In der
Betriebswirtschaftslehre und in anderen Gebieten der Sozialwissenschaften werden sie
häufig als Pfadanalysen bezeichnet.
Soweit solche Strukturgleichungsmodelle auch latente Variablen einbeziehen, firmie-
ren sie auch als Kausalanalysen (Causal Models). Latente Variablen sind die aus Band 1
bekannten hypothetischen Konstrukte (Stoetzer 2017). Es handelt sich um Einflussfak-
toren wie bspw. „Betriebsklima“, „Innovativität“ und „Wettbewerbsfähigkeit“ auf Unter-
nehmensebene oder „Fähigkeiten“, „Motivation“ und „Engagement“ auf der individuellen
Ebene. Solche Begriffe sind nicht direkt messbar. Sie werden mittels einer oder häufig
auch mehrerer Indikatorvariablen erfasst, die geeignet sind, diese Konstrukte in ihrer
Mehrdimensionalität abzubilden. Nur diese Indikatorvariablen sind als Daten messbar.
Abb. 1.2 zeigt ein solches (einfaches) Strukturgleichungsmodell für den Zusammen-
hang von sozialer Herkunft, Bildungsstand der Eltern, Wohnort (Stadt), Geschlecht,
höchstem Schulabschluss und Hochschulabschluss des Befragten. Es handelt sich um ein
rekursives Modell, da keine Rückkoppelungseffekte spezifiziert werden. Der soziale Sta-
tus von Mutter und Vater sind latente Variablen, die nicht direkt beobachtbar (messbar)
sind. Sie müssen ihrerseits mittels zusätzlicher Variablen – bspw. berufliche Stellung, Ein-
kommen und Ausbildung – erfasst werden. Abb. 1.2 stellt insoweit eine Vereinfachung dar
und ist noch zu ergänzen.
Die Analyse kausaler Beziehungen im Rahmen eines SEM basiert auf den folgenden
drei Annahmen (Schumacker und Lomax 2016, S. 48):
• X geht Y zeitlich voraus

• Es existiert eine Korrelation bzw. Kovarianz zwischen X und Y
• Alle anderen mögliche Ursachen werden im Modell berücksichtigt (kontrolliert). Es
wirkt also keine dritte Variable Z ebenfalls auf Y ein.
Diese Annahmen unterschieden sich nicht von den üblichen Prämissen und sind bereits
oben erörtert worden. Sie sind – wie immer bei Beobachtungsdaten – häufig fraglich. In-
soweit bleibt offen, ob im Rahmen von SEM kausale Wirkungen identifizierbar sind. In
den komplexen makroökonomischen Strukturgleichungsmodellen der Ökonometrie hat
dies bereits Lucas 1976 in Frage gestellt. Diese sogenannte Lucas-Kritik basiert auf der
Theorie rationaler Erwartungen: „Given that the structure of an econometric model con-
sists of optimal decision rules of economic agents, and that optimal decision rules vary
systematically with changes in the structure of series relevant to the decision maker, it
follows that any change in policy will systematically alter the structure of econometric
models“ (Lucas 1976, S. 41). Dies lässt sich erweitern auf alle Zusammenhänge in kom-
plexen sozialwissenschaftlichen Modellen. Die den geschätzten Regressionskoeffizienten
zugrundeliegenden menschlichen Verhaltensweisen können sich aufgrund eines Treat-
ment, das einen bestimmten Effekt bewirken soll, verändern. Die geschätzten Zusammen-
hänge sind dann nicht mehr stabil. Diese Schwierigkeiten treten auch in Form der bereits
oben beschriebenen allgemeinen Gleichgewichtseffekte (Makroeffekte) auf.
Pearl et al. (2016, S. 80–81) und Freedman (2012, S. 91–114) halten dagegen die
Schätzungen von Strukturgleichungen für einen geeigneten Ansatz zur Identifikation kau-
saler Beziehungen. Allerdings muss dazu eine Reihe von weiteren Bedingungen erfüllt
sein. Insofern ist nicht sicher, ob Probleme wie Reverse Causality, Simultaneity und
Self-Selection mittels SEM erfasst werden können. Dies gilt bspw. bei schnellen Wechsel-
wirkungen innerhalb (!) des Zeitraums auf den sich die Beobachtung bezieht (bspw. Jah-
resdaten). Dann ist prinzipiell die „Ursache“ im Sinne von „Ausgangspunkt“ nicht identi-
fizierbar. Gleiches gilt für psychologische Aspekte, die simultan auftreten – etwa bei
Depression und geringem Selbstwertgefühl (Brüderl und Ludwig 2019).
Solche Strukturgleichungsmodelle mit latenten Variablen sind nochmals erheblich fle-
xibler (komplexer) als die bisher (und auch im Folgenden) behandelten Regressionsmo-
delle. In einem konkreten Datensatz kann damit (fast) immer eine bestimmte Struktur
„entdeckt“ werden, die anschließend kausal interpretiert wird. Alle hier aufgeführten Pro-
bleme kausaler Interpretationen gelten uneingeschränkt auch für diese Modelle. So war-
nen Brüderl und Ludwig (2019, S. 294) explizit vor der Beliebigkeit der Resultate der
SEM. Auch wenn diese auf der Basis von Paneldaten und komplexeren Schätzmethoden
erfolgen, die bspw. Antizipationseffekte und verzögerte Wirkungen (solche sogenannten
Leads und Lags erläutert Kap. 2) einbeziehen.
Eine übersichtliche und aktuelle Darstellung der Geschichte, Methoden und unter-
schiedlichen Positionen zur Interpretation von SEM vermittelt Tarka (2018). Pearl (2009)
und Homburg et al. (2014) geben einen Überblick mit einer Reihe von praktischen An-
wendungen. Kap. 5 beschreibt in kurzer Form die prinzipielle Vorgehensweise mittels
SPSS und Stata. Es beschränkt sich dabei aber auf die Verwendung zur Schätzung von
fehlenden Werten (Missing Values) in Datensätzen.
1.3.5 Fazit: Kausale Identifikation oder Fiktion?
Generell ist erstens festzuhalten, dass Korrelation und kausale Wirkung zwei völlig ver-
schiedene Dinge sind. Sicher ist lediglich, dass eine gerichtete Korrelation (d. h. ein signi-
fikanter und relevanter Regressionskoeffizient) eine notwendige, aber eben keine hinrei-
chende Bedingung für eine kausale Wirkung darstellt. Zweitens ist unstrittig, dass kausale
Zusammenhänge auf der Basis von nicht experimentellen Daten nur sehr schwer identifi-
zierbar sind. Dies, weil ein bestimmter Datensatz immer mit mehreren konkurrierenden
Theorien kompatibel ist. Ronald Fisher (1890–1962), ein bedeutender Statistiker des 20.
Jh., konstatiert dazu: „If … we choose a group of social phenomena with no antecedent
knowledge of the causation or absence of causation among them, then the calculation of
correlation coefficients, total or partial, will not advance us a step towards evaluating the
importance of the causes at work.“ (Fisher 1950, S. 190). Fisher hat in einem eigenständi-
gen Lehrbuch das Design randomisierter kontrollierter Experimente, das notwendig ist,
um kausale Wirkungen zu identifizieren, bereits 1935 erläutert (Fisher 1935).
Das Rubin-Neyman-Kausalmodell ist prinzipiell am überzeugendsten. In den obigen

Beispielen (Störche – Urbanisierung – Geburten, F&E-Mitarbeiter – Patente, Altenheim –
Pflegebedürftigkeit – Tod) lassen sich (fehlende) kausale Wirkungen durch gezielte Inter-
ventionen in einem geeigneten RCT überprüfen. Verschiedene praktische Grenzen dieses
Verfahrens sind oben erläutert worden. Außerdem ist deutlich geworden, dass auch das
Rubin-Neyman-Modell auf bestimmten Annahmen bzw. Voraussetzungen basiert. Offen
ist, ob und inwieweit Verfahren wie die Granger-Kausalität und Strukturgleichungsmo-
delle ebenfalls in der Lage sind, kausale Wirkungen nachzuweisen. Alle einschlägigen
Methoden beruhen auf bestimmten Annahmen. Deren Gültigkeit hängt jeweils von den
Umständen der konkreten empirischen Studie ab.
Einen einführenden Überblick verschafft Rosenbaum (2017). Eine hervorragende Er-
läuterung des Rubin-Kausalmodells ohne mathematischen Aufwand und anhand prakti-
scher Anwendungen geben Angrist und Pischke (2015). Weiterführende Texte, die zusam-
men die verschiedenen Ansätze behandeln, sind Freedman (2005); Pearl und Mackenzie
(2018) und Morgan und Winship (2015) sowie die Beiträge im Sammelband von Berzuini
et al. (2012). Grundsätzliche Diskussionen zur Frage der Identifizierung kausaler Bezie-
hungen im Rahmen der genannten Ansätze finden sich bei Athey und Imbens (2017) und
Steyer (2019).
1.4 Prognosemodelle und Klassifikationsmodelle
Ein wichtiges praktisches Anwendungsgebiet der Regressionsanalyse sind Prognosen.

Prognosen unterscheiden sich in einem wichtigen Punkt von den bisher behandelten An-
sätzen und Verfahren. Prognosemodelle sind nützlich, wenn sie die möglichst exakte Vor
hersage zukünftiger Entwicklungen erlauben. Sie sind nicht notwendigerweise darauf
ausgerichtet, eine kausale Wirkung zwischen Variablen zu identifizieren. Wenn bei einem
Blick auf die Straße, direkt nachdem man am Morgen aufgestanden ist, viele Passanten
mit einem Regenschirm unter dem Arm sichtbar sind, ermöglicht diese Information eine
gute Prognose der Regenwahrscheinlichkeit an diesem Tag. Dies, obwohl natürlich die
Regenschirme den Regen nicht verursachen. Die Zahl der Regenschirme, die wir auf der
Straße beobachten, ist aber ein guter Prädiktor für das Auftreten von Regen an diesem Tag.
Insbesondere in der Medizin sind Prädiktoren von großer Wichtigkeit. Die Therapie
eines Arztes, die nach der Diagnose, dass es sich um Windpocken handelt, darin besteht,
die Pusteln aus der Haut des Patienten herauszuschneiden, ist hochgradig absurd. Die
Symptome einer Krankheit (bspw. bei Windpocken die Pusteln) sind nicht die Ursache.
Aber natürlich ist die richtige Identifikation der Symptome extrem wertvoll, weil so ers-
tens der weitere Krankheitsverlauf prognostizierbar ist und zweitens darauf basierend
frühzeitig geeignete Gegenmaßnahmen zu Behandlung ergriffen werden können. Bei-
spiele aus der Ökonomie sind etwa in der Volkswirtschaftslehre vorlaufende Konjunktur
indikatoren oder Prognosemodelle des Käuferverhaltens in der Betriebswirtschaft.
1.5 Ausblick: Data Mining, Big Data und Deep Learning 21
Regressionen, die für Prognosen benutzt werden, erfordern deutlich weniger Vorausset-
zungen. Probleme wie der Omitted Variable Bias (unbeobachtete Heterogenität) und die
Selbstselektion sind irrelevant. Die Koeffizienten müssen wir nicht – und können wir auch
nicht – als Ursache-Wirkungs-Zusammenhänge interpretieren. Die richtige Spezifikation
der Regressionsgleichung tritt in ihrer Bedeutung in den Hintergrund. Die Analyse kon-
zentriert sich darauf, den Modellfit (gemessen bspw. am Determinationskoeffizienten)
bzw. die Prognosegüte zu maximieren. Kap. 2 geht kurz und Kap. 3 etwas ausführlicher
darauf ein.
Klassifikationsmodelle sind eine Variante von Prognosemodellen. Beispiele sind Algo-
rithmen zur Identifizierung von Spammails oder zur Ermittlung möglicher m issbräuchlicher
Verwendungen von Kreditkarten. Werden diese mit hoher Wahrscheinlichkeit herausgefil-
tert, ist dies praktisch nützlich und die Frage, warum dies so ist, (u. U.) zweitrangig.
Die hohe Prognosefähigkeit sollte nicht darüber hinwegtäuschen, dass wir bei solchen
Verfahren immer dem Problem des Overfitting ausgesetzt sind und dass die identifizierten
Prädiktoren eben nicht verändert werden können, um so eine bestimmte Wirkung zu erzie-
len. Wenn wir Hunderttausende von Zeitreihen mittels komplexer multivariater ARIMA-
Modelle analysieren (siehe dazu Kap. 3), wird mit Sicherheit auch ein positiver Zusam-
menhang irgendeiner von zehntausend Variablen (bspw. X6975) mit dem Aktienkurs
irgendeines von 500 Unternehmen (bspw. Y177) entdeckt (selbst wenn beide stationär sind).
Es liegt dann nahe, die Variable X6975 zu erhöhen, um die Entwicklung von Y177 positiv zu
beeinflussen. Falls Y177 der Aktienkurs von Ford Motors seit dem Jahr 1923 ist und X6975
die Veränderung der Population des tasmanischen Beutelwolfs in diesem Zeitraum, ist
dies nicht möglich und auch offensichtlich unsinnig. Aber häufig kann man solchen zufäl-
lig signifikanten Korrelationen eine plausible Erklärung überstülpen. Das Resultat sind
falsche Schlussfolgerungen und unwirksame oder sogar kontraproduktive (wirtschafts‑)
politische Eingriffe.
1.5 Ausblick: Data Mining, Big Data und Deep Learning
Statistische Verfahren basieren alle auf Informationen in Gestalt von Daten. Diese Daten
treten in der Form von Zahlen auf. Allerdings ist uns bereits geläufig, dass qualitative Va-
riablen (mit nominalem oder ordinalem Skalenniveau) – bspw. als Dummyvariablen –
ohne Schwierigkeiten in Zahlenwerte verwandelt und so in eine Regression aufgenommen
werden können. Wie ist das aber hinsichtlich Informationen, die als Texte oder Bilder
vorliegen? Auch diese sind letztlich auf digitaler Ebene als binäre 0-1-Werte kodiert. Das
heißt, sie liegen als Zahlenwerte vor. Worte wie „Arbeitslos“, „Studium“ oder „Frau“ sind
spezifische Kombinationen solcher 0-1-Werte. Gleiches gilt entsprechen modifiziert auch
für Pixel eines Bildes. Das Bild eines Menschen weist ebenfalls eine bestimmte Kombina-
tion solcher 0-1- Werte auf. Dies ergibt sich bspw. auf Grund der allen Menschen gemein-
samen Anordnung von Mund, Nase, zwei Augen und zwei Ohren innerhalb eines runden
bis ovalen (jedenfalls nicht exakt rechteckigen oder kreisrunden) Gesichts. Damit ist aber
offensichtlich, dass jeder Text (jeder Sprache) und letztlich jedes Gesicht (jedes Men-
schen) eine spezifische Struktur bzw. ein spezifisches Muster besitzt. Die dahinter stehen-
den Datenkombinationen sind genauso wie die Datenwerte einer Konsumentenumfrage
oder die Zahlenreihe der Entwicklung des Aktienkurses der BMW-Aktie statistisch ana-
lysierbar.
Data Mining, Big Data, Machine Learning, Deep Learning, Künstliche Intelligenz (KI
bzw. Artificial Intelligence AI), Predictive Analytics usw. gehen genauso vor. Sie suchen
Strukturen bzw. Muster, die uns in der Oberfläche als Zahlen, Texte oder Bilder begeg-
nen – allerdings in der Regel in gigantischen Datenmengen. Was erst möglich ist, seitdem
erstens entsprechend leistungsfähige Rechner und komplexe Algorithmen existieren und
zweitens solche enormen Datenmengen ohne große Kosten verfügbar sind. Letzteres war
ansatzweise seit der Einführung von Scannerkassen im Einzelhandel und Datenübertra-
gung mittels Telekommunikationsverbindungen realisierbar und ist durch die Vernetzung
und Sammlung von Daten im Internet allgemein umsetzbar geworden.
Es ist aber festzuhalten, dass die Ansätze und Verfahren lediglich explorativen Charak-
ter haben bzw. als (sehr) leistungsfähige Prognoseverfahren einsetzbar sind. Kausale Ab-
hängigkeiten sind mit ihnen nicht zu identifizieren. Zum Teil schon deshalb, weil sie einen
Black-Box-Charakter besitzen, d. h. (bspw. bei neuronalen Netzen) für den Anwender
völlig unklar bleibt, warum die Prognose so oder so ausfällt. Die Vorstellung, dass Big-
Data-Verfahren das Ende der Theorie sind und in Zukunft die Lösung aller relevanten
Probleme rein datenbasiert möglich sein wird, ist illusorisch: Daten alleine sind dumm!
(Athey und Imbens 2017; Pearl und Mackenzie 2018).
Viele der Methoden, die in diesem Zusammenhang eingesetzt werden, sind Anwendun-
gen und Erweiterungen von Regressionsverfahren. Sie unterscheiden sich von der klassi-
schen Regression vor allem unter zwei Aspekten. Zunächst verzichten sie bewusst und
offen auf alle Formen von Hypothesen zu möglichen Zusammenhängen und kommen da-
her ohne jede inhaltliche Theorie aus, während bei SEM noch die Formulierung eines
Modells stattfindet. Zweitens wird bei der Spezifikation prinzipiell lediglich die Bezie-
hung der Gl. (1.3) vorgegeben.
Y = f ( X1 , X 2 , ¼X n ) + e (1.3)

Wie der funktionale Zusammenhang der unabhängigen Variablen X1, X2 usw. mit der
abhängigen Variablen Y aussieht, bleibt offen. Es wird dem jeweiligen Algorithmus über-
lassen, einen „besten“ Modellfit zu berechnen. Dazu existieren sehr flexible Möglichkei-
ten im Rahmen von Regression Splines oder der Kernel-Regression. Solche Verfahren der
nicht parametrischen Regression werden im Folgenden nicht behandelt.
Berk (2017) verdeutlicht, dass viele der Methoden, die unter dem Begriff Big Data
subsumiert werden, auf Regressionen beruhen. Consultantunternehmen verkaufen Big-
Data-Anwendungen an ihre Kunden mit einer nett und benutzerfreundlich aufgemachten
Oberfläche. Häufig handelt es sich um Regressionsverfahren wie bspw. die im Kap. 2 be-
1.6 Übungsaufgaben 23
handelte logistische Regression oder eine Zeitreihenanalyse entsprechend Kap. 3. Die da-
hinter stehenden Verfahren werden von den Beratungsunternehmen bestenfalls grob be-
schrieben und bleiben im Detail Geschäftsgeheimnis. Als Konsequenz sind die Ergebnisse
nicht überprüfbar und der Nutzer muss an die Resultate glauben. Unter der Oberfläche
dieser Softwaretools werden im Hintergrund die statistischen Analysen mit Stata, SPSS,
SAS oder den frei verfügbaren Statistikprogrammpaketen R und Phyton durchgeführt.
1.6 Übungsaufgaben
Übung 1.1: Tempolimit auf Autobahnen

Erläutern Sie, ob und inwieweit in einem kontrollierten Zufallsexperiment der Nutzen ei-
nes Tempolimits auf deutschen Autobahnen geklärt werden könnte.
Übung 1.2: Wählerverhalten

In einer Untersuchung zu den Ursachen des Wahlerfolgs von Donald Trump bei den
US-Präsidentenwahlen im Jahr 2016 wird festgestellt, dass der Stimmenanteil für Trump
in den Landkreisen (Counties) wächst, je größer der Anteil der farbigen Bevölkerung ist.
Welche Schlussfolgerungen ergeben sich daraus hinsichtlich der Stimmenabgabe der wei-
ßen und nicht weißen Wähler?
Übung 1.3: Akkreditierung von Studiengängen

Studiengänge in Deutschland sollen akkreditiert sein. Die Akkreditierung zielt darauf ab,
die Qualität eines Studiengangs nachzuweisen. In einer Umfrage unter Studienanfängern
der BWL an der Hochschule Stockelsdorf zeigt sich, dass 98 % der Studierenden nicht
wissen, was die Akkreditierung eines Studiengangs ist. Der Studiengang ist bisher nicht
akkreditiert und der Fachbereich diskutiert darüber, ob ein kostenintensive Akkreditierung
durchgeführt werden soll. Hintergrund ist, dass der Fachbereich mehr Erstsemester imma-
trikulieren möchte. Welche Schlüsse sind dafür aus dem Umfrageresultat abzuleiten?
Übung 1.4: Würstchenparadox

In einem Raum liegen 8 Frankfurter Würstchen und 2 Eier auf dem Boden. Das heißt,
20 % der Lebensmittel sind Eier. In der Nacht schleicht sich ein Ihnen unbekanntes Tier in
den Raum. Am nächsten Tag teilt Ihnen der Hausmeister mit, dass der Anteil der Eier auf
50 % gestiegen ist. Um welches Tier könnte es sich gehandelt haben?
Übung 1.5: Einflussfaktoren auf die Entscheidung, zu studieren

Erläutern und diskutieren Sie die inhaltlichen Zusammenhänge und Annahmen des Struk-
turgleichungsmodells der Abb. 2.1. Gehen Sie dabei davon aus, dass die Untersuchung
sich auf eine Stichprobe von über 60-Jährigen in Deutschland bezieht.
Übung 1.6: Kausale Effekte der Farbe eines Pkw

Eine umfangreiche empirische Untersuchung zu den Ursachen von Verkehrsunfällen mit
Pkw in Deutschland kommt zu dem Ergebnis, dass Pkw mit der Farbe Rot häufiger in
Unfälle involviert sind als Pkw mit anderen Farben. Dieser Zusammenhang ist statistisch
signifikant und von der Größenordnung her relevant. Es gilt außerdem, dass dies über
Jahre hinweg immer wieder festzustellen ist. Wie ist dieser Zusammenhang inhaltlich zu
erklären? Inwiefern müssen kausale Einflüsse vorliegen, um Handlungsempfehlungen da-
raus abzuleiten?
1.7 Lösungen
Lösung 1.1
Vorab muss klar definiert werden, wie der Nutzen (der Outcome) gemessen werden soll.
Mögliche Kriterien sind die Zahl der Verkehrstoten, der Schwerverletzten, aber auch ein-
fach alle Unfälle (wenn bspw. Auswirkungen auf die CO2-Emissionen nicht einbezogen
werden). Für das Experiment muss dann eine Auswahl möglichst ähnlicher Autobahnab-
schnitte (Matching Pairs) erfolgen. Für diese ist (bzw. sind) die Outcome-Variable(n) vor
und nach der Einführung eines Tempolimits für beide Gruppen (Treatment- und Kontroll-
gruppe) zu ermitteln. Ergänzend ist es sinnvoll (und möglich), Informationen zumindest
zu den Witterungsverhältnissen und der Verkehrsdichte zu erheben, um deren Einflüsse zu
kontrollieren.
Eine besondere Schwierigkeit der Untersuchung besteht darin, dass tödliche Verkehrs-
unfälle ein sehr seltenes Ereignis sind. Eine statistisch tragfähige Aussage ist daher nur
möglich, wenn die Zahl der Autobahnabschnitte genügend groß ist (etwa 30 pro Gruppe)
und/oder der Zeitraum der Untersuchung lang genug ausfällt (bspw. 1–2 Jahre).
Lösung 1.2
Der Zusammenhang des Anteils der farbigen Bevölkerung mit den prozentual auf Trump
entfallenen Wählerstimmen lässt keine Rückschlüsse auf kausale Wirkungen zu. Die Re-
sultate auf der aggregierten Ebene der Counties sind mit unterschiedlichen Formen des
individuellen Wahlverhaltens vereinbar:
Eine Erklärung ist, dass in der weißen Bevölkerung mit zunehmendem Anteil farbiger
Einwohner die Angst vor Überfremdung zugenommen hat und deshalb tendenziell immer
mehr Weiße Trump ihre Stimme gegeben haben. Ein zunehmender Anteil farbiger Ein-
wohner könnte aber auch bedeuten, dass diese Trump gewählt haben, etwa weil sie ihre
Arbeitsplätze durch chinesische Produzenten bedroht sahen.
Lösung 1.3
Eine mögliche Interpretation ist, dass die Akkreditierung tatsächlich bei 98 % aller Bewer-
ber um einen Studienplatz in Deutschland unbekannt ist. Dies trifft zu, wenn die befragten
Erstsemester eine repräsentative Stichprobe aller Studienplatzbewerber darstellen. Unter
1.7 Lösungen 25
diesen Umständen wäre eine Akkreditierung weitgehend nutzlos, um die Zahl der Imma
trikulationen zu erhöhen.
Eine andere Erklärung ist, dass die befragten Studierenden diejenigen sind, die sich um
die Akkreditierung (unvorsichtigerweise) nicht gekümmert haben. Also (fast) nur Erstse-
mester in Stockelsdorf anzutreffen sind, die sich eben dadurch von anderen Studienplatz-
bewerbern unterscheiden, dass die Akkreditierung ihnen unbekannt ist. Es liegt also eine
Art der Selbstselektion vor. In diesem Fall wäre eine Akkreditierung ggf. genau die Maß-
nahme, die notwendig ist, um mehr Erstsemester anzuziehen.
Lösung 1.4
Naheliegende Antwort ist ein (eierlegendes) Huhn. Ebenso denkbar ist aber ein Fuchs, der
vier der Würstchen gefressen hat.
Lösung 1.5
Der höchste Schulabschluss der Befragten hängt (stark) vom Schulabschluss des Vaters
und der Mutter ab, dabei in dieser Altersgruppe eventuell stärker vom Schulabschluss des
Vaters. Relevant ist außerdem das Geschlecht, da vor über 40 Jahren noch weniger Frauen
einen höheren Schulabschluss absolviert haben. Auch der örtliche Zugang zu höheren
Schulen war früher schwieriger, also ist ein positiver Einfluss der Variablen „Stadt“ plau-
sibel. Voraussetzung für ein Studium war früher die (Fach-)Hochschulreife, also das
(Fach-)Abitur. Das Modell besagt aber, dass es nicht mehr vom Geschlecht und Wohnort
abhängt, ob anschließend studiert wird. Dies wird dagegen von der sozialen Stellung der
Eltern beeinflusst.
Kritische Einwände sind zum Beispiel: Ist eventuell auch die Ausbildung der Eltern
entscheidend für ein Studium? Existiert ein Unterschied zwischen den alten und neuen
Bundesländern? Hierfür spricht, dass es erstens insgesamt weniger Studierende in der
DDR gab, aber zweitens ein höherer Anteil an Studentinnen existierte.
Lösung 1.6
Zumindest drei mögliche inhaltliche Erklärungen sind denkbar. Erstens könnten rote Pkw
im Straßenverkehr aus physiologischen Gründen von den anderen Verkehrsteilnehmern
hinsichtlich ihrer Bewegungsrichtung oder Geschwindigkeit schlechter wahrgenommen
werden. Zweitens ist es möglich, dass die Besitzer roter Pkw gerne besonders viel mit
ihrem Pkw unterwegs sind. Eine dritte Erklärung ist, dass rücksichtslose und draufgänge-
rische Pkw-Besitzer rot als Farbe ihres Pkw bevorzugen (Pearl und Mackenzie 2018).
Diese drei inhaltlich plausiblen Theorien zur Erklärung des empirischen Ergebnisses
haben unterschiedliche praktische Konsequenzen. Wenn man sich einen Pkw kauft – und
nicht darauf erpicht ist, in Unfälle verwickelt zu werden – legt die erste Erklärung nahe,
auf jeden Fall keinen Pkw roter Farbe zu erstehen. Sind dagegen die zweite oder dritte
Erklärung richtig, macht dies keinen Sinn. Das heißt, um zu wissen, welche Änderungen
des Handelns notwendig sind, um ein gewünschtes Resultat zu erzielen, ist es in der Regel
notwendig, die kausalen Wirkungen zu kennen.
Um die Zahl der Unfälle zu prognostizieren – bspw. für einen Kfz-Versicherer eine
relevante Information – spielt es dagegen keine Rolle, welche der drei möglichen Erklä-
rungen im kausalen Sinn zutrifft.
Literatur
Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics, an empiricist’s companion.
Princeton: Princeton University Press.
Angrist, J. D., & Pischke, J.-S. (2015). Mastering metrics, the path from cause to effect. Princeton:
Princeton University Press.
Athey, S., & Imbens, A. (2017). The state of applied econometrics: Causality and policy evaluation.
Journal of Economic Perspectives, 31(2), 3–32.
Atteslander, P. (2010). Methoden der empirischen Sozialforschung (13. Aufl.). Berlin: Erich
Schmidt.
Baltagi, B. H. (2013). Econometric analysis of panel data (5. Aufl.). Chichester: Wiley.
Banerjee, A., & Duflo, E. (2011). Poor economics: A radical rethinking of the way to fight global
poverty. New York: Public Affairs.
Baron, J. H. (2009). Sailors’ scurvy before and after James Lind – A reassessment. Nutrition Re-
views, 67(6), 315–332. https://doi.org/10.1111/j.1753-4887.2009.00205.x.
Behrens, J. T. (1997). Principles and procedures of exploratory data analysis. Psychological Me-
thods, 2(2), 131–160.
Berk, R. A. (2017). Statistical learning from a regression perspective (2. Aufl.). Cham: Springer.
Berzuini, C., Dawid, P., & Bernardinell, L. (Hrsg.). (2012). Causality: Statistical perspectives and
applications. Hoboken: Wiley.
Brüderl, J., & Ludwig, V. (2019). Applied panel data analysis using Stata. https://www.ls3.soziolo-
gie.uni-muenchen.de/studium-lehre/archiv/teaching-marterials/panel-analysis_april-2019.pdf.
Zugegriffen am 20.12.2019.
Cattaneo, M. D., & Escanciano, J. C. (Hrsg.). (2017). Regression discontinuity designs, theory and
applications. Bingley: Emerald Publishing.
Cleff, T. (2015). Deskriptive Statistik und Explorative Datenanalyse: Eine computergestützte Ein-
führung mit Excel, SPSS und STATA (3. Aufl.). Wiesbaden: Springer Gabler.
Clougherty, J. A., Duso, T., & Muck, J. (2016). Correcting for self-selection based endogeneity in
management research: Review, recommendations and simulations. Organizational Research Me-
thods, 19(2), 286–347.
Cochrane. (2020). https://www.cochrane.org/; https://www.cochrane.de/de. Zugegriffen am
02.01.2020.
Drukker, D. M. (2016, September 8 & 9). Estimating treatment effects from observational data using
teffects, sttefects, and eteffects. UK Stata Users Group meeting, London. https://www.stata.com/
meeting/uk16/slides/drukker_uk16.pdf. Zugegriffen am 10.11.2019.
Duflo, E. (2010). https://www.ted.com/talks/esther_duflo_social_experiments_to_fight_pover-
ty#t-101224. Zugegriffen am 18.12.2019.
Dunning, T. (2012). Natural experiments in the social sciences: A design-based approach. Cam-
bridge: Cambridge University Press.
Eichler, M. (2012). Causal inference in time series analysis. In C. Berzuini, P. Dawid & L. Bernar-
dinell (Hrsg.), Causality: Statistical perspectives and applications (S. 327–352). Hoboken.
Fisher, R. A. (1935). The design of experiments. Edinburgh: Oliver & Boyd.
Fisher, R. A. (1950). Statistical methods for research workers. London: Oliver & Boyd.
Literatur 27
Freedman, D. A. (2005). Statistical models for causation. https://www.stat.berkeley.edu/~census/651.

pdf. Zugegriffen am 05.09.2019.
Freedman, D. A. (2012). Statistical models, theory and practice (Revised Aufl., 7th printing). Cam-
bridge Cambridge University Press.
Granger, C. W. J. (1969). Investigating causal relations by econometric models and cross-spectral
methods. Econometrica, 37(3), 424–438. https://doi.org/10.2307/1912791.
Guo, S., & Fraser, M. W. (2015). Propensity score analysis, statistical methods and applications.
Los Angeles: Sage Publications.
Homburg, C., Pflesser, C., & Klarmann, M. (2014). Strukturgleichungsmodelle mit latenten Varia
blen: Kausalanalyse. In C. Homburg, A. Herrmann & M. Klarmann (Hrsg.), Handbuch Marktfor-
schung (3. Aufl., S. 547–578). Wiesbaden: Springer.
Hume, D. (1748). An Enquiry Concerning Human Understanding. https://en.wikisource.org/wiki/
An_Enquiry_Concerning_Human_Understanding. Zugegriffen am 20.09.2019.
Imbens, G. W., & Rubin, D. B. (2015). Causal inference for statistics, social, and biomedical scien-
ces: An introduction. Cambridge: Cambridge University Press.
Kirchgässner, G., Wolters, J., & Hassler, U. (2014). Introduction to modern time series analysis
(2. Aufl.). Berlin/Heidelberg: Springer.
Lucas, R. (1976). Econometric policy evaluation: A critique. In K. Brunner & A. Meltzer (Hrsg.),
The Phillips curve and labor markets (Carnegie-Rochester conference series on public policy 1,
S. 19–46). New York: Elsevier Science.
McClelland, D. C. (1961). The achieving society. Princeton (Deutsche Übersetzung: D. C. McClel-
land. (1966). Die Leistungsgesellschaft. Stuttgart: Kohlhammer).
Mill, J. S. (1882). A system of logic, ratiocinative and inductive, being a connected view of the prin-
ciples of evidence, and the methods of scientific investigation (8. Aufl.). New York. https://www.
gutenberg.org/files/27942/27942-pdf.pdf. Zugegriffen am 20.11.2019.
Morgan, S. L., & Winship, C. (2015). Counterfactuals and causal inference: Methods and principles
for social research (Analytical methods for social research, 2. Aufl.). New York: Cambridge
University Press.
Pearl, J. (2009). Causality: Models, reasoning, and inference (2. Aufl.). Cambridge/New York/Mel-
bourne: Cambridge University Press.
Pearl, J., & Mackenzie, D. (2018). The book of why: The new science of cause and effect. New York:
Basic Books.
Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal inference in statistics. Chichester: Wiley.
Rosenbaum, P. R. (2017). Observation and experiment: An introduction to causal inference. Cam-
bridge, MA.
Schumacker, R. E., & Lomax, R. G. (2016). A beginner’s guide to structural equation modeling
(4. Aufl.). London: Lawrence Erlbaum Assoc.
Steyer, R. (2019). Probability and causality, conditional and average total effects. Version: Septem-
ber 5, 2019. https://www.metheval.uni-jena.de/projekte/book_causal-effects/readings.php. Zu-
gegriffen am 10.12.2019.
Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics, Updated 3rd ed. (Global Edi-
tion). Amsterdam: Pearson Education.
Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung, Eine
nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer.
Tan, P.-N., Steinbach, M., Karpatne, A., & Kumar, V. (2019). Introduction to data mining (2. Aufl.).
New York Pearson Education.
Tarka, P. (2018). An overview of structural equation modeling: Its beginnings, historical develop-
ment, usefulness and controversies in the social sciences. Quality & Quantity, 52(1), 313–354.
https://doi.org/10.1007/s11135-017-0469-8.
Thomas, D. P. (1997). Sailors, scurvy and science. Journal of the Royal Society of Medicine,
90, 50–54.
Tukey, J. W. (1977). Exploratory data analysis. Reading: Pearson.
Tukey, J. W. (1980). We need both exploratory and confirmatory. The American Statistician,
34, 23–25.
Winship, C., & Morgan, S. L. (1999). The estimation of causal effects from observational data. An-
nual Review of Sociology, 25, 659–706.
Wissenschaftlicher Beirat BMWi. (2013). Evaluierung wirtschaftspolitischer Fördermaßnahmen als
Element einer evidenzbasierten Wirtschaftspolitik. Gutachten des Wissenschaftlichen Beirats
beim Bundesministerium für Wirtschaft und Energie.
Wissenschaftlicher Beirat BMWi. (2019). Moderne Wirtschaftspolitik braucht Evaluierung. Offener
Brief des Wissenschaftlichen Beirats beim Bundesministerium für Wirtschaft und Energie.
https://www.bmwi.de/Redaktion/DE/Downloads/Wissenschaftlicher-Beirat/brief-moderne-wirt-
schaftspolitik-braucht-evaluierung.pdf?__blob=publicationFile&v=4. Zugegriffen am 07.01.2020.
Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: South
Western Education.
Abhängige Variablen mit begrenztem
Wertebereich 2
Lernziele
• erklären können, wie Ereignisse oder Entscheidungen mit zwei Alternativen hin-
sichtlich ihrer Einflussfaktoren untersucht werden,
• wissen, warum die Schätzung einer linearen Regression nur bedingt geeignet ist,
dichotome Entscheidungen abzubilden,
• in der Lage sein, eine Probit- und eine Logit-Analyse durchzuführen und zu in-
terpretieren,
• den Likelihood-Ratio-Test anwenden können,
• spezielle Probleme der logistischen Regression wie vollständige Separierung und
fehlende Zellenbesetzung kennen,
• überblicken, wann es sich bei der abhängigen Variable um eine Zählvariable
(Count Variable) handelt und welches Schätzverfahren dann anzuwenden ist,
• erkennen, wann eine Ordered-Logit-Regression die geeignete Schätzmethode
darstellt,
• das Prinzip der Maximum-Likelihood-Schätzung erklären können,
• verstehen, welche Anwendungsmöglichkeiten für multinomiale Regressionsver-
fahren existieren,
• verschiedene Tests und Methoden zur Überprüfung der Annahmen logistischer
Regressionen beherrschen.
cc Wichtige Grundbegriffe Kategoriale Variable, Logistische Regression, Probit-Ana-

lyse, Logit, Chancenverhältnis, Odds Ratio, Pseudo-R2-Werte, Ordered Logit und Probit,
Multinomiales Modell, Maximum-Likelihood-Schätzung, Zählvariablen, Count Data

30 2 Abhängige Variablen mit begrenztem Wertebereich
2.1 Überblick
In der Regressionsanalyse sind uns bisher nur metrisch skalierte abhängige Variable be-
gegnet. In vielen Anwendungsfällen besteht das Ergebnis (Outcome, Response) eines
Daten generierenden Prozesses aber lediglich aus zwei oder mehr Zuständen (Katego-
rien). Begrenzte abhängige Variablen (Limited Dependent Variables) existieren immer
dann, wenn die abhängige (endogene) Variable in einem Bereich liegt, der nur ganz be-
stimmte Werte annimmt. Abschn. 2.2 gibt eine Übersicht der verschiedenen Formen sol-
cher Limited Dependent Variables. Die Untersuchung abhängiger Variablen mit lediglich
zwei Ausprägungen ist in der empirischen Forschung häufig anzutreffen. Abschn. 2.3 er-
läutert daher diesen Fall ausführlicher anhand eines praktischen Beispiels. Anschließend
geht Abschn. 2.4 kurz auf ordinale und multinomiale sowie Zählvariablen und spezielle
Arten von beschränkten abhängigen Variablen ein. Abschn. 2.5 erläutert Schritt für Schritt
die konkrete Durchführung einer binären logistischen Regression in SPSS und Stata.
2.2 Einführung
Das einfache Modell der linearen Regression unterstellt für die abhängige Variable prinzi-
piell einen unendlich großen, kontinuierlichen Wertebereich, bspw. bei einer Kostenfunk-
tion den gesamten Bereich der positiven Zahlen. Für die unabhängigen (exogenen) Varia
blen sind aber qualitative Einflussfaktoren, die nominal (kategorial bzw. ordinal) skaliert
sind, problemlos verwendbar. Diese werden als Dummyvariablen einbezogen und erwei-
tern die Analysemöglichkeiten der OLS-Regression erheblich. Analog liegt der klassische
Fall eines begrenzten Wertebereichs der abhängigen Variable vor, wenn diese nur in den
Ausprägungen Nein und Ja (0 und 1) vorkommt. Darüber hinaus existieren aber auch an-
dere Arten nicht metrisch skalierter abhängiger Variablen. Tab. 2.1 enthält eine Zusam-
menstellung der wichtigsten Formen. Es wird deutlich, dass für die verschiedensten Si
tuationen und Fragestellungen jeweils geeignete ökonometrische Analyseverfahren
existieren. Diese Modelle werden auch als Generalized Linear Models bezeichnet (Fox
2016, S. 370), da sie die lineare Regression mit metrisch skalierten abhängigen Variablen
als Spezialfall enthalten und verallgemeinern.
2.3 Logistische Regression (Logit-, Probit-Analyse)
2.3.1 Der Ansatz der logistischen Regression
Ökonomische und andere Entscheidungen bzw. Fragestellungen haben häufig den Cha-
rakter von Ja/Nein-Fällen, entweder wird die eine oder die andere Alternative gewählt
bzw. ein bestimmtes Merkmal liegt vor oder ist nicht vorhanden. Beispiele für die Vielfalt
2.3 Logistische Regression (Logit-, Probit-Analyse) 31
Tab. 2.1 Formen abhängiger Variablen mit begrenztem Wertebereich

Wertebereich der
abhängigen Variable Beispiel Bezeichnung Modelle
Nur zwei Werte: Eine Erwerbsperson ist Dichotome/binäre Logit-Modell,
0 und 1 arbeitslos oder hat einen Variablen/(Binary Probit-Modell,
Arbeitsplatz Response Models) Logistische
Regression
Mehrere Werte mit Ein Student wählt eines der Multinomiale Multinomial Logit,
nominalem folgenden Variablen Multinomial
Skalenniveau Transportmöglichkeiten für (Multinomial Probit,
den Weg zur Hochschule: Models) Conditional Logit
„Eigener Pkw“ „Fahrrad“,
„Öffentlicher Nahverkehr“,
„Mitfahrer“, „Sonstige“.
Mehrere Werte mit Der Absatzmarkt eines Ordinale Variablen Ordered Logit,
ordinaler Rangfolge Unternehmens umfasst „nur (Ordered Response Ordered Probit
Thüringen“, „nur Models)
Deutschland“, „Europa“,
„weltweit“.
Begrenzter Bereich Patentanmeldungen von Zählvariablen Poisson-
positiver ganzzahliger Unternehmen der optischen (Count Data Regression
Werte Industrie Models)
Viele Werte liegen an Zahl der jährlichen Corner-Solution Tobit-Modell
einer unteren oder Arbeitsstunden von Frauen in Models, Zero-
oberen Grenze: unselbstständigen inflated Models
bspw. 0 Beschäftigungsverhältnissen
Ein Teil des Zur Ermittlung des zensierte Daten Censored
Wertebereichs ist nicht Einkommens der Haushalte Regression Models
genau erfasst, sondern wird in einem Fragebogen auf
nur einer pauschalen die exakte Angabe der Höhe
Kategorie zugeordnet des Einkommens oberhalb
eines Grenzwertes von
70.000 € pro Jahr verzichtet.
Solche Haushalte werden
vereinfacht in die Kategorie
„>70.000 €“ aufgenommen.
Im Sample sind von In einer Untersuchung des trunkierte Daten Truncated
vornherein bestimmte Innovationsverhaltens werden Regression Models
Teile der Unternehmen mit weniger als
Grundgesamtheit nicht 10 Mitarbeitern nicht erfasst.
berücksichtigt Die Untersuchungsergebnisse
sollen aber für alle
Unternehmen gelten.
Übersicht 2.1: Anwendungsfälle der binär logistischen Regression

• Ein bei einem Patienten entdeckter Tumor ist bösartig oder es handelt sich um
eine gutartige Form.
• Ein neues Medikament zur Krebsbekämpfung bewirkt eine Rückbildung des Tu-
mors oder hat keinen Einfluss auf sein Wachstum und seine Verbreitung im Kör-
per des Patienten.
• Ein Studierender besitzt ein Apple iPhone oder ein Smartphone eines anderen
Herstellers.
• Ein Haushalt ist Mieter oder Eigentümer seiner Wohnung.
• Ein Unternehmen der Metall verarbeitenden Industrie verkauft seine Produkte
ins Ausland oder nicht.
• Ein Arbeitnehmer benutzt den eigenen Pkw, um zur Arbeit zu gelangen, oder er
verwendet ein anderes Verkehrsmittel.
• Die Personalabteilung setzt Assessment-Center für die Personaleinstellung ein
oder nicht.
• Ein Kreditnehmer kommt seinen Zahlungsverpflichtungen nach oder es handelt
sich um einen Kreditausfall.
• Ein wahlberechtigter Bürger gehört bei der Bundestagswahl zu den Wählern der
FDP oder nicht.
• Ein Student wohnt in einer WG oder in einer eigenen Wohnung.
solcher dichotomen (zweiwertigen bzw. binären) Fragestellungen finden sich in Übersicht

2.1.1 Die Problemlagen ähneln einem anderen statistischen Verfahren, nämlich der Dis-
kriminanzanalyse. Die logistische Regression beruht aber auf weniger restriktiven Prä-
missen und besitzt daher einen breiteren Anwendungsbereich.2
Die zwei ersten Beispiele entstammen der medizinischen Forschung, in der die logisti-
sche Regression große Bedeutung hat. Sie verdeutlichen, dass dieses Schätzverfahren so-
wohl als Prognoseinstrument als auch für die Identifizierung kausaler Beziehungen rele-
vant ist. Ermitteln zu können, ob ein bösartiger oder ein gutartiger Tumor vorliegt, ist
wichtig, um eine geeignete Therapie festzulegen. Eine Bestrahlung ist wegen der erhebli-
chen Nebenwirkungen nur bei einem bösartigen Tumor sinnvoll. Hier kommt es darauf an,
möglichst eine richtige Prognose zu erstellen. Ob die unabhängigen Variablen kausale
Ursachen oder nur Symptome eines bösartigen Tumors sind, ist nebensächlich. Im zweiten
1
Die Namen in der Literatur variieren. Gängige andere Bezeichnungen – neben Logit- oder Pro-
bit-Analyse – sind bspw. Discrete Response Models, Dose Response Models, Dosis-Wir-
kungs-Modelle.
2
Die Diskriminanzanalyse wird daher in der empirischen Sozialforschung von der logistischen Re-
gression zunehmend verdrängt. Die Eingabe entsprechender Suchworte in Google Scholar erzielt im
Oktober 2019 fast doppelt so viele Treffer für die „logistische Regression“ im Vergleich zur „Dis-
kriminanzanalyse“.
Eigentümer 1
Mieter 0
800 4000 X
2000
Einkommen
Abb. 2.1 Lineare Schätzung einer binären abhängigen Variable
Fall geht es um die Zulassung eines neuen Medikaments. Hier ist die kausale Wirkung
der Einnahme des Medikaments als unabhängige Variable (d. h. des Treatment, der
Intervention) entscheidend. Medikamente sollten nur dann von der Krankenversicherung
bezahlt werden, wenn sie tatsächlich wirksam sind.
Die abhängige Variable Y hat in allen diesen Fällen nur zwei Ausprägungen, bspw.:
0 Haushaltmietet seine Wohnung
Y=

1 Haushaltist Eigentumer seiner Wohnung

Ob die eine oder andere Alternative vorliegt (bzw. welche Entscheidung der Haushalt
dazu getroffen hat), dürfte von einer Reihe von Faktoren abhängen. Einflussreich ist mit
großer Sicherheit das Einkommen als unabhängige Variable. Die Überlegung ist, dass ein
Privathaushalt eher bei einem hohen Einkommen (X) im Besitz einer eigenen Wohnung
(bzw. eines eigenen Hauses) ist. Andere Einflussfaktoren existieren, werden aber zunächst
der Einfachheit halber weggelassen.
Der Zusammenhang zwischen abhängiger und unabhängiger Variable könnte dann wie
im einfachen Modell der linearen Regression aufgefasst werden (wobei u der übliche Feh-
lerterm ist):
Y = b 0 + b1 X1 + u (2.1)
Die Beobachtungen für das Einkommen (X) und Miete (Y = 0) bzw. Eigentum (Y = 1)
sind in der Abb. 2.1 als dreieckige Punkte eingezeichnet. Es wird visuell deutlich, dass
Eigentümer häufiger Haushalte mit hohem Monatseinkommen sind, während Mieter eher
niedrige Einkommen aufweisen. Die Schätzung einer linearen Funktion, basierend auf den
abgebildeten Beobachtungspunkten mittels OLS-Verfahren, ist ebenfalls in Abb. 2.1 wie-
dergegeben.
Was besagt die eingezeichnete Regressionsgerade? Sie kann grundsätzlich wie aus der
einfachen linearen Regression bekannt interpretiert werden. Ist der Koeffizient einer un-
abhängigen Variable (hier des Einkommens) signifikant und positiv, erhöht die Zunahme
dieser Variable um eine Einheit die Häufigkeit der mit dem Wert 1 kodierten Kategorie. Im
Beispiel gibt der Koeffizient der Regressionsgerade in diesem Modell an, wie stark sich
die Ausprägung, Eigentümer einer Wohnung zu sein, erhöht, wenn das Einkommen um
eine Einheit steigt. Ist die Koeffizientenschätzung dagegen signifikant und negativ, ver-
ringert diese Variable die Häufigkeit des Wohneigentums. Dies wäre bspw. bei der Dum-
myvariable „Wohnort Großstadt mit mehr als 500 Tsd. Einwohnern“ plausibel.
Die Steigung dieser Geraden – der geschätzte Regressionskoeffizient – bedeutet, dass
mit steigendem Einkommen Haushalte vermehrt Eigentümer ihrer Wohnung sind und
nicht Mieter. Ein geschätzter Koeffizient von bspw. 0,72 ist darüber hinaus aber schlecht
interpretierbar. Denn zusätzliche 1000 Euro Monatseinkommen führen ja nicht dazu, dass
ein Haushalt im Durchschnitt zu einem größeren Teil also bspw. 22 Tage von den 30 Tagen
eines Monats in der eigenen Wohnung lebt in den restlichen 8 Tagen aber weiterhin zur
Miete. Es existiert also kein stetiger Übergang zwischen den beiden Kategorien einerseits
Mieter und andererseits Eigentümer.
Daher stellt sich die Frage, wie Werte für Ŷ zu interpretieren sind, die von 0 und 1
verschieden sind, da logisch und faktisch nur diese zwei Ausprägungen existieren. Die
Lösung besteht darin, die Existenz einer nicht direkt beobachtbaren Variable in Form der
Wahrscheinlichkeit, eine Wohnung zu besitzen, anzunehmen. Diese wird als latente Va-
riable bezeichnet und mit Y* abgekürzt. Dieses Modell erklärt also Y mittels Y*. Die
Beziehung zwischen Y und Y* kann wie folgt ausgedrückt werden:
1 falls Y∗ > 0, 5

Y=
0 falls Y∗ ≤ 0, 5

Das heißt, wenn die Wahrscheinlichkeit, Eigentümer zu sein, größer als 0,5 (50 %) ist,
gehört eine Beobachtung zur Gruppe der Eigentümer. Liegt diese Wahrscheinlichkeit un-
ter (bzw. genau bei) 0,5 (50 %) ist dieser Haushalt der Gruppe der Mieter zugeordnet. Eine
Wahrscheinlichkeit von 0,5 ist der üblicherweise gewählte Klassifikationsgrenzwert
(Trennwert, Cut-off Value).
Eine darauf basierende Schätzung wird als Lineares Wahrscheinlichkeitsmodell
(LPM – Linear Probability Model) bezeichnet. Die Wahrscheinlichkeit Y* bezieht sich
auf das mit dem Wert 1 kodierte Ereignis (Outcome) also P(Y = 1). Das LPM schätzt fol-
gende Gleichung:
Y∗ = b 0 + b1 X1 + u (2.2)
Der Koeffizient b1 ist wie üblich interpretierbar. Erhöht sich X1 um eine Einheit, steigt
die Wahrscheinlichkeit des Ereignisses Y = 1 um b1 Einheiten. Da Y* als Wahrscheinlich-
keit in Prozent gemessen wird und zwischen 0 und 100 % liegt, also um b1 %.
Eine solche in Abb. 2.1 wiedergegebene OLS-Schätzung der Eigentumswahrschein-

lichkeit ist aber aus mehreren Gründen immer noch problematisch. Erstens weist der
Schätzer heteroskedastische Residuen auf. Zweitens wird bei hohen Einkommen (bspw.
4000 Euro) ein Ŷ∗ , d. h. eine Wahrscheinlichkeit, von größer 1 ermittelt und umgekehrt
bei sehr niedrigen Einkommen (bspw. 800 Euro) von kleiner 0. Beides ist aber logisch
nicht möglich. Drittens unterstellt die gewählte lineare Funktionsform, dass der Einfluss
des Einkommens auf die Kaufwahrscheinlichkeit immer gleich groß ist, was bei sehr ge-
ringen oder sehr hohen Einkommen wenig plausibel erscheint. Die Verwendung des linea-
ren Wahrscheinlichkeitsmodells ist daher zweifelhaft, da ggf. sowohl die Koeffizienten-
schätzungen als auch die Standardfehler verzerrt und damit nicht verlässlich sind
(Williams 2019).
In der Praxis unterscheidet sich allerdings das Ergebnis der linearen Spezifikation häu-
fig unter drei Aspekten nicht von komplexeren Methoden. Koeffizienten, die erstens im
linearen Modell signifikant sind und zweitens eine bestimmte Einflussrichtung besitzen,
haben diese Eigenschaften überwiegend auch in den im Folgenden erläuterten Logit- und
Probit-Modellen. Drittens sind die geschätzten Koeffizienten der unabhängigen Variablen
des linearen Wahrscheinlichkeitsmodells häufig gute Annäherungen an deren durch-
schnittlichen Einfluss in den genannten komplexeren Modellen (Wooldridge 2010,
S. 563–564).
Die Interpretation der latenten Variablen Y* als Wahrscheinlichkeit, eine Wohnung zu
besitzen statt zu mieten, kann logisch nur zwischen minimal 0 (0 %) und maximal 1
(100 %) liegen. Es ist daher sinnvoll, einen Zusammenhang zwischen den Einflussfakto-
ren X und der abhängigen Variablen Y* zu modellieren, der diese Anforderung erfüllt.
Hierzu wird eine Variable Z eingeführt, die den zusammengefassten Einfluss aller unab-
hängigen Variablen (X1, X2 usw.) auf Y* darstellt:3
Z = b 0 + b1 X1 + b 2 X 2 +…+ u (2.3)

Daran anschließend stellt sich die Frage nach der Funktionsform des Zusammenhangs
von Z und Y*. Eine Funktionsform, die die oben aufgeführten inhaltlichen Probleme be-
seitigt, präsentiert Abb. 2.2.
Diese Funktionsform führt dazu, dass unabhängig von der Größe der aggregierten Ein-
flussfaktoren (hier des Einkommens) der geschätzte Wert Ŷ∗ zwischen 0 und 1 liegt. Die
Regressionskoeffizienten b1 usw. (auch als Logits bezeichnet) entsprechen der Einfluss-
stärke der jeweiligen exogenen Variablen auf die Höhe der Wahrscheinlichkeit, dass Y*
gleich 1 ist, das heißt hier des Besitzes der eigenen Wohnung.
Der prinzipiell S-förmige Zusammenhang kann mittels verschiedener Funktionsfor-
men hergestellt werden. Die beiden praktisch wichtigsten Funktionsformen sind die logis-
tische Funktionsform (Logit-Modell oder Logit-Schätzung) einerseits und die kumulierte
3
Es wird vereinfachend darüber hinweggesehen, dass die Fehler u (bzw. Residuen) in den Gl. (2.1),
(2.2) und (2.3) nicht identisch sind.
Wahrscheinlichkeit Y*
Eigentümer 1
Mieter 0
X
Einkommen
Abb. 2.2 Nichtlinearer Zusammenhang bei binärer abhängiger Variable
Standardnormalverteilung andererseits. Letztere wird als Probit-Schätzung (Probit-Mo-

dell) bezeichnet.
Unabhängig von der gewählten Funktionsform gilt, dass Y* nicht linear von Z abhängt.
Also kann die OLS-Methode nicht verwendet werden. Stattdessen setzt man das soge-
nannte Maximum-Likelihood-Schätzverfahren ein (ML-Schätzer). Die ML-Schätzung
sucht die Koeffizientenwerte, bei denen die Wahrscheinlichkeit maximiert wird, die in der
Stichprobe beobachteten Werte zu erhalten. Die Schritte dieser Suche heißen Iterationen.
Anhang I erläutert das Schätzverfahren und seine Anwendungen genauer.
Die Wahrscheinlichkeit wird mit P (für Probability) abgekürzt. Der Ausdruck P (Y = 1)
oder kurz einfach P(1), bezeichnet die Wahrscheinlichkeit für das Ereignis mit dem Wert
1. Im Wohnungsbeispiel also die Wahrscheinlichkeit Eigentümer der Wohnung zu sein.
Die Logit-Funktion wird im Folgenden kurz beschrieben. Sie hat als logistische Regres-
sionsgleichung folgendes Aussehen:
ez 1
P (1) = = (2.4)
1+ e z
1 + e-z
Beide auf der rechten Seite stehenden Varianten der Formel sind in der Literatur ge-
bräuchlich. Der Ausdruck auf der rechten Seite ist die sogenannte Link-Funktion. Sie
stellt die nichtlineare Verbindung zwischen der linearen Gleichung Z und P (d. h. Y*) her.
Wobei im vorliegenden Beispiel mit nur einer unabhängigen Variablen Einkommen
(= X1) gilt:4
Z = b 0 + b1 X1 (2.5)

Und damit:
4
Der Wert e ist die Eulersche Zahl 2,718. Die Unterscheidung von einerseits den Schätzungen und
andererseits den unbekannten wahren Werten bzw. Formen von P und Z werden dabei vernachlässigt.
e(
b0 + b1 X1 )
P (1) = (2.6)
1 + e(
b0 + b1 X1 )

Schließlich muss noch eine Entscheidungsregel eingeführt werden, ab welcher ge-

schätzten Wahrscheinlichkeit eine Beobachtung zur Gruppe der Eigentümer gehört. Die
Grenze wird standardmäßig bei einer geschätzten Wahrscheinlichkeit von 0,5 gezogen: Ab
0,5 wird erwartet, dass Wohnungseigentum vorliegt, bis und einschließlich 0,5 lautet die
Schätzung (Prognose), dass es sich um einen Mieter handelt.
Es lässt sich zeigen, dass der geschätzte Parameter b0 die horizontale Position der logis-
tischen Funktion verändert. Im oberen Teil der Abb. 2.3 gehören die Funktionen von links
nach rechts zu den Konstanten −2, −6 und −10. Die Konstante b0 verschiebt also die Lo-
git-Funktion entlang der x-Achse (d. h. der Höhe des Einkommens) nach rechts oder nach
links, beeinflusst aber den Verlauf der Steigung dieser Funktion nicht. Der Regressions-
koeffizient b1 gibt mit seinem Vorzeichen an, wie sich die Wahrscheinlichkeit, Wohnungs-
eigentümer zu sein, mit steigendem Einkommen verändert. Ein positiver Koeffizienten-
wert erhöht die Wahrscheinlichkeit. Dies illustriert der untere Teil der Abb. 2.3 für
b1 = 0,43, b1 = 0,13 und b1 = 0,08. Die Wahrscheinlichkeit, eine Wohnung zu besitzen,
wächst bei dem Koeffizienten 0,43 mit steigendem Einkommen am schnellsten. Verallge-
meinert gilt, dass bei großem positivem b1 die Funktion steil ansteigt. Umgekehrt fällt die
Funktion, wenn b1 negativ ist. Dies umso schneller, je kleiner (im negativen Bereich!) b1
ist. Die Koeffizienten bei mehreren unabhängigen Variablen werden analog interpretiert.
Wenn das Einkommen in Tausend Euro skaliert ist und sich auf das Jahresnettoeinkom-
men bezieht, sagt die durchgezogene Logit-Funktion (Z = −6 + 0,13 Einkommen) der
Abb. 2.3 folgendes aus: Bei einem Jahreseinkommen von 20 Tsd. Euro liegt die Wahr-
scheinlichkeit, dass ein Haushalt Wohnungseigentümer ist bei ca. 3 %. Bei einem höheren
Jahreseinkommen steigt diese Wahrscheinlichkeit stark an und erreicht bei einem Einkom-
men von 80 Tsd. Euro fast 100 %.
In der unteren Abb. 2.3 macht der Verlauf der Funktion für b1 = 0,13, d. h. die mittlere
Logit-Funktion, deutlich, dass der Einfluss des Einkommens auf die Wahrscheinlichkeit,
Wohnungsbesitzer zu sein, unterschiedlich groß ist. Bei einem niedrigen Jahreseinkom-
men von 20 Tsd. Euro führt eine Einkommenssteigerung von 10 Tsd. Euro nur zu einem
geringen Zuwachs. Bei einem Einkommen von 40 Tsd. dagegen bewirken zusätzliche
10 Tsd. Euro eine starke Erhöhung der Wahrscheinlichkeit, Eigentümer zu sein.
Die geschätzten Koeffizienten (Logits) sind nur schwierig und begrenzt interpretierbar.
Exakt geben sie die Veränderung des logarithmierten Chancenverhältnisses wieder. Ein-
deutig ist nur die Wirkungsrichtung: Ein positiver (und signifikanter) Koeffizient erhöht
die Wahrscheinlichkeit des Wohneigentums, und ein negativer Koeffizient einer unabhän-
gigen Variablen verringert sie. Insbesondere darf ihre absolute Größe nicht als Ausmaß der
Veränderung der Wahrscheinlichkeit (für Y = 1) interpretiert werden. Die Größe der Koef-
Z = b0 + 0,13Einkommen:
P
b0 = -2
b0 = -6
b0 = -10
Z = -6 + b1Einkommen:
P
b1 = 0,43
b1 = 0,13
b1 = 0,08
Abb. 2.3 Der Verlauf der Logit-Funktion
fizienten verschiedener unabhängiger Variablen sagt ebenfalls nichts über deren relative
Einflussstärke aus, weil sie von deren Skalierung abhängt. Darüber hinaus sind die Koef-
fizientenschätzungen unterschiedlicher Modelle mit differierender Datenbasis nicht ver-
gleichbar.
Um die Interpretation der Wirkung fassbarer zu machen, werden anstatt der (oder er-
gänzend zu den) Koeffizienten (Logits) die Chancenverhältnisse (Odds Ratios) verwen-
det, die wie folgt definiert sind:
P (1)
Chancenverhältnis = (2.7)
1 − P (1)

Liegt die Wahrscheinlichkeit des Wohnungseigentums bei 80 %, ist die Gegenwahr-
scheinlichkeit, nicht Eigentümer – also Mieter – zu sein, 20 %. Dies steht im Nenner der
Gl. (2.7). Das Chancenverhältnis ist daher 80/20, d. h. beträgt 4 zu 1 und ist daher 4-mal
höher. Beläuft sich die Wahrscheinlichkeit des Eigentums bspw. auf 99,8 %, berechnet
sich das Chancenverhältnis als 99,8/0,2 und ist folglich 499-mal größer. Das Chancenver-
hältnis ist daher im Gegensatz zur Wahrscheinlichkeit P nicht auf den Wertebereich zwi-
schen 0 und 1 beschränkt, sondern liegt im positiven Zahlenbereich zwischen 0 und
unendlich.
Da die Schätzung bspw. des Koeffizienten b1 der unabhängigen Variablen X1 deren Ein-
fluss auf das logarithmierte Chancenverhältnis beschreibt, wird durch die Berechnung der
Funktion e b1 die Logarithmierung rückgängig gemacht. Der resultierende Wert für e b1 ist
der Einfluss auf das Chancenverhältnis, wenn sich die Variable X1 um eine Einheit ändert.
Er entspricht der Vervielfachung des Chancenverhältnisses, wenn die betreffende unab-
hängige Variable sich um eine Einheit erhöht und alle anderen Einflussfaktoren konstant
gehalten werden. Ist ein Logit-Koeffizient b gleich 0 beträgt das das Odds Ratio 1. Dies ist
logisch, denn wenn ein Koeffizient nicht von 0 verschieden ist, besitzt er keinen Einfluss
auf die Wahrscheinlichkeit des Ereignisses Y = 1, bspw. hier der Wahrscheinlichkeit, Woh-
nungseigentümer zu sein. Die Aussage ist identisch mit der Feststellung, dass das Chan-
cenverhältnis mit dem Faktor 1 multipliziert wird, also gleich bleibt. Liegt das Chancen-
verhältnis unter 1, bspw. bei 0,25, verringert es sich um diesen Faktor. Was bedeutet, dass
das Odds Ratio 4-mal kleiner wird. Dies folgt aus dem Kehrwert 1/0,25 = 4. Die Odds
Ratios werden in der Literatur manchmal relative Wahrscheinlichkeiten genannt.
Die beschriebene Form der Darstellung der Wirkung einer Veränderung der unabhängi-
gen Variablen ist etwas leichter inhaltlich interpretierbar. Solche Chancenverhältnisse be-
zeichnet man auch als Effektstärken. Tab. 2.2 verdeutlicht den Zusammenhang von Ko-
effizientenwert, Chancenverhältnis und Veränderung der Wahrscheinlichkeit für die mit
dem Wert 1 kodierte dichotome abhängige Variable.5
Aber auch die inhaltliche Bedeutung der Veränderungen von Chancenverhältnissen ist
recht schwer erfassbar. Die klarste Darstellung der Wirkungen der exogenen Variablen
bezieht sich auf die grafische Darstellung der Veränderung der geschätzten Wahrschein-
lichkeiten wie in Abb. 2.3. Dies wird weiter unten erläutert.
Als Fazit ist festzustellen, dass die Interpretation kontinuierlicher (metrisch skalierter)
Einflussfaktoren (in der logistischen Regression häufig Kovariate genannt) deutlich kom-
plexer ist als bei der linearen OLS-Regression. Die inhaltliche Bedeutung von nominal
5
Ein weiterer Begriff für das Chancenverhältnis ist (relatives) Risiko bzw. Risikoverhältnis (Risk
Ratio oder auch Relative Risk Ratio) (so Long und Freese 2014, S. 391). Dagegen definieren andere
Autoren – bspw. der medizinischen Statistik – Chancenverhältnis und Risikoverhältnis unterschied-
lich (so Diaz-Quijano 2012).
Tab. 2.2 Koeffizienten (Logits), Odds Ratios und Wahrscheinlichkeiten

Koeffizientenwert Odds Ratio
(Logit) (Effektstärke) Veränderung von P(Y = 1)
<0 <1 P nimmt ab
=0 =1 P bleibt unverändert
>0 >1 P steigt
skalierten unabhängigen Variablen (d. h. Dummyvariablen) ist glücklicherweise einfach

zu verstehen. Sie messen immer den Unterschied relativ zur Referenzkategorie. Die beste
Möglichkeit zur Interpretation der Zusammenhänge von Koeffizientenwerten einerseits
und den Wahrscheinlichkeiten andererseits ist deren grafische Darstellung.
Die Probit-Verteilungsfunktion ist im Vergleich zur Logit-Funktion mathematisch
komplizierter und hat einen prinzipiell etwas steileren Verlauf. In den statistischen Pro-
grammpaketen sind in der Regel beide Verfahren implementiert. Die Forschungspraxis
bevorzugt das Logit-Verfahren, da häufig mehr Beobachtungswerte an den Rändern (in
den Extrembereichen) liegen, als nach der Normalverteilung (auf der das Probit-Modell
beruht) zu erwarten sind. Die Unterschiede in den geschätzten Regressionskoeffizienten
des Logit- und Probit-Modells sind allerdings im Allgemeinen sehr gering. Zur Überprü-
fung der Robustheit können beide Schätzergebnisse miteinander verglichen werden.
Nach der Schätzung einer logistischen Regression ist zunächst das Gesamtmodell zu
bewerten. Der generelle Modellfit wird vor allem anhand der Klassifikationsgüte, des
Likelihood-Ratio-Tests und der Pseudo-R2-Werte beurteilt.6
Die Klassifikationstabelle ist ein simples Verfahren zur Charakterisierung der Klassi-
fikationsgüte. Besitzt die geschätzte Wahrscheinlichkeit einen Wert von größer 0,5 (also
50 %), wird diese Beobachtung den Fällen zugeordnet, für die Y gleich 1 ist. In unserem
Beispiel gehört ein solcher Haushalt zu den Wohneigentümern. Liegt die geschätzte Wahr-
scheinlichkeit bei kleiner oder gleich 0,5, zählt er zur Gruppe, für die Y gleich 0 beträgt,
also zu den Mietern. Die Zahl der Fälle wird in einer Kreuztabelle aufgelistet, differenziert
nach dem geschätzten Ergebnis ( Ŷ∗ = 0 bzw. Ŷ∗ = 1) einerseits und dem beobachteten
Ergebnis (Y = 0 bzw. Y = 1) andererseits. Daraus wird die Zahl der vom Modell richtig
klassifizierten Fälle abgelesen und als Prozentsatz aller Beobachtungen ausgedrückt. Die
Aussagekraft dieses Prozentsatzes ist allerdings sehr begrenzt. Wenn 80 % der befragten
Bewohner Eigentümer sind, wird ein Modell, das für alle Bewohner schätzt, dass es sich
um Eigentümer handelt, automatisch bereits 80 % der Fälle richtig zuordnen. Ein zweites
Beispiel illustriert dies noch einmal. Wenn die Chancen 50:50 stehen, kann man mit einem
naiven Modell, das für alle Beobachtungen immer das Ergebnis 1 oder umgekehrt genau
das Gegenteil, nämlich 0, prognostiziert, bereits eine Treffergenauigkeit von 50 % erzielen.
Der Likelihood-Ratio-Test (LR-Test) vergleicht die Erklärungskraft eines Modells,
das nur die Konstante b0 enthält (dieses wird als LL0 bezeichnet), mit dem Modell, das alle
6
Weitere hier nicht behandelte Methoden zur Überprüfung der Modellgüte sind der Pearson-Chi2-Test,
die Devianz (Deviance) und die Receiver Operating Curve (ROC).
unabhängigen Variablen einbezieht (als LLM bezeichnet). LL steht für Log Likelihood.
Die LR-Teststatistik lautet: −2(LL0 − LLM).7 Die resultierende Testgröße ist Chi2-verteilt.
Sie prüft die Nullhypothese, dass die unabhängigen Variablen zusammen keine Verbesse-
rung des Modellfits bewirken. Anhand des empirischen Signifikanzniveaus des LR-Tests
können wir wie üblich entscheiden, ob die Nullhypothese abgelehnt werden kann. Das
funktioniert also ganz analog zum F-Test der einfachen linearen OLS-Regression.8
Zur Einschätzung der Modellgüte existiert eine Vielzahl von Kriterien, die den aus der
linearen OLS-Regression bekannten Determinationskoeffizienten R2 imitieren. Sie wer-
den unter dem Oberbegriff Pseudo-R2-Werte zusammengefasst. Ihr Ausgangspunkt ist
ein Vergleich des LL0 mit dem LLM-Wert. Sie beziehen sich auf die prozentuale Verbesse-
rung der Schätzung des LLM-Werts im Vergleich zum LL0-Wert. Ihre Werte sind also in-
haltlich als prozentuale Fehlerreduktionen zu interpretieren. Es handelt sich um eine rela-
tive Größe, die zwei verschiedene Modellspezifikationen bei gleicher Datengrundlage
gegenüberstellt. Pseudo-R2-Werte können daher nicht für Vergleiche mit Modellen auf
anderen Datengrundlagen oder anderen Schätzverfahren herangezogen werden.9 Werte
von (oder nahe bei) 0 weisen auf keine oder eine nur sehr geringe Verbesserung, also einen
schlechten Modellfit hin. Höhere Werte können als ein deutlich verbesserter und insoweit
guter Modellfit interpretiert werden. Gängige Varianten von Pseudo-R2-Werten sind Cox
& Snell, Nagelkerke und McFaddens R2.10 Häufig wird in der Literatur empfohlen, Nagel-
kerkes R2 zu verwenden, da dieser Wert – im Gegensatz zum R2 von Cox & Snell – auch
den Maximalwert 1 erreichen kann. McFaddens R2 ist gleich 0, wenn alle Koeffizienten
nicht von 0 verschieden sind, also gemeinsam keinen Erklärungsbeitrag liefern. Bei einem
extrem guten Modell nähert sich dieser Wert 1. Generell sind die Pseudo-R2-Werte aber
deutlich kleiner als die klassischen Determinationskoeffizienten der OLS-Regression. Den
drei genannten Pseudo-R2-Kennzahlen ist gemeinsam, dass Werte im Bereich von 0,20 bis
0,40 als gut bis sehr gut anzusehen sind (Tabachnick und Fidell 2019, S. 506; Urban und
Mayerl 2018, S. 417–418). Auch hier gilt – wie für das R2 in der OLS-Regression –, dass
selbst kleine Pseudo-R2-Werte nicht bedeuten, dass das Modell unsinnig oder falsch ist.
Bei der Entscheidung, ein Modell komplett zu verwerfen, ist allein der Likelihood-Ra-
tio-Test relevant. Allen Pseudo-R2-Werten ist gemeinsam, dass sie keine so klare inhaltli-
che Aussage wie das R2 bzw. das korrigierte R2 der OLS-Regression erlauben. Sie geben
nicht (!) die erklärte Varianz an.
7
Die Logik des Likelihood-Tests erläutert Anhang I ausführlicher.
8
Weitere Bezeichnungs- und Abkürzungsvarianten dieses Tests sind: Modell Chi-Quadrat, Likeli-
hood-Quotienten-Test, χ2, L2 und GM.
9
Dies gilt auch für das R2 der OLS-Regression. Zur begrenzten Aussagekraft des R2 siehe Stoetzer
(2017, Abschn. 6.3.2).
10
Der Test von Nagelkerke wird auch Cragg-Uhler-Test genannt. Weitere Tests gehen bspw. auf Ef-
ron sowie McKelvey & Zavoina zurück. Außerdem sind besonders das AIC und das BIC für Modell-
vergleiche geeignet.
2.3.2 Modellschätzung und Interpretation
Als Beispiel einer Modellschätzung verwenden wir einen realen Datensatz, der sich auf
den Untergang der Titanic bezieht.
Praktisches Beispiel: Der Untergang der Titanic

Der britische Luxusdampfer Titanic sank bei seiner Jungfernfahrt auf dem Weg von Sou-
thampton nach New York am 15. April 1912. Das als unsinkbar geltende Schiff riss nach
einer Kollision mit einem Eisberg vermutlich über 1500 Personen in den Tod. Eine Viel-
zahl von Publikationen und mehrfache Verfilmungen halten die Erinnerung an eine der
größten Katastrophen der zivilen Schifffahrt aufrecht. Eine eigene Website geht wichtigen
Fragen zum Untergang nach – etwa dem Problem, welche letzte Melodie die Kapelle des
Schiffs vor dem Sinken spielte (https://www.encyclopedia-titanica.org/). Ein Resultat die-
ser Beschäftigungen ist ein umfangreicher Datensatz. Es handelt sich um die Passagier-
liste mit einer Reihe von Informationen zu allen Passagieren: Name, Alter, Geschlecht,
Familienstatus, Einschiffungsort (Ausgangshafen war Southampton, aber die Titanic
nahm in Cherbourg und Queenstown weitere Passagiere auf), Staatsangehörigkeit sowie
die gebuchte Klasse des Passagiers. Vor allem aber ist vermerkt, ob der jeweilige Passagier
überlebt hat (gerettet wurde) oder nicht. Diese Informationen existieren für 1046 Passa-
giere. Die Gesamtzahl der Passagiere lag je nach Quelle zwischen 1317 und 1409 Passa-
gieren. Der Datensatz stammt ursprünglich von Eaton und Haas (1995) und wurde mehr-
fach für einzelne Passagiere ergänzt (Harrell 2002). Der hier verwendete modifizierte
Datensatz enthält keine Passagiere, für die einzelne Informationen fehlen. Auch die Be-
satzung der Titanic wird nicht einbezogen. Um den Datensatz übersichtlich zu halten,
beschränkt er sich auf die Variablen Alter, Geschlecht, Passagierklasse und Überleben.
Das Forschungsinteresse bezieht sich auf die Frage, welche Faktoren die Wahrschein-
lichkeit der Rettung eines Passagiers positiv (bzw. negativ) beeinflusst haben. Plausible
Hypothesen sind, dass das Geschlecht (weiblich) und die Altersgruppe Kinder sich positiv
auswirken (Motto: „Frauen und Kinder zuerst in die Rettungsboote“). Interessant ist auch,
ob die gebuchte Klasse einen Einfluss ausübt. Etwa indem Passagiere der ersten Klasse bei
der Aufnahme in die Rettungsboote bevorzugt wurden.
Abhängige Variable ist Survival mit dem Wert 1 für Rettung und dem Wert 0 im Fall des
Ertrinkens. Unabhängige Variablen sind Age (Alter), Female (1 bei weiblichen Passagie-
ren, 0 bei Männern) und Pass_class (die erste, zweite und dritte Passagierklasse).
Die folgende Abb. 2.4 enthält den Output der binären logistischen Regression in Form
der Logit- und der Probit-Schätzungen mittels Stata. Die Iterationsschritte der Maxi-
mum-Likelihood-Schätzung sind weggelassen. Im oberen Teil sind die Koeffizienten-
schätzungen als Logits wiedergegeben. Der mittlere Teil enthält das gleiche Modell aber
mit den Chancenverhältnissen (Odds Ratios) an Stelle der Koeffizientenschätzungen und
der untere Teil zeigt noch einmal dieses Modell als Probit-Schätzung. Die folgenden Er-
läuterungen beschränken sich auf die wichtigsten Aspekte.
Gesamtmodell
Links befindet sich die Log Likelihood des Modells LLM −491,22655. Die LL0 ist die Log
Likelihood des Modells ohne exogene Variablen. Sie wird im ersten Iterationsschritt der
ML-Schätzung ausgewiesen und beträgt hier −707,31022 (nicht abgebildet). Rechts oben
steht der Likelihood-Ratio-Test. Er wird von Stata als „LR Chi2“ bezeichnet und beträgt
432,17 (aus: −2(−707,31022 − (−491,22655)). Die in Klammern dabeistehende 4 gibt die
Freiheitsgerade an. Sie entsprechen der Zahl der unabhängigen Variablen (ohne die Kon
stante). Direkt darunter sehen wir das empirische Signifikanzniveau (Prob >chi2 = 0,0000).
Es liegt unter 1 %. Also lehnen wir die Nullhypothese, dass die unabhängigen Variablen
unseres Modells zusammen keine (zusätzliche) Erklärungskraft besitzen, ab. Mindestens
eine unabhängige Variable ist also einflussreich. Im SPSS-Output zu diesem Modell findet
sich der LR-Test unter der Überschrift „Omnibus-Tests der Modellkoeffizienten“ und
heißt „Chi-Quadrat“.
Bei dem von Stata ausgewiesenen Pseudo-R2 in Höhe von 0,3040 handelt es sich ge-
nauer um McFaddens R2. Der SPSS-Output (hier nicht abgebildet) verwendet als Pseudo-
R2-Werte „Cox & Snells R2“ und „Nagelkerkes R2“. Beide werden im SPSS-Output unter
„Modellzusammenfassung“ abgebildet. Das R2 von Cox & Snell beträgt 0,338 und das
besser interpretierbare Nagelkerke-R2 liegt bei 0,457. Das heißt, die Schätzung der Über-
lebenswahrscheinlichkeit wird durch den Einbezug der unabhängigen Variablen Age, Fe-
male und Pass_class um fast 46 % in Relation zu einem Modell ohne diese Einflussfakto-
ren verbessert. Die drei Pseudo-R2-Werte differieren also recht deutlich, obwohl sie
ähnliche Vorgehensweisen nutzen. Wir können aber übereinstimmend schlussfolgern, dass
ein sehr guter Modellfit vorliegt, weil alle Werte über 0,3 bzw. sogar 0,4 liegen.
Der untere Teil der Abb. 2.4 gibt die Schätzung der Überlebenswahrscheinlichkeit auf
der Grundlage einer Probit-Schätzung wieder. Die Ergebnisse unterscheiden sich nicht
prinzipiell vom logistischen Modell. Likelihood-Ratio-Test sowie Signifikanz und Ein-
flussrichtung der Koeffizienten stimmen überein. (McFaddens) Pseudo-R2 ist im Pro-
bit-Modell unwesentlich geringer. Die Koeffizientenschätzungen sind alle absolut gesehen
kleiner. Da aber eine andere Link-Funktion verwendet wird, ist dies wenig überraschend
und lässt keine weiteren Schlussfolgerungen zu. Daher folgt als Fazit, dass das Probit-Mo-
dell die logistische Regression bestätigt.
Die zu diesem logistischen Modell gehörige Klassifikationstabelle (in der Version von
SPSS) ist in Abb. 2.5 zu sehen.
Von den 1046 Passagieren sind 619 ertrunken (beobachteter Survival = 0), und 427 sind
gerettet worden (beobachteter Survival = 1). Die von unserem logistischen Modell ge-
schätzte (vorhergesagte) Zahl der Toten (geschätzter Survival = 0) liegt bei 646, und die
geschätzte Zahl der Überlebenden (geschätzter Survival = 1) beträgt 400 Passagiere. Von
den tatsächlichen Toten (erste Zeile der Abb. 2.5) werden 84 % vom Modell richtig als
Ertrunkene klassifiziert. Von den tatsächlich Überlebenden (zweite Zeile) werden 70,5 %
vom Modell identifiziert. Insgesamt ordnet das Modell 78,5 % aller Passagiere richtig zu –
nämlich 821 (520 plus 301) von 1046 Passagieren. Die Zahl von 78,5 % korrekt geschätz-
ten Fällen ist aber per se – wie oben erläutert – wenig aussagekräftig.
Logit-Koeffizienten:
Logistic regression Number of obs = 1,046
LR chi2(4) = 432.17
Prob > chi2 = 0.0000
Log likelihood = -491.22655 Pseudo R2 = 0.3055
------------------------------------------------------------------------------
Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Age | -.0343932 .0063312 -5.43 0.000 -.0468022 -.0219843
1.Female | 2.497845 .1660427 15.04 0.000 2.172407 2.823282
|
Pass_class |
2 | -1.28057 .2255447 -5.68 0.000 -1.722629 -.8385103
3 | -2.289661 .225812 -10.14 0.000 -2.732244 -1.847077
|
_cons | 1.024229 .2962885 3.46 0.001 .4435146 1.604944
------------------------------------------------------------------------------
Koeffizienten als Chancenverhältnisse (Odds Ratios):

LR chi2(4) = 432.17
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
Survival | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Age | .9661915 .0061172 -5.43 0.000 .9542761 .9782556
1.Female | 12.15626 2.018459 15.04 0.000 8.779391 16.83201
|
Pass_class |
2 | .2778789 .0626741 -5.68 0.000 .178596 .4323541
3 | .1013008 .0228749 -10.14 0.000 .0650731 .1576974
|
_cons | 2.784948 .8251482 3.46 0.001 1.558174 4.977582
------------------------------------------------------------------------------
Note: _cons estimates baseline odds.
Probit-Koeffizienten:
Probit regression Number of obs = 1,046
LR chi2(4) = 430.07
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
Age | -.0194259 .0035879 -5.41 0.000 -.0264581 -.0123938
1.Female | 1.48564 .0943439 15.75 0.000 1.30073 1.670551
|
Pass_class |
2 | -.7601703 .1330291 -5.71 0.000 -1.020903 -.499438
3 | -1.30316 .1261011 -10.33 0.000 -1.550314 -1.056007
|
_cons | .5694616 .1717534 3.32 0.001 .2328311 .906092
------------------------------------------------------------------------------
Abb. 2.4 Logistische Regressionen Stata

Abb. 2.5 Klassifikationstabelle Titanic
Koeffizientenschätzungen
Hinsichtlich der Signifikanz der Koeffizienten ist für unser Titanic-Beispiel festzustellen,
dass alle unabhängigen Variablen (Age, Female, Pass_class 2 und Pass_class 3) auf dem
1-%-Niveau signifikant sind. Stata verwendet hier statt der aus der OLS-Regression be-
kannten t-Werte die z-Werte.11 Sie berechnet man – wie die t-Werte –, indem der Koeffizi-
ent durch seinen S tandardfehler dividiert wird. An der Interpretation der Signifikanzni-
veaus ändert sich ebenfalls nichts. Für die Variable Female beträgt der Logit +2,498, d. h.,
Frauen hatten im Vergleich zu Männern eine höhere Überlebenswahrscheinlichkeit. Die
Koeffizienten der zweiten und dritten Passagierklasse betragen −1,281 (Pass_class 2)
bzw. −2,290 (Pass_class 3). Passagiere der zweiten und dritten Klasse wiesen damit eine
geringere Überlebenswahrscheinlichkeit auf als Passagiere der ersten Klasse. Die Größen
der Koeffizienten solcher Dummyvariablen können (innerhalb eines Modells) miteinander
verglichen werden. Der positive Einfluss des Geschlechts Female (+2,498) ist größer als
der negative Einfluss, wenn man zu den Passagieren der zweiten Klasse und nicht der
ersten Klasse gehört (−1,281). Das heißt, Frauen der zweiten Klasse hatten eine größere
Überlebenswahrscheinlichkeit als Männer der ersten Klasse. Der Einfluss des Alters (Va-
riable Age) ist mit dem Koeffizient −0,034 ebenfalls negativ. Ältere Passagiere besaßen
also eine geringere Überlebenswahrscheinlichkeit.
SPSS verwendet an Stelle des z-Tests den Wald-Test.12 Diese Prüfgröße berechnet sich
aus dem quadrierten Koeffizientenwert dividiert durch den quadrierten Standardfehler die-
ses Koeffizienten. Die resultierende Prüfgröße ist Chi2-verteilt und testet die übliche Null-
hypothese, dass der betreffende Koeffizient keinen Einfluss ausübt. Abschn. 2.5 enthält die
Schätzergebnisse von SPSS, die sich inhaltlich natürlich nicht von denen der Abb. 2.4
unterscheiden.
Die Literatur empfiehlt, anstelle des Wald- oder des z-Tests bei kleinen Stichproben-
umfängen einen Likelihood-Ratio-Test durchzuführen, um die Signifikanz einer Variablen
zu prüfen (Acock 2016, S. 353–354). Dies, weil der Wald- und der z-Test bei einer kleinen
Dies, weil eine Normalverteilung statt der t-Verteilung angenommen wird.

11
Tatsächlich ist der z-Test in Stata der originale Wald-Test und beim Wald-Test von SPSS handelt
12
es sich um den quadrierten z-Wert.

Zahl von Beobachtungen die Nullhypothese zu oft nicht ablehnen. Das heißt, eine tatsäch-
lich einflussreiche unabhängige Variable wird als nicht signifikant verworfen, es wird also
ein Fehler 2. Art begangen. Der Likelihood-Ratio-Test prüft, ob sich die Likelihood eines
Modells bei Einbezug einer unabhängigen Variablen signifikant verbessert (siehe Anhang
I). Im vorliegenden Fall ist dies nicht relevant, da bei einer großen Zahl von Beobachtun-
gen – wie in unserem Titanic-Datensatz – Wald-, z- und Likelihood-Ratio-Tests zu identi-
schen Ergebnissen kommen. Führen wir trotzdem entsprechende LR-Tests durch, bestäti-
gen diese die Resultate der Abb. 2.4.
Genauer betrachtet, besagt der Koeffizient (Logit) der Variable Female von 2,498, dass
das logarithmierte Chancenverhältnis (Log (P/(1 − P)), den Untergang der Titanic zu über-
leben, um 2,498 steigt, wenn es sich bei dem Passagier um eine Frau und nicht um einen
Mann handelt. Wobei die Einflussfaktoren Alter und Passagierklasse konstant gehalten
werden. Mit Log ist im Folgenden immer der natürliche Logarithmus (Ln) gemeint. Die
Gleichung dieser logistischen Regression lautet also:
log ( P / 1 - P ) = 1, 024 − 0, 034 Age + 2, 498 Female
−1281Pass_ class 2 − 2, 290 Pass_ class3 + u (2.8)

Sie beschreibt den Einfluss der unabhängigen Variablen auf die in Logits skalierte
Wahrscheinlichkeit zu überleben, wenn die anderen unabhängigen Variablen kontrolliert
werden. Bspw. berechnet sich für eine 50 Jahre alte Frau in der zweiten Klasse ein Logit
von +0,54 (= 1,024 − 1,7 + 2,498 − 1,281). Ihre Überlebenswahrscheinlichkeit
war also größer als bei einem gleichaltrigen Mann in der ersten Klasse (Logit:
−0,676 = 1,024 − 1,7 + 0 + 0).
Die Odds-Ratios (Chancenverhältnisse) sind in der mittleren Tabelle der Abb. 2.4 auf-
gelistet. Da es sich nur um eine andere Darstellungsweise der Logits aus der Tabelle da
rüber handelt, sind beide Tabellen in allen anderen Beziehungen identisch. SPSS verwen-
det die Bezeichnung „Exp(b)“ für die Chancenverhältnisse. Das Odds Ratio der Variable
Female beträgt (gerundet) 12,156. Es berechnet sich aus dem Koeffizienten +2,4978 wie
folgt: e+2,4978 = 12,156. Inhaltlich besagt dies, dass das Chancenverhältnis zu überleben c.p.
um den Faktor 12,156 steigt, wenn es sich um eine Frau handelt und nicht um einen Mann.
Klarer ausgedrückt, hatten Frauen eine um mehr als 12-mal höhere Überlebenschance als
Männer. Ein Passagier der dritten Klasse besitzt ein Odds Ratio von gerundet 0,10. Das
heißt, seine relative Überlebenswahrscheinlichkeit sank bei Berücksichtigung des Ge-
schlechts und des Alters im Vergleich zu einem Passagier der ersten Klasse um den Faktor
0,1, war also 10-mal geringer (1/0,1). Ein zusätzliches Lebensjahr verringert das Chancen-
verhältnis um den Faktor 0,966, d. h. senkt die relative Rettungswahrscheinlichkeit um
den Faktor 1,035.
Eine andere Formulierung dieser Sachverhalte ist, dass eine Frau eine um 1214,6 %
größere relative Wahrscheinlichkeit zu überleben als ein Mann besaß und ein Passagier der
dritten Klasse eine um 90 % (1 − 0,1) niedrigere relative Wahrscheinlichkeit bezogen auf
einen Passagier der ersten Klasse. Die Erhöhung des Alters um ein Jahr bewirkt eine Ab-
nahme der relativen Wahrscheinlichkeit des Überlebens um 3,4 % (1 − 0,966).
Verständlicher als die Odds Ratio ist ggf. die gemeinsame Wirkung der unabhängigen
Variablen auf die geschätzte Wahrscheinlichkeit eines Passagiers, zu überleben. Sie wird
in der Literatur und den einschlägigen Softwareprogrammen auch „vorhergesagte“ („pre-

dicted“) Wahrscheinlichkeit genannt. Die geschätzten Wahrscheinlichkeiten jedes Passa-
giers, zu überleben, zeigt Tab. 2.3 am Beispiel der ersten drei Beobachtungen unseres
Datensatzes, wobei die Daten gerundet werden.
Alle drei Beobachtungen sind Passagiere der ersten Klasse (Pass_class = 1). Bei dem
zweiten Fall handelt es sich um ein Baby (jünger als ein Jahr, daher Age = 0,9), das ge-
rettet wurde (Survival bzw. beobachtete Wahrscheinlichkeit der Rettung = 1). Die ge-
schätzte Überlebenswahrscheinlichkeit beträgt für dieses Baby 72,96 %. Die dritte Beob-
achtung ist ein zweijähriges Mädchen der ersten Klasse. Da alle drei Variablen einen
positiven Einfluss ausüben, ist ihre vorhergesagte Überlebenswahrscheinlichkeit beson-
ders groß. Sie beträgt fast 97 %. Allerdings wurde sie nicht gerettet (Survival = 0).
Zur Verdeutlichung setzen wir die Werte des Datensatzes in die Gl. (2.6) ein und be-
rechnen so den Z-Wert (Z_Value) für jeden Passagier und darauf basierend die prognosti-
zierte Wahrscheinlichkeit für die Rettung. Den Zusammenhang von Z-Werten und ge-
schätzten (vorhergesagten) Überlebenswahrscheinlichkeiten zeigt Abb. 2.6.
Für die nominal skalierte Variable Pass_class enthält Abb. 2.7 die Mittelwerte der ge-
schätzten Überlebenswahrscheinlichkeit aller Passagiere.
Die Passagiere der ersten Klasse hatten im Mittel eine geschätzte Überlebenswahr-
scheinlichkeit von 63,73 %, die der zweiten Klasse von 44,06 % und der dritten Klasse
von lediglich 26,15 %. Auf dieselbe Art berechnet lauten die geschätzten Wahrscheinlich-
keiten des Überlebens für Frauen 75,26 % und für Männer 20,52 %.
Der Unterschied in der Überlebenswahrscheinlichkeit zwischen Frauen und Männern
wird hier deutlich. Er hängt aber natürlich auch von den Ausprägungen der anderen Vari-
ablen (Age und Pass_class) in unserem Datensatz ab. Verwendet man den Durchschnitt
dieser Variablen in unserem Datensatz, beträgt der Unterschied von Frauen im Vergleich
zu Männern 48,80 %. Das heißt, eine Frau hat eine um 48,80 % höhere Überlebenswahr-
scheinlichkeit als ein entsprechender Mann. Diese Differenz wird als AME (Average Mar-
ginal Effect) bezeichnet. Der AME wird im nächsten Absatz näher erläutert. Der Einfluss
der nominal skalierten Variablen (hier: Pass_class und Female) ist insoweit einfach ver-
ständlich.
Schwieriger ist die Erfassung der Wirkung metrisch skalierter Variablen. Wir wissen,
dass dieser Einfluss bei der Variable Age negativ ist. Es existiert aber über die Logit-Funk-
tion ein nicht linearer Zusammenhang mit der Überlebenswahrscheinlichkeit P. Außerdem
hängt hier die Wirkung unmittelbar von den anderen unabhängigen Variablen Female und
Tab. 2.3 Beobachtete und geschätzte Überlebenswahrscheinlichkeit

Survival (= Geschätzte
beobachtete Wahrscheinlich-
Fall Pass_class Age Female Wahrscheinlichkeit) keit Residuum
1 1 29,0 1 1 0,9259 0,0741
2 1 0,9 0 1 0,7296 0,2704
3 1 2,0 1 0 0,9693 −0,9693
Abb. 2.6 Z-Werte und Überlebenswahrscheinlichkeit
Abb. 2.7 Mittelwerte der

Überlebenswahrscheinlichkeit
Pass-Class ab. Abb. 2.8 verdeutlicht den Einfluss des Alters als ein Teil der Funktion Z auf
die Wahrscheinlichkeit P, zu Überleben.
Ein höheres Alter wirkt sich negativ auf die Überlebenswahrscheinlichkeit aus. Diese
prinzipielle Wirkung von Age illustriert Abb. 2.8. Die Wirkung ist aber ggf. sehr unter-
schiedlich. Befinden wir uns beim Alter C1, haben erstens 5 zusätzliche Jahre einen starken
negativen Einfluss, während bei einem höheren Alter D1 nur eine geringe Abnahme der
Überlebenswahrscheinlichkeit zu beobachten ist. Der Einfluss ist also nicht konstant, und
schon insoweit kann die Wirkung auch nur bedingt anhand eines einzigen Zahlenwerts
ausgedrückt werden. Zweitens hängt die Wirkung davon ab, ob der Ausgangspunkt bei C1
oder bei D1 liegt. Welcher Ausgangspunkt relevant ist, bestimmen aber die anderen Kova-
riaten (im Fall der Titanic also Female und Pass_class). Daher müssen für die Schätzung
Abb. 2.8 Einfluss des Alters Wahrscheinlichkeit P

als Teil der Z-Funktion des Survival
0
Age
C1 C2 D1 D2
+5 +5
des Einflusses von Age hinsichtlich der anderen beiden exogenen Variablen Werte vorge-
geben werden, um ein eindeutiges Ergebnis zu erhalten.
Eine erste Option besteht darin, die durchschnittliche marginale Wirkung zu ermitteln.
Dabei berechnet man die marginale Veränderung der abhängigen Variablen, wenn sich die
metrisch skalierte unabhängige Variable um einen sehr kleinen Betrag erhöht. Dies reali-
siert man für alle Beobachtungen, wobei die tatsächlichen Ausprägungen der beiden ande-
ren Variablen Female und Pass_class zugrunde gelegt werden. Durch Berechnung des
Mittelwerts erhalten wir den durchschnittlichen marginalen Effekt (AME Average
Marginal Effect) für die Beobachtungen (Population Average). Er beträgt für die Variable
Alter −0,0052 und besagt, dass im Durchschnitt eine marginale Erhöhung des Lebensal-
ters zu einer Verringerung der Überlebenswahrscheinlichkeit um 0,52 % führt. Eine zweite
Option ist es, für die anderen Variablen jeweils deren Durchschnittswerte anzunehmen,
dies führt zum MEM (Marginal Effect at Mean). Ein solcher „durchschnittlicher“ Pas-
sagier ist zu 37,1 % weiblich und gehört zu 27,2 % zur ersten Klasse, weil in unserem
Datensatz 37,1 % der Passagier Frauen sind und 27,2 % in der ersten Klasse mitfahren. Da
dies nur sehr bedingt eine sinnvolle Referenzgröße ist, wird auf die MEM im Folgenden
nicht weiter eingegangen.13
Allerdings bildet der AME als Mittelwert die Veränderung der Wirkung des Alters auf
die Überlebenswahrscheinlichkeit lediglich grob ab. Um die Wirkung genauer zu erfassen,
zeigt Abb. 2.9 auf der x-Achse das Alter gemessen in Jahren und auf der y-Achse die ge-
schätzte Überlebenswahrscheinlichkeit (Pr(Survival)). Mit abgebildet sind die 95 %-Kon-
fidenzintervalle (CI – Confidence Intervalls).
13
Ausführlicher zu diesen Effekten Cameron und Trivedi (2005, S. 467–471). Der MEM wird auch
PEA (Partial Effect at the Average) genannt und der AME als APE (Average Partial Effect) bzw.
„Population Averaged Effect“ bezeichnet (Greene 2018, S. 734–736). Wooldridge (2018, Kapitel 17)
und Urban und Mayerl (2018, S. 405–414) sowie besonders verständlich Mood (2010) und Williams
(2018) erläutern diese Verfahren.
Die mittlere Überlebenswahrscheinlichkeit wird bis zum 80. Lebensjahr (dies war der
älteste Passagier) dargestellt. Sie fällt von 57 % für ein Baby auf 18,5 % bei einem 80-jäh-
rigen Passagier. In der Grafik ist (allerdings nur schwach) erkennbar, dass die Abnahme
nicht linear verläuft, sondern sich ab ungefähr dem 60. Lebensjahr etwas abschwächt. Der
AME von −0,52 % (pro Jahr) ist der Durchschnitt der etwas größeren Abnahme der Über-
lebenswahrscheinlichkeit bei Kindern und der geringeren Abnahme bei alten Menschen.
Wären ältere Passagiere ebenso wie Babys und Kinder bevorzugt in die Rettungsboote
aufgenommen worden, würde die Funktion bei einem höheren Alter wieder steigen. Der
AME, d. h. die durchschnittliche Abnahme, wäre dann keine sinnvoll interpretierbare
Größe. Dagegen wird die Wirkung auf die Überlebenswahrscheinlichkeit in Abb. 2.9 dif-
ferenziert für alle Altersstufen dargestellt. Daher empfiehlt es sich, die Einflüsse metrisch
skalierter unabhängiger Variablen grafisch zu erläutern.
Besondere Vorsicht ist bei der Interpretation von Interaktionseffekten in logistischen
Regressionen geboten. Die Koeffizienten von Interaktionseffekten und ihre Signifikanz-
niveaus sind nicht so einfach wie in der linearen OLS-Regression zu deuten. Für die Ana-
lyse muss in jedem Fall klar sein, welche Annahmen hinsichtlich der Werte der anderen
exogenen Variablen getroffen werden (AME oder MEM). Es empfiehlt sich außerdem,
den Einfluss gezielt bei verschiedenen inhaltlich relevanten Ausprägungen der Kovariaten
zu analysieren. Diese werden als MER (Marginal Effects at a Representative Value)
bezeichnet. Grafische Darstellungen sind dazu besonders geeignet. Hoetker (2007) enthält
Abb. 2.9 Der Einfluss des Alters

eine klare Darstellung der Probleme und geeigneter Vorgehensweisen mit betriebswirt-
schaftlichen Beispielen. Für SPSS siehe Baltes-Götz (2012, S. 31–34) und für Stata Mit-
chell (2012, S. 455–498).
2.3.3 Voraussetzungen und Probleme
Wie bei allen statistischen Methoden muss eine Reihe von Annahmen erfüllt sein, damit
die Schätzergebnisse verlässlich und sinnvoll interpretierbar sind. Dazu gehören die be-
reits aus der OLS-Regression bekannten Problembereiche (Stoetzer 2017, Kap. 4 und 5).
Die folgenden Ausführungen fokussieren nichtlineare Beziehungen, Ausreißer/einfluss-
reiche Beobachtungen und Heteroskedastie/Autokorrelation sowie Multikollinearität.
Dazu kommen als spezielle Probleme der logistischen Regression die komplette Separie-
rung (Complete Separation) und eine zu geringe Zellenbesetzung.14
Nichtlineare Beziehungen können in zweierlei Hinsicht vorhanden sein. Erstens sind
die Logit- und die Probit-Funktion nur zwei von mehreren möglichen Link-Funktionen.
Die bisher behandelten Varianten der Logit- bzw. der Probit-Funktion unterstellen eine
symmetrische Beziehung zwischen der Z-Funktion und der Wahrscheinlichkeitsvertei-
lung. Dies muss nicht so sein. Andere Link-Funktionen sind u. a. die Cauchit- und die
komplementäre Log-Log Funktion (Hosmer et al. 2013, S. 434–441; Greene 2018, S. 737).
Eine kurze Darstellung der Anwendungsfälle enthält Abschn. 2.4.1. In der Praxis domi-
niert die Verwendung der logistischen Funktion, und darüber hinaus besitzt nur noch die
Probit-Methode größere Relevanz.
Zweitens geht die Z-Funktion linear additiv in die Logit-Funktion ein. Hinsichtlich der
Z-Funktion selbst sind aber Nicht-Linearitäten sowie Interaktionseffekte möglich bzw.
plausibel. Um dies zu analysieren, werden in der Literatur u. a. der Hosmer-Lemeshow-
Test und Box-Tidwell-Test eingesetzt. Der Hosmer-Lemeshow-Test basiert auf einem
Vergleich der geschätzten (prognostizierten, erwarteten) Zahl der Fälle Y = 1 (also in unse-
ren Beispielen der Wohnungseigentümer oder der Überlebenden) mit der beobachteten
Zahl solcher Fälle. Er teilt den vorhandenen Datensatz in (üblicherweise) 10 Gruppen, die
ungefähr gleich groß sind, und sortiert sie nach der Höhe der geschätzten Wahrscheinlich-
keit. Dann analysiert er die Differenz zwischen den beobachteten und den geschätzten
Werten für diese 10 Gruppen. Das Modell ist umso besser, je kleiner insgesamt die Diffe-
renz ist. Die Nullhypothese lautet: Es existiert keine Differenz. Wenn – wie wir hoffen –,
unser Modell gut ist, lehnen wir die Nullhypothese nicht (!) ab. Ein nicht signifikantes
14
Darüber hinaus empfehlen einige Autoren die Überprüfung der Normalverteilung der unbekannten
Fehler anhand der Residuen. In der logistischen Regression sind die Fehler nicht normalverteilt
sondern besitzen eine Binomialverteilung. Allerdings nähert sich diese bei genügend großen Stich-
proben nach dem zentralen Grenzwertsatz der Normalverteilung. Insgesamt kommt daher dieser
Annahme eine Relevanz nur bei kleinen Sampeln zu (Menard 2002, S. 83; Urban Mayerl 2018,
S. 426).
Ergebnis dieses Tests ist also erwünscht. Der Test kann auch verwendet werden, um zu
prüfen, ob der Modellfit prinzipiell adäquat ist. Er ist in der Literatur aber umstritten, da er
u. a. bei einer großen Zahl von Beobachtungen dazu tendiert, ein Modell abzulehnen,
selbst wenn es einen guten Modellfit besitzt (und umgekehrt bei einer kleinen Stichpro-
be).15 Außerdem hängen seine Ergebnisse stark von der prinzipiell willkürlich wählbaren
Zahl der Gruppen ab (Long und Freese 2014, S. 223).
In unserem Titanic-Desaster führt der Hosmer-Lemeshow-Test zu folgenden Ergeb-
nissen mit SPSS: Chi2 36,53; Signifikanzniveau 0,000 und mit Stata: Chi2 40,05; Signifi-
kanzniveau 0,000. Die Chi2-Prüfgrößen unterscheiden sich leicht. Dies brauchen wir aber
nicht weiter zu berücksichtigen. Im Detail der statistischen Formeln existieren für viele
Tests Varianten, und die statistischen Programmpakete verwenden öfter unterschiedliche
Möglichkeiten der Berechnung. Wichtig ist das übereinstimmende Resultat: Die Nullhy-
pothese ist auf dem 1-%-Niveau abzulehnen. Damit wäre unsere Modellspezifikation zu
verwerfen. Allerdings ist unser Datensatz mit über 1000 Beobachtungen groß, so dass
unter Umständen ein zwar signifikantes, aber nicht relevantes Testresultat vorliegt.
Für den Box-Tidwell-Test bildet man die Interaktionseffekte der metrisch skalierten
unabhängigen Variablen eines Modells jeweils mit ihren eigenen logarithmierten Werten.
Diese Interaktionseffekte werden als zusätzliche unabhängige Variable in das Modell auf-
genommen. Sind diese Interaktionseffekte signifikant, liegt ein nicht linearer Zusammen-
hang zwischen der Z-Funktion und den Logits vor. Wir müssen unser Modell dann also
anders spezifizieren. Naheliegend ist es, signifikante Interaktionseffekte in der Spezifika-
tion zu berücksichtigen. Werden die involvierten metrisch skalierten unabhängigen Vari-
ablen inhaltlich ausgewertet – dienen sie also nicht nur als Kontrollvariablen –, hat dies
Konsequenzen für deren Interpretation. Der Einfluss der Veränderung einer solchen me
trisch skalierten Variablen besteht jetzt aus der gemeinsamen Wirkung von Haupt- und
Interaktionseffekt.
Der Box-Tidwell-Test ergibt, dass die Interaktionsvariable auf dem 5-%-Niveau nicht
signifikant ist (nur auf dem 10-%-Niveau ist sie signifikant). Die Schätzungen für den Ein-
fluss des Geschlechts und der Passagierklassen ändern sich praktisch nicht. Die Klassifi-
zierungstabelle macht deutlich, dass die Zahl der richtig als „Überlebend“ bzw. „Nicht
überlebend“ klassifizierten Passagiere von 78,5 % auf 79,3 % gestiegen ist. Es handelt sich
um ein nicht ganz eindeutiges Ergebnis: Bestimmte Nichtlinearitäten scheinen im Modell
vorzuliegen, die eventuell modelliert werden müssen.
Welche Schlussfolgerungen sind an dieser Stelle zu ziehen? Das Gesamtmodell ist als
höchst signifikant (Likelihood-Ratio-Test) und sehr gut (Pseudo-R2-Werte) einzuschätzen.
15
Bei einer sehr hohen Zahl von Beobachtungen werden auch minimale Unterschiede signifikant.
Das heißt, die Signifikanz sagt noch nichts über die Relevanz (im Rahmen der OLS-Regression
siehe dazu Stoetzer 2017, S. 47, 200–203). Der Pearson-Chi2-Test ist ähnlich aufgebaut und prüft
ebenfalls die Nullhypothese, dass keine Differenz zwischen geschätzten und beobachteten Fällen
vorliegt. Der Hosmer-Lemeshow-Test wird aber häufig als überlegenes Prüfverfahren angesehen.
Hosmer et al. (1997) sowie Allison (2014) vergleichen verschiedene Testverfahren.
Allerdings könnte die Spezifikation unseres Modells den wahren Zusammenhängen im

Datensatz evtl. nur bedingt entsprechen (Hosmer-Lemeshow-Test und Box-Tidwell-Test).
Stößt man im Rahmen einer eigenen empirischen Schätzung auf solch einen Befund, wäre
dies genauer zu untersuchen.
Ausreißer und einflussreiche Beobachtungen werden in der logistischen Regression
prinzipiell so analysiert wie in der linearen OLS-Regression. Dabei unterziehen wir ins-
besondere die Residuen einer genaueren Analyse. In der logistischen Regression existie-
ren aber drei verschiedene Formen von Residuen – nämlich für erstens die Koeffizienten
der Logits, zweitens die Odds Ratios und drittens die geschätzten Wahrscheinlichkeiten
(Predicted Probabilities). Wir fokussieren – wie in der Literatur üblich – hier nur die letz-
teren. Die abhängige Variable weist lediglich die Werte 0 oder 1 auf, und die geschätzten
Wahrscheinlichkeiten liegen ebenfalls zwischen minimal 0 und maximal 1. Deswegen be-
finden sich die einfachen Residuen auch im Wertebereich von −1 bis +1. Daher ist die
Berechnung der einschlägigen Prüfgrößen (standardisierte Residuen, Leverage usw.) deut-
lich komplexer und erfolgt in den verschiedenen statistischen Softwareprogrammen auf
sehr unterschiedliche Art und Weise. SPSS und Stata ermitteln für die im Folgenden er-
läuterten Prüfgrößen – bei ansonsten identischen Schätzergebnissen des Titanic-Modells –
fast ausnahmslos unterschiedliche Werte.16 Es wird daher jeweils darauf hingewiesen, ob
es sich um das Ergebnis von SPSS oder Stata handelt.
Noch weniger als in der linearen OLS-Regression sind eindeutige Tests und klare kriti-
sche Grenzwerte vorhanden. Einzelne Prüfgrößen besitzen immer nur begrenzte Aussage-
kraft. Es ist daher angeraten, erstens mehrere der vorhandenen Methoden einzusetzen und
ihre Ergebnisse zu vergleichen. Zweitens sollten grafische Darstellungen zur Identifizie-
rung solcher ggf. problematischer Beobachtungen verwendet werden.
Ausreißer sind anhand ihrer z-standardisierten Residuen feststellbar. Sie werden auch
als Pearson-Residuen bezeichnet und sind in großen Stichproben standardnormalverteilt.
Das heißt, 95 % aller Beobachtungen sollten im Bereich zwischen −2 und +2 bzw. 99 %
der Fälle zwischen −2,5 und +2,5 liegen. Der übliche Grenzwert für heikle Beobachtun-
gen liegt bei > |3|. SPSS nennt die z-standardisierten Residuen „normalisierte Residuen“
und kürzt sie mit ZRESID ab. Im Titanic-Beispiel besitzt in SPSS der dritte Passagier in
Tab. 2.3 ein z-standardisiertes Residuum von −5,622. Es handelt sich um die Beobachtung
mit dem größten (absoluten) z-standardisierten Residuum im Datenfile. Schon das einfa-
che Residuum war mit −0,9693 eine extreme Abweichung von tatsächlicher und geschätz-
ter Rettungswahrscheinlichkeit (Y − Y ˆ ∗, hier also 0 − 0,9693, gleich −0,9693). SPSS
16
SPSS arbeitet in der Prozedur LOGISTIC mit allen Beobachtungen, d. h. mit Individualresiduen.
Stata berücksichtigt, dass einige Beobachtungen identische Strukturen der Kovariaten aufweisen
und aggregiert diese (Gruppenresiduen). Unter bestimmten Bedingungen ist die Berechnung auf
aggregierter Basis vorzuziehen bzw. einige Tests setzen dies voraus, bspw. die hier nicht behandelte
Devianz (Hosmer et al. 2013, S. 155). Verschiedene Warnungsmeldungen von SPSS im Output der
logistischen Regressionsverfahren sind auf dieses Problem zurückzuführen. Die Prozedur NOM-
REG in SPSS verwendet ebenfalls Gruppenresiduen. Genauere Darstellungen finden sich bei Bal-
tes-Götz (2012) und Hosmer et al. (2013, S. 186–202).
e rmittelt insgesamt drei Fälle mit z-standardisierten Residuen, deren Absolutwert größer
als 3 ist. Stata findet dagegen 45 Beobachtungen mit einem Pearson-Residuum größer als
|3|, darunter die dritte Beobachtung mit einem Wert von −5,622. Nur bei dieser Beobach-
tung stimmen die z-standardisierten Werte von SPSS und Stata überein.17 Als Beispiel für
eine grafische Analyse präsentiert Abb. 2.10 die Residuen der SPSS Prozedur LOGIS-
TIC. Die geschätzte Überlebenswahrscheinlichkeit befindet sich auf der x-Achse und die
standardisierten (normalisierten) Residuen auf der y-Achse.
Die Verteilung dieser Residuen weist Strukturen auf, die sich deutlich von der OLS-Re-
gression unterscheiden. Für jede geschätzte Überlebenswahrscheinlichkeit (d. h. vorher-
gesagte Wahrscheinlichkeit) können nur zwei Werte der Residuen auftreten, da ja nur zwei
Werte der abhängigen Variablen existieren (0 oder 1). Oberhalb der Nulllinie befinden sich
links oben Passagiere mit einer sehr kleinen geschätzten Überlebenswahrscheinlichkeit
(alte männliche Passagiere der dritten Klasse), die überlebt haben. Für sie ist das Resi-
duum Y − Y ˆ ∗ positiv und groß. Unterhalb der Nulllinie und rechts unten gilt das Gegen-
teil. Es handelt sich um Passagiere mit einer sehr hohen geschätzten Wahrscheinlichkeit
des Überlebens, die nicht gerettet wurden (sehr junge weibliche Passagiere der ersten
Klasse). Hier entdecken wir ganz rechts unten unsere Beobachtung Nummer 3, die als
Ausreißer deutlich heraussticht.
Eine Überprüfung dieser Fälle ergibt aber, dass kein Datenübertragungsfehler o. Ä. vor-
liegt. Wir behalten die Beobachtungen daher selbstverständlich weiter in unserem Daten-
satz, da kein inhaltlicher Grund existiert, sie auszuschließen.
Analog zu den entsprechenden Analysegrößen und Verfahren in der OLS-Regression
können auch hier einflussreiche Beobachtungen ermittelt werden.18 Die dazu verwende-
ten Prüfgrößen wie bspw. Cook’s D, Hebelwert und DFBETA orientieren sich an der Re-
siduenanalyse der OLS-Regression. Daher werden sie hier nicht noch einmal erläutert
(siehe dazu Stoetzer 2017, Abschn. 5.6). Der Schwellenwert, der nicht überschritten wer-
den sollte, liegt für Cook’s D bei 1. Bei dem Hebelwert (Leverage) beträgt er (2k + 2)/N
hier also 10/N, d. h. 0,0096.19 Der kritische Wert des DFBETA beläuft sich auf 1. Wir
beschränken uns auf die Analyse der genannten drei Indikatoren. Zu beachten ist, dass die
Entdeckung einflussreicher Beobachtungen per se noch kein Grund für Eingriffe in den
Datensatz oder Änderungen der Modellspezifikation ist!
Im Fall der Titanic beziffert sich in SPSS der größte Cook’s D auf 0,0944, der maxi-
male Hebelwert beträgt 0,0173 und die DFBETA-Werte der unabhängigen Variablen lie-
17
Die Ursache sind die erwähnten unterschiedlichen Berechnungsformeln in SPSS und Stata. Die
dritte Beobachtung ist hinsichtlich der Ausprägungen der unabhängigen Variable singulär. Daher
sind nur in diesem Fall die z-standardisierten Residuen von SPSS und Stata identisch.
18
Ausreißer mit einem großen Residuum sind nicht unbedingt einflussreiche Fälle, und umgekehrt
liegen bei einflussreichen Beobachtungen nicht in jedem Fall große Residuen vor (Stoetzer 2017,
Abschn. 5.6; Baltes-Götz 2012, S. 34).
19
Siehe Field (2018, S. 909). Halten wir uns beim Hebelwert alternativ an den von Menard (2002,
S. 84) postulierten Grenzwert, lautet die Schwelle (k + 1)/N. Dies führt dann zu einem Grenzwert
von 0,0048.
Abb. 2.10 Grafische Analyse der Ausreißer
gen zwischen −0,0539 und 0,0225. Der Hebelwert von 0,0173 findet sich bei dem Passa-
gier mit der Fallnummer 414. Stata berechnet eine maximale Leverage von 0,0618 für
insgesamt 12 Passagiere, bspw. die Beobachtung Nummer 553. Die grafische Darstellung
dieser Hebelwerte findet sich in Abb. 2.11.20
Aber auch bei diesen Beobachtungen sind keine Übertragungs- oder Kodierungsfehler
festzustellen. Insgesamt ergeben sich also keine Hinweise auf außergewöhnlich einfluss-
reiche Beobachtungen, die Anlass zu weiteren Analysen geben.
In der Zusammenschau fällt auf, dass bei Passagieren der dritten Klasse häufiger Ab-
weichungen in Form von Ausreißern und einflussreichen Fällen vorhanden sind. Das deu-
tet darauf hin, dass vor allem in der dritten Klasse unser Modell mit den drei Einflussfak-
toren Age, Female und Pass_class nur begrenzt die Überlebenswahrscheinlichkeit des
einzelnen Passagiers erklären kann.
Die Fehler müssen eine i.i.d.-Verteilung (independent identically distributed) aufwei-
sen. Korrelationen der Residuen (Heteroskedastie bzw. Autokorrelation) sind Ver-
stöße gegen diese Annahme. Im Kontext der logistischen Regression wird in der Literatur
manchmal der Begriff Overdispersion (oder auch Correlated Data) verwendet, um die-
ses Problem zu kennzeichnen.21 Die Fehler besitzen dann eine erkennbare Struktur (ein
Muster) und sind nicht rein zufällig verteilt.
20
Die Punkte im Diagramm sind nicht einzelne Beobachtungen, sondern repräsentieren ggf. mehrere
oder sogar viele Beobachtungen mit einer identischen Struktur der Kovariaten. Bspw. repräsentiert
der höchste Punkt in Abb. 2.11 insgesamt 12 Passagiere.
21
Zum Teil wird der Begriff Overdispersion aber für die im Abschn. 2.4.1 kurz erläuterten logisti-
Abb. 2.11 Grafische Analyse der Leverage
Mit dem Problem wird in der Literatur sehr unterschiedlich umgegangen. Insbesondere
anwendungsorientierte Darstellungen behandeln es häufig überhaupt nicht (bspw. Back-
haus et al. 2015). Andere Autoren betonen die außerordentliche Relevanz (bspw. Williams
2010 und Giles 2011). Übereinstimmend unterstreichen verschiedene Standardlehrbücher
die hohe Komplexität und Unsicherheit hinsichtlich des Umgangs mit dem Problem (Hilbe
2009 Kap. 9; Long und Freese 2014, Kap. 3.1.9).
Die Konsequenzen von Heteroskedastie, d. h. heterogenen Varianzen verschiedener
Kategorien einer Variablen, sind prinzipiell erheblich schwerwiegender als bei der linea-
ren OLS-Regression. Es sind nicht nur die Standardfehler und damit die statistischen Tests
der Koeffizienten, sondern darüber hinaus auch die Koeffizientenschätzungen (Logits und
Odds Ratios) selbst inkonsistent bzw. verzerrt (Williams 2010). Hinzu kommt, dass gene-
rell fehlende Variablen, selbst wenn sie keine Korrelation mit den unabhängigen Variablen
des Modells aufweisen, die Schätzungen der Logits und Odds Ratios verzerren. Das Pro-
blem des Omitted Variable Bias (der unbeobachteten Heterogenität) ist dann immer viru-
lent. Heteroskedastie und Autokorrelation sind häufig Indizien für eine solche Fehlspezi-
fikation, die relevante Variablen nicht im Modell berücksichtigt hat.22 Dagegen sind die
schen Modelle mit ordinalen oder multinomialen abhängigen Variablen reserviert.

22
Eine weitere Konsequenz ist, dass die Koeffizientenschätzungen (Logits und Odds Ratios) zwi-
schen verschiedenen Datensätzen (Stichproben) nur vergleichbar sind, wenn die unbeobachtete He-
terogenität bzw. Heteroskedastie übereinstimmt. Mood (2010) und Williams (2010) sind genauere
nachvollziehbare Darstellungen dieser Probleme. Wooldridge (2010, S. 599–604) erläutert die Zu-
sammenhänge und Abwägung zwischen Normalverteilung, Heteroskedastie und Konsistenz der ge-
Schätzungen der durchschnittlichen marginalen Effekte AME und die MEM im Allgemei-
nen davon nicht betroffen (Mood 2010).
Zur Überprüfung im Rahmen der logistischen Regression existieren keine allgemein
etablierten Testverfahren. Was auch daran liegt, dass wir die Fehler nicht kennen, sondern
diese anhand der geschätzten Residuen analysieren müssen. Diese sind in der logistischen
Regression nicht wie in der linearen OLS-Regression eindeutig zu berechnen, da ja noch
die latente Variable Y* und deren Varianz, die uns beide unbekannt sind, zwischen den
beobachteten Werten von Y und den Z-Werten liegen, die ebenfalls geschätzt werden müs-
sen. Die Residuen der logistischen Regression in Form der Differenz Y − Y ˆ ∗ besitzen –
wie bereits deutlich geworden ist – immer Strukturen bzw. Muster, sind also nicht zufalls-
verteilt. Im Titanic-Beispiel ist es plausibel, dass die Varianz für Frauen geringer ist als für
Männer (fast alle Frauen überlebten, während bei den Männern weitere Faktoren einfluss-
reich waren), oder die Varianz mit zunehmendem Alter deutlich steigt. Dies etwa, weil fast
alle Kinder in die Rettungsboote aufgenommen wurden, während bei alten Menschen das
zufällig in den Rettungsbooten mehr oder weniger ausgeprägte Mitleid mit alten Men-
schen den Ausschlag gab. Die Überprüfung der Spezifikation mittels des Hosmer-Lemes-
how-Tests oder Analysen der Residuen auf Ausreißer bzw. einflussreiche Beobachtungen
sind mögliche Ansätze (Hosmer et al. 2013, S. 354–365).
In der Literatur ist strittig, wie mit dem Problem umzugehen ist. Liegen Muster in den
Fehlern vor (bzw. ist dies zu vermuten), können erstens robuste und insbesondere clus-
ter-robuste Standardfehler berechnet werden.23 Wie oben erläutert, sind im Fall der Ti-
tanic das Geschlecht und das Alter der Passagiere mögliche Cluster. Alternativ kann auch
die Bootstrapping-Methode verwendet werden (Wooldridge 2018, S. 203–204).
Zweitens ist es möglich, das Problem zu berücksichtigen, in dem unterschiedliche Va-
rianzen explizit in das Schätzmodell aufgenommen werden (Modelle multiplikativer He-
teroskedastie). So wird versucht, die Ursachen der Heteroskedastie zu modellieren. Sie
führen (bei richtiger Spezifikation) zu verlässlichen Schätzungen der unbekannten wahren
Standardfehler und der Koeffizienten (Hosmer et al. 2013; S. 339, Williams 2010). Jedoch
sind die Resultate in hohem Maß von der korrekten Spezifikation der Heteroskedastie (den
Ursachen der unterschiedlichen Varianzen) abhängig und daher ebenfalls problematisch
(Keele und Park 2005).
schätzten Koeffizienten. Urban und Mayerl (2018, S. 430–435) enthalten eine kurze und Hosmer
et al. (2013, S. 313–375) ausführliche Erläuterungen.
23
Die aus der linearen OLS-Regression bekannten (einfachen) robusten Standardfehler (Stoetzer
2017, Abschn. 5.2 und 5.3) helfen nach Cameron und Trivedi (2010, S. 462) nicht weiter, werden
aber andererseits von Long und Freese (2014, S. 103–105) empfohlen, um Fehlspezifikationen zu
identifizieren. Allerdings führt die Verwendung von clusterrobusten Standardfehlern bei zu wenigen
Clustern (bspw. weniger als 15) zu fehlerhaften Resultaten (Angrist und Pischke 2009, S. 319). Nach
Greene (2018, S. 744–745) ist im Einzelfall unklar, ob die Verwendung robuster Standardfehler vor-
teilhaft ist.
In der angewandten empirischen logistischen Regression wird Heteroskedastie in der

Regel nicht weiter überprüft. Pragmatisch werden im Folgenden zwei Vorgehensweisen
empfohlen.
Eine erste Faustregel besteht darin, die normalen und die robusten Standardfehler der
logistischen Regression zu vergleichen. Weichen sie nicht stark voneinander ab, können
wir über das Problem hinwegsehen. Bei großen Unterschieden der Standardfehler ist dies
vor allem als Hinweis auf Fehlspezifikation zu betrachten (Giles 2011; Cameron und Tri-
vedi 2005, S. 462; Long und Freese 2014, S. 104). Es ist daher als Konsequenz die Spezi-
fikation der logistischen Regression zu modifizieren (bzgl. der gewählten Link-Funktion,
weiterer relevanter unabhängiger Variablen, möglicher Interaktionseffekte usw.).
Zweitens ist nach Mood (2010) im Hinblick auf das Problem unbeobachteter Hetero-
genität die Verwendung des Linear Probability Model mit robusten Standardfehlern an-
geraten, da die genannten Schwierigkeiten der logistischen Regression bei der linearen
OLS-Regression nicht auftreten. Weil im Linear Probability Model die Schätzungen der
Koeffizienten konsistent und unverzerrt sind, kann dies eine bessere Alternative sein
(Wooldridge 2010, S. 584; Angrist und Pischke 2009, S. 94, 107). Dies gilt insbesondere,
wenn wir nur an der Richtung des Einflusses (also dem Vorzeichen) der unabhängigen
Variablen, ihrem durchschnittlichen Einfluss und ihrer Signifikanz interessiert sind. Au-
ßerdem entsprechen die Koeffizienten des linearen Wahrscheinlichkeitsmodells in der Re-
gel den AME. Es ist allerdings darauf zu achten, dass die AME nicht – wie in der OLS-Re-
gression – als konstanter linearer Einfluss interpretiert werden. Ein solcher existiert
approximativ in der Mitte der Funktion (siehe Abb. 2.6), gilt aber nicht für die Extrem-
werte. Grafische Darstellungen wie in Abb. 2.9 sind geeignet, eine solche falsche Inter-
pretation zu vermeiden.
Die genannten Verfahren der Ermittlung robuster Standardfehler bzw. des Bootstrap-
ping unterscheiden sich hinsichtlich ihrer Implementation in SPSS und Stata deutlich. Im
Fall der Titanic führt die Schätzung robuster Standardfehler mit verschiedenen Methoden
jedoch zu keinen (wesentlich) anderen Schlussfolgerungen. Angrist und Pischke (2009,
S. 293–325) stellen verschiedene Formen von (cluster-)robusten Standardfehlern und die
damit verbundenen Probleme dar.
Da Multikollinearität sich auf die unabhängigen Variablen bezieht, unterscheiden sich
die Analyse und der Umgang mit diesem Problem nicht von der einfachen linearen Re-
gression. Wir können daher die in SPSS und Stata im Rahmen der OLS-Regression vor-
handenen Methoden zur Überprüfung von Multikollinearität – bspw. die VIF (Variance
Inflation Factors) – einsetzen (siehe dazu Stoetzer 2017, Abschn. 5.5). Die VIF-Werte des
Titanic-Modells liegen für alle unabhängigen Variablen unter 2 und sind deutlich kleiner
als der kritische Grenzwert von 5. Multikollinearität wirft in unserem Modell folglich
keine Probleme auf.
Komplette Separierung (Complete Separation): Abb. 2.12 illustriert den Fall voll-
ständiger Separation anhand unseres Mieter-Eigentümer-Beispiels. Hier sind alle Haus-
halte mit einem (Monatsnetto-)Einkommen von über 4000 Euro Wohnungseigentümer.
Alle Haushalte mit weniger als 2000 Euro Einkommen sind Mieter ihrer Wohnung. Durch
diese vollständige Trennung ist zwar eine perfekte Vorhersage (Perfect Prediction) mög-
lich. Gleichzeitig ist es aber unmöglich, den Übergang von Miete zu Eigentum exakt zu
bestimmen. Dies geht weder hinsichtlich der Lage noch bezüglich des Verlaufs der Lo-
git-Funktion (wo beginnt sie und wie steil oder flach ist sie?). Zwischen 2000 und
4000 Euro existiert eine Lücke, in der keine Beobachtungen vorhanden sind. Die Konse-
quenz ist, dass auch keine logistische Regressionsfunktion berechenbar ist.
Allgemein müssen, die Beobachtungswerte sich überlappen, damit Funktionsverläufe
und Standardfehler geschätzt werden können. Wenn das Problem vollständiger Separie-
rung existiert, weisen SPSS und Stata ggf. darauf hin (ähnlich wie bei perfekter Multikol-
linearität). Die entsprechende Warnung lautet bei Stata „Observations completely determi-
ned. Standard errors questionable.“ SPSS meldet „Schätzung beendet bei Iteration
Nummer …, weil perfekte Anpassung erkannt wird. Diese Lösung ist nicht eindeutig.“
Das Problem wird uns also von der Software mitgeteilt. Schwieriger ist die Situation bei
quasi kompletter Separierung (quasi vollständiger Trennung), wenn von bspw. 100
Haushalten nur einer mit hohem Einkommen kein Wohneigentum besitzt und nur ein
Haushalt mit geringem Einkommen Eigentümer ist. Die Schätzung wird dann u. U. von
der Statistiksoftware durchgeführt. Sie ist aber nicht verlässlich, was sich an unplausibel
großen Koeffizientenschätzungen und insbesondere Standardfehlern bemerkbar macht.
Das heißt für unser Beispiel, es müssen im Datensatz ausreichend viele hohe Einkom-
mensbezieher auch Mieter sein bzw. Haushalte mit niedrigem Einkommen müssen Eigen-
tümer sein.
Ein ähnliches Problem liegt bei einer fehlenden oder zu geringen Zellenbesetzung
vor. Sie bezieht sich erstens auf die abhängige Variable. Hier müssen ausreichend viele
Zahlen von Beobachtungen für beide Ausprägungen der binären abhängigen Variablen
existieren. Wenn im Datenfile zur Frage „Miete oder Eigentum?“ 100 Beobachtungen vor-
liegen und darunter nur 5 Eigentümer sind, ist eine verlässliche Schätzung nicht zu erwar-
ten. Außerdem tritt das Problem auf, wenn die abhängige Variable bei bestimmten Aus-
Eigentümer 1
Mieter 0
2000 4000 X
Einkommen
Abb. 2.12 Vollständige Separation

prägungen der unabhängigen Variablen immer gleich ist. Dies wäre im Titanic-Fall
gegeben, wenn alle Männer ertrunken wären. In dieser Situation ist wieder eine perfekte
Vorhersage möglich, aber keine Schätzung von Überlebenswahrscheinlichkeiten für Män-
ner im Vergleich zu Frauen.
Zweitens besagt sie, dass für bestimmte Kombinationen der Ausprägungen der unab-
hängigen Variablen nur sehr wenige oder keine Beobachtungen vorhanden sind. Im Tita-
nic-Beispiel verwenden wir nur zwei nominal skalierte Variablen Female mit zwei Aus-
prägungen (Mann – Frau) und Pass_Class mit drei Ausprägungen (erste, zweite und dritte
Klasse), insoweit existieren also sechs Zellen, d. h. Merkmalskombinationen. Verfügen
wir über zwei weitere unabhängige Variablen (Nichtschwimmer – Schwimmer, verheira-
tet – unverheiratet), steigt die Zahl der Zellen schon auf 24. Auch wenn für alle diese Ein-
flussfaktoren jeweils separat betrachtet bei allen Beobachtungen Datenwerte vorliegen,
existiert ein Passagier mit einer bestimmten Kombination von Merkmalen im Datensatz
u. U. nicht – etwa eine weibliche unverheiratete Nichtschwimmerin der ersten Klasse. Es
ist intuitiv nachvollziehbar, dass dann eine mathematische Berechnung von Überlebens-
wahrscheinlichkeiten schwierig bzw. überhaupt nicht möglich ist.
Verallgemeinert bedeutet dies, dass bei einer zu geringen Zahl von Beobachtungen bei
bestimmten Merkmalskombinationen und/oder wenn die abhängige Variable bei diesen
nicht variiert, die Ermittlung von Wahrscheinlichkeiten nicht möglich, schwierig und we-
nig verlässlich ist. Das Problem ist in erster Linie hinsichtlich der nominal skalierten Va-
riablen relevant und wird mittels einer Kreuz-(Kontingenz)-Tabelle der Merkmalskombi-
nationen überprüft. Hinsichtlich der metrisch skalierten Einflussfaktoren spielt das
Problem keine Rolle. Bei unserer metrisch skalierten Variable Age sind nicht alle Alters-
jahre vorhanden – bspw. gibt es keine Passagiere mit 68 oder 69 Jahren. Dies führt aber
nicht zu Schwierigkeiten, da man von einem kontinuierlichen Einfluss des Alters ausgeht.
Die fehlenden Jahre werden sozusagen implizit aufgefüllt, indem ihr Einfluss als „struktu-
rell identisch“ mit den Altersjahren davor und danach angesehen wird.24 Eine ähnliche
Überlegung gilt bezüglich ordinal skalierter Kovariaten.
Tab. 2.4 enthält die Kreuztabelle der nominal skalierten Variablen im Fall der Titanic.
Es existieren 6 Zellen. Die erste Zelle oben links sagt uns, dass 151 männliche Passa-
giere die erste Klasse gebucht haben. Die Häufigkeiten sind in allen 6 Zellen sehr hoch, so
dass keine Hindernisse bei der Schätzung zu erwarten sind.
Dagegen wird das Problem bei einer nominal skalierten Variablen mit mehreren (oder
sogar vielen) Kategorien häufig virulent. Eine Lösung ist dann das Zusammenlegen von
Kategorien. Auf der Titanic waren ca. 25 Nationalitäten vertreten. Daraus ergeben sich
24
Das Problem tritt aber bei metrisch skalierten unabhängigen Variablen bezüglich der Prüfgrößen
Pearson-Chi2-Test und Devianz auf, da diese auf dem Vergleich von beobachteten und erwarteten
Häufigkeiten in den Zellen beruhen und bei metrisch skalierten Variablen extrem viele Zellen ge-
bildet werden (Allison 2014, S. 5) Für die Variable Age des Titanic-Datensatzes existieren bspw. 97
verschiedene Altersstufen, da bei einer Reihe von Passagieren auch Monate erfasst sind. Bei dem
oben erläuterten Hosmer-Lemeshow-Test wird das durch die Bildung von 10 Kategorien vermieden.
bereits 150 Zellen (6 × 25). Eine mögliche Aggregation ist bspw. „Briten, US-Amerikaner,
Iren, Sonstige“. Menard (2002, S. 78–80) und Hosmer et al. (2013, S. 145–150) stellen die
Zusammenhänge und Lösungsmöglichkeiten dar.
2.3.4 Ergänzungen und Fazit
Wie bei der linearen OLS-Regression und anderen Verfahren ist die logistische Regression
in allen ihren Varianten nur dann als kausale Wirkung der unabhängigen auf die abhängige
Variable zu interpretieren, wenn der zugrundliegende Datensatz in einem RCT (Rando-
mized Controlled Trial) erhoben worden ist. Andernfalls sind weitere spezielle Verfahren
notwendig, um kausale Beziehungen zu identifizieren (siehe dazu Kap. 1). Für Prognose-
zwecke ist die logistische Regression aber in vielfältiger Weise einsetzbar, ohne dass kau-
sale Einflüsse vorhanden sein müssen.
Die ML-Schätzung der Koeffizienten der logistischen Regression ist selbst asympto-
tisch nicht konsistent, wenn das Modell fehlspezifiziert ist, was unter einer Reihe von
Aspekten (bspw. unbeobachteter Heterogenität) auftreten kann. Auch die Verwendung ro-
buster Schätzer der Standardfehler ändert daran nichts. Da in der angewandten empiri-
schen Forschung dies (fast) nie eine Rolle spielt, wird darauf nicht weiter eingegangen.
Wir unterstellen – wie in der Literatur üblich –, dass nach Abschluss der Analysen und
Tests des Abschn. 2.3.3 und den ggf. vorgenommenen Veränderungen unsere Regressions-
gleichung richtig spezifiziert ist.25
Praktisches Beispiel: Kreditvergabe in der Europäischen Union

Als Konsequenz der Finanzkrise sind seit 2008 die Eigenmittelvorschriften der Banken in
der Europäischen Union (EU) deutlich verschärft worden (CCR – Capital Requirements
Regulation). Eine zentrale Rolle spielt dabei die Liquiditätsdeckungsquote (Liquidity Co-
verage Ratio – LCR). Die LCR ist eine im Zuge von Basel III etablierte Kennzahl zur
Tab. 2.4 Kreuztabelle der kategorialen Variablen
Pass_class
Female 1 2 3 Total
--------------------------------------------------------
0 151 158 349 658
1 133 103 152 388
--------------------------------------------------------
Total 284 261 501 1,046
Die kürzeste und klarste Darstellung dazu gibt Greene (2018, S. 744–745).
25
Bewertung des kurzfristigen Liquiditätsrisikos von Kreditinstituten und beschreibt das

Verhältnis des Bestands als erstklassig eingestufter Aktiva zum gesamten Nettoabfluss der
nächsten 30 Tage. Eine mögliche unerwünschte Folge der LCR-Vorschriften ist eine Ver-
ringerung der Kreditvergabe der Banken. Die EBA (European Banking Authority) hat dies
mittels einer logistischen Regression analysiert. Die binäre abhängige Variable besitzt den
Wert 1, falls eine Bank im Zeitraum 2016–2018 ihre Kreditvergabe verringert hat (siehe
Abb. 2.13).
Die unabhängige Variable Lcr_2016<134 % ist eine Dummyvariable mit dem Wert 1,
falls die LCR einer Bank unter 134 % liegt. Die Kontrollvariable ln_TA_2016 bildet die
Größe einer Bank ab. Sie entspricht dem natürlichen Logarithmus der gesamten Bilanz-
summe. Die Stichprobe umfasst 105 Banken aus 24 Staaten der EU. Der geschätzte Koef-
fizient 1,0986 der Variable Lcr_2016<134 % ist auf dem 2-%-Niveau signifikant. Banken
mit einem LCR von unter 134 % haben in den folgenden zwei Jahren mit größerer Wahr-
scheinlichkeit weniger Kredite vergeben als Banken mit einem LCR von mehr als 134 %.
Das Chancenverhältnis liegt bei 3,0. Das heißt, das Kreditvolumen der Banken mit einem
niedrigeren LCR ist mit einer dreimal so hohen relativen Wahrscheinlichkeit geringer als bei
Banken mit einem hohen LCR. Allerdings ist bei einem um zusätzliche Kontrollvariablen
erweiterten Modell der Einfluss der Variable Lcr_2016<134 % nicht mehr signifikant.
Die Interpretation der Koeffizientenschätzungen ist hier nur in den Grundzügen dar-
gestellt. Die Logit-Koeffizienten und die Odds Ratios sollten beim Vergleich mit Schät-
zungen auf anderer Datenbasis und differierender Modellspezifikation nur hinsichtlich der
Wirkungsrichtung, aber nicht bezüglich ihrer Größe interpretiert werden. Die AME (Ave-
rage Marginal Effects) und deren grafische Darstellung sind bei der Ableitung inhaltlicher
Abb. 2.13 Verringerung der Kreditvergabe. (Quelle: European Banking Authority (2019, S. 42–47))
Aussagen deutlich überlegen. Dies gilt unter anderem, weil sie auch bei unbeobachteter
Heterogenität konsistente Schätzungen sind (Wooldridge 2010, S. 584). Ausführlichere
Erläuterungen finden sich bei Field (2018, Kap. 8), Urban und Mayerl (2018, S. 387–414)
und Menard (2002, S. 41–66).
Für die Auswertung ist auf die Kodierungen der binären Variablen zu achten. Ins-
besondere muss bei der abhängigen und allen unabhängigen kategorialen Variablen klar
sein, welche Kategorie als Referenzkategorie dient und daher von uns mit dem Wert 0
kodiert wird. Dabei ist es häufig sinnvoll, die Kategorie, an der wir aus inhaltlichen Grün-
den interessiert sind, mit dem Wert 1 zu kodieren. Dies war die Frage des Einflusses des
Einkommens auf das Wohneigentum bzw. die Frage, wovon das Überleben des Titanic
Unglücks abhängt. Wohneigentümer und Überlebende sind daher als 1 kodiert worden.
Bei den unabhängigen Variablen des Titanic-Beispiels hat uns interessiert, ob Frauen und
Passagiere der ersten Klasse eine höhere Überlebenswahrscheinlichkeit haben. Frauen er-
halten daher als Dummyvariablen den Wert 1. Entsprechend dienen Männer als Referenz-
kategorien und werden mit 0 kodiert. Um die Passagiere der ersten Klasse in einem Schritt
mit der zweiten und auch der dritten Klasse zu vergleichen, ist es sinnvoll, die erste Klasse
als Referenzkategorie mit 0 zu kodieren. So lässt sich feststellen, ob die zweite und auch
die dritte Klasse eine vergleichsweise geringere Überlebenswahrscheinlichkeit besitzen.
Der notwendige Stichprobenumfang logistischer Regressionen ist wegen des
Maximum-Likelihood-Schätzverfahrens größer als bei der OLS-Regression. Gelegentlich
findet sich in der Literatur die Empfehlung, mindestens über 100 Beobachtungen bzw. bei
vielen Kovariaten über mindestens 20–25 Beobachtungen je unabhängiger Variable zu
verfügen. Eine andere Vorgabe sind mindestens 10 Beobachtungen je unabhängiger Vari-
able einschließlich der Konstanten. Dies bezüglich der Ausprägung der abhängigen Vari-
ablen mit der kleineren Fallzahl. Im Titanic-Datensatz bedeutet das, bei fünf exogenen
Parametern (Konstante, Age, Female und die zweite sowie dritte Passagierklasse Pass_
Class) müssen mindestens je 50 Beobachtungen der Ausprägung Survival = 1 sowie Sur-
vival = 0 vorhanden sein. Diese Regel ergibt also ebenfalls insgesamt eine Untergrenze
von 100 Fällen. Hosmer et al. (2013, S. 401–408) und Long und Freese (2014, S. 85)
enthalten genauere Erläuterungen. Eine Alternative ist die in Stata (aber bisher nicht in
SPSS) vorhandene Option einer „Exakten logistischen Regression“ (Exact Logistic Re-
gression). Dieser Ansatz basiert nicht auf dem ML-Verfahren und ist daher auch auf der
Basis kleiner Samples realisierbar.
Ein Problem der logistischen Regression ist die numerische Stabilität des Schätzver-
fahrens. Wenn die Maximum-Likelihood-Schätzung zu keinem Ergebnis kommt, wird
dies von der Statistiksoftware angezeigt. Es ist aber möglich, dass eine Schätzung berech-
net wird, deren Resultate aufgrund (fast) kompletter Separierung, keiner bzw. zu geringer
Zellenbesetzung oder Multikollinearität inhaltlich falsch sind. Anhaltspunkte für einen
solchen Fehler sind viel zu große und unplausible Schätzungen der Koeffizienten und ins-
besondere der Standardfehler (Hosmer et al. 2013, S. 147).
2.4 ndere Formen abhängiger Variablen mit

A
begrenztem Wertebereich
2.4.1 Ordinale und multinomiale abhängige Variablen
Ordinale Variablen
Binäre (und multinomiale) abhängige Variablen zeichnen sich dadurch aus, dass keine
natürliche, logische Reihenfolge der Entscheidungsmöglichkeiten existiert. Dies ist bei
vielen Entscheidungen bzw. Alternativen anders, die sich durch eine spezifische Ordnung
auszeichnen. Dann liegt ein ordinales Skalenniveau der abhängigen Variablen vor. Diese
können nach einem Kriterium in größer (besser) oder kleiner (schlechter) unterschieden
werden. Beispiele hierfür sind:
• Die Ergebnisse einer Umfrage zur Kundenzufriedenheit, bei der die Befragten auf einer
Skala mit 5 Werten von „vollständig zufrieden“ bis „völlig unzufrieden“ antwor-
ten können.
• Die Ausprägungen des Arbeitsverhältnisses eines Erwerbstätigen von „vollzeitbeschäf-
tigt“ über „teilzeitbeschäftigt“ bis „arbeitslos“.
• Die Entscheidung eines jungen Erwachsenen, nach dem Abitur nicht zu studieren, eine
Berufsakademie zu besuchen, ein Fachhochschulstudium oder ein Universitätsstudium
aufzunehmen.
• Die 7 Investment Grades von AAA bis CCC für Anleihen durch die Ratingagentur
Standard&Poors.
• Der Level des höchsten Bildungsabschlusses einer Person: ohne Schulabschluss, Re-
gelschule, Gymnasialabschluss, abgeschlossenes Studium.
Faktoren, die die Wahrscheinlichkeit einer Beobachtung beeinflussen, bei diesen Rei-
henfolgen auf einer höheren oder niedrigeren Stufe zu liegen, können ebenfalls im Rah-
men der logistischen Regression analysiert werden. Das Schätzverfahren ist daher wieder
die Maximum-Likelihood-Methode. Die wichtigsten Varianten sind das Ordered-Probit-
und das Ordered-Logit-Modell. Die Voraussetzungen, Interpretationen und Probleme
entsprechen zu weiten Teilen der binären logistischen Regression. Dies gilt bspw. hin-
sichtlich des Modellfits (Likelihood-Ratio-Test, Pseudo-R2, Klassifikationstabelle) und
Multikollinearität.
Aber im Unterschied zur binären logistischen Regression ermittelt die Ordered Logis-
tic Regression nicht die Wahrscheinlichkeit P eines bestimmten Outcomes, sondern be-
rechnet die Wahrscheinlichkeit für ein Ereignis und alle Stufen in der Reihenfolge, die
davor liegen. Es wird dabei unterstellt, dass der Einfluss einer unabhängigen Variablen
über alle Stufen der abhängigen Variablen hinweg gleich bleibt. Die Schwellen von einer
zur nächsten Stufe werden geschätzt und als „Thresholds“ bezeichnet. Im Beispiel der
Kundenzufriedenheit auf einer 5-stufigen Skala ergeben sich daher 4 solcher Schwellen-
werte. Ähnlich wie die Konstanten in der linearen OLS-Regression sind sie inhaltlich im
2.4 Andere Formen abhängiger Variablen mit begrenztem Wertebereich 65
Allgemeinen nicht wichtig. Das Interesse konzentriert sich auf die Koeffizientenschätzun-
gen der unabhängigen Variablen. Die Schätzungen werden wie in der logistischen Regres-
sion interpretiert. Positive (negative) Koeffizienten besagen, dass eine Zunahme der be-
treffenden Variablen die Wahrscheinlichkeit, zu einer höheren Stufe der abhängigen
Variablen zu gehören, vergrößert (verkleinert).
Ein weiterer im Vergleich zur binären logistischen Regression neuer Aspekt ist die in
der Ordered Logistic Regression zugrunde gelegte Annahme paralleler Regressionsli-
nien (Parallel Regression Lines Assumption, Proportional Odds Assumption) zwischen
den verschiedenen Stufen der Reihenfolge. Zur Überprüfung existieren Tests, die sowohl
in Stata als auch in SPSS implementiert sind.
Eine spezielle Variante sind Modelle, bei denen die Varianz bei nominalskalierten un-
abhängigen Variablen zwischen den Kategorien bzw. in Abhängigkeit von einer metrisch
skalierten Variablen variieren kann. Das heißt, es liegt Heteroskedastie vor – ein Problem
mit ggf. erheblichen Konsequenzen für die logistischen Regressionsverfahren. Solche
Modelle werden als „Heterogenous Choice Models“, „Heteroskedastic Ordered Models“
bzw. „Location Scale Models“ bezeichnet.
Wichtiger als in der binären logistischen Regression ist die Wahl einer geeigneten
Link-Funktion. Tab. 2.5 enthält dazu einen Überblick.
Die Logit- und Probit-Link-Funktion ist sinnvoll, wenn die Übergänge in der kumulier-
ten Wahrscheinlichkeit über die Stufen graduellen Charakter aufweisen. Die komplemen-
täre Log-Log-Funktion ist zu verwenden, wenn die Wahrscheinlichkeit ausgehend von 0
zunächst langsam steigt und dann sehr schnell den Wert 1 erreicht. Im umgekehrten Fall,
wenn die Wahrscheinlichkeit erst schnell zunimmt und sich dann langsam der 1 nähert,
spricht das für die negative log-log-Funktion. Die Cauchit-Funktion ist bei sehr vielen
extremen Werten der Wahrscheinlichkeiten verwendbar. Die Bezeichnungen in Stata und
SPSS differieren zum Teil. Die cloclog-Funktion in Stata bezeichnet SPSS als nloglog und
Statas log-log-Link-Funktion nennt SPSS cloclog (Williams 2019).
In IBM SPSS existiert dazu die Prozedur PLUM (Polytomous Universal Model), die
im Abschn. 2.5 im Rahmen der Probit-Regression behandelt wird. Sie bietet Möglichkei-
ten, die in der Prozedur-Logistik nicht vorhanden sind – bspw. die Wahl verschiedener
Link-Funktionen und die Schätzung von Modellen, bei denen Heteroskedastie modelliert
wird. Der Parallelitätstest wird von SPSS unter der Bezeichnung „Test of parallelism“ aus-
gegeben. Die Nullhypothese lautet, dass die Einflüsse über alle Stufen hinweg identisch
sind. Wird die Nullhypothese abgelehnt, kann alternativ eine multinomiale logistische Re-
gression durchgeführt werden. Zu den Möglichkeiten des Umgangs mit Heteroskedastie
siehe DeCarlo (2003) und Williams (2010).
Ab der Version 15 offeriert Stata eine ganze Reihe von (zum Teil weiter spezialisierten)
Schätzverfahren. Die Annahme der Parallelität wird mittels des Brant-Tests geprüft. Spe-
zielle Prozeduren zum Umgang mit dem Problem der Heteroskedastie sind in Stata mit
„Hetprob“ und dem oglm-Schätzer verfügbar (Williams 2010, 2016).
Multinomiale Variablen
Tab. 2.5 Anwendungsbereiche Link-Funktion Anwendungsbereich

verschiedener Link-Funktionen Probit Normalverteilte
latente Variable
Logit Extreme sind stärker
als bei der
Normalverteilung
besetzt
Complementary log-log Höhere Werte sind
wahrscheinlicher
(linksschiefe
Verteilung/negative
skew)
Negative log-log Niedrigere Werte
sind
wahrscheinlicher
(rechts-schiefe
Verteilung/positive
skew)
Cauchit Ergebnis mit sehr
vielen extremen
Werten (sowohl
niedrigere als auch
höhere Werte)
Quelle: Norusis (2011, S. 84), DeCarlo (2003, S. 52)
Wahlentscheidungen bzw. Alternativen beziehen sich häufig auf mehr als zwei Kate-
gorien, und zwischen den vorhandenen Möglichkeiten existiert keine Rangordnung. Bei-
spiele dazu sind:
• Eine Person steht vor der Wahl, Pils, Export-, Weizen- oder Schwarzbier zu trinken, das
heißt es existieren vier Alternativen.
• Eine Studierende kann ein Studium der Sozial-, Wirtschafts- oder Ingenieurwissen-
schaften beginnen. Hier werden drei Alternativen betrachtet.
• Die Wahlbürger in Deutschland geben ihre Stimme der CDU/CSU, der FDP, den Grü-
nen, der Linken der SPD oder der AfD. In diesem Beispiel liegen sechs Entscheidungs-
varianten vor.
Auch bei solchen komplexen Alternativen kann der Einfluss möglicher unabhängiger
Variablen auf die Wahrscheinlichkeit, diese oder jene Wahl zu treffen, geschätzt werden.
Dabei finden prinzipiell die gleichen Überlegungen und Verfahren wie bei den binären
Wahlentscheidungen Verwendung, nämlich Maximum-Likelihood-Schätzungen des nicht
linearen Zusammenhangs der abhängigen Variablen, die die Entscheidungsalternativen
abbildet, und mehreren Kovariaten. Die Verfahren firmieren als multinomiale Logit-, mul-
tinomiale Probit- und Conditional-Logit-Schätzungen. Die Wahl einer geeigneten Refe-
renzkategorie ist in diesem Kontext besonders relevant. Die Voreinstellungen in SPSS und
Stata müssen daher ggf. geändert werden. Existieren lediglich zwei Kategorien für die
abhängige Variable, sind die binäre logistische Regression und die multinomiale Regres-
sion identische Verfahren. Für jede Kategorie besagen die geschätzten Koeffizienten der
unabhängigen Variablen, welchen Einfluss sie im Verhältnis zur Referenzkategorie auf die
Wahrscheinlichkeit zu einer bestimmten Kategorie zu gehören, haben.
Je mehr Kategorien beachtet werden sollen, desto mehr Koeffizienten müssen geschätzt
werden. Im Beispiel der Wahlentscheidung für sechs verschiedene Parteien sind dies bei
drei Einflussfaktoren (Einkommen, Geschlecht und Alter) bereits 15 Koeffizienten. Sinn-
vollerweise muss dann eine umfangreiche Zahl von Beobachtungen vorliegen, um tatsäch-
lich vorhandene Einflüsse auch zu ermitteln (also die Nullhypothese ablehnen zu können).
SPSS enthält für die Schätzung die Prozedur NOMREG und Stata die Prozedur mlo-
git. Zu Ordered-Logit- und Multinomial-Logit-Schätzungen bieten Hosmer et al. (2013)
eine gründliche Darstellung. Für Stata ist Long und Freese (2014) ein Standardtext mit
weiter Verbreitung. Die einschlägigen Verfahren in SPSS erläutern Backhaus (2015,
Kap. 5) und Baltes-Götz (2012).
2.4.2 Zählvariablen und spezielle Variablenbeschränkungen
Zählvariablen
Manchmal handelt es sich bei den abhängigen Variablen um eine begrenzte Menge von
Fällen. Die Variable nimmt also den Wert 0 oder einen positiven ganzzahligen Wert an,
wobei nur ein enger Wertebereich relevant ist. Es handelt sich dann um sogenannte Zähl-
variablen (Count Data).
Folgende Beispiele verdeutlichen diese Aussage:
• Die Zahl der Patentanmeldungen von Unternehmen in einem bestimmten Zeitraum.

• Die Häufigkeit der Arztbesuche eines privat Krankenversicherten in einem Quartal.
• Die Zahl der Urlaubsreisen eines Haushalts in einem Jahr.
• die Menge der Arbeitgeber/Beschäftigungsverhältnisse eines Arbeitnehmers während
der letzten 10 Jahre.
• Die Zahl der Kinder eines Ehepaars.
• Die Zahl der im Rahmen von Wohngebäudeversicherungen in Thüringen in den letzten
5 Jahren von Hauseigentümern geltend gemachten Elementarschäden.
In allen Beispielen ist die abhängige Variable ein positiver ganzzahliger Wert innerhalb
eines begrenzten Bereichs bspw. von 0 bis maximal 10 oder 20. Eine lineare OLS-Re-
gression ist auch in diesen Beispielen möglich, wird aber u. U. zu ineffizienten, inkonsis-
tenten und verzerrten Schätzungen führen. Die zugrunde liegende Wahrscheinlichkeits-
verteilung ist hier die Poisson-Verteilung und nicht die Normal- oder logistische Verteilung.
Das Schätzverfahren wird daher als Poisson-Regression bezeichnet. Es interessieren hier
ebenfalls die Einflussfaktoren auf die Wahrscheinlichkeit, dass bspw. ein Unternehmen
mehr als ein Patent pro Jahr anmeldet. Unter Umständen entspricht die abhängige Variable
der Poisson-Verteilung aber nur schlecht, etwa weil die Varianz der abhängigen Variablen
zu groß ist. Eine in dieser Situation angemessene Variante ist die negative binomiale Re-
gression (Negative Binomial Regression). Das letzte der oben aufgeführten Beispiele ist
ein Fall von Zähldaten mit sehr vielen Nullen (Nullenüberschuss, Zero-inflated Models),
da die allermeisten Wohnungseigentümer keinen Elementarschaden erleiden. Dies kann
mit speziellen Verfahren berücksichtigt werden.
Die entsprechenden statistischen Prozeduren sind in SPSS und in Stata alle implemen-
tiert. In Stata finden sich als Standardprozeduren „poisson“ sowie „nbreg“. SPSS ermög-
licht die Poisson-Regression im Rahmen der Verallgemeinerten linearen Modelle (d. h. der
Prozedur GENLIN) ebenfalls in beiden Varianten („Poisson loglinear“ und „Negativ bino-
mial mit Log-Verknüpfung“). SPSS enthält aber standardmäßig keine Prozedur zur Durch-
führung einer Zero-inflated Regression.
Faktisch begrenzte abhängige Variablen

Ein Sonderfall sind prinzipiell kontinuierliche abhängige Variablen, für die aber aus be-
stimmten Gründen nur in einem beschränkten Wertebereich Beobachtungen vorliegen.
Die beiden existierenden Varianten sind zensierte Variablen (Censored Data) und trun-
kierte Variablen (Truncated Data). Bei zensierten Variablen liegen für die abhängige Va-
riable in einem bestimmten Wertebereich nur unvollständige Informationen vor, bspw. ist
in einer Umfrage das Vermögen der Haushalte über 100.000 € nur summarisch als „größer
100.000“ erfasst. Allgemein formuliert liegen trunkierte Daten vor, wenn Beobachtungen
aufgrund bestimmter Werte der abhängigen Variablen im Datensatz fehlen. Das heißt, bei
trunkierten Daten sind bestimmte Wertebereiche bei der Datenerhebung nicht berücksich-
tigt worden, bspw. sind Haushalte mit einem sehr niedrigen Einkommen bewusst über-
haupt nicht in der Stichprobe enthalten. Manchmal ergeben sich trunkierte Daten aus der
Erhebungsmethode. Zum Beispiel tauchen in der Patentstatistik Unternehmen, die keine
Patente angemeldet haben, auch nicht auf. Der Datensatz enthält deswegen keine Beob-
achtungen mit dem Wert 0 für die Zahl der Patentanmeldungen innerhalb etwa der letzten
5 Jahre.
Empfehlenswerte Standardlehrbücher für solche Verfahren sind Hilbe (2014) und Long
und Freese (2014). Die Möglichkeiten in Stata erläutert Williams (2019). Die Darstellun-
gen der UCLA IDRE (2019) für SPSS und Stata sind ein hervorragender Einstieg. SPSS
verfügt über diese Möglichkeiten nur nach der Integration der einschlägigen Verfahren
durch Zusatzmodule basierend auf der Statistiksoftware R.
2.4.3 Zusammenfassung
Insgesamt ist deutlich geworden, dass auch für alle Formen von abhängigen Variablen, die
nicht metrisch skaliert und (prinzipiell) im unendlichen Wertebereich liegen, die Regres-
sion geeignete Analysemethoden bereitstellt.
SPSS verfügt über mehrere Prozeduren zur Schätzung solcher Modelle (siehe Tab. 2.6).
Diese finden sich erstens im Menü unter [Analysieren > Regression] und dort als „Binär
logistisch“, „Multinomial logistisch“, „Ordinal“ und „Probit“. Die Prozedur „Probit“ ist,
da völlig anders strukturiert, für die Sozialwissenschaften und zum Einstieg nicht (!) ge-
eignet. Zweitens sind sie mittels [Analysieren > Verallgemeinerte lineare Modelle > Ver-
allgemeinerte lineare Modelle …] schätzbar.
Die binär logistische Regression kann nur dichotome abhängige Variable analysieren.
Sind mehrere Kategorien vorhanden, die eine Reihenfolge aufweisen, ist die ordinale Re-
gression zu verwenden. Haben diese Kategorien keine Reihenfolge, sondern sind nur In-
dikatoren verschiedener Gruppen, kommt die multinomiale Regression zum Einsatz. Die
genannten drei Verfahren sind sich zwar ähnlich, aber die menübasierte Durchführung und
der Output von SPSS unterscheiden sich teilweise ganz erheblich. Bestimmte Möglich-
keiten der Spezifikation oder Tests, die in einer Prozedur implementiert sind, fehlen in
einer anderen Prozedur. Für die Schätzung von Regressionen mit dichotomen abhängigen
Variablen können auch die beiden anderen Prozeduren (PLUM und GENLIN) einge-
setzt werden.
Stata bietet eine noch größere Zahl an Schätzverfahren (siehe Tab. 2.7), von denen hier
nur eine kleine Auswahl aufgeführt wird.
Alle diese Verfahren können als Varianten des linearen OLS-Modells aufgefasst wer-
den, bei der die abhängigen Variablen anstatt der Normalverteilung jeweils spezifische
Verteilungen besitzen. Die lineare OLS-Regression ist dann ein Spezialfall der Allgemei-
nen linearen Modelle (GLM – Generalized Linear Models). Einen Gesamtüberblick ver-
schaffen Hardin und Hilbe (2018) mit einem Fokus auf die entsprechenden Möglichkeiten
von Stata und Tabachnick und Fidell (2019) hinsichtlich SPSS.
Tab. 2.6 Übersicht der Menübezeichnung Syntaxname

SPSS-Verfahren Binär logistisch LOGISTIC
Multinomial logistisch NOMREG
Ordinal PLUM
Verallgemeinerte GENLIN
Lineare Modelle (Probit,
Logit)
Verallgemeinerte GENLIN
Lineare Modelle (Poisson
loglinear,
Negative
binomial)
Tab. 2.7 Übersicht der Sta- Menübezeichnung Syntaxname

ta-Verfahren Multinomial (polytomous) logistic regression mlogit
Multinomial probit regression mprobit
Nested logit regression nlogit
Ordered logistic regression ologit
Ordered probit regression oprobit
Tobit regression tobit
Truncated regression poisson
Censored regression tobit, cpoisson
2.5 Durchführung in SPSS und Stata
Im Folgenden werden nur die Prozeduren zur binär logistischen Regression dargestellt.
Zur Analyse anderer Formen von begrenzten abhängigen Variablen enthalten die Tab. 2.6
und 2.7 für SPSS und Stata eine Übersicht.
SPSS
Die nachstehend genannten Prozeduren offerieren (leider) unterschiedliche Optionen,
differierende Menüoberflächen und auch abweichende Bezeichnungen. Sie sind also
wenig übersichtlich strukturiert. Durch die Screenshots und die dazu gegeben Erläute-
rungen wird aber deutlich, für welches Problem welche Prozedur einsetzbar ist und wie
die Resultate zu interpretieren sind. Verwendet wird der Datensatz „Titanic.sav“. Er
umfasst die Variablen Survival, Age, Female und Pass_class. Dabei sind Survival, Fe-
male und Pass_class nominal skalierte Variablen. Age ist metrisch skaliert. Menügesteu-
ert rufen wir die logistische Regression wie folgt auf: [Analysieren > Regression >
Binär logistisch]. In diesem Menüfeld spezifizieren wir Survival als die abhängige Va-
riable und Age, Female und Pass_class als unabhängige Variablen. Abb. 2.14 zeigt, dass
Survival als abhängige Variable und die drei anderen Variablen als unabhängige Varia
blen (von SPSS hier als Kovariaten bezeichnet) spezifiziert werden. Die Variable Female
ist bereits als Dummyvariable mit dem Wert 1 kodiert, wenn es sich bei dem Passagier
um eine Frau handelt. Die Variable Pass_class besitzt den Wert 1 für Passagiere der
ersten Klasse und die Werte 2 und 3 für Passagiere der zweiten bzw. dritten Klasse.
Forschungsfrage ist, ob Passagiere der zweiten und dritten Klasse im Vergleich zu den
Passagieren der ersten Klasse eine geringere Überlebenswahrscheinlichkeit haben. Dazu
müssen wir SPSS kommunizieren, dass die Variable Pass_class nicht metrisch zu inter-
pretieren ist, sondern dass es sich um eine nominalskalierte Variable handelt. Diese
nennt SPSS kategoriale Variable.
Wir klicken daher auf den Button „Kategorial“ oben rechts in Abb. 2.14. Im dann fol-
genden Fenster wird zunächst definiert, welche Variablen nominale, also kategoriale, Va-
riablen sind (Abb. 2.15).
2.5 Durchführung in SPSS und Stata 71
Dazu wird die Variable Pass_class in das Feld „Kategoriale Kovariaten“ transferiert.
Für Female ist dies nicht erforderlich, da Frauen bereits metrisch als Dummyvariable im
Datenfile mit einer 1 kodiert sind. Aber für die Variable Pass_class muss dies durchgeführt
werden, damit SPSS weiß, dass es sich um drei verschiedene Kategorien (von Passagie-
ren) handelt. Außerdem soll die erste Klasse als Referenzkategorie dienen, mit der die
zweite und die dritte Klasse verglichen werden. Voreingestellt ist aber in SPSS immer die
letzte Kategorie, die Referenzkategorie. Dies korrigieren wir im Bereich „Kontrast än-
dern“. Für die Variable Pass_class aktivieren wir bei Referenzkategorie „Erste“ und müs-
sen anschließend mit dem Button „Ändern“ dies auch durchführen. Im Feld „Kategoriale
Kovariaten“ ist dies sichtbar durch den Zusatz „(Erste)“ hinter dieser Variable. Mittels
drücken von „Weiter“ und „OK“ wird die logistische Regression berechnet. Das Resultat
zeigt (auszugsweise) Abb. 2.16.
Die Variable Pass_class(1) ist eine Dummyvariable der Passagiere der zweiten Klasse
und die Variable Pass_class(2) der dritten Klasse. Die hinter den Variablen stehenden Zah-
len (1) bzw. (2) sind nur die interne Nummerierung der einbezogenen Dummyvariablen
durch SPSS. Die geschätzten Koeffizientenwerte (in der Spalte „ RegressionskoeffizientB“),
deren Standardfehler und damit deren Signifikanzniveaus (in der Spalte „Sig.“) sind iden-
tisch mit den Werten der Abb. 2.4 oben. Allerdings verwendet SPSS eine etwas andere
Teststatistik – nämlich den Wald-Test an Stelle der z-Tests. Dies ändert aber an der Inter-
pretation der Signifikanzniveaus und – wie bereits bemerkt – an den Ergebnissen nichts.
Die letzte Spalte der Abb. 2.16 mit dem Titel „Exp(B)“ enthält die Chancenverhältnisse
(die Odds Ratios), die wir ebenfalls schon kennen (Abb. 2.4 oben). Die Zeile Pass_class
enthält keinen Koeffizienten. Es handelt sich um einen Test, ob die kategoriale Variable
Abb. 2.14 Binär logistische Regression

Abb. 2.15 Logistische Regression: Kategoriale Variable
Variablen in der Gleichung

Regressions-
koeffizientB Standardfehler Wald df Sig. Exp(B)
Schritt 1a Age -,034 ,006 29,510 1 ,000 ,966
Female 2,498 ,166 226,304 1 ,000 12,156
Pass_class 103,289 2 ,000
Pass_class(1) -1,281 ,226 32,236 1 ,000 ,278
Pass_class(2) -2,290 ,226 102,813 1 ,000 ,101
Konstante 1,024 ,296 11,950 1 ,001 2,785
a. In Schritt 1 eingegebene Variablen: Age, Female, Pass_class.
Abb. 2.16 Schätzung logistische Regression
der drei Passagierklassen insgesamt einflussreich ist. Dies ist der Fall, da das empirische
Signifikanzniveau ebenfalls bei 0,000 liegt.
Der Wald-Test ist aber (in kleinen Stichproben) nur bedingt brauchbar, um signifikante
Einflussfaktoren zu identifizieren. In SPSS ist der besser geeignete LR-Test durchführbar,
indem wir in der obigen Abb. 2.14 den Button bei „Methode“ einsetzen. Bisher haben wir
die Voreinstellung „Einschluss“ nicht verändert. Jetzt wählen wir entsprechend der
Abb. 2.17 die Methode „Vorwärts: LR“. „LR“ steht für Likelihood Ratio. SPSS nimmt in
dieser Prozedur sequenziell (also nacheinander) alle exogenen Variablen auf, die zu einer
signifikanten Verbesserung des Modells führen. Das Kriterium, an dem dies gemessen
wird, ist die Signifikanz eines Likelihood-Ratio-Tests ohne die betreffende Variable im
Vergleich zu einem Modell, das diese Variable mit aufnimmt.
Abb. 2.17 LR-Test der exogenen Variablen
Das Ergebnis nach Drücken von „OK“ ist ein umfangreicher Output, den Abb. 2.18
auszugsweise präsentiert. Alle drei Variablen Female, Age und Pass_class werden schritt-
weise aufgenommen und führen jeweils zu einer signifikanten Verbesserung der Log-Like-
lihood (rechte Spalte „Signifikanz der Änderung“). Ein Ergebnis, das uns wenig über-
rascht, da unsere Datenbasis mit 1046 Beobachtungen sehr groß ist.
SPSS bietet in der Abb. 2.17 unter „Methode“ eine Reihe von Verfahren zur Auswahl
an. Relevant sind für uns hier nur die Varianten „Vorwärts: LR“ und „Rückwärts: LR“.
Letztere untersucht, ob ausgehend von einem Modell mit allen verfügbaren Variablen die
schrittweise Elimination von Variablen zu einer signifikanten Verschlechterung des Mo-
dells führt.
Diese sequenziellen Suchverfahren können auch benutzt (missbraucht) werden, um
sich durch SPSS, ausgehend von vielen möglichen Einflussfaktoren, ein „bestes“ Modell
aufspüren zu lassen. Anschließend freut man sich über die signifikanten exogenen Varia
blen und denkt sich (scheinbar) plausible Hypothesen dazu aus. Dies ist ein fundamentaler
Verstoß gegen die Logik von Hypothesentests bei der Überprüfung kausaler Zusammen-
hänge! Nur wenn wir eine rein explorative Datenanalyse durchführen oder lediglich Pro
gnosemodelle entwickeln wollen, ist dies statthaft.
Die Probit-Schätzung ist in SPSS unter [Analysieren > Regression > Ordinal] verbor-
gen. Syntaxbasiert nennt SPSS diese Prozedur PLUM. Es sollte nicht (!) die Prozedur
[Analysieren > Regression > Probit] verwendet werden.26 Wir können eine ordinale Schät-
26
Das dort beschriebene Probit-Verfahren ist (für den Sozialwissenschaftler) besonders in der
deutschsprachigen Version unverständlich. Die deutschsprachige SPSS-Version verwendet bspw.
Abb. 2.18 Resultat LR-Tests der exogenen Variablen
zung einsetzen, da die binär logistische Regression ja den Spezialfall einer ordinalen Re-
gression mit lediglich zwei Ausprägungen darstellt (siehe Abschn. 2.3). Die Vorgehens-
weise gleicht der bei der logistischen Regression. Abb. 2.19 zeigt dies.
Die Art der Link-Funktion kann nach Drücken des Buttons „Optionen“ gewählt werden
(siehe Abb. 2.20). In der Zeile „Link:“ stehen rechts nach Anklicken des Pfeils verschie-
dene Link-Funktionen zur Auswahl. Die Voreinstellung ist die Logit-Funktion, die wir
bereits mit der logistischen Regression durchgeführt hatten. Wir wählen also jetzt die Va-
riante „Probit“.
Ansonsten ändert man an den Default-Einstellungen nichts und führt die Probit- Schät-
zung mittels „Weiter“ und dann „OK“ durch. Das Ergebnis enthält Abb. 2.21 in Auszügen.
Die Koeffizienten und Signifikanzniveaus der Variablen Age und Female sind wieder
identisch mit den Resultaten der Probit-Schätzung aus Abb. 2.4 oben. Auch hier verwendet
SPSS den Wald-Test, was aber inhaltlich keine Änderung bedeutet. Aufmerksamkeit erfor-
dern die Schätzungen für die drei Passagierklassen. SPSS bezieht sich in dieser Prozedur
bei allen nominal skalierten Variablen immer auf die letzte (höchste) Klasse als Referenz-
kategorie. Diese Einstellung ist nicht veränderbar. Abb. 2.21 macht dies in der untersten
Zeile deutlich, indem SPSS den Schätzer für die dritte Klasse auf den Wert 0 setzt. Der
Koeffizient der ersten Klasse (Pass_class=1) beträgt +1,303. Er besagt, dass Passagiere der
ersten Klasse eine höhere Überlebenswahrscheinlichkeit haben als Passagiere der dritten
Klasse. Dies ist das gleiche Ergebnis wie in der Abb. 2.4 bei der Probit-Schätzung. Dort
haben wir festgestellt, dass Passagiere der dritten Klasse eine geringere Überlebenswahr-
den Begriff „Antwortvariable“ für den englischen Ausdruck „Response“ (im Sinne von Ergebnis,
Outcome). Gemeint ist also die abhängige Variable. Der in den Sozialwissenschaften völlig missver-
ständliche Begriff „Rücklaufquote“ ist die wörtliche Übersetzung von „Response Rate“. Der Aus-
druck „Response Rate“ bezeichnet aber in der Medizin und Biostatistik die erfolgreichen Wirkungen
eines Treatments (bspw. eines Krebsmedikaments). Das heißt den Anteil der Patienten, bei denen
sich die Tumore nach Einnahme des Medikaments zurückgebildet haben. Mit der Rücklaufquote
einer Umfrage hat dies nichts zu tun.
Abb. 2.19 Probit-Schätzung
Abb. 2.20 Probit als Link-Funktion
scheinlichkeit besitzen (Koeffizientenschätzung −1,303). In Abb. 2.21 beträgt der Koeffizi-

ent der zweiten Klasse 0,543 (Zeile: Pass_class=2). Er ist signifikant und vermittelt eine
neue Information. Im Vergleich zur dritten Klasse weisen auch Passagiere der zweiten
Klasse eine höhere Überlebenschance auf. Dies war bisher nicht analysiert worden, da die
erste Klasse als Referenzkategorie diente.
Abb. 2.21 Ergebnis der Probit-Schätzung
Direkt unter der Tabelle der Parameterschätzer erhalten wir die Information, dass die
Link-Funktion (von SPSS „Verknüpfungsfunktion“ genannt) die Probit-Funktion ist. Au-
ßerdem wird deutlich, dass die dritte Klasse jetzt die mit 0 kodierte Referenzkategorie ist
(„Dieser Parameter wird auf 0 gesetzt, ...“).
Der Likelihood-Ratio-Test und die Pseudo-R2-Werte Cox & Snell sowie Nagelkerke
werden in der logistischen Regression standardmäßig von SPSS ausgegeben. McFaddens
R2 gehört im Rahmen der ordinalen Regression [Analysieren > Regression > Ordinal] zu
dem automatisch berechneten und dargestellten Output, dies sowohl in der Probit- als auch
der Logit-Schätzung.
Zur Überprüfung der Funktionsform (der Z-Funktion) verwenden wir den Hosmer-Le-
meshow-Test. Dieser wird menügesteuert (im Rahmen der Schätzung eines logistischen
Modells) wie folgt aufgerufen: [Analysieren > Regression > Binär logistisch > Optionen].
Wir aktivieren ihn dann mittels eines Häkchens bei „Hosmer-Lemeshow-Anpassungs
statistik“, wie Abb. 2.22 verdeutlicht.
Das Ergebnis des Tests erscheint im Output unter „Hosmer-Lemeshow-Test“ und
„Kontingenztabelle für Hosmer- Lemeshow- Test“. Das Testresultat (Chi2 36,525 Sig.
0,000) kennen wir aus Abschn. 2.3.3. Die Kontingenztabelle dazu enthält für die 10 ge-
bildeten Gruppen (von SPSS als „Schritte“ bezeichnet), die jeweilige beobachtete und
geschätzte (als „Erwartet“ bezeichnet) Anzahl der Fälle für „Survival = 0“ und „Survi-
val = 1“.
Für den Box-Tidwell-Test auf Nicht-Linearität ist nur die metrisch skalierte Variable
Age relevant. Wir berechnen den natürlichen Logarithmus dieser Variablen mittels [Trans-
formieren > Variable berechnen]. Im Feld „Zielvariable“ definieren wir den neuen Namen
LnAge und geben dann im Feld „Numerischer Ausdruck“ LN(Age) ein. SPSS fügt diese
neue Variable als letzte Spalte unserem Datensatz „Titanic_Data.sav“ hinzu. Anschließend
wird wieder die logistische Regression aufgerufen [Analysieren > Regression > Binär lo-
gistisch]. Dort aktivieren wir die beiden Variablen Age und LnAge (dazu muss die „Strg“-
Taste gehalten werden). Der kleine (bisher rätselhafte) Button „>a*b=“ wird jetzt gedrückt
und dadurch der Interaktionseffekt „Age*LnAge“ in das Modell aufgenommen (siehe
Abb. 2.23).
Abb. 2.22 Hosmer-Lemeshow-Test
Das Resultat ist aus Abschn. 2.3.3 bekannt und wird in Abb. 2.24 sichtbar. Die Inter-
aktionsvariable nennt SPSS „Age by LnAge“.
Der Interaktionseffekt ist nur auf dem 10-%-Niveau signifikant. Die Annahme eines
linearen Zusammenhangs von Age und den Logits der Überlebenswahrscheinlichkeit wird
insoweit nicht klar abgelehnt.
Für den Umgang mit Korrelationen der Residuen (Varianzinhomogenität, Heteroske-
dastie) sind drei verschiedene Optionen vorhanden. Eine erste Möglichkeit ist der Einsatz
des Bootstrapping-Verfahrens, mit dem sich robuste Standardfehler ermitteln lassen. Es
ist unter dem Button „Bootstrap“ der Abb. 2.14 und 2.19 zwar angezeigt, aber nur syntax-
basiert durchführbar.27 Dazu rufen wir den Syntaxeditor wie folgt auf [Datei > Neu >
Syntax] und geben dann im rechten Syntaxfeld unsere Befehle ein. Die entsprechende
Befehlsfolge für unser Modell lautet:
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET= Survival INPUT= Age Female Pass_class
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
Es handelt sich um einen Bug der IBM SPSS Statistics Version 25.0.0. Zur Behebung des Pro
27
blems existiert ein Makro. Dieser ist von der Universität Bonn downloadbar unter https://uni-bonn.
sciebo.de/index.php/s/yVKmXkHRUWp1eFX.
Abb. 2.23 Box-Tidwell-Test
Die abhängige Variable wird dabei unter „Target“ und die unabhängigen Variablen un-
ter „Input“ eingefügt. In der Leiste über dem Syntaxfeld befindet sich ein grünes Dreieck.
Durch dessen Anklicken führen wir das Bootstrapping durch. Direkt anschließend ist die
gewünschte Schätzung durchzuführen – hier bspw. die binär logistische Regression der
Abb. 2.14 und 2.15. Die Koeffizientenschätzungen bleiben identisch, und auch an der Si-
gnifikanz der unabhängigen Variablen unseres Modells ändert sich nichts. Auf die Dar-
stellung des Outputs wird hier verzichtet. Urban und Mayerl erläutern das Vorgehen und
den Output von SPSS (2018, S. 361–378).
Zweitens bietet SPSS bietet in der Prozedur GLM die Möglichkeit, gegen Heteroske-
dastie robuste Standardfehler zu schätzen: [Analysieren > Verallgemeinerte lineare Mo-
delle > Verallgemeinerte lineare Modelle]. Dort wird im Reiter „Typ des Modells“ die
Option „Binär logistisch“ gewählt (siehe Abb. 2.25).
Unter dem Reiter „Antwort“ spezifizieren wir unsere abhängige Variable – also Survi-
val. Wir klicken dann im Feld „Typ der Abhängigen Variablen“ auf den Button „Referenz-
kategorie“ und aktivieren dort die Option „Erste (niedrigster Wert)“, da wir den Einfluss
auf das Überleben (mit dem Wert 1 kodiert) analysieren (siehe Abb. 2.26).
Unter dem Reiter „Prädiktoren“ werden die unabhängigen Variablen eingefügt. Wie
Abb. 2.27 (linke Seite) verdeutlicht, setzen wir Female und Pass_class im Feld „Faktoren“
ein und Age im Feld „Kovariaten“. Dann drücken wir den Button „Optionen“ und wählen
unter „Reihenfolge der Kategorien für Faktoren“ die Option „Absteigend“. Im Reiter
„Modell“ befördern wir unsere drei unabhängigen Variablen in das Feld „Modell“ und
ändern dabei an der Voreinstellung „Haupteffekte“ in Abb. 2.27 (rechte Seite) nichts. Mit
Variablen in der Gleichung

Regressions-
koeffizientB Standardfehler Wald df Sig. Exp(B)
Schritt 1a Age -,135 ,058 5,328 1 ,021 ,874
Female(1) 2,500 ,167 225,284 1 ,000 12,186
Pass_class 99,327 2 ,000
Pass_class(1) -1,233 ,226 29,768 1 ,000 ,291
Pass_class(2) -2,248 ,226 98,711 1 ,000 ,106
Age by LnAge ,023 ,013 3,007 1 ,083 1,024
Konstante 1,534 ,419 13,418 1 ,000 4,635
a. In Schritt 1 eingegebene Variablen: Age, Female, Pass_class, Age * LnAge.
Abb. 2.24 Ergebnis des Box-Tidwell-Tests
Abb. 2.25 GenLin-GENLIN-Modellauswahl
Abb. 2.26 GENLIN-Spezifikation abhängige Variable
Abb. 2.27 GENLIN-Spezifikation unabhängige Variablen

„Haupteffekten“ meint SPSS die einfache direkte Wirkung einer Variablen im Unterschied
zu Interaktionseffekten.
Jetzt geht es mit dem Reiter „Schätzung“ weiter (Abb. 2.28). Im Feld „Kovarianzma
trix“ rechts oben wird die Option „Robuster Schätzer“ gewählt.
Der Klick auf den Button „OK“ realisiert die Schätzung mit robusten Standardfehlern
der Abb. 2.29.28
Verglichen mit der Schätzung aus Abb. 2.16 bleiben die Koeffizientenwerte unverän-
dert. Die robusten Standardfehler für die Variablen Age und Pass_class 3 sind nur gering-
fügig größer und somit die Wald-Chi2-Werte kleiner (umgekehrt bei den Variablen Female
und Pass_class 2). An den Schlussfolgerungen hinsichtlich der Signifikanzen der unab-
hängigen Variablen ändert sich nichts.
Eine Alternative ist, ein lineares Wahrscheinlichkeitsmodell (Linear Probability
Model) zu spezifizieren und dort robuste Standardfehler mittels der Prozedur GENLIN
zu schätzen. Dies geht, indem wir in Abb. 2.25 innerhalb des Reiters „Typ des Modells“
links bei „Metrische abhängige Variable“ die Option „Linear“ (anstelle der Option „Binär
Abb. 2.28 GENLIN Robuster Schätzer
Sie entsprechen den robusten Standardfehlern der binären logistischen Regression in Stata.
28
Abb. 2.29 Schätzung robuster Standardfehler
logistisch“) aktivieren. Das weitere Vorgehen unterscheidet sich nicht vom beschriebe-
nen Verfahren bei der logistischen Regression. Auch hier erhalten wir keine relevant ab-
weichenden Ergebnisse.
Im Rahmen der dritten Option beziehen wir dagegen die Heteroskedastie explizit in die
Spezifikation des Modells ein. Das heißt, wir berücksichtigen, dass heterogene Varianzen
existieren und die Koeffizientenschätzungen verändern. Dies ist innerhalb der ordinalen
logistischen Regression unter [Analysieren > Regression > Ordinal], die wir aus Abb. 2.19
kennen, möglich. In dieser Abbildung bemerkt man rechts den Button „Skala“. Die Be-
zeichnung ergibt sich aus dem Begriff „Location Scale Models“ (bzw. Lokations-Ska-
len-Modelle). SPSS verwendet diesen Begriff für logistische Modelle, die multiplikative
Heteroskedastie spezifizieren. Wir gehen vom Probit-Modell der Abb. 2.19 und 2.20 aus
und unterstellen, dass heterogene Varianzen nur zwischen Männern und Frauen vorliegen.
Abb. 2.30 zeigt, dass dazu die Variable Female als Haupteffekt in das Feld „Skalenmodell“
befördert wird.
Das Ergebnis enthält Abb. 2.31. Die Koeffizientenschätzungen befinden sich im
Abschnitt „Lage“. Sie unterscheiden sich in der Größe etwas von denen der Abb. 2.16, was
aber keine weiteren Schlussfolgerungen erlaubt (Wooldridge 2010, S. 602). Die grund-
sätzlichen Folgerungen hinsichtlich des Einflusses auf die Überlebenswahrscheinlichkeit
bleiben unverändert. Wobei zu beachten ist, dass hier die Referenzkategorie der Variablen
Pass_class die dritte Klasse ist und nicht die erste Klasse. Die letzte Zeile des Outputs
nennt sich „Skala“. Sie enthält einen Test, ob die Varianz sich zwischen den beiden Grup-
pen (Frauen bzw. Männer) unterscheidet. Tatsächlich haben Frauen eine signifikant gerin-
gere Varianz im Vergleich zu Männern.
Die drei genannten Verfahren sind nur geeignet, wenn wir unterstellen, dass die Koef-
fizientenschätzungen selbst konsistent bzw. unverzerrt sind oder zumindest die Verzerrung
Abb. 2.30 Spezifikation der Heteroskedastie
Abb. 2.31 Ergebnisse bei Spezifikation heterogener Varianzen
so klein ausfällt, dass sie vernachlässigbar ist. Die übereinstimmenden Resultate der be-
schriebenen Prozeduren sind aber ein (starkes) Indiz dafür, das dies gegeben ist.
Zur Schätzung von robusten Standardfehlern innerhalb von SPSS siehe Stoetzer (2017,
Abschn. 5.2) sowie Olvera Astivia und Zumbo (2019). Die Berücksichtigung heterogener
Varianzen durch Spezifikation innerhalb der Prozedur PLUM erläutert Williams (2010).
Dies allerdings nur indirekt, da er hauptsächlich die Prozedur oglm für Stata beschreibt.
Baltes-Götz (2012) enthält dazu ebenfalls eine kurze Darstellung.
Um einflussreiche Beobachtungen bzw. Ausreißer zu identifizieren, existieren in der
logistischen Regression verschiedene Optionen. Nach [Analysieren > Regression > Binär
logistisch] und Spezifikation des Modells drücken wir den Button „Optionen“ und erhal-
ten dann die obige Abb. 2.22. Wir setzen dort ein Häkchen bei „Fallweise Auflistung der
Residuen“ und behalten die Voreinstellung „2“ bei „Ausreißer außerhalb“ bei. Damit wer-
den nur die standardisierten Residuen mit einem Wert von größer als 2 aufgelistet.
Die erste Zeile der Liste aus Abb. 2.32 sagt uns, dass der Fall Nummer 3 (also die dritte
Beobachtung unseres Datensatzes) nicht überlebt hat (Spalte Survival: 0). Die geschätzte
Wahrscheinlichkeit zum Überleben beträgt hier 0,969, d. h. 96,9 % (Spalte „Vorherge-
sagt“). Die letzten drei Spalten werden von SPSS nur temporär erzeugt, also nicht gespei-
chert. Die Spalte „Resid“ enthält die Residuen der (Überlebens-)Wahrscheinlichkeiten.
Für die dritte Beobachtung lautet das Residuum −0,969 (nämlich Y − Y ˆ ∗, hier also
0 − 0,969). Bei der Spalte „SResid“ handelt es sich um die standardisierten Residuen (von
SPSS zum Teil „Standardresiduum“, aber auch „studentisierte Residuen“ genannt). Davon
zu unterscheiden sind die z-standardisierten Pearson-Residuen. Diese sehen wir in der
Spalte „ZResid“. Da wir unter „Ausreißer außerhalb auflisten“ den Wert 2 übernommen
haben und sich dies in SPSS auf die SResid bezieht, sind hier nur die Beobachtungen
(Fälle bzw. Passagiere) aufgeführt, deren SResid größer als absolut 2 ist. Die Beobachtung
Nummer 3 weist ein SResid von −2,644 auf, was zufällig auch noch das absolut größte
SResid darstellt. Ändern wir die Voreinstellung bei „Ausreißer außerhalb“ von 2 auf 3,
gibt uns SPSS im Output die Meldung, dass die fallweise Liste nicht produziert wurde,
weil keine Ausreißer (SResid) mit einem Wert größer als absolut 3 vorhanden sind.
Zur Untersuchung, ob die dritte Beobachtung einflussreich ist, setzen wir in unserer
Modellspezifikation der logistischen Regression aus Abb. 2.14 unter dem Reiter „Spei-
chern“ ein Häkchen im Feld „Einfluss“ bei „Cook“, „Hebelwerte“ und „Differenz in Beta“
(siehe Abb. 2.33). Letzteres fordert die DFBETA-Werte an. Darüber hinaus ist es möglich,
verschiedene andere Größen zu berechnen und vor allem abzuspeichern.
Außerdem lassen wir uns, wie Abb. 2.33 zeigt, die geschätzten (= vorhergesagten)
Wahrscheinlichkeiten des Survival durch ein Häkchen bei „Wahrscheinlichkeiten“ sowie
Abb. 2.32 Tabelle der standardisierten Residuen

zwei verschiedene Arten von Residuen („Nicht standardisiert“ und „Standardisiert“) aus-
geben. Sie werden von SPSS dem Datensatz als weitere Variable hinzugefügt.
Die geschätzten Wahrscheinlichkeiten des Überlebens (Survival = 1) sind als Variablen
unter dem Namen „PRE_1“ mit der Bezeichnung „Vorhergesagte Wahrscheinlichkeit“
jetzt im Datenfile vorhanden. Wir können sie wie jede andere Variable für weitere Analy-
sen und grafische Darstellungen verwenden.
Nach [Analysieren > Mittelwerte vergleichen > Mittelwerte] platzieren wir bspw. im
Feld „Abhängige Variablen“ die Variable Vorhergesagte Wahrscheinlichkeit(PRE_1) und
im Feld „Schicht 1 von 1“ die Variable Pass_class. Nach „OK“ erscheint das Ergebnis der
vorne stehenden Abb. 2.7. Es zeigt die mittleren Überlebenswahrscheinlichkeiten in den
drei Passagierklassen. Wenn wir die Variable Female einsetzen, erhalten wir die geschätz-
ten Wahrscheinlichkeiten von Frauen und Männern.
Die Ergebnisse für Ausreißer und einflussreiche Beobachtungen (Residuen und stan-
dardisierte Residuen (d. h. normalisierte Pearson-Residuen), Cook’s D, Hebelwert und
DFBETA haben wir, wie Abb. 2.33 zeigt, angefordert. Die Ergebnisse werden vorne im
Abschn. 2.3.4 beschrieben und diskutiert. Als Beispiel für eine grafische Analyse der Aus-
reißer platzieren wir die geschätzte Überlebenswahrscheinlichkeit auf der x-Achse und die
standardisierten (normalisierten) Residuen auf der y-Achse. Menügesteuert geht dies über
[Grafik > Diagrammerstellung > Streu-/Punktdiagramm]. Das Resultat in Form der
Abb. 2.10 vorne und seine Interpretation kennen wir bereits. Hinsichtlich der grafischen
Untersuchung von einflussreichen Fällen beschränken wir uns auf Cook’s D. Auch hier
generieren wir das einfache Streudiagramm der Abb. 2.34 mit der geschätzten Überlebens-
wahrscheinlichkeit auf der x-Achse und jetzt Cook’s D auf der y-Achse.
Abb. 2.33 Einflussreiche
Beobachtungen
Nur der Fall rechts oben nähert sich dem kritischen Grenzwert von 1. Es handelt sich
dabei wieder um Beobachtung Nummer 3.
Die Berechnung des durchschnittlichen marginalen Einflusses (AME) der metrisch
skalierten Variablen Alter ist in SPSS ebenso wenig direkt abrufbar wie die grafische Dar-
stellung der sich verändernden Wirkung des Alters. Beides wird syntaxbasiert von Urban
und Mayerl (2018, S. 405–414) beschrieben. Tests, inwieweit Koeffizientenschätzungen
übereinstimmen, speziellen Größen entsprechen oder gemeinsam einflussreich sind, kön-
nen wir in SPSS nur syntaxbasiert realisieren. Hinweise finden sich bei Baltes-Götz (2012)
sowie – allerdings nur bedingt hilfreich – über die Help-Funktion im Menü von SPSS
[Hilfe > Befehlssyntax-Referenz]. Anschließend müssen wir unter der jeweilig von uns
eingesetzten Prozedur nachsehen, welche Möglichkeiten dort implementiert sind.
Backhaus et al. (2015) erläutern im 5. Kapitel die binäre logistische Regression mit
betriebswirtschaftlichen Anwendungen. Urban und Mayerl (2018) geben in ihrem 8. Ka-
pitel eine Einführung mit sozialwissenschaftlichen Beispielen. Von den englischen Lehr-
büchern mit SPSS-Anwendungen ist Field (2018) unterhaltsam und verständlich geschrie-
ben. Ergänzend kann Tabachnick und Fidell (2019) herangezogen werden. Besonders klar
sind auch hier die online zugänglichen Erläuterungen der UCLA IDRE (2019) zu den
verschiedenen Verfahren der logistischen Regression in SPSS.
Stata
Wir benutzen den Datensatz „Titanic.dta“. Er enthält die Variablen Survival, Age, Female
und Pass_class. Von diesen sind Survival, Female sowie Pass_class nominal skalierte Va-
riablen. Age ist metrisch skaliert. Die binär logistische Regression erfolgt menügesteuert
Abb. 2.34 Grafische Analyse Cook’s D

Abb. 2.35 Logistische Regression mit Odds Ratios
über [Statistics > Binary outcomes > Logistic regression]. In diesem Feld platzieren wir
Survival als abhängige Variable und die anderen drei Variablen als unabhängige Variablen
(Abb. 2.35). Die nominal skalierten Variablen Female und Pass_class werden mittels des
Präfix „i.“ als Faktorvariablen (d. h. nominal skalierte Variable) in die Regression auf-
genommen.
Durch anklicken des Button „OK“ wird die logistische Regression geschätzt. Das Re-
sultat haben wir oben in der Abb. 2.4 bereits kennengelernt. In der Voreinstellung gibt
Stata die Odds Ratios (Chancenverhältnisse) aus. Um die Koeffizientenwerte (Logits) der
logistischen Regression zu erhalten, aktivieren wir unter dem Reiter „Reporting“ der
Abb. 2.35 die Variante „Report estimated coefficients“. Dies führt zur uns bekannten
Abb. 2.4 oben.
Die z-Tests der einzelnen exogenen Variablen sind (wie der Wald-Test von SPSS) in
kleinen Samples nicht geeignet, um signifikante Einflussfaktoren zu identifizieren. Besser
sollten Likelihood-Ratio-Tests verwendet werden. Dies ist in Stata möglich, indem wir
mittels eines LR-Tests prüfen, ob die Aufnahme einer zusätzlichen Variablen eine signifi-
kante Verbesserung des Modells bewirkt. Dazu führt man eine logistische Regression wie
in Abb. 2.35 durch, aber nur mit einer exogenen Variablen – der Einfachheit halber hier
Age. Das Ergebnis dieser Schätzung speichern wir durch den Befehl „estimates store mo-
del_1“ im Feld „Command“ der Menüoberfläche. Dabei ist „model_1“ ein von uns frei
wählbarer Name. Menübasiert funktioniert das umständlicher durch [Statistics > Postesti-
mation > Manage estimation results > Store current estimates in memory] und dann Ver-
gabe eines Namens, hier also „model_1“. Danach schätzen wir erneut die logistische Re-
gression, allerdings mit zwei unabhängigen Variablen nämlich zusätzlich zu Age jetzt
Female. Dieses Resultat wird – wie eben beschrieben – unter dem Namen „model_2“ ab-
gespeichert. Anschließend wird der LR-Test durch den Befehl „lrtest model_1 model_2“
im Feld „Command“ aufgerufen. Stata erkennt selbstständig, dass es die Likelihood-Werte
dieser beiden Modelle miteinander vergleichen muss. Stata unterstellt dabei, dass das erste
der beiden Modelle das restringierte Modell darstellt („Assumption: model_1 nested in
model_2“).29 Das Testresultat zeigt Abb. 2.36.
Die Nullhypothese dieses LR-Tests besagt, dass die Variable Female (model_2) keine
zusätzliche Erklärungskraft über die Variable Age (model_1) hinaus besitzt. Diese Hypo-
these wird auf dem 1-%-Niveau abgelehnt. Analog erweitern wir das zweite Modell um
die Variable Pass_class, speichern das Ergebnis unter „model_3“ ab und testen „lrtest
model_2 model_3“ (nicht abgebildet). Auch die Variable Pass_class ist nach dem Likeli-
hood-Ratio-Test ein signifikanter Einflussfaktor. Das war zu erwarten, da unsere Daten-
basis mit 1046 Beobachtungen sehr groß ist und daher die z-Werte aus Abb. 2.4. verläss-
lich sind.
Alternativ ist es möglich, die LR-Tests mittels der Prozedur „Stepwise“ durchzuführen.
Menübasiert erfolgt dies durch [Statistics > Other > Stepwise estimation]. Dabei werden
alle unabhängigen Variablen eingegeben, und Stata sucht schrittweise das „optimale“ Mo-
dell. Es identifiziert automatisch alle Variablen, die (bspw. im LR-Test) signifikante Mo-
dellverbesserungen bewirken. Diese sequenziellen Suchverfahren können auch benutzt
(missbraucht) werden, um sich ausgehend von vielen möglichen Einflussfaktoren ein
„bestes“ Modell aufspüren zu lassen. Anschließend freut man sich über die signifikanten
exogenen Variablen und denkt sich (scheinbar) plausible Hypothesen dazu aus. Dies ist ein
fundamentaler Verstoß gegen die Logik von Hypothesentests zur Überprüfung kausaler
Zusammenhänge! Nur wenn wir eine rein explorative Datenanalyse durchführen oder le-
diglich Prognosemodelle entwickeln wollen, ist dies vertretbar.
Die Probit-Schätzung realisiert man über [Statistics > Binary outcomes > Probit regres-
sion]. Wie Abb. 2.37 verdeutlicht, spezifizieren wir die Probit-Regression genauso wie
die logistische Regression.
lrtest model_1 model_2
Likelihood-ratio test LR chi2(1) = 310.04

(Assumption: model_1 nested in model_2) Prob > chi2 = 0.0000
Abb. 2.36 LR-Test einzelner Variablen
29
Zur Prüfung restringierter (nested models) im Vergleich zu unrestringierten Modellen siehe Stoet-
zer (2017, Abschn. 6.3.2).
Abb. 2.37 Probit Regression
Nach klicken auf den Button „OK“ folgt das uns ebenfalls bereits bekannte Schätzer-
gebnis der obigen Abb. 2.4.
Um die Klassifizierung zu erhalten, geben wir syntaxbasiert im „Command“ Feld der
Menüoberfläche von Stata den Befehl „estat class“ ein. Dies jeweils im Anschluss an die
durchgeführte logistische Regression. Das Resultat ist eine Klassifikationstabelle wie in
Abb. 2.5 vorne.
Zur Überprüfung nichtlinearer Beziehungen (sowie des allgemeinen Modellfits) dient
der Hosmer-Lemeshow-Test. Er wird menübasiert aufgerufen durch [Statistics > Binary
outcomes > Postestimation > Goodness-of-fit after logistic/logit/probit]. In dem dann fol-
genden Menüfeld kann er (oder auch der Pearson Chi2-Test) ausgewählt und durchgeführt
werden. Syntaxbasiert geht das schneller durch Eingabe in das Feld „Command“ von „es-
tat gof, group (10)“ (Hosmer-Lemeshow-Test) bzw. „estat gof“ (Pearson-Chi2-Test).30
Abb. 2.38 enthält den resultierenden Output in verkürzter Form.
Der Pearson-Chi2-Test sollte nur verwendet werden, wenn die erwartete Anzahl von Ereignissen
30
und die erwartete Anzahl von Beobachtungen für jede Kombination der Kovariaten mindestens 5
beträgt (Allison 2014, S. 5).
Er lehnt – genauso wie der nicht abgebildete Pearson-Chi2-Test – die Nullhypothese ab,
dass keine zu große Differenz zwischen den geschätzten und den beobachteten Überle-
bensfällen besteht. Beide Prüfverfahren sagen damit, dass unsere Modellspezifikation
Mängel aufweist. Dabei ist aber zu berücksichtigen, dass bei einer entsprechend großen
Zahl von Beobachtungen die Nullhypothese immer abgelehnt wird, weil auch kleinste
Unterschiede signifikant werden (siehe Abschn. 2.3.3).
Für den Box-Tidwell-Test, der sich auf die einzige metrisch skalierte Variable Age be-
schränkt, bilden wir eine neue Variable, nämlich den natürlichen Logarithmus von Age.
Dies erfolgt über [Data > Create or change data > Create new variable] (siehe Abb. 2.39).
Der neuen Variablen geben wir den Namen LnAge (oder einen beliebigen anderen Namen)
und berechnen die Variable dann über „Functions > Mathematical > ln()“. Dies geschieht
entweder direkt durch Eingabe von „ln(Age)“ im Feld „Specify a value or an expression“
oder nach Drücken des Buttons „Create“ im Feld „Expression Builder“ (rechter Teil der
Abb. 2.39). Nach „OK“ und dann noch mal „OK“ wird dies r ealisiert. Schneller geht das
alles syntaxbasiert im Feld „Command“ der Menüoberfläche durch Eingabe von „generate
LnAge = ln(Age)“.
Diese neue Variable fügen wir unserem Modell hinzu und schätzen erneut eine logisti-
sche Regression (wie oben beschrieben). Der Interaktionseffekt wird durch Eingabe von
„c.Age#c.LnAge“ gebildet. Das Präfix „c.“ teilt Stata mit, dass es sich um eine metrische
skalierte Variable handelt, was sowohl für Age als auch für LnAge gilt. Das Zeichen „#“
bildet den Interaktionseffekt. Das Resultat (nach „OK“) kennen wir bereits. Es findet sich
noch einmal in Abb. 2.40.
Der Interaktionseffekt ist nur auf dem 10-%-Niveau signifikant und insofern lediglich
ein schwaches Indiz für die Existenz von Nicht-Linearitäten.31
Es ist in Stata auf verschiedene Arten möglich, Heteroskedastie zu berücksichtigen. In
den Abb. 2.35 und 2.37 zur Logistic- bzw. Probit-Regression ist ein Reiter „SE/Robust“
sichtbar. Nachdem wir diesen öffnen, werden verschiedene Möglichkeiten, heteroskedas-
tierobuste Standardfehler zu berechnen, offeriert. Wir wählen im Feld „Standard error
. estat gof, group (10)
number of observations = 1046

number of groups = 10
Hosmer-Lemeshow chi2(8) = 40.05
Prob > chi2 = 0.0000
Abb. 2.38 Hosmer-Lemeshow-Test
Der Box-Tidwell-Test ist auch als Makro downloadbar. Nach Eingabe von „findit boxtid“ im Feld
31
„Command“ erhalten wir dazu eine Anleitung. Ein weiterer Test auf Fehlspezifikation ist der in Stata
implementierte Linktest.
Abb. 2.39 Variablenbildung
type“ die Option „Robust“. Im Rahmen einer Schätzung der Logit-Koeffizienten zeigt
Abb. 2.41 das Resultat.
Verglichen mit der Schätzung aus Abb. 2.4 bleiben die Koeffizientenwerte natürlich
unverändert. Die robusten Standardfehler für die Variablen Age und Pass_class 3 sind et-
was größer als die nicht korrigierten gewöhnlichen Standardfehler und damit die z-Werte
geringfügig kleiner. An den Schlussfolgerungen hinsichtlich der Signifikanzen der unab-
hängigen Variablen ändert sich aber nichts. Analog lassen sich für ein LPM in der linearen
Regression unter [Statistics > Linear models and related > Linear regression] robuste Stan-
dardfehler ermitteln. Auch hier bleiben die Resultate prinzipiell unverändert.
Als weitere Option existiert die Prozedur „hetprobit“. In diesem Schätzverfahren kann
Heteroskedastie in Abhängigkeit von unabhängigen Variablen getestet und modelliert wer-
den. Durch Eingabe von „help hetprobit“ im „Command“-Feld gelangt man zu Statas
PDF-Dokumentation, die das Verfahren und dessen Interpretation erklärt. Nach [Statistics
> Binary outcomes > Heteroskedastic probit regression] geben wir in Abb. 2.42 unser
Modell ein und spezifizieren, dass die Variable Female heterogene Varianzen (zwischen
Männern und Frauen) aufweist. Dazu fügen wir im Feld „Independent variables to model
the variance“ die Variable Female ein. Hier könnten auch andere Variablen zusätzlich be-
rücksichtigt werden.
Abb. 2.43 stellt die Ergebnisse dar. Im Titanic-Beispiel müssen wir die Nullhypothese
„Homoskedastie“ hinsichtlich der unabhängigen Variablen Female verwerfen. Der ent-
sprechende LR-Test findet sich in der letzten Zeile („LR test of lnsigma2=0“). Die Koef-
fizientenschätzungen können mit den Probit-Schätzungen der Abb. 2.4 nicht verglichen
werden. Die inhaltlichen Ergebnisse zum Einfluss von Age, Female und Pass_class ge-
messen an den Vorzeichen und Signifikanzen bleiben aber unverändert (zur Interpretation
siehe Wooldridge 2010, S. 602).
. logistic Survival Age i.Female i.Pass_class c.Age#c.LnAge, coef

LR chi2(5) = 435.17
Prob > chi2 = 0.0000
-------------------------------------------------------------------------------
--------------+----------------------------------------------------------------
Age | -.1349749 .0584757 -2.31 0.021 -.2495851 -.0203647
1.Female | 2.500302 .1665818 15.01 0.000 2.173807 2.826796
|
Pass_class |
2 | -1.233256 .2260353 -5.46 0.000 -1.676277 -.7902354
3 | -2.247964 .226259 -9.94 0.000 -2.691423 -1.804504
|
c.Age#c.LnAge | .0233573 .0134694 1.73 0.083 -.0030422 .0497568
|
_cons | 1.533741 .4187012 3.66 0.000 .713102 2.354381
-------------------------------------------------------------------------------
Abb. 2.40 Ergebnis Box-Tidwell-Test

Wald chi2(4) = 283.56
Prob > chi2 = 0.0000
Log pseudolikelihood = -491.22655 Pseudo R2 = 0.3055
------------------------------------------------------------------------------
| Robust
-------------+----------------------------------------------------------------
Age | -.0343932 .0064703 -5.32 0.000 -.0470747 -.0217117
1.Female | 2.497845 .1624204 15.38 0.000 2.179507 2.816183
|
Pass_class |
2 | -1.28057 .1977481 -6.48 0.000 -1.668149 -.8929907
3 | -2.289661 .2313479 -9.90 0.000 -2.743094 -1.836227
|
_cons | 1.024229 .3009039 3.40 0.001 .4344685 1.61399
------------------------------------------------------------------------------
Abb. 2.41 Robuste Standardfehler
Der Vergleich mit dem Resultat in SPSS aus Abb. 2.31 macht deutlich, dass diese über-
einstimmen. Lediglich die die Referenzkategorien der Variablen Pass_class und die Test-
verfahren hinsichtlich Heteroskedastie unterscheiden sich.
Statt der menüseitig implementierten Prozedur „hetprobit“ ist alternativ die Prozedur
„oglm“ verwendbar. Diese bietet erheblich größere Möglichkeiten der Analyse, bspw. an-
dere Link-Funktionen an Stelle der Probit-Funktion. Allerdings muss sie zunächst instal-
liert werden (über die Eingabe von „findit oglm“ im Feld „Command“) und ist nur syntax-
basiert verwendbar. Williams (2010) enthält eine genaue Erläuterung.
Als Fazit sind die deckungsgleichen Resultate der verschiedenen Optionen ein (starkes)
Indiz, dass unsere logistische Regression richtig spezifiziert ist.
Abb. 2.42 Spezifikation der Heteroskedastie

hetprobit Survival Age i.Female i.Pass_class, het(i.Female)
Heteroskedastic probit model Number of obs = 1,046

Zero outcomes = 619
Nonzero outcomes = 427
Wald chi2(4) = 175.06

Log likelihood = -481.8852 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
Survival |
Age | -.0080578 .0029546 -2.73 0.006 -.0138488 -.0022668
1.Female | 1.081832 .0868078 12.46 0.000 .9116915 1.251972
|
Pass_class |
2 | -.3796006 .1181478 -3.21 0.001 -.611166 -.1480352
3 | -.8018614 .1678119 -4.78 0.000 -1.130767 -.4729561
|
_cons | -.0957221 .191186 -0.50 0.617 -.4704398 .2789956
-------------+----------------------------------------------------------------
lnsigma2 |
1.Female | -1.005975 .2353635 -4.27 0.000 -1.467279 -.544671
------------------------------------------------------------------------------
LR test of lnsigma2=0: chi2(1) = 20.78 Prob > chi2 = 0.0000
Abb. 2.43 Ergebnisse bei spezifizierter Heteroskedastie

Um die geschätzten (vorhergesagten) Wahrscheinlichkeiten des Überlebens zu er-

halten, geben wir im Feld „Command“ den Befehl „predict Pred_Survival“ ein. Der Name
der dann von Stata neu berechneten Variablen Pred_Survival ist dabei von uns frei wähl-
bar. In der Default-Einstellung berechnet Stata die geschätzten Wahrscheinlichkeiten jedes
Passagiers für das Ereignis Survival = 1, also das Überleben, und fügt diese neue Variable
dem Datensatz hinzu. Das Ergebnis für die ersten drei Beobachtungen kennen wir aus der
Tab. 2.3.
Die Interpretation dieser geschätzten Wahrscheinlichkeiten ist – im Vergleich zu den
Koeffizienten oder den Chancenverhältnissen (Odds Ratios) – deutlich einfacher. Um die
Mittelwerte der geschätzten Überlebenswahrscheinlichkeit zu vergleichen, lautet der Be-
fehl im Feld „Command“ wie folgt: „tabulate Pass_class, summ(Pred_Survival)“. Menü-
basiert wird so vorgegangen: [Statistics > Summaries, tables, and tests > Summary and
descriptive statistics > Means]. Unter dem Reiter „Model“ ist unsere Variable Pred_Survi-
val im Feld „Variable“ einzufügen und anschließend unter dem Reiter „if/in/over“ im Feld
„Group over subpopulations“ die Variable Pass_class. Entsprechend gehen wir für die
Variable Female vor. Die Resultate kennen wir aus Abb. 2.7 vorne.
Der Einfluss der metrisch skalierten Variablen Age auf die Überlebenswahrscheinlich-
keit ist nicht notwendigerweise linear. Wie berechnen sie mittels Eingabe von „margins,
at(Age=(0(1)80))“ im „Command“-Feld. Stata ermittelt dann für den Bereich von 0 bis 80
Jahren in Ein-Jahres-Schritten den Einfluss des jeweiligen Alters auf die Überlebenswahr-
scheinlichkeit. Direkt anschließend wird durch Eingabe des Befehls „marginsplot“ im
Feld „Command“ der Einfluss des Alters grafisch dargestellt, der bereits in Abb. 2.9 oben
zu sehen ist. Menübasiert geht dies entsprechend Abb. 2.44 über [Statistics > Postes-
timation].
Unter „Marginal analysis“ aktivieren wir „Marginal means and marginal effects, funda-
mental analyses“ und drücken anschließend „Launch“. Im dann auftauchenden Feld geben
wir die in Abb. 2.45 zu sehenden Vorgaben ein: „Covariate“ ist unsere Variable Age, „Ana-
lysis type:“ ist „Marginal means of outcome for levels of covariate“ und bei „Values to
compute estimates at:“ geben wir „0(1)80“ ein.
Nach „OK“ wird die Berechnung durchgeführt. Die Grafik der Abb. 2.9 erhalten wir
über „Profile plots after marginal analysis“ aus Abb. 2.44. Dann wird im Feld „Variable(s)
that define the x axis“ die Variable „at(Age)“ eingefügt. Durch „OK“ erscheint die
Abb. 2.9 vorne.
Die verschiedenen Möglichkeiten, die Einflüsse unabhängiger Variablen innerhalb der
Margins-Prozedur in Stata zu analysieren – insbesondere, was die differierende Verwen-
dung von Referenzwerten der jeweils anderen unabhängigen Variablen angeht –, erläutert
am klarsten Williams (2018).
Die geschätzten Überlebenswahrscheinlichkeiten sowie Informationen zur Überprü-
fung von Ausreißern und einflussreichen Beobachtungen generiert man menügesteuert
in der Abb. 2.44 unter [Predictions > Probabilities, influence statistics, residuals, etc.]. Es
erscheint das Feld der Abb. 2.46.
Abb. 2.44 Postestimation Optionen
Dieses Kommandofeld muss direkt nach der Durchführung der logistischen Regression
aufgerufen werden, weil die möglichen Optionen von der vorhergehenden Regression ab-
hängen. Im Feld „New variable name“ geben wir einen von uns frei wählbaren Namen ein
(hier „Pred_Survival“ als Abkürzung für „predicted survival“). Unter „Produce“ aktivie-
ren wir „Predicted probability of a positive outcome“ und erhalten so die von unserem
Modell geschätzten Überlebenswahrscheinlichkeiten aller 1046 Passagiere. Diese werden
als neue Variable Pred_Survival dem Datensatz von Stata hinzugefügt. Weiter vorne war
dies bereits syntaxbasiert erklärt worden.
Die Residuen des logistischen Modells sind in Abb. 2.46 mittels der (eher unverständ-
lichen) Option „Equation-level scores“ erhältlich. Die Residuen der geschätzten Überle-
benswahrscheinlichkeiten nennen wir „Prob_Residuals“. So bekommen wir – bspw. für
die ersten drei Beobachtungen – die Residuen in der rechten Spalte der Tab. 2.3 oben.
Abb. 2.46 zeigt, dass im Feld „Produce“ eine ganze Reihe von Optionen vorhanden ist,
um Prüfgrößen für Ausreißer und einflussreiche Beobachtungen zu erhalten. „Delta-Beta
influence statistic“ ist eine Größe analog zu Cook’s D, die Leverage (den Hebelwert) ken-
Abb. 2.45 Der Befehl „margins“
nen wir, das „Pearson residual (adjusted for # sharing covariate pattern)“ entspricht (nur
bedingt) dem im Abschn. 2.3.3 vorgestellten z-standardisierten Pearson-Residuum (in
SPSS: „normalisiertes Residuum“ bzw. „ZRESID“). Durch Vergabe eines Namens im
Feld „Produce“, anschließendem Aktivieren der gewünschten Option und dann Drücken
des Button „OK“ werden diese Prüfgrößen berechnet und als neue Variablen dem Daten-
satz hinzugefügt. Die von Stata bereitgestellten Prüfgrößen sind die von Hosmer et al.
(2013) auf den Seiten 154–202 genauer beschriebenen und erläuterten Optionen. Wir ver-
geben den z-standardisierten Pearson Residuen den Variablennamen „Pearson_Residu-
als“. Die Leverage nennen wir originellerweise „Leverage“. Syntaxbasiert erhalten wir
alle diese Größen deutlich schneller. Die beiden letzten bspw. im Feld „Command“ durch
Eingabe von „predict Pearson_Residuals, residuals“ und „predict Leverage, hat“. An-
Abb. 2.46 Optionen der Modellprüfung
schließend lassen wir uns die jeweiligen Minima und Maxima ausgeben. Dies am schnells-
ten syntaxbasiert. Dazu verwenden wir den Befehl „summarize“. Abb. 2.47 enthält die
Eingaben im Feld „Command“ und darunter den resultierenden Output.
Hosmer et al. (2013, S. 193–199) empfehlen grafische Darstellungen, um Ausreißer
und einflussreiche Beobachtungen zu analysieren. Abb. 2.48 stellt die Syntaxeingabe und
das Ergebnis für die z-standardisierten Pearson-Residuen dar. Auf der x-Achse sind die
geschätzten Überlebenswahrscheinlichkeiten der Beobachtungen abgetragen und auf der
y-Achse die dazugehörigen Pearson-Residuen.
Zwei Beobachtungen sind deutlich erkennbare Ausreißer mit einem Pearson-Residuum
von über +5 bzw. unter −5. Letztere der beiden Beobachtungen kennen wir bereits. Es
handelt sich um den Passagier mit der Fallnummer 3. Die weiteren Schlussfolgerungen
finden sich oben im Abschn. 2.3.3.
Als Beispiel für eine grafische Identifikation einflussreicher Beobachtungen verwen-
den wir den Hebelwert (Leverage). Menügesteuert wird das entsprechende Streudiagramm
mittels [Graphics > Twoway graph (scatter, line, etc.] erstellt. Der syntaxbasierte Befehl
lautet „twoway (scatter Leverage Pred_Survival)“. Das Ergebnis ist Abb. 2.11 oben.
Long und Freese (2014) bieten eine umfassende Darstellung der Möglichkeiten zu den
verschiedenen Methoden der logistischen Regression in Stata. Wie immer sind auch
UCLA IDRE (2019) und Williams (2019) online zugängliche, sehr gute Darstellungen auf
predict Prob_Residuals, score
predict Pearson_Residuals, residuals
predict Leverage, hat
. summarize Prob_Residuals Pearson_Residual Leverage
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------------
Prob_Residuals | 1,046 -2.19e-10 .387404 -.9693291 .9433811
Pearson_Residuals | 1,046 .1408749 1.296766 -5.621754 5.26684
Leverage | 1,046 .0230449 .0134427 .0020203 .0618144
Abb. 2.47 Übersicht ausgewählter Prüfgrößen
twoway (scatter Pearson_Residual Pred_Survival)
Abb. 2.48 Grafische Analyse Pearson-Residuen
kurzem Raum. Zum Einstieg ist Acock (2016) hervorragend geeignet. Die umfangreichen
Möglichkeiten mittels der Befehle „margins“ und „marginsplot“ Tests durchzuführen und
die Schätzergebnisse auch grafisch zu erläutern, stellt Mitchell (2012) verständlich dar.
2.6 Übungsaufgaben
Übung 2.1: Modellspezifikation des Titanic-Untergangs

Entwickeln und diskutieren Sie mögliche Schwachstellen und Grenzen des logistischen
Modells zur Überlebenswahrscheinlichkeit der Titanic-Passagiere, hinsichtlich:
a) der Modellspezifikation der Variablen Alter und

b) der Interpretation der Koeffizienten der drei Passagierklassen.
Übung 2.2: Einkommen und Wohnungseigentum

Inwieweit ist ein asymmetrischer Einfluss des Einkommens auf die Wahrscheinlichkeit,
Wohnungseigentum zu besitzen, inhaltlich plausibel?
Übung 2.3: Linearität kategorialer Variablen

Warum ist es nicht notwendig, bei der kategorialen Variable Passagierklasse (Pass_class)
zu überprüfen, ob Nicht-Linearitäten existieren?
Übung 2.4: Linear Probability Model

Schätzen Sie ein Linear Probability Model (LPM) des Titanic-Modells und interpretieren
sie das Ergebnis. Was stellen Sie bei einem Vergleich mit der logistischen Schätzung die-
ses Modells fest? Verwenden Sie für SPSS den Datensatz Titanic_Data_Dummy_Pass-
class.sav, bei dem die drei Passagierklassen bereits als Dummyvariablen kodiert sind.
Übung 2.5: Alter und Überlebenswahrscheinlichkeit

Abb. 2.49 zeigt für das Titanic-Unglück die Überlebenswahrscheinlichkeit Pr(Survival)
abhängig vom Alter (Age) in einem Streudiagramm. Wie ist der Zusammenhang zu inter-
pretieren?
Abb. 2.49 Überlebenswahrscheinlichkeit und Alter

Übung 2.6: Komplette Separierung

Erläutern Sie anhand eines selbst gewählten Beispiels, bei welcher Datenkonstellation im
Titanic-Fall eine komplette Separierung vorliegen würde.
Übung 2.7: Inhaltliche Fundierung der Einflussfaktoren

Im ursprünglichen Datensatz für die Titanic existiert auch eine Variable, die die Nummer
der Rettungsboote der jeweiligen Passagiere verzeichnet. Wie wirkt sich die Aufnahme
einer entsprechenden Variablen (bspw. als Dummyvariable: Rettungsbootnummer vorhan-
den oder nicht vorhanden) auf den Determinationskoeffizient aus? Wie ist die Aufnahme
dieser Variablen inhaltlich zu beurteilen?
Übung 2.8: Skalenniveau

Zur Erklärung des Erfolgs von Fußballmannschaften in der ersten Bundesliga (bspw. des
Zusammenhangs mit dem durchschnittlichen Alter der Spieler und der Erfahrung des Trai-
ners) bietet es sich an, die Punktzahl am Ende der Bundesligasaison zu verwenden. In-
wiefern könnte eine ordinale abhängige Variable eine sinnvolle Alternative sein?
Übung 2.9: Einflussfaktoren der Arbeitslosigkeit

Verwenden Sie die Datei „Arbeitslosigkeit_Allbus_2018.dta“ bzw. „Arbeitslosigkeit_All-
bus_2018.sav“. Es handelt sich um einen Auszug aus der Allgemeinen Bevölkerungsum-
frage der Sozialwissenschaften des Jahres 2018 (ALLBUS 2018). Der Datensatz stellt
eine repräsentative Stichprobe von 3477 Einwohnern Deutschlands im Alter von 18 bis 65
Jahren dar. Unser Forschungsinteresse ist, inwieweit Arbeitslosigkeit von einem Hoch-
schulstudium beeinflusst wird. Die binäre abhängige Variable Arbeitslosigkeit besitzt den
Wert 1, wenn die befragte Person zum Zeitpunkt der Umfrage oder in den 10 Jahren davor
irgendwann einmal arbeitslos war, andernfalls hat sie den Wert 0. Unsere Stichprobe be-
schränkt sich auf Erwerbstätige im Alter von 18 bis 65 Jahren. Die Hypothesenvariablen
sind FHAbschluss und UniAbschluss. Es handelt sich um Dummyvariablen mit dem Wert
1, wenn ein abgeschlossenes FH- bzw. Universitätsstudium beim Befragten vorliegt. Fol-
gende Kontrollvariablen existieren: Dummyvariablen sind Mann (für männliche Perso-
nen); Ost bei einem Wohnsitz in den neuen Bundesländern; Deutsch, falls jemand seit
Geburt die deutsche Staatsangehörigkeit besitzt; Alter ist eine metrisch skalierte unabhän-
gige Variable. Aufgrund der Altersgrenzen und von fehlenden Antworten bei den genann-
ten Variablen reduziert sich das verfügbare Sample auf 2023 Personen.
a) Ermitteln Sie die Wirkung des Hochschulstudiums (FH- und Universität) unter Ein-
bezug der Kontrollvariablen in einer logistischen Regression und interpretieren Sie die
Resultate.
b) Überprüfen Sie mittels des Hosmer-Lemeshow-Tests die Spezifikation der logistischen
Regression aus Teilfrage a).
c) Ermitteln Sie die einfachen Residuen Y − Y ˆ ∗ und stellen sie diese in Abhängigkeit
von erstens Y und zweitens Ŷ∗ jeweils in einem Streudiagramm dar. Erläutern Sie die
beiden Darstellungen.
2.7 Lösungen 101
2.7 Lösungen
Lösung 2.1
a) Die Variable Alter geht in die Spezifikation des Modells linear ein. Dies ist kaum plau-
sibel. Erstens, weil vor allem (Klein-)Kinder gerettet werden dürften, und zwar unab-
hängig vom Alter. Das heißt, bei Babys und Kindern bis ca. 11 oder 12 Jahren sollte
durchgehend eine hohe konstante Rettungswahrscheinlichkeit vorhanden sein. Ab ei-
nem Alter von ca. 16–18 Jahren wurde aber vermutlich kaum ein Unterschied zu bspw.
einem 50-Jährigen gemacht. Ab ca. 70 Jahren ist der Umgang mit den Passagieren
wieder offen: Einerseits könnten ältere Menschen wegen Gebrechlichkeit und aus Mit-
leid eher gerettet worden sein. Andererseits ist denkbar, dass alten Passagieren es phy-
sisch häufiger nicht gelungen ist, in die Rettungsboote zu kommen. Zusammenfassend
deuten diese Überlegungen darauf hin, dass ein nichtlinearer Zusammenhang plausibel
ist. Auch ein recht abrupter Übergang zwischen bestimmten Altersgruppen ist möglich.
Dies spricht dafür, bspw. folgende drei Altersklassen zu bilden (Klein-)Kinder bis 13
Jahre, Erwachsene 14–70 Jahre und Senioren über 70 Jahre.
b) Die naheliegende Schlussfolgerung, dass eine Diskriminierung der dritten Passagier-
klasse vorliegt, ist nicht zwingend. Unter Umständen waren einfach die Kabinen der
dritten Klasse zu weit weg von den Rettungsbooten, oder die Passagiere der dritten
Klasse konnten häufig kein Englisch und sich daher im Chaos auf dem sinkenden
Schiff und den englischen Anweisungen nicht orientieren.
Lösung 2.2
Ein asymmetrischer nichtlinearer Zusammenhang ist vorstellbar, wenn bei niedrigeren
Einkommen häufiger noch andere Faktoren eine Rolle spielen, die dazu führen, dass mit
steigendem Einkommen die Wahrscheinlichkeit, Eigentümer zu sein, zunächst langsam
zunimmt, während ab einem bestimmten hohen Einkommen fast jeder Wohnungseigen-
tümer ist. Abb. 2.50 illustriert den beschriebenen Gedankengang.
Eine mögliche Link-Funktion ist in diesem Fall die cloglog-Funktion.
Wahrscheinlichkeit Y*
Eigentümer 1
Mieter 0
X
Einkommen
Abb. 2.50 Asymmetrische Wirkung des Einkommens

Lösung 2.3
Die drei Klassen sind jede für sich als Dummyvariablen kodiert. Damit kann jede der drei
Klassen gegenüber den anderen eine beliebig größere oder kleinere Überlebenswahr-
scheinlichkeit besitzen. Es wird keine ordinale oder sogar metrisch lineare Beziehung
zwischen der Überlebenswahrscheinlichkeit und der ersten, zweiten und dritten Passagier-
klasse unterstellt. Da also keine Annahme hinsichtlich der Linearität existiert, wäre es
sinnlos, diese zu überprüfen.
Lösung 2.4
Das basierend auf SPSS (oberer Teil) bzw. Stata (unterer Teil) geschätzte lineare Wahr-
scheinlichkeitsmodell des Titanic-Unglücks zeigt Abb. 2.51.
SPSS:
Stata:
regress Survived Age i.Female i.Pass_Class
Source | SS df MS Number of obs = 1,046

-------------+---------------------------------- F(4, 1041) = 152.26
Model | 93.2678509 4 23.3169627 Prob > F = 0.0000
Residual | 159.421442 1,041 .153142595 R-squared = 0.3691
-------------+---------------------------------- Adj R-squared = 0.3667
Total | 252.689293 1,045 .241807935 Root MSE = .39133
------------------------------------------------------------------------------
Survived | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Age | -.0052695 .0009316 -5.66 0.000 -.0070975 -.0034414
|
Female |
male | -.4914131 .025552 -19.23 0.000 -.5415525 -.4412738
|
Pass_Class |
2 | -.2113738 .0348568 -6.06 0.000 -.2797715 -.1429761
3 | -.3703874 .0325039 -11.40 0.000 -.434168 -.3066068
|
_cons | 1.104955 .043821 25.22 0.000 1.018967 1.190943
------------------------------------------------------------------------------
Abb. 2.51 LPM des Titanic-Unglücks

2.7 Lösungen 103
Die Ergebnisse von SPSS und Stata stimmen natürlich überein – nur dass SPSS und
Stata unterschiedliche Referenzkategorien für die Dummyvariable Female verwenden
(SPSS: Referenz Male und Stata Referenz Female). Die inhaltlichen Aussagen des linea-
ren Wahrscheinlichkeitsmodells unterscheiden sich hinsichtlich der Wirkungsrichtung und
Signifikanz nicht von der binären logistischen Regression.
Lösung 2.5
Die sechs erkennbaren Linien ergeben sich aus den sechs Kombinationen des Geschlechts
(Female-Male) einerseits und den drei Passagierklassen andererseits. Die Linie ganz
oben in Abb. 2.49 umfasst die weiblichen Passagiere der ersten Klasse. Die Linie ganz
unten repräsentiert die Männer der dritten Klasse. Es zeigt sich übereinstimmend eine
Abnahme der Überlebenswahrscheinlichkeit mit zunehmendem Alter. Die sinkende Ret-
tungswahrscheinlichkeit ist aber nicht über alle Kombinationen identisch. Es existieren
zum Teil deutliche Unterschiede im Einfluss des Alters je nach Geschlecht, Passagier-
klasse und Alter. Die Auswirkungen des zunehmenden Alters sind mit dem geschätzten
Koeffizienten des Linear Probability Model in Höhe von −0,0052695 (siehe Abb. 2.51)
nur grob erfasst. Das gilt auch für die Koeffizientenschätzungen des Logit- und Pro-
bit-Modells.
Lösung 2.6
Komplette Separierung wäre gegeben, wenn bspw. alle Passagiere der ersten Klasse ge-
rettet worden wären oder alle Passagiere der dritten Klasse nicht überlebt hätten. In diesen
Fällen wäre die Zugehörigkeit zur ersten bzw. dritten Klasse ein perfekter Prädiktor des
Überlebens bzw. des Sterbens. Die Wahrscheinlichkeit, zu überleben, ist daher bei allen
Passagieren der ersten (dritten) Klasse gleich 1 (0).
Lösung 2.7
Die Aufnahme der Variable „Rettungsbootnummer vorhanden“ für jeden Passagier führt
zu einer extrem guten Vorhersage der Rettungswahrscheinlichkeit. Dies, weil (fast) nur
Passagiere, die in einem Rettungsboot aufgenommen wurden, eine Chance besaßen, zu
überleben. Die Wassertemperatur von ca. −2 Grad Celsius verhinderte ein Überleben
durch Schwimmen. Gleichzeitig ist die Berücksichtigung dieser Variable aber inhaltlich
sinnlos, denn die Aufnahme in ein Rettungsboot ist im Grunde definitorisch identisch mit
der Variable Survival. Die inhaltlich relevante Frage ist also, wer überhaupt und warum in
die Rettungsboote gelangte bzw. aufgenommen wurde oder nicht.
Prinzipiell führt die Variable „Rettungsbootnummer vorhanden“ sogar zu einer perfek-
ten Separierung (jeder Insasse eines Rettungsboots überlebte). Allerdings ist nicht für alle
Überlebenden deren Rettungsbootnummer bekannt. Als Konsequenz existiert für alle Er-
trunkenen logischerweise keine Rettungsbootnummer, während nicht für alle Überleben-
den deren Rettungsbootnummer vorliegt.
Lösung 2.8
Eine ordinale abhängige Variable könnte bspw. folgende fünf Rangstufen unterscheiden:
Abstiegsplatz, Relegationsplatz, Mittelfeldplatzierung, Vizemeister und Meister. Aller-
dings stellt die Verwendung der am Saisonende erreichten Punktzahl sicherlich die genau-
este Identifikation von Leistungsunterschieden zwischen den Bundesligamannschaften
dar. Die Verwendung der genannten ordinalen Skala impliziert daher einen Informations-
verlust, der nicht zweckmäßig ist.
Lösung 2.9
a) Das Ergebnis der logistischen Regression (Logit-Modell) mittels Stata enthält
Abb. 2.52. McFaddens Pseudo-R2 liegt lediglich bei 0,0438. Aber das Gesamtmodell
ist nach dem Likelihood-Ratio-Test signifikant (LR chi2 = 96,55, Signifikanzniveau
0,000). Die Logits der Koeffizienten sind wie folgt interpretierbar: Ein FH- oder Uni-
versitätsabschluss verringert die Wahrscheinlichkeit der Erfahrung von Arbeitslosig-
keit. Die Kontrollvariablen Ost und Deutsch haben plausible Einflüsse (positiv für Ost
und negativ für Deutsch). Ein signifikanter Geschlechtsunterschied von Männern ge-
genüber Frauen ist nicht vorhanden. Mit steigendem Alter sinkt aber die Wahrschein-
lichkeit, aktuell oder während der letzten 10 Jahre arbeitslos zu sein.
b) Das Resultat des Hosmer-Lemeshow-Tests bei 2023 Beobachtungen und 10 Gruppen
lautet: Hosmer-Lemeshow chi2 = 13,23 und das dazugehörige Signifikanzniveau be-
trägt 0,1024, also 10,42 %. Die getestete Nullhypothese überprüft, ob zwischen den
beobachteten und den geschätzten Werten der abhängigen Variable ein signifikanter
Unterschied vorliegt. Dies ist aufgrund des Signifikanzniveaus von 10,42 nicht der Fall.
Unser Modell ist also nicht zu verwerfen und kann insoweit akzeptiert werden.
c) Die Residuenplots der einfachen Residuen ( Y − Y ˆ ∗ ) zeigt Abb. 2.53 links für Y, d. h.
die Werte 0 und 1 der abhängigen Variable Arbeitslos und rechts für Ŷ∗ , d. h. die ge-
schätzte Wahrscheinlichkeit der Erfahrung von Arbeitslosigkeit.
. logistic Arbeitslos FHAbschluss UniAbschluss Mann Ost Deutsch Alter, coef

LR chi2(6) = 96.55
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
Arbeitslos | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
FHAbschluss | -.5328113 .2243811 -2.37 0.018 -.9725901 -.0930325
UniAbschluss | -.5138636 .1409994 -3.64 0.000 -.7902173 -.2375098
Mann | -.0573895 .1083263 -0.53 0.596 -.2697052 .1549261
Ost | .4118627 .1175795 3.50 0.000 .181411 .6423143
Deutsch | -.6700411 .1481834 -4.52 0.000 -.9604754 -.3796069
Alter | -.0319683 .0045708 -6.99 0.000 -.040927 -.0230096
_cons | .8112211 .2433712 3.33 0.001 .3342223 1.28822
------------------------------------------------------------------------------
Abb. 2.52 Logistische Regression der Arbeitslosigkeit

Literatur 105
Abb. 2.53 Streudiagramme der einfachen Residuen
Die Residuen liegen, wie in der Abbildung links zu sehen ist, dicht gepackt als senk-
rechte Streifen bei den beobachteten Werten der Variable Arbeitslos, d. h. bei 0 und 1.
Beträgt die geschätzte Wahrscheinlichkeit bspw. 0,35 (also 35 %) liegt das Residuum ent-
weder bei −0,35 (0 − 0,35) oder bei 0,65 (1 − 0,35). Der rechte Teil der Abb. 2.53
illustriert dies hinsichtlich der geschätzten Wahrscheinlichkeit (Pr(Arbeitslos)). Generell
müssen die Residuen zwischen −1 und +1 liegen.
Diese beiden Residuenplots sind bei allen logistischen Regressionen prinzipiell ähn-
lich strukturiert und vermitteln daher in der Regel nur bedingt verwertbare Infor-
mationen.
Literatur
Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station.
ALLBUS. (2018). Allgemeine Bevölkerungsumfrage der Sozialwissenschaften. https://www.gesis.
org/allbus/inhalte-suche/studienprofile-1980-bis-2018/2018. Zugegriffen am 01.11.2019.
Allison, P. D. (2014). Measures of fit for logistic regression, paper 1485-2014, SAS Global Forum. https://
statisticalhorizons.com/wp-content/uploads/GOFForLogisticRegression-Paper.pdf. Zugegriffen am
23.10.2019.
Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics. Princeton: Princeton Uni-
versity Press.
Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2015). Multivariate Analysemethoden
(14. Aufl.). Berlin/Heidelberg: Springer
Baltes-Götz, B. (2012). Logistische Regressionsanalyse mit SPSS. Universität Trier, ZIMK. https://
www.uni-trier.de/fileadmin/urt/doku/logist/logist.pdf. Zugegriffen am 14.10. 2019.
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics – Methods and applications. Cam-
bridge: Cambridge University Press
Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata, Revised Edition, College
Station, Texas: Stata Press.
DeCarlo, L. T. (2003). Using the PLUM procedure of SPSS to fit unequal variance and generalized
signal detection models. Behavior Research Methods, Instruments, & Computers, 35(1), 49–56.
Diaz-Quijano, F. A. (2012). A simple method for estimating relative risk using logistic regression.
BMC Medical Research Methodology, 12(14). https://doi.org/10.1186/1471-2288-12-14.
Eaton, J., & Haas, C. (1995). Titanic: Triumph and tragedy (2. Aufl.). New York/London: W. W. Nor-
ton & Company
European Banking Authority. (2019). Report on liquidity measures under article 509(1) of the CRR,
2. Oktober 2019. https://eba.europa.eu/sites/default/documents/files/documents. Zugegriffen am
17.12.2019.
Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications
Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: SAGE
Publications
Giles, D. (2011). Gripe of the day. https://davegiles.blogspot.com/2011/05/gripe-of-day.html#more.
Greene, W. H. (2018). Econometric analysis (8. Aufl.). New York: Pearson
Hardin, J. W., & Hilbe, J. M. (2018). Generalized linear models and extensions (4. Aufl.). College
Station: Strata Press
Harrell, F. (2002). Titanic data. biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.html. Zu-
gegriffen am 11.05.2019.
Hilbe, J. M. (2009). Logistic Regression Models. Boca Raton: CRC Press.
Hilbe, J. (2014). Modeling count data. Cambridge: Cambridge University Press
Hoetker, G. (2007). The use of logit and probit models in strategic management research: Critical
issues. Strategic Management Journal, 28, 331–343.
Hosmer, D. W., Hosmer, T., Le Cessie, S., & Lemeshow, S. (1997). A comparison of goodness-of-
fit-tests for the logistic regression model. Statistics in Medicine, 16, 965–980.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.).
Hoboken: Wiley
Keele, L., & Park, D. K. (2005). Difficult choices: An evaluation of heterogenous choice models,
meeting of the American Political Science Association, Chicago. /pdfs.semanticscholar.org/1a7
0/5e887e91c28503124aa91c3b1fa59b7a1570.pdf. Zugegriffen am 10.11.2019.
Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using stata
(3. Aufl.). College Station: Stata Press
Menard, S. (2002). Applied logistic regression (2. Aufl.). Thousand Oaks: SAGE Publications
Mitchell, M.N. (2012). Interpreting and visualizing regression models using Stata. College Station:
Stata Press.
Mood, C. (2010). Logistic regression: Why we cannot do what we think we can do, and what we can
do about it. European Sociological Review, 26(1), 67–82.
Norusis, M. (2011). IBM SPSS statistics 19 advanced statistical procedures companion. Upper
Saddle River: Addison Wesley
Olvera Astivia, O. L., & Zumbo, B. D. (2019). Heteroskedasticity in multiple regression analysis:
What it is, how to detect it and how to solve it with applications in R and SPSS, practical assess-
ment. Research & Evaluation, 24(1), 1–16.
nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer
Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson
UCLA IDRE. (2019). University of California at Los Angeles, Institute for Digital Research & Edu-
cation. https://stats.idre.ucla.edu/other/dae/. Zugegriffen am 28.10.2019.
Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis
(5. Aufl.). Wiesbaden: Springer VS
Williams, R. (2010). Fitting heterogenous choice models with oglm. The Stata Journal, 10(4),
540–567.
Literatur 107
Williams, R. (2016). Understanding and interpreting generalized ordered logit models. The Journal
of Mathematical Sociology, 40(1), 7–20.
Williams, R. (2018). Using Stata’s margins command to estimate and interpret adjusted predictions
and marginal effects. https://www3.nd.edu/~rwilliam/stats/Margins01.pdf. Zugegriffen am
10.10.2019.
Williams, R. (2019). Using Stata for logistic regression, ordered logit models, multinomial logit
models. https://www3.nd.edu/~rwilliam/stats/StataHighlights.html. Zugegriffen am 02.09. 2019.
Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2. Aufl.). Cam-
bridge: Cambridge University Press
Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: Cen-
gage Learning
Zeitreihenanalyse und dynamische Modelle
3
Lernziele
• die Besonderheiten der Analyse von Zeitreihen verstehen,

• unterschiedliche Arten von dynamischen Zusammenhängen (Lags und Leads)
beherrschen,
• verschiedene Formen von Distributed-Lag-Modellen unterscheiden können,
• wissen, was ein AR(1)-Modell (bzw. AR(2)-Modell usw.) ist,
• Diagramme der Autokorrelationsfunktion (ACF) und der partiellen Autokorrela-
tionsfunktion (PACF) interpretieren können,
• überblicken, welche Grenzen die OLS-Schätzung bei Autokorrelation aufweist,
• Testverfahren zur Überprüfung von Autokorrelation – wie den Durbin-Watson
und den Breusch-Godfrey-Test – anwenden können,
• verschiedene Möglichkeiten zum Umgang mit Autokorrelation – wie Neuspezi-
fikation und HAC-Standardfehler – kennen,
• eine Autoregressive-Distributed-Lag-Spezifikation interpretieren können,
• verstehen, was die Stationarität einer Zeitreihe bedeutet,
• wissen, welche Bedeutung der Exogenität einer unabhängigen Variablen im Zu-
sammenhang mit Zeitreihen zukommt,
• die Relevanz von Strukturbrüchen einschätzen können,
• den ADF-Test (Augmented Dickey-Fuller-Test) beherrschen,
• in der Lage sein, den Einsatz von Zeitreihenmodellen für Prognosen zu erläutern.
110 3 Zeitreihenanalyse und dynamische Modelle
cc Wichtige Grundbegriffe Autokorrelation, Distributed Lag, Lead, verzögerte abhängige

Variable, autoregressives Modell, Lag-Länge, Korrelogramm, Stationarität, Durbin-Watson-
Test, Breusch-Godfrey-Test, HAC-Standardfehler, Autokorrelationsfunktion, ARDL-Modell,
ADF-Test
3.1 Überblick
Zunächst beschreibt Abschn. 3.2 Formen und Merkmale von Zeitreihendaten (Längs-
schnittdaten). Abschn. 3.3 analysiert, inwieweit eine einfache OLS-Schätzung auf der Ba-
sis von Daten aus mehreren Perioden durchführbar ist. Die Abschn. 3.4, 3.5 und 3.6 ver-
anschaulichen, welche speziellen Probleme bei der Regression auf der Basis von Zeitreihen
auftreten. In diesem Kontext stellt Abschn. 3.4 das Problem der Autokorrelation dar,
Abschn. 3.5 diskutiert die Exogenität der unabhängigen Variablen, und Abschn. 3.6 er-
läutert die Stationarität von Zeitreihen. Darauf aufbauend zeigt Abschn. 3.7, wie die Be-
stimmung der Modellspezifikation (Lags bzw. Leads) erfolgt und fasst die praktische Vor-
gehensweise zusammen. Da hier nur eine sehr kurze Einführung in die Grundlagen der
Untersuchung von Zeitreihen gegeben wird, enthält abschließend Abschn. 3.8 eine Reihe
von weiterführenden Hinweisen zu Prognosemodellen und Variablen mit gemeinsa-
men Trends.
3.2 Datengrundlage
Bei der Behandlung verschiedener Datenformen im Kap. 1 des ersten Bands (Stoetzer
2017) war die grundlegende Unterscheidung von Querschnitts- und Zeitreihenbeobach-
tungen bereits erläutert worden. Wichtig ist, dass auf der Basis der bisher behandelten
Querschnittsdaten bestimmte Problemstellungen nicht zu beantworten sind.
Dazu zählt erstens die Möglichkeit, Einflüsse aus Vorperioden mit in die Spezifikation
aufzunehmen und so die Wahrscheinlichkeit eines Omitted Variable Bias zu verringern.
Zweitens können die kausalen Wirkungen einer Veränderung im Zeitverlauf analysiert
werden. Welche Wirkung übt die Zahl der Abiturienten eines Jahrgangs auf die Zahl der
Studienanfänger in den Folgejahren aus? Hat die Erhöhung des Kindergeldes einen Ein-
fluss auf die Zahl der Geburten in den Jahren danach? Zieht eine steigende Arbeitslosig-
keit sofort oder später geringere Inflationsraten nach sich?
Drittens sind Zeitreihen besonders geeignet, Aussagen über zukünftige Entwicklungen
zu treffen, d. h. Prognosen zu erstellen. Wie hoch wird bspw. die Arbeitslosenquote im
vierten Quartal des Jahres 2021 sein? Existiert dabei ein Zusammenhang mit den Arbeits-
losenquoten in den vierten Quartalen der Jahre 2016 bis 2020? Der Ursprung der Zeitrei-
henanalyse ist eine solche Untersuchung von Regelmäßigkeiten und Strukturen in der
Datenreihe einer einzelnen Variablen (bspw. der Entwicklung von Aktienkursen). Bei
3.2 Datengrundlage 111
solchen univariaten Prognosen geht es also nicht um die Aufdeckung kausaler Zusam-
menhänge zwischen mehreren Variablen. Stattdessen erklären wir die zukünftige Entwick-
lung einer Variablen aus ihrer eigenen Vergangenheit heraus. Aber auch bei Prognosen
können ggf. zukünftige Entwicklungen besser vorhergesagt werden, wenn wir zusätzlich
die Vergangenheit anderer Variablen einbeziehen (multivariate Prognosen).
In beiden Fällen existieren dynamische Zusammenhänge (der Erhöhung des Kinder-
geldes oder der Arbeitslosenquote der Vorperiode), die in einer reinen Querschnittsbe-
trachtung nicht analysierbar sind. Die folgende Darstellung fokussiert Aspekte, die (auch)
bei Hypothesentests, d. h. der Analyse von kausalen Zusammenhängen, relevant sind.
Zeitreihen sind Daten einer Beobachtungseinheit über verschiedene Zeitpunkte (bzw.
Perioden) hinweg. Typische Beobachtungseinheiten sind dabei Unternehmen, Individuen,
Staaten oder Regionen. Ein mikroökonomisches Beispiel mit 30 Beobachtungen sind die
jährlichen Gesamtkosten der Fluggesellschaft American Airlines im Zeitraum 1989 bis
2018. Die börsentäglich ermittelte Umlaufrendite inländischer Inhaberschuldverschrei-
bungen vom Februar 1976 bis zum Dezember 2017 stellt ein makroökonomisches Beispiel
mit über 10.000 Beobachtungen dar.
Der Umfang einer Stichprobe bei Zeitreihen entspricht der Zahl der Perioden, für die
wir bei einer Variablen über Daten verfügen. Wichtig ist, dass die Daten für alle Perioden
des Beobachtungszeitraums komplett vorhanden sind. Außerdem müssen die Variablen
über alle Perioden einheitlich und konsistent ausfallen. Bei einer Zeitreihe der Arbeitslo-
senquote muss diese bspw. in jeder Periode identisch definiert sein, und der Bezugszeit-
raum – etwa Monate, Quartale oder Jahre – hat für alle Beobachtungen übereinzustimmen
(= Äquidistanz der Perioden). Sind diese Voraussetzungen nicht gegeben, ist es notwen-
dig, diese in der Analyse zu berücksichtigen. Etwa indem fehlende Daten (Missing Values)
für einzelne Perioden durch geeignete Verfahren ergänzt werden (siehe dazu Kap. 5).
Der erste Schritt einer Zeitreihenanalyse ist immer eine grafische Darstellung (ein Plot)
der jeweiligen Variable in einem Streudiagramm, bei der die Zeitperioden auf der
x-Achse stehen.
Die Abb. 3.1, 3.2 und 3.3 enthalten Beispiele für makroökonomische und mikroöko-
nomische Variablen. Die Entwicklung des Bruttoinlandsproduktes (BIP) pro Kopf im
Zeitraum 1990 bis 2017 für China, Italien und Deutschland findet sich in Abb. 3.1. Es
handelt sich um Größen in US-$, die mittels Kaufkraftparitäten und den gemeinsamen
Bezug auf das Jahr 2011 vergleichbar gemacht worden sind. Die Veränderung des BIP pro
Kopf wird häufig verwendet, um die Entwicklung des Lebensstandards in verschiedenen
Staaten zu vergleichen. Abb. 3.2 zeigt die inflationsbereinigten Ölpreise in den USA von
1946 bis 2019. Hier sind bspw. die starken Preissteigerungen der 1. Ölkrise 1973 und der
2. Ölkrise 1979 auffällig.
Besonders interessant sind die monatlichen Arbeitslosenquoten (ALQ) in Deutschland
von 2005 bis 2019 in Abb. 3.3. Es ist offensichtlich, dass diese Zeitreihe verschiedene sich
überlagernde Komponenten besitzt. Erstens existiert eine ausgeprägte saisonale Kompo-
nente: Die ALQ steigt jeweils in den Monaten Dezember bis Februar und sinkt im Som-
mer. Darüber hinaus ist auch ein längerfristiger Trend zu beobachten: Die ALQ verringert
60,000
50,000
40,000
China
30,000
Germany
Italy
20,000
10,000
Abb. 3.1 BIP pro Kopf China, Italien, Deutschland 1990–2017. BIP = (Bruttoinlandsprodukt pro
Kopf (GDP per capita PPP, constant 2011 international US-$)). (Quelle: Worldbank 2019)
Abb. 3.2 Ölpreise in den USA 1946–2019. Ölpreis: Domestic US Crude Oil Prices (in $/Barrel),
inflationsbereinigt. (Quelle: Inflationdata 2019)
sich über die Jahre hinweg. Diese Entwicklung lässt sich mit den Arbeitsmarktreformen
der Agenda 2010 in den Jahren 2003 bis 2005 erklären. Unter Umständen sind aber auch
weitere mittel- und langfristige Trends relevant: etwa konjunkturelle (zyklische) Einflüsse
und demografische Veränderungen aufgrund der abnehmenden Zahl von Personen im er-
werbsfähigen Alter. Alle diese Wirkungen müssen ggf. im Modell berücksichtigt werden,
um inhaltlich sinnvolle Aussagen zu treffen. Bspw. sind zur Beurteilung der Entwicklung
der Arbeitslosigkeit saisonale Einflüsse im Allgemeinen irrelevant. Bei Zeitreihen ist da-
14
12
10
Abb. 3.3 Monatliche Arbeitslosenquote Deutschland 1/2005–1/2019. Arbeitslosenquote in % aller

zivilen Erwerbspersonen. (Quelle: Statistisches Bundesamt 2019b)
her die Bereinigung solcher Schwankungen oder alternativ ihre Berücksichtigung in der
Modellspezifikation ein wichtiger Gesichtspunkt.1
Im Fall von Querschnittsdaten existiert normalerweise keine natürliche Ordnung in
der Reihenfolge der Beobachtungen. Eine Tabelle der Kosten von 15 Fluggesellschaften in
den USA beginnt bspw. mit Northwest Airlines und endet mit Shuttle America Airlines
(Stoetzer 2017, Abschn. 1.1). Diese Reihenfolge ist aber beliebig, da unser Beobachtungs-
datensatz ja prinzipiell eine Zufallsauswahl aus der Grundgesamtheit darstellt. Zum Bei-
spiel würde eine alphabetische Aufzählung mit American Airlines beginnen und mit US
Airways enden. Die Ergebnisse sind hinsichtlich der Mittelwerte und OLS-Schätzungen
auf der Basis dieser Querschnittsdaten für beide Reihenfolgen identisch. Dies geht einher
mit der Annahme, dass die Kosten von US Airways keinen Zusammenhang mit den Kos-
ten der in der Tabelle folgenden Fluggesellschaft etwa Mesa Airlines besitzen. Die Kosten
in der Tabelle hintereinander stehender Fluggesellschaften sind also völlig unabhängig
voneinander.2
Bei Zeitreihendaten ist dies häufig nicht so. Die Beobachtungen sind hier nach der
Zeit sortiert, und es ist plausibel, dass diese zusammenhängen, d. h. miteinander kor
relieren. Die erheblichen Ölpreissenkungen im Jahr 2015 (Fracking-Boom, OPEC-
1
Dies gilt bspw. für makroökonomische Werte, die sich auf Monate beziehen. Hier sind bei Produk-
tionsdaten (BIP, Umsätze usw.) Kalenderbereinigungen durchzuführen, die unterschiedliche Zahlen
der Arbeitstage in bestimmten Monaten (bspw. aufgrund von Feiertagen) berücksichtigen.
2
Für unser Pkw-Beispiel aus Band 1 (Stoetzer 2017) mit 15 Vertriebsregionen ist aber die Annahme,
dass die Reihenfolge der Regionen keinerlei inhaltliche Bedeutung hat, nicht selbstverständlich.
Räumlich nebeneinander liegende Verkaufsregionen könnten sich hinsichtlich der verkauften Pkw
beeinflussen – bspw. durch reiche Konsumenten in einer Region, die in der Nachbarregion ihre Pkw-
Käufe tätigen. Raum-Regressionsmodelle (Spatial Regression Models), die hier nicht behandelt
werden, modellieren solche Einflüsse.
Verdrängungswettbewerb) führten zur Verringerung der Flugbenzinkosten. Dies beein-

flusst die Kosten von American Airlines ggf. über mehrere Jahre hinweg. Die schrittweise
Senkung der Leitzinsen durch die EZB von 3,75 % im Oktober 2008 bis auf 0,00 % im
März 2016 hatte im Zeitablauf Auswirkungen auf das Zinsniveau des deutschen Kapi-
talmarkts.
Die Effekte von Ölpreisveränderungen auf die Kosten sind dabei nicht nur auf den Zeit-
punkt der Änderung und das Folgejahr beschränkt, sondern werden eventuell erst später
wirksam. Dies resultiert etwa aus längerfristig vereinbarten Preisen für Kerosin oder wird
von der Wettbewerbsintensität auf dem Luftverkehrsmarkt beeinflusst. Die Wirkungen
von Veränderungen verteilen sich also unter Umständen über mehrere Perioden (siehe
Abb. 3.4). Allgemein formuliert hat ein Ereignis des Zeitpunktes t = 0 Auswirkungen
bspw. auf die beiden Folgeperioden t + 1 und t + 2. Auch Leitzinsveränderungen entfalten
ihre Wirkung vermutlich über längere Zeiträume hinweg, werden also von den Finanz-
märkten über mehrere Perioden hindurch verarbeitet. Und insbesondere der Einfluss auf
die Investitionen der Unternehmen ist mit Sicherheit nicht auf das Jahr der Zinssenkung
beschränkt.
Anders formuliert, wird die Variable Y zum Zeitpunkt t = 2, d. h. Y2, von der Variable
X der Zeitpunkte t − 1 (d. h. Zeitpunkt 1) und t − 2 (d. h. Zeitpunkt 0) beeinflusst.
Wenn die Wirkungen von Veränderungen nicht alle sofort, d. h. in derselben Periode
(kontemporär), auftreten, stellt sich das Problem, wie solche dynamischen Beziehungen
über mehrere Perioden hinweg modelliert werden können. In dieser Hinsicht sind prinzi-
piell verschiedene Effekte möglich und plausibel.
Der Erfolg einer Marketingkampagne (Variable X) in einem Monat t wird bspw. erst im
darauf folgenden Monat t + 1 in Form einer Erhöhung des Absatzes Y deutlich. Was be-
deutet, dass der Absatz eines Monats von den Marketingmaßnahmen des Vormonats
abhängt:
Yt = f ( X t −1 ) (3.1)
Bei einer linearen Spezifikation ergibt sich:
Yt = a 0 + b1 X t −1 + e t (3.2)
Abb. 3.4 Verzögerte Zeitpunkt 0 Zeitpunkt 1 Zeitpunkt 2

Wirkungen
Veränderung eines
Einflussfaktors X
zum Zeitpunkt t
Auswirkung auf Auswirkung auf Auswirkung auf

eine abhängige eine abhängige eine abhängige
Variable Y zum Variable Y zum Variable Y zum
Zeitpunkt t Zeitpunkt t + 1 Zeitpunkt t + 2
Wobei die Konstante hier mit a0 und die Koeffizienten mit b1 usw. bezeichnet werden.3
Wir unterstellen in Gl. (3.2), erstens, dass keine kontemporären (d. h. gleichzeitigen)
Wirkungen vorhanden sind, da die Variable Xt nicht als unabhängiger Einflussfaktor er-
scheint. Zweitens tritt die Nachwirkung (Verzögerung) ausschließlich in der Folgeperiode
auf. Es handelt sich um eine Verzögerung um genau eine Periode (= Xt−1). Die Verzöge-
rung in der Gl. (3.1) bzw. (3.2) wird auch Lag genannt. Ein Lag ist nichts anderes als eine
Zeitverschiebung. Der Lag t − 1 der unabhängigen Variable X ist also eine Verzögerung
dieser Variable um eine Periode, t − 2 ein Lag von zwei Perioden usw. Aus dem jeweiligen
Kontext ergibt sich die Länge der betrachteten Perioden, d. h., ob es sich dabei um Tages-,
Quartals-, Jahres- oder sonstige Lags handelt. Eine Verzögerung um eine Periode bezeich-
nen wir auch als Lag erster Ordnung, von zwei Perioden als Lag zweiter Ordnung und so
fort. Tritt die Verzögerung – wie in den Gl. (3.1) und (3.2) – nur in einer einzigen der fol-
genden Perioden auf, handelt es sich um einen einfachen Lag.
Wenn eine Ölpreiserhöhung in einem Jahr einen Einfluss im betreffenden Jahr und auch
noch in zwei Folgeperioden ausübt, hängen umgekehrt die Kosten einer Fluggesellschaft
zum Zeitpunkt t (= Yt) von den Ölpreisen des laufenden Jahres (= Xt) sowie der beiden
vorangehenden Jahre (= Xt−1 und Xt−2) ab – bspw. weil die Lieferverträge für Kerosin Fest-
preise mit Laufzeiten von bis zu zwei Jahren besitzen. In Funktionsform sieht dieser Zu-
sammenhang als lineares Modell wie folgt aus:
Yt = a 0 + b 0 X t + b1 X t −1 + b 2 X t − 2 + e t (3.3)
Bei der Interpretation der Koeffizienten ist zu beachten, dass deren Wirkungen jeweils
c. p. ermittelt werden. Der Koeffizient b2 misst den Einfluss der Ölpreiserhöhung vor zwei
Jahren (zum Zeitpunkt t − 2) auf die Kosten zum Zeitpunkt t, wenn die Wirkung der Öl-
preiserhöhung im letzten Jahr (d. h. t − 1) konstant gehalten wird. Der Einfluss im letzten
Jahr wird also bereits berücksichtigt, und b2 ist die zusätzliche Wirkung im übernächs-
ten Jahr.
Ob man Lags in die Regressionsgleichung aufnimmt und welche Lagstruktur dabei
spezifiziert wird, muss in erster Linie inhaltlich begründet werden. Bspw. wollen wir die
Auswirkungen einer Kindergelderhöhung (= X) auf die jährlichen Geburtenraten in
Deutschland (= Yt) ermitteln. Die Spezifikation der Regressionsgleichung (3.3) ist bei ei-
ner Analyse der Wirkung einer Kindergelderhöhung, die im Mai eines Kalenderjahres
stattfindet, wenig plausibel. Aus biologischen Gründen und wegen des Zeitbedarfs von
Verhaltensanpassungen ist eine Erhöhung der Fertilität schon (und vor allem nur) im glei-
chen Jahr unwahrscheinlich. In diesem Fall macht es Sinn, den kontemporären Einfluss Xt
aus Gl. (3.3) wegzulassen.
3
In der Literatur werden häufig für die Koeffizienten an Stelle des lateinischen Alphabets die grie-
chischen Buchstaben α, β, λ usw. verwendet.
Die möglichen Lags sind natürlich nicht auf zwei Perioden beschränkt. In der Schreib-
weise einer mathematischen Gleichung bei Wirkungen über insgesamt n Perioden hinweg
ausgedrückt:
Yt = f ( X t ,X t −1 ,X t − 2 ,X t −3 ,…..,X t − n ) (3.4)
Diese Gleichung in Form der Spezifikation einer linearen Regression lautet dann:
Yt = a 0 + b 0 X t + b1 X t −1 + b 2 X t − 2 + b3 X t −3 +….. + b n X t − n + e t (3.5)
Die Wirkungen der unabhängigen Variable X auf die abhängige Variable Y verteilen
sich also über die Perioden hinweg. Diese Regressionen sind daher Modelle mit verteil
ten Verzögerungen (Distributed-Lag-Modelle). Die Koeffizienten a0, b0, b1, b2 usw. der
Gl. (3.5) können wir wie üblich mittels der OLS-Methode schätzen.
In der Regel ist es plausibel, dass die Wirkungen über die Perioden hinweg abnehmen.
Für die Schätzung der Koeffizienten heißt dies, es gilt: b1 > b2 > b3 usw. Außerdem wird
häufig unterstellt, dass die Wirkungen über die Zeit hinweg nur im Rahmen einer über-
schaubaren Zahl von Perioden auftreten: Die Auswirkungen eines dauerhaft bspw. um 6 %
erhöhten Einkommens X auf das Niveau und die Struktur der Nachfrage eines Haushalts
nach Urlaubsreisen Y werden nach zwei bis vier Jahren abgeschlossen sein. Weitere Ver-
änderungen aufgrund der einmaligen 6 %igen Einkommenserhöhung zum Zeitpunkt t sind
nach dieser Anpassungsphase (c. p.) nicht zu erwarten. Die Zahl der einzubeziehenden
Lags des Einkommens (die Höhe der Ordnungen) wird also als begrenzt angesehen. Dann
handelt es sich um begrenzte verteilte Verzögerungen (Finite Distributed Lags), so-
genannte FDL-Spezifikationen.4 Unser Modell der Geburtenraten ist ein Beispiel für ein
FDL(2)- Modell.
Die Regressionsgleichung (3.5) beinhaltet, dass es nur eine unabhängige Variable X
gibt. Diese tritt allerdings mit den verschiedenen Lags t − 1, t − 2 usw. auf. Prinzipiell
kann die Gleichung um weitere unabhängige Einflussfaktoren (bspw. als Variablen Z, V, W
usw. abgekürzt) erweitert werden. Auch diese zusätzlichen Einflussfaktoren können mit
und ohne Verzögerungen berücksichtigt werden (bspw. als Variablen Zt, Zt−1, Zt−2, Vt−4,
Wt−1, Wt−2 usw.).
In der Zeitreihenanalyse sind die Wirkungen von Änderungen unter verschiedenen As-
pekten zu differenzieren. Erstens dürften – wie oben bereits erläutert – die Einflüsse unter-
schiedlich ausfallen, je nachdem, ob bspw. die Einkommenserhöhung nur einmalig (in
einer Periode) stattfindet (etwa in Form einer Bonuszahlung) oder eine permanente Stei-
gerung ist (bspw. als Tariflohnerhöhung), die ab einem Zeitpunkt t für alle Folgemonate
gilt. Zweitens sind die unmittelbaren Wirkungen (Contemporaneous Impacts) von
den langfristigen Einflüssen (Long-Run Impacts) zu unterscheiden. In Gl. (3.3) ist b0
4

Eine genauere Darstellung der Zeitreihenanalyse bspw. auch von unbegrenzten Distribu-
ted-Lag-Modellen enthalten Pindyck und Rubinfeld (1998, S. 521–578), Kirchgässner et al. (2014)
und Becketti (2013).
der unmittelbare Einfluss einer Veränderung der Variablen X in der Periode t. Die Summe
der Koeffizienten b0 + b1 + b2 ist der langfristige Effekt. Damit diese Aussage richtig ist,
darf es aber keine Auswirkungen über mehr als diese drei Perioden hinweg geben. Wool-
dridge (2016, S. 314–316) und Dougherty (2016) erläutern die Zusammenhänge anhand
weiterer Beispiele.
Umgekehrt ist es auch möglich, dass zukünftige Veränderungen bereits in der Gegen-
wart Einfluss ausüben. Dann sprechen wir von einem „Lead“. Solche Leads sind bspw. bei
der Antizipation einer erwarteten Zinserhöhung der Zentralnotenbank durch die Wirt-
schaftssubjekte plausibel. Ein solche Zinserhöhung I ist dann als It+1, It+2 usw. in die Re-
gressionsgleichung aufzunehmen.
Zwei Fragen ergeben sich daraus. Erstens das Problem, wie lange zurückliegende (bzw.
vorlaufende) Zeitpunkte einzubeziehen sind? Anders formuliert, wann sind alle Wirkungen
einer Veränderung abgeschlossen – nach zwei, drei, zehn oder nach wie vielen Perioden?
Und: Ab wann ist denn ein Antizipationseffekt zu erwarten? Zweitens ist anzunehmen, dass
diese zeitliche Verteilung der Wirkungen von Ölpreis- oder Kindergelderhöhungen und von
Leitzinssenkungen jeweils unterschiedliche temporäre Wirkungsstrukturen besitzen. Je nach
den Randbedingungen treten die Effekte schneller oder langsamer und mal über längere und
mal über kürzere Zeiträume hinweg auf. Beide Fragen sind unter inhaltlichen Gesichtspunk-
ten der jeweiligen Problemstellung zu beurteilen. Die zeitliche Verteilung der Wirkungen
muss daher bei jeder Variablen neu analysiert werden. Der Abschn. 3.7 unten erläutert dies
genauer. Dabei ist es wichtig, im Blick zu haben, dass, wenn wir eine verzögerte Variable
nicht berücksichtigen, die tatsächlich einflussreich ist, dies ggf. zu einer Verzerrung unserer
Koeffizientenschätzungen führt (Omitted Variable Bias).
Werden mehrere oder sogar viele Lags einbezogen, tauchen damit weitere Schwierig-
keiten auf. Erstens gehen mit jedem weiteren zusätzlichen Lag Beobachtungen verloren,
und gleichzeitig steigt mit jedem weiteren Lag die Zahl der unabhängigen Variablen. Da-
durch werden unsere Regressionsschätzungen „ungenauer“, weil die Zahl der Freiheits-
gerade schrumpft. Zweitens korrelieren die Verzögerungen einer Variablen häufig stark
miteinander, so dass Multikollinearität auftritt. Dies ist problematisch, weil ggf. die Wir-
kungen der verschiedenen Lags einer Variablen (bspw. Xt, Xt−1, Xt−2 usw.) nicht voneinan-
der getrennt werden können und unplausible oder sogar unsinnige Koeffizientenschätzun-
gen resultieren (Studenmund 2016, S. 366; Stoetzer 2017, Abschn. 5.5).
Dieser dynamische, d. h. zeitpunktübergreifende Zusammenhang kann auch modelliert
werden, indem man unterstellt, dass die verzögerte abhängige Variable einen Einfluss be-
sitzt. Inhaltlich ist dies plausibel, wenn bestimmte „Beharrungskräfte“ existieren (auch als
Persistenzen oder Ratchet-Effekte bezeichnet). Eine solche Trägheit in der Anpassung ist
inhaltlich in den gesamten Sozialwissenschaften naheliegend, weil Individuen (und damit
auch Organisationen) Gewohnheiten gerne beibehalten. So existieren bspw. Konsumge-
wohnheiten oder Liefer- bzw. Mietverträge, die nur mittel- bis langfristig änderbar sind.
Auch verhindern etwa Suchkosten, Vertragsverhandlungen oder der Verlust von Qualifika-
tionen kurzfristige Anpassungen an veränderte Rahmenbedingungen auf dem Arbeitsmarkt.
In der Arbeitsmarkökonomie firmiert das Phänomen als Hysterese und ist eine der verschie-
denen Erklärungen der Arbeitslosigkeit in der Makroökonomie. Wenn bspw. die Jugendar-
beitslosigkeit in Spanien im Januar 2018 bei 26,2 % liegt, kann sie im Februar 2018 kaum
auf 8 % fallen. Plausibel ist, dass sie im Februar 2018 darunter liegt, etwa bei 23 % oder
20 %. Die Höhe der Jugendarbeitslosigkeit im Januar 2018 ist folglich ein guter Ausgangs-
punkt für eine Prognose der Arbeitslosenquote in den Folgemonaten des Jahres 2018. Solche
Trägheiten sind vor allem relevant, wenn die Perioden, auf die sich unsere Zeitreihen bezie-
hen, kurz sind. Sie treten also bei Monats- und Quartalsdaten eher auf als bei Jahresdaten.
Liegen solche Beharrungskräfte vor, wird die verzögerte abhängige Variable als unab-
hängige Variable in die Spezifikation der Regressionsgleichung aufgenommen:
Yt = f ( Yt −1 ) (3.6)
Als linear spezifizierte Regression also:
Yt = a 0 + c1 Yt −1 + e t (3.7)
Der Wert der abhängigen Variablen Y zum Zeitpunkt t wird also mittels des Wertes von
Y in der vorangegangenen Periode t − 1 erklärt. Den dazugehörigen Koeffizienten kürzen
wir hier mit c1 ab. Auch in diesem Fall können weitere Verzögerungen zweiter und höherer
Ordnungen hinzukommen. Eine derartige Modellierung von dynamischen Zusammenhän-
gen wird in der Zeitreihenanalyse insbesondere bei Vorhersagemodellen eingesetzt. An-
wendungsbeispiele sind die Prognosen von Aktienkursen, Arbeitslosen- und Inflationsra-
ten. Da bei den Modellen der Gl. (3.6) bzw. (3.7) die Entwicklung einer abhängigen
Variable sozusagen „aus sich selbst heraus“ erklärt wird, lautet die Bezeichnung für diese
Vorgehensweise autoregressives Modell (AR-Modell).5 Analog zu den Bezeichnungen
im Fall von Lags ist ein AR(1)-Modell dann ein autoregressives Modell erster Ordnung.
Die höchste verwendete Verzögerung wird in Klammern dazugeschrieben. Ein AR(4)-Mo-
dell umfasst also die Lags erster bis einschließlich vierter Ordnung.6
Die beiden Ansätze einerseits der verteilten Verzögerungen und andererseits der auto-
regressiven Modelle sind kombinierbar. Solche Spezifikationen heißen Autoregressive
Distributed-Lag-Modelle (ADL-Modelle, bzw. ARDL-Modelle). Eine derartige Re-
gression hat prinzipiell folgendes Aussehen:
Yt = a 0 + c1 Yt −1 + c 2 Yt − 2 +…+ c m Yt − m + b 0 X t + b1 X t −1 + b 2 X t − 2 +…+ b n X t − n + e t (3.8)
Der Lag des autoregressiven Teils Y umfasst m Perioden, und der Lag der Distributed-
Lag-Variablen X beträgt n Perioden. Wie oben bereits erwähnt, können in die Gleichung
5
Unter bestimmten Annahmen kann ein Modell mit verteilten Verzögerungen (Distributed-Lag-Mo-
dell), wenn die verzögerten Wirkungen zeitlich unbegrenzt (unendlich) auftreten, in ein Modell mit einer
verzögerten abhängigen Variable überführt werden: Aus der Gl. (3.5) wird dann: Yt = a0 + b0Xt + cYt−1.
Dies ist die sogenannte Koyck-Transformation (Auer und Rottmann 2010, S. 570).
6
Zum Teil werden in der Literatur nur solche AR-Modelle als dynamische Modelle bezeichnet,
FDL-Modelle dagegen nicht.
natürlich auch weitere Einflussvariablen (mit oder ohne Lags und Leads) aufgenom-
men werden.
Als Beispiel erklären wir die Inflationsrate in Deutschland anhand ihrer verzögerten
Werte einerseits und der Arbeitslosenquote andererseits. Das heißt, wir modellieren eine
dynamische (modifizierte) Phillipskurve. Die abhängige Variable ist in der Gl. (3.9) die
Inflationsrate zum Zeitpunkt t (INFLt). Im Folgenden ADL(2,3)-Modell unterstellen wir,
dass die Inflationsraten (= INFL) der beiden Vorperioden und die Arbeitslosenquote
(= ALQ) der letzten drei Perioden einflussreich sind:
INFLt = a 0 + c1INFLt −1 + c 2 INFLt − 2 + b0 ALQt + b1 ALQt −1 + b2 ALQt − 2 + b3 ALQt −3 + e t (3.9)
Bei den Perioden kann es sich abhängig von der Fragestellung und den vorhandenen
Daten bspw. um Monate, Quartale oder Jahre handeln.
Neben Lags spielen Veränderungen und prozentuale Veränderungen in der Zeitreihen-
analyse eine wichtige Rolle. Abb. 3.5 verdeutlicht die Beziehungen zwischen diesen
Werten anhand der monatlichen Arbeitslosenquote in Deutschland im Jahr 2012 bzw.
2013. Bei einem Lag von einer Periode wird der Wert der Arbeitslosenquote zum Zeit-
punkt t ersetzt durch den Wert der Vorperiode t − 1. Zum Beispiel liegt der beobachtete
Wert im Januar 2013 bei 7,4 %. Bei einem Lag erster Ordnung wird dieser Wert im Ja-
Lag Erste Prozentuale

Arbeitslosen-
Jahr Monat 1.Ordnung Differenz ∆Yt Veränderung
quote (Yt) (Yt-1)
(= Yt-Yt−1) Yt Yt−1
100
Yt−1
Oktober 6,5
2012 November 6,5 6,5 0,0 0,0%
Dezember 6,7 6,5 0,2 3,0%
Januar 7,4 6,7 0,7 10%
Februar 7,4 7,4 0,0 0,0%
März 7,3 7,4 −0,1 −1,4%
April 7,1 7,3 −0,2 −2,7%
Mai 6,8 7,1 −0,3 −4,3%
2013
Juni 6,6 6,8 −0,2 −2,9%
Juli 6,8 6,6 0,2 3,0%
August 6,8 6,8 0,0 0,0%
September 6,6 6,8 −0,2 −2,9%
Oktober 6,5 6,6 −0,1 −1,5%
Abb. 3.5 Lags, erste Differenzen und Veränderungen

nuar 2013 ersetzt durch den Wert der Vorperiode vom Dezember 2012, der bei 6,7 % liegt
(d. h. durch den Wert aus t − 1). Anders formuliert, „verschieben“ wir den Wert vom De-
zember 2012 in den Januar 2013 also um eine Periode weiter (t + 1). Durch die Bildung
dieses Lag geht eine Beobachtung „verloren“: Unsere Zeitreihe beginnt mit dem Oktober
2012, und da für die Vorperiode, den September 2012, kein Wert vorhanden ist, kann auch
kein Lag aus dem September berechnet werden. Entsprechend verschwinden in einem
Paneldatensatz die Querschnittsbeobachtungen für eine Periode. Bei der Spezifikation von
Lags über viele Perioden hinweg schrumpft somit die Zahl der Beobachtungen u. U. er-
heblich (d. h., es gehen uns Freiheitsgerade verloren). Bspw. fallen bei einem Lag dritter
Ordnung die Beobachtungen von Oktober bis Dezember 2012 weg. Eine Obergrenze der
berücksichtigten Lags bzw. Leads stellt die Anzahl der Perioden dar, für die Beobachtun-
gen existieren.
Für Zeitreihen und Paneldaten ist Analyse von Veränderungen häufig ein wichtiger
Aspekt. Dazu berechnen wir erste Differenzen bzw. darauf basierend prozentuale
Veränderungen (siehe Abb. 3.5). Bei der Bildung erster Differenzen wird vom Wert einer
Variablen zum Zeitpunkt t der Wert dieser Variable in der Vorperiode (t − 1) abgezogen.
Die erste Differenz der Arbeitslosenquote im Januar 2013 beträgt daher 7,4 % minus
6,7 % also 0,7 %-Punkte. Die Abkürzung für diese erste Differenz lautet üblicherweise
∆Yt. Der griechische Buchstabe Delta (= ∆) steht für den Unterschied zwischen den bei-
den betrachteten Perioden. Die letzte Spalte der Abb. 3.5 enthält die prozentualen Ver
änderungen von einer Periode zur Vorperiode. Im Januar 2013 sind dies 0,7 geteilt durch
6,7 also (gerundet) 0,1 bzw. 10 %: Vom Dezember 2012 auf den Januar 2013 ist die Ar-
beitslosenquote um 10 % gestiegen. Auch bei der Berechnung von Veränderungen gehen
natürlich entsprechend Beobachtungen verloren.
Neben solchen Lags sind bei Untersuchungen von Zeitreihen auch die bereits erwähn-
ten Leads relevant. Bei einem „Lead“ (einem Vorlauf) wird eine Variable zum Zeitpunkt t
ersetzt durch ihren Wert in der darauf folgenden Periode t + 1. Abb. 3.6 enthält die Zahl
der Abiturienten in Baden-Württemberg in den Jahren 2005 bis 2011.
In der linken Spalte sehen wir den uns bereits bekannten Lag erster Ordnung – hier der
Abiturienten, die um ein Jahr nach hinten verschoben werden. Dies ist inhaltlich sinnvoll,
wenn es darum geht, die Zahl der Studienanfänger im Jahr 2006 zu schätzen, denn mehr
Hochschulzugangsberechtigte im Jahr 2005 erhöhen im Jahr 2006 die Gruppe der (poten-
ziellen) Studienanfänger.
Die rechte Spalte zeigt den entsprechenden Lead erster Ordnung – also um ein Jahr
nach vorne verschoben. Zum Beispiel befindet sich im Jahr 2005 die Zahl der Abiturienten
des folgenden Jahres 2006. Wann sind solche Vorläufe sinnvoll? Sie resultieren bei vielen
sozialwissenschaftlichen Fragen aus der Antizipation zukünftiger Entwicklungen. Erwar-
tete abnehmende Abiturientenzahlen waren in der deutschen Hochschulpolitik der Grund
dafür, Professoren und Mitarbeiterstellen an den Hochschulen bereits im Vorgriff zu redu-
zieren. Zur Erklärung der Veränderung der Professorenstellen an den Hochschulen im
Jahr 2005 ist es daher sinnvoll, die Abiturientenzahlen des Folgejahres 2006 in die
Regressionsgleichung aufzunehmen. Das heißt, man baut einen Lead erster Ordnung ein.
3.3 Einfache Regressionsanalyse der Daten mehrerer Perioden 121
Abb. 3.6 Lags und Leads

Lag Zahl der neuen Lead
Jahr 1.Ordnung Hochschulzugangs- 1.Ordnung
(Yt-1) berechtigten(Yt) (Yt+1)
2005 – 26690 29161
2006 26690 29161 30475
2007 29161 30475 31979
2008 30475 31979 33394
2009 31979 33394 34322
2010 33394 34322 35684
2011 34322 35684 –
Das Beispiel macht auch deutlich, dass – genau wie bei den Lags – natürlich Leads zweiter
oder höherer Ordnung möglich sind. Inwieweit sie auch sinnvoll sind, muss unter inhalt-
lichen Aspekten entschieden werden. Leads sind ein geeignetes Instrument, um Informa-
tionen über zukünftige Veränderungen zu berücksichtigen. Die Theorie rationaler Erwar-
tungen basiert auf dieser Idee. Beispiele für praktische Anwendungen sind das erwartete
zukünftige Einkommen (Permanent Income Hypothesis) in der Konsumtheorie, die Aus-
wirkungen erwarteter Änderungen der Arbeitsgesetze auf den Umfang der Zeitarbeit (Au-
tor 2003) oder der Einfluss der geplanten Heirat auf die subjektive Zufriedenheit von Indi-
viduen (Clark et al. 2008).
3.3 Einfache Regressionsanalyse der Daten mehrerer Perioden
Im einfachsten Fall sind auch bei Zeitreihendaten aller relevanten Variablen die Beobachtun-
gen einer Periode völlig unabhängig von den Beobachtungen der Vor- und Folgeperioden.
Zum Beispiel hängen die Tabellenpunkte eines Vereins der Fußballbundesliga am Ende einer
Spielsaison (Y) von der Spielstärke des Kaders (X) ab. Haben wir Beobachtungen für diesen
Verein in den letzten 20 Jahren, umfasst unser Datensatz 20 Beobachtungen. Es ist inhaltlich
plausibel zu unterstellen, dass in jeder Saison (t) die Tabellenpunkte (Yt) nur von der Spiel-
stärke des Kaders in genau dieser Saison (Xt) abhängen. Dann liegt ausschließlich eine kon
temporäre Wirkung vor, und unsere lineare Modellspezifikation lautet:
Yt = b 0 + b1 X t + e t mit t = 1, 2,…, 20 (3.10)
Bei der Spezifikation der Gl. (3.10) handelt es sich um ein statisches Modell, da keine
zeitpunktübergreifenden Wirkungen vorhanden sind. Anders formuliert, hat bspw. die
Spielstärke unseres Vereins in der Saison 2015/2016 keinerlei Einfluss auf seine Tabellen-
punkte in der folgenden Saison 2016/2017. Wir schließen dynamische Beziehungen jeder
Art aus. Folglich behandeln wir die Zeitreihendaten einfach als eine „Summe“ von Quer-
schnittsdaten und berücksichtigen die Zeitkomponente t überhaupt nicht. Die Daten wer-
den als aufeinander gepackte Querschnittsdatensätze angesehen (gepoolte Daten, Pooled
Cross-Section Data).
Wir können neben der Spielstärke natürlich noch beliebig viele andere kontemporäre
unabhängige Variablen in die Spezifikation aufnehmen oder bspw. Variablentransformati-
onen durchführen, um nichtlineare Beziehungen zu modellieren. Die Verwendung eines
solchen Zeitreihendatensatzes hat im Vergleich zum Querschnittsdatensatz lediglich einer
Periode den Vorteil, die Zahl der Beobachtungen erheblich zu vergrößern. Wenn wir bspw.
die 18 Vereine der 1. Fußballbundesliga über 20 Jahre hinweg einbeziehen – also einen
unechten (gepoolten) Paneldatensatz verwenden – ergeben sich 360 Beobachtungen. Eine
größere Zahl von Beobachtungen, d. h. eine umfangreichere Stichprobe, ist vorteilhaft, da
wir so die Nullhypothese der Koeffizientenschätzungen eher ablehnen können.7 Sind tat-
sächliche alle Wirkungen nur kontemporär, entstehen im Vergleich mit einer Regression
auf der Basis von Querschnittsdaten für nur eine Periode keine zusätzlichen Schwierig-
keiten. Wir gehen also bei der Schätzung, der Überprüfung der Voraussetzungen und der
Interpretation genau wie bei einem Querschnittsdatensatz vor, der sich nur auf bspw. einen
Zeitpunkt bezieht. Allerdings verzichten wir damit auf bestimmte Vorteile, die bei
der Analyse von Paneldaten ausgenutzt werden können. Kap. 4 beschreibt diese Mög-
lichkeiten.
Ob die Annahme, dass alle Wirkungen innerhalb einer Periode auftreten, sinnvoll ist,
hängt erstens von der jeweils behandelten Fragestellung ab, muss also unter inhaltlichen
Aspekten beurteilt werden. Zweitens ist die Länge der Periode, auf die sich unsere Daten
beziehen, wichtig. Bei längeren Perioden – bspw. Jahren – ist es eher denkbar, dass alle
Wirkungen innerhalb des Bezugszeitraums stattfinden. Unseren Daten für die Bundesliga
liegt jeweils eine komplette Saison zugrunde, und auch inhaltlich ist es möglich, saison-
übergreifende Effekte auszuschließen bzw. für vernachlässigbar klein zu halten. Bei mak-
roökonomischen Beziehungen ist dies nur noch bedingt vertretbar. Zum Beispiel sind Wir-
kungen der Arbeitslosigkeit eines Jahres auf die Inflationsraten des kommenden Jahres
inhaltlich plausibel und sollten daher einbezogen und überprüft werden.
Unter gewissen (restriktiven) Voraussetzungen können auch die behandelten dynami-
schen Spezifikationen der Regressionsgleichungen – FDL-, AR-, und ADL-Modelle – mit
den üblichen Verfahren und dem Vorgehen der OLS-Regression geschätzt und interpretiert
werden.8 Über die bereits bekannten Voraussetzungen der OLS-Regression von Quer-
7
Zwei Vorteile sind relevant: Erstens wächst mit zunehmendem Stichprobenumfang c. p. die Test-
stärke (Power). Die Teststärke gibt an, mit welcher Wahrscheinlichkeit wir den Einfluss einer Varia
blen feststellen können, wenn dieser tatsächlich existiert. Zweitens hängen in der Regel die Schätzun
gen kaum noch von einzelnen Beobachtungen (Ausreißern und einflussreichen Beobachtungen) ab.
Sie sind also verlässlicher.
8
Exakter formuliert, müssen die Annahmen der einfachen OLS-Regression entsprechend modifiziert
3.4 Autokorrelation der Fehler 123
schnittsdaten hinaus sind insbesondere drei Annahmen von großer Bedeutung. Erstens
darf keine Autokorrelation der Fehler vorliegen, zweitens ist dies die Exogenität der
unabhängigen Variablen und drittens muss die Stationarität der Zeitreihendaten gege-
ben sein.
3.4 Autokorrelation der Fehler
3.4.1 Einführung
Allgemein liegt Autokorrelation vor, wenn eine Variable zum Zeitpunkt t mit ihren eige-
nen Werten in davorliegenden Zeitpunkten korreliert. Betrachten wir dabei die Korrelation
mit der unmittelbar vorangehenden Periode, handelt es sich um Autokorrelation erster
Ordnung. Der Zusammenhang kann prinzipiell auch mit Verzögerungen auftreten, dann
handelt es sich um Autokorrelationen zweiter und höherer Ordnungen. Bei Quartalsdaten
ist häufig eine Autokorrelation vierter Ordnung zu beobachten – besonders ausgeprägt im
Tourismus für die Sommermonate. Bei Monatsdaten existiert in vielen Fällen eine Auto-
korrelation zwölfter Ordnung. Beispielsweise sind die Arbeitslosenzahlen im Januar jedes
Jahres besonders hoch.
Die Autokorrelation erster Ordnung (= r1) einer Variablen Y ist wie in Gl. (3.11) defi-
niert.9 Sie liegt zwischen −1 und +1. Die Variable Y ist der Mittelwert von Yt.
1 Σ (Y − Y)(Y − Y)
r1 = T
t t −1
(3.11)
1 Σ ( Y − Y )2
T t
Im Fall der Autokorrelation zweiter Ordnung wird in Gl. (3.11) Yt−1 durch Yt−2 ersetzt.
Analog wird bei höheren Autokorrelationen verfahren. Als Beispiel dient uns die Entwick-
lung der Arbeitslosenquote in Deutschland von 2005 bis 2019 aus der Abb. 3.3. Die Auto-
korrelationen dieser Variablen verdeutlicht Abb. 3.7. Auf der x‑Achse sind die Lags der
Monate, links beginnend mit dem Lag 1 bis zum Lag 40, abgetragen. Die y‑Achse gibt die
Autokorrelation von −1 bis +1 wieder. Die dicken Punkte zeigen die Höhe der Autokorre-
lation beim jeweiligen Lag. Sie sind mit der Horizontalen durch eine dünne Linie verbun-
den, um den Abstand zur Autokorrelation von 0 zu visualisieren. Es zeigt sich eine deut-
liche positive Autokorrelation der Arbeitslosenquoten, die mit steigender Lag-Länge nur
bzw. ergänzt werden. Dies wird von Stock und Watson (2015, S. 587–589) genauer beschrieben.
Hier wird auf eine detaillierte Darstellung verzichtet. Ausführliche Erläuterungen der Voraussetzun-
gen finden sich auch bei Ashley (2012, S. 342–453), Dougherty (2016, S. 405–443) und Wooldridge
(2016, S. 317–396). Ein Vergleich der Autoren zeigt, dass diese Annahmen unterschiedlich formu-
liert werden können.
9
In der Literatur wird diese häufig ausgedrückt als die geschätzte Kovarianz von Yt und Yt−1 dividiert
durch die geschätzte Varianz von Yt.
Abb. 3.7 Autokorrelationsfunktion (ACF) der Arbeitslosenquote
langsam abnimmt. Die Darstellung der Abb. 3.7 in Gestalt einer Folge von Autokorrelatio-
nen bezeichnet man als Autokorrelationsfunktion (Autocorrelation Function ACF).
Beim Lag erster Ordnung, das heißt zwischen zeitlich direkt benachbarten Arbeitslo-
senquoten, beträgt der Autokorrelationskoeffizient fast 1. Dies ist wenig überraschend,
denn hohe Arbeitslosigkeit in einem Monat ist mit einer hohen Arbeitslosigkeit im Vor-
monat verbunden. Dasselbe gilt für Monate mit niedriger Arbeitslosigkeit: Sie gehen mit
niedriger Arbeitslosigkeit im Vormonat einher. Dieser gleichgerichtete und daher positive
Zusammenhang ist über den gesamten Zeitraum 2005 bis 2019 festzustellen. Abb. 3.7. il-
lustriert, dass diese positive Autokorrelation nur sehr langsam abnimmt und selbst bei ei-
nem Lag von 40 Monaten – also nach mehr als drei Jahren – noch vorhanden ist. Dies ist
charakteristisch für Variable, die – wie unsere Arbeitslosigkeit – einen ausgeprägten Trend
aufweisen. Sie resultiert, weil definitionsgemäß bei einem Trend ein enger Zusammen-
hang mit den Werten der Vorperioden vorliegt. Die starke und andauernde positive Auto-
korrelation folgt auch aus Gl. (3.11). Wenn Yt weit von Y entfernt ist, gilt dies auch für
Yt−1. Der Zähler wird damit groß, und der Autokorrelationskoeffizient r1 liegt nahe bei 1.
Neben der ACF ist die partielle Autokorrelationsfunktion (Partial Autocorrelation
Function PACF) relevant (siehe Abb. 3.8).
Die partiellen Autokorrelationskoeffizienten sind der Zusammenhang einer Variablen
mit ihren verzögerten Werten, wenn der Einfluss der davorliegenden Lags berücksichtigt
(also beseitigt) wird. Der partielle Autokorrelationskoeffizient des ersten Lags in Abb. 3.8
Abb. 3.8 Partielle Autokorrelationsfunktion der Arbeitslosenquote
ist daher mit dem Autokorrelationskoeffizient des ersten Lags der Abb. 3.7 identisch, näm-
lich nahe bei 1 und positiv. Die PACF sagt uns, welche zusätzlichen Informationen – über
den Einfluss der davorliegenden Verzögerungen hinaus – ein Lag für den Verlauf der Zeit-
reihe enthält.
Statistische Probleme für die Regressionsschätzung ergeben sich aber nur im Hinblick
auf die Autokorrelation der Residuen. Die Residuen einer Regression sind nichts ande-
res als eine neue – aus der Schätzung resultierende – Variable, die natürlich ebenfalls mit
sich selbst zusammenhängen kann. Die Residuen sind unsere Schätzung der unbekannten
Fehler. Vereinfachend werden im Folgenden beide Begriffe synonym verwendet.10
Es darf keine Autokorrelation (serielle Korrelation, Serial Correlation) zwischen den
Fehlern (den Störtermen e) existieren. Autokorrelierte Fehler treten auf, wenn die abhän-
gige Variable systematischen Einflüssen folgt, die nicht durch die einbezogenen unabhän-
gigen Variablen erklärt werden. Bei Autokorrelation sind die Fehler nicht unabhängig
voneinander, sondern weisen eine (negative oder positive) Korrelation mit den Fehlern der
Vorperioden auf. Beispielsweise liegt positive Autokorrelation vor, wenn das e der Vor-
periode größer als 0 ist und in der laufenden Periode der Fehler ebenfalls größer als 0
ausfällt.
10
Der Unterschied von Fehlern und Residuen wird im Band 1 in Abschn. 2.2 behandelt (Stoet-
zer 2017).
Das Problem wird im Allgemeinen bei den Residuen der Regressionen von Quer-
schnittsdaten nicht existieren, weil bei einer Zufallsstichprobe die Reihenfolge der Beob-
achtungen ja zufällig und daher ohne inhaltliche Bedeutung ist. Bei Zeitreihendaten stellt
serielle Korrelation der Fehler aber aus inhaltlichen Gründen häufig ein Problem dar. Es
tritt auf, wenn die Vergangenheit Auswirkungen auf die Gegenwart und Zukunft hat und
diese Einflüsse nicht in der Regressionsgleichung erfasst werden. Dies sind etwa exogene
Schocks, die über mehrere Perioden hinweg Einflüsse ausüben: Gesamtwirtschaftliche
Beispiele sind die erste und zweite Ölkrise (1973 und 1979), die Finanzmarktkrise von
2008 und die Staatsschuldenkrise in der EU in den Jahren ab 2009. Aber Ähnliches gilt
immer, wenn Trägheit oder Beharrungskräfte dazu führen, dass Wirkungen über mehrere
Perioden hinweg auftreten: Zinssätze, Arbeitslosigkeit, Marktmacht oder Werbemaßnah-
men sind weitere Beispiele. Sie alle führen zu positiver Autokorrelation, wenn sie nicht
(oder nicht hinreichend) in der Spezifikation berücksichtigt werden. Positive Autokorre
lation ist der praktisch meistens relevante Fall, negative Autokorrelation ist die seltene
Ausnahme.11 Wegen des häufigen Auftretens wird außerdem als Ausgangspunkt zunächst
die Autokorrelation erster Ordnung überprüft. Dann ergibt sich der Fehler der aktuellen
Periode et aus der Multiplikation des Fehlers der Vorperiode et−1 mit einem Faktor c1 und
einem Störterm ut.
e t = c1e t −1 + u t (3.12)
Der Summand ut in Gl. (3.12) folgt dabei einer unabhängigen, identischen Verteilung
(i. i. d.-Verteilung, siehe Stoetzer 2017, Abschn. 5.1). Für den Koeffizient c1 wird in der
Regel vorausgesetzt, dass er absolut kleiner als 1 ist.12 Der Einfluss vergangener Werte der
Fehler nimmt also degressiv (geometrisch) ab. Wir gehen von einem „Fading-out“ einer
Wirkung über die Perioden hinweg aus – was inhaltlich im Allgemeinen plausibel ist.
Wenn et nur von et−1 abhängt, handelt es sich um Autokorrelation erster Ordnung. Auto-
korrelationen höherer Ordnung sind natürlich auch bei den Fehlern möglich. Bspw. wird
bei Quartalsdaten des Einzelhandelsumsatzes Autokorrelation vierter Ordnung auftreten,
wenn wir in unserem Modell nicht berücksichtigt haben, dass bspw. in den vierten Quar-
talen – den Weihnachtsquartalen – die Umsätze wegen der weihnachtlichen Geschenkor-
gien immer deutlich höher sind.
Zu betonen ist (noch einmal), dass sich dies auf die Autokorrelation der Fehler bezieht.
Zeitliche Korrelationen der unabhängigen Variablen sind dagegen häufig vorhanden. Sie
stellen aber nur dann ein Problem dar, wenn sie zu einer seriellen Korrelation der Feh-
ler führen.
Welche Folgen hat ggf. die Autokorrelation der Fehler? Unter der Annahme, dass die
lineare Spezifikation des Zusammenhangs korrekt ist und Exogenität aller unabhängigen
Variablen vorliegt (letzteres wird in Abschn. 3.5 erläutert), sind die Koeffizientenschät-
11
Eine grafische Darstellung findet sich im Band 1, Abb. 5.10 (Stoetzer 2017, S. 148).
12
Die Fälle ǀcǀ > 1 und ǀcǀ = 1 beschreibt und diskutiert Becketti (2013, S. 173–174).
zungen unverzerrt. Allerdings besitzen Zeitreihendaten häufig einen nicht linearen Ver-
lauf, und dann führt eine lineare Regression ggf. zu verzerrten – also falschen – Koeffizi-
entenschätzungen (Winker 2017, S 177).13 Wenn wir Autokorrelation feststellen, ist dies
insoweit ein Indiz, dass eine Fehlspezifikation vorliegt.
Allerdings führt auch bei korrekter Spezifikation Autokorrelation der Residuen dazu,
dass die Standardfehler der OLS-Schätzung verzerrt und daher die üblichen t- und F-Tests
nicht länger gültig sind.14 So wird bei positiver Autokorrelation der Standardfehler
i. d. R. unterschätzt (Ashley 2012, S 363). Damit lehnen wir die Nullhypothese des
betreffenden Koeffizienten zu häufig ab und gehen von einem signifikanten Einfluss aus,
der in Wahrheit gar nicht gegeben ist. Unter Umständen ist aber der Standardfehler fälsch-
licherweise auch zu groß. Die Verzerrungen können also in beide Richtungen wirken.
Darüber hinaus hat Autokorrelation der Fehler bei Regressionen mit verzögerten ab-
hängigen Variablen (AR- und ADL-Modellen) gravierende Folgen. Sie zieht in diesen
Modellen zusätzlich verzerrte und inkonsistente (also falsche) Koeffizientenschätzungen
nach sich. Außerdem muss dies bei der Überprüfung der Autokorrelation berücksichtigt
werden und hat Konsequenzen für den Umgang mit diesem Problem. Diese Aspekte wer-
den in den folgenden Abschnitten behandelt.
3.4.2 Überprüfung
Zunächst folgt daraus, dass die mögliche serielle Korrelation der Fehler überprüft werden
muss. Als einfachste Kontrolle dient die visuelle Inspektion des Zusammenhangs von
Residuen einerseits und der Zeit andererseits: Wir verbinden die Residuen in einem Streu-
diagramm, bei dem die Zeitperioden auf der x‑Achse und die Residuen auf der y‑Achse
abgetragen werden. Ist eine Struktur in der Abfolge der Residuen zu erkennen? Folgt die
Häufigkeit der Überquerungen der Nulllinie einem erkennbaren Muster? Falls ja, sind dies
Hinweise auf Autokorrelation. Die entsprechenden grafischen Darstellungen sind die Au-
tokorrelationsfunktion (auch als Korrelogramm bezeichnet) und die partielle Autokorrela-
tionsfunktion. Die Autokorrelationsfunktion der Arbeitslosenquote haben wir bereits in
Abb. 3.7 kennengelernt. Um die Anwendung auf Residuen zu erläutern, wird die folgende
Regressionsgleichung geschätzt:
Arbeitslosenquote = a 0 + b1 Zeit + e (3.13)
13
Studenmund (2016, S. 275) unterscheidet zwischen „reiner serieller Korrelation“ (Pure Serial Cor-
relation) und „unreiner serieller Korrelation“ (Impure Serial Correlation). Erstere ist gegeben, wenn
keine Fehlspezifikation vorliegt.
14
Dies entspricht der Aussage für Querschnittsdaten, dass Heteroskedastie zu falschen Standardfeh-
lern (und damit t-Werten) führt, aber die Koeffizientenschätzungen (bei richtiger Spezifikation) wei-
terhin gültig bleiben (Stoetzer 2017, Abschn. 5.2).
Abb. 3.9 Autokorrelationsfunktion (ACF) der Residuen
Gl. (3.13) geht davon aus, dass die Arbeitslosenquote in einem Monat nur von der Zeit
(gemessen in Monaten) abhängt und dass der in Abb. 3.3 sichtbare abnehmende Trend li-
near ist. Die Residuen dieser Schätzung stellt Abb. 3.9 in einer Autokorrelationsfunktion
(einem Korrelogramm) dar.
Abb. 3.9 belegt, dass bezüglich der Residuen Autokorrelationen vorhanden sind. Sehr
groß sind die positiven Autokorrelationskoeffizienten des ersten und zweiten Lags: Die
Autokorrelation erster Ordnung liegt sogar bei über 0,9. Bei höheren Lags nimmt die posi-
tive Autokorrelation zunächst ab und steigt ab dem zehnten bis zum zwölften Lag wieder.
Danach fallen die Koeffizienten deutlich und werden ab dem 25. Lag negativ. Wir stellen
bei dieser visuellen Inspektion also fest, dass eine Struktur in den Residuen existiert. Die
außerdem eingezeichnete graue Fläche wird unten erklärt. Eine weitere Darstellungsform
ist die partielle Autokorrelationsfunktion (PACF). Die partielle Autokorrelationsfunktion
der Residuen unserer Regressionsgleichung (3.13) finden wir in Abb. 3.10.
Auch hier wird ein Muster sichtbar. Es liegt starke positive Autokorrelation erster und
schwächer sowie negativ zweiter Ordnung vor. Danach gibt es eine Schwingung in den
Koeffizienten bis zum 12. bzw. 13. Lag. Der 13. Lag ist eine ausgeprägte negative Spitze
(Spike). Die Koeffizienten der danach folgenden Lags sind unbedeutend. Eine Ausnahme
ist nur der negative Lag 37. Ordnung. Auf seine Beurteilung wird weiter unten ein-
gegangen.
Abb. 3.10 Partielle Autokorrelationsfunktion (PACF) der Residuen
Das Fazit der visuellen Analyse von Abb. 3.9 und 3.10 lautet, dass Autokorrelation vor-
liegt, da bestimmte Muster bzw. Strukturen der Residuen existieren. Diese bestehen aus
Beharrungskräften (Persistenzen) sowie Schwingungen innerhalb von zwölf Monaten,
d. h. innerhalb eines Jahres. Im Anhang 3.1 zu diesem Kapitel wird die Analyse von ACF
und PACF einerseits und Autokorrelation erster und zweiter Ordnung andererseits in ei-
nem allgemeineren Kontext näher beschrieben.
Häufig sind solche visuellen Inspektionen aber nicht eindeutig. Daher ist es üblich, die
existierenden formalen statistischen Tests einzusetzen.
Ein älteres Testverfahren ist der Durbin-Watson-Test (häufig mit „d“ oder „dw“ ab-
gekürzt), der im Wertebereich zwischen 0 und 4 liegt. Beträgt d ungefähr 2 (eine grobe
Faustregel ist der Wertebereich von 1,6 bis 2,4), existiert keine Autokorrelation.15 Kleine
Werte nahe bei 0 signalisieren positive und große Werte nahe bei 4 negative Autokorrela-
tionen. Er überprüft aber nur Autokorrelation erster Ordnung und enthält Unsicherheits-
bereiche, in denen keine klare Aussage möglich ist. Darüber hinaus ist er nicht verwend-
bar, wenn die Regressionsgleichung verzögerte abhängige Variable einbezieht.16 Im Fall
von AR- und ADL-Modellen ist daher der d-Test nicht gültig.
15
Dies gilt, weil dw ≈ 2(1 − r1). Beträgt der Autokorrelationskoeffizient erster Ordnung r1 gleich 0,
so ist dw = 2 (Hill et al. 2008, S. 239).
16
Anders formuliert, ist der d-Test nur anwendbar, wenn die unabhängigen Variablen alle strikt exo-
gen sind.
Moderne Tests weisen diese Beschränkungen nicht auf. Das heißt, sie sind auch bei
AR- und ADL-Modellen einsetzbar. Und mit solchen Tests können wir nicht nur Auto-
korrelationen erster, sondern auch höherer Ordnung überprüfen. Die wichtigsten sind der
alternative Durbin-Test17 und der Breusch-Godfrey-Test. Der alternative Durbin-Test
wird in der Literatur zum Teil mit „d′“ abgekürzt. Sein Prinzip ist leicht verständlich. Er
kombiniert die Ausgangsregression, d. h. Gl. (3.13), mit dem Teil c1et−1 entsprechend Gl.
(3.12), wobei et die Residuen der ursprünglichen Regression sind. Dies führt zu Gl. (3.14):
e t = a 0 + b1 Zeit + c1e t −1 + u t (3.14)
Die Nullhypothese lautet, dass der Koeffizient c1 gleich 0 ist. Wird sie abgelehnt, liegt
Autokorrelation erster Ordnung vor, denn dann existiert ein Einfluss des Residuums der
Vorperiode (et−1) auf das Residuum der laufenden Periode (et). Alternativ spezifizieren wir
diese Gleichung in folgender Form:
e t = a 0 + b1 Zeit + c1e t −1 + c 2 e t − 2 + c 3 e t −3 + c 4 e t − 4 + u t (3.15)
In diesem Fall testen wir gleichzeitig auf Autokorrelation erster bis vierter Ordnung. Die
Nullhypothese lautet dann, dass alle Koeffizienten c1 bis c4 gleich 0 sind. Entsprechend mo-
difiziert lassen sich so alle möglichen Ordnungen der Autokorrelation testen, indem wir de-
ren Lags in die Gl. (3.14) aufnehmen. Das Residuum et der zugrunde liegenden Regression
ist dabei die abhängige Variable. Auf der rechten Seite der neuen Regressionsgleichung ste-
hen die unabhängigen Variablen der zugrunde liegenden Regression (einschließlich einer
Konstanten), erweitert um die zu testenden Lags der Residuen. Im Fall von autoregressiven
Modellen stehen folglich Yt−1 sowie ggf. Yt−2 usw. auf der rechten Seite.
Der Breusch-Godfrey-Test basiert ebenfalls auf der Gl. (3.15). Er verwendet aber eine
Lagrange-Multiplikator-Statistik (LM-Statistik) als Testgröße und wird daher auch als
Lagrange-Multiplier-Test bezeichnet (Hill et al. 2008, S. 242–243). Eine weitere Vari-
ante ist der Portmanteau-Q-Test (auch Ljung-Box-Test genannt). Anstatt die Zufällig-
keit bei jeder einzelnen Verzögerung zu testen, überprüfen diese Tests die „allgemeine“
Zufälligkeit basierend auf einer Reihe von Verzögerungen. Sie testen daher, ob irgendeine
der Autokorrelationen aus einer ganzen Gruppe von möglichen Autokorrelationen der Re-
siduen nicht 0 beträgt. Bspw. analysieren wir auf diese Weise, ob irgendeiner der Lags von
1 bis 12 unserer Regression der Arbeitslosenquote sich von 0 unterscheidet.
Die Nullhypothese aller dieser Tests lautet immer „keine Autokorrelation vorhanden“.
Wenn wir die Nullhypothese ablehnen, das empirische Signifikanzniveau also kleiner als
5 % ist, liegt Autokorrelation vor.
Tab. 3.1 enthält die Ergebnisse dieser vier Tests für die Residuen der Regression der
Gl. (3.13).
Übereinstimmend bestätigen sie unsere Vermutung auf Basis der grafischen Analyse.
Der Wert des Durbin-d-Tests liegt nahe bei 0, was eindeutig auf Autokorrelation erster
17
Eine weitere hier nicht behandelte Variante ist der Durbin-h-Test.
Tab. 3.1 Autokorrelationstests
Durbin-Watson d-Test: 0,1224133
Durbin’s alternative test (d′-Test):
Lag 1: Chi2 947,291 Prob > Chi2: 0,000
Lag 12: Chi2 1726,262 Prob > Chi2: 0,000
Breusch-Godfrey LM Test:
Lag 1: Chi2 143,801 Prob > Chi2: 0,000
Lag 2: Chi2 147,528 Prob > Chi2: 0,000
Lag 3: Chi2 148,342 Prob > Chi2: 0,000
Lag 4: Chi2 149,173 Prob > Chi2: 0,000
Lag 12: Chi2 155,076 Prob > Chi2: 0,000
Portmanteau (Q-Test)/Ljung-Box-Test:
Lag 12: Chi2: 870,12 Prob > Q: 0,000
Ordnung hinweist. Auch alle anderen Verfahren lehnen die Nullhypothese „keine Auto-
korrelation“ klar ab. Dies gilt (zumindest) für alle Autokorrelationskoeffizienten bis zum
zwölften Lag.
Dieses Resultat wird bereits in den Abb. 3.9 und 3.10 deutlich. Sie enthalten Bartletts Test,
der überprüft, ob die Residuen einem weißen Rauschen (White-Noise Process) gehorchen.
Alle Autokorrelationen, die sich außerhalb des grau getönten Bereichs befinden, sind jeweils
auf dem 5-%-Niveau signifikante Koeffizienten, d. h. unterscheiden sich von 0. Dies sind in
Abb. 3.9 die Autokorrelationskoeffizienten der Lags erster bis einschließlich zwölfter Ordnung.
Auch die partiellen Autokorrelationskoeffizienten der Abb. 3.10 sind bis zum Lag 12
häufiger signifikant. Was machen wir mit dem negativen Ausreißer des 37. Lags in Abb. 3.10?
Inhaltlich ist kein Grund ersichtlich, dass eine partielle negative Autokorrelation der Resi-
duen zwischen zwei – mehr als drei Jahre voneinander entfernten – Monaten existieren
sollte. Dieser Koeffizient dürfte nur zufällig signifikant sein. Zur Erinnerung: Das 5-%-Si
gnifikanzniveau besagt, dass von 100 Fällen 5 rein zufällig signifikant sein werden! Bei den
von uns betrachteten 40 Lags sind also im Mittel 2 Lags rein zufällig signifikant.
Von diesen Prüfverfahren wird der Breusch-Godfrey-Test als besonders verlässlich ein-
gestuft, und er ist auch in der praktischen Anwendung weit verbreitet.
Gute Erklärungen zu Autokorrelogrammen finden sich bei Gujarati (2015, S. 252–254),
Hill et al. (2008, S. 239–243) und Pindyck und Rubinfeld (1998, S. 446–459). Die ver-
schiedenen Testverfahren und ihre Annahmen sowie Anwendungsbereiche erläutern Pin-
dyck und Rubinfeld (1998, S. 147–149), Gujarati (2015, S. 115–121) und Wooldridge
(2016, S. 376–381) sowie Pickup (2015) genauer.
3.4.3 Vorgehen bei Autokorrelation
Was ist zu tun, wenn wir Autokorrelation festgestellt haben? Im Wesentlichen existieren
dann drei Möglichkeiten: erstens, eine verallgemeinerte OLS-Schätzung (GLS-Schätzung),
die die Variablen transformiert und so der Autokorrelation Rechnung trägt, zweitens die
Verwendung korrigierter Standardabweichungen der geschätzten Regressionskoeffizien-

ten (autokorrelationskonsistente Standardfehler) und drittens die Einbeziehung zusätzli-
cher ökonomischer Variablen, die die Autokorrelation der Fehler beseitigt (Neuspezi-
fikation).
Das erste Verfahren schätzt die Autokorrelationsstruktur und transformiert darauf ba-
sierend die Variablenwerte. Anschließend wird die Regressionsgleichung auf Grundlage
dieser transformierten Daten geschätzt. Es handelt sich um das Feasible-Generalized-
Least-Squares (FGLS)-Vorgehen mit den beiden Varianten der Cochrane-Orcutt- oder
Prais-Winsten- (bzw. Hildreth-Lu-) Methode. Dies setzt Exogenität der unabhängigen Va-
riablen voraus und schließt folglich verzögerte abhängige Variablen (AR-, ADL-Modelle)
aus. Auf eine genauere Darstellung wird hier verzichtet. Die Methoden sind in Stata im-
plementiert, können in SPSS aber nur syntaxbasiert oder über Zusatzmakros bspw. inner-
halb des Moduls SPSS Forecasting realisiert werden. In der Praxis sind diese Methoden
durch die im Folgenden erläuterten moderneren Verfahren (weitgehend) verdrängt w orden.
Ausführlichere Erläuterungen geben Becketti (2013, S. 178–188), Ashley (2012,
S. 374–376) und Wooldridge (2016, S. 383–387).
Eine zweite Alternative besteht darin, die Standardfehler auf eine Weise zu berechnen,
die deren Verzerrungen aufgrund von Autokorrelation eliminiert. Dies sind die sogenann-
ten Newey-West-Standardfehler. Sie sind das Pendant zu den heteroskedastierobusten
White-Standardfehlern bei Querschnittsdaten. Neben der bei Zeitreihen häufig vorhanden
Autokorrelation kann auch Heteroskedastie auftreten. Dies führt aber zu keinen weiteren
Problemen, da die Newey-West-Standardfehler sowohl gegen Autokorrelation als auch
gegen Heteroskedastie der Fehler robust sind (Ashley 2012, S. 377). Entsprechend werden
sie auch als Heteroskedasticity-and-Autocorrelation-Consistent (HAC)-Standardfehler
bezeichnet (Stock und Watson 2015, S. 650–652).
Zwei Nachteile dieses Vorgehens sind, dass erstens die Newey-West-Standardfehler
nur konsistente Schätzer darstellen, sie also nicht effizient sind, was insbesondere bei einer
geringen Zahl von Beobachtungen negativ zu Buche schlägt. Zweitens muss die Zahl der
Lags, bis zu der Autokorrelation der Residuen vermutet wird, für die Ermittlung vorgege-
ben werden. Als Faustregel für die Praxis setzt Greene die Verzögerung wie folgt an:
Lag HAC = 4 T , wobei T der Zahl der Perioden der jeweiligen Datenreihe entspricht (Greene
2018, S. 999). Stock und Watson empfehlen den Lag HAC = 0, 75 3 T (2015, S. 651). Bei
einer starken Autokorrelation der Residuen sollte der LagHAC größer und bei einer geringen
Autokorrelation kleiner gewählt werden. Es empfiehlt sich, im Rahmen einer Sensitivitäts-
analyse zu prüfen, ob höhere oder kleinere Werte des LagHac zu stark unterschiedlichen
Ergebnissen für die Standardfehler führen.18 Abgesehen von diesem Problem ist die Ver-
wendung der Newey-West-Standardfehler eine einfache Lösung, da in den Statistikpro-
18
Wenn die Autokorrelation tatsächlich größer ist als das Maximum, werden die Schätzungen der
Standardfehler nicht mehr konsistent sein. Ist dieses Maximum aber im Verhältnis zur Länge der
Zeitreihe zu groß, resultieren ebenfalls unsinnige Schätzungen. Nach Ashley gilt ein Lag von 1 als
zu groß, wenn die Zeitreihe deutlich weniger als 80 Beobachtungen aufweist (Ashley 2012, S. 378).
grammpaketen (bspw. Stata; allerdings nicht in SPSS) die entsprechenden Prozeduren

implementiert sind.
Liegt ein AR-Modell mit Autokorrelation der Residuen vor, sind die FGLS-Verfahren
und die robusten Newey-West-Standardfehler nicht zu verwenden (Becketti 2013,
S. 192–196). Dann ist die im Folgenden beschriebene Neuspezifikation der Regression
angebracht.
Drittens könnte die Autokorrelation darauf zurückzuführen sein, dass vorhandene dy-
namische Beziehungen nicht berücksichtigt wurden. Stellen wir Autokorrelation fest, ist
dies nämlich ein Hinweis, dass eine Fehlspezifizierung vorliegt. Konkret handelt es sich
um einen „Omitted Variable Bias“, da tatsächlich einflussreiche Variablen, bspw. in Form
von Lags, fehlen. Das Problem ist leicht zu lösen, indem wir weitere (verzögerte) unab-
hängige und/oder verzögerte abhängige Variablen mit in die Spezifikation der Regression
aufnehmen. Dies ist uns in den Gl. (3.1) bis (3.9) oben, d. h. den FDL-, AR- und ADL-
Modellen bereits begegnet. Die dahinter stehende Logik ist, durch den Einbezug dieser
Lag-Strukturen Autokorrelationen prinzipiell vor ihrer Entstehung zu beseitigen, indem
vorhandene dynamische Beziehungen explizit spezifiziert werden. Auch hier sollte die
Neuspezifikation von inhaltlichen Überlegungen geleitet sein.
Existiert allerdings in einem autoregressiven Modell (d. h. eine Regression mit verzö-
gerten abhängigen Variablen) nach wie vor Autokorrelation, bleiben die im Abschn. 3.4.1
genannten Probleme bestehen. Aber wir können mit den in den Statistikprogrammpaketen
implementierten Tests (Breusch-Godfrey-Test oder alternativer Durbin-Test) schnell klä-
ren, ob unsere Neuspezifikation immer noch Autokorrelation der Residuen aufweist.
Auf der Basis einer Neuspezifikation, die die Autokorrelation modelliert, kann an-
schließend mittels OLS eine konsistente und effiziente Schätzung der Koeffizienten und
Standardfehler durchgeführt werden. In der Neuspezifikation nehmen wir bspw. die ver-
zögerte abhängige Variable mit dem Lag 2 auf, das heißt wir schätzen ein AR(2)-Modell.
Danach überprüfen wir die Autokorrelation mittels des Breusch-Godfrey- oder alternati-
ven Durbin-Tests. Ist die Nullhypothese „keine Autokorrelation vorhanden“ nicht abzu-
lehnen, akzeptieren wir die Neuspezifikation als „richtig“.19 Zusammenfassend spricht
alles dafür, eine solche explizite Neuspezifikation möglicher dynamischer Beziehungen
vorzunehmen und anschließend zu testen, ob Autokorrelation (immer noch) vorliegt. Ist
dies weiterhin der Fall, modifizieren wir die Spezifikation und prüfen erneut.20
Die drei Verfahren führen – obwohl alle prinzipiell adäquate Vorgehensweisen sind – zu
unterschiedlichen Koeffizientenschätzungen. Bei den Newey-West-Standardfehlern blei-
19
Dies ist eine saloppe Formulierung, die nur den praktischen Umgang richtig beschreibt. Im stren-
gen statistischen Sinn kann ein Test nur die Wahrscheinlichkeit eines Fehlers erster Art (fälschliche
Ablehnung der Nullhypothese) bzw. zweiter Art (fälschliche Akzeptanz der Nullhypothese)
ermitteln.
20
Weitere Probleme und Lösungsmöglichkeiten bei Autokorrelation im Rahmen von autoregressiven
Regressionsgleichungen (AR- bzw. ADL-Modellen) beschreiben Auer und Rottmann (2010,
S. 570–572), Ashley (2012, S. 376–382) und Gujarati (2015, S. 115–129).
ben die OLS-Koeffizientenschätzungen gleich. Im Fall der FGLS-Methode und der Neu-
spezifikation resultieren im Unterschied zur OLS-Methode ggf. auch andere Koeffizien-
ten. Becketti (2013, S. 178–198) stellt die verschiedenen Verfahren genauer dar und
erläutert die unterschiedlichen Ergebnisse.
Schließlich kann bei Zeitreihendaten unabhängig von Autokorrelation zusätzlich Hete-
roskedastie der Residuen vorhanden sein (Stoetzer 2017, Abschn. 5.2). Diesem Problem
kann erstens durch eine Datentransformation, die die Heteroskedastie beseitigt, begegnet
werden. Häufig wird in der Literatur dazu das Logarithmieren der Variablen empfohlen.
Zweitens existieren Schätzverfahren für die Standardfehler, die gegen Heteroskedastie ro-
bust sind. Schätzen wir Newey-West Standardfehler, ist – wie oben bereits erwähnt – auto-
matisch auch Heteroskedastie berücksichtigt.
3.5 Exogenität der unabhängigen Variablen
Zweitens muss für kausale Analysen Exogenität der unabhängigen Variablen vorliegen.21
Dabei sind zwei verschiedene Formen der Exogenität zu unterscheiden: Schwache und
strikte Exogenität. Schwache Exogenität (Weak Exogeneity) ist gegeben, wenn die un-
abhängigen Variablen in der Periode t nicht mit dem Fehler dieser Periode t und den Feh-
lern der davorliegenden Perioden t − 1, t − 2 usw. korrelieren. Strikte Exogenität (Strict
Exogeneity) heißt, dass die unabhängigen Variablen jedes Zeitpunktes t nicht mit den Feh-
lern zu irgendeinem anderen Zeitpunkt (weder vorher noch nachher) korrelieren. Die Re-
siduen müssen ein rein zufälliges „weißes Rauschen“ sein und dürfen keinerlei Struktur
hinsichtlich der unabhängigen Variablen aufweisen.22 Diese Annahme ist ggf. verletzt,
wenn tatsächlich einflussreiche Variablen nicht berücksichtigt werden (Omitted Variable
Bias) – bspw. in Form einflussreicher, aber nicht einbezogener verzögerter Variablen –,
Fehler in den Variablen vorliegen oder die abhängige Variable Auswirkungen auf die zu-
künftigen Werte der unabhängigen Variablen besitzt.
Letzteres erläutert das folgende fiktive Beispiel zur PISA-Studie (Programme for Inter-
national Student Assessment): Der durchschnittliche Punktwert hinsichtlich der Lesekom-
petenz der Schüler einer Schule (d. h. die abhängige Variable PUNKT) wird im einfachsten
Fall lediglich von der Größe der Klasse beeinflusst, die ein Lehrer unterrichtet. Der ein-
zige relevante Einflussfaktor ist daher die Schüler-Lehrer-Relation, also die Zahl der
21
Ausführliche Erläuterungen finden sich bei Wooldridge (2016, S. 318–340) und Pickup (2015,
S. 30–39).
22
Dies ist uns für die Analyse von Querschnittsdaten bereits bekannt. So gewährleistet bspw. eine
reine Zufallsstichprobe im Rahmen eines kontrollierten Experiments, dass die unabhängigen Varia
blen, deren kausale Effekte uns interessieren, keine Korrelation mit anderen (auch den nicht im
Modell berücksichtigten) Einflussfaktoren aufweisen. Ist dies doch der Fall, so liegt eine Endogeni-
tät der unabhängigen Variablen vor, die verzerrte Koeffizientenschätzungen nach sich zieht (siehe
Kap. 1 und Stoetzer 2017, Abschn. 4.2 und 5.7.5).
3.5 Exogenität der unabhängigen Variablen 135
Schüler pro Lehrkraft (die Klassenstärke, d. h. unabhängige Variable KLASSTÄRKE). Für
beide Variablen liegen Zeitreihen für mehrere Jahre (bspw. t = 1 bis 10) vor:
PUNKTt = a + b1 KLASST ÄRKEt + e t (3.16)
Wenn zum Zeitpunkt t eine höhere Klassenstärke zu einem geringeren Punktwert führt,
folgt daraus zu diesem Zeitpunkt ein im Mittel höherer Fehler et. Dies hat unter Umstän-
den Auswirkungen in der Zukunft. Plausibel ist, dass die Schulaufsicht auf dieses schlechte
Abschneiden bei PISA mit einer Erhöhung der Lehrerstellen reagiert. Das Resultat ist eine
Verringerung der Zahl der Schüler pro Lehrkraft (der Klassenstärke) in zukünftigen Perio-
den. Ein großer Fehler e zum Zeitpunkt t ist also mit einer Abnahme der Klassenstärke in
der Zukunft verbunden. Es existiert eine negative Korrelation zwischen den Fehlern zum
Zeitpunkt t und der Klassenstärke in späteren Perioden. Die unabhängige Variable KLASS-
TÄRKE ist dann keine strikt exogene Variable! Strikt exogene unabhängige Variablen wer-
den nicht von den vergangenen oder zukünftigen Werten der abhängigen Variablen be-
einflusst.
Wird im Weinanbau die Wirkung eines neuen Düngers auf den Traubenertrag über
mehrere Jahre hinweg untersucht – also eine Zeitreihenanalyse durchgeführt –, sind Ein-
flussfaktoren wie die Lage (bspw. „Nordhang“ und „Waldschatten“) strikt exogen, denn
sie werden nicht von den Traubenerträgen der Vorperioden beeinflusst.23 Dies gilt auch für
unabhängige Variablen wie etwa „Jährliche Niederschlagsmenge“ oder „Zahl der Nacht-
fröste im April“. In allen vier Fällen hängen die gegenwärtigen Werte dieser Variablen
nicht systematisch vom Umfang der Traubenerträge in der Vergangenheit oder Zukunft ab.
Der Arbeitseinsatz der Weinbauern für die Pflege der Weinstöcke ist dagegen mit hoher
Sicherheit auch von den (erwarteten) Traubenerträgen der Vergangenheit (der Zukunft)
abhängig. Dies ist zumindest sehr wahrscheinlich, wenn es sich um Beobachtungsdaten
handelt, die nicht auf einem Experiment beruhen. Und gerade bei Zeitreihen handelt es
sich fast immer um Beobachtungsdaten.
Ein Beispiel aus der Makroökonomie ist der Zusammenhang zwischen der Verände-
rung des deutschen Bruttoinlandsprodukts (BIP) und den Exporten Tschechiens. Wir ver-
wenden die Exporte Tschechiens als abhängige Variable und das deutsche BIP als unab-
hängige Variable. Lässt sich die Schätzung des Koeffizienten des deutschen BIP als
kausale Wirkung interpretieren? Die Antwort ist von weiteren inhaltlichen Überlegungen
abhängig. Prinzipiell liegt makroökonomisch Simultanität vor: Das deutsche BIP hängt
von den Exporten (nach Tschechien) ab und umgekehrt das tschechische BIP von den
tschechischen Exporten nach Deutschland. Diese wechselseitige Beeinflussung spricht
gegen eine kausale Interpretation. Allerdings lässt sich argumentieren, dass das deutsche
BIP nur marginal (kaum messbar) vom Umfang der deutschen Exporte nach Tschechien
verändert wird. Unter dieser Prämisse ist der Koeffizient des deutschen BIP eine Schät-
zung des kausalen Einflusses (bei ansonsten richtiger Spezifikation dieses Modells). Für
23
Siehe zum Weinanbau-Beispiel Stoetzer (2017, Abschn. 4.2).
die Exporte Frankreichs, dem zweitwichtigsten Exportpartner Deutschlands, gilt dies aber
nicht. In der Beziehung zu Frankreich ist eine simultane Wirkung plausibel.
Generell sind in den Sozialwissenschaften die unabhängigen Variablen häufig das Er-
gebnis bestimmter menschlicher Entscheidungen. Bei diesen Entscheidungen, egal ob von
Unternehmen, privaten Haushalten/Individuen oder der (Wirtschafts‑)Politik, werden
mögliche Auswirkungen auf die abhängige Variable aber antizipiert. Als Reaktion auf ge-
genwärtige Ausprägungen der abhängigen Variablen wird eine unabhängige Variable be-
wusst verändert und beeinflusst. Sämtliche Erwartungen hinsichtlich Zinsänderungen der
Zentralnotenbank, Steuerreformen, Preisentwicklungen oder jeder anderen Wirtschafts-
und unternehmenspolitischen Maßnahme ziehen ggf. Korrelationen mit Fehlern der Vor-
und Folgeperioden nach sich. Sie verletzen die Annahme der (strikten) Exogenität und
führen über Feedbacks zu umgekehrten Kausalrichtungen und Simultanität der Zusam-
menhänge von abhängigen und unabhängigen Variablen. Resultat ist die Endogenität der
unabhängigen Variablen, ein Problem, das uns schon im ersten Kapitel begegnet war. Es
ist also bei Zeitreihenbetrachtungen von mehreren Variablen besonders relevant. Aller-
dings gilt auch: Erstens können basierend auf Längsschnittdaten die Wirkungen der Ver-
gangenheit auf die laufende Periode modelliert werden. Dies ist mit Querschnittsdaten
nicht direkt möglich. Zweitens ist, wenn wir Zeitreihenvariablen verwenden, um Progno-
sen zu erstellen, die Exogenität der unabhängigen Variablen nicht erforderlich.
3.6 Stationarität von Zeitreihen
3.6.1 Überblick
Die behandelten Verfahren basieren außerdem auf der Annahme, dass die verwendeten
Variablen Zeitreihen darstellen, die stationär sind. Stationarität besagt vereinfacht formu-
liert, dass die Strukturen der Datenreihen in der Zukunft sich nicht von denen der Vergan-
genheit unterscheiden. Stationarität liegt vor, wenn der Mittelwert (Erwartungswert) und
die Varianz einer Variablen im Zeitablauf konstant sind. Außerdem muss die Kovarianz
zwischen zwei Zeitpunkten nur vom Zeitabstand abhängen und nicht vom Zeitpunkt, für
den die Kovarianz berechnet wird.24 Praktisch ist Stationarität in den folgenden vier Fällen
nicht gegeben: bei Trends, bei Random-Walk-Prozessen, bei Saisoneffekten und bei
Strukturbrüchen.
Der Begriff der Stationarität einer Zeitreihe ist anhand der Abb. 3.11, 3.12 und 3.13
zu erklären. Abb. 3.11 zeigt die Kosten (TOC) von American Airlines im Zeitraum 1990
bis 2012.
24
Eine solche Zeitreihe wird als schwach stationär (oder kovarianzstationär) bezeichnet. Hier erfolgt
nur eine grafische bzw. intuitive Erläuterung. Genauere Darstellungen enthalten bspw. Becketti
(2013, S. 81, 208–210) sowie Bofelli und Urga (2016, S. 14–17).
3.6 Stationarität von Zeitreihen 137
30.000.000
25.000.000
20.000.000
15.000.000
10.000.000
5.000.000
0
1985 1990 1995 2000 2005 2010 2015
Abb. 3.11 Kosten (TOC) von American Airlines. (Quelle: Macrotrends 2019)
Es handelt sich bei Abb. 3.11 um eine Zeitreihe, die erkennbar einem Trend unterliegt.
Nur der Einbruch 2008/2009 spiegelt die Finanz- und Wirtschaftskrise dieser Jahre als
Ausnahme wider. Das heißt, der Mittelwert der Kosten steigt und verletzt damit die An-
nahme der Stationarität. Bei einem Trend hängt der Wert einer Variablen Y zum Zeitpunkt
t systematisch von der Zeit t ab. Bei einem deterministischen Trend ist die Entwicklung
von Y ausschließlich von t bestimmt. Hinzu kommt eine Zufallskomponente et. Im Fall
eines linearen deterministischen Trends resultiert Gl. (3.17):
Yt = a 0 + b1 t + e t (3.17)
Die Konstante lautet a0 und b1 ist der Einfluss der Zeit t auf Y. In der Abb. 3.11 sind dies
die Kosten von American Airlines. Komplexere nichtlineare Trends sind problemlos mo-
dellierbar – bspw. durch die zusätzliche Aufnahme von b2t2. Die entsprechenden Varia
blentransformationen diskutiert Stoetzer (2017, Abschn. 3.3).
Die Zeitreihe der Abb. 3.12 ist der Aktienkurs der Siemens-Aktie über einen Zeitraum
von 180 Tagen. Sie weist die Eigenschaft eines sogenannten Random-Walk-Prozesses
auf. Er ist optisch dadurch gekennzeichnet, dass der Kurs an einem Tag fast immer recht
nahe beim Kurs des Vortags liegt. Auch hier gibt es also eine Struktur in Form einer Regel-
mäßigkeit. Dies ist – wie im Abschn. 3.2 dargestellt – in den Sozialwissenschaften und
insbesondere bei ökonomischen Daten häufig anzutreffen, weil Beharrungskräfte existie-
ren (bspw. in Form von Konsumgewohnheiten und sozialen oder kulturellen Traditionen).
Bei einem Random Walk ist der Wert zum Zeitpunkt t (d. h. Yt) abhängig vom Wert der
Vorperiode (Yt−1) plus einer zufälligen (nicht systematischen) Komponente. In Form einer
Gleichung ausgedrückt:
Yt = Yt −1 + e t (3.18)
Abb. 3.12 Aktienkurs der Siemens-Aktie. (Quelle: Finanzen.net 2019)
Die Zufallskomponente et entspricht einem weißen Rauschen. Es handelt sich hierbei

um einen Random Walk ohne Drift. Bei einem Random Walk mit Drift kommt eine
Trendkomponente d hinzu. Der Wert von Y zum Zeitpunkt t ergibt sich aus seinem Wert in
der Vorperiode Yt−1 zuzüglich einer Konstanten d0 und einer Zufallskomponente et (aus-
führlicher dazu Auer und Rottmann 2010, S. 573–582):25
Yt = d 0 + Yt −1 + e t (3.19)
Random-Walk-Prozesse mit oder ohne Drift werden in der Literatur auch als stochas
tische Trends bezeichnet. Im Folgenden wird der Begriff Trend nur für deterministische
Trends verwendet. Ein Random Walk (mit und ohne) Drift und ein Trend können auch
gemeinsam vorhanden sein. In beiden Fällen verändert sich die Varianz im Lauf der Zeit,
was bei Stationarität nicht vorliegen darf.
Saisonale Schwankungen sind ein weiterer Verstoß gegen Stationarität. Abb. 3.3 oben
zeigt den klassischen Fall saisonaler Veränderungen der Arbeitslosigkeit in Deutschland.
Andere Beispiele sind Erkältungskrankheiten (Grippewelle im Winter), Fahrradunfälle
(im Sommer), häusliche Gewalt (zu Weihnachten und generell an Feiertagen).
Strukturbrüche verdeutlicht Abb. 3.13. Sie gibt den langfristigen Zinssatz in Grie-
chenland von 1993 bis 2018 wieder. Visuell lassen sich drei Phasen unterscheiden. Von
1993 bis 2001 sinken die Zinsen stetig und deutlich. Von 2002 bis 2009 bleiben sie unge-
25
Es handelt sich um die einfachste Form eines Random Walk. Der Aufbau ähnelt dem des
AR(1)-Modells in Gl. (3.7) oben.
Abb. 3.13 Langfristiger Zinssatz Griechenlands. (Quelle: CEIC 2018)
fähr konstant, und ab 2010 nehmen sie zunächst rasant zu und zeigen dann eine deutlich
gestiegene Volatilität.
Es ist plausibel, dass diese drei Phasen auf zwei fundamentalen Wechseln der volks-
wirtschaftlichen Rahmenbedingungen beruhen. Im Jahr 2001 trat Griechenland der
Eurozone bei, und im Jahr 2010 wurde die Staatsschuldenkrise Griechenlands offenkun-
dig. Es handelt sich in beiden Fällen um sogenannte Strukturbrüche. Ihr Kennzeichen
ist, dass sich die ökonomischen Zusammenhänge und Wirkungen in den drei Phasen ver-
mutlich grundlegend unterscheiden. In der ersten Phase sinken die Zinsen im Mittel, und
in der dritten Phase steigt der Zinssatz im Durchschnitt und außerdem nimmt die Varianz
der Zinsen erheblich zu. Zumindest für diese beiden Phasen ist also Stationarität nicht
gegeben.
Weitere Beispiele für solche Strukturbrüche sind auf makroökonomischer Ebene der
Übergang zu flexiblen Wechselkursen mit dem Ende des Bretton-Woods-Systems 1973,
die Wiedervereinigung Deutschlands 1990 und die Finanzmarktkrise 2008. Mikroökono-
mische Anwendungsfälle sind für den Zuckermarkt das Auslaufen der EU- Zucker
marktordnung im September 2017 und für den Bankensektor die neuen Eigenkapitalan-
forderungen entsprechend der Basel-III-Vorschriften seit 2013. Aber auch längerfristige
Veränderungen von Werten und Einstellungen in (Teilen) der Bevölkerung (Stichwort
Generation Y und Generation Z) können als Fälle von Strukturbrüchen aufgefasst werden,
obwohl eher ein (mittelfristiger) Wandel als ein scharfer Sprung vorliegt.
Gemeinsam ist den Abb. 3.11, 3.12 und 3.13, dass sie alle bestimmte Regelmäßigkeiten
in den Daten zeigen. Dagegen besitzt die stationäre Datenreihe der Abb. 3.14 kein solches
erkennbares Muster. Es handelt sich um einen rein zufälligen zeitlichen Ablauf (einen
White-Noise-Prozess). Formal bedeutet dies, dass die Momente einer Verteilung (etwa
Mittelwert und Standardabweichung) über die Zeit hinweg konstant sind. Die Verteilung
dieser Variablen ändert sich also im Zeitablauf nicht. Grafisch schlägt sich dies darin nie-
Abb. 3.14 Eine stationäre Zeitreihe
der, dass die Reihe zu ihrem Mittelwert zurück tendiert. Als Konsequenz können solche
Variablen nicht aus ihren vorhergehenden Werten prognostiziert werden.
Zusammenfassend sind Zeitreihen nicht stationär, wenn Trends, Random-Walk-
Prozesse, Saisoneffekte oder Strukturbrüche existieren. Trends sind systematische Auf-
bzw. Abwärtsbewegungen einer Zeitreihe. Dabei spielt es keine Rolle, ob der Trend bspw.
linear, quadratisch oder exponentiell ausfällt. Bei einem Random Walk kann der aktuelle
Wert einer Variablen auf der Grundlage ihres zeitlich vorhergehenden Werts prognostiziert
werden. Nur zufällige Schocks verändern den aktuellen Wert. Solche zufälligen Schocks
bleiben im „Gedächtnis“ der Zeitreihe. Eine Variante sind Random-Walk-Prozesse mit
Drift. In diesem Fall beeinflusst neben zufälligen Schocks auch eine systematische Kom-
ponente den aktuellen Wert. Saisonale Regelmäßigkeiten werden häufig bei Daten auf
Monats- oder Quartalsbasis sichtbar. Darüber hinaus ist eine Zeitreihe nicht stationär,
wenn ein Strukturbruch, d. h. eine fundamentale Veränderung der ökonomischen oder
sozialen Rahmenbedingungen (Structural Break) vorliegt.
3.6.2 Folgen und Überprüfung von Nicht-Stationarität
Sind die Variablen in der Regressionsgleichung nicht stationär, resultieren daraus ver-
schiedene Probleme. In der Regression schätzen wir einen bedingten Mittelwert (Condi-
tional Mean). Der Mittelwert eines längeren Zeitraums ist aber nur dann aussagekräftig,
wenn der erwartete Einfluss einer unabhängigen Variablen über alle Perioden dieses Zeit-
raums hinweg gleich ist. Wenn dieser Populationsparameter variiert, ist unklar, was wir
schätzen, wenn wir davon einen Durchschnitt über die Zeit berechnen. Auch wenn die
Regression nur beabsichtigt, eine möglichst gute Prognose zu schätzen, sind daher ggf. die
Koeffizientenschätzungen verzerrt und die Standardfehler der OLS-Schätzung irreführend
(Stock und Watson 2015, S. 600–602).
Bei fehlender Stationarität besteht insbesondere die Gefahr, einer Scheinkorrelation
(Spurious Correlation) aufzusitzen. Dies ist beim Vorliegen von zeitlichen Trends ver-
schiedener Variablen offensichtlich. Zur Illustration zeigt Abb. 3.15 zwei Zeitreihen für
Deutschland: die durchschnittliche Lebenserwartung von Männern bei Geburt (linke
Skala) und die Zahl der produzierten Automobile (rechte Skala) – jeweils von 1901 bis
2001 ohne die Jahre des 1. Weltkriegs.
Beide Variablen weisen einen steigenden Trend auf, das heißt, für beide Variablen ist
die Zeit t ein wichtiger Einflussfaktor. Es ergeben sich also für die Variablen X und Y fol-
gende Regressionsgleichungen (wobei eYt und eXt die jeweiligen unterschiedlichen Fehler-
terme darstellen):
6.000.000
4.000.000
Pkw-
2.000.000
Pkw-
Quelle: Wikipedia (2019), Statistisches Bundesamt (2019a)
Abb. 3.15 Pkw-Produktion und Lebenserwartung. (Quelle: Wikipedia 2019; Statistisches Bundes-
amt 2019a)
Yt = b 0 + b1 t + e Yt (3.20)
X t = c 0 + c1 t + e Xt (3.21)
Was passiert, wenn wir eine Regressionsgleichung mit der Lebenserwartung (Yt) als
abhängige Variable und der produzierten Kraftwagen (Xt) als unabhängige Variable – wie
in der Regressionsgleichung (3.22) – spezifizieren?
Yt = d 0 + d1 X t + e t (3.22)
Es resultiert ein hoch signifikanter und starker positiver Einfluss der Produktionsmenge
auf die Lebenserwartung. In diesem Fall steigt sie konkret um 0,404 Jahre pro 100 Tsd.
zusätzlich produzierter Pkw (t-Wert 13,15; Sig.: = ,000; adj.R2: 0,68). Inhaltlich handelt es
sich um eine Nonsense-Korrelation (Scheinkorrelation).26 Der Fehler besteht darin, dass
wir in Gl. (3.18) die einflussreiche Zeit t nicht berücksichtigt haben. Es liegt also ein
„Omitted Variable Bias“ vor, da in Wahrheit die Variable t sowohl die Lebenserwartung als
auch die produzierten Pkw beeinflusst und ihr Weglassen einen kausalen Zusammenhang
vorgaukelt, der nicht existiert. Abb. 3.16 verdeutlicht dies. Der gestrichelte Einfluss von X
auf Y ist hier die auf die Variable t zurückgehende Scheinkorrelation.27
Bei Zeitreihendaten ist das ein weit verbreitetes Problem: Wenn zwei oder mehr Varia
blen in einem Beobachtungszeitraum einem Trend unterliegen, werden die einfachen
Abb. 3.16 Scheinkorrelation t
bei Trends
X Y
26
Bei Querschnittsdaten waren uns Scheinkorrelationen bspw. bei der Beziehung von Störchen und
Geburtenzahlen begegnet (Stoetzer 2017, Abschn. 5.7.3). Im obigen Beispiel könnte ein unbedarfter,
lebensferner Theoretiker (bspw. ein Volkswirtschaftsprofessor) etwa folgende inhaltliche Erklärung
entwickeln: Vor der Erfindung des Automobils war das Pferd ein wichtiges Fortbewegungsmittel.
Pferde scheuen aber, werfen ihre Reiter ab, treten mit Hufen aus usw. Sie verursachen also jedes Jahr
viele Tote. Die Zunahme der Lebenserwartung ist daher völlig logisch auf die zunehmende Verdrän-
gung des Pferdes durch das sicherere Automobil zurückzuführen.
27
Allerdings bleibt zu diskutieren, ob der Einflussfaktor „Zeit“, d. h. die Variable t, überhaupt eine
inhaltlich sinnvolle unabhängige Variable ist. Die Zeit (gemessen in Jahren, Monaten usw.) besitzt
per se ja keinen Einfluss (bspw. auf die Lebenserwartung der Bevölkerung). Sie ist eher eine Indika-
torvariable für die wahren dahinter stehenden Wirkungen – hier von medizinischem Fortschritt,
besserer Ernährung, mehr Freizeit usw. – auf die Lebenserwartung.
OLS-Regressionsschätzungen immer einen (positiven oder negativen) Zusammenhang er-

mitteln. Das heißt, der Determinationskoeffizient R2 und der F-Wert für das Gesamtmodell
und auch die t-Werte der Koeffizientenschätzungen sind (hoch) signifikant, obwohl inhalt-
lich keinerlei (Kausal-)Zusammenhang vorliegt.
Solche Trends sind in der Ökonomie zu beobachten, wenn Wachstumsprozesse vorlie-
gen. Die Zunahme des realen Pro-Kopf-Bruttoinlandsproduktes in Deutschland seit 1970
ist offensichtlich ein Beispiel für eine nicht stationäre Variable aus der Makroökonomie.
Demgegenüber ist die Wachstumsrate des realen Pro-Kopf-BIP, d. h. deren jährliche pro-
zentuale Zunahme, aber (mit hoher Wahrscheinlichkeit) eine stationäre Variable: Sie ver-
ändert sich im Zeitablauf nicht systematisch steigend oder fallend. Besonders relevant
wird Nicht-Stationarität, wenn aufgrund von Inflation alle nominalen Größen (Preise,
Löhne, Kosten, Umsätze usw.) immer weiter zunehmen. Gleiches gilt für auch für andere
Sozialwissenschaften (bspw. hinsichtlich Bevölkerungsentwicklung oder Wertewandel).
Entsprechend häufig sind mögliche Scheinkorrelationen.
Bei Random-Walk-Prozessen ist nicht sofort deutlich, dass sie zu Scheinkorrelationen
führen können. Aber Granger und Newbold (1974) haben gezeigt, dass dies auch für
Random-Walk-Prozesse gilt. Bei Random Walk mit Drift ist dies intuitiv plausibel, da eine
Drift ja eine Form von zeitlich begrenztem Trend darstellt. Es gilt aber auch für Random-
Walk-Prozesse ohne Drift (Auer und Rottmann 2010, S. 578–582; Dougherty 2016,
S. 490–500).
Als Schlussfolgerung ist festzuhalten, dass Zeitreihen in sehr vielen Fällen nicht statio-
när sind, weil häufig Trends oder Random-Walk-Prozesse vorliegen. Dann besteht immer
die Gefahr von Scheinkorrelationen, die inhaltlich völlig sinnlose Beziehungen darstellen.
Aus den obigen Beispielen folgt, dass erstens bei allen Zeitreihen vor jeder Regression
geprüft werden muss, ob die Variablen stationär sind. Andernfalls könnte eine Scheinkor-
relation vorliegen. Zweitens muss bei fehlender Stationarität diese durch geeignete Maß-
nahmen hergestellt werden. Zu Überprüfung existieren drei Ansätze: die grafische Unter-
suchung, Korrelogramme und Einheitswurzeltests.
Nur in einfachen Fällen, d. h. vor allem bei deterministischen Trends, kann die visuelle
Inspektion einer Zeitreihe klären, ob Stationarität vorliegt. Solche grafischen Darstellun-
gen der Zeitreihen aller Variablen nehmen wir aber standardmäßig als ersten Schritt einer
deskriptiven Analyse vor. Sie bestehen aus den Streudiagrammen einer Variablen entlang
der Zeitachse, wie in den Abb. 3.4 bis 3.10. Dies ist auch angebracht, um (Un-)Regelmä-
ßigkeiten und Ausreißer in den Beobachtungen zu identifizieren. Ein Streudiagramm einer
Variablen auf der y-Achse mit ihrem ersten Lag auf der x-Achse eines Koordinatensys-
tems verdeutlicht bspw., ob es eine hohe Autokorrelation erster Ordnung gibt, was bei
Trends der Fall ist. Dies hat bereits Abschn. 3.4 näher beschrieben.
Zur exakten Überprüfung der Stationarität einer Variablen werden standardmäßig so-
genannte Einheitswurzel-Tests (Unit-Root-Tests) vorgenommen. Im Fall einer Zeitreihe
mit einer Unit Root verändert sich die Varianz systematisch in Abhängigkeit von der Zeit.
Dann ist diese Variable nicht stationär, da ein Muster, eine Regelmäßigkeit existiert. Im
Fall von autoregressiven Modellen (also AR(p)-Modellen) gilt, dass diese einen (stochas-
tischen oder deterministischen) Trend besitzt, wenn die Variable Yt eine sogenannte Ein-
heitswurzel (Unit Root) aufweist. Der oben erläuterte Random Walk ist ein solcher
AR(1)-Prozess. Ohne Einheitswurzel ist die betreffende Variable also stationär.28 Der
Dickey-Fuller-Test prüft dies. Er basiert (in der einfachsten Form, d. h. im Fall eines
AR(1)-Prozesses) auf der folgenden Regressionsgleichung:
Yt = b 0 + b1 Yt −1 + e t (3.23)
Eine Einheitswurzel liegt vor, wenn b1 gleich 1 ist. Dann entspricht nämlich die
Gl. (3.23) der oben erläuterten Gl. (3.19) eines Random-Walk-Prozesses mit Drift, bzw.
insofern b0 gleich 0 ist, ohne Drift. Dass b1 den Wert 1 besitzt, ist die Nullhypothese. Die
Alternative b1 > 1 wird in der Praxis vernachlässigt, da sie eine explosive Zunahme von
Yt ohne jede Grenze impliziert. Dies ist für ökonomische und allgemein sozialwissen-
schaftliche Variablen ein kaum relevanter Fall. In der Regel wird außerdem unterstellt,
dass b1 nicht kleiner als 0 ist, so dass gilt: 0 < b1 < 1. Die Alternativhypothese lautet daher
ǀb1ǀ < 1. Durch Umformung, bei der wir von beiden Seiten der Gl. (3.23) Yt−1 abziehen,
folgt daraus:
∆Yt = b 0 + ( b1 − 1) Yt −1 + e t (3.24)
Wir definieren c1 ≡ b1 − 1 und erhalten so:
∆Yt = b 0 + c1 Yt −1 + e t (3.25)
Wenn b1 den Wert 1 annimmt, ist dies identisch mit der Aussage c1 ist gleich 0. In dieser
Form werden die Gl. (3.25) geschätzt und die Nullhypothese, dass der Koeffizient c1 gleich
0 ist, wie üblich mit einem t-Test überprüft.29 Eine Ablehnung bedeutet, dass die Zeitreihe
Yt stationär ist.
Allerdings setzt dieser Test voraus, dass keine Autokorrelation der Fehler vorliegt. Dies
muss ggf. sichergestellt werden. Wir haben oben bemerkt, dass eine Autokorrelation der
Fehler entsteht, weil die Dynamik in den Beziehungen nicht richtig spezifiziert wurde.
Das heißt, in der Zeitreihe der Variable Y liegt ein autoregressiver Zusammenhang höherer
Ordnung (AR(k)) vor. Dies wird durch die Aufnahme zusätzlicher verzögerter Differenzen
von Y berücksichtigt, womit die Autokorrelation verschwindet. Das Ergebnis ist der so-
genannte erweiterte Dickey-Fuller-Test (Augmented Dickey-Fuller-Test, abgekürzt
ADF-Test). Die Koeffizienten der verzögerten abhängigen Variablen bezeichnen wir als
d1, d2, d3 usw. Dessen allgemeine Form lautet also:
28
Der Begriff der Einheitswurzel, dessen mathematische Herleitung und Überprüfung wird von
Kirchgässner et al. (2014, S. 165–187) genauer erläutert.
29
Die Alternativhypothese lautet c1 < 0. Das heißt, es handelt sich um einen einseitigen Test.
∆Yt = b 0 + c1 Yt −1 + d1 ∆Yt −1 + d 2 ∆Yt − 2 +…+ d k ∆Yt − k + e t (3.26)
Die Aufnahme weiterer verzögerter Differenzen der abhängigen Variablen eliminiert

die vorhandene Autokorrelation. Der Fehler et besitzt dann eine i. i. d.-Verteilung. Offen
ist aber die Frage, wie viele Verzögerungen (k) von ∆Yt aufgenommen werden sollten.
Üblich ist die Verwendung von Informationskriterien und insbesondere das AIC, da es
besser ist, eher zu viele als zu wenig Lags einzubeziehen (Stock und Watson 2015, S. 604).
Praktisch schätzen wir die Gl. (3.26) mit unterschiedlichen (plausiblen) Verzögerungen,
ermitteln für diese Spezifikationen jeweils das AIC und wählen die mit dem kleinsten AIC
aus. Die Gl. (3.26) kann ggf. durch die Aufnahme eines (linearen) Trends erweitert wer-
den. Auch in diesem Fall ist die Variable stationär, wenn die Nullhypothese c1 = 0 abge-
lehnt wird.
Dabei ist für die genannten t-Tests des Koeffizienten c1 der Gl. (3.25) bzw. (3.26) die
übliche t-Verteilung nicht gültig. Das heißt, unsere Faustregel aus der einfachen OLS-
Querschnittsregression (ǀtǀ > 2) ist nicht anwendbar. Wenn in den statistischen Programm-
paketen die ADF-Tests implementiert sind, werden aber die in den Unit-Root-Tests an-
wendbaren Verteilungen zugrunde gelegt. Wir können uns also auf das Signifikanzniveau
des Outputs der Statistikprogramme verlassen.
Eine Weiterentwicklung des ADF-Tests ist der DF-GLS-Test (Dickey-Fuller General-
ized Least Squares). Er besitzt im Vergleich zum ADF-Test eine größere Mächtigkeit (Po-
wer), das heißt, er lehnt die Nullhypothese einer Einheitswurzel gegenüber der Alternativ-
hypothese der Stationarität eher ab, wenn tatsächlich Stationarität gegeben ist. Dies ist ein
Vorteil, da so besser zwischen einer Einheitswurzel und einer Wurzel, die zwar kleiner als
1, aber nahe daran liegt, unterschieden werden kann.
Wooldridge (2016, S. 574–578), Stock und Watson (2015, S. 697–700) und Becketti
(2013, S. 380–385) beschreiben diese Verfahren genauer. Ebenso behandeln sie weitere,
hier nicht behandelte Alternativen, wie den Phillips-Perron-Test. Die Annahme der Statio-
narität hinsichtlich Trends und Random Walks wird hier nur sehr knapp und intuitiv er-
läutert, eine genauere Darstellung enthalten Gujarati (2015, S. 255–267) sowie Dougherty
(2016, S. 478–528).
Bei Strukturbrüchen liegt eine andere Problemlage vor. Hier ist offensichtlich, dass
bestimmte Zusammenhänge nur für einzelne Zeitabschnitte gelten. Sie sind nicht auf an-
dere Perioden übertragbar, also verallgemeinerbar. Werden tatsächlich vorhandene Struk-
turbrüche nicht berücksichtigt, sind die Koeffizientenschätzungen der unabhängigen Va-
riablen Durchschnitte der in den Teilperioden tatsächlich existierenden Zusammenhänge,
die in der Regel inhaltlich nicht sinnvoll interpretierbar sind. Dies gilt für jede Art der In-
terpretation: Identifikation kausaler Wirkungen, Analyse von Zusammenhängen und auch
Prognosen.30 Darüber hinaus führen Strukturbrüche bei trendstationären Zeitreihen dazu,
Der Strukturbruch kann sich auf die Konstante, die Koeffizientenschätzungen, die Varianz usw.
30
beziehen. Auch hier beschränkt sich die Darstellung auf einige grundlegende Aspekte. Einen Über-
blick verschaffen Enders (2014) und Perron (2006).
dass die oben genannten Unit-Root-Tests die Nullhypothese einer Einheitswurzel fälschli-
cherweise nicht ablehnen. Das legt nahe, den Zeitpunkt des Strukturbruchs zu ermitteln
und anschließend für die verschiedenen Zeitabschnitte getrennte Tests durchzuführen.
In einfachen Fällen ist wieder eine visuelle Inspektion der Zeitreihe hinreichend, um
Strukturbrüche zu identifizieren. Dies gilt bspw. für die langfristige Entwicklung des grie-
chischen Zinsniveaus in Abb. 3.13. Allerdings werden auch hier zur exakteren Analyse
statistische Tests durchgeführt. Welche Verfahren wir anwenden, hängt davon ab, ob der
Zeitpunkt eines möglichen Strukturbruchs zumindest näherungsweise bekannt ist oder es
gänzlich offen ist, ob, und wenn ja, zu welchen Zeitpunkten Strukturbrüche existieren.
Ist der vermutliche Zeitpunkt eines Strukturbruchs bekannt, wird der Chow-Test
verwendet. Für den Zinssatz Griechenlands sind dies die Jahre 2001 bzw. 2011. Der
Chow-Test definiert zwei Phasen vor und nach dem Strukturbruch. Für die beiden Zeit-
räume wird eine Dummyvariable – die wir SB nennen – eingeführt. Alle Zeitpunkte vor
dem Strukturbruch erhalten eine 0, alle Zeitpunkte nach dem Strukturbruch eine 1.31 Un-
sere Gl. (3.2) oben erweitert sich nach Aufnahme der Dummyvariable SB zu:
Yt = a 0 + a1 SBt + b1 X t −1 + e t (3.27)
Wir verfügen über eine Zeitreihe mit insgesamt 40 Zeitpunkten (etwa Quartalen oder
Jahren) und nehmen an, dass der Strukturbruch zum Zeitpunkt t = 20 stattfindet. Damit
ergibt sich: SBt = 0, falls t ≤ 20 und SBt = 1, falls t > 20. Dann wird die Nullhypothese ge-
testet, dass der Koeffizient a1 der Dummyvariablen SB gleich 0 ist. Wird die Hypothese
a1 = 0 nicht abgelehnt, existiert kein signifikanter Unterschied im Niveau der Variablen Yt
zwischen den Zeitpunkten bis t = 20 einerseits und den Zeitpunkten 21 bis 40 andererseits.
Abb. 3.13 legt aber nahe, dass der Strukturbruch sich nicht nur auf das Niveau der Zin-
sen beschränkt, sondern die Zinsen auch nach dem Strukturbruch stärker schwanken. Dies
ist der Ausgangspunkt des modifizierten Chow-Tests. Er erweitert die Gl. (3.21) um einen
Interaktionseffekt (siehe dazu Stoetzer 2017, Abschn. 3.4). Dazu multipliziert man die ab-
hängige Variable für den Strukturbruch SB und die Variable Xt−1 wie folgt: Xt−1 × SBt.
Diese neue Interaktionsvariable nennen wir (bspw.) InterXt−1SBt.
Yt = a 0 + a1 SBt + b1 X t −1 + a 2 InterX t −1 SBt + e t (3.28)
Mittels eines F-Tests wird überprüft, ob die Koeffizienten a1 und a2 beide gleich 0 sind
(d. h., ob: a1 = a2 = 0).32 Wird die Nullhypothese nicht abgelehnt, existiert weder ein Ni-
31
Zum Umgang und der Interpretation von Dummyvariablen für bspw. mögliche Unterschiede zwi-
schen Männern und Frauen siehe Stoetzer (2017, Abschn. 3.2.1). Hier wird dieser Ansatz einfach auf
zwei Zeitabschnitte übertragen.
32
Diese vereinfachte Darstellung erläutert inhaltlich den Chow-Test. Tatsächlich wird ein restrin-
giertes Modell entsprechend Gl. (3.2) einem unrestringierten Modell wie in Gl. (3.28) gegenüber-
gestellt. Der Chow-Test vergleicht die beiden Fehlerquadratsummen und überprüft mittels eines
F-Tests, ob das unrestringierte Modell eine signifikante Verbesserung darstellt (siehe zu dieser Vor-
veauunterschied (a1 = 0) noch ein Unterschied in der Steigung (a2 = 0), also hinsichtlich
der Stärke des Einflusses von Xt−1 in den beiden Zeitabschnitten. Wird die Nullhypothese
abgelehnt, liegt ein Strukturbruch vor. Er kann in einem Niveau- oder/und auch in einem
Einflussunterschied bestehen.
Das einfache Modell (3.28) mit lediglich einer einzigen verzögerten unabhängigen Va-
riablen Xt−1 kann selbstverständlich erweitert werden. Wir können weitere Lags von X
oder anderen zusätzlichen unabhängigen Variablen aufnehmen und auch autoregressive
bzw. ADL-Modelle verwenden. Allerdings sind dann ggf. viele Interaktionseffekte zu be-
rücksichtigen. Damit sinken unsere Freiheitsgrade, was nur angeraten ist, wenn wir nur
über eine ausreichend lange Zeitreihe – also Zahl von Beobachtungen – verfügen.
Ist der mögliche Zeitpunkt eines Strukturbruches unbekannt, werden komplexere
Versionen des Chow-Tests eingesetzt.33 Vereinfacht erklärt, überprüfen diese Erweiterun
gen des Chow-Tests eine ganze Bandbreite von möglichen Zeitpunkten eines Struktur-
bruchs. Alle Zeitpunkte t zwischen einer unteren Grenze (tu) und einer oberen Grenze (to)
werden auf einen möglichen Strukturbruch getestet. Jeder dieser Zeitpunkte ergibt einen
Wert für den oben genannten F-Test des Chow-Tests. Unter all diesen F-Tests wird der
größte F-Wert (dies ist die sogenannte QLR-Statistik) genommen, um einen Struktur-
bruch zu prüfen. Die Nullhypothese ist wieder, dass kein Strukturbruch vorliegt. Die un-
tere (die obere) Grenze darf nicht zu nah am Anfang (am Ende) der Zeitreihe liegen.
Andernfalls ist die Zahl der Beobachtungen (der Zeitpunkte) in der ersten (zweiten) Phase
zu gering, um verlässliche Aussagen zu treffen. Diese Wahl von tu und t0, das heißt eines
Zeitfensters, bezeichnet man als „Trimming“. Üblicherweise werden die ersten und die
letzten 15 % der Zeitpunkte als Grenzen gewählt. Folglich berechnen wir für die mittleren
70 % der Zeitpunkte die F-Werte für mögliche Strukturbrüche. Der Zeitpunkt mit dem
höchsten F-Wert, das heißt der QLR-Statistik, ist (unter bestimmten Voraussetzungen)
eine konsistente Schätzung des Zeitpunkts, an dem ein Strukturbruch vorliegt.
Mittels dieses Verfahrens sind auch mehrfache Strukturbrüche zu verschiedenen Zeit-
punkten und „gleitende“ Veränderungen der Koeffizienten ermittelbar. Bei Letzteren exis-
tiert kein exakter Zeitpunkt, zu dem der Strukturbruch auftritt, sondern es liegt ein gradu
eller Wandel der Wirkung einer unabhängigen Variablen über mehrere Zeitpunkte hinweg
vor (Gradual Break). Wir können außerdem mit der QLR-Statistik Strukturbrüche identi-
fizieren, die nur bei bestimmten unabhängigen Variablen auftreten.
Die Tests sind zum Teil nicht konsistent, falls Heteroskedastie vorliegt. Aber es existie-
ren heteroskedastierobuste Versionen, die in der Regel in den statistischen Programmpa-
gehensweise Stoetzer 2017, Abschn. 6.3.1). Die Nullhypothese ist, dass das einfache Modell (2) die
Zusammenhänge genauso gut erklärt wie das komplexere Modell (28). Genauere Erläuterungen zu
den Ansätzen vermittelt Dougherty (2016, S. 255–259).
33
Sie sind in der Literatur mit einer verwirrenden Vielfalt unterschiedlicher Bezeichnungen verse-
hen: supWald-Test (Supremum-Wald-Test), sup-LR-Test (Supremum-Likelihood-Ratio-Test),
Quandt-Likelihood-Ratio (QLR)-Test, Phillips-Perron-Test, CUSUM- (Cumulative Sum-), sup-MZ-
und Bai-Perron-Test. Diese Aufzählung erhebt keinen Anspruch auf Vollständigkeit.
keten implementiert sind. Die genannte QLR-Statistik besitzt eine komplexere Verteilung
als die üblichen F-Werte. Auch diese sind in den Statistikprogrammpaketen enthalten, so
dass wir uns auf die dort ausgewiesenen Signifikanzniveaus verlassen können. Genauere
Darlegungen finden sich bei Stock und Watson (2015, S. 607–619).
Solchen Strukturbrüchen ähnlich sind wirtschafts- bzw. sozialpolitische Maßnahmen,
mit denen bestimmte Ziele verfolgt werden. Derartige Eingriffe – in der Literatur häufig
als Treatment bezeichnet – waren uns bereits im ersten Kapitel begegnet. Sie zielen im
Prinzip darauf ab, bestimmte Rahmenbedingungen zu verändern. Daher handelt es sich
sozusagen um endogene Strukturbrüche. Aufgabe evidenzbasierter Evaluationen ist es, die
tatsächlichen Wirkungen solcher Maßnahmen (wie bspw. Senkung der Leitzinsen, Ein-
führung von Studiengebühren, Erhebung einer Pkw-Maut) zu ermitteln. Dies erfolgt im
Rahmen von Zeitreihenanalysen, indem mittels einer Dummyvariablen die Perioden vor
und nach Beginn des Treatments (bzw. generell Perioden ohne und mit Treatment) erfasst
werden. Andere Anwendungsgebiete sind bspw. die Finanzmarktanalyse. Hier lassen sich
so bspw. die Auswirkungen eines Übernahmeangebotes, das zum Zeitpunkt t erfolgt, auf
die Aktienkurse der beteiligten Unternehmen in den Folgeperioden (bspw. den nächsten
Börsenhandelstagen) analysieren.
3.6.3 Vorgehen bei Nicht-Stationarität
Im Vergleich zu Querschnittsanalysen besitzt die fehlende Stationarität der Zeitreihen

unserer Variablen und das damit verbundene Problem der Scheinkorrelation eine beson-
dere Relevanz. Wie ist bei fehlender Stationarität vorzugehen? In allen vier im Abschn. 3.6.1
behandelten Fällen – Saisonschwankungen, Trends, Random-Walk-Prozessen, und Struk-
turbrüchen – lässt sich Stationarität durch geeignete Verfahren herstellen.
Dem Problem saisonaler Schwankungen ist durch die Aufnahme von Dummyvaria-
blen abzuhelfen. Zum Beispiel liegen die Daten von Verkehrsunfällen auf Monatsebene
und für 10 Jahre vor und weisen in jedem Jahr Regelmäßigkeiten auf. Dies etwa, weil be-
sonders viele Verkehrsunfälle in den Monaten Januar und Februar – wegen Glatteis und
Schneetreiben – zu verzeichnen sind. In diesem Fall berücksichtigen wir das Problem
durch die Aufnahme von 11 Dummyvariablen (bspw. der Monate Februar bis Dezember).
Der Monat Januar ist dann die Referenzkategorie (vgl. Stoetzer 2017, Abschn. 3.2.1). Die
monatlichen Schwankungen werden durch diese Spezifikation kontrolliert. Analog lassen
sich periodische Schwankungen aller Art, wie Quartale, Monate, Wochen, Tage, Tages-
zeiten usw., berücksichtigen.
Liegen Trends in den Variablen vor, können diese erstens durch Neuspezifikation
oder zweitens mittels Differenzenbildung eliminiert werden.
Eine erste Möglichkeit ist, die Trends in die Spezifikation aufzunehmen.34 Liegt ein
deterministischer Trend vor, überprüft man, um welchen Trend es sich handelt (bspw. ei-
Alternativ lassen sich auch alle Variablen zunächst trend- und ggf. saisonbereinigen. Anschließend
34
nen linearen oder exponentiellen Trend). Ein simpler linearer Trend wird in der Regressi-
onsgleichung berücksichtigt, indem wir – wie in Gl. (3.29) – die Zeit t als eigene unabhän-
gige Variable hinzufügen:
Yt = b 0 + b1 t + b 2 X t + e t (3.29)
Bei einem exponentiellen (Wachstums-)Trend transformieren wir die Variable Y, indem

wir sie logarithmieren. Die auf diese Weise transformierte Variable wird dann in die Re-
gressionsgleichung aufgenommen:
log ( Yt ) = b 0 + b1 t + b 2 X t + e t (3.30)
Dies entspricht einer konstanten Wachstumsrate, da der Koeffizient b1 (multipliziert mit

100) die durchschnittliche Wachstumsrate in Prozent pro Periode angibt. Falls b1 bspw.
0,063 beträgt, liegt ein Wachstum von 6,3 % pro Periode vor.
Wir sind natürlich in der Lage, auch quadratische, etwa zu- und dann abnehmende,
Trends zu spezifizieren (Gl. 3.31). Zum Beispiel existiert, wenn b1 größer als 0 und b2
kleiner als 0 ist, ein nicht linearer, zunächst zunehmender und dann abnehmender Trend.
Yt = b 0 + b1 t + b 2 t 2 + b3 X t + e t (3.31)
Mit Hilfe der Erfassung von Trends kann das Problem der Scheinregression eliminiert
werden. Allerdings gilt dies nur unter der Voraussetzung, dass wir alle Trendeinflüsse rich-
tig erfasst haben. Unter inhaltlichem Gesichtspunkt ist die fehlende Spezifikation eines
tatsächlich vorhandenen Trends – wie wir bereits wissen – nichts anderes als ein „Omitted
Variable Bias“. Entsprechendes gilt hinsichtlich der oben behandelten saisonalen Schwan-
kungen. Auch die Kombination von Trendmodellierungen und etwa Saison- oder Monats-
dummys ist selbstverständlich möglich.
Eine zweite Möglichkeit besteht darin, die Differenzen der Variablen zu bilden. Wir
berechnen durch die erste Differenz die Veränderung der Variablen zwischen zwei aufei
nander folgenden Zeitpunkten, wie oben in der Abb. 3.5 beschrieben. Ein linearer Trend
wird durch die Bildung der ersten Differenz beseitigt und analog ein quadratischer Trend
durch die Berechnung der zweiten Differenzen. Ist die erste Differenz stationär, darf eine
Regression durchgeführt werden. Andernfalls bilden wir die zweite Differenz und prüfen,
ob diese stationär ist. In der Praxis sind für die Trendbereinigung in der Regel nur erste
und (selten) zweite Differenzen relevant.
wird die Regression auf Basis dieser bereinigten Daten durchgeführt. Die Resultate unterschieden
sich nicht von der expliziten Spezifikation des Trends. Auch bei Saisoneffekten kann durch Differen-
zenbildung eine stationäre Zeitreihe gewonnen werden. Dies erfolgt bspw. bei Monatseffekten, in-
dem die Differenz zwölfter Ordnung gebildet wird. Die Verkehrsunfälle im Januar werden so mit
dem Wert aus dem Januar des Vorjahres verglichen.
Abb. 3.17 Erste Differenzen der Arbeitslosenquote
Die Arbeitslosenquote in Deutschland weist einen deutlichen Abwärtstrend im Zeit-

raum 2005 bis 2018 auf (siehe Abb. 3.3). Die ersten Differenzen dieser Zeitreihe zeigt
Abb. 3.17.
Abb. 3.17 verdeutlicht, dass die Bildung erster Differenzen den fallenden Trend der
Arbeitslosenquote von 2005 bis 2019 beseitigt hat. Dagegen existieren die saisonalen
Schwankungen nach wie vor – in dieser Hinsicht hilft die Differenzenbildung in Form der
Berechnung erster Differenzen natürlich nicht. Liegen bspw. Quartalsdaten vor, sind
die vierten saisonalen Differenzen zu berechnen, um ggf. saisonale Schwankungen zu
eliminieren. Außerdem ist ja eventuell gerade der Trend die uns interessierende Fragestel-
lung. In diesem Fall ist die Differenzenbildung natürlich nicht sinnvoll. Die Variablen
können selbstverständlich statt in absoluten Werten bspw. auch in logarithmierter Form
vorliegen. In diesem Fall entspricht die logarithmierte erste Differenz approximativ der
Wachstumsrate dieser Variablen.
Bei Random-Walk-Prozessen (mit oder ohne Drift) können sowohl die Driftkompo-
nente als auch der stochastische Trend durch die genannten Verfahren kontrolliert, also
beseitigt werden. Dies durch die Modellierung des Trends und der saisonalen Schwankun-
gen oder die Bildung geeigneter Differenzen. Unter Umständen sind auch Modellierung
und Differenzenbildung zu kombinieren. Allerdings ist zu beachten, dass die Differenzen-
bildung nur (und insoweit) durchgeführt werden sollte, wie sie notwendig ist, um eine
stationäre Zeitreihe zu erhalten. Andernfalls verursacht gerade erst die Differenzierung
3.7 Modellspezifikation 151
u. U. einen Moving Average Prozess, der ursprünglich gar nicht vorhanden war (Überdif-
ferenzierung, Overdifferencing). Moving-Average-Prozesse erläutert Abschn. 3.8.1.
Auch Strukturbrüche müssen und können wir in der Spezifikation unserer Regressi-
onsgleichung berücksichtigen. Das geschieht etwa durch die Unterscheidung bestimmter
Zeiträume mittels Dummyvariablen. Eine andere in der Praxis verbreitete Vorgehensweise
ist es, die Untersuchung schon bei der Hypothesenformulierung und Auswahl der Daten-
basis auf bestimmte Zeiträume ohne Strukturbrüche zu beschränken. Anderseits sind es
ggf. gerade die Strukturbrüche, die im inhaltlichen Fokus stehen: Eine Werbekampagne
stellt darauf ab, die Absatzrückgänge eines Produktes zu stoppen und möglichst in ihr
Gegenteil zu verkehren. Die Hartz-IV-Reformen auf dem Arbeitsmarkt in Deutschland
sollten die verfestigten hohen Arbeitslosenzahlen in Deutschland verringern. Inwieweit
ein Strukturbruch gerade beabsichtigt ist und daher im Mittelpunkt der Analyse steht oder
aber eine exogene Veränderung vorliegt, die die interessierenden Zusammenhänge nur
verzerrt, ist im Kontext der jeweiligen inhaltlichen Fragestellung zu klären.
Die genannten Probleme können natürlich auch zusammen auftreten, so dass es bspw.
notwendig ist, sowohl den Trend zu beseitigen als auch saisonale Differenzen zu bilden
und außerdem Strukturbrüche zu berücksichtigen. Generell ist wichtig, dass die Stabilität
der Koeffizientenschätzungen – nämlich ihre Zeitinvarianz zumindest für bestimmte Zeit-
räume – Voraussetzung ihrer Analyse auf der Basis von Zeitreihenregressionen ist.
3.7 Modellspezifikation
3.7.1 Ermittlung der Lags und Leads
Die Feststellung, welche und wie viele Lags (und ggf. Leads) wir in unserem Modell be-
rücksichtigen müssen, ist nichts anderes als das Problem der Spezifikation des „richtigen“
Modells (Stoetzer 2017, Abschn. 6.3). Referenzpunkt sind auch hier inhaltliche Aspekte.
Das heißt, wir spezifizieren verschiedene Lags auf der Grundlage ökonomischer bzw. so-
zialwissenschaftlicher Theorien oder zumindest inhaltlich fundierter Überlegungen.
Häufig sagen aber die Theorie und ggf. auch die vorhandenen empirischen Untersuchun-
gen nichts oder wenig über die Dauer von Nachwirkungen (bzw. Antizipationen) und da-
mit die Zahl der Lags (Leads).
Eine Möglichkeit zur grafischen Bestimmung der Lags besteht in der Analyse von Kor-
relogrammen bzw. Autokorrelationsfunktionen. Abschn. 3.4.2 hat dies bereits erläutert,
und Anhang 3.1 dieses Kapitels enthält dazu illustrierende Beispiele. Als statistisches
Testverfahren kann der F-Test eingesetzt werden. Eine weitere Alternative ist die Verwen-
dung des Akaike-Informationskriteriums (AIC) und/oder des Schwarz- (bzw. Bayes-)In-
formationskriteriums (BIC).
In der praktischen Anwendung legen wir zunächst aufgrund inhaltlicher Überlegungen
fest, welche Variable verzögerte Wirkungen aufweisen. Anschließend begrenzen wir die
Zahl der Lags ebenfalls auf Basis inhaltlicher Aspekte. Häufig sind die Lags auf maximal
vier Perioden beschränkt.
Danach testen wir die Spezifikationen mit den ersten bis vierten Lags einer Variablen.
Auf die t-Tests der einzelnen Lags ist ggf. wegen Multikollinearität zwischen den Lags
einer Variablen kein Verlass. Daher vergleichen wir mittels F-Tests das restringierte Mo-
dell (mit weniger Lags) mit dem unrestringierten Modell (mit zusätzlichen Lags). Dies
entspricht der Vorgehensweise im Rahmen der Modellspezifikation von Regressionen auf
Basis von Querschnittsdaten (Stoetzer 2017, Abschn. 6.3.1). Allerdings ist das Verfahren
umständlich, wenn viele Spezifikationen zu testen sind. Außerdem kann der F-Test nach
Stock und Watson (2015, S. 594) zu Modellen mit zu vielen Lags führen.
Häufig wird daher in der Literatur auf Informationskriterien zurückgegriffen. Dabei
vergleichen wir die von der Statistiksoftware berechneten AIC- bzw. BIC-Werte der Mo-
delle mit unterschiedlichen Lag-Längen. Das Modell mit dem niedrigsten AIC- (bzw. BIC-)
Wert ist als die relativ beste Spezifikation auszuwählen (Stoetzer 2017, Abschn. 6.3.2).35
Das AIC neigt bei einer großen Zahl von Beobachtungen dazu, mehr unabhängige Varia
blen als notwendig aufzunehmen. Daher sollte bei großen Stichproben das BIC verwendet
werden. Bei kleinen Stichproben wird in der Literatur dagegen das AIC empfohlen (Win-
ker 2017, S. 252).
Stock und Watson (2015, S. 595–597) stellen die verschiedenen Möglichkeiten im
Kontext von Zeitreihen- bzw. Paneldaten dar. Eine allgemeine Übersicht zur Modellaus-
wahl geben Chatterjee und Hadi (2012, S. 303–328).
Für die praktische Durchführung einer Zeitreihenanalyse sind folgende Punkte wichtig:
Erstens ist die Stationarität der Datenreihe zu prüfen (visuelle Analyse der Abbildung
der Zeitreihen und deren Autokorrelationsfunktionen, ADF-Test etc.) und ggf. durch ge-
eignete Verfahren herzustellen. Letzteres kann mittels der Modellierung von Trends, sai-
sonalen Schwankungen und Strukturbrüchen erfolgen oder durch Differenzenbildung
erreicht werden. Dabei sind in der Regel die ersten Differenzen ausreichend. Bei Stationa-
rität ist die OLS-Schätzung der Zeitreihen möglich und sinnvoll interpretierbar. Die Koef-
fizientenschätzungen sind konsistent und ggf. unverzerrt.
Zweitens dürfen die Residuen der OLS-Schätzung keine Autokorrelation aufweisen, da
dies zumindest die Standardfehler und damit t-Tests und Signifikanzniveaus verzerrt. Dies
muss überprüft werden (Autokorrelationsfunktionen der Residuen, Breusch-Godfrey-Test
35
Wir gehen im Folgenden davon aus, dass ein kleineres AIC bzw. BIC immer das zu bevorzugende
Modell darstellt. Dies ist eine Vereinfachung. Erstens stellt sich das Problem, wie vorzugehen ist,
wenn AIC und BIC unterschiedliche „beste“ Modelle identifizieren. Zweitens ist zu fragen, wie
stark denn die Verkleinerung sein muss, um wirklich eine relevant bessere Modellspezifikation dar-
zustellen. Basierend auf der Arbeit von Raftery enthält Pickup (2015, S. 130) dazu Faustregeln.
3.8 Weiterführende Verfahren 153
usw.). Existiert eine solche serielle Korrelation der Residuen ist diese durch Neuspezifika-
tion zu beseitigen (Modellierung) oder mittels geeigneter Schätzverfahren zu berücksich-
tigen (GLS-Schätzung, HAC-Standardfehler). Handelt es sich um autoregressive dynami-
sche Modelle (ADL-Modelle), ist die Beseitigung der Autokorrelation besonders wichtig,
da in solchen Modellen andernfalls auch die Koeffizientenschätzungen verzerrt sind.
Das Problem der Exogenität ist im Hinblick auf Aussagen zu kausalen dynamischen
Wirkungen von zentraler Relevanz. Insoweit unterscheidet es sich nicht vom Endogeni-
tätsproblem bei Querschnittsanalysen. Im Fall von Modellen mit verzögerten unabhängi-
gen Variablen (FDL-Modellen) können konsistente Koeffizienten geschätzt werden, wenn
die unabhängigen Variablen schwach exogen sind. Weil unter Umständen nicht berück-
sichtigte Einflussfaktoren zu Autokorrelation (serieller Korrelation) der Fehler führen, ist
es ggf. notwendig, HAC-Standardfehler zu verwenden. Liegt strikte Exogenität vor, sind
kausale Zusammenhänge auch auf der Basis von autoregressiven Modellen (ADL-
Modellen) schätzbar. In solchen ADL-Spezifikationen kann die Autokorrelation der Fehler
im Modell berücksichtigt und so kontrolliert (d. h. beseitigt) werden. Allerdings sind strikt
exogene unabhängige Variablen in der Ökonomie und überhaupt den Sozialwissenschaf-
ten nur selten eine plausible Annahme. Mittels Instrumentvariablen lassen sich u. U. auch
bei fehlender strikter Exogenität der unabhängigen Variablen konsistente Koeffizienten-
schätzungen durchführen. Der Instrumentvariablen-Ansatz wird im Folgenden nicht be-
handelt. Eine gute Erläuterung geben Stock und Watson (2015, S. 634–674, siehe auch
Becketti 2013, S. 196).
Die beschriebene Vorgehensweise muss allerdings entsprechend der jeweiligen Frage-
stellung modifiziert oder sogar durch andere Verfahren ersetzt werden. Dies gilt insbeson-
dere hinsichtlich der im Folgenden kurz erläuterten Prognosemodelle und Analyse lang-
fristiger Zusammenhänge.
3.8 Weiterführende Verfahren
3.8.1 Prognosemodelle
Praktische große Bedeutung haben Zeitreihenanalysen in Form von Prognosemodellen. Wie

bereits im Abschn. 1.3 beschrieben, können die Koeffizientenschätzungen als Prädiktoren
(Predictors) bestimmter Entwicklungen der abhängigen Variablen interpretiert werden. Wo-
bei dies keine Kausalität im Sinne des Rubin-Kausalmodells darstellt (siehe Kap. 1).
Damit genauer festgestellt werden kann, ob es sich um einen „guten“ Prädiktor handelt,
wird in der Literatur häufig die sogenannte Granger-Kausalität untersucht: Mittels eines
F-Tests überprüft man, ob die einbezogenen Lags einer unabhängigen Variablen gemein-
sam einen signifikanten Erklärungsbeitrag für die Entwicklung der abhängigen Variablen
aufweisen. Wir gehen dazu (im einfachsten Fall) von zwei stationären Zeitreihen der Va-
riablen Y und X aus. Im ersten Schritt identifizieren wir die richtigen (d. h. signifikanten)
Verzögerungen von Y und spezifizieren zu diesem Zweck ein autoregressives Modell der
Variablen Y.
Yt = a 0 + a1 Yt −1 + a 2 Yt − 2 +…+ a m Yt − m + e t (3.32)
Anschließend erweitern wir dieses Modell, indem Lags der Variablen X hinzuge-
fügt werden:

Yt = a 0 + a1 Yt −1 + a 2 Yt − 2 +…+ a m Yt − m + b1 X t −1 + b 2 X t −1 + b3 X t − 3 +…+ b n X t − n + e t (3.33)
Wir fragen uns also in Modell (3.33), ob die unabhängigen verzögerten Variablen Xt−1,
Xt−2 usw. gemeinsam Veränderungen von Yt erklären, und zwar zusätzlich zu den Verände-
rungen von Yt, die das autoregressive Modell (3.32) bereits erklärt. Der gemeinsame Ein-
fluss der verzögerten Variablen X wird mittels eines F-Tests überprüft. Dessen Nullhypo-
these besagt, dass X keinen signifikanten Einfluss auf Y ausübt. Diese Nullhypothese wird
nur dann nicht verworfen (also beibehalten), wenn keine der verzögerten Variablen Xt−1
usw. einen signifikanten Einfluss auf Y besitzt. Wird die Nullhypothese abgelehnt, liegt ein
Granger-kausaler Einfluss von X vor.
Ein makroökonomisches Anwendungsbeispiel ist die Frage, ob die Arbeitslosigkeit in
der Vergangenheit einen Einfluss auf die Inflationsrate in zukünftigen Perioden besitzt. In
der obigen Gl. (3.9) im Abschn. 3.2 stellt sich die Frage, ob die Koeffizienten b1 bis b3 (die
zu den Arbeitslosenquoten in den drei Vorjahren gehören) gemeinsam (oder auch einzeln)
ein signifikanter Prädiktor der Inflationsrate im kommenden Jahr sind. Dies ist nur der
Fall, wenn sie über die anderen unabhängigen Variablen der Regressionsgleichung (3.9)
hinaus – also zusätzlich zu den beiden verzögerten Inflationsraten INFLt−1 und INFLt−2 –
Vorhersagekraft besitzen, das heißt signifikanten Einfluss ausüben.
Praktische Bedeutung hat die Granger-Kausalität auch hinsichtlich der Gültigkeit der
Effizienzhypothese auf Finanzmärkten. Wenn bspw. der Kurs einer Aktie auf einem
effizienten Finanzmarkt alle gegenwärtig verfügbaren Informationen enthält, ist es nicht
möglich, dass dieser Aktienkurs von irgendeiner anderen Variablen Granger-kausal beein-
flusst wird. Wäre eine solche Prognosekraft vorhanden, würde diese Information auf ei-
nem effizienten Finanzmarkt sofort benutzt, um Kursgewinne zu erzielen. Dies solange,
bis genau dadurch die Granger-kausale Beziehung wieder verschwindet.
Mittels des Ansatzes der Granger-Kausalität können auch simultane Wirkungen zwi-
schen zwei Variablen und Kausalitätstests im Rahmen von Modellen mit mehr als zwei
Variablen durchgeführt werden. Außerdem existieren verschiedene Varianten und Modi-
fikationen des einfachen Ansatzes der Gl. (3.33). Kurze Einführungen in das Verfahren der
Granger-Kausalität geben Stock und Watson (2015, S. 589–590) sowie Gujarati (2015,
S. 315–319). Kirchgässner et al. (2014, S. 95–122) bieten ausführlichere Erläuterungen.
Für die kurzfristige Prognose von Entwicklungen haben sich auch Regressionsmodelle
bewährt, die die zukünftige Entwicklung einer Variablen (bspw. der Inflation) nur aus sich
selbst heraus erklären. Die Random-Walk-Modelle der Gl. (3.18) und (3.19) sind Bei-
spiele für solche Ansätze, bei denen es sich um univariate Verfahren handelt. Das ARMA-
Modell von Box-Jenkins aus dem Jahr 1970 stellt dabei einen prominenten Ausgangs-
punkt dar. Der Beitrag war wegweisend, weil er mit einem univariaten Ansatz bessere
Prognosen erzielte als komplexe makroökonomische Mehrgleichungsmodelle mit zum

Teil Hunderten von Variablen und Gleichungen. Im Fokus dieses Verfahrens stehen häufig
gesamtwirtschaftliche Größen wie bspw. Inflation, Zinsen, Arbeitslosigkeit und Bruttoin-
landsprodukt. Praktische Anwendungen beziehen sich auch auf die Finanzmärkte – ins-
besondere die Prognosen der Kurse von Wertpapieren.
Ein ARMA-Modell besteht aus einem autoregressiven Teil (AR-Teil) und einem
Moving-Average-Teil (MA-Teil) und hat bspw. folgendes Aussehen (wobei „u“ wieder
einen i.i.d.-Fehler, d. h. ein weißes Rauschen, darstellt):
Yt = a 0 + a1 Yt −1 + a 2 Yt − 2 + a 3 Yt −3 + b1e t −1 + b 2 e t − 2 + u t (3.34)
Der AR-Teil umfasst in diesem Beispiel Lags erster bis dritter Ordnung. Es handelt sich
also um ein autoregressives AR(3)-Modell, wie wir es oben bereits kennengelernt hatten.
Seine inhaltliche Begründung basiert auf Persistenzen.
Die weiteren unabhängigen Variablen et−1 und et−2 sind die verzögerten Residuen der
beiden Vorperioden. Sie werden als Moving Average (gleitender Durchschnitt) bezeich-
net. Der Moving-Average-Teil bezieht Lags erster und zweiter Ordnung ein und ist daher
im Beispiel der Gl. (3.34) ein MA(2)-Prozess. Die inhaltliche Interpretation des Moving-
Average-Teils ist, dass ein Fehler in einer Vorperiode (bspw. et−2) auf einen exogenen
Schock zurückzuführen ist. Es handelt sich um einen exogenen Einfluss, da er ja nicht im
Modell spezifiziert worden ist und sich daher im Fehler dieser Vorperiode manifestiert.36
Die Idee ist nun, dass dieser exogene Schock nicht nur in der Periode seiner Entstehung,
sondern auch noch in Folgeperioden Auswirkungen hat. In Gl. (3.34) nehmen wir an, dass
Wirkungen in der Folgeperiode (in Form des Koeffizienten b1) und außerdem zwei Perio-
den später (Koeffizient b2) auftreten. Sowohl der AR- als auch der MA-Teil modellieren
Einflüsse aus vergangenen Perioden auf die laufende Periode.
Gl. (3.34) ist ein ARMA(3,2)-Modell. In der allgemeinen Darstellung handelt es sich
um ARMA(p,q)-Modelle, wobei p die Lag-Ordnung des autoregressiven und q die Ver-
zögerung (d. h. Lag-Ordnung) des Moving-Average-Teils festlegen. ARMA-Modelle wer-
den mittels des Maximum-Likelihoods-Verfahrens geschätzt. Anhang I erklärt das Prinzip
der Maximum-Likelihood- Schätzung sowie darauf basierende Anwendungen.
In dieser Form setzt es aber voraus, dass die Variable Y stationär ist. Bei Nicht-
Stationarität wird die Spezifikation erweitert. Liegt bspw. ein Random Walk (stochasti-
scher Trend) oder ein deterministischer Trend vor, werden – wie oben bereits erläutert –
erste Differenzen von Y gebildet. Diese neue Datenreihe wird stationär sein. Diese
Integration erster Ordnung wird in den sogenannten ARIMA-Modellen mit aufgenom-
men. Ihre allgemeine Darstellung lautet ARIMA(p,d,q). Die Indices p und q entsprechen
denen der oben dargestellten ARMA-Modelle. Die Kennzeichnung d steht für den Inte
grationsgrad, d. h. die Zahl der gebildeten Differenzen. Um die Stationarität einer Daten-
reihe herzustellen, reicht es in der Regel aus, erste Differenzen zu verwenden, so dass ein
ARIMA(p,1,q)-Modell vorliegt.
36
In der Literatur zur Zeitreihenanalyse werden die Residuen (Fehler) daher zum Teil Innovationen
(Innovations) genannt.
Wie aber wissen wir, welche Werte für p und q einzusetzen sind? Wenn die betreffende
Variable (bspw. die Arbeitslosenquote) stationär ist, können die Autokorrelationsfunktio-
nen herangezogen werden, um sinnvolle Werte für die Parameter p und q zu bestimmen.
Die signifikanten Autokorrelationen der ACF sind Anhaltspunkte für den Wert q des MA-
Teils und die der partiellen Autokorrelationen PACF geben Hinweise auf den Wert des
Parameters p im AR-Teil. Falls die Arbeitslosenquote stationär wäre, würde entsprechend
Abb. 3.7 dann q = 13 also ein MA(13)-Prozess modelliert werden. Allerdings wird aus der
Literatur deutlich, dass die Bestimmung der Werte von p und q anhand der ACF und PACF
nur „Faustregeln“ sind und inhaltlich unplausible Korrelationen nicht berücksichtigt wer-
den, auch wenn sie signifikant sind (Boffelli und Urga 2016, S. 58–70; Becketti 2013,
S. 233–252). Eindeutiger ist ein Vergleich verschiedener Modellspezifikationen mittels
der Informationskriterien. Häufig werden in der Praxis – wie oben bereits beschrieben –
das AIC und das BIC dazu eingesetzt. Der Anhang 3.1 des vorliegenden Kapitels veran-
schaulicht die Zusammenhänge. Er stellt die Verwendung der ACF und der PACF, mit
deren Hilfe die Parameter p, d und q identifiziert werden können, genauer dar.
Reine ARMA- und ARIMA-Modelle sind – da nur eine Variable betrachtet wird – nicht
mit ökonomischen Theorien verbunden, sondern rein datengetrieben. Aus sozialwissen-
schaftlicher Sicht ist aber Konsens, dass Analysen (selbst explorativer Art) nicht völlig
ohne theoretische Fundierung erfolgen sollten. Daher ist die Berücksichtigung zusätzli-
cher unabhängiger Einflussfaktoren in den ARMA- und ARIMA-Modellen sinnvoll. Sol-
che Verfahren bezeichnet man als ARMAX- oder ARIMAX-Modelle (Autoregressive
Moving Average with Exogenous Variables).
Eine andere Richtung der Weiterentwicklung von Zeitreihenregressionen für Prognose-
zwecke modelliert Phasen unterschiedlicher Volatilität. Zum Beispiel existieren bei Kurs-
schwankungen von Aktien Zeiträume mit einer sehr hohen Volatilität und Perioden mit
niedrigeren Kursschwankungen. Im Rahmen einer Regression schlagen sich diese in den
Fehlern als Heteroskedastie nieder. Solche systematischen Unterschiede in der Varianz
bspw. der täglichen Aktienkursschwankungen werden mittels ARCH (Autoregressive Con-
ditional Heteroskedasticity)- und GARCH (Generalized ARCH)-Modellen analysiert, auf
die hier nicht weiter eingegangen wird. Dies gilt auch für die verschiedenen Methoden der
deskriptiven Prognose von Zeitreihen (bspw. gleitende Durchschnitte, exponentielle Glät-
tung) sowie weiterführende Verfahren wie die Spektralanalyse. Letztere haben – ebenso
wie die GARCH-Methoden – häufig einen komplexen mathematischen Background.
Für die Einschätzung der Güte von Prognosen, d. h. ihrer Fähigkeit, die tatsächliche
zukünftige Entwicklung aufzudecken, existiert eine Vielzahl von Kriterien. Kennedy
(2008, S. 331–344) enthält eine kurze zusammenfassende Übersicht. Die Website http://
forecastingprinciples.com/ verschafft einen recht breiten Überblick über die Verfahren,
enthält praktische Checklisten für die Durchführung von Prognosen und verweist auf vor-
handene Datenbanken.
Allerdings ist nicht sicher, dass erstens univariate ARIMA-Modelle verlässlichere Pro-
gnosen als klassische multiple Regressionen von Zeitreihen liefern, und zweitens, dass
eine maschinengesteuerte Identifikation optimaler Modelle besser als die von Experten/
Fachleuten entworfenen Spezifikationen ausfällt (Petropoulos et al. 2018).
Gut geeignete allgemeine Einführungen mit ökonomischer Ausrichtung bieten Hill

et al. (2008, S. 346–375), Stock und Watson (2015, S. 568–622) sowie Wooldridge (2016,
S. 586–598). Hanke und Wichern (2014) konzentrieren sich auf betriebswirtschaftliche
Anwendungen. Eine aktuelle nicht mathematische und gut lesbare Übersicht gibt Castle
et al. (2019). Ausführlichere spezialisierte Darstellungen enthalten Becketti (2013) und
mit Fokus auf den Finanzmärkten Boffelli und Urga (2016).
3.8.2 Langfristige Zusammenhänge
Im Abschn. 3.6.2 haben wir das Problem der Scheinkorrelation von Variablen aufgrund
von Trends erläutert, die inhaltlich sinnlos sind. Es gibt aber andererseits Fälle, in denen
zwei oder mehr Variablen gerade aus inhaltlichen Überlegungen einen gemeinsamen
Trend besitzen. Wenn die ökonomische Theorie einen solchen Zusammenhang nahelegt,
sollte es möglich sein, diesen empirisch zu überprüfen und ihn von einer Scheinkorrela-
tion zu unterscheiden. Ein Beispiel ist die Beziehung zwischen dem Wechselkurs und dem
Preisniveau zweier Länder. Nach der Kaufkraftparitätentheorie des Wechselkurses exis-
tiert folgender Zusammenhang:37
Wt = Pt / P ∗t (3.35)
Dabei gelten folgende Definitionen: Wt = Wechselkurs, Pt = inländisches Preisniveau,

P*t = ausländisches Preisniveau, jeweils zum Zeitpunkt t. Kurzfristig existieren (stärkere)
Abweichungen von diesem Zusammenhang, etwa aufgrund von Kapitalbewegungen wegen
Zinsunterschieden oder Erwartungen. Langfristig gibt es aber Mechanismen, die in Rich-
tung einer Herstellung der Kaufkraftparität wirken. Dies gilt auch, wenn jede einzelne Vari-
able einen Random Walk darstellt. Ist eine solche langfristige Relation zwischen der Preis-
niveaurelation und dem Wechselkurs gegeben, werden diese Variablen einen gemeinsamen
stochastischen Trend aufweisen (Common Stochastic Trend). Dann bezeichnet man diese
Variablen als kointegriert. Bei der empirischen Fundierung theoretischer Modelle, die an-
dauernde Abhängigkeiten postulieren, steht daher die mögliche Kointegration von Zeitrei-
hen mehrerer Variablen im Fokus. Anwendungsbeispiele existieren vor allem in der Makro-
ökonomie. Die langfristige Beziehung von Geldmenge und Inflation sowie Staatsverschuldung
und Wachstum des BIP sind dafür Beispiele. Sie finden sich aber auch in anderen Gebieten
der Sozialwissenschaften – etwa hinsichtlich der Verteidigungsausgaben der USA und der
UdSSR von 1950 bis 1990 (Pickup 2015, S. 179–191).
Für eine Überprüfung solcher langfristigen Beziehungen ist die oben erläuterte Bildung
erster Differenzen nicht sinnvoll. Erste Differenzen sind kurzfristige Veränderungen, lang-
fristige Zusammenhänge werden eliminiert, und um die geht es uns ja bei der Überprüfung
37
Genauer gesagt, ist dies nur für Veränderungen des Wechselkurses richtig, da wegen Transport-
kosten und nicht handelbarer Güter die Kaufkraftparitätentheorie nur bedingt Gültigkeit besitzt.
der Kointegration. Im Beispiel der Wechselkurse weisen die Differenzen der Preisniveau-
relationen einerseits und der Wechselkursentwicklung andererseits u. U. auf Monats-,
Quartals- oder auch Jahresebene keinen Zusammenhang auf, während längerfristig eine
gemeinsame Tendenz existiert. Abweichungen von diesem längerfristigen Zusammen-
hang werden sozusagen als „Fehler“ aufgefasst, die jeweils kurzfristige Anpassungspro-
zesse auslösen. Dies erklärt den Begriff Fehlerkorrekturmodelle (Error Correction
Models – ECM).
Der ursprüngliche Ansatz des ECM (das Engle-Granger-Verfahren) weist eine Reihe
von Beschränkungen auf. Es bezieht sich u. a. auf lediglich zwei Variablen, von denen
eine die unabhängige Variable darstellt. Diese Restriktionen werden in den Vektor-
Fehlerkorrekturmodellen (VECM – Vector Error Correction Model) aufgehoben
(Johansen-Verfahren). Hier sind die langfristigen Beziehungen vieler kointegrierter Vari-
ablen analysierbar. Die Methoden werden ausführlicher von Enders (2014, S. 272–355)
und Vance et al. (2013, S. 662–711) behandelt.
Geht man – wie in allgemeinen Gleichgewichtsmodellen – davon aus, dass mehrere
Variablen existieren, die sich alle wechselseitig beeinflussen, gelangt man zu Verfahren
der sogenannten Vektorautoregression (VAR), die hier ebenfalls nicht behandelt werden.
Gujarati (2015, S. 310–319) sowie Stock und Watson (2015, S. 684–689) enthalten dazu
kurze Einführungen.
Die statistische Auswertung von Zeitreihen ist ein eigenständiges Spezialgebiet inner-
halb der Ökonometrie mit hohem mathematischem Anspruch. Hierzu existiert eine um-
fangreiche Literatur (siehe generell: Kirchgässner et al. 2014; Enders 2014 und speziell
für Finanzmarktanalysen: Tsay 2010; Chan 2002). Einschlägige Lehrbücher mit einem
Schwerpunkt auf ökonomischen Prognosen sind Franses et al. (2014) sowie Hyndman und
Athanasopoulos (2018).
Eine verständliche Einführung mit ökonomischen und politikwissenschaftlichen Bei-
spielen stellt Pickup (2015) dar. Box-Steffensmeier et al. (2014) behandeln ebenfalls so-
zialwissenschaftliche Anwendungen außerhalb der Ökonomie.
SPSS
Eingesetzt wird der Datensatz „Arbeitslosenquote_D_2005-2019.sav“, der die monatli-
chen Arbeitslosenquoten in Deutschland vom Januar 2005 bis zum Januar 2019 enthält.
Lags und Leads der Variablen bilden wir in SPSS über die Menüsteuerung mittels [Trans-
formieren > Werte verschieben …]. Es ergibt sich die Menüoberfläche der Abb. 3.18. Um
den Lag erster Ordnung der Arbeitslosenquote zu erhalten, kommt diese Variable in das
rechte Feld. Im Feld „Name“ geben wir (frei wählbar) bspw. die Bezeichnung Arbeitslo-
senquote_L1 ein. Unter „Methode“ wählen wir Lags oder Leads und bei „Anzahl an zu
verschiebenden Fällen“ die Ordnung unseres Lags (hier: 1).
Abb. 3.18 Bildung von Lags und Leads
Analog können wir Lags und Leads zweiter (und höherer) Ordnung bilden, indem wir
bei „Anzahl der zu verschiebenden Fälle“ 2 (bzw. höhere Werte) eintragen.
Lags und Leads (letztere werden dort als „Vorlauf“ bezeichnet) erhalten wir alternativ
auch über [Transformieren > Zeitreihen erstellen …]. Außerdem lassen sich in dieser Pro-
zedur erste Differenzen und gleitende Durchschnitte berechnen.
Die Autokorrelationsfunktion der Variable Arbeitslosenquote generieren wir über
[Analysieren > Vorhersage > Autokorrelationen …]. Es erscheint die Oberfläche der
Abb. 3.19. Dort befördern wir die Arbeitslosenquote (wie zu sehen ist) in das Feld „Va-
riablen“.
Nach Drücken von „Optionen“ kann die Zahl der Lags, die untersucht werden sollen,
eingestellt werden. Hier beschränken wir uns auf die ersten 20 Lags. Durch Einsatz des
Buttons „OK“ erhalten wir die ACF und die PACF. Abb. 3.20 zeigt die Resultate in
Auszügen.
Zur Überprüfung der Signifikanz der Autokorrelationen führt SPSS automatisch den
Ljung-Box-Test durch (SPSS bezeichnet diesen Test als Box-Ljung-Statistik). Wir sehen,
dass die Autokorrelationen der Variablen Arbeitslosenquote sehr hoch sind (bspw. erster
Lag: 0,965; zweiter Lag: 0,916), nur sehr langsam abnehmen und bis einschließlich des
20. Lags (mehr hatten wir nicht angefordert) hoch signifikant sind. Die hohe Persistenz der
Arbeitslosigkeit in Abb. 3.3 wird also auch in den hohen positiven und signifikanten Auto-
korrelationen deutlich.
Abb. 3.19 Autokorrelation und partielle Autokorrelation
Relevant ist aber unter statistischen Aspekten nur, ob die Residuen einer Schätzung
autokorreliert sind. Dazu spezifizieren wir als Ausgangspunkt ein simples Modell, bei
dem die Arbeitslosigkeit linear von der Zeit abhängt. Die Variable Zeit hat im Januar 2005
den Wert 1 und im Januar 2019 den Wert 169. Dies zielt darauf ab, den sinkenden Trend, der
in Abb. 3.3 sichtbar ist, zu modellieren. Menügesteuert gehen wir über [Analysieren >
Regression > Linear] und spezifizieren Arbeitslosenquote als abhängige und Zeit als un-
abhängige Variablen. Das Regressionsergebnis des Modell_1 enthält Abb. 3.21. Der trend-
mäßige Rückgang der Arbeitslosenquote wird im geschätzten hoch signifikanten Koeffizi-
enten der Variable Zeit von −0,034 deutlich.
Die Residuen des Modell_1 erhalten und speichern wir wie in Abb. 3.22 links bzw.
rechts gezeigt. In der Menüoberfläche „Lineare Regression“ spezifizieren wir das Mo-
dell_1 und drücken auf „Speichern“. Es erscheint das Menü „Lineare Regression Spei-
chern“, bei dem wir rechts oben ein Häkchen im Feld „Residuen“ bei „Nicht standardi-
siert“ setzen.
Nach „Weiter“ und dann „OK“ werden die Residuen unter dem Namen „Unstandar
dized residual [RES_1]“ als neue Variable dem Datensatz hinzugefügt. Diese Residuen
untersuchen wir, wie oben beschrieben, mittels [Analysieren > Vorhersage > Autokorrela-
tion] und dann Aufrufen der neuen Variable „Unstandardized Residual [RES_1]“. Nach
Drücken des Buttons „Optionen“ (siehe Abb. 3.23) setzen wir die maximale Anzahl von
Lags, die analysiert werden, auf den Wert 40 und wählen die Methode „Bartlett-
Approximation“.
Abb. 3.24 beschränkt sich darauf, vom resultierenden Output die ACF und die PACF
darzustellen.
Abb. 3.20 Autokorrelationen der Arbeitslosenquote
Die ACF und die PACF entsprechen den Abb. 3.9 und 3.10 oben, allerdings hier im
Standardlayout der Grafiken von SPSS. Die dazugehörigen Erklärungen des Abschn. 3.4.2
werden hier nicht noch einmal wiederholt. Neben diesen Abbildungen enthält der
SPSS-Output in Tabellenform die Werte der Autokorrelationen und partiellen Autokorre-
lationen bis zum von uns gewählten 40. Lag (auf die Wiedergabe wird hier verzichtet). Der
Koeffizientena
Standardisierte
Nicht standardisierte Koeffizienten Koeffizienten
Regressions-
Modell koeffizientB Std.-Fehler Beta T Sig.
1 (Konstante) 10,477 ,123 85,028 ,000
Zeit -,034 ,001 -,904 -27,368 ,000
a. Abhängige Variable: Arbeitslosenquote aller zivilen Erwerbspersonen in %
Abb. 3.21 Modell_1 Arbeitslosenquote
Abb. 3.22 Speichern der Residuen des Modell_1
Ljung-Box-Test der Autokorrelationen bestätigt noch einmal die Resultate der Testver-
fahren der Tab. 3.1.
Das Modell_1 weist eindeutig Autokorrelation der Residuen auf. Wir unterstellen aber
vereinfachend, dass dieses Modell richtig spezifiziert ist. Da es sich nicht um ein autore-
gressives Modell handelt, können wir dann dem Problem durch FGLS-Verfahren oder die
robusten Standardfehler nach Newey-West begegnen.
In SPSS sind die Newey-West-Schätzer der Standardfehler nicht verfügbar.38 Urban/
Mayerl beschreiben ein Vorgehen mittels zweistufigem OLS-Verfahren (2018, S. 292–297).
Dies entspricht prinzipiell der erwähnten FGLS-Methode. Darüber hinaus existiert in
SPSS die Prozedur AREG. Als Drop-down-Menü ist sie nur in den Modulen SPSS Fore-
38
Eine Option, um diese durchführen zu können, ist die Integration geeigneter Makros des Statistik-
programmpakets R in SPSS. Dies erläutert in allgemeiner Form IBM SPSS (2019a).
Abb. 3.23 Lags der Autokorrelationen
casting und SPSS Predictive Analytics implementiert.39 Sie enthält verschiedene O ptionen,
darunter die FGLS-Verfahren Cochrane-Orcutt und Prais-Winsten. Innerhalb von SPSS
Statistics 25 ist sie versteckt, und wir erhalten sie nur syntaxbasiert. Dazu rufen wir zu-
nächst über das Menü mittels [Datei > Neu > Syntax] den Syntaxeditor auf. Dort geben
wir folgende Befehlszeilen (ohne die Anführungszeichen) ein:
„AREG Arbeitslosenquote WITH Zeit
/METHOD=CO.“
Direkt am Ende nach dem Punkt drücken wir, um die Befehlsfolge auszuführen, auf das
grüne Dreieck, das sich oben direkt unter der Menüzeile befindet. Das Resultat sehen wir
in Abb. 3.25. Wird in der zweiten Befehlszeile „CO“ (dies steht für Cochrane-Orcutt) er-
setzt durch „PW“, erfolgt die Berechnung nach Prais-Winsten.
Im Vergleich zur einfachen OLS-Schätzung aus Abb. 3.21 sind der Einfluss der Zeit
geringer (Koeffizient: −0,028) und der t-Wert ebenfalls kleiner (t = −4,833).
Es ist aber klar, dass unser Modell_1 den tatsächlichen Verlauf der Arbeitslosenquote
aus Abb. 3.3 nur fehlerhaft abbildet, weil wichtige Charakteristika nicht erfasst werden.
Die Spezifikation wird daher im Modell_2 erweitert durch Aufnahme von Monatsdum-
39
Der IBM SPSS Support schreibt dazu: „The Cochrane-Orcutt method is available in the AREG
procedure. If you are running Release 14 through 18, you will only have access to the AREG proce-
dure if you previously had the Trends module licensed and have continued to do so. In Releases 14
and 15, AREG is accessible via the menus (Analyze > Time Series > Autoregression). In later re-
leases, it is available only through command syntax.“ (IBM SPSS 2016).
Abb. 3.24 ACF und PACF der Residuen Modell_1
mys. So kontrollieren wir die starken monatlichen (saisonalen) Schwankungen der Ar-
beitslosenquote.40 Das Resultat befindet sich (auszugsweise) in Abb. 3.26.
40
Zur Bildung von Dummyvariablen siehe Stoetzer (2017, Abschn. 3.6). Allgemein erfolgt die
Durchführung mittels [Transformieren > Berechnen > …]. Bspw. soll das Jahr 2008 als Jahr der
Finanzkrise (und insoweit Ausreißer) in Form einer Dummyvariable gesondert berücksichtigt wer-
den. Wir geben links oben im Feld „Zielvariable“ den von uns frei wählbaren Namen der Ausprä-
Abb. 3.25 FGLS (Cochrane-Orcutt)-Verfahren
Die Monate Mai bis einschließlich Dezember weisen im Vergleich zum Referenzmonat
Januar eine signifikant geringere Arbeitslosenquote auf. Nur der Monat August unter-
schreitet das Signifikanzniveau von 5 % gerade nicht mehr.
Die Residuen des Modell_2 speichern wir, wie oben bereits für Modell_1 beschrieben.
SPSS vergibt ihnen automatisch den Namen RES_2. Für die Variable RES_2 analysieren
wir die Autokorrelation und partielle Autokorrelation entsprechend dem Verfahren bei der
Variable RES_1. Der einfache Durbin-Watson-Test auf Autokorrelation erster Ordnung
kann mittels [Analysieren > Regression > Linear] im Feld „Statistiken“ durch ein Häk-
chen bei „Durbin-Watson“ direkt mit der Regression aufgerufen werden. Er steht dann im
Output unter „Modellzusammenfassung“ ganz rechts. Für das Modell_2 beträgt er 0,022.
Es liegt also extrem starke positive Autokorrelation erster Ordnung vor. Die Autokorrela-
tionsfunktion und die partielle Autokorrelationsfunktion verdeutlichen dies – bis zum ge-
wählten 40. Lag – grafisch (siehe Abb. 3.27).
Die ACF macht deutlich, dass saisonale Schwankungen der Arbeitslosenquote nicht
mehr vorhanden sind. Nach wie vor existiert aber eine starke positive Autokorrelation des
ersten bis ca. zwölften Lags. Die PACF weist relevante partielle Autokorrelationsbezie-
hungen erster und deutlich kleiner zweiter Ordnung nach. Die Ljung-Box-Tests der Auto-
gung ein, hier also „Finanzkrise“. Dann tippen wir rechts im Feld „Numerischer Ausdruck“ die
Berechnungsvorschrift für diese neue Variable ein. Wenn die Jahre als Variable „Year“ in unserem
Datensatz numerisch kodiert sind also: „Year = 2008“. Nach klicken des Buttons „OK“ fügt SPSS
rechts an den Datensatz die neue Variable Finanzkrise an. Diese hat im Jahr 2008 den Wert 1 und in
allen anderen Jahren den Wert 0.
ANOVAa
Quadrat- Mittel der
Modell summe df Quadrate F Sig.
1 Regression 496,247 12 41,354 74,896 ,000b
Nicht standardisierte 86,135 156 ,552
Residuen
Gesamt 582,382 168
Koeffizientena
Nicht standardisierte Standardisierte
Koeffizienten Koeffizienten
Regressions-
Modell koeffizientB Std.-Fehler Beta T Sig.
1 (Konstante) 10,976 ,216 50,754 ,000
Zeit -,034 ,001 -,895 -29,022 ,000
Februar ,050 ,276 ,007 ,180 ,858
März -,088 ,276 -,013 -,318 ,751
April -,325 ,276 -,048 -1,177 ,241
Mai -,605 ,276 -,090 -2,192 ,030
Juni -,750 ,276 -,111 -2,715 ,007
Juli -,609 ,276 -,090 -2,204 ,029
August -,546 ,276 -,081 -1,977 ,050
September -,805 ,276 -,119 -2,914 ,004
Oktober -,928 ,276 -,138 -3,360 ,001
November -,972 ,276 -,144 -3,521 ,001
Dezember -,795 ,276 -,118 -2,880 ,005
Abb. 3.26 Regression Modell_2
korrelationen bestätigen diese Struktur der Residuen. Sie befinden sich (nur für einige
Lags abgebildet) im unteren Teil der Abb. 3.27.
Da der Newey-West-Schätzer in SPSS nicht verfügbar ist, setzen wir erneut den
FGLS-Schätzer ein – diesmal in der Prais-Winsten-Variante. Dies erfolgt wieder über den
Syntax-Editor mittels:
Nicht standardisierte Residuen
Nicht standardisierte Residuen
Autokorrelationen
Zeitreihe: Nicht standardisierte Residuen
Box-Ljung-Statistik
Lag Autokorrelation Std.-Fehlera Wert df Sig.b
1 ,978 ,077 164,676 1 ,000
2 ,941 ,131 317,938 2 ,000
3 ,897 ,167 457,870 3 ,000
4 ,855 ,193 585,887 4 ,000
5 ,815 ,214 702,801 5 ,000
…
39 −,126 ,318 1440,720 39 ,000
40 −,122 ,318 1444,044 40 ,000
Abb. 3.27 ACF und PACF des Modell_2

Standardisierte
B Std.-Fehler Beta t Sig.
Zeit -,041 ,006 -,186 -6,434 ,000
Februar ,063 ,027 ,091 2,323 ,021
März -,067 ,037 -,096 -1,829 ,069
April -,297 ,042 -,428 -6,987 ,000
Mai -,569 ,046 -,821 -12,316 ,000
Juni -,706 ,048 -1,019 -14,609 ,000
Juli -,558 ,049 -,804 -11,370 ,000
August -,487 ,048 -,703 -10,078 ,000
September -,738 ,046 -1,065 -15,972 ,000
Oktober -,854 ,042 -1,231 -20,106 ,000
November -,891 ,037 -1,284 -24,368 ,000
Dezember -,706 ,027 -1,018 -26,046 ,000
(Konstante) 12,035 ,935 12,877 ,000
Es wird das Prais-Winsten-Schätzverfahren verwendet.
Abb. 3.28 Prais-Winsten-Schätzung
„AREG Arbeitslosenquote WITH Zeit Februar März April Mai Juni Juli August Sep-
tember Oktober November Dezember
/METHOD=PW.“
Dann drücken wir auf das grüne Dreieck unter der Menüzeile. Abb. 3.28 enthält die
Schätzresultate für die Koeffizienten.
Der Einfluss der Variable Zeit ist im Vergleich zur OLS-Schätzung größer (−0,041) und
der dazugehörige t-Wert kleiner. Alle Monate ab April bis einschließlich Dezember zeich-
nen sich gegenüber dem Januar durch eine signifikant geringere Arbeitslosenquote aus.
Dies ist bei der OLS-Schätzung der Abb. 3.26 etwas anders.
Allerdings sind die Residuen des Modell_2 immer noch von sehr starker Autokorrela-
tion gekennzeichnet. Der Verlauf der ACF veranschaulicht eine hohe Persistenz der Ar-
beitslosenquote. Die partielle Autokorrelationsfunktion des Modell_2 lässt vermuten, dass
jetzt nur noch Autokorrelationen erster und zweiter Ordnung relevant sind. Wir modellie-
ren diese durch die zusätzliche Aufnahme des Lags erster und zweiter Ordnung der Varia
blen Arbeitslosenquote in unsere Regressionsgleichung. Wie diese Lags gebildet werden,
war am Anfang dieses Abschnitts zu SPSS gezeigt worden. Das heißt, wir spezifizieren als
Modell_3 ein dynamisches AR(2)-Modell. Abb. 3.29 enthält die Schätzung.
Modellzusammenfassungb
Korrigiertes R2- Standardfehler Durbin-Watson-
2
Modell R R -Quadrat Quadrat des Schätzers Statistik
1 ,999a ,998 ,998 ,08581 2,008
Quadrat- Mittel der

Modell summe df Quadrate F Sig.
1 Regression 531,632 14 37,974 5156,885 ,000b
Residuen
Gesamt 532,751 166
b. Einflussvariablen : (Konstante), Lag(Arbeitslosenquote,2), Juli, Oktober, September, Februar, Juni,
August, November, Mai, Dezember, März, April, Zeit, Lag(Arbeitslosenquote,1)

Regressionsko
Modell effizientB Std.-Fehler Beta T Sig.
1 (Konstante) ,869 ,099 8,765 ,000
Zeit -,001 ,000 -,020 -2,093 ,038
Februar -,894 ,050 -,134 -17,871 ,000
März -,755 ,034 -,117 -21,977 ,000
April -,773 ,039 -,120 -19,685 ,000
Mai -,778 ,043 -,121 -18,083 ,000
Juni -,631 ,045 -,098 -14,086 ,000
Juli -,410 ,039 -,064 -10,521 ,000
August -,613 ,033 -,095 -18,826 ,000
September -,898 ,033 -,139 -26,877 ,000
Oktober -,626 ,044 -,097 -14,274 ,000
November -,612 ,038 -,095 -15,976 ,000
Dezember -,427 ,036 -,066 -11,936 ,000
Lag(Arbeitslosenquote,1) 1,419 ,069 1,448 20,683 ,000
Lag(Arbeitslosenquote,2) -,448 ,068 -,463 -6,596 ,000
Abb. 3.29 Autoregressive Spezifikation Modell_3

Abb. 3.30 ACF und PACF des Modell_3

Die ACF und die PACF für die ersten 40 Lags befinden sich in Abb. 3.30, ebenso die
Ljung-Box-Tests (in verkürzter Form).
Die ACF und die PACF weisen keine erkennbaren Muster mehr auf, die Ljung-Box-
Tests und auch der Durbin-Watson-d-Test bestätigen, dass Autokorrelation nicht existiert,
bzw. wenn, dann nur noch zufällig vorhanden ist.
In diesem Beispiel ist offensichtlich, dass Modell_3 die „beste“ der drei behandelten
Regressionen darstellt. Die folgenden Ausführungen illustrieren daher nur das prinzipielle
Vorgehen. Um das relativ geeignetste unter mehreren Modellen zu identifizieren, werden
in der Literatur neben dem korrigierten R2 üblicherweise Informationskriterien benutzt.
Unter den vielen existierenden Varianten von Informationskriterien haben das Akaike In-
formation Criterion (AIC) und das Schwarz Information Criterion (SIC) die weiteste Ver-
breitung. In SPSS ist innerhalb der Prozedur [Analysieren > Regression > Linear] nur das
korrigierte R2 verfügbar und wird dort automatisch in der Modellzusammenfassung an-
gegeben. Es beträgt 0,817 im Modell_1, im Model_2 hat es den Wert 0,841 und im Mo-
dell_3 liegt es bei 0,998.
Das AIC kann in SPSS über die Prozedur [Analysieren > Regression > Automatische
lineare Modellierung] ermittelt werden. Allerdings ist der der Aufbau und die Anwendung
dieser Prozedur recht komplex und unterscheidet sich erheblich von der einfachen Regres-
sion. Einen praktischen Einstieg vermitteln Oshima und Dell-Ross (2016) und IBM SPSS
(2019b, S. Kap. 15). Das AIC und das BIC sind auch im Rahmen der Prognoseverfahren
in SPSS verfügbar. Dies wird unten bei der Darstellung der ARIMA-Schätzung erläutert.
Für die Analyse von Zeitreihen ist es notwendig, dass die Variablen stationär sind. Der
Verlauf der Arbeitslosenquote besitzt aber mit Sicherheit einen Trend. Darüber hinaus darf
auch kein Random-Walk-Prozess (stochastischer Trend) vorliegen. Der zur Überprüfung
gängige Augmented Dickey-Fuller-Test (= ADF-Test) ist in SPSS nicht implementiert.
Nur über eine Erweiterung mittels des Statistikprogrammpakets R sind der ADF-Test und
andere Tests auf Stationarität verfügbar.
Um den offensichtlichen deterministischen Trend zu beseitigen, haben wir ihn in
Modell_1 bis Modell_3 durch Aufnahme der Variable Zeit modelliert. Eine andere Vor-
gehensweise, um den Trend zu eliminieren, besteht darin, die ersten Differenzen der Va-
riable Arbeitslosenquote zu bilden. Dies erfolgt menügesteuert mittels [Transformie-
ren > Zeitreihen erstellen …]. Es erscheint die Oberfläche der Abb. 3.31. In dieser
befördern wir die Variable Arbeitslosenquote in das Feld „Variable -> Neuer Name“. Unter
„Funktion:“ wählen wir „Differenz“, und bei „Reihenfolge“ setzen wir „1“, da die erste
Differenz gebildet werden soll. Unter „Name“ können wir eine Bezeichnung selbst vor-
geben. Hier bspw. „Arbeit_1.Diff“, und nach Drücken des Buttons „Ändern“ wird dieser
Name oben im Feld „Variable -> Neuer Name“ eingefügt. Intern bezeichnet SPSS diese
Variable als „DIFF(Arbeitslosenquote 1)“.
Nach drücken von „OK“ wird die erste Differenz der Arbeitslosenquote berechnet und
als neue Variable dem Datensatz rechts hinzugefügt. Diese neue Variable soll grafisch dar-
gestellt werden. Dazu wird über [Grafik > Diagrammerstellung] die Oberfläche der
Abb. 3.32 aufgerufen.
Abb. 3.31 Bildung erster Differenzen
Abb. 3.32 Grafik der ersten Differenzen

Abb. 3.33 Erste Differenzen der Arbeitslosenquote
Unten links wählen wir unter dem Reiter „Galerie“ die Option „Linie“ und ziehen diese
in das weiße Feld „Diagrammvorschau verwendet Beispieldaten“. Dann ziehen wir die
Variable DIFF(Arbeitslosenquote,1) auf die y-Achse und die Variable Zeit auf die x-Achse.
Nach Drücken von „OK“ erscheint die Grafik der Abb. 3.33.
Sie entspricht der Abb. 3.17 – allerdings im Layout von SPSS. Auch für die erste Dif-
ferenz der Arbeitslosenquote ist zu prüfen, ob Stationarität vorliegt. Die visuelle Inspek-
tion (als Ersatz für die in SPSS fehlenden üblichen Tests) zeigt, dass der Trend beseitigt
ist, aber die saisonale Komponente in der Spezifikation berücksichtigt werden muss.
Eventuell vorhandene Strukturbrüche lassen sich mittels der Einfügung von Dummy-
variablen für Zeiträume vor (Dummyvariable = 0) und nach dem vermuteten Struktur-
bruch (Dummyvariable = 1) analysieren. Auf nähere Ausführungen wird hier verzichtet.
Der Chow-Test ist – wie andere Strukturbruchtests – ebenfalls in SPSS nicht als Prozedur
implementiert. Anleitungen für die syntaxbasierte Durchführung solcher Testverfahren
mittels SPSS finden sich im Internet (SPSStools 2019; Chan 2012).
Eine andere Möglichkeit der Analyse – insbesondere für Prognosen – ist die Spezifika-
tion eines ARIMA-Modells. Die Prozedur setzt aber voraus, dass die Zeitreihe als Datum
gekennzeichnet ist. Dies erfolgt über [Datum > Datum und Uhrzeit definieren]. Dort
definieren wir für die Variable Arbeitslosenquote, dass der erste Fall, d. h. die erste Beob-
achtung, dem ersten Monat im Jahr 2005 entspricht (siehe Abb. 3.34).
Offensichtlich ist, dass unsere Arbeitslosenquote einen Trend aufweist – also nicht sta-
tionär ist. Durch Bildung der ersten Differenzen wird zunächst dieser Trend beseitigt, um
so eine stationäre Datenreihe zu erhalten. Dies war weiter oben schon durchgeführt wor-
den. Um die Lags des AR- und des MA-Teils zu bestimmen, betrachten wir wie oben be-
schrieben die ACF und PACF dieser Datenreihe. Das Ergebnis illustriert Abb. 3.35.
Abb. 3.34 Definition des

Datums einer Zeitreihe
Lag-Nummer Lag-Nummer
Abb. 3.35 ACF und PACF der ersten Differenzen
Anschließend wird menügesteuert mittels [Analysieren > Vorhersage > Traditionelle

Modelle erstellen] die Zeitreihenmodellierung aufgerufen.41 Wie Abb. 3.36 links verdeut-
licht, platzieren wir die Variable Arbeitslosenquote im Feld „Abhängige Variablen“ und
unter „Methode“ wählen wir „ARIMA“. Geschätzt wird ein ARIMA(p,d,q)-Modell in der
konkreten Form ARIMA(2,1,0). Der lineare Trend wird durch Bildung erster Differenzen
(d = 1) beseitigt, und (stark vereinfachend) schließen wir aus der PACF der Abb. 3.35, dass
ein AR(2)-Prozess vorliegt (d. h. p = 2). Für den MA-Teil unterstellen wir q = 0.
41
In der Version IBM SPSS 25. In der Version 22 mittels [Analysieren > Vorhersage > Modelle er-
stellen]. Syntaxbasiert werden mittels der folgenden vier nacheinander aufzurufenden Befehle zu-
nächst die Zahl der neu von SPSS anzulegenden Variablen auf 8 gesetzt, dann bspw. das ARI-
MA(2,1,0)-Modell geschätzt und schließlich erst die ACF und dann die PACF der Residuen dieses
Modells generiert: „TSET /MXNEWVARS=8. ARIMA Arbeitslosenquote /MODEL=(2 1 0). ACF /
VARIABLES=ERR_1. PACF /VARIABLES=ERR_1.“.
Abb. 3.36 ARIMA(2,1,0)-Modellierung 1
Anschließend erscheint nach Drücken des Buttons „Kriterien“ der rechte Teil der
Abb. 3.36. Hier tragen wir in der Spalte „Nicht saisonal“ für den autoregressiven Teil p
den Wert 2 und für den Differenzteil d den Wert 1 ein. Für den gleitenden Durchschnitt
(= MA-Teil) behalten wir die Voreinstellung 0 bei. Danach gehen wir im linken Teil der
Abb. 3.36 auf den Reiter „Statistik“ und nehmen dort die in Abb. 3.37 links deutlichen
zusätzlichen Einstellungen vor. Das heißt, es werden Häkchen im Feld „Statistik nach
einzelnen Modellen“ bei „Residuen-Autokorrelationsfunktion (ACF)“ und bei „Part. Re-
siduen Autokorrelationsfunktion (PACF)“ gesetzt.
Dann aktivieren wir den Reiter „Diagramme“ (siehe Abb. 3.37 rechts). Dort fügen
wir Häkchen bei „Residuen-Autokorrelationsfunktion (ACF)“ und bei „Part. Residuen-
Autokorrelationsfunktion“ ein. Wenn wir die Residuen dieses Modells speichern wollen,
geschieht dies unter dem Reiter „Speichern“ und dort mit einem Häkchen bei „Restrau-
schen“ (siehe Abb. 3.38). SPSS fügt dann rechts in unserem Datensatz eine Spalte der
Residuen unter dem Namen „ResRauschen_Arbeitslosenquote“ hinzu.
Ansonsten werden die Voreinstellungen beibehalten. Durch Drücken auf „OK“ (bzw.
„Weiter“ und dann „OK“) wird das ARIMA(2,1,0)-Modell geschätzt.
Das Resultat ist ein umfangreicher Output, der hier nur kurz erläutert wird. Abb. 3.39
beschränkt sich auf die Wiedergabe der Koeffizientenschätzungen (AR(1) und AR(2)-
Lags) sowie die ACF und PACF der Residuen.
Die Koeffizienten des ersten und zweiten Lags sind beide auf dem 1-%-Niveau signi-
fikant. Das Modell ist insoweit geeignet, die Entwicklung der Arbeitslosenquote im Be-
obachtungszeitraum zu erklären. Aber schon die visuelle Inspektion der ACF und der
PACF der Residuen zeigt saisonale Regelmäßigkeiten, die im Modell berücksichtigt wer-
den müssen. Die Lags vierter, achter sowie zwölfter Ordnung sind signifikant, wobei au-
ßerdem der zwölfte Lag bei ACF und PACF einen sehr hohen positiven Wert besitzt. Dies
bestätigt auch der nicht abgebildete Ljung-Box-Test, der die Nullhypothese eines weißen
Rauschens der Residuen verwirft (Statistik: 179,691; Sig.: 0,000).42 Allerdings war schon
aufgrund der Abb. 3.35 abzusehen, dass eine saisonale Struktur vorliegt, die durch auto-
regressive Lags erster und zweiter Ordnung nicht erfasst wird.
Zum Vergleich siehe unten die Resultate des ARIMA_1-Modells in Stata.

42
Abb. 3.39 ARIMA(2,1,0)-Modell-Ergebnisse
Im nächsten Schritt berücksichtigen wir daher die saisonalen Unterschiede in der Ar-
beitslosenquote. Unter Zeitreihenmodellierung im Reiter „Variablen“ (so wie bereits in
Abb. 3.36) klicken wir den Button „Kriterien“, und es öffnet sich das Fenster „Zeitreihen-
modellierung: ARIMA-Kriterien“. Dort geben wir die Struktur des neuen Modells wie in
Abb. 3.40 gezeigt ein. Unverändert belassen wir es in der Spalte „Nicht saisonal“ bei
p = 2, d = 1 und q = 0. In der Spalte „Saisonal“ geben wir den Wert 1 in der Zeile „Diffe-
renz(d)“ ein. Dies funktioniert, weil SPSS von uns eingangs bei der Definition des Datums
informiert worden ist, dass die saisonale Struktur zwölf Monate umfasst (siehe in Abb. 3.40
rechts: „Aktuelle Periodizität: 12“). Wenn wir hier den Wert 1 eingeben, bildet es auto-
matisch die saisonale Differenz. Das heißt, es zieht von der Arbeitslosenquote eines Mo-
nats den Wert des entsprechenden Vorjahresmonats ab.
Die Schätzresultate enthält Abb. 3.41 in Auszügen.
Die ACF und PACF der Residuen dieses Modells weisen jetzt im Wesentlichen nur
noch ein weißes Rauschen auf. Entsprechend lehnt der Ljung-Box-Test die Nullhypothese
„Es liegt weißes Rauschen vor“ nicht ab (Statistik: 13,761, Sig.: 0,616).
In der Praxis würde die Suche nach einem „optimalen“ Modell eventuell weiter fort-
gesetzt. Dafür spricht, dass die Residuen der Abb. 3.41 beim 24. Lag für die ACF und die
PACF signifikant von 0 verschieden sind. Außerdem korrespondiert der 24. Lag inhaltlich
mit der Zwölfmonatsperiodizität. Dies ist ein Indiz, dass noch Strukturen in der Daten-
Abb. 3.40 ARIMA(2,1,0)(0,1,0)-Modell
Abb. 3.41 Ergebnisse ARIMA(2,1,0)(0,1,0)-Modell

reihe vorhanden sind, die wir in unserer Modellierung nicht erfasst haben. Wir verzichten
hier aber auf eine weitere Analyse.
Zum Vergleich unserer beiden Modelle bzw. überhaupt verschiedener ARIMA-Modelle
zieht man häufig das AIC und das BIC heran. Das AIC ist in der von uns eingesetzten
Prozedur [Analysieren > Vorhersage > Traditionelle Modelle erstellen] nicht verfügbar.43
In Abb. 3.37 links unter dem Reiter „Statistik“ im Feld „Anpassungsmaße“ können ver-
schiedene Maße zur Abschätzung des Modellfits aufgerufen werden. Das BIC berechnet
SPSS in der Variante des normalisierten BIC. Es wird in der Voreinstellung automatisch
(auch wenn unter „Anpassungsmaße kein Häkchen gesetzt wird“) zusammen mit einer
ganzen Reihe anderer Werte zur Beurteilung des Modellfits berechnet. Es findet sich im
Output unter „Anpassungsgüte des Modells“ in der letzten Zeile unter der Bezeichnung
„Normalisiertes BIC“ (hier nicht abgebildet). Die Interpretation des normalisierten BIC
unterscheidet sich nicht vom gängigen BIC. Das kleinste BIC kennzeichnet das beste
Modell. Abb. 3.42 enthält das normalisierte BIC und das R2 unserer beiden ARIMA-
Spezifikationen.
Das „bessere“ zweite Modell verwenden wir für eine Prognose der Entwicklung der
Arbeitslosenquote für zwei weitere Jahre – also bis zum Januar 2021. Wir gehen dazu
noch einmal auf „Zeitreihenmodellierung“. Im Reiter „Diagramme“ wird im Feld „Dia-
gramme nach einzelnen Modellen“ ein Häkchen bei „Anpassungswerte“ gesetzt (siehe
Abb. 3.43 links). Den Begriff „Anpassungswerte“ benutzt SPSS für die geschätzten Werte
des Beobachtungszeitraums. Unter dem Reiter „Optionen“ aktivieren wir im Feld „Vor-
hersagewerte“ die Variante „Erster Fall nach der Schätzperiode bis zum angegebenen
Datum“. Direkt darunter wird im Feld „Datum“ bei „Jahr“ die Zahl 2021 und bei „Monat“
die Zahl 1 eingetragen.
Nach „OK“ führt SPSS die Prognose durch. Das Prognoseergebnis für den gewählten
Zeitraum enthält Abb. 3.44. Sie zeigt die Beobachtungswerte, die geschätzten Werte
unseres Modells für den Beobachtungszeitraum und die Prognosewerte für den Februar
2019 bis zum Januar 2021.
Es wird visuell deutlich, dass sich die geschätzten Werte von den Beobachtungen fast
nicht unterscheiden, was für die Güte des Modells spricht.
ARIMA(2,1,0)-Modell: Normalisiertes BIC: –3,862 R2: 0,982

ARIMA(2,1,0)(0,1,0)-Modell: Normalisiertes BIC: –4,595 R2: 0,996
Abb. 3.42 Vergleich Modellfit BIC und R2
Das AIC ist in der Version IBM SPSS 25 innerhalb der Prozedur [Analysieren > Vorhersage > Tem-
43
porale kausale Modelle erstellen] unter dem Reiter „Erstellungsoptionen“ und dann „Ausgabeoptio-
nen“ im Feld „Modellübergreifende Anpassungsgüte des Modells“ vorhanden. Dort kann ein Häk-
chen bei AIC ebenso wie bei BIC gesetzt werden.
Abb. 3.43 Schätzverfahren Prognose bis zum Januar 2021
Abb. 3.44 Ergebnis Prognose bis zum Januar 2021
Im nächsten Schritt erweitern wir die Analyse um zusätzliche unabhängige Variable,

d. h. wir spezifizieren ein ARMAX-Modell. Menügesteuert erfolgt dies wieder über [Ana-
lysieren > Vorhersage > Traditionelle Modelle erstellen] (bzw. in älteren SPSS-Versionen
mittels [Analysieren > Vorhersage > Modelle erstellen]). Abb. 3.45 links zeigt, dass wie
bisher als abhängige Variable die Arbeitslosenquote dient. Zusätzlich fügen wir im Feld
„Unabhängige Variablen“ die Variable Zeit und alle Monatsdummys (der Monate Februar
bis Dezember) ein. Unter „Methode“ wählen wir die Option „ARIMA“ und klicken an-
schließend auf den Button „Kriterien“. Es erscheint das Fenster „Zeitreihenmodellierung:
ARIMA-Kriterien“ der Abb. 3.45 rechts. Dort wird in der Spalte „Nicht saisonal“ und der
Zeile „Autoregression (p)“ der Wert 2 eingetragen. Durch die unabhängigen Variablen Zeit
und die Monatsdummys werden der Trend und die saisonalen Unterschiede berücksich-
Abb. 3.45 Spezifikation ARMAX-Modell
tigt, sodass keine weitere Differenzenbildung durchgeführt werden muss. Die Zeile „Dif-
ferenz (d)“ enthält daher nur Nullen. Aber wir gehen davon aus, dass die Monatsdummys
die monatlichen Schwankungen der Arbeitslosenquote nicht vollständig auffangen. Die
resultierenden Persistenzen der Fehler berücksichtigen wir durch einen saisonalen
MA(1)-Prozess. In der Zeile „Gleitender Durchschnitt (q)“ und der Spalte „Saisonal“ tra-
gen wir daher den Wert 1 ein.
Das Schätzergebnis dieses ARMAX (2,0,0)(0,0,1)-Modells findet sich in Abb. 3.46
(nur in Auszügen). Die unabhängigen Variablen Zeit sowie die Monatsdummys entspre-
chen inhaltlich dem Regressionsmodell der Abb. 3.26. Die Lags erster und zweiter Ord-
nung des AR(2)-Teils des Modells sind ebenso signifikant wie der saisonale MA(1)-Teil.
Der Ljung-Box-Test ergibt, dass für die Residuen die Nullhypothese „weißes Rauschen“
nicht abgelehnt wird (Statistik: 16,846; Signifikanz. 0,328). Dies wird in der ACF und der
PACF der Residuen deutlich (siehe Abb. 3.46 unterer Teil). Beide lassen keine Strukturen
mehr erkennen.
SPSS bietet unter [Analysieren > Vorhersage > Traditionelle Modelle erstellen] bei der
Zeitreihenmodellierung unter den Optionen bei „Methode“ (siehe Abb. 3.36 links) auch
das Verfahren „Expert Modeler“. Bei diesem Vorgehen ermittelt SPSS selbstständig das
„beste“ ARIMA-Modell. Da aber auch bei einem Blick in die Dokumentation nicht klar
ist, nach welchen Kriterien SPSS dabei vorgeht, wird auf eine Darstellung verzichtet.
Das Verfahren [Analysieren > Vorhersage > Temporale kausale Modelle erstellen]
ermöglicht die Überprüfung von Granger-kausalen Beziehungen. Die Eingabe und

Spezifikation dieser Prozedur weicht leider deutlich von den oben vorgestellten Schritten
ab. Daher wird auch von deren Erläuterung hier abgesehen.
Lehrbücher zum Einsatz von SPSS für die Analyse von Zeitreihen sind einführend Al-
jandali (2016) und zur Prognose insbesondere Aljandali (2017, S. Kap. 3). Ergänzend sind
Tabachnick und Fidell (2019, S. Kap. 17) hilfreich. Das Handbuch IBM SPSS Forecasting
25 (2017) vermittelt nur einige Aspekte, ohne einen kompletten Über- und Einblick zu
Abb. 3.46 Schätzergebnis ARMAX-Modell
gewähren. Die älteren SPSS-Dokumentationen (bis zur Version 21) enthalten dazu deut-
lich mehr Informationen und verständlichere Anleitungen.44
Stata
Wir verwenden den Datensatz „Arbeitslosenquote_D_2005-2019.dta“.45 Zunächst müssen
wir Stata mitteilen, dass es sich um einen Zeitreihendatensatz handelt. Bei reinen Zeitreihen
44
Auch diese sind aber vergleichsweise wenig nützlich. Die SPSS-Dokumentation der Version 25
zur Prognose bzw. Trendanalyse enthält 62 Seiten, und für die Version 20 existieren 114 Seiten. Die
Stata-Dokumentation (Release 15) zur Zeitreihenanalyse hat einen Umfang von 935 Seiten.
45
Es handelt sich um einen Datensatz ohne fehlende Werte, also ohne Lücken (Gaps). Der Umgang
mit solchen Lücken wird hier nicht weiter behandelt. In Stata existieren umfangreiche Möglichkei-
erfolgt dies über [Statistics > Time series > Setup and utilities > Declare dataset to be ti-

me-series data]. Als Ausgangspunkt schätzen wir das einfache Modell der Gl. (3.13). Dies
ist unser Modell_1. Die Vorgehensweise über die Menüsteuerung wird in Stoetzer (2017)
erklärt und hier nicht noch einmal wiederholt. In der ersten Zeile der Abb. 3.47 steht die
Befehlssyntax „regress Arbeitslosenquote Zeit“, die alternativ zur Menüsteuerung im Feld
„Command“ der Stata-Oberfläche eingegeben werden kann. Darunter sehen wir das Re-
gressionsergebnis.
Die Variable „Zeit“, d. h. der Index der Monate 1 bis 169, hat den erwarteten negativen
Einfluss. Er modelliert einen linearen Trend der abnehmenden Arbeitslosenquote im Be-
trachtungszeitraum.
Mittels [Statistics > Postestimation] erhalten wir das Feld „Postestimation Selector“.
Dazu müssen wir ganz nach unten scrollen. Dort gelangen wir über „Predictions and their
SEs, residuals, etc.“ nach Drücken des Buttons [Launch] sowie das Feld „predict – Predic-
tion after estimation“ zu Abb. 3.48. Unter „New variable name“ geben wir Residuals_1
(oder einen anderen beliebigen wählbaren Namen) ein. Die Residuen der letzten Regres-
sion werden dann unter dem neuen Variablennamen Residuals_1 unserem Datensatz als
neue Variable ganz rechts hinzugefügt. Wesentlich kürzer geht das auch über die Befehle
„predict Residuals_1, residuals“ in dem Befehlsfeld „Command“ der Menüoberfläche.
Nach dem Befehl „ac Residuals_1“ im Befehlsfeld „Command“ erhalten wir die Grafik
der Autokorrelationsfunktion der Abb. 3.9 und nach „pac Residuals_1“ die partielle
regress Arbeitslosenquote Zeit
Source | SS df MS Number of obs = 169

-------------+---------------------------------- F(1, 167) = 749.02
Model | 476.20721 1 476.20721 Prob > F = 0.0000
Residual | 106.174565 167 .635775839 R-squared = 0.8177
-------------+---------------------------------- Adj R-squared = 0.8166
Total | 582.381775 168 3.46655819 Root MSE = .79736
------------------------------------------------------------------------------
Arbeitslos~e | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Zeit | -.0344085 .0012572 -27.37 0.000 -.0368907 -.0319264
_cons | 10.4768 .1232165 85.03 0.000 10.23353 10.72006
------------------------------------------------------------------------------
ten, solche Lücken zu schließen. Dazu dient das Kommando „tsfill“. Genauer dazu Stata (2017,
S. 584–587). Prinzipiell entspricht dies dem Problem fehlender Werte (Missing Values) bei Quer-
schnittsdaten. Kap. 5 Fehlende Datenwerte/Missing Values geht darauf genauer ein.
Abb. 3.48 Speicherung der Residuen
Autokorrelationsfunktion der Abb. 3.10. Alternativ bekommen wir die Autokorrelations-

funktion über die Menüsteuerung mittels [Statistics > Time series > Graphs > Correlog-
ram (ac)]. Es erscheint die Oberfläche der Abb. 3.49.
Wir geben links oben im Feld „Variable“ ein, für welche Variable wir die Autokorrela-
tionsfunktion berechnen wollen. Hier sind dies die Residuen unseres Modell_1, also die
Variable Residuals_1. Ansonsten behalten wir die Voreinstellungen bei und drücken auf
den Button „OK“. Es folgt Abb. 3.9 des Abschn. 3.4.2. Analog generieren wir die Partielle
Autokorrelationsfunktion über [Statistics > Time series > Graphs > Partial correlogram
(pac)]. Dies führt zu Abb. 3.10 vorne.
Verschiedene Tests auf Autokorrelation finden sich unter [Statistics > Linear models
and related > Linear regression > Regression diagnostics > Specification tests, etc.]. In
Abb. 3.50 wählen wir den Breusch-Godfrey-Test auf Autokorrelation und legen im Feld
„Specify a list of lag orders to be tested“ die Lags 1 bis 4 und 12 fest.
Nach Tippen des Buttons „OK“ erscheint das uns bereits bekannte Resultat. Es findet
sich oben in Tab. 3.1. Entsprechend können wir – wie in Abb. 3.50 ersichtlich – auch den
Durbin-d-Test und den alternativen Durbin-h-Test aufrufen.
Abb. 3.49 Autokorrelationsfunktion Residuen Modell_1
Zur Durchführung des Q-Tests, bzw. um eine andere Darstellungsform der Autokorre-
lationsfunktion sowie der partiellen Autokorrelationsfunktion zu erhalten, dient die Ein-
gabe von „corrgram Residuals_1“ im Feld „Command“. Das gleiche Resultat über die
Menüsteuerung mittels [Statistics > Time series > Graphs > Autocorrelations & partial
autocorrelations] und dann Eingabe von Residuals_1 zeigt auszugsweise (nur bis zum Lag
15) Abb. 3.51.
In der Mitte sehen wir den Q-Test für die Lags von 1–40 (dies ist die Voreinstellung).
Er testet zu jedem Lag, ob bis dahin und einschließlich des jeweiligen Lags Autokorrela-
tion existiert. Dies trifft beim Lag 1 zu, und auch für alle höheren Lags sind die Q-Tests
signifikant. Rechts davon befinden sich die Autokorrelationsfunktion und die partielle
Autokorrelationsfunktion, nur in anderer Darstellungsform als in den Abb. 3.9 und 3.10.
Die signifikanten Autokorrelationen deuten – wenig überraschend – darauf hin, dass
unser Modell_1 erhebliche Defizite aufweist. Es ist viel zu einfach und bildet die tatsäch-
liche Entwicklung der Arbeitslosenquote nur ansatzweise ab. Insbesondere liegt auf der
Hand, dass unser Modell_1 die saisonale Entwicklung der Arbeitslosenquote überhaupt
nicht berücksichtigt. Daher erweitern wir die Spezifikation um die Variable Month_. Durch
das Präfix „i.“ weiß Stata, dass es sich um eine Faktorvariable handelt, und bildet auto-
Abb. 3.50 Stata-Autokorrelationstests
matisch einen Set von Dummyvariablen für jeden Monat von Februar bis Dezember. Die
erste Kategorie, also hier der Monat Januar, wird von Stata weggelassen, da er als Refe-
renzkategorie dient (siehe Stoetzer 2017, Abschn. 3.6). Dies ist unser Modell_2 in
Abb. 3.52.
Im Vergleich zum Januar, der Referenzkategorie, haben die Monate Mai bis einschließ-
lich Dezember eine signifikant geringere Arbeitslosigkeit (nur der August ist ein Grenzfall).
Die weiteren Schritte erfolgen wie oben für das Modell_1 bereits beschrieben. Sie wer-
den hier nicht noch einmal wiederholt. Nach Abspeicherung der Residuen des Modells_2
als neue Variable Residuals_2 betrachten wir uns deren Autokorrelationsfunktion
(Abb. 3.53).
Die saisonalen Schwingungen der Arbeitslosigkeit sind durch die Aufnahme der Mo-
nate beseitigt worden. Es existiert aber nach wie vor eine starke positive Autokorrelation
corrgram Residuals_1
-1 0 1 -1 0 1
LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor]
-------------------------------------------------------------------------------
1 0.9206 0.9241 145.79 0.0000 |------- |-------
2 0.7927 -0.3988 254.52 0.0000 |------ ---|
3 0.6839 0.2717 335.95 0.0000 |----- |--
4 0.6263 0.1902 404.65 0.0000 |----- |-
5 0.6199 0.2327 472.36 0.0000 |---- |-
6 0.6094 -0.2493 538.21 0.0000 |---- -|
7 0.5553 -0.1299 593.21 0.0000 |---- -|
8 0.5004 0.3456 638.16 0.0000 |---- |--
9 0.4978 0.4692 682.91 0.0000 |--- |---
10 0.5399 -0.0556 735.89 0.0000 |---- |
11 0.5989 -0.1185 801.49 0.0000 |---- |
12 0.6106 -0.2097 870.12 0.0000 |---- -|
13 0.5011 -0.7892 916.63 0.0000 |---- ------|
14 0.3574 0.2392 940.44 0.0000 |-- |-
15 0.2388 0.2427 951.14 0.0000 |- |-
Abb. 3.51 Korrelogramm
regress Arbeitslosenquote Zeit i.MONTH_

-------------+---------------------------------- F(12, 156) = 74.90
Model | 496.246523 12 41.3538769 Prob > F = 0.0000
-------------+---------------------------------- Adj R-squared = 0.8407
Total | 582.381775 168 3.46655819 Root MSE = .74307
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
Zeit | -.0340686 .0011739 -29.02 0.000 -.0363874 -.0317498
|
MONTH_ |
2 | .0496571 .2761949 0.18 0.858 -.4959072 .5952214
3 | -.0877029 .2761724 -0.32 0.751 -.6332228 .457817
4 | -.3250629 .276155 -1.18 0.241 -.8705483 .2204225
5 | -.60528 .2761425 -2.19 0.030 -1.150741 -.0598192
6 | -.7497829 .276135 -2.72 0.007 -1.295229 -.2043369
7 | -.6085714 .2761325 -2.20 0.029 -1.154012 -.0631304
8 | -.5459314 .276135 -1.98 0.050 -1.091377 -.0004854
9 | -.80472 .2761425 -2.91 0.004 -1.350181 -.2592592
10 | -.9277942 .276155 -3.36 0.001 -1.47328 -.3823088
11 | -.9722971 .2761724 -3.52 0.001 -1.517817 -.4267772
12 | -.7953714 .2761949 -2.88 0.005 -1.340936 -.2498071
|
_cons | 10.97583 .216255 50.75 0.000 10.54866 11.403
------------------------------------------------------------------------------
erster bis ca. zwölfter Ordnung. Der Breusch-Godfrey-Test (siehe Abb. 3.54) bestätigt
diese offensichtliche Struktur, ebenso wie die anderen Tests auf Autokorrelation.
Wir unterstellen trotzdem vereinfachend im Folgenden, dass Modell_2 richtig spezifi-
ziert ist. Da es keine autoregressive Komponente enthält, können wir die vorhandene Au-
Abb. 3.53 Autokorrelationsfunktion Modell_2
Abb. 3.54 Breusch-Godfrey-Test des Modell_2
tokorrelation durch den Newey-West-Schätzer berücksichtigen und so HAC-konsistente

Standardfehler ermitteln.
Die Newey-West-Standardfehler sind mittels des Kommandos „newey“ anstatt „re-
gress“ anzufordern. Wir gehen über [Statistics > Times series > Regression with Newey-
West std errors]. Es muss dann zusätzlich die maximale Anzahl von Lags spezifiziert wer-
den. Hier bietet es sich an, die Lag-Länge LHAC entsprechend der Regel 4 T bzw. 0,75 × T1/3
zu wählen. Da in unserer Regression T gleich 169 ist, ergibt sich ein Wert von 3,61 bzw.
4,15. Wie wählen daher für die Newey-West-Standardfehler einen Lag von 4 (im Feld
„Maximum lag to consider in the autocorrelation structure“) in der Abb. 3.55.
Nach Drücken des Button „OK“ finden wir das Resultat der Abb. 3.56.
Abb. 3.55 Newey-West-Regression Modell_2
Die Resultate unterscheiden sich hinsichtlich der Koeffizientenschätzungen nicht von der
OLS-Regression aus Abb. 3.52. Dies muss so sein. Aber auch die Ergebnisse zur Signifikanz
der unabhängigen Variablen ähneln sich. Die Standardfehler sind bei der Variable Zeit grö-
ßer, bei den Monatsdummys aber sogar kleiner als in der einfachen OLS-Regression.
Allerdings weist auch Modell_2 – wie oben ermittelt – starke Autokorrelation auf. Da-
her erweitern wir unsere Spezifikation und modellieren die Persistenzen in einem autore-
gressiven Modell zweiter Ordnung. Diese AR(2)-Spezifikation enthält die abhängige Va-
riable Arbeitslosenquote mit ihrem ersten und zweiten Lag. Diese werden sehr einfach
durch das Präfix „L1.“ bzw. „L2.“ vor der Variablen Arbeitslosenquote eingefügt. Dies ist
unser Modell_3 (siehe Abb. 3.57).
Die Zahl der Beobachtungen, auf denen die Regression beruht, beträgt jetzt nur noch
167, da zwei Beobachtungen wegen des Lags zweiter Ordnung entfallen. Der Einfluss der
Variable Zeit ist scheinbar deutlich gesunken. Allerdings ist dabei zu berücksichtigen, dass
die Interpretation der Koeffizientenschätzung der Variable Zeit jetzt nicht mehr mit der
Regression ohne AR-Komponente vergleichbar ist. Im Modell_2 sagt uns der Koeffizient,
dass pro Monat im Beobachtungszeitraum die Arbeitslosenquote um 0,034 abgenommen
hat. Der Koeffizient von −0,0007 im Modell_3 ist jetzt der Einfluss der Zeit unter
Berücksichtigung der Wirkung der Arbeitslosigkeit der beiden Vorperioden auf die

Arbeitslosigkeit der laufenden Periode. Dies ist kaum inhaltlich sinnvoll interpretierbar. Ein
Nachteil, der bei der Verwendung von autoregressiven Spezifikationen immer auftaucht.
. newey Arbeitslosenquote Zeit i. MONTH_, lag(4)
Regression with Newey-West standard errors Number of obs = 169

maximum lag: 4 F( 12, 156) = 12.72
Prob > F = 0.0000
------------------------------------------------------------------------------
| Newey-West
-------------+----------------------------------------------------------------
Zeit | -.0340686 .0030883 -11.03 0.000 -.040169 -.0279682
|
MONTH_ |
2 | .0496571 .1345192 0.37 0.713 -.2160571 .3153712
3 | -.0877029 .1939035 -0.45 0.652 -.4707182 .2953123
4 | -.3250629 .2210181 -1.47 0.143 -.7616372 .1115115
5 | -.60528 .2462695 -2.46 0.015 -1.091733 -.118827
6 | -.7497829 .2686853 -2.79 0.006 -1.280514 -.2190521
7 | -.6085714 .2696746 -2.26 0.025 -1.141256 -.0758865
8 | -.5459314 .2696902 -2.02 0.045 -1.078647 -.0132157
9 | -.80472 .2500961 -3.22 0.002 -1.298732 -.3107083
10 | -.9277942 .2232073 -4.16 0.000 -1.368693 -.4868956
11 | -.9722971 .1920299 -5.06 0.000 -1.351611 -.5929828
12 | -.7953714 .1489414 -5.34 0.000 -1.089573 -.5011693
|
_cons | 10.97583 .3982757 27.56 0.000 10.18912 11.76254
------------------------------------------------------------------------------
Abb. 3.56 Resultat Newey-West Regression Modell_2
regress Arbeitslosenquote Zeit i.MONTH_ L1.Arbeitslosenquote L2.Arbeitslosenquote

-------------+---------------------------------- F(14, 152) = 5156.88
Model | 531.632096 14 37.9737211 Prob > F = 0.0000
-------------+---------------------------------- Adj R-squared = 0.9977
Total | 532.751377 166 3.20934565 Root MSE = .08581
-----------------------------------------------------------------------------------
Arbeitslosenquote | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------------------+----------------------------------------------------------------
Zeit | -.0007239 .0003458 -2.09 0.038 -.0014071 -.0000406
|
MONTH_ |
2 | -.8937422 .0500098 -17.87 0.000 -.9925461 -.7949382
3 | -.7547012 .03434 -21.98 0.000 -.8225465 -.6868558
4 | -.7725232 .0392433 -19.69 0.000 -.8500559 -.6949905
5 | -.7776371 .0430046 -18.08 0.000 -.8626011 -.692673
6 | -.6309901 .0447949 -14.09 0.000 -.7194912 -.542489
7 | -.4104213 .0390106 -10.52 0.000 -.4874943 -.3333484
8 | -.6131371 .0325685 -18.83 0.000 -.6774825 -.5487918
9 | -.8978447 .0334061 -26.88 0.000 -.9638449 -.8318444
10 | -.6258538 .0438446 -14.27 0.000 -.7124772 -.5392303
11 | -.6118155 .0382964 -15.98 0.000 -.6874775 -.5361535
12 | -.4270889 .0357817 -11.94 0.000 -.4977826 -.3563953
|
Arbeitslosenquote |
L1. | 1.41918 .0686147 20.68 0.000 1.283618 1.554741
L2. | -.4477546 .0678852 -6.60 0.000 -.581875 -.3136343
|
_cons | .8694856 .0992048 8.76 0.000 .6734873 1.065484

Die Residuen des Modells_3 analysieren wir wie oben bereits für Modell_1 beschrie-
ben. Abb. 3.58 enthält die Autokorrelationsfunktion der Residuen des Modells_3 in zwei
verschiedenen Darstellungsformen. Klare Autokorrelationsmuster sind nicht mehr zu
sehen. Dies gilt auch für die nicht abgebildete partielle Autokorrelationsfunktion. Ein
corrgram Residuals_3
-1 0 1 -1 0 1
LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor]
-------------------------------------------------------------------------------
1 -0.0344 -0.0364 .20177 0.6533 | |
2 0.1416 0.1495 3.6305 0.1628 |- |-
3 -0.1002 -0.1024 5.3597 0.1473 | |
4 -0.0189 -0.0452 5.4216 0.2467 | |
5 -0.0987 -0.0873 7.1178 0.2120 | |
6 0.1656 0.1906 11.922 0.0637 |- |-
7 -0.0656 -0.0571 12.681 0.0803 | |
8 -0.0553 -0.1418 13.223 0.1044 | -|
9 -0.0680 -0.0391 14.05 0.1206 | |
10 -0.0438 -0.0203 14.394 0.1558 | |
11 0.0650 0.0845 15.158 0.1754 | |
12 0.2083 0.2150 23.056 0.0273 |- |-
13 0.0679 0.0706 23.9 0.0321 | |
14 -0.0705 -0.1212 24.818 0.0364 | |
15 -0.0508 -0.0918 25.296 0.0461 | |
16 -0.1075 -0.0714 27.456 0.0367 | |
17 -0.0599 -0.0823 28.131 0.0434 | |
18 -0.0027 -0.0604 28.132 0.0601 | |
19 -0.0955 -0.0948 29.871 0.0535 | |
20 -0.0969 -0.0755 31.673 0.0469 | |
21 -0.0205 -0.0059 31.754 0.0620 | |
22 -0.0362 -0.0117 32.009 0.0772 | |
23 0.0843 0.0448 33.401 0.0743 | |
24 -0.0632 -0.1840 34.189 0.0814 | -|
Abb. 3.58 Autokorrelationsfunktion Residuen Modell_3

Breusch-Godfrey-Test auf Autokorrelation (Lag 4) ergibt, dass die Nullhypothese „keine

Autokorrelation“ nicht abzulehnen ist (Chi2: 5,568; Prob > Chi2 = 0,234).
Nach einem Vergleich der verschiedenen Tests könnte nur die Autokorrelation zwölfter
Ordnung einen signifikanten Beitrag darstellen. Das korrigierte R2 beträgt 0,998. Die An-
passung der Regression an die Daten ist daher als sehr hoch einzustufen.
Zur Ermittlung des besten Modells unter verschiedenen Spezifikationen sind das AIC
und das BIC geeignete sogenannte Informationskriterien (Information Criteria). Für die
drei Modelle können wir AIC und BIC direkt nach den jeweiligen Regressionsergebnis-
sen mittels der Eingabe von „estat ic“ im Kommandofeld (Command) abrufen. Länger
dauert dies über die Menüauswahl [Statistics > Postestimation > Specification, diagnostic,
and goodness-of-fit analysis]. Es erscheint Abb. 3.59 und dort wählen wir die Option „In-
formation criteria – AIC and BIC“.
Abb. 3.59 Modellauswahl mittels Informationskriterien

Nach Drücken des Buttons „Launch“ und anschließend „OK“ – bei ansonsten unver-
änderten Voreinstellungen – werden AIC und BIC ausgegeben. Für Modell_3 zeigt
Abb. 3.60 das Ergebnis.
Der Vergleich der Modelle 1 bis 3 anhand des AIC und des BIC (Abb. 3.61) bestätigt
unsere Vermutung. Das Modell_3 weist mit Abstand die kleinsten Werte für AIC und BIC
auf und ist insoweit die beste dieser drei Spezifikationen. Bereits auf Basis der korrigierten
R2, die in der letzten Spalte abgebildet sind, war dies zu erwarten.
Im Modell_3 sind ein einfacher Trend und regelmäßige monatliche (saisonale) Verän-
derungen kontrolliert. Außerdem wird die Persistenz der Arbeitslosigkeit berücksichtigt.
Um in einem Modell mit einer weiteren unabhängigen Variablen – bspw. in Form der In-
flationsrate – Scheinkorrelationen auszuschließen, muss allerdings Stationarität der einbezo-
genen Variablen (bspw. Arbeitslosenquote und Inflation) vorliegen. Und auch die Anwendung
von univariaten ARMA-Modellen für die Prognose basiert auf der Prämisse, dass Stationarität
gegeben ist oder durch geeignete Modellierung hergestellt werden kann. Dies bedeutet, dass
die Variable Arbeitslosenquote auch keinem Random-Walk-Prozess (d. h. stochastischen
Trend) folgen darf. Zur Überprüfung verwenden wir zunächst den Augmented Dickey-Ful
ler-Test (ADF-Test) und dann zum Vergleich den DF-GLS-Test. Der ADF-Test wird menü-
gesteuert aufgerufen über [Statistics > Time series > Tests > Augmented Dickey-Fuller
unit-root test]. Nach der obigen Abbildung der Autokorrelationsfunktion der Variable Arbeits-
losenquote ist auf jeden Fall ein Trend plausibel. Diesen berücksichtigen wir, indem ein Häk-
chen bei „Include trend term in regression“ gesetzt wird. Außerdem ergibt sich aus der Auto-
korrelationsfunktion, dass neben dem Trend sicher Autokorrelation erster Ordnung vorliegt.
Daher fügen wir im Feld „Lagged differences“ der Abb. 3.62 eine 1 ein.
estat ic
Akaike's information criterion and Bayesian information criterion
-----------------------------------------------------------------------------
Model | Obs ll(null) ll(model) df AIC BIC
-------------+---------------------------------------------------------------
. | 167 -333.8278 180.9804 15 -331.9608 -285.1909
-----------------------------------------------------------------------------
Note: N=Obs used in calculating BIC; see [R] BIC note.
Abb. 3.60 AIC und BIC des Modell_3
AIC BIC korr. R2

Modell_1 405.0476 411.3074 0,817
Modell_2 391.6986 432.3873 0,841
Modell_3 - 331.9608 -285.1909 0,998
Abb. 3.61 Modellvergleich mittels AIC, BIC und korr. R2

Abb. 3.62 ADF-Test der Arbeitslosenquote
dfuller Arbeitslosenquote, trend lags(1)
Augmented Dickey-Fuller test for unit root Number of obs = 167
---------- Interpolated Dickey-Fuller ---------

Test 1% Critical 5% Critical 10% Critical
Statistic Value Value Value
------------------------------------------------------------------------------
Z(t) -4.264 -4.018 -3.441 -3.141
------------------------------------------------------------------------------
MacKinnon approximate p-value for Z(t) = 0.0036
Abb. 3.63 ADF-Test mit Trend und Lag 1
Da Ergebnis zeigt Abb. 3.63. In der ersten Zeile steht wieder der syntaxbasierte Befehl
im Feld „Command“, den wir über unsere Menüeingabe aufgerufen haben. Die relevante
Teststatistik nennt sich z und beträgt −4,264. Ihr Signifikanzniveau p liegt bei 0,0036. Die
Nullhypothese einer Unit Root (= Nichtstationarität) lehnt der ADF-Test also auch auf
dem 1-%-Niveau ab. Wir gehen daher von Stationarität aus.
Modellieren wir dagegen die Regression wie in Abb. 3.57 – aber ohne Trend und mit
einem Lag 0 –, resultiert der Output der Abb. 3.64.
In diesem Fall wird die Nullhypothese auf dem 5-%-Niveau nicht abgelehnt. Das heißt,
es existiert eine Unit Root, und damit ist die Variable Arbeitslosenquote ohne Berücksich-
tigung eines Trends und Lags nicht stationär.
Den DF-GLS-Test setzen wir wie folgt ein: [Statistics > Time series > Tests > DF-
GLS test for a unit root]. In der Menüoberfläche (siehe Abb. 3.65) fügen wir die Variable
Arbeitslosenquote im Feld „Variable“ ein, ansonsten behalten wir die Voreinstellungen bei.
Nach „OK“ erhalten wir das Testresultat der Abb. 3.66.
Der Test berücksichtigt als Default einen linearen Trend und prüft die Nullhypothese,
ob die trendbereinigte Variable einen Random Walk (ggf. mit Drift) aufweist. Zunächst
(im unteren Teil zu sehen) analysiert der Test in Stata, welcher Lag infrage kommt. Dazu
werden drei verschiedene Methoden eingesetzt (Ng-Perron, SC (Schwarz Information
Criterion) und MAIC (Modified Akaike Information Criterion)). Alle drei identifizieren
den Lag 13. Ordnung als relevant. Im oberen Teil wird für den 1. bis 13. Lag die
dfuller Arbeitslosenquote, lags(0)
Dickey-Fuller test for unit root Number of obs = 168

------------------------------------------------------------------------------
Z(t) -2.310 -3.487 -2.885 -2.575
------------------------------------------------------------------------------
Abb. 3.64 ADF-Test Lag 0
Abb. 3.65 DF-GLS-Test
dfgls Arbeitslosenquote
DF-GLS for Arbeitslosenqu~e Number of obs = 155

Maxlag = 13 chosen by Schwert criterion
DF-GLS tau 1% Critical 5% Critical 10% Critical

[lags] Test Statistic Value Value Value
------------------------------------------------------------------------------
13 -1.886 -3.497 -2.798 -2.522
12 -2.870 -3.497 -2.814 -2.537
11 -0.705 -3.497 -2.830 -2.551
10 -0.502 -3.497 -2.845 -2.565
9 -0.429 -3.497 -2.860 -2.579
8 -0.356 -3.497 -2.874 -2.592
7 -0.863 -3.497 -2.888 -2.604
6 -1.320 -3.497 -2.901 -2.616
5 -1.130 -3.497 -2.913 -2.628
4 -0.836 -3.497 -2.925 -2.638
3 -1.167 -3.497 -2.936 -2.648
2 -1.517 -3.497 -2.946 -2.657
1 -2.178 -3.497 -2.955 -2.666
Opt Lag (Ng-Perron seq t) = 13 with RMSE .0870052

Min SC = -4.42804 at lag 13 with RMSE .0870052
Min MAIC = -4.653782 at lag 13 with RMSE .0870052
Abb. 3.66 Ergebnis des DF-GLS-Tests
DF-GLS-Teststatistik „tau“ ausgewiesen. Bei den Lags von 1 bis 11 und 13 ist tau (absolut
betrachtet) kleiner als die auf dem 5-%-Niveau kritischen Grenzwerte (siehe Spalte „5 %
Critical Value“).46 Das heißt, wir können die Nullhypothese „nicht stationär“ nicht
ablehnen. Für den Lag 12 ist tau (−2,870) absolut größer als der 5-%-Grenzwert (−2,814).
Bei einem Lag von 12 ist daher die H0 abzulehnen, und wir gehen davon aus, dass die
Arbeitslosenquote mit diesem Lag stationär ist, wenn der Trend berücksichtigt wird. Dies
ist inhaltlich plausibel, denn bei Kontrolle des Trends liegt es für unsere Monatsdaten
nahe, dass Zusammenhänge jeweils von Januar zu Januar, Februar zu Februar usw. vor-
handen sind. Der DF-GLS-Test von Stata vermittelt uns also deutlich mehr Informationen
als der ADF-Test.
Um die Stationarität einer Variablen herzustellen, wird diese differenziert. Die Bildung
erster Differenzen der Arbeitslosenquote ist in Stata einfach durchführbar. Menügesteu-
ert erfolgt dies über [Data > Create or change data > Create new variable]. Es erscheint
Abb. 3.67. Dort geben wir im Feld „Variable name“ der zu kreierenden Variable einen
Namen (hier: FD1_Arbeitslosenquote). Im Feld „Contents of variable“ wird festgelegt,
wie die Variable FD1_Arbeitslosenquote berechnet wird. Durch Eingabe von „D1.Arbeits-
losenquote“ sagen wir Stata, dass die erste Differenz der Variablen Arbeitslosenquote ge-
bildet werden soll.47 Kürzer erhalten wir dieses Ergebnis durch Eingabe von „generate
D1_Arbeitslosenquote = FD1.Arbeitslosenquote“ im Feld Command der Stata-Oberfläche.
46
Die Verteilung der kritischen Werte des ADF- und DF-GLS Tests entspricht nicht der Normal-
bzw. t-Verteilung. Sie wird daher bei beiden Tests von Stata mit ausgewiesen. Die Konsequenz ist,
dass auch die Faustregel für den t-Test (|t| > 2) nicht zutrifft.
47
Weiter oben wurde bereits erläutert, wie mittels des Präfix „L1.“ der erste Lag einer Variablen
Abb. 3.67 Bildung erster

Differenzen
Das Resultat sehen wir uns mittels [Statistics > Time series > Graphs > Line plots] an.
Im dann erscheinenden Menüfeld klicken wir auf den Button „Create …“ Es erscheint
Abb. 3.68. Im Feld „Y variable“ setzen wir die neue Variable FD1_Arbeitslosenquote ein.
Dann geht es mit „Accept“ und anschließend „OK“ weiter. Alternativ ist dies syntaxba-
siert über Eingabe von „twoway (tsline FD1_Arbeitslosenquote)“ im Feld „Command“
möglich.
Das Resultat – nämlich die Abb. 3.17 vorne – kennen wir bereits. Im nächsten Schritt
wird mittels des ADF-Tests überprüft, ob die ersten Differenzen der Arbeitslosenquote
stationär sind. In der Abb. 3.62 setzen wir also unsere Variable FD1_Arbeitslosenquote
ein. Wie Abb. 3.69 zeigt, wird die Nullhypothese „nicht stationär“ abgelehnt. Die erste
Differenz der Arbeitslosenquote ist daher stationär. Wir können also mit der Variablen
FD1_Arbeitslosenquote ARMA-Modelle spezifizieren (bzw. äquivalent ARIMA-Modelle
mit der Variable Arbeitslosenquote). Außerdem ist damit die Gefahr der Scheinkorrelation
gebannt (oder zumindest verringert).
Der hier nicht abgebildete DF-GLS-Test der ersten Differenzen der Arbeitslosenquote
zeigt aber ein komplexeres Bild. Höhere Lags sind zum Teil nicht stationär. Eine nahelie-
gende Erklärung ist die saisonale Struktur der Veränderung der Arbeitslosenquote, die
zusätzlich modelliert werden muss. Dies sollte aufgrund der vorliegenden Informationen
durchgeführt werden. Wir verzichten aber zunächst darauf. Falls saisonale oder andere
Effekte als Erklärung ausscheiden, besteht eine weitere Alternative darin, die zweiten Dif-
generiert wird. Das Präfix „D2.“ ermöglicht die Berechnung der zweiten Differenz usw. Mittels des
Präfix „S“ bilden wir saisonale Differenzen. So führt „S12.Arbeitslosenquote“ zur Differenz der
Arbeitslosenquote eines Monats mit dem Wert des Vorjahresmonats. Damit werden saisonale Ver-
änderungen beseitigt.
Abb. 3.68 Zeitreihenplot
dfuller FD1_Arbeitslosenquote, lags(0)
Dickey-Fuller test for unit root Number of obs = 167

------------------------------------------------------------------------------
Z(t) -8.806 -3.488 -2.886 -2.576
------------------------------------------------------------------------------
Abb. 3.69 ADF-Test der ersten Differenzen
ferenzen zu ermitteln und anschließend wie eben beschrieben auf Stationarität zu testen.
In der Praxis sind erste Differenzen in der Regel ausreichend, um Stationarität zu errei-
chen. Nur selten ist es erforderlich, zweite Differenzen zu bilden.
Dabei müssen aber immer auch inhaltliche Aspekte einbezogen werden. Wenn gerade
der Trend der Arbeitslosenquote unser Forschungsproblem darstellt, macht es ggf. wenig
Sinn, diesen Trend durch Bildung erster Differenzen zu beseitigen. Die Erfassung des
Trends durch die Ermittlung seiner relevanten Einflussfaktoren ist dann ein sinnvolles
Vorgehen.
Zur Analyse möglicher Strukturbrüche zeitreihenbasierter Regressionen bietet Stata
mehrere Tests. Es handelt sich um Varianten des Chow-Tests. Standardmäßig weist Stata
den Supremum-Wald-Test aus. Drei verschiedene Ansätze sind vorhanden: Die Prozedur
„sbknown“ für Strukturbrüche mit bekanntem Zeitpunkt und das Verfahren „sbsingle“ für
Strukturbrüche mit einem unbekannten Zeitpunkt. Im Unterschied zum klassischen Chow-
Test sind beide robust gegen beliebige Formen von Heteroskedastie. Das dritte Verfahren
„sbcusum“ ist darüber hinaus ein Test für die Stabilität der Koeffizienten. Die beiden letz-
ten Tests sind auch geeignet, das Vorliegen von gleitenden Veränderungen der Koeffizien-
ten (Gradual Breaks) zu überprüfen.
Bei einer Zeitreihe der jährlichen Arbeitslosenquote in Deutschland von 1980 bis 2005
liegt ein Strukturbruch im Jahr 1991/1992 auf der Hand. Die Wiedervereinigung und ihre
Folgen für den Arbeitsmarkt in den neuen Bundesländern waren mit einem sprunghaften
Anstieg der Arbeitslosenquote in ganz Deutschland verbunden. In diesem Beispiel ist die
Verwendung der Prozedur „sbknown“ naheliegend. Aber in unserem Beispiel zur monat-
lichen Arbeitslosenquote von 2005 bis 2018 ist inhaltlich a priori kein klarer Bruchzeit-
punkt offensichtlich. Daher schätzen wir das Modell_1 noch einmal und setzen dann den
Test „sbsingle“ ein. Menügesteuert mittels [Statistics > Linear models and related > Re-
gression diagnostics > Specification tests, etc.] erscheint das Fenster der Abb. 3.70.
Im Feld oben „Reports and statistics: (subcommand)“ scrollen wir nach unten bis zum
Test „sbsingle“. Anschließend wird im Feld „Break variables:“ die Variable Zeit eingetra-
gen. Die restlichen Voreinstellungen ändern wir nicht und führen mit Klick auf den Button
Abb. 3.70 Strukturbruchtest (unbekannter Zeitpunkt)

Abb. 3.71 Ergebnis des . estat sbsingle

Strukturbruchtests
Test for a structural break: Unknown break date
Number of obs = 169
Full sample: 1 - 169

Trimmed sample: 27 - 144
Estimated break date: 49
Ho: No structural break
Test Statistic p-value

-----------------------------------------------
swald 598.3578 0.0000
-----------------------------------------------
Exogenous variables: Zeit
Coefficients included in test: Zeit _cons
„OK“ den Test durch. Weitere Tests wie der erwähnte „sbknown“ sind dort ebenfalls
abrufbar. Das Ergebnis des Tests gibt Abb. 3.71 wieder.
Die Nullhypothese „kein Strukturbruch vorhanden“ wird klar abgelehnt. Der geschätzte
Zeitpunkt des Strukturbruchs liegt in der Periode 49. Dies ist der Januar 2009. Der Blick
auf Abb. 3.3 bestätigt das Resultat. Mit dem Jahresbeginn 2009 flacht der fallende Verlauf
der Arbeitslosenquote ab.
Der Strukturbruch wird durch eine neue Variable Break_12_2008 ins Modell integriert.
Es handelt sich um eine Dummyvariable mit dem Wert 1 für die Monate bis einschließlich
12/2008 und dem Wert 0 für alle Monate danach.48 Dann erweitern wir unser Modell_2 um
diese Variable. Da es sich nach Abb. 3.3 nicht um eine Niveauverschiebung handelt, son-
dern eher um eine Änderung der Steigung des Trends, nehmen wir zusätzlich den Inter-
aktionseffekt der Variablen Zeit und Break_12_2008 auf.49 Die erste Zeile der Abb. 3.72
enthält die Kommandosyntax dazu.
Die Residuen der Regression sind stark positiv autokorreliert und die t-Werte sowie
Signifikanzniveaus insoweit nicht verlässlich (t-Werte zu groß und empirische Signifi-
kanzniveaus zu klein). Auch eine Newey-West-Schätzung von HAC-Standardfehlern än-
dert inhaltlich an den Resultaten der obigen OLS-Schätzung nichts. Die Ergebnisse (auf
deren Wiedergabe hier verzichtet wird) machen deutlich, dass mit dem Januar 2009 ein
Strukturbruch verbunden ist. Davor ist im Mittel die Arbeitslosenquote um fast 3,4 Pro-
zentpunkte höher und der Rückgang der Arbeitslosenquote ist in diesem Zeitraum deutlich
stärker. Er beträgt im Mittel −0,114 Prozentpunkte pro Monat (dies ergibt sich aus:
−0,0237 + −0,0907), während ab dem Januar 2008 die Arbeitslosenquote im Monat nur
noch um −0,0237 sinkt.
Im nächsten Schritt analysieren wir die Prognosefähigkeiten von Zeitreihendaten im
Rahmen eines ARIMA-Modells (ARIMA(p,d,q)). Dabei erklären wir die Entwicklung
48
Häufig wird die auch umgekehrt kodiert – also die Perioden vor dem Strukturbruch erhalten eine
0 und die nach dem Bruch folgenden Perioden eine 1. Dies ist für das Ergebnis irrelevant, muss aber
bei der Interpretation des Koeffizienten beachtet werden.
49
Zur Anwendung und Interpretation von Interaktionseffekten siehe Stoetzer (2017, Abschn. 3.4).
Abb. 3.72 Regression mit Strukturbruch
der Arbeitslosenquote in einem univariaten Ansatz, das heißt nur aus sich selbst heraus.
Dies impliziert, dass wir auf theoretische Überlegungen zu den Ursachen der Arbeits
losigkeit verzichten. Damit geben wir den Anspruch, kausale Zusammenhänge zu über-
prüfen, auf und gehen datengetrieben vor. Oben hatten wir bereits festgestellt, dass die
Arbeitslosenquote einen Trend aufweist, den wir durch die Verwendung erster Differenzen
(weitgehend) beseitigen. Der Integrationsgrad (d) ist daher gleich 1. Außerdem müssen
wir im ARIMA-Modell die Lag-Ordnung für den autoregressiven Teil (p) und den Moving-
Average-Teil (q) bestimmen. Dazu untersuchen wir die ACF und die PACF der ersten
Differenzen der Variable Arbeitslosenquote. Diese legen ein ARIMA-Modell nahe, das die
Autokorrelation erster und zweiter Ordnung sowie außerdem die saisonale Komponente
im Modell berücksichtigt. Letztere resultiert aus den im 12-Monats Rhythmus regelmäßig
schwankenden Arbeitslosenquoten.
Aber zunächst unterstellen wir als einfachen Ausgangspunkt einen autoregressiven Lag
zweiter Ordnung, eine erste Differenz (Integrationsgrad 1) und keinen Moving-Average-
Prozess. Zusammengeführt resultiert also ein ARIMA(2,1,0)-Modell.
Menügesteuert folgt nach [Statistics > Time series > ARIMA and ARMAX models] die
Menüoberfläche der Abb. 3.73. Abhängige Variable ist die Arbeitslosenquote. In unserem
univariaten Ansatz gibt es keine unabhängigen Variablen, dieses Feld bleibt daher leer.
Darunter (im Feld „ARIMA model specification“) fügen wir unsere Modellspezifikation
ein, die wir ARIMA_1 Modell nennen.
Abb. 3.73 ARIMA_1 (2,1,0)-Modell der Arbeitslosenquote
Den Output der Regression zeigt Abb. 3.74.50 Das Maximum-Likelihood-Schätz

verfahren ist komplex und kann nur iterativ gelöst werden. Die Iterationsschritte werden
von Stata ausgegeben, sind aber hier nicht mit abgebildet. Die erste Zeile der Abb. 3.74
enthält wieder die Syntax für das Feld „Command“.
Im oberen Abschnitt ist rechts der Wald-Test zu finden. Er prüft die Signifikanz des Ge-
samtmodells (so wie der uns bekannte F-Test der einfachen Regression). Mit einem Chi2-
Wert von 33,07 ist das Gesamtmodell auf dem 1-%-Niveau signifikant. Darunter sehen wir
die Koeffizientenschätzungen für den Lag erster Ordnung (L1) und den Lag zweiter Ord-
nung (L2). Deren Standardfehler (Std. Err.) werden nach einem bestimmten mathematischen
Verfahren ermittelt, der OPG (Outer Product of Gradient)-Methode. Die z-Werte und ihre
Signifikanzniveaus sind wie bei den uns bekannten t-Werten zu interpretieren.
Beide Autokorrelationskoeffizienten sind hoch signifikant. Unter diesem Aspekt ist
unsere Spezifikation prinzipiell geeignet, die Entwicklung der Arbeitslosenquote abzu-
bilden. Allerdings zeigen die (nicht abgebildeten) ACF und die PACF der Residuen ein
deutliches Muster (die zwölften Lags sind signifikant, und es existieren Schwingungen).
Daher testen wir zusätzlich, ob die Residuen dieses Modells einem weißen Rauschen ent-
sprechen. Nach Speicherung der Residuen überprüfen wir dies mittels [Statistics > Time
series > Tests > Portmanteau white-noise test]. In der Oberfläche dieses Tests (Abb. 3.75
Ggf. kann unter dem Button „Time settings …“ auch die Datenreihe als Zeitreihe charakterisiert
50
werden. In unserem Bsp. war das bereits vorab direkt erfolgt.

arima Arbeitslosenquote, arima(2,1,0)
ARIMA regression
Sample: 2 - 169 Number of obs = 168

Wald chi2(2) = 33.07
Log likelihood = -2.024359 Prob > chi2 = 0.0000
-----------------------------------------------------------------------------------
D. | OPG
Arbeitslosenquote | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------------+----------------------------------------------------------------
Arbeitslosenquote |
_cons | -.0411572 .0296273 -1.39 0.165 -.0992256 .0169111
------------------+----------------------------------------------------------------
ARMA |
ar |
L1. | .4846044 .0843749 5.74 0.000 .3192327 .6499761
L2. | -.3332023 .1162655 -2.87 0.004 -.5610785 -.1053261
------------------+----------------------------------------------------------------
/sigma | .2446288 .0133936 18.26 0.000 .2183779 .2708797
-----------------------------------------------------------------------------------
Note: The test of the variance against zero is one sided, and the two-sided
confidence interval is truncated at zero.
Abb. 3.74 ARIMA_1 (2,1,0)-Regression
Abb. 3.75 Portmanteau Test der Residuen

oberer Teil) geben wir im Feld „Variable“ den Namen der Variable ein, unter dem wir die
Residuen abgespeichert haben (hier: „ResidARIMA210“). Nach „OK“ wird der Test mit
der Voreinstellung 40 Lags durchgeführt. Über das Feld „Command“ lässt sich der Test
direkt durch Eingabe von „wntestq ResidARIMA210“ aufrufen.
Die Nullhypothese „Die Residuen unterscheiden sich nicht von weißem Rauschen“
(also keine Strukturen) wird abgelehnt (Abb. 3.75 unterer Teil). Offensichtlich ist, dass die
saisonale Struktur der Arbeitslosigkeit berücksichtigt werden muss. Dies geschieht, indem
wir die saisonalen Differenzen, hier also die Differenz (Veränderung) der Arbeitslosen-
quote eines Monats vom entsprechenden Vorjahresmonat berechnen (bspw. Januar 2018
minus Januar 2017, Februar 2018 minus Februar 2017, usw.). Dies erfolgt mittels des
Präfix „S12.“ vor der Variablen Arbeitslosenquote.51 Ansonsten behalten wir unsere Mo-
dellstruktur bei. Folglich ist in der Abb. 3.73 nur im Feld „Dependent variable“ die Ein-
gabe „Arbeitslosenquote“ durch „S12.Arbeitslosenquote“ zu ersetzen. Oder alternativ
wird im Feld „Command“ direkt „arima S12.Arbeitslosenquote, arima(2,1,0)“ eingege-
ben. Das Ergebnis (unser ARIMA_2 Modell) enthält Abb. 3.76.
Das weitere Vorgehen wird jetzt nicht mehr Schritt für Schritt beschrieben und abgebil-
det, sondern nur noch summarisch erläutert, da die entsprechenden Menübefehle und Out-
puts in den vorangegangenen Ausführungen bereits behandelt worden sind. Nach Abspei-
chern der Residuen sehen wir uns die ACF und die PACF des Modells der Abb. 3.76 an
und testen, ob die Residuen weißem Rauschen entsprechen. ACF und PACF besitzen jetzt
arima S12.Arbeitslosenquote, arima(2,1,0)
91 Würde es sich um Quartalsdaten handeln, wäre das Präfix „S4.“ zu verwenden.
ARIMA regression
Sample: 14 - 169 Number of obs = 156

Wald chi2(2) = 82.88
Log likelihood = 147.2283 Prob > chi2 = 0.0000
-----------------------------------------------------------------------------------
DS12. | OPG
Arbeitslosenquote | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------------+----------------------------------------------------------------
Arbeitslosenquote |
_cons | -.0061522 .0186456 -0.33 0.741 -.0426969 .0303925
------------------+----------------------------------------------------------------
ARMA |
ar |
L1. | .3106087 .0720919 4.31 0.000 .1693111 .4519062
L2. | .2942446 .0702585 4.19 0.000 .1565405 .4319487
------------------+----------------------------------------------------------------
/sigma | .0940467 .0044984 20.91 0.000 .0852301 .1028634
-----------------------------------------------------------------------------------
Note: The test of the variance against zero is one sided, and the two-sided
confidence interval is truncated at zero.
Abb. 3.76 ARIMA_2 (2,1,0) Regression mit saisonalen Differenzen
Würde es sich um Quartalsdaten handeln, wäre das Präfix „S4.“ zu verwenden.

51
keine größeren Auffälligkeiten mehr, und der Portmanteau-Q-Test ergibt, dass die Null-
hypothese (White Noise) nicht abgelehnt wird.
Als nächsten Schritt spezifizieren wir ein komplexeres Modell (ARIMA_3) mit einem
Moving-Average-Effekt erster Ordnung. Wir unterstellen also, dass die Residuen der Vor-
periode in der Folgeperiode nachwirken. In der Abb. 3.73 ergänzen wir unser letztes Mo-
dell, indem wir bei „Moving average order (q)“ statt der (voreingestellten) 0 eine 1 ein-
tragen. Das Schätzergebnis dieses ARIMA(2,1,1)-Modells (nicht abgebildet) besagt aber,
dass ein solcher MA(1)-Prozess nicht signifikant ist.
Zusammenfassend stellt sich die Frage, welcher der Spezifikationen der Vorzug gege-
ben werden sollte. Für den Modellvergleich sind vor allem drei verschiedene Aspekte re-
levant: AIC und BIC sowie die Signifikanz der Koeffizienten. Wie oben bereits für das
Regressionsmodell erläutert, fordern wir AIC und BIC mittels des „estat ic“ Kommandos
jeweils im Anschluss an die Modellschätzungen an.
Es stellt sich heraus, dass das Modell 2 mit dem kleinsten AIC und BIC am geeignets-
ten ist (siehe Abb. 3.77). Im Vergleich zum ersten Modell war dies zu erwarten, es gilt aber
auch bei Gegenüberstellung mit dem dritten Modell.
Dies bedeutet nicht, dass diese Spezifizierung bereits das beste aller möglichen Mo-
delle ist. Erweiterungen beziehen sich erstens auf die Berücksichtigung von Heteroskedas-
tie. Dies ist – wie in Abb. 3.73 sichtbar – möglich, indem unter dem Reiter „SE/Robust“
Standardfehler geschätzt werden, die heteroskedastierobust sind. Zweitens können kom-
plexere saisonale Abhängigkeiten in den Residuen modelliert werden. Stata verfügt in
dieser Hinsicht über sehr flexible Möglichkeiten. Die entsprechenden multiplikativen sai-
sonalen ARIMA-Modelle (Sarima-Modelle) werden hier nicht behandelt.
Der Sinn des Ganzen besteht darin, eine möglichst gute Prognose zu erhalten, hier der
Entwicklung der Arbeitslosenquote. Also benutzen wir das obige ARIMA-Modell 2 jetzt,
um eine Prognose über den Beobachtungszeitraum hinaus durchzuführen (Out-of-Sample
Prediction). Dazu müssen wir als ersten Schritt Stata kommunizieren, dass es über die vor-
handenen Daten hinaus leere Datenfelder für die Prognosewerte einrichten soll. Dies er-
folgt mittels „tsappend“ und anschließend der Zahl der Perioden, die prognostiziert wer-
den sollen. Bspw. werden nach Eintippen von „tsappend 12“ im Feld „Command“ zwölf
weitere Datenfelder für die Monate Februar 2019 bis Januar 2020 angelegt. Menübasiert
erfolgt dies über [Statistics > Time series > Setup and utilities > Add observations to
time-series dataset] entsprechend Abb. 3.78.
AIC BIC
Modell ARIMA_1: ARIMA(2,1,0) 12,0487 24,5446
Modell ARIMA_2: S12_ARIMA(2,1,0) -286,4565 -274,2571
Modell ARIMA_3: S12_ARIMA(2,1,1) -285,1317 -269,8824
Abb. 3.77 Modellvergleich mittels AIC und BIC

Abb. 3.78 Prognosewerte von Zeitreihendaten
Ein Blick in den Datensatz im Data Editor bestätigt, dass Stata zwölf weitere Perioden
(natürlich ohne Datenwerte) angelegt hat.
Mit „predict Name“ werden die geschätzten Werte der verwendeten abhängigen Vari-
able der letzten Regression unter der neuen – frei wählbaren – Variablenbezeichnung
Name abgelegt. Wenn dies D1.Y ist, wird also das geschätzte D1.Y ausgegeben. Mit „pre-
dict Name, y“ werden die geschätzten Werte der ursprünglichen (also nicht transformier-
ten) abhängigen Variable Y eingefügt. Die Eingabe von „predict Name, y dynamic(10)“
berechnet Vorhersagen, die für Yt mit t < 10 auf den Istwerten basieren und für Yt mit
t ≥ 10 auf den Prognosen für Yt beruhen. Das bedeutet, dass Einschrittvorhersagen für
t < 10 und dynamische Vorhersagen danach berechnet werden.
Wir wollen Prognosen für die Entwicklung der Arbeitslosenquote in den kommenden
zwölf Monaten – also vom Februar 2019 bis zum Januar 2020 – erhalten. Dazu ist folgen-
der Befehl im Feld „Command“ einzugeben: „predict ALQ_hat_1, y dynamic(169)“. Ab
dem 169. Monat ermittelt Stata die Prognosewerte der Abb. 3.79 für die zwölf zusätzlich
angelegten Perioden (hier Monate).
Für den Februar 2019 (Zeit = 170) wird eine Arbeitslosenquote von 5,36 % prognosti-
ziert. Die Vorhersage für den Januar 2020 (d. h. Zeit = 181) lautet 5,11 %. Schöner ist die
Gegenüberstellung der tatsächlichen und der jeweils prognostizierten Werte in Abb. 3.80.
Zeit ALQ_hat_12
|----------|
166. | 4.897569 |
167. | 4.797569 |
168. | 4.797569 |
169. | 5.42863 |
170. | 5.364516 |
|----------|
171. | 5.181655 |
172. | 4.995108 |
173. | 4.801898 |
174. | 4.705534 |
175. | 4.806231 |
|----------|
176. | 4.905087 |
177. | 4.702505 |
178. | 4.598935 |
179. | 4.494636 |
180. | 4.589818 |
|----------|
181. | 5.113256 |
+----------+
Abb. 3.79 Prognosewerte der Arbeitslosigkeit
Abb. 3.80 Prognose der Arbeitslosenquote

Die grafische Darstellung von Zeitreihen mittels [Statistics > Time series > Graphs > Line

plots] ist oben bereits erläutert worden.
Die durchgezogene Linie zeigt die beobachteten Arbeitslosenquoten unseres Daten-
satzes. Die gestrichelte Linie stellt die Prognosen unseres ARIMA_2-Modells dar. Rechts
wird die prognostizierte Entwicklung vom Februar 2019 bis zum Januar 2020 abgebildet.
Die Prognose bis zum Zeitpunkt 169, d. h. dem Januar 2019, ist fast komplett deckungs-
gleich mit den Istwerten.
Für die Durchführung von Vorhersagen bietet Stata eine umfangreiche Auswahl von
Möglichkeiten (unter „predict postestimation“) sowie eine spezialisierte Prozedur (Statis-
tics > Time series > Forecasting]. Zum Beispiel können zu den Prognosewerten auch Kon-
fidenzintervalle berechnet und dargestellt werden. Der Unsicherheitsbereich der Vorher-
sagen wird so visualisiert. Die vorhandenen Optionen werden hier nicht weiter erläutert.
Univariate ARMA-Modelle (Box-Jenkins-Modelle) können wir auch mit den vorne be-
handelten Regressionsmodellen kombinieren. Sie bezeichnet man üblicherweise als AR-
MAX- bzw. ARIMAX-Modelle. Über die Menüsequenz [Statistics > Time series > ARIMA
and ARMAX models] erscheint wieder die obige Abb. 3.73. Die bisherigen Auswertungen
legen es nahe, zur Modellierung des Trends und der saisonalen monatlichen Schwankun-
gen die beiden unabhängigen Variablen Zeit und i.Month_ einzubeziehen. Dies erfolgt im
Feld „Independent variables“. Persistenzen auf dem Arbeitsmarkt und monatsbezogene
regelmäßige Schocks (bspw. wetterbedingt) führen zu Mustern in den Fehlern. Wir be-
rücksichtigen sie mittels einer AR-Komponente erster und zweiter Ordnung sowie eines
Moving-Average-Teils zwölfter Ordnung. Dies geschieht im Feld „Supply list of ARMA
lags:“. Abb. 3.81 enthält die Eingaben dieser Spezifikation. Die alternativ verwendbare
Syntaxsteuerung lautet: „arima Arbeitslosenquote Zeit i.MONTH_, ar(1 2) ma(12)“.
Den Output nach „OK“ dokumentiert Abb. 3.82.
Das Modell können wir dann, wie bereits weiter oben gezeigt, hinsichtlich der Resi-
duen und der Informationskriterien analysieren. Auf die Wiedergabe der Resultate wird
hier verzichtet: Die Residuen sind von einem weißen Rauschen nicht zu unterscheiden.
Nach AIC und BIC handelt es sich um das beste der bisher untersuchten Modelle. Die AR-
und MA-Teile sind signifikant (auch bei heteroskedastiekonsistenten Standardfehlern).
Die Koeffizientenschätzungen sind inhaltlich plausibel und stimmen mit dem einfachen
Regressionsmodell überein.
Der nächste Schritt erläutert die Verwendung von ARMAX-Modellen bei der Überprü-
fung Granger-kausaler Beziehungen. Dies erfolgt anhand der Entwicklung und des Zu-
sammenhangs von Inflationsrate und Arbeitslosenquote in Deutschland. Wir verwenden
den Datensatz „Germany_Makrodaten.dta“, der über den Zeitraum 1980 bis 2018 Jahres-
daten für das Wachstum des BIP (GDP) (zu konstanten Preisen), die Inflationsrate (auf der
Basis des Consumer Price Index – des Verbraucherpreisindex) und die Arbeitslosenquote
enthält. Saisonale Schwankungen sind wegen der Jahresdaten nicht zu erwarten. Wir ana-
lysieren, ob eine Beziehung zwischen der Arbeitslosenquote und der Inflationsrate in
Form einer (sehr einfachen) Phillipskurve existiert. Abb. 3.83 enthält die Entwicklung die-
ser zwei Größen im Beobachtungszeitraum.
Abb. 3.81 Spezifikation ARMAX-Modell
Abb. 3.82 Regressionsergebnis ARMAX-Modell

Jahr
Inflationsrate Arbeitslosenrate
Abb. 3.83 Inflation und Arbeitslosenquote 1980–2018
Klare Trends und Zyklen sind für die zwei Variablen nicht zu sehen. Wir unterstellen
im Folgenden, dass die beiden Größen stationär sind. Nach Abb. 3.83 ist es aber nicht aus-
geschlossen, dass eine höhere Arbeitslosenquote nachfolgend (d. h. mit Verzögerung) zu
einer geringeren Inflationsrate führt. In Anlehnung an Gl. (3.9) spezifizieren wir ein Mo-
dell für die Entwicklung der Arbeitslosenquote (ALQ). Basierend auf der P hillipskurve
besteht ein Zusammenhang der Inflationsrate mit der ALQ. Wir beschränken uns auf die
Frage, ob Granger-Kausalität der Inflation auf die Arbeitslosigkeit oder umgekehrt der
Arbeitslosigkeit auf die Inflation vorliegt. In unserer ersten Spezifikation dient die Infla-
tion (Variable: InflationRate) als abhängige Variable. Sie wird als AR(3)-Modell spezifi-
ziert. Die ALQ (Variable: Unemploymentrate) ist unsere unabhängige Variable. Die Ver-
zögerungen werden auf drei Jahre begrenzt, d. h., wir unterstellen, dass Anpassungsprozesse
danach nicht mehr relevant sind. Das Ergebnis einer linearen Regression findet sich in
Abb. 3.84.
Der Portmanteau-Test ergibt, dass wir für die Residuen von einem weißen Rauschen
ausgehen können. Auch die ACF und PACF bestätigen diesen Befund. Im unteren Teil der
Abb. 3.84 wird ein F-Test durchgeführt, der prüft, ob die Lags erster bis dritter Ordnung
der Arbeitslosenquote zusammen die Entwicklung der Inflationsrate beeinflussen. Ge-
nauer gesagt, ob sie einen Einfluss ausüben, der zusätzlich – über die drei Verzögerungen
der Inflationsrate hinaus – existiert. Die Nullhypothese, dass kein Einfluss vorliegt, kann
nicht abgelehnt werden. Dies bestätigt die fehlende Signifikanz der einzelnen Lags der
Variablen UnemploymentRate.
regress InflationRate L1.UnemploymentRate L2.UnemploymentRate L3.UnemploymentRate

L1.InflationRate L2.InflationRate L3.InflationRate

-------------+---------------------------------- F(6, 28) = 4.30
Model | 20.5954681 6 3.43257802 Prob > F = 0.0034
-------------+---------------------------------- Adj R-squared = 0.3682
Total | 42.9352468 34 1.26280138 Root MSE = .89322
----------------------------------------------------------------------------------
InflationRate | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------------+----------------------------------------------------------------
UnemploymentRate |
L1. | -.1161232 .2765747 -0.42 0.678 -.6826608 .4504145
L2. | .1807423 .4626975 0.39 0.699 -.7670507 1.128535
L3. | -.111754 .2885117 -0.39 0.701 -.7027434 .4792353
|
InflationRate |
L1. | .8366333 .1898412 4.41 0.000 .4477612 1.225505
L2. | -.2908944 .2491177 -1.17 0.253 -.801189 .2194001
L3. | -.002834 .1902457 -0.01 0.988 -.3925347 .3868667
|
_cons | 1.171505 .9229671 1.27 0.215 -.7191075 3.062117
----------------------------------------------------------------------------------
test L1.UnemploymentRate L2.UnemploymentRate L3.UnemploymentRate
( 1) L.UnemploymentRate = 0
( 2) L2.UnemploymentRate = 0
( 3) L3.UnemploymentRate = 0
F( 3, 28) = 0.11
Prob > F = 0.9564
Abb. 3.84 Phillipskurve
Abb. 3.85 Test auf Granger- test L1.InflationRate L2.InflationRate L3.InflationRate

Kausalität der Inflation ( 1) L.InflationRate = 0
( 2) L2.InflationRate = 0
( 3) L3.InflationRate = 0
F( 3, 28) = 1.61
Prob > F = 0.2085
Im nächsten Schritt wird getestet, inwieweit eine umgekehrte Granger-Kausalrichtung

vorhanden ist. Wir ersetzen dazu einfach die abhängige Variable InflationRate durch die
abhängige Variable UnemploymentRate, und anschließend prüfen wir einen möglichen
Einfluss der drei Lags der Variablen InflationRate zusätzlich zu den AR(3)-Lags der Ar-
beitslosenquote. Das Resultat dokumentiert Abb. 3.85.
Auch hier liegt Granger-Kausalität nicht vor: Die Lags der Inflation besitzen (jedenfalls
auf Basis der gewählten einfachen Spezifikation) keine zusätzliche Prognosekraft hin-
sichtlich der Entwicklung der Arbeitslosenquote.
Die Stata-Dokumentation ist eine wertvolle Hilfe bei der Verwendung und der Inter-
pretation der behandelten und vieler weiterführender Verfahren (Stata 2019). Die entspre-
chenden Handbücher sind kostenfrei downloadbar. Sie enthalten immer auch Anwen-
dungsbeispiele und detaillierte Literaturhinweise sowie in Anhängen die zugrunde
liegenden statistischen Formeln. Empfehlenswerte Lehrbücher zur Zeitreihenanalyse auf
der Basis von Stata sind Becketti (2013) und Ashley (2012).
3.10 Übungsaufgaben
Übung 3.1: Badeunfälle und Spielwarenumsätze

Welche Formen der Autokorrelation sind bei
a) den monatlichen Daten der Badeunfälle in den deutschen Freibädern zu erwarten?

b) den Quartalswerten für die Umsätze in Spielwareneinzelhandel zu vermuten?
Übung 3.2: Autokorrelationen von Wertpapierkursen

Der Datensatz „Aktienkurs_BMW.dta“ (bzw. „Aktienkurs_BMW.sav“) enthält die tägli-
chen Aktienkurse der BMW-Aktie (Schlusskurse) an der Frankfurter Börse vom 18.
August 2017 bis zum 19. August 2019 (insgesamt 522 Tage, d. h. Beobachtungen).
a) Sehen Sie sich die ACF und die PACF der Kurse an. Interpretieren Sie das Ergebnis.
b) Berechnen Sie die tägliche Rendite (Return). Welche Schlussfolgerungen ziehen Sie
aus der ACF und der PACF der Rendite?
Übung 3.3: Saisonale Differenzen der Arbeitslosenquote

Verwenden Sie den Datenfile „Arbeitslosenquote_D_2005-2019.dta“ bzw. „Arbeitslosen-
quote_D_2005-2019.sva“. Berechnen Sie die saisonale zwölfte Differenz der Arbeitslo-
senquote (also die Differenz zwischen der ALQ im Januar eines Jahres mit dem Januar des
Vorjahres usw.). Bilden Sie deren zeitlichen Verlauf ab und interpretieren Sie Ihre Er-
gebnisse.
Übung 3.4: Spezifikation eines AR-Modells

Wie beurteilen Sie die Spezifikation eines AR(0)-Modells?
Übung 3.5: Probleme der Modellspezifikation

Welche Einwände ergeben sich bei dem Modell zur Erklärung der monatlichen Arbeits-
losenquote mittels Trend, Monatsdummys und AR(2)? Welche möglichen Verbesserungen
sind denkbar?
Übung 3.6: ADF-Test und ARIMA-Modelle

Verwenden Sie wieder den Datensatz „Arbeitslosenquote_D_2005-2019.dta“ bzw. „Ar-
beitslosenquote_D_2005-2019.sva“.
a) Überprüfen Sie nur in Stata mittels des ADF-Tests, ob die Variable Arbeitslosenquote
zum Lag 12 stationär ist.
b) Untersuchen Sie (in Stata bzw. SPSS) im Rahmen eines ARIMA(2,1,0)-Modells deren
Residuen mittels ACF und PACF.
3.11 Lösungen 213
Übung 3.7: Granger-Kausalität

Die einfache Phillipskurve unterstellt, dass eine zunehmende Inflation mit einer abneh-
menden Arbeitslosigkeit einhergeht (bzw. diese sogar kausal beeinflusst). Welche Schluss-
folgerungen sind aufgrund der wechselseitig fehlenden Granger-Kausalität zwischen den
Variablen UnemploymentRate und InflationRate zu ziehen?
Übung 3.8: Interpretation der Modellspezifikation: ARIMA und AR

a) Welche inhaltliche Aussage enthält die folgende Spezifikation: ARIMA(2,1,2)?
b) Die Koeffizientenschätzung eines AR(1)-Modells beträgt 0,74. Was besagt dies?
Übung 3.9: Zahl der Pkw und Lebenserwartung

Analysieren Sie auf der Basis des Datensatzes „Germany_Pkw-Produktion_Lebenserwar-
tung_1901-2001.dta“ bzw. „Germany_Pkw-Produktion_Lebenserwartung_1901-2001.sva“
die Auswirkung des Einbezugs der Variable Jahr – also der Zeit – in die Regression mit der
abhängigen Variable Lebenserwartung und der unabhängigen Variable Pkw-Produktion.
3.11 Lösungen
Lösung 3.1
a) Es dürfte eine stark ausgeprägte positive Autokorrelation zwölfter Ordnung vorliegen.
In den Monaten Oktober bis April ist die Zahl der Unfälle immer sehr gering (bzw. 0)
und in den Monaten Juli und August immer hoch.
b) Zu erwarten ist eine positive Autokorrelation vierter Ordnung, da das vierte Quartal
jedes Jahres den höchsten Umsatz in der Spielwarenbranche verzeichnet.
Lösung 3.2
a) Die ACF und die PACF der BMW-Aktie für die Lags 1. bis 60. Ordnung zeigt Abb. 3.86
(im SPSS-Layout).
Es existiert eine ausgeprägte Autokorrelation erster Ordnung. Der Korrelationskoeffi-

zient des ersten Lag liegt sehr nahe bei 1. Dies resultiert, da die Aktienkurse von Tag zu
Tag nicht besonders stark schwanken: War der Aktienkurs am Vortag hoch (niedrig) wird
er am nächsten Börsentag auch wieder eher hoch (niedrig) sein. Die partielle Autokorrela-
tionsfunktion besitzt aber nur eine einzige Spitze beim ersten Lag. Wenn man den Zusam-
menhang mit dem Vortag (und den Vor-Vortagen usw.) herausrechnet (kontrolliert), d. h.
beseitigt, existieren keine grafisch sichtbaren Regelmäßigkeiten oder statistisch signifi-
kanten Beziehungen zwischen den Kursen zu verschiedenen Tagen.
Abb. 3.86 ACF und PACF der BMW-Aktie
b) Die Rendite (Return) wird hier als r = ln(Kurst/Kurst−1) berechnet. Dann ergeben sich
für diesen Return (Variable: Return_BMW) die Korrelationsfunktionen ACF und PACF
der Abb. 3.87.
Die Korrelationskoeffizienten der ACF und der PACF sind (zumindest bis zum 60. Lag)
sehr klein. Der größte Autokorrelationskoeffizient – er liegt beim 28. Lag – beträgt −0,119.
Weder die Autokorrelationsfunktion noch die partielle Autokorrelationsfunktion weisen
3.11 Lösungen 215
Abb. 3.87 Korrelationsfunktionen der Rendite
Regelmäßigkeiten auf. Mit Ausnahme des 28. Lag liegt kein einziger Koeffizient im signi-
fikanten Bereich, d. h. außerhalb der Konfidenzgrenzen. Entsprechende Tests (nicht ab-
gebildet) ergeben, dass die Nullhypothese „Weißes Rauschen“ akzeptiert werden kann.
Der 28. Lag wird daher als irrelevant eingeschätzt. Insgesamt wird die Hypothese eines
effizienten Kapitalmarktes gestützt. Wenn Regelmäßigkeiten in der Renditeentwicklung
identifizierbar wären, sollten diese auf einem effizienten Kapitalmarkt zu entsprechenden
Käufen/Verkäufen der BMW-Aktie führen, die sie wieder verschwinden lassen.
Lösung 3.3
Stata: Die Bildung von saisonalen Differenzen yt − yt−12 erfordert den Einsatz des Sai-
son-Operators S. Der Operator D differenziert dagegen zwölfmal hintereinander
(yt − yt−1) − (yt−1 − yt−2) usw. Daher muss „S12.“ als Operator verwendet werden! Abb. 3.88
enthält das Ergebnis in Abhängigkeit von der Zeit.
SPSS: Vorweg ist die Periodizität der Saison – hier zwölf Monate – zu definieren. Mit-
tels Menüsteuerung bilden wir die erste saisonale Differenz yt − yt−12 über [Transformie-
ren > Zeitreihe erstellen]. Dabei muss zuerst festgelegt werden, dass die erste saisonale
Differenz zu bilden ist. Dies erfolgt im Feld „Name und Funktion“ unter „Funktion“ durch
Auswahl von „Saisonale Differenz“ und bei „Reihenfolge“ durch die Eingabe des Wertes
„1“. Danach wird im Feld „Variable -> Neuer Name“ die Arbeitslosenquote als zu diffe-
renzierende Variable eingefügt (siehe Abb. 3.89) Außerdem kann im Beispiel der vorein-
gestellte Name geändert werden (hier zu „Arbeit_S1“).
Über [Grafik > Diagrammerstellung] wird eine Liniengrafik erzeugt, die im Layout et-
was von der obigen Stata-Grafik der Abb. 3.88 abweicht.
Interpretation:
Bezugspunkt sind jeweils die Vorjahresmonate: Die Horizontale bei dem Wert 0 be-
deutet, dass im Vergleich zum Vorjahresmonat die Arbeitslosenquote sich nicht verändert
hat. Zunächst sinkt die ALQ in einem Monat im Vergleich zum Vorjahresmonat relativ
stark, dann nimmt sie wieder zu (46–50er Monat). Anschließend sinkt sie wieder deutlich,
stagniert dann etwas, um schließlich stufenförmig langsam weiter zu sinken.
Lösung 3.4
Dies ist inhaltlich unsinnig, da ja dann die abhängige Variable Yt auch als unabhängige
Variable auf der rechten Seite verwendet würde. Es handelt sich um eine rein definitorisch
perfekte Übereinstimmung von rechter und linker Seite der Regressionsgleichung.
generate FD12_Arbeitslosenquote = S12.Arbeitslosenquote

(12 missing values generated)
twoway tsline FD12_Arbeitslosenquote
Abb. 3.88 Saisonale Differenzen der Arbeitslosenquote

3.11 Lösungen 217
Abb. 3.89 Bildung saisonaler Differenzen in SPSS
Lösung 3.5
Hier wird unterstellt, dass die monatlichen Einflüsse (etwa des Mai) im gesamten Beob-
achtungszeitraum identisch sind (um die gleichen Prozentpunkte abnehmen bzw. zuneh-
men). Eine besser geeignete Spezifikation wäre ggf. die logarithmierte Arbeitslosenquote:
Dann können die absoluten Veränderungen der Arbeitslosenquote (bspw. im Mai) am An-
fang der Zeitreihe größer sein und am Ende kleiner, da nur noch die prozentuale Änderung
als identisch vorausgesetzt wird.
Weitere mögliche alternative Modellspezifikationen beziehen sich bspw. auf die Be-
rücksichtigung nichtlinearer Trends und den Einbezug weiterer unabhängiger Variablen
(Höhe der Tarifabschlüsse, Veränderung der Zinsen, Entwicklungstrends des Welthandels,
internationale Konjunkturzusammenhänge etc.).
Lösung 3.6
a) Der ADF-Test für den Lag 12 kommt zum Resultat der Abb. 3.90.
Die Nullhypothese „nicht stationär“ wird abgelehnt. Wir gehen also davon aus, dass bei
Berücksichtigung der saisonalen Struktur in gleichen Monaten verschiedener Jahre (= Lag
12) die Variable Arbeitslosenquote stationär ist.
dfuller Arbeitslosenquote, trend regress lags(12)
Augmented Dickey-Fuller test for unit root Number of obs = 156

------------------------------------------------------------------------------
Z(t) -7.563 -4.021 -3.443 -3.143
------------------------------------------------------------------------------
Abb. 3.90 Augmented Dickey-Fuller-Test
Abb. 3.91 ACF und PACF des ARIMA(2,1,0)-Modells
b) Die ACF der Residuen und die PACF der Residuen des ARIMA(2,1,0)-Modells enthält
Abb. 3.91.
Gut zu identifizieren ist die 12-Monats-Struktur, da wir die saisonale Komponente ver-
nachlässigt haben.
Lösung 3.7
Naheliegend ist, dass keine negative Beziehung, wie sie die Phillipskurve zwischen Ar-
beitslosenquote und Inflationsrate postuliert, vorliegt und auch keine Simultanität vorhan-
den ist. Aber dies ist nicht sicher, da möglicherweise Einflüsse höherer Lags und nichtli-
neare Beziehungen existieren. Auch sonstige andere Spezifikationen sind eventuell
angebracht (bspw. Veränderungsraten der Inflation oder Inflationserwartungen).
Lösung 3.8
a) Es handelt sich um ein autoregressives, integriertes Modell mit gleitendem Durch-
schnitt (Moving Average). Die um eine und zwei Perioden verzögerte abhängige Vari-
able wird als unabhängige Variable verwendet. Dies ist ein autoregressiver Teil zweiter
Ordnung (p = 2). Die erste Differenz wird gebildet, um einen Trend zu beseitigen
(d = 1). Der Integrationsgrad beträgt also 1. Der Fehler in einer Periode hat Auswirkun-
3.11 Lösungen 219
. regress Lebenserwartung PKW_Prod_100Tsd Jahr

-------------+---------------------------------- F(2, 78) = 1040.39
Model | 7548.82633 2 3774.41316 Prob > F = 0.0000
Residual | 282.975497 78 3.62789099 R-squared = 0.9639
-------------+---------------------------------- Adj R-squared = 0.9629
Total | 7831.80182 80 97.8975228 Root MSE = 1.9047
---------------------------------------------------------------------------------
Lebenserwartung | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------------+----------------------------------------------------------------
PKW_Prod_100Tsd | -.2153786 .0273761 -7.87 0.000 -.2698803 -.160877
Jahr | .4832592 .0197434 24.48 0.000 .443953 .5225653
_cons | -869.3425 38.08851 -22.82 0.000 -945.1709 -793.5141
---------------------------------------------------------------------------------
Abb. 3.92 Pkw und Lebenserwartung
gen auf die abhängige Variable der folgenden zwei Perioden. Dies ist der Moving-
Average-Teil mit den Lags erster und zweiter Ordnung (q = 2).
b) Dies bedeutet, die abhängige Variable der Vorperiode besitzt c. p. einen Einfluss auf die
abhängige Variable der laufenden Periode. Ist Yt−1 um eine Einheit größer, so wird Yt
um 0,74 Einheiten zunehmen.
Lösung 3.9
Die Regression mit der Lebenserwartung als abhängiger Variable und der Variable Jahr
sowie der Automobilproduktion (Pkw_Prod_100Tsd) als unabhängigen Variablen zeigt
Abb. 3.92.
Die Variable Jahr hat einen hoch signifikanten positiven Einfluss auf die Lebenserwar-
tung. Die Pkw-Produktion ist zwar immer noch signifikant, aber übt jetzt eine negative
Wirkung auf die Lebenserwartung aus! Auch dieser Zusammenhang kann natürlich nicht
kausal interpretiert werden.
Anhang 3.1: ACF und PACF von ARIMA-Modellen
Um die Struktur von ARIMA(p,d,q)-Modellen zu identifizieren, können die ACF und die
PACF herangezogen werden. Weichen bestimmte Lags der ACF bzw. der PACF signifi-
kant von 0 ab, sind dies Hinweise, welche Werte für p, d und q anzusetzen sind. Die
Abb. 3.93a–g illustrieren die prinzipiellen Zusammenhänge bei Autokorrelation, Moving-
Average-Prozessen und nicht stationären Zeitreihen.
Autokorrelation macht sich durch eine exponentiell (geometrisch) abnehmende ACF

bemerkbar, wobei die Größe der Abnahme von den Autokorrelationskoeffizienten ab-
hängt. Die Zahl der Spitzen der jeweiligen PACF markiert die Höhe der Ordnung der
Autokorrelationsfunktion – in Abb. 3.93a–b) einen ARIMA(1,0,0)- und einen ARI-
MA(2,0,0)-Prozess. In beiden Fällen handelt es sich um positive Autokorrelation. Bei
negativer Autokorrelation erster Ordnung oszilliert die ACF um die Nulllinie (Abb. 3.93c).
Sie liegt bei ungeraden Lags im negativen und bei geraden Lags im positiven Bereich.
Eine Kombination von positiver und negativer Autokorrelation erster bzw. zweiter Ord-
nung führt ebenfalls zu Oszillationen zwischen negativen und positiven Werten der ACF
und ggf. der PACF.
Zeitreihen mit Moving-Average-Prozessen zeichnen sich durch langsam abnehmende
PACF aus. Diese Abnahme kann nur im positiven bzw. nur im negativen Wertebereich
oder auch oszillierend stattfinden. Die Anzahl der Spitzen der jeweiligen ACF sind ein
Indiz für die Ordnung der MA-Prozesse. Abb. 3.93d–e) illustrieren eine ARIMA(0,0,1)-
und eine ARIMA(0,0,2)-Zeitreihe für MA-Prozesse.
Nicht stationäre Zeitreihen weisen Autokorrelationen auf, die kaum abnehmen und
daher auch noch bei hohen Lags vorhanden sind. Die ACF bei einem Integrationsgrad
erster Ordnung (ARIMA(0,1,0) zeigt Abb. 3.93f). Diese kann auch Schwankungen zwi-
schen positiven und negativen Werten aufweisen (Abb. 3.93g). Die dazugehörigen PACF
besitzen eine Spitze bei dem Lag 1. In dieser Situation muss die Zeitreihe (einmal) diffe-
renziert werden, um Stationarität sicherzustellen.
Eine Zeitreihe, bei der Autokorrelation und Moving Average gemeinsam existieren,
besitzt eine langsam abnehmende ACF-Funktion aufgrund der Autokorrelation p und zu-
sätzlich eine sich langsam verringernde PACF, die auf den Moving-Average-Prozess q
zurückgeht. Die Konsequenz ist, dass die Höhe der Ordnungen, d. h. die Werte von p und
q, visuell nicht mehr klar bestimmbar sind. In dieser Situation sollte zunächst ein einfa-
ches ARIMA(1,0,1)-Modell spezifiziert werden.
Bei allen Zeitreihen, die verschiedene Strukturkomponenten gleichzeitig aufweisen –
bspw. einen ARIMA(1,1,1)-Prozess – verlaufen die ACF und PACF deutlich komplexer
und sind häufig nicht so eindeutig visuell identifizierbar wie in Abb. 3.93. In der Regel
sind saisonale Einflüsse aber einfacher zu erkennen, da sie schon aus inhaltlichen Über-
legungen naheliegen.
Die Abbildungen stellen idealtypische vereinfachte Verläufe der ACF und der PACF
dar. Bei konkreten Zeitreihen existieren zufallsbedingt immer (sehr) kleine positive und
negative Autokorrelationen sowie partielle Autokorrelationen. Sie treten auch über grö-
ßere Zeitabstände hinweg auf. Nur wenn sie signifikant sind, müssen wir uns näher mit
ihnen beschäftigen. Außerdem werden rein zufallsbedingt bei Analysen höherer Lags im
Einzelfall signifikante Korrelationen auftreten. Sofern diese inhaltlich nicht plausibel sind,
werden sie ignoriert. Das ganze Verfahren zur Bestimmung von p, d und q hat einen stark
explorativen Charakter.
3.11 Lösungen 221
a) ARIMA(1,0,0): Positive Autokorrelation 1. Ordnung

ACF PACF
+ +
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
b) ARIMA(2,0,0): Positive Autokorrelation 2. Ordnung

ACF PACF
+ +
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
c) ARIMA(1,0,0): Negative Autokorrelation 1. Ordnung

ACF PACF
+ +
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
Abb. 3.93 ACF und PACF verschiedener ARIMA-Modelle. (Quelle: eigene Darstellung nach Dixon
1992, S. 55–59)
d) ARIMA(0,0,1): Positiver Moving Average 1. Ordnung

ACF PACF
+ +
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
e) ARIMA(0,0,2): Positiver Moving Average 2. Ordnung

ACF PACF
+ +
0 0
-
10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
f) ARIMA(0,1,0): Integration 1. Ordnung (Nicht-stationäre Zeitreihe)

ACF PACF
+
+
-
1 2 3 4 5 6 7 8 9
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 Lag
Abb. 3.93 (Fortsetzung)
Literatur 223
g) ARIMA(0,1,0): Integration 1. Ordnung (Nicht-stationäre Zeitreihe)

PACF
ACF
+
+
0 0
- -
1 2 3 4 5 6 7 8 9 10 11 12 Lag 1 2 3 4 5 6 7 8 9 10 11 12 Lag
Abb. 3.93 (Fortsetzung)
Literatur
Aljandali, A. (2016). Quantitative analysis and IBM® SPSS® statistics, a guide for business and fi-
nance. Heidelberg: Springer.
Aljandali, A. (2017). Multivariate methods and forecasting with IBM® SPSS® statistics. Heidelberg:
Springer.
Ashley, R. A. (2012). Fundamentals of applied econometrics. Hoboken: Wiley.
Auer, B., & Rottmann, H. (2010). Statistik und Ökonometrie für Wirtschaftswissenschaftler. Wies-
baden: Springer.
Autor, D. H. (2003). Outsourcing at will: The contribution of unjust dismissal doctrine to the growth
of employment outsourcing. Journal of Labor Economics, 21(1), 1–42.
Becketti, S. (2013). Introduction to time series using Stata. College Station: Stata Press.
Boffelli, S., & Urga, G. (2016). Financial econometrics using Stata. College Station: Stata Press.
Box, G., & Jenkins, G. (1970). Time series analysis: Forecasting and control. San Francisco:
Holden-Day.
Box-Steffensmeier, J. M., Freeman, J. R., Hitt, M. P., & Pevehouse, J. C. W. (2014). Time series
analysis for the social sciences. New York: Cambridge University Press.
Castle, J., Hendry, D., & Clements, M. (2019). Forecasting: An essential introduction. Yale: Yale
University Press.
CEIC. (2018). https://www.ceicdata.com/en/indicator/greece/long-term-interest-rate. Zugegriffen
am 21.07.2019.
Chan, N. H. (2002). Time series: Applications to finance. New York: Wiley.
Chan, P. (2012). https://www.youtube.com/watch?v=hoieVXftzxE. Zugegriffen am 01.09.2019.
Chatterjee, S., & Hadi, A. S. (2012). Regression analysis by example (5. Aufl.). Hoboken: Wiley.
Clark, A. E., Diener, E., Georgellis, Y., & Lucas, R. E. (2008). Lags and leads in life satisfaction: A
test of the baseline hypothesis. SOEPpapers on multidisciplinary panel data research, No. 84,
DIW, Berlin.
Dixon, D. W. (1992). A statistical analysis of monitored data for methane production. PhD-thesis,
University of Nottingham. http://eprints.nottingham.ac.uk/12977/1/334922.pdf. Zugegriffen am
28.10.2019.
Dougherty, C. (2016). Introduction to econometrics (5. Aufl.). Oxford: Oxford University Press.
Enders, W. (2014). Applied econometric time series (4. Aufl.). New York: Wiley.
Finanzen.net. (2019). www.finanzen.net/chart/siemens. Zugegriffen am 25.06.2019.
Franses, P. H., van Dijk, D., & Opschoor, A. (2014). Time series models for business and economic
forecasting (2. Aufl.). Cambridge: Cambridge University Press.
Granger, C. W. J., & Newbold, P. (1974). Spurious regression in econometrics. Journal of Econome-
trics, 2(2), 111–120.
Greene, W. H. (2018). Econometric analysis (8. Aufl.). Boston: Pearson.
Gujarati, D. (2015). Econometrics by example (2. Aufl.). London/New York: Palgrave Macmillan.
Hanke, J. E., & Wichern, D. W. (2014). Business forecasting (9. Aufl.). Upper Saddle River: Pearson.
Hill, R. C., Griffiths, W. E., & Lim, G. C. (2008). Principles of econometrics (3rd. Aufl.). Hobo-
ken: Wiley.
Hyndman, R., & Athanasopoulos, G. (2018). Forecasting, principles and practice (2. Aufl.). Lexing-
ton: OTexts.
IBM SPSS. (2016). https://www-01.ibm.com/support/docview.wss?uid=swg21481519. Zugegriffen
am 09.08.2019.
IBM SPSS. (2019a). https://sourceforge.net/projects/ibmspssstat/. Zugegriffen am 11.08.2019.
IBM SPSS. (2019b). IBM SPSS statistics base 24. http://share.uoa.gr/public/Software/SPSS/
SPSS24/Manuals/IBM%20SPSS%20Statistics%20Base.pdf. Zugegriffen am 11.08.2019.
IBM SPSS 25. (2017). ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statis-
tics/25.0/en/client/Manuals. Zugegriffen am 09.08.2019.
IBM SPSS 25 Forecasting. (2017). ftp://public.dhe.ibm.com/software/analytics/spss/documenta-
tion/statistics/25.0/de/client/Manuals/IBM_SPSS_Forecasting.pdf. Zugegriffen am 09.08.2019.
Inflationdata. (2019). https://inflationdata.com/articles/inflation-adjusted-prices/historical-crude-oil-
prices-table/. Zugegriffen am 23.06.2019.
Kennedy, P. (2008). A guide to econometrics (6. Aufl.). Malden: Wiley-Blackwell.
Kirchgässner, G., Wolters, J., & Hassler, U. (2014). Introduction to modern time series analysis (2.
Aufl.). Berlin/Heidelberg: Springer.
Macrotrends. (2019). https://www.macrotrends.net/stocks/charts/AAL/american-airlines-group/
operating-expenses. Zugegriffen am 20.08.2019.
Oshima, T. C., & Dell-Ross, T. (2016). All possible regressions using IBM SPSS: A practitioner’s
guide to automatic linear modeling. Georgia educational research association conference. 1.
https://digitalcommons.georgiasouthern.edu/cgi/viewcontent.cgi?article=1187&context=gera.
Perron, P. (2006). Dealing with structural breaks. In T. C. Mills & K. Patterson (Hrsg.), Palgrave
handbook of econometrics: econometric theory (Bd. 1, S. 278–352). Basingstoke: Palgrave
Macmillan.
Petropoulos, F., Kourentzes, N., Nikolopoulos, K., & Siemsen, E. (2018). Judgemental selection of
forecasting models. Journal of Operations Management, 60, 34–46. https://doi.org/10.1016/j.
jom.2018.05.005.
Pickup, M. (2015). Introduction to time series analysis. Los Angeles: SAGE Publications.
Pindyck, R. S., & Rubinfeld, D. L. (1998). Econometric models and economic forecasts (4. Aufl.).
Boston: McGraw-Hill.
SPSStools. (2019). http://spsstools.net/en/syntax/syntax-index/regression-repeated-measures/chow-
test/. Zugegriffen am 01.09.2019.
Stata. (2017). Stata time series reference manual release 15. College Station: Stata Press.
Stata. (2019). https://www.stata.com/features/documentation/. Zugegrifffen am 09.08.2019.
Literatur 225
Statistisches Bundesamt. (2019a). https://www.destatis.de/DE/Themen/Gesellschaft-Umwelt/Bevo-

elkerung/Sterbefaelle-Lebenserwartung/Publikationen/Downloads-Sterbefaelle/Kohortensterbe-
tafelnBericht5126206179004.html?nn=238640. Zugegriffen am 20.07.2019.
Statistisches Bundesamt. (2019b). https://www.destatis.de/DE/Themen/Arbeit/Arbeitsmarkt/Er-
werbslosigkeit/_inhalt.html17.06.2019. Zugegriffen am 25.06.2019.
Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics (Updated 3rd ed., Global Edi-
tion). Amsterdam: Pearson.
nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer.
Studenmund, A. H. (2016). Using econometrics: A practical guide (7. Aufl.). Boston:
Pearson.
Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson.
Tsay, R. S. (2010). Analysis of financial time series. Hoboken: Wiley.
Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5.
Aufl.). Wiesbaden. Springer VS.
Vance, M., Hurn, S., & Harris, D. (2013). Econometric modelling with time series. New York: Cam-
bridge University Press.
Wikpedia. (2019). https://de.wikipedia.org/wiki/Wirtschaftszahlen_zum_Automobil/Deutsch-
land#Bundesrepublik_Deutschland. Zugegriffen am 20.07.2019.
Winker, P. (2017). Empirische Wirtschaftsforschung und Ökonometrie (4. Aufl.). Berlin: Springer.
Wooldridge, J. (2016). Introductory econometrics – A modern approach (6. Aufl.). Boston: Cengage
Learning.
Worldbank. (2019). https://data.worldbank.org/indicator. Zugegriffen am 23.06.2019.
Paneldatenanalyse
4
Lernziele
• eine Reihe von Besonderheiten bei der Verwendung von Paneldaten – wie echte
und gepoolte Panels, Balanced und Unbalanced Panels sowie kurzes und langes
Datenformat – verstehen,
• erläutern können, inwieweit verschiedene Differences-in-Differences-Verfahren
ein möglicher Untersuchungsansatz zur Bestimmung kausaler Effekte sind,
• in der Lage sein, den Einsatz erster Differenzen (First Differences) zu erklären,
• die Verwendung von Dummyvariablen zur Schätzung von fixen Effekten darle-
gen können,
• den Unterschied von Fixed-Effects- und Random-Effects-Verfahren überblicken,
• verstehen, wann eine einfache gepoolte OLS-Schätzung möglich ist,
• wissen, inwieweit unbeobachtete Heterogenität im Rahmen der Analyse von Pa-
neldaten berücksichtigt wird,
• die Grenzen dieser Verfahren bei der Ermittlung kausaler Zusammenhänge
verstehen,
• den Breusch-Pagan- und den Hausman-Test anwenden können,
• überblicken, inwiefern Heteroskedastie und Autokorrelation der Residuen bei Pa-
neldaten relevant sind.
cc Wichtige Grundbegriffe Echte Paneldaten, gepooltes Panel, kurzes und langes

Datenformat, Innerhalb-(Within-) und Zwischen- (Between-)Abweichungen, Differences-
in-Differences-Verfahren, Erste Differenzen (First Differences), Fixed Effects, Random
Effects, Endogenitätsproblem, Breusch-Pagan-Test, Hausman-Test
228 4 Paneldatenanalyse
4.1 Überblick
Einführend stellt Abschn. 4.2 eine Reihe von Besonderheiten bei Paneldatensätzen dar.
Abschn. 4.3 charakterisiert die grundlegenden Arten von Abweichungsanalysen (Varian-
zanalysen) im Rahmen von Paneldaten. Darauf aufbauend beschreibt Abschn. 4.4 die vier
wichtigsten Schätzverfahren zur Analyse echter Paneldaten: die gepoolte OLS-, die Fi-
xed-Effects (FE)-, die Random-Effects (RE)- und die First-Differences (FD)-Methode.
Dieser Abschnitt erläutert außerdem die Entscheidungsverfahren zur Wahl einer geeigne-
ten Schätzmethode. Abschn. 4.5 beschreibt das Vorgehen bei unechten Panels (gepoolten
Paneldaten), d. h. die Differences-in-Differences (DiD)-Methode, und Abschn. 4.6 erläu-
tert kurz einige komplexere Weiterentwicklungen. Abschließend stellt Abschn. 4.7 die
praktische Anwendung in SPSS und Stata dar. Alle Abschnitte fokussieren die Verwen-
dung von Paneldaten zur Identifikation kausaler Wirkungen.
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren
Echte Paneldaten beziehen sich auf immer die gleichen Beobachtungseinheiten (Beobach-
tungsträger) zu unterschiedlichen Zeitpunkten. Zum Beispiel wird das Innovationsverhal-
ten von 34 mittelständischen Unternehmen des Werkzeugmaschinenbaus über 20 Quartale
hinweg beobachtet. Es handelt sich immer um die gleichen 34 Unternehmen in den Quar-
talen I/2015 bis IV/2019. Ein weiteres Beispiel ist die Untersuchung des Zusammenhangs
von Investitionen, Außenbeitrag und anderen makroökonomischen Größen mit der Ar-
beitslosenquote in den 20 OECD-Gründungsstaaten seit 1950. Auch hier handelt es sich
immer um die gleichen Beobachtungsträger – nämlich alle 20 OECD-Gründungsstaaten.
Die Namen solcher echter Längsschnittdaten (Longitudinal Data) variieren, von Greene
(2012, S. 184) werden sie bspw. als Fixed Panel bezeichnet.
Unechte Panels – auch gepoolte Panel- oder gepoolte Querschnittsdaten genannt –
sind dagegen im Zeitverlauf wiederholte Querschnittsdaten. Dies firmiert bei Greene
(2012, S. 184) als Rotating Panel. Dabei wird bspw. die gleiche Umfrage, aber bei jeweils
1000 verschiedenen Haushalten in zwei aufeinanderfolgenden Jahren, durchgeführt, oder
es handelt sich um vier Stichproben von jeweils 100 KMU aus den Jahren 2014, 2016,
2018 und 2020. In diesem Fall sind andere Untersuchungsmethoden anzuwenden. Das
dann relevante Verfahren zur Identifikation kausaler Effekte erläutert Abschn. 4.5.
Paneldaten besitzen also zwei Dimensionen, auf die sich die Daten beziehen: eine
Querschnittsdimension (bspw. die verschiedenen Unternehmen, Staaten oder Haushalte)
und eine Zeitreihendimension (bspw. die unterschiedlichen Tage, Quartale oder Jahre).
Der resultierende Paneldatensatz umfasst N Beobachtungseinheiten zu T Beobachtungs-
zeiträumen (bzw. Zeitpunkten). Die verschiedenen Beobachtungseinheiten kürzen wir mit
„i“ ab, die unterschiedlichen Zeitpunkte mit „t“ und die unabhängigen Variablen mit „X“.
Die Beobachtung Xit stellt dann den Wert der unabhängigen Variablen X für bspw. das
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren 229
Unternehmen i zum Zeitpunkt t dar. Dabei gilt, dass i die Werte von 1 bis N und t die Werte
von 1 bis T annimmt. Entsprechendes gilt für die abhängige Variable Yit.
Bei echten und gepoolten Paneldaten müssen die Zeitpunkte, auf die sich die Beobach-
tungen beziehen, einheitlich festgelegt sein. Das heißt, es sind immer identische Zeitraum
abgrenzungen zu verwenden (die Umsatzzahlen aller Unternehmen beziehen sich bspw.
entweder auf Quartalsdaten oder Jahresdaten), und die Abstände zwischen den Beobach-
tungszeitpunkten sollten übereinstimmen (also immer ein Jahr oder ein Quartal auseinan-
derliegen). Bei der Zusammenstellung von Datensätzen aus verschiedenen Quellen muss
sichergestellt sein, dass die Abgrenzungen (Definitionen) konform gehen, also z. B. die
Zeiträume oder Zeitpunkte, an die die Aussagen anknüpfen, identisch sind.
Ein weiteres Problem ergibt sich bei der Verwendung von monetären Größen (Euro,
US-$ etc.). Sie treten als makroökonomische Variable (bspw. BIP, Konsumausgaben, In-
vestitionsvolumen) ebenso wie als mikroökonomische Variable (bspw. Güterpreise, Lohn-
sätze, Umsätze) auf. Solche Größen werden häufig in laufenden Preisen (d. h. nominalen
Werten) erfasst. Diese verändern sich im Zeitverlauf allein aufgrund der Inflationsrate. In
der Regel geht es in den empirischen Untersuchungen aber um den Einfluss realer Verän-
derungen. Dazu müssen die nominalen Werte deflationiert – also um die Inflation berei-
nigt – werden. Es ist also darauf zu achten, ob die monetären Variablen im Datensatz be-
reits in realen Werten erfasst sind (dies ist ggf. bei Sekundärdatensätzen der Fall).
Andernfalls ist die Deflationierung selbst vorzunehmen.1
Außerdem müssen die Beobachtungsträger im Beobachtungszeitraum einheitlich de-
finiert werden. Diese Voraussetzung kann bspw. bei Regionen und Unternehmen verletzt
sein: Staaten werden zusammengelegt (BRD – DDR 1990) oder geteilt (Tschechoslowa-
kei, Jugoslawien, UdSSR); Gebietsreformen verändern Länder, Städte oder Gemeinden;
Unternehmen fusionieren, wachsen durch Aufkäufe oder werden abgespalten. Bei ech-
ten Paneluntersuchungen von Personen, privaten Haushalten oder Unternehmen verän-
dert sich das Panel ebenfalls laufend, etwa durch Tod, Auswanderung und Verweigerung
der weiteren Teilnahme am Panel. Von Erhebungszeitpunkt zu Erhebungszeitpunkt ge-
hen Beobachtungseinheiten (Individuen, Haushalte, Unternehmen etc.) sozusagen „ver-
loren“. Längerfristig angelegte Panelstudien müssen daher ständig den Besatz an Un
tersuchungseinheiten auf geeignete Weise ergänzen, da andernfalls die Zahl der
Beobachtungseinheiten kontinuierlich schrumpft. Dieses Problem bezeichnet man als
Panelmortalität (Panel Attrition). Auch wenn nur ein natürlicher Abgang durch Tod
bzw. Insolvenz oder Unternehmensaufgabe erfolgt, führt dies ggf. zu einer „Vergrei-
sung“ des Panels, das dann aufgrund fehlender junger Individuen und Unternehmen
nicht mehr repräsentativ für die jeweilige Grundgesamtheit ist. Auch dies ist durch ge-
1
Falls die abhängige monetäre Variable – bspw. das Einkommen – logarithmiert wird und die ver-
schiedenen Zeitpunkte der Paneldaten in Form von Dummys berücksichtigt werden, ist die Verwen-
dung realer Größen nicht notwendig. Dies ergibt sich, weil die unterschiedlichen Preisniveaus zu
den verschiedenen Zeitpunkten durch die Dummys der Zeitpunkte kontrolliert werden (Wooldridge
2018, S. 406).
eignete Ergänzungen der Beobachtungseinheiten zu korrigieren.2 Bei unechten Panel-

und Querschnittsuntersuchungen treten solche Schwierigkeiten nicht auf, da man zu
jedem Zeitpunkt jeweils neue Zufallsstichproben zieht. Besonders problematisch ist es,
wenn dieser Schwund systematisch mit bestimmten Einflussfaktoren korreliert, die un-
beobachtet bleiben. Zum Beispiel könnten im Berufsweg weniger erfolgreiche Personen
dazu neigen, an den Panelbefragungen nicht (mehr) teilzunehmen.
Ein praktisch wesentliches Hindernis sind die hohen Kosten von fundierten Paneldate-
nerhebungen; Kosten, die außerdem regelmäßig immer wieder anfallen. Daher sind im
Rahmen der (früher) üblichen öffentlichen Forschungsförderung, die einzelne Projekte
mit Laufzeiten mit 3 bis 5 Jahren fördert, echte Paneldaten nicht bzw. kaum zu generieren.
Praktisches Beispiel: Paneldatensätze
Paneldaten sind auf Makroebene, d. h. für regionale Einheiten wie Staaten, Länder und
Kommunen seit Langem vorhanden. Sie beschränkten sich aber ursprünglich auf we-
nige Variablen (bspw. die Bevölkerung oder das städtische Steueraufkommen). Seit ca.
70 Jahren werden von den Einrichtungen der amtlichen Statistik eine Vielzahl von
Daten systematisch erfasst und bereitgestellt (Bruttoinlandsprodukt, Inflation, Arbeits
losigkeit usw.). In der Volkswirtschaft und dort zunächst in der Makroökonomie sind
echte Paneldaten seit den 1960er-Jahren Basis von Regressionsmodellen. Hier sind ak-
tuell und mit Fokus auf (entwicklungs)ökonomischen Aspekten die Penn World Tables
(Penn World Tables 2020) besonders relevant. Am weitesten in die Vergangenheit
reichen die Daten des Maddison-Projekts zurück. Sie schätzen retrospektiv das reale
Bruttoinlandsprodukt pro Kopf für 168 Staaten der Welt. Dies erfolgt in einigen Fällen
seit dem Jahr 1 unserer Zeitrechnung, für viele Staaten seit dem Anfang des 19. Jh. und
wird bis in die Gegenwart fortgeführt (Maddison 2020). Die Datenbanken der OECD
und der Weltbank haben eine besonders breite Perspektive und enthalten umfangreiche
Informationen nicht nur ökonomischer sondern allgemein sozialwissenschaftlicher
Ausrichtung (OECD 2020; World Bank 2020). Dies gilt hinsichtlich der OECD insbe-
sondere für ihre 36 Mitgliedsstaaten und die letzten 70 Jahre.
Auf disaggregiertem Niveau (Individuen, Haushalte, Unternehmen) ist die Erhe-
bung von Paneldaten erst seit ungefähr 40 Jahren relevant. Sie hat aber in den letzten 30
Jahren stetig an Bedeutung gewonnen. Beispiele für Deutschland sind in der Arbeits-
marktforschung (seit 1993) das Betriebspanel des Instituts für Arbeitsmarkt- und
Berufsforschung mit 16.000 Betrieben (IAB 2020). Auch in der Betriebswirtschafts-
lehre sind Panels mit kommerzieller Ausrichtung für die Konsumentenforschung (bspw.
ACNielsen und das Consumer Panel der GfK – Gesellschaft für Konsumforschung)
etabliert (Günter et al. 2018).
In der Soziologie und Politikwissenschaft existiert ebenfalls inzwischen eine Reihe
von Haushaltpanels. Das älteste (seit 1984) ist das SOEP – Sozioökonomisches Panel –
2
Geeignete Vorgehensweisen, um dieses Abschmelzen und damit Verfälschen zu vermeiden, werden
unter dem Begriff „Panel Design“ erläutert. Siehe dazu Günter et al. (2018); Schnell et al. (2018);
Frees (2004).
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren 231
mit einem Umfang von knapp 15.000 Haushalten. Das Nationale Bildungspanel –
NEPS National Educational Panel Study – erfasst seit 2009 die Bildungsverläufe von
u. a. 10.000 Erwachsenen. Pairfam (Panel Analysis of Intimate Relationships and Fam-
ily Dynamics) startete 2008 und ist ein Beziehungs- und Familienpanel, das auf 12.000
Personen basiert (Pairfam 2020). Bei diesen drei Umfragepanels handelt es sich
(prinzipiell) um echte Panels. Dagegen sind ALLBUS und GEDA zwei unechte Panels.
ALLBUS – Allgemeine Bevölkerungsumfrage der Sozialwissenschaften – beinhaltet
alle zwei Jahre eine Stichprobe von ungefähr 3400 Haushalten (Allbus 2020). Den
Gesundheitszustand und das Gesundheitsverhalten erfasst das Robert-Koch-Institut
bspw. mit GEDA (Gesundheit in Deutschland aktuell) seit dem Jahr 2009 und basie
rend auf einer Stichprobe von ca. 20.000 Personen ebenfalls alle zwei Jahre. ◄
Bei echten Paneldatensätzen ist eine Reihe von weiteren Besonderheiten zu beachten.
Es wird zwischen einem „Balanced“ Panel und einem „Unbalanced“ Panel unterschieden.
In einem Balanced Panel sind für alle Beobachtungseinheiten (Personen, Unternehmen,
Regionen usw.) und alle Zeitpunkte Informationen vorhanden. Der Datensatz ist insoweit
vollständig und enthält folglich N × T Datenwerte. Bei einem Unbalanced Panel liegen
für einzelne Zeitpunkte bei bestimmten Beobachtungseinheiten keine Daten vor. Der Be-
obachtungsdatensatz ist unvollständig. Idealerweise sollte das Panel „Balanced“ sein.
Aber auch Unbalanced Panel können (unter bestimmten Annahmen) von der statistischen
Software analysiert werden. Die jeweiligen Verfahren variieren dabei je nach Pro-
grammpaket.
Schließlich müssen für die statistischen Analysen bei echten Paneldatensätzen die Da-
ten in die „richtige“, d. h. für das Programmpaket interpretierbare Form gebracht werden.
Liegen die Daten im sogenannten Short Format (= Wide Format) vor, müssen sie in das
Long Format überführt werden. Ein Beispiel für das Short Format enthält Abb. 4.1.
Es handelt sich um die Anzahl der Studienanfänger an den deutschen Hochschulen für
12 aufeinanderfolgende Jahre, die hier einfach als Jahre 1 bis 12 bezeichnet werden. Im
Short Format stehen die Erstsemester der Universität Freiburg im Breisgau der Jahre 1 bis
12 in einer Zeile hintereinander. In der zweiten Zeile finden sich die Anfängerzahlen für
die Universität Heidelberg etc. Jede Hochschule stellt eine Beobachtung dar. Die einzel-
nen Hochschulen sind in diesem Beispiel die Beobachtungseinheiten, d. h. Beobach-
tungsträger.
Das dazugehörige Long Format zeigt Abb. 4.2. Im Long Format ist jeder Zeitpunkt eine
Beobachtung. Das heißt, im Fall der jährlichen Beobachtungen der Anzahl der Studienan-
Abb. 4.1 Datensatz im Short Format

Abb. 4.2 Datensatz im Long Format
fänger an den deutschen Hochschulen stehen die Studienanfängerzahlen der Universität

Freiburg im Breisgau der Jahre 1 bis 12 untereinander, dann folgt die Universität Heidel-
berg usw.
Neben dieser datentechnischen Unterscheidung spricht man von breiten Paneldatensät-
zen (Wide Panel), wenn viele Beobachtungseinheiten, aber nur relativ wenige Zeitpunkte
vorhanden sind. Diese werden manchmal auch als kurze Panels (Short Panel) bezeichnet.
Lange Paneldatensätze (Long Panel) liegen vor, falls relativ wenige Beobachtungseinhei-
ten über sehr viele Zeitpunkte hinweg erfasst werden. Im vorliegenden Beispieldatensatz
4.3 Abweichungsanalysen bei Paneldaten 233
existieren Datenwerte für 226 Hochschulen über 12 Jahre hinweg. Es handelt sich also um
einen breiten Datensatz (Wide Panel, Short Panel), der in der Abb. 4.2 (auszugsweise) im
Long Format dargestellt wird.
Aus der Abb. 4.2 lässt sich Folgendes herauslesen. Die Variable Zahl_Erstsemester
(= Y) für die Universität Heidelberg (i = U Heidelberg) im dritten Beobachtungsjahr
(t = 3) beträgt 3436 Studierende. Für weitergehende Analysen muss der Statistiksoftware
diese Struktur des Datensatzes hinsichtlich der Beobachtungsträger (hier der Hochschu-
len) und der Zeiteinheiten (hier der Jahre) kommuniziert werden. Ein Unbalanced Panel
wäre gegeben, wenn zum Beispiel für die Universität Heidelberg für die Jahre 5 und 11
keine Daten vorhanden sind oder für die Universität Freiburg i.Br. im dritten Jahr die Da-
ten fehlen.
Prinzipiell weisen solche Paneldaten verschiedene Vorteile im Vergleich zu Quer-
schnittsdaten auf:
• Die Aussagekraft der statistischen Analysen ist höher, da eine größere Zahl von Beob-
achtungen vorhanden ist und die Variabilität der Einflussfaktoren tendenziell größer
ausfällt.
• Sie enthalten Informationen zum zeitlichen Verlauf von Zuständen und Wirkungen.
Damit können Untersuchungen zu dynamischen Wirkungen, Anpassungsprozessen und
Übergängen durchgeführt werden.
• Die Varianz innerhalb einer Beobachtungseinheit im Zeitablauf (Within Variance) kann
analysiert werden, bspw. die Entwicklung des realen Bruttoinlandsprodukts (BIP) pro
Kopf in Sachsen von 1991 bis 2020. Demgegenüber ist eine reine Querschnittsanalyse
auf die Untersuchung der Varianz zwischen den Beobachtungseinheiten (Between Va-
riance) beschränkt, etwa den Unterschied im BIP pro Kopf im Jahr 2020 zwischen den
16 Bundesländern.
• Ein aus diesen Eigenschaften resultierender wesentlicher Vorteil ist, dass Paneldaten es
ermöglichen, die unbeobachtete Heterogenität zu beseitigen. Das heißt, die Wirkun-
gen unbeobachteter einflussreicher Variablen (und damit das Problem des Omitted Va-
riable Bias) sind unter bestimmten Bedingungen eliminierbar. Damit kann ggf. auch
das Problem der Selbstselektion (Self-Selection) behoben werden. Dies wird im
Abschn. 4.4 erläutert.
4.3 Abweichungsanalysen bei Paneldaten
Die OLS-Regression ist im Kern eine Analyse der Abweichungen vom Mittelwert (Condi-
tional Mean). Wir schätzen dabei den Erwartungswert (im Durchschnitt zu erwartenden
Wert) einer abhängigen Variablen unter der Bedingung gegebener unabhängiger Variablen
(Stoetzer 2017). Da Paneldatensätze aber zwei Dimensionen enthalten, müssen wir jetzt
zwischen verschiedenen Mittelwerten und damit Abweichungen differenzieren.
Hinsichtlich der unabhängigen Variablen sind aufgrund der zwei Dimensionen drei
Fälle zu unterscheiden:
Erstens sind Einflüsse denkbar, die für jede Beobachtungseinheit und darüber hinaus zu
jedem Zeitpunkt unterschiedlich groß ausfallen. Beispiele sind die Zahl der neu angemel-
deten Patente der Unternehmen, die Bildungsinvestitionen verschiedener Staaten oder die
Einkommen der Haushalte in einem Paneldatensatz. Solche unabhängigen Variablen Xit
ändern sich also (zumindest prinzipiell) für jedes i und jedes t.
Zweitens ist es möglich, dass die unabhängigen Variablen zeitinvariant (Time Invari-
ant) sind, sich also im Zeitablauf nicht ändern, aber zwischen den Beobachtungseinheiten
unterschiedliche Werte aufweisen. Für Individuen sind dies bspw. das Geschlecht und der
Migrationshintergrund, für Staaten evtl. die politischen Rahmenbedingungen oder das
Wirtschaftssystem, für Unternehmen ggf. die strategische Ausrichtung oder die Manage-
mentkompetenzen. In der Darstellung gilt in diesem Fall, dass Xit gleich Xi für alle Zeit-
punkte t ist. Für die Einstufung einer Variablen als zeitinvariant spielt nur eine Rolle, dass
diese im Beobachtungszeitraum des Datensatzes nicht variieren. Fast alle unabhängigen
Variablen sind natürlich prinzipiell veränderlich – selbst das Geschlecht.
Drittens können sich Variablen im Zeitablauf verändern, aber für einen gegebenen Zeit-
punkt bei allen Beobachtungseinheiten identisch sein. Solche Variablen bezeichnen wir als
beobachtungsträgerinvariant (Entity Invariant, Individual Invariant). Hierzu zählen
Zeittrends oder makroökonomische Rahmenbedingungen, die – etwa in einem Jahr – für
alle Beobachtungseinheiten gleichermaßen gelten. Beispiele für die Unternehmen in ei-
nem Land sind das Schrumpfen der Bevölkerung, die Inflationsrate, das Erwerbspersonen-
potenzial oder ein Wertewandel der Verbraucher. Hinsichtlich verschiedener Staaten han-
delt es sich bspw. um globale Auswirkungen der Finanz- und Wirtschaftskrise im Jahr
2008. Für die Darstellung heißt dies, dass die Variable Xit für alle Beobachtungseinheiten
i zum Zeitpunkt t gleich Xt beträgt.
Praktisches Beispiel: Hochschulgebühren in Deutschland
Im Jahr 2002 hat die damalige Bundesregierung unter Kanzler Gerhard Schröder im
Zuge einer Novellierung des Hochschulrahmengesetzes ein Verbot von Studiengebüh-
ren verabschiedet. Gegen diese Entscheidung haben verschiedene Bundesländer vor
dem Bundesverfassungsgericht Klage erhoben. Das Gericht hat daraufhin 2005 entschie
den, dass eine solche Regelung im Widerspruch zu den verfassungsrechtlichen Kompe-
tenzen der Länder hinsichtlich des Bildungswesens steht. Kurz darauf begannen sieben
Bundesländer Studiengebühren zu erheben. Vorreiter waren im Wintersemester
2006/2007 die Bundesländer Nordrhein-Westfalen und Niedersachsen, gefolgt von
Baden-Württemberg, Bayern, Hamburg, Hessen und dem Saarland im Jahr 2007. In
diesen Ländern mussten die Studierenden bis zu 500 Euro pro Semester (1000 Euro pro
Jahr) bezahlen, während in anderen Bundesländern das Studium weiterhin kostenlos
war. Die Einführung und Erhebung von Studiengebühren wurde von einer heftigen
politischen Diskussion begleitet, in der vor allem die Argumente der sozialen Ungleich-
heit und mangelnden Chancengleichheit hervorgehoben wurden. Nur ein Jahr nach
ihrer Einführung schaffte das Land Hessen aufgrund eines Wechsels der Regierungspar-
4.3 Abweichungsanalysen bei Paneldaten 235
teien die Erhebung von Studiengebühren wieder ab. In den Folgejahren folgten schritt-
weise weitere Bundesländer auf diesem Weg. Dies führte zur vollständigen Abschaf-
fung der Studiengebühren in allen Bundesländern – und damit der öffentlichen
Hochschulen – bis Ende 2014. Generell haben 7 der 16 Bundesländer im Zeitraum
2006 bis 2014 zumindest zeitweise Studiengebühren erhoben. Dagegen verzichteten
9 Bundesländer im gesamten Zeitraum auf solche Gebühren.
Als Konsequenz existierten in Deutschland von 2006 bis 2014 öffentliche Hoch-
schulen (Fachhochschulen und Universitäten) mit und ohne Studiengebühren parallel und
zum Teil auch räumlich recht eng beieinander. Für alle diese Hochschulen sind u. a. je
weils Daten zur Zahl der Erstsemester und zur Zahl der neu dazukommenden Hochschul-
zugangsberechtigten im betreffenden Bundesland für jedes Jahr vorhanden. Die Frage, ob
und inwieweit die Einführung und Abschaffung von Studiengebühren Auswirkungen auf
die Zahl der Erstsemester hatte, lässt sich auf dieser Datengrundlage analysieren. ◄
Auf Basis der zwei Dimensionen ist zwischen unterschiedlichen Abweichungen vom
Mittelwert zu differenzieren. Tab. 4.1 enthält einen verkürzten Datensatz dreier Hochschu-
len aus drei Bundesländern für drei Jahre.
Hinsichtlich der unabhängigen Variable X Anzahl_Studienanfänger existiert ein Mittel-
wert für die jeweilige Hochschule über alle drei Jahre hinweg (siehe Tab. 4.2). Dieser ist
der Hochschulmittelwert – allgemeiner ausgedrückt der Mittelwert der Beobachtungs
einheiten (Entity Mean, Individual Mean) – hier der Hochschulen. Die Zeitdimension
wird hierdurch eliminiert. Zum Beispiel gab es für die Universität Freiburg im Breisgau im
Durchschnitt der drei Jahre 3376 Erstsemester. Daneben existiert ein Gesamtmittelwert
(Overall Mean, Grand Mean) aller 9 Beobachtungen der Variablen X, d. h. der Zahl der
Erstsemester, der 3606 beträgt. Daraus resultieren die Abweichungen jeder Beobachtung
von diesem Gesamtmittelwert in der Spalte Gesamtabweichung. Die Gesamtabweichung
Tab. 4.1 Kurzdatensatz Hochschulen

Tab. 4.2 Unterschiedliche Mittelwerte

Zahl Gesamt- Between- Within-
Studien- Hochschul- mittel- Gesamt- (Zwischen-) (Innerhalb-)
Hochschule Jahr anfänger Mittelwert wert abweichung Abweichung Abweichung
i t Yit Yi Y Yit − Y Yi − Y Yit − Yi
U Freiburg 1 2984 3346 3606 −622 −260 −362
U Freiburg 2 3319 3346 3606 −287 −260 −27
U Freiburg 3 3824 3346 3606 218 −260 478
FU Berlin 1 3781 4048 3606 175 442 −267
FU Berlin 2 4094 4048 3606 488 442 46
FU Berlin 3 4268 4048 3606 662 442 220
U Frankfurt 1 3424 3920 3606 −182 314 −496
U Frankfurt 2 3831 3920 3606 225 314 −89
U Frankfurt 3 4505 3920 3606 899 314 585
entspricht der Differenz der Hochschulzugangsberechtigten im Bundesland einer Hoch-

schule vom Gesamtmittelwert.
Interessant sind vor allem die Between-Abweichung und die Within-Abweichung. Die
Between Difference (Zwischen-Abweichung) beschreibt den Unterschied des Mittel-
werts einer bestimmten Hochschule vom Gesamtmittelwert. Sie fokussiert daher die Un-
terschiede zwischen den Hochschulen ohne Berücksichtigung der Veränderungen über die
drei Jahre hinweg. Die Zahl der Erstsemester liegt im Fall der Universität Freiburg im
Durchschnitt aller drei Jahre um 260 niedriger als im Mittel aller betrachteten Hochschu-
len. Für die FU Berlin liegt die Zahl um 442 Studienanfänger höher.
Die Within-Abweichung (Innerhalb-Abweichung) ist die Differenz zwischen den
Zahlen der Hochschulzugangsberechtigten einer bestimmten Hochschule für verschiedene
Jahre. Dieser Wert konzentriert sich auf die Abweichungen einer Hochschule von ihrem
Jahresmittelwert. Folglich werden hier die Unterschiede zu den anderen Hochschulen aus
der Betrachtung weggelassen. Wir werden weiter unten sehen, dass dies ein entscheiden-
der Vorteil ist. Die Universität Freiburg hatte im ersten Jahr 362 und im zweiten Jahr 27
weniger Studienanfänger als im Mittel der drei Jahre, im dritten Jahr dagegen 478 mehr.
Bei zeitinvarianten unabhängigen Variablen ist die Within-Abweichung gleich 0, da ja
bspw. das Geschlecht sich nicht ändert und damit Mittelwert und Beobachtungswerte im-
mer gleich groß sind – unabhängig vom betrachteten Zeitpunkt.
4.4 Echte Paneldaten (Longitudinal Data)
4.4.1 Überblick
Für die Analyse echter Paneldaten stehen verschiedenen Verfahren zur Auswahl. Um einen
Gesamtüberblick zu erhalten, werden die wichtigsten in der Übersicht 4.1 aufgeführt.
4.4 Echte Paneldaten (Longitudinal Data) 237
Übersicht 4.1 Methoden der Analyse von Paneldaten

• Gepooltes OLS-Verfahren (einfache OLS-Schätzung, gepackte OLS-Methode)
• Fixe-Effekte-Ansatz/Fixed-Effects (FE)-Methode
–– Dummy-Variablen-Methode (LSDV-Verfahren)
–– Mittelwertabweichungsmethode
• Zufällige-Effekte-Ansatz/Random Effects (RE-Methode)
• Erste-Differenzen-/First-Differences-Verfahren
Die Fixe-Effekte- und das Erste-Differenzen-Verfahren fasst die Literatur manchmal

unter dem Oberbegriff Differenzen-in-Differenzen-Methoden zusammen. Zum Teil wird
diese Bezeichnung aber für das im Abschn. 4.5 erläuterte Vorgehen bei der Analyse ge-
poolter Paneldaten (unechter Panels) reserviert. Eine weitere Dimension der (begriffli-
chen) Komplexität ergibt sich, weil erstens für die Fixe-Effekte-Methode wiederum unter-
schiedliche Schätzverfahren einsetzbar sind. Dazu gehören die Dummy-Variablen-Methode
und das Mittelwertabweichungsverfahren. Zweitens firmiert die Random-Effects-Me-
thode auch als Fehlerkomponenten-Methode (Error Components Method).
Ein zentrales Problem der Panelanalyse ist es, aus diesen Methoden das jeweils ad-
äquate Verfahren auszuwählen. Dies ist unter inhaltlichen Gesichtspunkten zu beurteilen.
Außerdem existieren einschlägige Tests, die weiter unten erläutert werden.
4.4.2 Gepooltes OLS-Verfahren
Im einfachsten Fall wird bei echten und unechten Panels der Panelcharakter der Daten
vernachlässigt, d. h. alle Beobachtungen werden zusammengepackt und mittels OLS
analysiert. Wir ignorieren dabei – im Fall von echten Panels – die Tatsache, dass es sich
um immer dieselben Beobachtungseinheiten, nur zu unterschiedlichen Zeitpunkten, han-
delt (Park 2011, S. 7).3 Und sowohl bei echten als auch bei unechten Panels nehmen wir
nicht zur Kenntnis, dass sich unsere Beobachtungen auf unterschiedliche Zeitpunkte
beziehen.
Beispielsweise können bei der Analyse der Einflussfaktoren der Punkte, die ein Song-
beitrag im Rahmen des European Songs Contest (ESC) erhält, die Ergebnisse aller Wett-
bewerbe von 1999 bis 2014 zusammengepackt werden. Die Rahmenbedingungen des Eu-
ropean Song Contest sind im Untersuchungszeitraum (weitgehend) identisch, es existieren
keine Trends in den Variablen und die Interpreten sind jeweils andere, sodass alle Beob-
3
Der Begriff „gepoolte OLS-Schätzung“ bezieht sich hier auf den Einbezug aller Beobachtungen
ohne Berücksichtigung der unterschiedlichen Zeitpunkte und Beobachtungsträger. Der Ausdruck
„gepoolte Paneldaten“ meint, dass der Datensatz zu den verschiedenen Zeitpunkten nicht immer
dieselben Beobachtungseinheiten umfasst, es sich also um ein unechtes Panel handelt (siehe dazu
Abschn. 4.5). Beide Begriffe sind auseinanderzuhalten!
achtungen – obwohl sie sich auf verschiedene Jahre beziehen – gepoolt werden können
(siehe Stoetzer 2017, Kap. 3, Anhang 3.1).
Die Wirkung eines Einflussfaktors (eines Treatment) – bspw. der Frage, ob die Sprache
des Songbeitrags in Englisch eine Rolle spielt –, ist dann mittels der üblichen OLS-Schät-
zung analysierbar. Dazu wird im Rahmen der Spezifikation einer Regressionsgleichung
eine Dummyvariable aufgenommen. Alle Interpreten, die ihren Song in Englisch präsen-
tieren, erhalten eine 1 (= Treatment-Gruppe) und alle anderen Interpreten eine 0 (= Kon
trollgruppe). Die Koeffizientenschätzung dieser Dummyvariable verdeutlicht, ob und in
welchem Ausmaß sich die erhaltenen Punkte mit Treatment von denen ohne Treatment
unterscheiden, d. h. inwieweit zwischen diesen beiden Gruppen im Mittel eine Differenz
existiert. Ist im Beispiel des Patentierungsverhaltens der Koeffizient der Unternehmen, die
F&E-Subventionen erhalten haben, positiv und signifikant, bedeutet das, dass die Unter-
nehmen mit F&E-Subventionen im Mittel häufiger Patente anmelden als Unternehmen
ohne F&E-Subventionen. Ist der Koeffizient im Beispiel der Hochschulen negativ und si-
gnifikant, folgt daraus, dass Hochschulen, die Studiengebühren erhoben haben, im Mittel
geringere Studienanfängerzahlen aufweisen.
Unverzerrte Koeffizientenschätzungen – die kausal interpretierbar sind – erhalten wir
so aber nur unter (sehr) restriktiven Bedingungen. Aus statistischer Sicht darf keine En
dogenität der unabhängigen Variablen existieren, die Fehler müssen also einem weißen
Rauschen entsprechen. Inhaltlich bedeutet dies erstens, dass keine beobachteten und un-
beobachteten Unterschiede zwischen den verschiedenen Jahren (bzw. Zeitpunkten) auf die
sich die Beobachtungen beziehen, relevant sein dürfen, also bspw. keine Trends oder
Strukturbrüche (siehe Kap. 3). Zweitens dürfen keine unbeobachteten Unterschiede zwi-
schen bspw. den Songbeiträgen in allen Jahren vorhanden sein – also muss ausgeschlossen
werden, dass Selbstselektion bzw. unbeobachtete Heterogenität existieren. Diese beiden
Probleme nicht zu berücksichtigen, führt ggf. zu verzerrten (inkonsistenten) Koeffizien-
tenschätzungen aufgrund eines Omitted Variable Bias (siehe Kap. 1). Darüber hinaus wird
drittens damit vorausgesetzt, dass die Fehler (bzw. Residuen) keine Strukturen aufweisen,
d. h. weder Autokorrelation noch Heteroskedastie vorliegen. Andernfalls sind die Stan-
dardfehler und folglich die Signifikanzniveaus der Koeffizienten nicht verlässlich.
Allgemein gilt, dass bei Paneldaten häufig Veränderungen über die Zeit relevant
sind – bspw. wegen sozialer Trends, ökonomischer Einflüsse sowie individueller Entwick-
lungen – und modelliert werden müssen. Beispiele für ökonomische Veränderungen zwi-
schen Zeitpunkten sind kurzfristige Schocks (bspw. Welt-Finanzkrise 2008/2009, Flash
Crash der US-Börse am 06.05.2010, Corona-Virus-Krise 2020), saisonale Schwankungen
(etwa der Arbeitslosigkeit), mittelfristige Veränderungen (bspw. Konjunkturzyklen) und
langfristige Verläufe (u. a. Inflation und Wirtschaftswachstum). Solche Einflüsse müssen
mittels einer Variablen für die Zeit einbezogen werden. Längerfristige Trends sind etwa
durch die Aufnahme einer metrisch skalierten Variablen für die Jahre zu berücksichtigen.
Inhaltlich ist zu entscheiden, ob dieser Trend linear oder nichtlinear ausfällt. Es sind also
geeignete Funktionsformen für die Zeitvariable zu wählen. Zum Beispiel kann das Jahr
und gleichzeitig das quadrierte Jahr in die Regressionsgleichung aufgenommen werden.
Durch solche zeitbezogenen Variablen lassen sich erstens längerfristige Trends abschätzen
(wie bspw. die Zunahme der Studierneigung, eine steigende Kriminalität, die Abnahme
der tödlichen Straßenverkehrsunfälle, die Erhöhung der Sicherheit im Flugverkehr oder
eine Verringerung des Lohngefälles zwischen Frauen und Männern). Aber auch unter-
schiedliche Entwicklungen – etwa die Zunahme der Arbeitslosenquote in Deutschland von
2000 bis 2005 und deren Sinken von 2006 bis 2019 – sind auf diese Weise modellierbar.
Abschn. 4.6 unten kommt darauf zurück, und dort illustriert Abb. 4.6. mögliche Wirkungs-
verläufe.
Bei vereinzelten, willkürlichen bzw. erratischen Veränderungen, die für einzelne
Zeitpunkte zutreffen, sind Dummyvariablen für die Jahre (bzw. Zeitpunkte) mit in die
Regressionsgleichung aufzunehmen. Es muss wieder ein Jahr weggelassen werden (we-
gen der Dummyvariablen-Falle). Üblicherweise ist dies das erste Jahr. Die Koeffizienten-
schätzungen der anderen Jahre drücken dann den Unterschied zu diesem Referenzjahr
(Basisjahr) aus. Solche Dummyvariablen für die Zeitpunkte sind darüber hinaus ebenfalls
geeignet, sowohl Trends als auch Schwankungen zu erfassen. Sie sind also im Prinzip die
flexibelste Form, um zeitbezogene Einflüsse zu modellieren. Ihr Nachteil im Vergleich zu
metrisch skalierten Zeittrendvariablen ist, dass sie die Schätzung vieler Dummyvariablen
erfordern. Die Aufnahme weiterer Einflussfaktoren (bspw. Unternehmensgröße, Branche,
Hochschultyp usw.) ist möglich und sinnvoll, da sie in der Regel die Präzision bzw. Qua-
lität der Schätzung erhöht.
Solche zeitlichen Einflüsse in der Spezifikation zu berücksichtigen, ist prinzipiell leicht
möglich, da die Information, auf welche Zeitpunkte sich die Beobachtungen beziehen,
immer vorhanden ist. In dieser Hinsicht ist eine gepoolte OLS-Schätzung also ohne
Schwierigkeiten um zeitliche Aspekte erweiterbar.
Hinsichtlich des zweiten oben genannten Problems sind die geschätzten Koeffizienten
aber nur dann unverzerrt (d. h. verlässlich), wenn die Wahrscheinlichkeit, dass ein Unter-
nehmen bzw. eine Hochschule einer solchen Maßnahme (Treatment) ausgesetzt ist, rein
zufällig erfolgt. Dies ist bspw. nicht der Fall, wenn insbesondere forschungsstarke Unter-
nehmen sich um F&E-Subventionen bemühen und außerdem diese Subventionen gerade
wegen ihrer Forschungsstärke erhalten. Eine höhere Zahl von Patenten bei diesen Unter-
nehmen ist dann natürlich kein Beweis dafür, dass das F&E-Subventionsprogramm tat-
sächlich die Patenthäufigkeit erhöht. Gleiches gilt, wenn Hochschulen mit höheren Studie-
rendenzahlen eher dazu tendieren, Studiengebühren zu erheben. Der eventuell vorhandene
negative Einfluss der Studiengebühren auf die Zahl der Studierenden wird nicht entdeckt,
da er bei einem solchen Verhalten der Hochschulen verschleiert wird. In allen diesen Fäl-
len liegt unbeobachtete Heterogenität vor, also Endogenität unabhängiger Variablen.
Der Einfluss der Zeit und der unbeobachteten Heterogenität kann sich auch in der Au
tokorrelation und Heteroskedastie der Residuen bemerkbar machen. Im Rahmen der
gepoolten OLS-Methode ist dies zu berücksichtigen, indem (spezielle) robuste Standard-
fehler geschätzt werden. Solche clusterrobusten Standardfehler führen zu verlässlichen
t-Werten und damit Signifikanzniveaus der geschätzten Koeffizienten. Die folgenden Ab-
schnitte kommen darauf zurück. Allerdings sind robuste Standardfehler nicht weiter hilf-
reich, wenn – wie oben erläutert – die Koeffizientenschätzungen selber (stark) verzerrt
sind. Außerdem können Autokorrelation und Heteroskedastie Hinweise auf eine Fehlspe-
zifikation des gepoolten OLS-Verfahrens darstellen.
Als Fazit ist festzuhalten, dass das gepoolte OLS-Verfahren auf sehr restriktiven
Annahmen basiert (Andreß et al. 2013). Tatsächlich ist es fast immer plausibel, dass die
Zusammenhänge heterogen sind, also erstens Unterschiede zwischen den Zeitpunkten
(bspw. Monaten oder Jahren) sowie zweitens zwischen den Beobachtungseinheiten (bspw.
Unternehmen oder Staaten) berücksichtigt werden müssen. Ist dies nicht der Fall, weil die
notwendigen Informationen (Variablen) fehlen, führt eine gepoolte OLS-Schätzung zu
verzerrten Koeffizienten.
Die folgenden Abschnitte verdeutlichen, wie (und wann) es möglich ist, bei echten
Paneldaten nicht nur die beobachtete, sondern sogar die unbeobachtete Heterogenität zu
kontrollieren, d. h. zu beseitigen. Auch im Fall von unechten Panels können bestimmte
Eigenschaften von Paneldaten genutzt werden, um unter weniger restriktiven Bedingun-
gen kausale Einflüsse zu identifizieren.
4.4.3 Fixed-Effects-Verfahren
Ein entscheidender Vorteil von echten Paneldaten ist es, durch die Beobachtung von im-
mer den gleichen Untersuchungseinheiten zu verschiedenen Zeitpunkten besser die kausa-
len Wirkungen bestimmter Maßnahmen oder Ereignisse abzuleiten. Die Verwendung so-
genannter fixer Effekte (FE-Verfahren) ist eine Möglichkeit, die Wirkung einflussreicher,
aber unbeobachteter und sogar unbeobachtbarer Variablen zu eliminieren.4 Eine Alterna-
tive dazu bietet die Verwendung erster Differenzen, die Abschn. 4.4.5 darstellt.
Eine unbeobachtete Variable im Hochschulbeispiel ist die strategische Ausrichtung
der Hochschulen. Wenn wir annehmen, dass diese Variable sich von Hochschule zu Hoch-
schule unterscheidet, aber im Zeitverlauf nicht ändert, kann ihr Einfluss durch die Verwen-
dung einer Dummyvariablen für jede Hochschule im Panel eliminiert werden. Jede Hoch-
schule hat dann ihre eigene Konstante. Diese entspricht dem geschätzten Koeffizientenwert
der hochschuleigenen Dummyvariable. Alle hochschulindividuellen Einflüsse werden
mittels dieser Dummyvariablen berücksichtigt und können daher die Koeffizienten der
anderen unabhängigen Variablen nicht mehr verzerren. Anders formuliert: Die Dummys
absorbieren alle Einflussfaktoren, die spezifisch für die jeweilige Beobachtungseinheit
(Hochschule, Unternehmen, Region, Person usw.) sind, sich aber im Beobachtungszeit-
raum nicht ändern.
Verallgemeinert erhält bei diesem Verfahren also jede Beobachtungseinheit (Hoch-
schule, Unternehmen, Region, Person usw.) eine eigene Dummyvariable, die – wenn es
4

Andere Bezeichnungen sind: „Within-Schätzverfahren“, „Covariance-Modell“, „Individu-
al-Dummy-Methode“ (siehe dazu Stock und Watson 2015, S. 356 ff.; Wooldridge 2018, S. 435 ff.;
Park 2009, 2011).
sich um eine Beobachtung dieser Hochschule handelt – den Wert 1 besitzt und ansonsten
gleich 0 ist. Dies gilt für jeden Zeitpunkt im Paneldatensatz. Der Ansatz wird als
„Least-Squares-Dummy-Verfahren“ (LSDV-Verfahren) bezeichnet.5
Ohne diese Dummyvariable lautet die Spezifikation der Regressionsgleichung:
Yit = a 0 + b1Treatit + e it ( mit i = 12 … N; t = 12 … T ) (4.1)

Diese ist aber falsch, da der wahre Zusammenhang ja noch den Einfluss der strategi-
schen Ausrichtung der Hochschule (Variable Strateg) einzubeziehen hat:
Yit = a 0 + b1Treatit + b 2 Strategi + e it (4.2)
Da die Variable Strateg von einer zu anderen Hochschule variiert, aber annahmegemäß
für die jeweilige Hochschule zu allen Zeitpunkten identisch ist (also eine Konstante dar-
stellt), kann die Gl. (4.2) auch umformuliert werden. Wir definieren: ai = a0 + b2Strategi.
Daraus ergibt sich (wenn a0 und b2 für jede einzelne Hochschule zu allen Zeitpunkten
gleich groß sind):
Yit = a i + b1Treatit + e it (4.3)

Bei den ai handelt es sich um die individuellen Konstanten der insgesamt i Hochschu-
len. Diese werden auch als „Entity-fixed Effects“ bezeichnet.6
In Gl. (4.3) ist die Konstante a0 weggelassen bzw. von den ai absorbiert worden. Für die
praktische Durchführung ist nämlich wieder darauf zu achten, dass nicht in die Dummy-
variablen-Falle gelaufen wird. Die Umsetzung erfolgt aber üblicherweise so, dass eine
Konstante a0 einbezogen wird, man aber dafür einen der Beobachtungsträger (hier eine
Hochschule) nicht einbezieht, d. h. diese erhält keine eigene Dummyvariable.7 Gl. (4.3)
wird also zu:
Yit = ( a 0 + a i −1 ) + b1Treati + e it (4.4)

Der eingeklammerte Teil der Gl. (4.4) enthält die hochschulindividuellen Einflüsse.
Der Einbezug weiterer Einflussfaktoren ist auch in diesem Fall möglich. In unserem Bei-
spiel etwa die Zahl der Studienberechtigten in einer Hochschulregion (= Berecht):
Yit = ( a 0 + a i −1 ) + b1Treati + b 2 Berechtit + e it (4.5)

Gl. (4.5) kann dann wie üblich mittels OLS geschätzt werden. Ökonometrisch müssen
eine Reihe von Voraussetzungen gegeben sein, damit die Koeffizientenschätzungen unver-
5
Das LSDV-Verfahren wird in der Literatur zum Teil nicht zu den FE-Verfahren gezählt, sondern der
Begriff FE nur für die anschließend behandelte Mittelwertabweichungsmethode verwendet.
6
In der Literatur werden die ai häufig ui genannt.
7
Verschiedene Vorgehensweisen hinsichtlich der Verwendung von Dummyvariablen mit oder ohne
Konstante stellt Park (2009, 2011) ausführlich dar.
zerrt und die Standardfehler und damit t-Werte verlässlich sind. Dazu gehört wieder, dass
die Residuen homoskedastisch sind und keine Autokorrelation vorliegt. Es gibt aber Ver-
fahren (bspw. in Stata und SPSS) mit denen korrekte (robuste) Standardfehler, sogenannte
HAC-Standardfehler (Heteroskedasticity and Autocorrelation-consistent Standard Errors),
zu berechnen sind.
Der Ansatz der Dummyvariablen für jede Beobachtungseinheit kann erweitert werden.
Möglicherweise existieren Einflüsse, die alle Hochschulen in Deutschland gleichermaßen
betreffen, aber sich im Zeitablauf verändern. Ein solcher Einfluss ist bspw. eine allge-
meine Zunahme der Studierneigung. Sie beeinflusst ggf. die Zahl der Erstsemester an den
deutschen Hochschulen. Wird diese nicht in der Regression berücksichtigt, führt das unter
Umständen zu verzerrten und damit falschen Resultaten. Der Einfluss einer zunehmenden
Studierneigung der Hochschulzugangsberechtigten ist als weiterer fixer Effekt zu berück-
sichtigen. Es handelt sich um einen „Time-fixed Effect“. Fixe-Effekte-Modelle mit ledig-
lich Entity-fixed Effects (also Dummys für die Beobachtungsträger, hier die Hochschulen)
bezeichnet man als One-Way-Modelle. Werden außerdem Dummys für die Jahre einbe-
zogen, spricht man von Two-Way-Modellen.
In unserem Beispiel wird der dahinterstehende Trend wachsender Studierendenzahlen
durch eine separate Konstante für jedes Beobachtungsjahr abgebildet (ct), wobei t für die
Beobachtungszeitpunkte steht. Dies führt zu:
Yit = ( a 0 + a i −1 ) + c t −1 + b1Treati + b 2 Berechti + e it (4.6)

Es werden also im Hochschulbeispiel zusätzlich noch Dummvariablen für jedes Beob-

achtungsjahr aufgenommen. Ein Beobachtungsjahr (üblicherweise das erste Jahr) muss
wieder weggelassen werden. Deswegen findet sich in Gl. (4.6) die Variable ct−1. Also be-
rücksichtigen wir bspw. bei 10 Beobachtungsjahren die Dummys c1 bis c9. Veränderungen
mit Trendcharakter im Zeitverlauf können auch durch die Aufnahme einer metrischen
Variablen für die Zeit (anstelle von Dummys für jeden Zeitpunkt) berücksichtigt werden.
Bspw. existieren für die Variable Jahr Beobachtungen für 12 Jahre, die mit den Werten 1
bis 12 kodiert sind. Die Variable Jahr wird als unabhängige Variable aufgenommen, und
der ermittelte Koeffizient beschreibt dann die lineare Wirkung eines zusätzlichen Jahres
auf die abhängige Variable (bspw. die Zahl der Studierenden), also einen Trend im Beob-
achtungszeitraum. Wie aus der einfachen Regression bekannt, sind nichtlineare Trends
durch geeignete Transformationen der Variablen Jahr (bspw. Logarithmierung oder Quad-
rierung) ebenfalls spezifizierbar.
Hinter der Spezifikation in Gl. (4.6) steht die Idee, dass sich die Hochschulen (Beob-
achtungseinheiten) und Untersuchungsjahre im Niveau der Zahl der Studierenden unter-
scheiden. Der Einfluss der Variablen Treat und Berecht, d. h. die Koeffizienten b1 und b2,
sind aber über alle (betroffenen) Hochschulen und Jahre hinweg identisch (gleiche Stei-
gung der Koeffizienten). Außerdem wird angenommen, dass die Varianz des Fehlerterms
konstant ist und keine Autokorrelation vorliegt (Wooldridge 2018, S. 449; Park 2011, S. 8).
Zusätzlich erweiterbar ist der Ansatz, indem zweistufig vorgegangen wird: Die Hoch-
schulen liegen in verschiedenen Bundesländern. Eventuell üben unterschiedliche politi-
sche Vorgaben bei der Ausgestaltung von Studiengebühren ebenfalls einen jetzt landesspe-
zifischen Einfluss aus (unabhängig vom Jahr der Einführung von Studiengebühren!). Es
sind dann erstens Dummys für jedes Bundesland (wieder minus 1) und außerdem zweitens
Dummys für die jeweiligen Hochschulen aufzunehmen (sowie ggf. noch die Dummys für
die Beobachtungsjahre).
Eine Spezifikation wie in Gl. (4.6) produziert eine umfangreiche Zahl von Dummyva-
riablen: Sowohl für jede Hochschule als auch für jedes Jahr wird eine separate Dummyva-
riable aufgenommen (jeweils minus 1). Die Schätzung ist aber prinzipiell weiterhin pro
blemlos mittels OLS möglich. Schwierigkeiten ergeben sich bei extrem breiten Datensätzen
aufgrund der im Verhältnis zur Zahl der Beobachtungen sehr großen Zahl von unabhängi-
gen (Dummy-)Variablen. Ein Beispiel sind 1000 Unternehmen, die in zwei aufeinander
folgenden Jahren befragt werden. Der LSDV-Ansatz erfordert dann die Bildung von 1000
Dummys (bei insgesamt 2000 Beobachtungen). Dies verringert die Freiheitsgerade der
Schätzungen erheblich. Praktisch müssen also größere F- und t-Werte erreicht werden, um
signifikante Schätzungen zu erhalten. Dieser Ansatz besitzt daher eine geringe Effizienz
im Vergleich zu einer alternativen Schätzmethode, dem Mittelwertabweichungsverfahren
(siehe unten).
Ob die Verwendung von Entity- und/oder Time-fixed-Effects angebracht ist, wird
mittels eines F-Tests überprüft. Er untersucht die Nullhypothese, dass die jeweiligen fixen
Effekte gemeinsam gleich Null sind. Wenn die Nullhypothese verworfen werden kann,
spricht dies insoweit für den Einsatz eines Fixed-Effects-Ansatzes. Ist die Nullhypothese
nicht abzulehnen, ziehen wir eine einfache Pooled-OLS-Analyse – also ein Zusammenpa-
cken aller Beobachtungen – in Betracht.
Als Fazit ist festzuhalten: Der wesentliche Vorteil des LSDV-Ansatzes besteht darin,
dass die Einflüsse von allen zeitkonstanten individuellen Merkmalen mittels der Dummys
für alle Beobachtungsträger (Entitys) berücksichtigt werden. Außerdem können durch
Zeit-Dummys für die Beobachtungsperioden sämtliche Einflüsse, denen alle Beobach-
tungsträger zu einem Zeitpunkt in gleichem Umfang ausgesetzt sind, eliminiert werden.
Dies gilt in beiden Fällen unabhängig davon, ob diese unabhängigen Variablen beobachtet
werden (können) oder nicht!
Dem steht als Nachteil erstens gegenüber, dass im LSDV-Modell keine Einflüsse zeit-
konstanter Variablen (z. B. Geschlecht eines Individuums, Standort eines Unternehmens
etc.) schätzbar sind. Da diese für einen bestimmten Beobachtungsträger (Unternehmen,
Hochschule usw.) in allen Perioden identisch ist, kann ihre Wirkung nicht von dem Ein-
fluss der Entity-fixed Effects (den ai der Gl. (4.3) bis (4.6)) unterschieden werden. Zwei-
tens ist unter Umständen eine sehr große Zahl von Dummyvariablen einzubeziehen. Dies
verringert die Zahl der Freiheitsgerade deutlich und führt zur bereits erwähnten geringeren
Effizienz.
Das zweite Problem vermeidet eine alternative Methode der Berechnung der fixen Ef-
fekte. Dabei werden an Stelle der Dummys für alle Beobachtungsträger die Abweichun-
gen der Variablen von ihrem Mittelwert berechnet und darauf basierend eine Regression
durchgeführt (Demeaned-Verfahren bzw. Mittelwertabweichungsverfahren) (Stock
und Watson 2015, S. 405; Wooldridge 2018, S. 435). Die Ergebnisse dieser Variante des
FE-Ansatzes sind hinsichtlich der Koeffizientenschätzungen identisch mit dem LSDV-Ver-
fahren. Auch das Mittelwertabweichungs-Verfahren analysiert die Within-Abweichungen,
so dass wie beim LSDV-Verfahren unbeobachtete Heterogenität beseitigt wird. Falls die
statistischen Programmpakete spezielle Methoden der Panelanalyse enthalten, wird bei
Wahl des FE-Ansatzes die Berechnung automatisch auf der Basis der Mittelwertabwei-
chungen durchgeführt. Dann sind Koeffizientenschätzungen für die Dummyvariablen-
Werte nicht vorhanden (so bspw. in Stata). Bezieht sich das Forschungsinteresse auf ein-
zelne Beobachtungsträger (bestimmte Hochschulen, Staaten, Unternehmen usw.) oder
deren Unterschiede, muss also das Dummyvariablen-Verfahren (LSDV-Ansatz) gewählt
werden. Vor- und Nachteile der beiden Ansätze diskutiert Park (2011, S. 9 f.). Die eigent-
liche Schätzung findet in beiden Varianten mittels OLS statt.
Durch einen F-Test kann – wie bereits erwähnt – die Nullhypothese „keine fixen Effekte
vorhanden“ überprüft werden. Dies ist ein Test darauf, ob die individuellen Effekte (die ai
bzw. ggf. auch die ct) gemeinsam keinen Einfluss ausüben. Ist die Nullhypothese nicht ab-
zulehnen, wird die gepoolte OLS-Regression herangezogen. Nachteil des FE- ebenso wie
des LSDV-Ansatzes ist eine geringere statistische Power als z. B. das unten behandelte
Random-Effects-Modell, da es nur auf der Innerhalb-Abweichung (Within-Differenz) ba-
siert. Dies bedeutet, dass die Effekte tendenziell seltener signifikant werden.
4.4.4 Random-Effects-Verfahren
Das Random-Effects-Verfahren (der RE-Ansatz) geht ebenfalls davon aus, dass es zwischen
den Beobachtungsträgern systematische Unterschiede gibt. Anders als beim Fixed-Ef-
fects-Ansatz sind diese Unterschiede aber nicht fixe Koeffizienten (Parameter), sondern
spiegeln sich in unterschiedlichen zufälligen Einflüssen wieder. Die Beobachtungsträger be-
sitzen daher keinen individuell fixierten konstanten Term. Also existieren keine unterschied-
lichen Dummyvariablen (d. h. konstanten Parameter ai) mehr. Auf diese zu verzichten ist
möglich, wenn die individuellen ai der Beobachtungseinheiten nicht mit den unabhängigen
Variablen korrelieren. Die Dummyvariablen für die ai wegzulassen, führt in diesem Fall zu
keiner Verzerrung aufgrund des Omitted-Variable-Problems. Dagegen hat ihre Berücksichti-
gung eine Ineffizienz der Schätzungen der (anderen) unabhängigen Variablen zur Folge,
wenn sie tatsächlich irrelevant für den Einfluss eines Treatments sind.
Statt als Dummyvariablen sind im RE-Ansatz die unterschiedlichen zufälligen Ein-
flüsse der Beobachtungseinheiten jetzt Teil des Fehlerterms. In der Gl. 4.7 ist dies der mit
ai bezeichnete Teil des Fehlereinflusses. Dieser besteht jetzt aus (ai + eit). Der Unterschied
zwischen FE- und RE-Ansatz besteht darin, dass die ai im FE-Verfahren als fixe Parameter
und im RE-Verfahren als individuelle Fehlerkomponente aufgefasst und geschätzt werden.
Der Teil ai ist der für jeden Beobachtungsträger (bspw. Hochschule, Land, Region, Unter-
nehmen) individuelle Fehler und kein fixer Parameter. Das RE-Verfahren wird daher auch
als Fehlerkomponenten-Verfahren (Error-components oder Error-decomposition mo-
del) bezeichnet. Der zweite Teil des Fehlereinflusses eit ist der uns bekannte übliche
Störterm.8
Yit = a 0 + b1 X1it + b 2 X 2 it +…+ ( a i + e it ) ( mit i = 12 … N;t = 12 … T ) (4.7)

Das Random-Effects-Verfahren schätzt unterschiedliche Fehleranteile ai für Beobach-

tungseinheiten und/oder Zeitpunkte. Es unterstellt, anders als der Fixed-Effects-Ansatz,
dass die Konstanten und die Koeffizienten über alle Beobachtungseinheiten und Beobach-
tungszeitpunkte hinweg identisch sind. Der Ansatz wird mittels GLS (Generalized Least
Squares) bzw. FGLS (Feasible Generalized Least Squares) oder ML (Maximum Like-
lihood) geschätzt. Die Durchführung ist von der Mathematik her bei allen Verfahren kom-
plizierter. Auf die Darstellung wird hier verzichtet. Anhang I stellt das Prinzip der
ML-Schätzung dar. Genauere Erläuterungen bieten Baltagi (2013, S. 20–24) und – leich-
ter verständlich – Wooldridge (2018, S. 441–444). Die Verfahren sind in Stata und SPSS
routinemäßig aufrufbar.
Das Random-Effects-Verfahren hat den Vorteil, dass auch der Einfluss von zeitkonstan-
ten unabhängigen Variablen zu ermitteln ist. Unterschiede zwischen (und Auswirkungen
von) Variablen wie Geschlecht, Schulbildung, Unternehmensstandort, sozialer Status des
Elternhauses, Hautfarbe usw. können also geschätzt werden.
Ob der Random-Effects-Ansatz eingesetzt werden sollte, ist mittels des Breusch-Pa
gan-Lagrange-Multiplier-Tests (Breusch-Pagan-LM-Test) überprüfbar. Die Nullhypo-
these lautet, dass die beobachtungseinheits- oder zeitpunktbezogenen Varianzkomponen-
ten gleich 0 sind. Wird die Nullhypothese abgelehnt, so ist das als Unterstützung des
Random-Effects-Verfahrens zu interpretieren. Wird die Nullhypothese nicht abgelehnt, ist
dies ein Argument für die Verwendung des einfachen Pooled-OLS-Verfahrens.
4.4.5 First-Differences-Methode
Wie für das FE-Verfahren bereits erläutert, kann mittels Paneldaten die kausale Wirkung
eines Treatments eher identifiziert werden. Wir sehen uns dies jetzt (auch grafisch) anhand
des FD-Verfahrens (First-Differences-Methode, Erste-Differenzen-Methode oder auch
Change Score Analysis) an.
8
Das eit in Gl. (4.7) ist natürlich nicht mehr dasselbe wie in der Gl. (4.6). Zur Vereinfachung wird
darauf verzichtet, diese Differenzierung kenntlich zu machen. Es wird außerdem angenommen, dass
ai (ebenso wie eit) die Realisationen eines i. i. d.-Zufallsprozesses sind (mit dem Mittelwert 0 und der
σ2
Varianz v ). Die Abkürzung i.i.d. steht für „Independent and Identically Distributed“. Also soll es
sich um unabhängig und identisch verteilte Zufallsvariablen handeln. Unterschiedliche Strukturen
von Autokorrelation und Heteroskedastie hinsichtlich der ai führen zu differierenden RE-Schätzver-
fahren. Baltagi (2013) und Stata (2019) behandeln diese ausführlicher.
Bei einer simplen Pooled-OLS-Schätzung vergleichen wir die einfachen Mittel zwi-
schen der Treatmentgruppe und der Kontrollgruppe (siehe Abschn. 4.4.2). Bei der FD-Me-
thode betrachten wir stattdessen die Veränderung in den Ergebnissen vor und nach der
Maßnahme, also die ersten Differenzen. Dabei wird untersucht, ob sich diese Veränderung
zwischen der Treatment- und der Kontrollgruppe unterscheidet. Dazu ist es notwendig,
einmal Daten (Informationen) zu einem Zeitpunkt vor der Maßnahme und dann außerdem
Daten (Informationen) zu einem Zeitpunkt nach Einführung der Maßnahme zu besitzen.
Es sind also Daten zu den Variablen im Zeitablauf (mindestens für zwei Zeitpunkte) auf
der Ebene der einzelnen Beobachtungseinheiten (Unternehmen, Hochschulen, Individuen,
Regionen usw.) erforderlich.9 Das heißt, ein echter Paneldatensatz muss vorhanden sein.
Eine First-Differences-Analyse bspw. der Wirkungen von F&E-Fördermaßnahmen
vergleicht die Veränderung eines Unternehmens, das die Förderung erhält, mit einem Un-
ternehmen, das die Förderung nicht erhält. Nimmt bspw. zwischen zwei Zeitpunkten die
Patentanzahl bei den Unternehmen, die F&E-Subventionen erhalten haben, stärker zu, als
bei den Unternehmen, die solche Subventionen nicht erhalten haben, so kann der Unter
schied in der Zunahme (d. h. die Differenz der Differenz) ggf. ursächlich auf den Erhalt
der F&E-Subvention zurückgeführt werden. Die Auswirkung der Maßnahme (der soge-
nannte Treatmenteffekt) beträgt folglich:

( ) (
b1 = Y1T − Y0T − Y1K − Y0K ) (4.8)
Der Ausdruck Y1T ist der Wert der abhängigen Variable Y zum Zeitpunkt 1 in der
Gruppe mit Treatment T. Entsprechend ist Y0T der Wert der abhängigen Variablen Y zum
Zeitpunkt 0 bei der Gruppe mit Treatment. Das hochgestellte K steht für die entsprechen-
den Werte von Y in der Kontrollgruppe, die keinem Treatment ausgesetzt ist.10 Gl. (4.8)
lässt sich auch einfacher formulieren:
b1 = ∆Y T − ∆Y K (4.9)
Wobei ∆YT die Veränderung in der Treatmentgruppe und ∆YK die Veränderung in der
Kontrollgruppe darstellen. Die dazu gehörende zu schätzende Regressionsgleichung lautet:
∆Yi = a 0 + b1 ∆Treati + ∆e i (4.10)
Für die Schätzung bilden wir also von allen Variablen deren (erste) Differenzen, d. h.
die Veränderungen der Variablen vom ersten zum zweiten Zeitpunkt. Mit diesen neuen
Variablen (hier ∆Yi und ∆Treati) erfolgt dann eine Regression entsprechend der Spezifika-
tion der Gl. (4.10).
9
Zur Erinnerung: Wenn sich die Beobachtungen immer auf die gleichen Unternehmen, Hochschulen
usw. beziehen, handelt es sich um ein echtes Panel. Beziehen sich die Beobachtungen zu den ver-
schiedenen Zeitpunkten auf unterschiedliche Unternehmen, ist dies ein gepoolter Querschnittsda-
tensatz, d. h. ein unechtes Panel.
10
Siehe dazu im Vergleich das Rubin-Neyman-Kausalmodell des Kap. 1.
Die zentrale Idee ist, dass nicht berücksichtigte Variablen, die sich im Zeitablauf nicht
ändern, auch keinen Einfluss auf die Veränderung der abhängigen Variablen ausüben
können. Dies ist auch mathematisch leicht nachvollziehbar: Wenn von solchen tatsächlich
einflussreichen, aber im Beobachtungszeitraum konstanten unabhängigen Variablen die
ersten Differenzen gebildet werden, sind diese natürlich gleich 0 und fallen damit als Ein-
flussfaktor weg. Solche möglicherweise einflussreichen, aber nicht berücksichtigten Vari-
ablen sind in den Wirtschafts- und Sozialwissenschaften eigentlich bei jeder empirischen
Fragestellung denkbar. Beispiele sind die Managementqualitäten der Geschäftsführung
von Unternehmen, die Leistungsbereitschaft von Mitarbeitern, die Lebensqualität als wei-
cher Standortfaktor von Regionen und die Lebensfreude von Individuen. Gerade bei die-
sen qualitativen Einflussfaktoren sind häufig entsprechende Daten nicht vorhanden oder
generell nur begrenzt ermittelbar. Unbeobachtbarer Heterogenität kann so durch die
Schätzung eines FD-Ansatzes prinzipiell begegnet werden. Sie besitzt in dieser Hinsicht
die gleichen Vorteile wie die FE-Methode.
Im Beispiel zu den Auswirkungen von Studiengebühren ist ∆Yi die Veränderung der
Zahl der Studienanfänger der Hochschule i zwischen zwei Zeitpunkten (bspw. 2008 und
2012). Treati ist die Dummyvariable für das Vorliegen von Studiengebühren bei der Hoch-
schule i. Diese Dummyvariable ist gleich 1, falls Studiengebühren von dieser Hochschule
erhoben worden sind, andernfalls beträgt die Dummyvariable 0. Die erste Differenz ∆Tre-
ati ist dann gleich 1 − 0 also gleich 1. Der Koeffizient b1 entspricht der Differenz in der
Veränderung der Zahl der Studienanfänger zwischen zwei Hochschulen mit und ohne Stu-
diengebühren. Der letzte Summand der Regressionsgleichung ei ist wieder der bekannte
Fehlerterm. Die Abb. 4.3 illustriert den Zusammenhang.
Der Ausdruck ∆YK beschreibt die Veränderung (∆) der Zahl der Studierenden in einer
Hochschule, die zur Kontrollgruppe (K) gehört. Also ist dies eine Hochschule ohne Stu-
diengebühren. Im Beispiel liegt die Zahl der Erstsemester im Jahr 2008 bei 600 und wächst
bis zum Jahr 2012 auf 1700. Das heißt, die Veränderung beläuft sich auf 1700 minus 600,
d. h. 1100 Studierende. Der Wert ∆YT ist die Veränderung der Studienanfängerzahl vom
Jahr 2008 bis zum Jahr 2012 in einer Hochschule aus der Treatmentgruppe mit Studien-
gebühren (T für Treatment). In dieser Hochschule erhöht sich die Zahl der Erstsemester im
Durchschnitt von 2000 auf 2400, d. h. um 400. Die Differenz der Zunahmen (d. h. der
Differenzen) zwischen der Kontroll- und der Treatmenthochschule (∆YT − ∆YK) beträgt
400 minus 1100 also −700 Studierende. Die Hochschule mit Studiengebühren verzeichnet
daher einen um 700 Studierende geringeren Zuwachs an Studienanfängern als die Hoch-
schule ohne Studiengebühren. Die gestrichelte Linie der Treatment Gruppe YT ist die ge-
schätzte kontrafaktische Entwicklung, die eingetreten wäre, wenn diese Hochschule
keine Studiengebühren erhoben hätte. Unter bestimmten Annahmen haben wir so die kau-
sale Wirkung von Studiengebühren identifiziert.
Natürlich ist diese Schlussfolgerung verfrüht, weil sie auf dem Vergleich von lediglich
zwei Hochschulen beruht. Analog können wir aber die individuellen ersten Differenzen
von bspw. 50 Hochschulen mit und 50 Hochschulen ohne Studiengebühren bilden. An-
schließend berechnen wir die Mittelwerte dieser 100 einzelnen Differenzen und verglei-
Studien-
anfänger
b1= -700
2400
= +400
2000
1700
= +1100
600
2008 2012 Jahr
Abb. 4.3 Das First-Differences-Verfahren
chen die Mittelwerte von Treatment- und Kontrollgruppe. In der Abb. 4.3 können wir dann
YT und YK durch Y T und Y K ersetzen. Im Rahmen einer Regressionsschätzung zu den
Zeitpunkten 2008 und 2012 ist dann −700 der geschätzte Koeffizient b1. Da die abhängige
Variable eine Veränderung darstellt, nämlich gleich ∆Y ist, gibt uns der Koeffizient b1 der
Dummyvariable Treatment (= Treat) an, ob ein Unterschied in dieser Veränderung zwi-
schen den Beobachtungseinheiten mit und ohne Treatment existiert. Dies ist anders ausge-
drückt eine Differenz einer Differenz. Allerdings wird diese Bezeichnung in der Litera-
tur – wie bereits erwähnt – zum Teil nur für den Fall unechter Paneldaten reserviert (siehe
Abschn. 4.5).
In unserem konstruierten Beispiel weisen die Hochschulen mit Studiengebühren also
im Durchschnitt einen um 700 Studierende geringeren Zuwachs als Hochschulen ohne
Studiengebühren auf. Wenn dieser geschätzte Koeffizient signifikant ist, kann geschluss-
folgert werden, dass Hochschulen mit Studiengebühren im Durchschnitt 700 Erstsemester
weniger immatrikulieren.
Soweit die Einführung und Abschaffung von Studiengebühren aufgrund zufälliger po-
litischer Umstände zustande kam und daher diese Treatmentgruppe tatsächlich eine zufäl-
lige Stichprobe aus allen Hochschulen in Deutschland darstellt, entspricht dies einem
natürlichen Experiment. Auf diese Weise ist der kausale Effekt der Einführung von Studi-
engebühren (prinzipiell) identifizierbar. Wir können dann schlussfolgern, dass die Einfüh-
rung von Studiengebühren die Ursache der geringeren Zahl von Erstsemestern darstellt.
Beim Vergleich von lediglich zwei Zeitpunkten – wie im obigen Beispiel – kann bei der
Dummyvariable für das Treatment (Treat) die Veränderung (das ∆) auch weggelassen
werden: Treat zum zweiten Zeitpunkt ist gleich 1, davon wird der Wert der Variable Treat
zum ersten Zeitpunkt (d. h. 0) abgezogen. Dies ist aber gleich 1 und ist daher identisch mit
einer Dummyvariablen für den Zeitpunkt 1. Bei mehr als zwei Zeitpunkten müssen aber
zwingend die ersten Differenzen dieser und aller anderen Variablen in der Form Zeitpunkt
2 minus Zeitpunkt 1, Zeitpunkt 3 minus Zeitpunkt 2 usw. gebildet werden.
In der Grafik wird auch deutlich, dass die wahren Zusammenhänge im Rahmen einer
Querschnittsanalyse nicht zu ermitteln sind. Nimmt man nur die Daten für die Erstse-
mesterzahlen zum Zeitpunkt 2008, wird ein positiver Einfluss der Erhebung von Studien-
gebühren auf die Zahl der Studienanfänger geschätzt, da im Durchschnitt eher Hochschu-
len mit hohen Erstsemesterzahlen Studiengebühren eingeführt haben: Im Jahr 2008 ist Y T
größer als Y K .11 Dies gilt ganz genauso für eine Querschnittsanalyse im Jahr 2012.
Schließlich führt auch eine gepoolte OLS-Analyse, d. h. ein Zusammenpacken aller Be-
obachtungen der Jahre 2008 und 2012 in einer einzigen Querschnittsanalyse, ohne Beach-
tung der Zeitpunkte, auf die sich die Beobachtungen beziehen, zu demselben falschen
Resultat: Mit Studiengebühren liegen die Erstsemesterzahlen (im Durchschnitt) höher als
ohne Studiengebühren.
Inhaltlich beruht das falsche Ergebnis der einfachen Regression auf dem Problem der
Selbstselektion (Self-Selection). Hochschulen mit höheren Studierendenzahlen tendieren
eher dazu, auch Studiengebühren zu erheben. Dies könnte bspw. darauf zurückzuführen
sein, dass diese Hochschulen nach eigener Einschätzung „sowieso zu viel Studierende“
haben und sich auf eine höhere Qualität der Lehre und Forschung konzentrieren, die mit
den Einnahmen aus Studiengebühren finanziert werden können. Inhaltlich äquivalent, nur
anders formuliert, wird eine wichtige Einflussvariable, nämlich die jeweilige strategische
Ausrichtung der Hochschulen, in der einfachen OLS-Querschnittsschätzung nicht berück-
sichtigt (Omitted Variable Bias, unbeobachtete Heterogenität). Ökonometrisch gesehen,
korreliert der Fehlerterm ei mit der unabhängigen Variablen Treat, d. h. Erhebung von
Studiengebühren. Wenn der Fehler tatsächlich nur zufallsbedingt wäre, dürfte eine solche
Korrelation aber nicht vorhanden sein.
Allerdings ist in vielen Fällen unbekannt, ob tatsächlich eine einflussreiche Variable
nicht berücksichtigt worden ist und damit eine Verzerrung (ein Bias) bei der Koeffizien-
tenschätzung des Treatmenteffekts vorliegt. Glücklicherweise besitzt aber die Verwen-
dung des FD-Verfahren in dieser Hinsicht keine Nachteile: Wenn in Wahrheit keine ein-
flussreichen Variablen in der Spezifikation der Regression fehlen, ermittelt der Ansatz ja
trotzdem den richtigen Treatmenteffekt. Die Schlussfolgerung lautet daher, dass es prinzi-
piell sinnvoll ist, dieses Schätzverfahren zu verwenden.
Die Unterschiede der Studierendenzahlen im Jahr 2008 (bzw. im Jahr 2012) stehen für die Bet-
11
ween-Varianz. Die Unterschiede innerhalb der Gruppe mit Treatment T (bzw. der Gruppe K) zwi-
schen den Jahren 2008 und 2012 sind jeweils die Within-Varianz.
Nachteile der Verwendung von ersten Differenzen ergeben sich unter zwei Aspekten:
Erstens sinkt die Zahl der Beobachtungen, da durch die Differenzenbildung Beobachtungen
wegfallen. Zweitens sind die Einflüsse zeitinvarianter Variablen (bspw. Geschlecht, Standort
usw.) nicht mehr zu ermitteln, da diese bei der Differenzenbildung ja eliminiert werden (die
Differenz ist gleich 0). Der FD-Ansatz teilt insoweit die Nachteile des FE-Verfahrens.
Die Durchführung als Regressionsanalyse ist prinzipiell einfach. Man bildet die ers-
ten Differenzen der abhängigen Variablen. Im Beispiel der Hochschulen berechnet man
folglich die Zunahme (bzw. ggf. die Abnahme) der Studierendenzahl für jede Hochschule
(Beobachtungseinheit) zwischen den beiden Zeitpunkten. Dies ist die abhängige (endo-
gene) Variable. Als unabhängige Variable verwenden wir eine Dummyvariable, die den
Wert 1 bekommt, falls es sich um eine Hochschule mit Studiengebühren handelt, alle
Hochschulen ohne Studiengebühren erhalten hier den Wert 0. Von dieser Dummyvariable
bilden wir wiederum die erste Differenz (nur bei lediglich zwei Zeitpunkten könnten wir
darauf auch verzichten). Diese Gleichung wird mittels OLS geschätzt. Die Konstante die-
ser Regression, d. h. a0, entspricht dem durchschnittlichen Unterschied der Studierenden-
zahlen im Jahr 2012 im Vergleich zum Jahr 2008. Der Koeffizient b1 der Dummyvariable
ist der gesuchte und oben bereits erläuterte Effekt der Studiengebühren auf die Zahl der
Erstsemester (siehe Gl. (4.10)).
Auch diese Regressionsgleichung kann ggf. um weitere relevante Einflussfaktoren er-
weitert werden. An der Interpretation ändert dies prinzipiell nichts. Zusätzliche Variablen,
die sich zwischen den betrachteten Zeitpunkten (Jahren) ändern, werden ebenfalls als Ver-
änderung (Differenz) in die Regressionsgleichung aufgenommen. Bspw. die Veränderung
der Zahl der Studienberechtigten zwischen 2008 und 2012 als Variable ∆Berecht. Dies ist
die Zunahme der Zahl der Studienberechtigten im Bundesland (bzw. der Region), in dem
sich die betreffende Hochschule befindet. Dann ergibt sich Gl. (4.11):12
∆Yi = a 0 + b1 ∆Treati + b 2 ∆Berechti + ∆e i (4.11)

Mögliche Einflussfaktoren, die sich von 2008 bis 2012 nicht ändern, sind – wie bereits
erwähnt – mit dem FD-Verfahren nicht analysierbar: Ohne Veränderung ist die Differenz
zwischen zwei Zeitpunkten gleich 0, und es ist plausibel, dass eine im Zeitverlauf kon
stante Variable keine Veränderung auslösen kann. Die Berücksichtigung nichtlinearer Zu-
sammenhänge – bspw. durch die Logarithmierung der abhängigen Variablen – ist dagegen
ohne Weiteres möglich.
Der beschriebene Schätzansatz erfordert mindestens Beobachtungen zu zwei Zeitpunk-
ten. Es ist möglich (bzw. auch häufig sinnvoll) ihn auf mehrere Zeitpunkte auszudehnen.
In diesem Fall handelt es sich um eine FD-Analyse mit mehreren und eventuell vielen
Zeitpunkten. Im einfachsten Fall sind die Studierendenzahlen unseres Beispiels für die
drei Jahre 2004, 2008 und 2012 vorhanden. Dann werden die Werte des ersten Zeitpunkts
Der Fehlerterm ∆ei ist für die Durchführung der Regressionsschätzung nicht weiter problematisch.
12
Das ∆ macht nur deutlich, dass es sich nicht um den gleichen Fehlerterm ei wie bspw. in Gl. (4.1)
handelt.
von den Werten des zweiten Zeitpunktes (2008 minus 2004) und die Werte des zweiten
Zeitpunkts von den Werten des dritten Zeitpunkts (2012 minus 2008) abgezogen. Die
Regressionsgleichung wird zu:
∆Yi = a 0 + a1 Jahr12 + b1 ∆Treati + b 2 ∆Berechti + ∆e it (4.12)
In der Gleichung ist Jahr12 eine Dummyvariable mit dem Wert 1, wenn es sich um eine
Beobachtung für das Jahr 2012 handelt (d. h. genauer die Differenz 2012 minus 2008). Die
Konstante a0 entspricht dann der Veränderung von 2004 auf 2008 und a1 der Veränderung
von 2008 auf 2012. Weitere Beobachtungsjahre (bspw. 2016) können hinzugefügt werden.
Dafür werden weitere Jahres-Dummyvariablen aufgenommen (bspw. Jahr16). Immer ist
daran zu denken, einen Beobachtungszeitpunkt wegzulassen. Falls ein linearer Trend stei-
gender Erstsemesterzahlen vorliegt, kann dieser mittels einer einzigen Konstanten a0 kon-
trolliert werden. Dummys für jedes Jahr sind angebracht, wenn jahresspezifische wech-
selnde Veränderungen zu berücksichtigen sind.
Bei mehr als zwei Zeitpunkten darf keine Autokorrelation der Residuen ∆eit vorliegen.
Andernfalls sind die einfachen Standardfehler und damit die t-Werte und Signifikanzni-
veaus nicht mehr gültig. Hinzu kommt, dass ggf. auch Heteroskedastie auftritt. Für beide
Probleme existieren aber geeignete Lösungen, die wichtigsten sind – wie bereits erwähnt –
die Schätzung (cluster)robuster Standardfehler und das Bootstrapping (siehe Wooldridge
2010, S. 310–315, 438–442; Stock und Watson 2015, S. 647–652).
Die praktische Berechnung von ersten Differenzen „per Hand“ ist möglich, aber
fehleranfällig. Sie kann am Beispiel der Abb. 4.2, wie folgt umgesetzt werden: Für die
Universität Freiburg i. Br. ist vom Jahr 2 der Wert für das Jahr 1 abzuziehen (3319−2984).
Die Veränderung (das ∆) ist also gleich 335. Entsprechend wird vom Jahr 3 das Jahr 2
abgezogen (3824−3319), was zu einer Differenz von 505 führt. Es ist darauf zu achten,
dass nicht vom Jahr 1 der Universität Heidelberg das Jahr 12 der Uni Freiburg abgezogen
wird. Dies führt natürlich zu Nonsense-Ergebnissen. Für die praktische Berechnung der
ersten Differenzen von Variablen sind daher – soweit vorhanden – in der Statistiksoftware
implementierte Routinen einzusetzen, bei denen solche Fehler nicht auftreten. Durch die
Differenzenbildung fällt der erste Beobachtungszeitpunkt natürlich weg, d. h. die Zahl der
Beobachtungen, auf denen unsere Schätzung beruht, nimmt ab.
Auch beim FD-Verfahren ist ein kausaler Zusammenhang nur unter bestimmten An-
nahmen gesichert. Wir müssen unterstellen, dass sich die Erstsemesterzahlen ohne Studi-
engebühren bei allen Hochschulen im Durchschnitt gleich entwickelt hätten. Das heißt,
dass die nicht beobachteten anderen Einflussfaktoren bei beiden Gruppen von Hochschu-
len (mit und ohne Gebühren) die Studienanfängerzahlen gleichermaßen verändern (soge-
nannte Common Trends Assumption). Auch muss sichergestellt sein, dass die Wirkung
in der Treatmentgruppe nicht auf die Kontrollgruppe ausstrahlt, d. h. die SUTVA-An
nahme muss erfüllt sein (siehe Kap. 1). Wenn sich die Erstsemesterzahlen der Hochschu-
len ohne Studiengebühren erhöhen, weil Studierende jetzt vermehrt auf diese Hochschu-
len ausweichen, ist diese Voraussetzung verletzt. Zumindest muss dies bei der Interpretation
der Koeffizientenschätzungen berücksichtigt werden.
Die Robustheit dieser Annahmen und damit der kausalen Interpretation der Koeffizien-
ten kann u. a. mit Hilfe von Lags und Leads der Treatmentvariablen überprüft werden. Auf
diesen Aspekt und weitere Probleme geht Abschn. 4.6 noch etwas ausführlicher ein.
4.4.6 Wahl des Spezifikationsansatzes
Es bleibt an dieser Stelle aber noch die Frage offen, welchem der vier Verfahren – dem
Pooled-OLS-, dem Fixed-Effects-, dem Random-Effects- oder dem First-Differences-An-
satz – der Vorzug gegeben werden sollte.13
Der einfache Pooled-OLS-Ansatz kommt unter zwei Voraussetzungen zur Anwendung.
Zum einen dürfen keine fixen Effekte vorhanden sein. Das heißt, es dürfen keine Unter-
schiede zwischen den Beobachtungsträgern (Hochschulen, Unternehmen usw.) existieren,
was wir mittels eines F-Tests überprüfen. Zum anderen dürfen hinsichtlich der Beobach-
tungsträger auch keine zufälligen Effekte vorhanden sein. Dies ist mittels des Breusch-
Pagan-Tests zu klären.
Hinsichtlich FE- oder RE-Ansatz wird in der Literatur ein grundsätzliches Argument
herangezogen. Wenn die Beobachtungsträger (bspw. Staaten, Unternehmen, Haushalte,
Hochschulen) prinzipiell eine gegebene (fixierte) Menge darstellen und keine Zufalls-
stichprobe aus einer Grundgesamtheit vorliegt, ist der Fixed-Effects-Ansatz zu verwen-
den. Dies ist der Fall, wenn alle Elemente der Grundgesamtheit einbezogen werden, bspw.
alle OECD-Staaten, alle Bundesländer oder alle Hochschulen in Deutschland. Wenn die
Beobachtungsträger eine Stichprobe aus einer Grundgesamtheit (bspw. der Haushalte oder
Unternehmen) sind, kommt der Random-Effects-Ansatz in Frage (Wooldridge 2018,
S. 445; Baltagi 2013, S. 20). Bei aggregierten (makroökonomischen) Sekundärdaten liegt
daher in der Regel der FE-Ansatz näher. Im Rahmen des FE-Ansatzes müssen wir uns
noch zwischen dem LSDV- oder dem Mittelwertabweichungsverfahren entscheiden. Die
Koeffizientenschätzungen sind für alle nicht Entity-fixed Effects identisch, in dieser Hin-
sicht ist die Wahl also irrelevant. Zwei Aspekte sind aber zu beachten. Erstens ist, wenn
wir Aussagen für Unterschiede zwischen den Beobachtungsträgern (Hochschulen, Unter-
nehmen etc.) treffen wollen, das LSDV-Verfahren zu verwenden. Zweitens spricht die
höhere Effizienz für das Mittelwertabweichungsverfahren, falls sehr viele Dummys einzu-
beziehen sind. Was der Fall ist, wenn ein sehr breiter Paneldatensatz vorliegt.
Um zwischen dem FE- und dem RE-Ansatz zu entscheiden, wird der Haus
man-(Durbin-Wu-)Test herangezogen. Er analysiert, ob die Koeffizientenschätzung des
Random-Effects-Ansatzes sich nur insignifikant von den Koeffizientenschätzungen des
unverzerrten Fixed-Effect-Ansatzes unterscheiden (Wooldridge 2018, S. 444–445; Andreß
13
Eine weitere Möglichkeit ist die oben bereits erwähnte Differences-in-Differences (DiD) Me-
thode. Diese ist aber bei echten Paneldaten den genannten Verfahren unterlegen. Sie wird daher nur
bei gepoolten Querschnittsdaten (unechten Panels) eingesetzt, da in diesem Fall die Verwendung
von Entity-spezifischen Dummys und die Bildung erster Differenzen nicht möglich sind. Abschn. 4.5
erläutert die DiD-Methode.
et al. 2013, S. 167–169). Die Nullhypothese lautet, dass die (unbeobachteten) individuel-
len Effekte nicht mit den Koeffizientenschätzungen der unabhängigen Variablen korrelie-
ren. Inhaltlich bedeutet dies, dass die Koeffizienten der unabhängigen Variablen von den
unbeobachteten zeitkonstanten Einflussfaktoren (den Entity-fixed Effects ai der Gl. (4.4)
bis (4.6) aus Abschn. 4.4.3) nicht beeinflusst werden. Bei Ablehnung der Nullhypothese ist
das Fixed-Effects-Verfahren einzusetzen.14 Ist die Nullhypothese nicht abzulehnen, ist das
Random-Effects-Verfahren in Betracht zu ziehen. Dies ist möglich, weil man ja die fixen
individuellen Effekte weglassen kann. Diese „Einsparung“ bei der Zahl der zu schätzen-
den Koeffizienten erlaubt eine effizientere Schätzung der übrigen Koeffizienten. Das heißt
konkret, die Standardfehler sind tendenziell kleiner als bei einer Schätzung mittels des
FE-Ansatzes. Wir erhalten also größere t-Werte und können die Nullhypothese eher
ablehnen.
Die Unterscheidung kann in drei Schritten erfolgen (Baltagi 2013, S. 83):
• FE oder Pooled-OLS? Entscheidung anhand des F-Tests, der prüft, ob die Beobach-
tungseinheiten und Zeitpunkte jeweils gemeinsam signifikanten Einfluss besitzen: bei
Ablehnung, kein Pooled-OLS sondern FE.
• RE oder Pooled-OLS? Entscheidung anhand des Breusch-Pagan-Tests, der prüft, ob die
Varianz der spezifischen Komponente der Beobachtungseinheiten des Störterms 0 ist:
Falls Ablehnung, kein Pooled-OLS sondern RE.
• FE oder RE? Bei Ablehnung der Nullhypothese durch Hausman-Test FE wählen.
Tab. 4.3 fasst die verschiedenen Aspekte der Modellauswahl zwischen Pooled-OLS-,

Fixe-Effekte- und Zufällige-Effekte-Verfahren zusammen.
Tab. 4.3 Verfahrensauswahl
Fixe Effekte Zufällige Effekte Entscheidung für:
(F-Test) (Breusch-Pagan-Test)
H0 nicht abgelehnt H0 nicht abgelehnt
(Keine fixen Effekte) (Keine zufälligen Effekte) Pooled OLS
H0 abgelehnt H0 nicht abgelehnt
(Fixe Effekte) (Keine zufälligen Effekte) Fixe-Effekte-Modell
H0 nicht abgelehnt H0 abgelehnt
(Keine fixen Effekte) (Zufällige Effekte) Zufällige-Effekte-Modell
H0 abgelehnt H0 abgelehnt
(Fixe Effekte) (Zufällige Effekte) Abhängig von Hausman-Test
Falls H0 abgelehnt:
Fixe-Effekte-Modell
Falls H0 nicht abgelehnt:
Zufällige-Effekte-Modell
14
Allerdings ist dies noch kein Beweis für die Richtigkeit des FE-Ansatzes. Dies wird genauer von
Baltagi (2013, S. 79–80) erläutert, der zusätzliche Tests empfiehlt.
Abschließend ist noch zu klären, wann das FD-Verfahren und wann das Fixed-Ef-
fects-Verfahren eingesetzt werden sollte. Bei lediglich zwei Zeitpunkten stellt sich die
Frage nicht, da beide Verfahren zu identischen Schätzungen führen. Dies ist bei mehr als
zwei Zeitpunkten nicht unbedingt der Fall.
Bei einem breiten Panel (viele Beobachtungsträger und wenige Zeitpunkte, bspw.
N = 100 und T = 10) wird in der Praxis meistens eine Fixed-Effects-Schätzung durchge-
führt. Diese ist effizienter als das FD-Verfahren, wenn die Residuen keine Autokorrelation
aufweisen. Bei einem langen Panel (kleine Zahl von Beobachtungsträgern und vielen Zeit-
punkten, bspw. N = 20 und T = 40) spricht einiges für das Erste-Differenzen-Verfahren. Es
besitzt den Vorteil, dass durch die Differenzenbildung die Wahrscheinlichkeit verringert
wird, dass bspw. aufgrund gemeinsamer Trends lediglich eine Scheinkorrelation vorliegt
(Wooldridge 2018, S. 440; Ashley 2012, S. 462, 464).15
Das FE- und das FD-Verfahren haben also jeweils Vorzüge und Nachteile. Daher ist es
empfehlenswert, beide Verfahren durchzuführen und die Ergebnisse zu vergleichen. Beide
Ansätze ergeben Koeffizientenschätzungen, die – unter bestimmten Annahmen – unver-
zerrt und konsistent sind. Inhaltlich sollten sie also tendenziell zu den gleichen Ergebnis-
sen führen. Stimmen die Resultate der Koeffizientenschätzungen überein, spricht das für
deren Robustheit.
Die Analyse von Paneldaten zur Identifikation kausaler Zusammenhänge umfasst in der
Praxis die folgenden Schritte:
Am Beginn steht die einfache gepoolte OLS-Regression des Datensatzes. Die Schät-
zungen dienen lediglich als Basismodell für Vergleichszwecke. Ihre Ergebnisse sind nur
unter sehr restriktiven Prämissen kausal interpretierbar. Als zweiter Schritt wird eine Fi-
xe-Effekte-Regression durchgeführt. Sofern die Statistiksoftware dazu spezielle Routinen
anbietet, wird von diesen automatisch die Mittelwertabweichungsmethode gewählt. Der
F-Tests prüft, ob fixe Effekte vorhanden sind. Wenn er die Nullhypothese verwirft, liegen
fixe Effekte vor und die FE-Regression stellt insoweit das adäquate Verfahren dar. Wenn
die Software keine Routinen für eine FE-Schätzung enthält, ist eine LSDV-Regression mit
Entity-fixed Dummys verwendbar, was zu identischen Resultaten führt. Das LSDV-Ver-
fahren ist auch die Methode der Wahl, wenn wir Unterschiede zwischen den Beobach-
tungseinheiten (Staaten, Regionen, Unternehmen, Individuen usw.) analysieren wollen.
Drittens ist die Verwendung der Methode der ersten Differenzen (FD-Verfahren) sinnvoll.
Ein Vergleich mit den Resultaten des FE-Verfahrens ermöglicht Rückschlüsse auf die Ro-
Die sich daraus ergebenden Probleme sind im Kap. 3 zur Zeitreihenanalyse kurz beschrieben wor-
15
den. Eine ausführliche Darstellung der komplexen Verfahren, die in diesen Fällen verwendet wer-
den, erfolgt in dieser Einführung nicht (siehe dazu Cameron und Trivedi 2009, S. 272–273 und
Baltagi 2013, S. 275–315).
bustheit und ggf. die Ursachen von Verzerrungen der Koeffizientenschätzungen genauer
zu analysieren. Wooldridge (2010, S. 321–333) stellt die Vor- und Nachteile der verschie-
denen Verfahren ausführlich dar. Können wir die Beobachtungseinheiten als zufällige
Stichprobe auffassen, wird mittels des Breusch-Pagan-(Lagrange-Multiplier)-Tests kon
trolliert, inwieweit die Voraussetzungen zutreffen. Je nach Ergebnis erfolgt als weiterer
Schritt eine RE-Regression.
Mittels der FE- und FD-Verfahren kann das Problem der unbeobachteten Heterogenität
prinzipiell eliminiert werden. Beide Verfahren basieren im Unterschied zur einfachen
OLS-Regression von Querschnittsdaten auf weniger restriktiven Voraussetzungen, um Ur-
sache-Wirkungs-Beziehungen zu identifizieren. Aber auch die Fixed-Effects-Methoden
setzen – genau wie die Random-Effects- und die First-Differences-Methode – voraus,
dass, nachdem die unbeobachteten und zeitpunktbezogen variierenden Einflüsse mittels
Dummys eliminiert worden sind, die unabhängigen Variablen nicht mit den Residuen kor-
relieren. Dies bedeutet inhaltlich, dass zukünftige (oder vergangene) Werte der Einfluss-
faktoren nicht mit den gegenwärtigen Residuen zusammenhängen (sogenannte strikte
Exogenität – Strict Exogenity).16
Diese Annahme ist erstens bei verzögerten abhängigen Variablen verletzt. Solche Lags
sind uns bereits in Kap. 3 begegnet. Zweitens darf die Einflussvariable nicht durch Antizi-
pations- und Reaktionszusammenhänge tatsächlich endogen sein. Ein prominentes Bei-
spiel ist der Zusammenhang von Kriminalität (Straftaten pro 100.000 Einwohner) und
Polizeikräften (Polizisten pro Einwohner). Die verschiedenen Vorgehensweisen (ob FE-,
RE- oder FD-Methoden) kommen häufig zum Ergebnis, dass mehr Polizei die Kriminali-
tät erhöht. Dieses etwas überraschende Resultat ist auf zwei Arten zu erklären. Erstens
könnten mehr Polizisten auch mehr Straftaten registrieren. Dies ist sehr plausibel, wenn
wir an den Einsatz von mehr Verkehrspolizisten und die Zahl der entdeckten Geschwin-
digkeitsüberschreitungen im Straßenverkehr denken. Mehr Verkehrspolizisten verursa-
chen nicht mehr Fälle von überhöhter Geschwindigkeit, aber entdecken diese häufiger.
Zweitens dürfte die Politik auf eine erwartete oder bereits vorhandene Zunahme der Straf-
taten mit einer Aufstockung der Polizeikräfte reagieren. In beiden Erklärungen liegt eine
umgekehrte Kausalrichtung vor, die zur Endogenität der unabhängigen Variablen führt.
Eine sichere Feststellung kausaler Zusammenhänge ist aber nur gegeben, wenn – wie im
ersten Kapitel erläutert – keine umgekehrte Kausalität bzw. simultane Gleichgewichte
vorliegen.
Das Problem der fehlenden Stationarität von Variablen, das uns im 3. Kapitel begeg-
net war, tritt entsprechend auch bei langen Paneldatenreihen auf. Bei kurzen Panels wird
es in der Praxis als nicht relevant betrachtet. Das FD-Verfahren ist in dieser Hinsicht vor-
teilhaft, da es durch die Bildung erster Differenzen Trends eliminiert und so ggf. – wie im
dritten Kapitel beschrieben – Stationarität erreicht wird.
16
Außerdem dürfen keine Messfehler bei den exogenen Variablen existieren. Dieser Aspekt wird hier
ausgeklammert.
Bei den verschiedenen Methoden der Paneldatenanalyse sind Heteroskedastie und Au-
tokorrelation der Residuen häufig auftretende Probleme (insbesondere bei der gepoolten
OLS-Methode). Auch dies ist zu überprüfen, und ggf. sind entsprechende gegen Heteros-
kedastie und Autokorrelation robuste Standardfehler zu verwenden. Wie bereits er-
wähnt, bieten Stata und SPSS entsprechende Optionen. In diesen Programmpaketen kön-
nen clusterrobuste Standardfehler berechnet werden. Die Schwankungen für eine
Beobachtungseinheit (bspw. eine Hochschule, ein Unternehmen oder einen Staat) dürften
sich von den Schwankungen anderer Beobachtungseinheiten zu den verschiedenen Zeit-
punkten systematisch unterscheiden. Eine Beobachtungseinheit wird dann als ein Cluster
aufgefasst. Sowohl Heteroskedastie als auch Autokorrelation der Standardfehler in diesem
Cluster werden so korrigiert (Ashley 2012, S. 427–428). Das FD-Verfahren ist ebenfalls
ein mögliches Mittel, um Autokorrelation zu beseitigen.
4.5 Unechte Paneldaten (gepoolte Querschnittsdaten)
Echte Paneldaten sind auf der Ebene von Individuen, Haushalten und Unternehmen auf-
grund des hohen Erhebungsaufwandes nur begrenzt vorhanden. Wesentlich häufiger sind
Querschnittsdaten zu unterschiedlichen Zeitpunkten verfügbar. Bei gepoolten (wiederhol-
ten) Querschnittsdaten – wie bspw. den ALLBUS- oder GEDA-Umfragen – liegen Beob-
achtungen für zwei oder mehr Zeitpunkte und mehrere (viele) Beobachtungseinheiten –
bspw. Personen oder Haushalte – vor. Allerdings sind dies von Beobachtungszeitpunkt zu
Beobachtungszeitpunkt nicht immer dieselben Personen bzw. Haushalte. Es handelt sich
also um unechte Panels. Die Verwendung solcher gepoolter Datensätze hat unmittelbar
den Vorteil, dass die Zahl der Beobachtungen auf diese Weise erheblich steigt. Je größer
die Zahl der Beobachtungen, desto verlässlicher sind die geschätzten Koeffizienten. Ers-
tens verringern sich die Standardabweichungen, die t-Werte werden also größer. Damit ist
es möglich, dass auch kleinere Einflüsse (Koeffizientenwerte) statistische Signifikanz er-
reichen.17 Zweitens sinkt die Gefahr, dass einzelne Beobachtungen die Ergebnisse stark
beeinflussen. Die Robustheit der Schätzungen hinsichtlich Ausreißer und einflussreicher
Beobachtungen steigt. Drittens trifft die Normalverteilungsannahme in einem großen
Sample eher zu.
Darüber hinaus können auch auf der Grundlage von unechten Panels kausale Wirkun-
gen ermittelt werden. Dies setzt insbesondere voraus, dass die einzelnen Querschnittsda-
tensätze der verschiedenen Zeitpunkte jeweils zufällige Stichproben darstellen, Verände-
rungen nur einen Teil der Beobachtungseinheiten, d. h. die Treatmentgruppe treffen, und
Treatment- und Kontrollgruppe vor und nach dem Treatment eindeutig identifizierbar
sind. Dann sind die Outcomes der Kontroll- und der Treatmentgruppe im Rahmen eines
natürlichen Experiments vergleichbar.
17
Dabei ist immer im Auge zu behalten, dass die statistische Signifikanz eines Koeffizienten noch
nichts über dessen inhaltliche Relevanz aussagt (siehe Stoetzer 2017, Kap. 2)!
4.5 Unechte Paneldaten (gepoolte Querschnittsdaten) 257
Praktische Beispiele
Natürliche Experimente beziehen sich häufig auf unterschiedliche regionale Treat-

ments unechter Panels innerhalb eines Staates. Anwendungsfälle sind:
Unterschiedliche Veränderungen von Mindestlöhnen in den Nachbarstaaten Pennsylva-
nia und Ohio in den USA: Auswirkungen auf die Arbeitslosigkeit (Card und Krueger 1994).
Die unterschiedlichen Liquiditätspolitiken der Federal-Reserve-Banken in verschie-
denen Distrikten (6th, 8th District) im Bundesstaat Mississippi in den USA in den
Jahren 1929–1934: Folgen für die Zahl der Bankencrashs (Richardson und Troost 2009).
Differierende Mindestalter für den legalen Alkoholgenuss in den Staaten der USA:
Einfluss auf die Zahl der Toten im Straßenverkehr im Alter von 18–20 Jahren (Carpen-
ter und Dobkin 2011).
Studiengebühren in 7 von 16 Bundesländern in Deutschland im Zeitraum 2005–2012:
Auswirkung auf die Zahl der Erstsemester an den Hochschulen (Dietrich und Gerner 2012).
Altersabhängige Unterschiede des aktiven Wahlrechts bei den Kommunalwahlen in
Deutschland: Folgen für die Wahlergebnisse der Parteien (NN). ◄
Die Bildung von ersten Differenzen (First Differences) für die einzelnen Beobach-
tungseinheiten (Individuen, Unternehmen usw.) ist bei unechten Panels mit gepoolten
Querschnittsdaten natürlich nicht möglich, da ja für die verschiedenen Zeitpunkte immer
unterschiedliche Beobachtungseinheiten vorliegen. Es können ebenfalls keine Fixed-Ef-
fects- (und auch Random-Effects-)Verfahren angewandt werden. Warum ist dies so? Wenn
man bspw. für jede Beobachtungseinheit eine Dummyvariable einsetzt, diese Beobach-
tungseinheiten aber zu den Zeitpunkten variieren (es handelt sich ja um unterschiedliche
Personen, Unternehmen usw.), führt das zu so vielen Dummys, wie Beobachtungen exis-
tieren. Es ist aber offensichtlich, dass wir mehr Beobachtungen als unabhängige Variable
benötigen, um eine OLS-Schätzung durchführen zu können.
Trotzdem sind die Überlegungen zu den Fixed-Effects-Verfahren des Abschn. 4.4.3 prin-
zipiell auch in diesem Fall anwendbar. Die Analyse kausaler Wirkungen ist möglich, und
zwar mittels des Differenzen-in-Differenzen-Verfahrens. Dies wird in der Literatur häufig
mit dem Kürzel DiD- oder seltener auch als DD-Methode bezeichnet.18 Dabei unterscheiden
wir zwischen einer Gruppe von Beobachtungsträgern (Personen, Unternehmen usw.), die
einer bestimmten Maßnahme (einem Treatment) ausgesetzt wird und einer zweiten Gruppe
von Beobachtungsträgern, die diesem Treatment nicht unterzogen wird. Die erste Gruppe ist
die Treatmentgruppe und die zweite Gruppe die Kontrollgruppe. Wir analysieren dann, in-
wieweit sich diese beiden Gruppen hinsichtlich eines uns interessierenden Outcomes, das
heißt einer abhängigen Variablen, unterscheiden, und insbesondere wie sich diese Differenz
in dem Zeitraum mit Treatment im Vergleich zum Zeitraum ohne Treatment zwischen diesen
beiden Gruppen verändert. Wir ermitteln also eine Differenz einer Differenz.
18
Sie entspricht insoweit dem oben behandelten FD-Verfahren. Allerdings werden hier Differenzen
auf Gruppenebene und nicht auf der Eben der einzelnen Beobachtungsträger gebildet.
Zur Illustrierung verwenden wir den (konstruierten) Datensatz Treatment_Data_Patents.

dta. Er enthält die Zahl der Patentanmeldungen von 24 Unternehmen, die über 6 Zeitpunkte
(Perioden) hinweg erhoben worden sind. In jedem Zeitpunkt sind die Zahl der Patentanmel-
dungen von vier Unternehmen ermittelt worden. Allerdings handelt es sich von Zeitpunkt
zu Zeitpunkt um jeweils unterschiedliche Unternehmen. In den Perioden 4, 5 und 6 haben
jeweils 2 Unternehmen in den neuen Bundesländern an einer besonderen F&E-Förderung
teilgenommen. Diese F&E-Förderung ist unser Treatment. Die Frage ist, welche Wirkung
diese Maßnahme auf die Zahl der Patentanmeldungen (Variable Number_Patents) hat.
Abb. 4.4 enthält das Streudiagramm unserer 24 Beobachtungen. Der Datensatz ist so kon
struiert, dass die F&E-Förderung 5 zusätzliche Patentanmeldungen bewirkt.
Eine einfache Querschnittsregression für den Zeitpunkt t = 6 mit der Variablen „Treat-
ment“ zur Identifizierung des Einflusses der F&E-Förderung führt zum Ergebnis, dass die
Wirkung im Mittel 13 zusätzliche Patente beträgt. Auch eine (gepackte) Pooled-OLS-Regres-
sion über alle 6 Zeitpunkte hinweg ermittelt einen positiven Einfluss im Umfang von 12,33
zusätzlichen Patenten. In beiden Fällen sind die Wirkungen auf dem 1-%-Niveau signifikant.
Dies ist aber eine offensichtlich verzerrte (Biased) Schätzung. Die Verzerrung besteht
darin, dass der wahre Einfluss von 5 zusätzlichen Patenten extrem überschätzt wird. Wo
liegt hier der Fehler? Die Verzerrung kommt zustande, weil nur Unternehmen, die bereits
in den Perioden 1, 2 und 3 eine hohe Zahl von Patentanmeldungen aufweisen, auch an der
F&E-Förderung teilnehmen. Es liegt hier ein massives Problem der Selbstselektion vor,
denn nur bereits innovativ erfolgreich tätige Unternehmen sind in das Treatment einbezo-
gen bzw. haben dies für sich adoptiert. Sie konnten auf diese Weise ihre Patentaktivitäten
noch weiter erhöhen.
Abb. 4.4 Streudiagramm Treatment

4.5 Unechte Paneldaten (gepoolte Querschnittsdaten) 259
Die Richtung und das Ausmaß der Verzerrung hängt von der jeweiligen Datenkonstel-
lation ab: Die Verzerrung kann auch darin bestehen, dass kein Einfluss ermittelt wird, ob-
wohl dieser vorliegt. Genauso kann ein negativer Einfluss geschätzt werden, während tat-
sächlich eine positive Wirkung vorhanden ist.
Diese Selbstselektion (bzw. unbeobachtete Heterogenität) können wir bei gepoolten
Querschnittsdaten nicht beseitigen, da weder das FE- noch das FD-Verfahren anwendbar
sind. Alternativ ist dies aber u. U. mittels der DiD-Methode möglich. Wir nehmen eine
Dummyvariable auf, bei der alle Unternehmen, die zur Treatmentgruppe gehören – also
eine F&E-Förderung bekommen haben –, mit dem Wert 1 kodiert werden. Diese Unter-
nehmen erhalten in allen 6 Jahren eine 1 und die anderen Unternehmen der Kontroll-
gruppe in allen 6 Jahren eine 0. Dies ist hier die Variable TRGroup. Die Variable TRPhase
ist eine Dummyvariable für den Zeitraum der Maßnahme – also der Förderphase (Treat-
mentphase) in den Jahren 4 bis 6. Folglich erhält sie den Wert 1 in den Perioden 4, 5 und
6. In den Perioden 1 bis 3 beträgt ihr Wert 0. Entscheidend ist die nächste Variable InTrG-
roupTrPhase. Es handelt sich um den Interaktionseffekt der Variablen TrGroup und
TrPhase. Der Interaktionseffekt InTrGroupTrPhase ist einfach die Multiplikation der Va-
riablen TrGroup und TrPhase. Er nimmt den Wert 1 an, wenn ein Unternehmen erstens zur
Treatmentgruppe gehört und zweitens außerdem ein Jahr in der Treatmentphase liegt. In
allen anderen Fällen beträgt der Interaktionseffekt 0 (wegen der Multiplikation). Diese
Variable zeigt an, welchen Einfluss die Einführung der Maßnahme in den Perioden 4 bis 6
auf die Unterschiede zwischen den Unternehmen der Treatment- und der Kontrollgruppe
hinsichtlich der Patentanmeldungen ausübt. Der Koeffizient des Interaktionseffektes be-
schreibt daher die Veränderung einer Veränderung (Difference-in-Difference).
Die Spezifikation erfolgt also jetzt unter Einbezug eines Interaktionseffekts. Wie üblich
ist a0 die Konstante, die Schätzmethode ist das OLS-Verfahren.

Number _ Patentsit = a 0 + b1TrGroupit + b 2TrPhaseit + b3 InTrGroupTrPhase + e it (4.13)
Abb. 4.5 enthält die entsprechenden Ergebnisse unter Verwendung von Stata.

Der Interaktionseffekt InTrGroupTrPhase besagt, um wie viel sich die Unternehmen
in der Treatmentgruppe von der Gruppe ohne Treatment, d. h. der Kontrollgruppe, in der
Zeit des Treatments unterscheiden. Wir unterstellen also, dass die Unternehmen mit
F&E-Förderung sich von den Unternehmen ohne F&E-Förderung in der Treatmentphase
nur unterscheiden, weil sie die Förderung erhalten haben. Andernfalls hätte sich die Zahl
der Patentanmeldungen in beiden Gruppen nicht unterschieden. Die Entwicklung der
Patentanmeldungen in der Kontrollgruppe ist wieder unsere kontrafaktische Referenz.
Im Beispiel werden 5 zusätzliche Patente ermittelt, was dem uns bekannten wahren Ein-
fluss entspricht. Die Verzerrung durch die Selbstselektion bzw. unbeobachtete Heteroge-
nität wird also jetzt erfolgreich vermieden. Wäre der Interaktionseffekt InTrGroupTrPhase
nicht signifikant, wäre unsere Schlussfolgerung, dass die F&E-Förderung wirkungs
los war.
regress Number_Patents i.TrGroup i.TrPhase InTrGroupTrPhase

-------------+---------------------------------- F(3, 20) = 146.75
Model | 880.5 3 293.5 Prob > F = 0.0000
Residual | 40 20 2 R-squared = 0.9565
-------------+---------------------------------- Adj R-squared = 0.9500
Total | 920.5 23 40.0217391 Root MSE = 1.4142
----------------------------------------------------------------------------------
Number_Patents | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------------+----------------------------------------------------------------
1.TrGroup | 8 .8164966 9.80 0.000 6.296818 9.703182
1.TrPhase | 3 .8164966 3.67 0.002 1.296818 4.703182
InTrGroupTrPhase | 5 1.154701 4.33 0.000 2.591337 7.408663
_cons | 8 .5773503 13.86 0.000 6.795668 9.204332
----------------------------------------------------------------------------------
Abb. 4.5 DiD-Schätzung
In die Regressionsgleichung können wir natürlich weitere Kontrollvariablen aufneh-

men. Die Variable Control steht als Platzhalter für solche weitere mögliche unabhängige
Variablen.19 Dies führt zur Gl. (4.14):
Y = a 0 + b1TrGroup + b 2TrPhase + b3 InTrGroupTrPhase + b 4 Control + e (4.14)

Das Verfahren basiert aber auf zwei Voraussetzungen. Erstens ist es notwendig, dass die
Unternehmen, die der Treatmentgruppe angehören (und von uns die Dummyvariable 1 in
allen Perioden erhalten haben), von der Gruppe der Unternehmen, die kein Treatment er-
halten haben, unterscheidbar sind. Es müssen also eine Treatmentgruppe und eine Kon
trollgruppe identifizierbar sein. In den klassischen Anwendungsbeispielen sind beide
Gruppen aufgrund ihrer räumlichen Trennung auseinanderzuhalten: Die Beschäftigungs-
wirkungen einer Erhöhung des Mindestlohns auf Fast-Food-Unternehmen in Pennsylva-
nia wird mit den Veränderungen in den Beschäftigten solcher Unternehmen im benachbar-
ten Ohio verglichen. Die Wahl der Kontrollgruppe ist dabei immer ein Kritikpunkt. Eine
geeignete Kontrollgruppe sollte sich möglichst nicht systematisch von der Treatment-
gruppe unterscheiden und im Betrachtungszeitraum keinen besonderen Einflüssen unter-
liegen. Das heißt, sie muss die gleiche Entwicklung aufweisen, wie sie die Treatment-
gruppe hätte, wenn letztere ohne Treatment bliebe. Die ist das uns aus dem ersten Kapitel
bekannte Problem einer kontrafaktischen Analyse. Zur Ermittlung geeigneter Kontroll
gruppen existieren verschiedene Methoden.20 Zweitens ist diese einfache DiD-Schätzung
nur möglich, wenn sich die Zeiträume mit und ohne Treatment für beide Gruppen klar
voneinander trennen lassen und die Treatmentphase für alle Unternehmen mit Treatment
zum gleichen Zeitpunkt beginnt. Im einfachsten Fall handelt es sich um zwei Zeitpunkte
bzw. Zeiträume, die betrachtet werden. Ein Zeitpunkt ohne Treatment und ein Zeitpunkt
19
Mittels Interaktionseffekten können auch die Einflüsse zeitkonstanter Variablen (wie Schulab-
schluss oder Geschlecht) ermittelt werden (Wooldridge 2018, S. 437–438).
20
Verfahren, um eine adäquate Kontrollgruppe zu finden, bezeichnet man als Matching-Verfahren.
Hierzu existiert eine Vielzahl von Ansätzen. Guo und Fraser (2015) bieten einen umfassenden
Überblick.
4.6 Weiterführende Aspekte 261
mit Treatment bei zwei verschiedenen Gruppen. In unserem Beispiel stellen die Perioden
1, 2 und 3 den Zeitraum ohne Treatment dar. Die Perioden 4, 5 und 6 sind der Zeitraum
mit Treatment. Wenn wir nur über Beobachtungen zu zwei Zeitpunkten einmal mit und
einmal ohne Treatment verfügen, ändert dies am Vorgehen aber nichts.
Allerdings müssen wir unter inhaltlichen Gesichtspunkten klären, ob eine Maßnahme
dauerhaften Einfluss besitzt oder nur in den Zeiträumen, in denen sie eingesetzt wird. Die
Teilnahme an einer Fortbildungsmaßnahme ist ein Treatment, das anschließend über meh-
rere Perioden hinweg (bzw. sogar dauerhaft) positive Auswirkungen haben sollte. Die Er-
hebung von Studiengebühren oder zeitlich begrenzte Rabatte im Rahmen der Preispolitik
eines Unternehmens entfalten ggf. nur in den Perioden eine Wirkung, in denen sie einge-
setzt werden. Liegt eine solche Situation vor und betrachten wir einen Zeitraum, in dem
Unternehmen zwischen Treatment- und Kontrollgruppe mehr als einmal wechseln, ist das
DiD-Verfahren u. U. nicht verwendbar. Wir können dann solche Unternehmen nicht mehr
eindeutig der Treatment- und der Kontrollgruppe zuordnen. Schwierigkeiten ergeben sich
auch, wenn sich die Zeitpunkte des Einsatzes des Treatments bei verschiedenen Unterneh-
men auf unterschiedliche Zeitpunkte beziehen. Dies liegt vor, wenn die Teilnahme am
F&E-Förderprogramm bei bestimmten Unternehmen im Jahr 2012, bei anderen im Jahr
2016 und bei einer dritten Gruppe erst 2017 implementiert wird. Das Problem liegt also in
unterschiedlichen Treatmentzeiträumen oder wechselnden Treatment- und Nicht-Treat-
mentzeiträumen sowie unterschiedlichen Formen von Wirkungen: unmittelbar oder verzö-
gert, konstant oder zunehmend bzw. abnehmend (siehe dazu Abb. 4.6 im Abschn. 4.6).
Nichols (2009) und Angrist/Pischke (2015, S. 178–208) beschreiben die Probleme und
mögliche Lösungsmöglichkeiten. Verschiedene zusätzliche Erweiterungen, die damit ver-
bundenen Schwierigkeiten und alternativen Schätzverfahren erläutert Baltagi (2013,
S. 18–20). Bei gepoolten Querschnittsdaten können die wechselnden Beobachtungsein-
heiten auch durch den Rückgriff auf „Gruppen“ (Kohorten) ersetzt werden. Die entspre-
chenden speziellen Verfahren für solche Pseudo-Panels stellen Baltagi (2013, S. 218–221)
und Verbeek (2008) dar.
4.6 Weiterführende Aspekte
Die DiD-Methode schätzt ebenso wie das FE-Verfahren einen ATT – Average Treatment
Effect of the Treated (siehe Kap. 1). Dies ergibt sich, weil beide Verfahren sich auf eine
bestimmte Gruppe beziehen, die einem Treatment (potenziell) ausgesetzt wird. Die kausa-
len Auswirkungen eines F&E-Förderprogramms beziehen sich auf die Unternehmen, die
daran freiwillig teilnehmen (würden). Die positive Wirkung auf die Zahl der Patente ist
u. U. nicht vorhanden, wenn die Grundgesamtheit aller Unternehmen zwangsweise einem
Treatment unterzogen würde (Athey und Imbens 2006).
Für die verschiedenen Verfahren (FE-, RE- und FD-Methoden) gilt – wie für alle Re-
gressionsschätzungen von zeitlichen Abläufen –, dass sie die Frage aufwerfen, wie die
Wirkung einer Maßnahme (einer Intervention, eines Treatments) im zeitlichen Verlauf
aussieht (siehe auch Kap. 3). Abb. 4.6 verdeutlicht einige der möglichen Wirkungsver
Outcome Outcome
(a) (b)
Beginn Treatment Zeit Beginn Treatment Zeit
Outcome Outcome
(c) (d)
Outcome Outcome
(e) (f)
Outcome Outcome
(g)
(h)
Abb. 4.6 Zeitliche Wirkungsverläufe (Impact Functions)

4.6 Weiterführende Aspekte 263
läufe, die in der Literatur auch als Impact Functions bezeichnet werden. Einflüsse von so
unterschiedlichen Ereignissen wie Heirat, Arbeitslosigkeit, Studienabschluss, Teilnahme
an einer Fortbildung, Einführung von Studiengebühren oder eines Mindestlohnes, Erhö-
hung der Gewerbesteuer, Beitritt zur oder Austritt aus der Europäischen Union werden in
ihrer zeitlichen Struktur differieren. Positive und negative Wirkungen auf ein bestimmtes
Outcome sind möglich (und ggf. auch beabsichtigt). Die Wirkung kann unmittelbar auftre-
ten und anhaltend sein (a) oder unmittelbar und zeitlich begrenzt (b) ausfallen. Sie kann
linear zunehmend und dauerhaft (c) oder abnehmend und vorübergehend (d) gestaltet sein.
Auch entsprechende nichtlineare Wirkungen sind plausibel: (e) bis (g).
Die Spezifikation des zeitlichen Einflusses ist prinzipiell auf Basis theoretischer Über-
legungen und vorhandener empirischer Untersuchungen vorzunehmen. Soweit diesbezüg-
lich keine klaren Schlussfolgerungen möglich sind, bietet es sich an, eine möglichst
flexible Spezifikation einzusetzen. Dies führt zur Verwendung von Dummys für alle Zeit-
abschnitte, d. h. jede Periode erhält eine eigene Dummyvariable. Die Grafik (h) in Abb. 4.6
illustriert diesen Fall.
Bereits im Kap. 3 war erläutert worden, dass es mit Beobachtungen über mehrere Zeit-
punkte hinweg möglich wird, dynamische Anpassungsprozesse zu analysieren. In vielen
ökonomischen Fragen ist es plausibel, dass die Anpassungen von Variablen antizipierend
oder im Gegenteil mit Verzögerungen erfolgen. Antizipationseffekte sind für die Erklä-
rung menschlichen Verhaltens (Unternehmer, Konsumenten, Politiker usw.) relevant.
Gleiches gilt für verzögerte Anpassungen. Beide Situationen können – wie im Kap. 3
dargestellt – mittels Lags und Leads modelliert werden. Abb. 4.6 illustriert in der Grafik
(h) diesen Fall. Der Beginn des Treatments wird antizipiert und führt bereits in der Vorpe-
riode zu einem Anpassungseffekt. Unter Umständen bezieht sich das nicht nur auf die
unabhängigen Variablen (bspw. das Treatment) sondern auch auf die abhängigen Varia
blen. Wie ebenfalls im Kap. 3 bereits erläutert, können wir außerdem die abhängige Varia
ble auch als verzögerte unabhängige Variable mit in die Regressionsgleichung der Pa-
neldatenanalyse aufnehmen.
Die Verzerrung von Koeffizientenschätzungen aufgrund von unbeobachteter Heteroge-
nität (Omitted Variable Bias) ist mit Paneldaten – wie oben erläutert – unter Umständen
vermeidbar. Es bleibt aber das Problem der Endogenität der unabhängigen Variablen we-
gen bspw. umgekehrter Kausalrichtungen und simultaner Beeinflussung von endogenen
und unabhängigen Variablen. Die Methode der Instrumentvariablen ist ein Ansatz, um
trotzdem Kausalaussagen zu ermitteln. Eine entsprechende Verwendung von Instrument-
variablen ist auch im Rahmen von Paneldaten möglich (Ashley 2012, S. 507–530). In
diesem Zusammenhang können u. a. verzögerte Variablen als Instrumentvariablen ver-
wendet werden. Dies führt zu dynamischen Panelregressionen, die mittels verschiedener
komplexer Verfahren zu schätzen sind (bspw. den Arellano-Bond-Ansatz, siehe dazu Bal-
tagi (2013, S. 155–183) und Ashley (2012, S. 507–529). Allerdings sind diese Ansätze ggf.
wenig verlässlich, da sie aufgrund ihrer Komplexität beliebige Resultate erzeugen (Brü-
derl und Ludwig 2015, S. 354).
Die bisherigen Methoden gelten für breite Datensätze (Wide Panel, Short Panel) mit
vielen Beobachtungsträgern und wenigen Zeitpunkten (siehe Abschn. 4.2). Bei Panelda-
tensätzen mit langen Beobachtungszeiträumen und damit sehr vielen Zeitpunkten
(Faustregel t > 20–30) tritt das im Kap. 3 behandelte Problem der fehlenden Stationarität
bei Zeitreihen auf, und Paneldaten enthalten ja Zeitreihen für mehrere oder sogar viele
Variablen. Dann müssen andere dafür geeignete Analyseverfahren eingesetzt werden (Bal-
tagi 2013, S. 275–315).
Alle bisherigen Ausführungen zur Paneldatenanalyse beruhen auf der Annahme, dass
die Koeffizienten der unabhängigen Variablen fix sind, d. h. sich im Zeitablauf nicht än-
dern. Diese Annahme wird im Rahmen von sogenannten Random-Coefficient-Modellen
aufgegeben. In diesem Kontext existieren auch komplexere Verfahren, wie Mehrebenen
modelle (hierarchische Modelle, Multilevel Models, Hierarchical Linear Models). Wo-
bei zum Teil in der Literatur auch die Paneldatenanalyse als Mehrebenenmodell aufgefasst
wird. Die erste Ebene (Dimension) sind die Beobachtungsträger (Unternehmen, Indivi-
duen, Regionen, Hochschulen etc.) und die zweite Ebene die Zeiteinheiten (Park 2011,
S. 13). Dies kann auf andere nicht zeitbezogene Zusammenhänge übertragen werden. Bei-
spielsweise ist es plausibel, dass bei den Leistungen von Schülern im internationalen PI-
SA-Test deren Abschneiden auf fünf verschiedenen Ebenen beeinflusst wird: der individu-
ellen Fähigkeiten der Schüler, der jeweiligen Klasse (Klassenstärke/Qualität der Lehrer),
der jeweiligen Schule (didaktisches/methodisches Konzept), dem jeweiligen Bundesland
(Schulpolitik) und dem jeweiligen Staat (finanzielle Mittel/Schulpolitik/Wertvorstellun-
gen). Mit Panelanalyseverfahren lassen sich unterschiedliche Einflussfaktoren auf den
verschiedenen Ebenen modellieren. Entsprechende Überlegungen sind auch in vielen öko-
nomischen Fragen relevant (bspw. der Innovationsneigung von Unternehmen oder der
Auswirkung von Mindestlöhnen in verschiedenen Branchen).
Die im zweiten Kapitel beschriebenen Erweiterungen der einfachen Regression auf
abhängige Variablen mit begrenztem Wertebereich (Logit-/Probit-Modelle, Ordered
Logit und Probit, Poisson-Regression usw.) sind auf der Basis von Paneldaten ebenfalls
mittels entsprechender Methoden analysierbar (Wooldridge 2010, S. 608–632; Andreß
et al. 2013, S. 203–285; Baltagi 2013, S. 239–270).
Soweit es um die deskriptive Beschreibung bzw. explorative Auswertung von Bezie-
hungen in den Daten geht, sind die genannten Voraussetzungen der Identifikation kausaler
Wirkungen nicht relevant. Für solche Anwendungen ist das Pooled-OLS-Verfahren ver-
wendbar, da es in dieser Hinsicht in erster Linie um die Beschreibung von Unterschieden
entsprechend der Between-Differenzen – bspw. der differierenden Erstsemesterzahlen
verschiedener Hochschulen – geht (Brüderl und Ludwig 2015, S. 353). Entsprechendes
gilt für die Analyse von Paneldaten, um Prognosen zu erstellen.
Ökonomisch ausgerichtete verständliche Einführungen sind Kennedy (2008,
S. 281–295), Stock und Watson (2015, S. 396–419) sowie – ausführlicher – Wooldridge
(2018, S. 402–451). Auch Brüderl und Ludwig (2019) sind für den Einstieg besonders zu
empfehlen. Diese Quelle und Brüderl und Ludwig (2015) enthalten auch Weiterentwick-
lungen, Varianten und Probleme der Panelanalyseverfahren. Einen ausführlichen Überblick

mit ökonomischen und soziologischen Anwendungsbeispielen geben Andreß et al. (2013).
Eine genauere – aber auch mathematisch erheblich anspruchsvollere – Darstellung der
Anforderungen und Möglichkeiten der Paneldatenanalyse vermitteln die Standardlehrbü-
cher von Baltagi (2013) und Wooldridge (2010). Ein ausführlicher mathematischer Back-
ground findet sich auch bei Cameron und Trivedi (2007). Speziell für die verschiedenen
Tests ist Ashley (2012, S. 459–529) eine gute Quelle. Diese Autoren gehen auch auf die
erwähnten komplexeren Modelle ein.
In der statistischen Literatur der Medizin und Psychologie (zum Teil auch der Soziolo-
gie) spielen Paneldaten eine geringere Rolle. Insbesondere tauchen die Begriffe „Panelda-
ten“ oder „Zeitreihen“ nicht auf (siehe bspw. den Index von Bortz (2005) oder Field
(2018)). Die Analyse von Daten, die auf der wiederholten Befragung (oder experimentel-
len Untersuchung) von identischen Beobachtungseinheiten zu verschiedenen Zeitpunkten
beruhen, werden dort unter dem Begriff „Messwiederholungen“ (Repeated Measures
Design) bzw. Mixed Designs erläutert (Bortz 2005, S. 352–360; Field 2018, S. 839–939).
Bei den Beobachtungseinheiten handelt es sich in der Psychologie und Medizin fast im-
mer – und in der Soziologie häufig – um Individuen bzw. Haushalte. Sie ähneln daher
Paneldaten, beziehen sich aber u. U. nicht auf identische Zeitabstände. Mit solchen Ver-
fahren der Schätzung bei Messwiederholungen sind auch Paneldaten analysierbar. Dies
erläutern UCLA (2019a, b).
SPSS
Wenn dies erforderlich ist, formatiert das Kommando [Daten > Umstrukturieren] einen
Datensatz vom Weiten Format in das Lange Format um. Dabei erscheint als erstes auto-
matisch ein Fenster „Assistent für die Datenumstrukturierung“, der das weitere Vorgehen
erläutert. Dummyvariablen können am einfachsten unter [Transformieren > Dummy-Vari-
ablen erstellen] aus anderen Variablen gebildet werden.
Das Problem der Auswirkung von Studiengebühren wird auf der Grundlage des realen
Datensatzes „Hochschulgebühren_10_15.sav“ untersucht. Als Ausgangspunkt führen wir
zunächst eine (naive) gepoolte OLS-Schätzung durch und vernachlässigen dabei den Pa-
nelcharakter. Wir benutzen die uns bekannte Prozedur „Lineare Regression“. Unsere ab-
hängige Variable ist die Zahl der Studienanfänger (hier abgekürzt Zahl_Erstsemester). Die
erste unabhängige Variable sind die Studiengebühren, deren Einfluss auf die Zahl der Stu-
dienanfänger wir analysieren. Die Variable wird abgekürzt Dummy_Gebühr und besitzt
den Wert 1, wenn eine Hochschule in einem Jahr Gebühren erhoben hat. Andernfalls ist sie
gleich 0. Die zweite unabhängige Kontrollvariable ist die Zahl der neuen Hochschulzu-
gangsberechtigten des Bundeslandes, in dem die Hochschule liegt (abgekürzt Zahl_Abitu-
rienten). Diese Eingabe und die resultierende OLS-Schätzung zeigt Abb. 4.7.
Abb. 4.7 Gepoolte OLS-Schätzung eines Paneldatensatzes
Überraschenderweise liegt ein (nicht erwarteter) positiver Koeffizient der Variable

Dummy_Gebühr vor: Das heißt, im Mittel verzeichnen Hochschulen mit Gebühren knapp
66 Studienanfänger mehr als Hochschulen ohne Gebühren. Allerdings ist die Einführung
von Hochschulgebühren ohne signifikanten Einfluss auf die Zahl der Erstsemester (t-Wert
1,02; Signifikanzniveau 0,308). Die Interpretation des gepoolten OLS-Verfahrens ist, dass
die Erhebung von Studiengebühren keinen Einfluss auf die Zahl der Erstsemester einer
Hochschule ausübt.
Für den nächsten Schritt einer LSDV-Paneldatenanalyse bietet SPSS keine speziellen
Prozeduren. Im Rahmen der OLS-Schätzungen der normalen Regression können aber na-
türlich Dummyvariablen für die Beobachtungsträger und Variablen für die Zeit aufgenom-
men werden (Two-Way-Modell). Auf diese Weise ist das LSDV-Verfahren realisierbar. In
unserem Datensatz liegen die Hochschulen bereits als Dummyvariablen vor. Andernfalls
müssen wir zunächst eine Dummyvariable für jede Hochschule bilden. Wie dies geschieht,
wird in der Lösung zur Übung 4.3 beschrieben.
Abb. 4.8 zeigt die Eingabe über die Prozedur „Lineare Regression“ mit der Variablen
Jahr als linearen Zeittrend. Sie kontrolliert einen möglichen bundesweiten Trend zur Auf-
nahme eines Studiums im Beobachtungszeitraum. Außerdem werden von den insgesamt
226 Hochschulen 225 jeweils als Dummyvariablen, d. h. als fixe Effekte, aufgenommen.21
Falls wir versehentlich alle 226 aufnehmen, wirft SPSS automatisch eine (nämlich die
letzte Hochschule in der Liste) als Referenzkategorie raus. In der Abb. 4.8 sind bei den
unabhängigen Variablen nur die ersten vier Hochschulen sichtbar. Der dazugehörige Out-
put wird nur in Auszügen abgebildet, da er wegen der 225 Dummys, die uns hier nicht
interessieren, unnötig lang und unübersichtlich ist.
Der korrigierte Determinationskoeffizient – von SPSS „Angepasstes R2“ genannt – ist
im Vergleich zur gepoolten OLS-Regression extrem gestiegen (korrigiertes R2 = 0,972),
das Gesamtmodell ist signifikant auf dem 1-%-Niveau (F-Wert: 417,9) und die Erhebung
von Gebühren hat jetzt den erwarteten signifikanten negativen Einfluss auf die Erstsemes-
terzahl: Diese sinkt um knapp 72 Studierende. Der im Beobachtungszeitraum vorhandene
Einfluss der Variable Studiengebühren bezieht sich jetzt nur noch auf die Veränderungen
innerhalb der einzelnen Hochschulen, da alle hochschulspezifischen Einflüsse mittels der
Hochschuldummys kontrolliert werden. Auf diese Weise ist der kausale Einfluss von Stu-
diengebühren ermittelbar.
Auch die Berechnung von ersten Differenzen und die anschließende OLS-Analyse im
Rahmen der linearen Regressionen sind in SPSS realisierbar. Wir müssen dafür zunächst –
wie im Kap. 3 beschrieben – die ersten Differenzen der relevanten Variablen bilden. Auf
die Darstellung wird hier verzichtet. Allerdings sind Heteroskedastie und Autokorrelation
der Residuen bei Paneldaten sehr wahrscheinlich und dafür enthält SPSS im Rahmen des
Kommandos [Analysieren > Regression] standardmäßig keine Routinen. In den im Fol-
genden behandelten Prozeduren GLM und GENLIN ist das aber möglich.
Unter der Option [Analysieren > Allgemeines lineares Modell > Univariat] lässt sich
das LSDV-Verfahren innerhalb der Prozedur GLM ebenfalls durchführen.22 Es erscheint
21
Ein Tipp zum schnellen Einfügen der 225 Hochschuldummys: Wir gehen auf die erste Hoch-
schule, drücken „Shift“ und gehen dann auf die letzte Hochschule, die wir einbeziehen wollen. Alle
dazwischen liegenden Hochschulen werden dadurch markiert, und wir können sie im Block in das
Feld „Unabhängige Variable(n)“ befördern.
22
Diese SPSS-Prozedur wird bspw. von Stoetzer (2017, Kap. 3 Anhang 3.1) erklärt.
Abb. 4.8 Fixe Effekte in SPSS (LSDV-Methode)

das Fenster des oberen Teils der Abb. 4.9. Der Einbezug der abhängigen Variable erfolgt,
wie uns bereits bekannt. Bei den unabhängigen Variablen werden die nominalskalierten
(kategorialen) Variablen in das Feld „Feste Faktoren“ befördert und die metrischen Varia-
blen in das Feld „Kovariate(n)“. Die unabhängige Variable Hochschulen, für die Entity-Fi-
xed-Effekte in Form von Dummys gebildet werden sollen, fügen wir ebenfalls in das Feld
„Feste Faktoren“ ein.
Anschließend klicken wir auf die Option „Modell“ rechts oben. Es erscheint das Fens-
ter des unteren Teils von Abb. 4.9. Hier aktivieren wir im Feld „Modell angeben“ die Op-
tion „Anpassen“. Alle unsere unabhängigen Variablen sind im linken Teil unter „Faktoren
und Kovariaten“ aufgelistet. Diese befördern wir in den rechten Teil unter „Modell“ und
wählen auf dem Button „Typ“ in der Mitte die Variante „Haupteffekte“. Dann geht es mit
dem Button „Weiter“ wieder zurück zum ersten Fenster. Jetzt klicken wir auf „Optionen“
und sehen im unteren Teil des nun auftauchenden Fensters ein Feld „Anzeige“. In diesem
Feld setzen wir ein Häkchen bei „Parameterschätzungen“ (um die Koeffizientenschätzun-
gen zu erhalten) und ein Häkchen bei „Homogenitätstest“ (um einen Test auf Homoskeda-
stie durchzuführen). Dann geht es mit „Weiter“ wieder zum ersten Fenster, und mit dem
Button „OK“ wird die Schätzung durchgeführt. Abb. 4.10 zeigt den resultierenden Output
in Auszügen.
Für uns relevant ist zunächst der zweite Abschnitt „Tests der Zwischensubjekteffekte“.
Er enthält die Ergebnisse einer Varianzanalyse. Der F-Test für das gesamte Regressions-
modell steht in der ersten Zeile „Korrigiertes Modell“ und ist identisch mit dem Resultat
der Abb. 4.8 für den LSDV-Ansatz. Jede der vier unabhängigen Variablen (die Konstante
mal beiseitegelassen) ist ebenfalls signifikant (F-Tests und Signifikanzniveaus in den letz-
ten beiden Spalten). Informationen zu R2 und korrigiertem R2 befinden sich direkt unter
diesem Feld.
In der Regel interessiert man sich aber eher für die Richtung und den Umfang des Ein-
flusses dieser Variablen. Die Koeffizienten der Regressionsanalyse finden sich im Feld
„Parameterschätzungen“. In Abb. 4.10 sind die Ergebnisse für die meisten Hochschulen
weggelassen, da diese hier nur eine Kontrollvariable darstellen. Wir untersuchen, ob die
Erhebung von Studiengebühren die Zahl der Studienanfänger verringert. Der Koeffizient
für den Einfluss der Gebühren ist auf dem 1-%-Niveau signifikant und liegt bei 71,89.
Bei der Interpretation der Ergebnisse ist darauf zu achten, welche Referenzkategorien
von SPSS (automatisch) ausgewählt werden. Dies sind standardmäßig immer die letzten
Kategorien der jeweiligen Faktorvariablen! Im Beispiel der Hochschulgebühren ist die
Dummyvariable gleich 1, falls Hochschulgebühren existierten, andernfalls beträgt die
Dummyvariable 0. Die letzte Kategorie ist in diesem Fall also 1, und diese wird von SPSS
als Referenzkategorie gewählt. Eine positive und signifikante Koeffizientenschätzung der
Kategorie „keine Hochschulgebühren“ (d. h. 0) bedeutet folglich, dass Hochschulen ohne
Gebühren im Vergleich zu Hochschulen mit Gebühren im Mittel fast 72 Studienanfänger
mehr aufweisen. Dies ist inhaltlich dasselbe wie bei dem vorhergehenden LSDV-Verfah-
ren. Auch der Unterschied für die Schätzung der Konstanten liegt nur daran, dass eine
andere Referenzkategorie für die Hochschulen gewählt wurde.
Abb. 4.9 Fixe Effekte in SPSS: GLM Univariat

Abb. 4.10 Fixe Effekte in SPSS mittels GLM

Der Vorteil gegenüber der einfachen Prozedur „Regression“ ist erstens, dass die nomi-
nale Variable Hochschulen als Faktor (d. h. als Dummyvariable kodiert) direkt akzeptiert
wird. Bei der Verwendung der Prozedur Regression unter [Analysieren > Regression > Li-
near] müssen ggf. erst Dummyvariablen für die Hochschulen gebildet werden, bevor wir
diese als unabhängige Variablen berücksichtigen können. Zweitens gibt es bei der Proze-
dur GLM die Möglichkeit, den Levene-Test auf Homoskedastie durchzuführen. Er findet
sich im ersten Feld der Abb. 4.10. Die Nullhypothese der Varianzhomogenität wird abge-
lehnt, wir müssen also davon ausgehen, dass Heteroskedastie vorliegt.
Schließlich sind Panelanalysen in SPSS auch unter „Verallgemeinerte lineare Modelle“
(GENLIN-Prozedur mit den Unterprozeduren GzLM und GEE) realisierbar (siehe dazu
UCLA 2019b). Die Prozedur [Analysieren > Verallgemeinerte lineare Modelle > Verall-
gemeinerte Schätzungsgleichungen] (= GEE) erlaubt Messwiederholungen mit Autokor-
relation und Heteroskedastie der Residuen. Messwiederholungen sind mehrfache Datener-
hebungen bei denselben Beobachtungsträgern (bspw. Patienten in der Medizin). Damit
entsprechen sie unserer Definition von Paneldaten.
Prinzipiell ist die Prozedur GEE das umfassendste Verfahren zur Regressionsanalyse
in SPSS. Es enthält als Optionen viele der bisher behandelten Methoden. Hier ist bspw.
auch die Berechnung von robusten Standardfehlern nach Huber-White möglich (siehe Sto-
etzer 2017, Abschn. 5.2).
Die Vorgehensweise erläutert die Abb. 4.11. Auf der ersten Menüseite, d. h. dem ersten
Reiter „Wiederholt“, fügen wir in das Feld „Subjektvariablen“ die Variable Hochschulen
ein. Der Ausdruck „Subjektvariablen“ bezeichnet in dieser Prozedur die Beobachtungs-
einheiten, für die wiederholte Beobachtungen vorhanden sind (hier also unsere 226 Hoch-
schulen). Im Feld darunter, „Innersubjektvariablen“, wird die Variable Jahr aufgenom-
men. „Innersubjektvariablen“ ist der Name für die Variable, die die Wiederholungen der
Messungen festlegt. In unserem Beispiel sind dies die 12 Jahre, für die Beobachtungen
aller Hochschulen vorhanden sind. Unter diesem Feld befindet sich ein Abschnitt mit dem
Titel „Kovarianzmatrix“. Hier behalten wir die Voreinstellung bei: Damit ist die Option
„Robuster Schätzer“ aktiviert. Nach „OK“ legen wir im nächsten Reiter den Typ des Mo-
dells fest. Wir übernehmen die Voreinstellung, bei der unter „Metrische abhängige Varia-
ble“ die Option „Linear“ bereits aktiviert ist. Einige der anderen Optionen kennen wir
bereits, etwa die im Kap. 2 behandelten nichtlinearen Zusammenhänge (Logit-, Pro-
bit-Funktionen usw.). Diese Formen der Verknüpfung einer linearen Funktion mit der
(oder den) abhängigen Variablen sind hier ebenfalls wählbar.23
Die nächsten beiden Reiter legen die endogene Variable (in SPSS als „Antwort“ be-
zeichnet) und die unabhängigen Variablen (in SPSS „Prädiktoren“ genannt) fest. Die en-
dogene Variable ist die Zahl_Erstsemester und die unabhängigen Variablen sind unsere
Faktorvariablen Dummy_Gebühren und Hochschulen. Zur Erinnerung: Faktorvariablen
23
Diese Verknüpfungsfunktionen werden auch als Link-Funktionen bezeichnet. Der einfache lineare
Zusammenhang nennt sich auch Identitäts-Funktion. Für die Verknüpfungen sind verschiedene Funk-
tionen verwendbar. Sie stellen Verallgemeinerungen des einfachen linearen OLS-Modells dar und
firmieren deshalb als „Generalized Linear Models“. Einen guten Überblick verschafft Fox (2016).
Abb. 4.11 GEE-Schätzung
SPSS Teil 1
sind die nominal skalierten Variablen. Die Kovariaten sind wieder die Variablen Zahl_Abi
turienten und Jahr.
Im folgenden Reiter „Modell“ müssen wir als Haupteffekte unsere vier unabhängigen
Variablen nochmals einfügen (siehe Abb. 4.12). Der Ausdruck „Haupteffekte“ bedeutet,
dass diese Variablen direkt und nicht als Teil eines Interaktionseffektes berücksichtigt wer-
den. Im Feld zum Reiter „Schätzung“ übernehmen wir die Voreinstellung „Maximum-Li-
kelihood-Schätzung“. Auch in den letzten vier Reitern („Statistik“ bis „Exportieren“) wird
nichts verändert.
Diese Schritte führen nach „OK“ zum Output der Abb. 4.13. Einige für uns nicht weiter
relevante Teile sind wieder weggelassen.
Die Koeffizientenschätzungen (Spalte „B“) sind identisch mit den ermittelten Werten
der LSDV-Methode. Die Standardfehler in der Spalte „Standardfehler“ werden nach Hu-
ber-White berechnet (IBM SPSS 2018). Es handelt sich also um gegen Autokorrelation
und Heteroskedastie robuste Standardfehler (in der Version HC0). Sie sind deutlich größer
als die normalen Standardfehler der Abb. 4.8 und weitgehend identisch mit den robusten
Standardfehlern in Stata des folgenden Abschnitts.24
Abb. 4.12 GEE-Schätzung SPSS Teil 2
24
Zur Berechnung von robusten Standardfehlern existieren leicht unterschiedliche Verfahren (siehe
Angrist und Pischke (2009) und Long und Erwin (2000)). Mit anderen Verfahren in SPSS sind auch
clusterrobuste Standardfehler schätzbar (UCLA IDRE 2019c).
Abb. 4.13 GEE-Schätzung SPSS Output
Allerdings verwendet SPSS einen Wald-Chi2-Test statt eines t-Tests zur Überprüfung
der Nullhypothese „Kein Einfluss“ (d. h. der Koeffizient unterscheidet sich nicht vom Wert
0), der einzelnen Koeffizienten. Dies braucht uns aber nicht zu irritieren, relevant sind nur
die Signifikanzniveaus der letzten Spalte. Diese sind jetzt – aufgrund der größeren Stan-
dardfehler – zum Teil höher. Für die Fragestellung zum Einfluss der Gebühren ergibt sich
folgendes: Hochschulen ohne Gebühren haben im Mittel fast 72 Erstsemester mehr als
Hochschulen mit Gebühren. Der Einfluss ist auch unter Berücksichtigung von Autokorre-
lation und Heteroskedastie auf dem 1-%-Niveau signifikant, da das empirische Signifi-
kanzniveau für die robusten Standardfehler bei 0,009 liegt.
Leider enthält der Output keine Informationen zu R2 und R 2 sowie keinen F-Test für
die Signifikanz des Gesamtmodells, da es sich um eine ML-Schätzung handelt. Dazu muss
dann ergänzend die oben beschriebene LSDV-Regression oder die GLM-Prozedur durch-
geführt werden.
Auch im Fall einer einfachen linearen Regression mit Querschnittsdaten lassen sich mit
der beschriebenen Prozedur GEE [Analysieren > Verallgemeinerte lineare Modelle > Ver-
allgemeinerte Schätzungsgleichungen] robuste Standardfehler nach Huber-White ermit-
teln. Dazu geben wir im ersten Schritt auf der Seite des Reiters „Wiederholt“ nur eine
Subjektvariable an, die unsere Beobachtungen beschreibt (bspw. als laufende Nummer der
Beobachtungen). Die Angabe einer „Innersubjektvariablen“ fällt bei einem Querschnitts-
datensatz natürlich weg. Bei den weiteren Schritten orientieren wir uns an dem eben be-
schriebenen Verfahren bei einem Paneldatensatz.
Die Hilfe-Funktion von SPSS beschreibt einige weitere Möglichkeiten der Prozedur
„Verallgemeinerte Schätzungsgleichungen“.25 Insgesamt sind aber erstens sehr viele (ohne
weitere Kenntnisse) undurchsichtige Optionen vorhanden, und zweitens werden die Be-
griffe sowie Erläuterungen der statistischen Psychologie sowie Medizin entnommen. Dies
erfordert eine intensive Beschäftigung mit deren Begriffswelten. Als Fazit ist festzuhalten,
dass diese SPSS-Prozedur aus ökonomischer Sicht und für den Einstieg nur sehr bedingt
geeignet ist.26
Gute Einführungen sind die Onlineskripte von Baltes-Götz (2013, 2014 und 2015). Sie
beschreiben eine Reihe von Möglichkeiten und Makros, um die genannten Verfahren und
Probleme in SPSS in den Griff zu bekommen. Außerdem sind die entsprechenden Einfüh-
rungen und Beispiele der UCLA IDRE sehr hilfreich (UCLA IDRE 2019a, b). Monkerud
(2010, S. 14–24) erklärt die Paneldatenanalyse anhand der SPSS-Prozedur Mixed Models.
Field (2018) erläutert in drei Kapiteln Repeated Measure Designs, Mixed Designs und
Multilevel Linear Models. Die Begriffswelt unterscheidet sich aber deutlich von der Pa-
neldatenanalyse und ist daher mit einem gewissen Einarbeitungsaufwand verbunden.
Stata
Sofern noch nicht erfolgt, muss der Paneldatensatz zunächst formatiert werden. Der Res-
hape-Befehl verwandelt einen Datensatz, der im Weiten Format vorliegt, in das notwen-
dige Lange Format: [Data > Create or change data > Other variable-transformation com-
mands > Convert data between wide and long]. Im darauf erscheinenden Fenster muss
„Long format from wide“ angeklickt werden. Dann ist im Feld „ID variable(s) – the i()
option:“ die Variable einzufügen, die die Beobachtungsträger identifiziert (bspw. die Regi-
onen, Hochschulen, Personen usw.).
Im Feld „Subobservation identifier – the j() option“ wird dies für die Zeitpunkte (bspw.
das Jahr) durchgeführt.
25
Wie oben erwähnt, sind die Messwiederholungen in der Psychologie, Medizin und Soziologie
nichts anderes als Paneldaten. Für solche Datensätze mit Messwiederholungen bietet SPSS ver-
schiedene Verfahren. Die Methoden unter „Gemischte Modelle“ lassen zu, dass die Daten korrelierte
Residuen und Residuen mit differierenden Varianzen (also Autokorrelation und Heteroskedastie)
aufweisen. Hier existiert als Basisoption [Analysieren > Gemischte Modelle > Linear…]. In weite-
ren Optionen können wir auch die Kovarianzen und Varianzen analysieren, also Autokorrelation und
Heteroskedastie berücksichtigen. Die verschachtelte Verfahrensweise und die vielen weiteren – hier
nicht behandelten Optionen – sind aus ökonometrischer Sicht sehr unübersichtlich. Sie sind vorhan-
den, da SPSS auf die statistischen Ansätze in der Psychologie und Soziologie zurückgeht, d. h. ins-
besondere auf varianzanalytische Methoden (siehe Stoetzer 2017, Kap. 3 Anhang 3.1).
26
Nach Field (2018, S. 1205) ist diese SPSS-Prozedur „completely indecipherable“.
Im nächsten Schritt teilt das Kommando [xtset] Stata mit, dass es sich um einen echten
Paneldatensatz handelt und wie dieser strukturiert ist. Dieser findet sich in der Menüsteu-
erung unter [Statistics > Linear Models and related > Panel data > Linear Regression (FE,
RE, PA, BE)].27 Es erscheint ein Fenster, in dem sich rechts oben der Button „Panel set-
tings …“] befindet. Durch Anklicken ergibt sich die Abb. 4.14.
Im Feld „Panel ID variable“ fügen wir die Variable ein, die die Beobachtungsträger
identifiziert. In unserem Datensatz „Hochschulgebühren_10_15.dta“ sind dies die Hoch-
schulen. In der Spalte des Datensatzes der Variable Hochschulen sind diese aber als
String-Variablen definiert. Solche Variablen kann Stata mathematisch nicht weiterverar-
beiten. Wir müssen daher zunächst den einzelnen Hochschulen einen numerischen Wert
zuweisen. Dies ist in der Variable HochschulenNumer bereits geschehen. Diese Variable
wird hier eingefügt. Falls noch keine Umkodierung in numerische Werte vorliegt, kann
dies unter [Data > Create or change data > Other variable-transformation commands > En-
code value labels from string variable] durchgeführt werden. Als „Time variable“ fügen
wir die Variable Jahr ein. Sie besitzt für die 12 Beobachtungsjahre die Werte 1 bis 12.
Damit sind die vorbereitenden Arbeiten zur richtigen Formatierung des Datensatzes
abgeschlossen. Über den Button „OK“ kehren wir zum vorhergehenden Fenster zurück.
Es offeriert unter „Model type (affects which options are available)“ verschiedene Optio-
nen, darunter das Fixed-Effects- und das Random-Effects-Verfahren. Voreingestellt ist das
Abb. 4.14 Formatierung der

Paneldaten
27
Alternativ ist auch folgende Menüführung verwendbar: [Statistics > Longitudinal/panel data > Li-
near models > Linear regression(FE, RE, PA, BE)].
Random-Effects-Verfahren (im Fenster als „GLS random-effects“ bezeichnet), aber wir

wählen das übliche Fixed-Effects-Verfahren durch Anklicken (Abb. 4.15).
Das Fixed-Effects-Verfahren führt automatisch die Mittelwertabweichungsmethode für
die Hochschulen durch. Nach Klick auf den Button „OK“ folgt das Ergebnis der Abb. 4.16.
Die Ergebnisse sind identisch mit denen der Fixed-Effect-OLS-Regression durch SPSS
(siehe Abb. 4.8). Unterschiede existieren nur hinsichtlich der Konstanten (SPSS: 825,4
und Stata: 778,3). Auch die Standardfehler und damit Signifikanzniveaus stimmen über-
ein. Im Einzelnen enthält der Stata-Output folgende Informationen:
Die dritte Zeile zeigt links die Beobachtungsträger an (Group Variable). Dies sind die
226 Hochschulen (Variable: HochschulenNumer) im Datensatz. Die nächste Zeile beginnt
mit der wichtigsten Art von Determinationskoeffizienten der FE-Schätzung, dem „R-sq:
within“. Es bezieht sich auf die Veränderung der Zahl der Studienanfänger innerhalb der
einzelnen Hochschulen im Betrachtungszeitraum (also auf der Basis der „demeane-
d“-Werte). Die Veränderung der Erstsemesterzahl innerhalb (within) der einzelnen Hoch-
schulen kann durch die unabhängigen Variablen zu fast 23 % erklärt werden.
Weiter rechts steht die Zahl der Beobachtungen für jede Hochschule. Dies sind die 12
Werte der 12 Jahre des Beobachtungszeitraums. Darunter findet sich ein F-Test für das
Gesamtmodell: Dieses ist bei einem F-Wert von 247,09 auf dem 1-%-Niveau signifikant.
Links davon steht „corr (u_i), Xb“. Dies ist die Korrelation der Fixen Effekte für die Hoch-
schulen (in Stata als „u_i“ bezeichnet) mit den anderen unabhängigen Variablen. Es liegt
mit −0,0266 eine geringe negative Korrelation vor. In der Mitte ist der uns bekannte übli-
che Stata-Output bei einer Regression zu sehen, der hier nicht noch einmal kommentiert
Abb. 4.15 Fixed-Effects-Verfahren in Stata

Abb. 4.16 Fixed-Effects-Output
werden muss. Darunter beschreibt „sigma_u“ die Standardabweichung der Residuen zwi-
schen den Hochschulen (Between-Variance). Diese wird in der FE-Schätzung kontrolliert
(d. h. durch die Dummys für jede Hochschule berücksichtigt). „Sigma_e“ bezieht sich auf
die Standardabweichung der Residuen innerhalb der einzelnen Hochschulen (Within-Un-
terschiede).
Statt der unbekannten Fehler haben wir jetzt die Residuen eit der geschätzten Glei-
chung. Der Parameter „rho“ ist der Anteil der Residuenvarianz, der auf die Variation unter
den Hochschulen zurückzuführen ist (die Intrabeobachtungsgruppenkorrelation bzw. der
Intraklassenkorrelationskoeffizient): Nach Berücksichtigung der Einflüsse der anderen
unabhängigen Variablen sind 97,2 % der Varianz der Erstsemesterzahlen auf Unterschiede
zwischen den Hochschulen zurückzuführen.
Wichtig ist die letzte Zeile: Der F-Test in dieser Zeile überprüft die Nullhypothese, dass
alle fixen Effekte (d. h. alle Hochschuldummys, in Stata also alle „u_i“) gemeinsam kei-
nen Einfluss auf die Zahl der Erstsemester besitzen. Die H0 ist mit einem F-Wert von
418,61 klar abzulehnen. Die Schlussfolgerung lautet, dass die Hochschulen gemeinsam
ein sehr wichtiger Einflussfaktor sind und daher in das Modell aufgenommen werden
müssen. Die einfache gepoolte OLS-Regression ist daher nicht verwendbar.
Ein Manko ist, dass dieser Stata-Output keine Information zu den uns geläufigen De-
terminationskoeffizienten R2 und korrigiertem R2 enthält. Mit Hilfe des Kommandos
„areg“ wird ein Fixed-Effect-Ansatz unter Verwendung des Mittelwertabweichungsver-
fahrens berechnet. Es besitzt den Vorteil, dass die üblichen Werte für die Determinations-
koeffizienten R2 und korrigiertes R2 berechnet werden: [Statistics > Linear models and
related > Other > Linear regression absorbing one cat. Variable]. Die Unterschiede zwi-

schen den Hochschulen werden kontrolliert, indem wir im Feld „Categorial variable to be
absorbed“ Hochschulen eingeben. Ein identisches Ergebnis erhält man beim Einsatz des
LSDV-Verfahrens in Stata (R2 = 0,975 und korrigiertes R2 = 0,972, wie schon unter SPSS
in Abb. 4.8).
Wir wissen, dass sowohl serielle Autokorrelation der Residuen als auch Heteroskedas-
tie (höchstwahrscheinlich) vorhanden sind: Die Varianz der Residuen dürfte innerhalb ei-
ner Hochschule über die Jahre hinweg korrelieren und zwischen den Hochschulen unter-
schiedlich groß sein. Dies wurde im vorhergehenden Abschnitt in SPSS durch den
Levene-Test bestätigt. Nach Installation der Makros „xtserial“ und „xttest3“ bietet Stata
entsprechende Testmöglichkeiten für Autokorrelation und Heteroskedastie. Wir geben
dazu „findit xtserial“ bzw. „findit xttest3“ im unteren Feld „Command“ ein und erhalten
dann weitere Hinweise für das Vorgehen (Download über eine Internetverbindung). In
Stata können gegen diese Abweichungen robuste Standardfehler berechnet werden. Sie
firmieren als clusterrobuste Standardfehler, wobei die Beobachtungsträger (hier also
die Hochschulen) jeweils ein Cluster darstellen. Dazu drücken wir den Reiter „SE/Ro-
bust“ in Abb. 4.17. Dann wird im Feld „Standard error type“ die Option „Clustered robust“
aktiviert und schließlich darunter im Feld „Cluster variable“ die Variable Hochschulen
eingegeben (siehe Abb. 4.17).
Der resultierende Output im unteren Teil bestätigt die bisherigen Ergebnisse, obwohl
die robusten Standardfehler deutlich größer sind als die einfachen Standardfehler. Dies
macht der Vergleich mit der Abb. 4.16 klar.
Das RE-Verfahren kommt, da es sich nicht um ein Sample, sondern um alle Hochschu-
len in Deutschland handelt, nur bedingt in Betracht. Aber zur Illustrierung untersuchen wir
im folgenden Schritt das Problem mit dem RE-Verfahren. Dazu verwenden wir wieder
[Statistics > Linear Models and related > Panel data > Linear Regression (FE, RE, PA,
BE)]. Wir setzen aber jetzt im ersten Fenster unter „Model type affects which options are
available“ die Voreinstellung „GLS random-effects“ ein. Das Ergebnis zeigt Abb. 4.18.
Die Unterschiede zu den geschätzten Koeffizienten (und auch Signifikanzniveaus) des
FE-Verfahrens aus Abb. 4.16 sind minimal.28
Der Breusch-Pagan-Test ist über [Statistics > Longitudinal/panel data > Linear mo-
dels > Lagrange multiplier test for random effects] direkt danach abrufbar (siehe Abb. 4.19).
Die Nullhypothese lautet, dass die Unterschiede der Varianzen zwischen den Hoch-
schulen 0 betragen. Diese kann klar auf dem 1-%-Niveau abgelehnt werden. Würden keine
Unterschiede vorliegen (Nullhypothese nicht abzulehnen), wäre das gepoolte OLS-Ver-
fahren u. U. möglich. Die Ablehnung spricht also für das RE-Verfahren.
Zusammenfassend folgt an dieser Stelle, dass der F-Test für das FE- und der Breusch-
Pagan-Test für das RE-Verfahren plädieren. Die einfache gepoolte OLS-Schätzung ist in
jedem Fall nicht verwendbar. Zwischen FE- und RE-Methode muss der Hausman-Test
entscheiden.
Wann der Unterschied groß und wann er klein ist, erläutern Kopp und Lois (2009, S. 37–38).
28
Abb. 4.17 Robuste Standardfehler in Stata
Dazu führen wir zunächst eine FE-Schätzung durch (mit den normalen Standardfeh-
lern – also nicht mit der Option „Robust“!) und speichern deren Ergebnis mittels der Ein-
gabe von „estimates store NAME“ auf der Kommandozeile von Stata ab. NAME ist dabei
eine von uns frei wählbare Bezeichnung des Ergebnisses der FE-Schätzung. Im Beispiel
verwenden wir den Namen „Fixed-Effects-Modell“ (Abb. 4.20).
Danach erfolgt das gleiche für die RE-Schätzung (ebenfalls mit normalen Standardfeh-
lern), die wir unter „estimates store Random_Effects_Modell“ abspeichern. Anschließend
Abb. 4.18 Random Effects
Abb. 4.19 Breusch-Pagan-LM Test
geben wir auf der Kommandozeile „hausman Fixed_Effects_Modell Random_Effects_

Model, sigmamore“ ein. Den damit aufgerufenen Hausman-Test enthält Abb. 4.21.
Die Bemerkung (Note) lassen wir beiseite. Ein Blick auf den Output macht deutlich,
was passiert: Der Hausman-Test vergleicht die Koeffizientenschätzungen von RE- und
FE-Verfahren (Spalten 2 und 3) und überprüft, ob deren Unterschiede (Spalte 4) statistisch
signifikant sind. Die Nullhypothese lautet, dass keine systematischen Unterschiede exis-
tieren. Diese kann hier nicht abgelehnt werden. Folglich kann prinzipiell die RE-Schät-
zung herangezogen werden. Für das FE-Verfahren ist aber anzuführen, dass ja alle Hoch-
schulen im Beobachtungszeitraum einbezogen werden, was üblicherweise als Argument
für den FE-Ansatz gilt. In der Praxis hätte man – wie oben bereits erwähnt – auf die Schät-
zung des RE-Verfahrens daher im Allgemeinen verzichtet. Die Unterschiede zwischen
beiden Methoden sind aber marginal, so dass die Schlussfolgerungen für die Fragestellung
(Beeinflussen Studiengebühren die Zahl der Erstsemester?) davon nicht berührt werden.29
Wie verlässlich sind die bisherigen Ergebnisse? Zur Einschätzung wird im nächsten
Schritt eine Analyse der ersten Differenzen (FD-Verfahren) durchgeführt. Dazu setzen
wir die einfache OLS-Regression in Stata ein. Die Bildung der ersten Differenzen ist denk-
bar simpel. Alle Variablen erhalten vor dem Variablennamen das Präfix „D.“ (D für Diffe-
rence). Dies ist in der Abb. 4.22 in der obersten Zeile zu sehen. Die Variable Hochschulen
wird nicht berücksichtigt, da diese eine Konstante darstellt, die sich im Beobachtungszeit-
raum nicht ändert und daher auch keinen Einfluss auf die Veränderung der Zahl der Erstse-
mester ausüben kann. Entsprechendes gilt für die erste Differenz der Variablen Jahr.
Abb. 4.20 Hausman-Test: Erster Schritt
29
Eine weitergehende, die Voraussetzungen und Grenzen des Hausman-Tests sowie zusätzliche As-
pekte enthaltende Darstellung erfolgt in dieser Einführung nicht (siehe dazu Cameron und Trivedi
2009, S. 260–262; Ashley 2012, S. 486–487). Der in Stata implementierte Hausman-Test ist nume-
risch instabil. Ashley (2012, S. 486) empfiehlt daher die Verwendung der Option „sigmamore“. Dies
wird im Stata Reference Manual der Version 16 ebenfalls vorgeschlagen. Der Hausman-Test ist nicht
verwendbar, wenn Heteroskedastie vorliegt. Die heteroskedastierobuste Version „xtoverid“ kann
mittels Eingabe von „ssc install xtoverid“ im Fenster „Command“ installiert werden (Schaffer und
Stillmann 2010).
Abb. 4.21 Hausman-Test
Abb. 4.22 FD-Verfahren
Das Resultat besagt, dass die Einführung von Studiengebühren die Zahl der Studienan-
fänger im Mittel um 85 Studierende verringert. Es liegt damit in einer ähnlichen Größen-
ordnung wie das FE-Verfahren und bestätigt unsere bisherigen Schlussfolgerungen. Erwäh-
nenswert ist die Interpretation der ermittelten Konstante von 43,51: Im Durchschnitt erhöht
sich die Zahl der Erstsemester an den Hochschulen pro Jahr um 44 Studierende. Auch hier
lassen sich robuste Standardfehler berechnen, die aber die obigen Resultate bestätigen.
Als Erweiterung des Modells bauen wir eine Verzögerung (einen Lag) ein. Die Zahl der
Abiturienten beeinflusst die Zahl der Erstsemester nicht nur im laufenden Jahr, sondern auch
im darauf folgenden Jahr positiv. Dies ist plausibel, da viele Abiturienten zunächst ein frei-
williges soziales Jahr oder Ähnliches einlegen bzw. bis zur Abschaffung des Wehr- und Zi-
vildienstes ein Jahr Pause einlegen mussten. In Stata ist dies sehr einfach mittels des Präfix
„L.“ vor der Variablen realisierbar. In unserem FD-Beispiel fügen wir zusätzlich das Präfix
L. vor das Präfix D. bei der Variable Zahl_Abiturienten ein (siehe Abb. 4.23, oberste Zeile).
Abb. 4.23 Wirkung eines Lags
Rechts oben sehen wir, dass die Zahl der Beobachtungen wegen des Lags um weitere
226 auf jetzt 2260 gesunken ist. Der Lag ist unter Zahl_Abiturienten LD. zu finden: Auch
die um ein Jahr nach hinten verschobene Zahl der Abiturienten erhöht die Zahl der Erstse-
mester, und zwar um 0,014. Die Schlussfolgerung für die Wirkung von Studiengebühren
bestätigt sich auch in dieser Spezifikation (Koeffizient: −99,51, signifikant auf dem
1-%-Niveau bei robusten Standardfehlern).
Zusammenfassend ergibt sich eine negative Wirkung von Studiengebühren auf die Zahl
der Studienanfänger, die zwischen 72 und 100 Studierenden liegt. Dieses Resultat ist über
verschiedene Verfahrensweisen und Spezifikationen hinweg sehr robust.
Zur Paneldatenanalyse in Stata sind einführend Baum (2006, S. 219–236) und Brüderl
und Ludwig (2019) empfehlenswert. Acock (2016, S. 451–479) stellt die Verfahren mit
Schwerpunkt auf Mixed Models (Hierarchical Linear Models) dar. Weiterführend sind
wiederum Ashley (2012, S. 507–529) sowie Cameron und Trivedi (2010, S. 229–279)
heranzuziehen. Wie immer bieten auch die Stata-Referenz-Handbücher einen guten Ein-
stieg in die Prozedur xtreg und darüber hinaus eine Darstellung der weiteren sehr umfang-
reichen Analysemöglichkeiten von Paneldaten mittels Stata (Stata 2019).
4.8 Übungsaufgaben
Übung 4.1: F&E-Förderung und Patentanmeldungen

Verwenden Sie den Datensatz „Treatment_Data_Patents.sav“ bzw. „Treatment_Data_Pa-
tents.dta“. Es handelt sich um vier Unternehmen, für die über 6 Jahre hinweg Informationen
vorhanden sind. Anders als im Abschn. 4.4 unterstellt, gehen wir jetzt davon aus, dass es sich
um einen echten Paneldatensatz für 4 Unternehmen handelt. Zwei der Unternehmen nehmen
in den Jahren 4, 5 und 6 an einer F&E-Fördermaßnahme teil. Die Zahl der Patentanmeldun-
gen (Variable Number_Patents) der 4 Unternehmen ist über alle 6 Perioden hinweg gegeben.
Die Dummyvariable R_D_Subsidies besitzt den Wert 1, wenn ein Unternehmen in einem
Jahr F&E-Förderung erhält. Year steht mit den Werten 1 bis 6 für die 6 betrachteten Jahre.
Die Dummyvariable Post_Treatment hat den Wert 1 in den Perioden 4 bis 6, in denen be-
stimmte Unternehmen eine F&E-Förderung erhalten haben, in den Perioden 1 bis 3 ist diese
Variable mit 0 kodiert. Die Dummyvariable Treatment_Group nimmt den Wert 1 an, wenn
ein Unternehmen zur Gruppe der geförderten Unternehmen gehört. Die Variable Enterprise_
Name enthält die Namen der 4 Unternehmen, hier A, B, C und D. In diesem konstruierten
Datensatz existieren keinerlei Zufallseinflüsse. Führen Sie folgende Analysen durch:
a) Pooled-OLS-Regression
b) LSDV-Regression
c) FE-Regression
d) RE-Regression
e) FD-Regression
f) DiD-Regression
Erläutern Sie ihre Ergebnisse.
Übung 4.2: Treatment- und Kontrollgruppe

Eine Gruppe von Unternehmen erhält ab der Periode 4 eine F&E-Förderung. Die Wirkung
einer F&E-Förderung in der Treatmentgruppe (Gruppe der geförderten Unternehmen) hat
den in Abb. 4.24 gezeigten Verlauf.
Interpretieren Sie die Wirksamkeit der F&E-Förderung.
Übung 4.3: Zinssatz und Sparvolumen

Die kurz- und langfristigen Zinssätze sind seit Jahren in Japan, den USA und der Eurozone
extrem niedrig. Eine aktuelle Kontroverse in der Makroökonomie diskutiert, ob dies auf
die lockere Geldpolitik der Zentralnotenbanken zurückzuführen ist oder ob letztlich an-
dere Faktoren in den entwickelten Industriestaaten die Ursache sind. Eine mögliche Erklä-
rung besagt, dass ein „Savings Glut“ existiert, d. h. das Sparvolumen in den hoch entwi-
ckelten Staaten sehr groß ist und dies zu niedrigen Zinsen führt. Für das hohe Sparvolumen
sind in dieser Argumentation vor allem eine alternde Bevölkerung, ein hohes Pro-Kopf-Ein-
kommen und eine ungleiche Einkommens- und Vermögensverteilung verantwortlich.
Abb. 4.24 Einfluss F&E- Patente

Förderung
Kontrollgruppe
Geförderte Gruppe
Periode 4 Zeit
4.9 Lösungen 287
Verwenden Sie den Datensatz „Savings_OECD_Countries.sav“ bzw. „Savings_

OECD_Countries.dta“. Er enthält für 24 Mitgliedstaaten der OECD und die Jahre 2003
bis 2016 Daten zum Bruttosparvolumen in Prozent des Bruttoinlandsproduktes (GrossSa-
vings), zum realen Bruttoinlandsprodukt pro Kopf (GDPpCapita), zur Inflationsrate (In-
flationRate), zur Einkommensverteilung (GiniIndex) und zum Anteil der älteren Bevölke-
rung an der erwerbsfähigen Bevölkerung (AgeDependencyRatio). Die Daten stammen von
der Weltbank (World Development Indicators), der OECD (OECD.Stat) und eigenen
Schätzungen für fehlende Werte.
a) Analysieren Sie die möglichen Einflussfaktoren des Bruttosparvolumens.

b) Bilden sie Dummyvariablen für die 24 OECD-Mitgliedsstaaten.
c) Analysieren Sie mittels eines FE-Verfahrens unter Berücksichtigung eines möglichen
Zeittrends die Einflussfaktoren des Bruttosparvolumens. Vergleichen Sie die Resultate
mit dem Ergebnis der Teilaufgabe a).
d) Diskutieren Sie die Glaubwürdigkeit ihrer Schätzungen. Sind die Koeffizienten kausal
interpretierbar?
Übung 4.4: Studiengebühren in Deutschland

Verwenden Sie den Datensatz „Studiengebühren_Germany.dta“ (bzw. „Studiengebühren_
Germany.sav“). Es handelt sich um einen realen Datensatz der Erstsemester an 226 deut-
schen Hochschulen in den Jahren 2004 bis 2015.
a) Führen Sie eine FD-Analyse unter Einbezug der ersten Differenzen der Variablen wie
folgt durch: Abhängige Variable: Zahl_Erstsemester; unabhängige Variablen: Dummy_
Gebühr und Zahl_Abiturienten.
b) Nehmen Sie zusätzlich die erste Differenz der Variable Jahr auf.
c) Verwenden Sie die einfache Variable Jahr statt ihrer ersten Differenz.
d) Verwenden Sie die Variable Jahr mit Dummyvariablen für alle Jahre.
Vergleichen und interpretieren Sie Ihre Resultate.
4.9 Lösungen
Lösung 4.1
a) Das Ergebnis einer gepoolten (gepackten) OLS-Regression enthält Abb. 4.25.
Danach hat das F&E-Förderprogramm (R_D_Subsidies) einen positiven Einfluss von

im Mittel 12,33 zusätzlichen Patentanmeldungen. Der tatsächliche Einfluss in Höhe von 5
Patenten wird massiv überschätzt. Die Verzerrung kann auf unbeobachtete Heterogenität
bzw. auf Selbstselektion zurückzuführen sein.
b) Das Resultat des LSDV-Verfahrens als Two-Way-Modell mit Dummys für die Unter-
nehmen und die Zeitpunkte zeigt Abb. 4.26.
Der wahre Einfluss (5 Patente mehr) wird so exakt ermittelt. Standardabweichungen

sind nicht mehr vorhanden. Dies resultiert aus der deterministischen Struktur des Einflus-
ses der F&E-Förderung. Das heißt, in diesem konstruierten Datensatz existieren keinerlei
Zufallseinflüsse. F- und t-Werte sowie deren Signifikanzniveaus sind unendlich groß (bzw.
klein) und werden daher nicht angezeigt.
c) Das Ergebnis der FE-Methode illustriert Abb. 4.27.
Das Fixe-Effekte-Verfahren identifiziert den wahren Einfluss der F&E-Förderung exakt.
d) Das Resultat des RE-Verfahren findet sich in Abb. 4.28.
Auch das RE-Verfahren ermittelt den wahren Einfluss. In diesem konstruierten Daten-
satz stimmen die Resultate mit denen des FE-Verfahrens vollständig überein.
e) Die vom FD-Verfahren ermittelte Schätzung enthält Abb. 4.29.
Auch die FD-Methode kommt zu dem richtigen Ergebnis.
f) DiD-Verfahren
Das Ergebnis des DiD-Verfahrens kennen wir bereits aus der Abb. 4.5 im Abschn. 4.5.
Auf die Wiedergabe wird daher hier verzichtet.
Als Fazit folgt, dass in diesem Beispiel die gepoolte OLS-Regression zu falschen (d. h.
verzerrten) Koeffizientenschätzungen führt. Dagegen gelingt es mit allen Verfahren der
Paneldatenregression für echte Paneldaten (LSDV, FE, RE, FD) und unechte Paneldaten
(DiD), den wahren Einfluss der F&E-Förderung korrekt zu ermitteln.
regress Number_Patents R_D_Subsidies

-------------+---------------------------------- F(1, 22) = 63.81
Model | 684.5 1 684.5 Prob > F = 0.0000
Residual | 236 22 10.7272727 R-squared = 0.7436
-------------+---------------------------------- Adj R-squared = 0.7320
Total | 920.5 23 40.0217391 Root MSE = 3.2753
-------------------------------------------------------------------------------
Number_Pate~s | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------+----------------------------------------------------------------
R-D_Subsidies | 12.33333 1.543968 7.99 0.000 9.131339 15.53533
_cons | 11.66667 .7719842 15.11 0.000 10.06567 13.26766
-------------------------------------------------------------------------------
Abb. 4.25 Gepoolte OLS-Regression

4.9 Lösungen 289
. regress Number_Patents R_D_Subsidies i.Enterprise_Name i.Year

-------------+---------------------------------- F(9, 14) = .
Model | 920.5 9 102.277778 Prob > F = .
-------------+---------------------------------- Adj R-squared = 1.0000
Total | 920.5 23 40.0217391 Root MSE = 0
Number_Patents | Coef. Std. Err. t P>|t|

----------------------+------------------------------------------
R_D_Subsidies | 5 . . .
Enterprise_Identifier |
B | 6 . . .
C | -2 . . .
D | 8 . . .
Year |
2 | 1 . . .
3 | 2 . . .
4 | 3 . . .
5 | 4 . . .
6 | 5 . . .
_cons | 8 . . .
-------------------------------------------------------------------
Abb. 4.26 Two-Way-Modell
. xtreg Number_Patents R_D_Subsidies i.Year, fe
Fixed-effects (within) regression Number of obs = 24

Group variable: Enterprise~r Number of groups = 4
R-sq: Obs per group:

within = 1.0000 min = 6
between = 0.9650 avg = 6.0
overall = 0.6142 max = 6
F(6,14) = .
corr(u_i, Xb) = 0.3599 Prob > F = .
-------------------------------------------------------------------------------
--------------+----------------------------------------------------------------
R_D_Subsidies | 5 . . . . .
|
Year |
2 | 1 . . . . .
3 | 2 . . . . .
4 | 3 . . . . .
5 | 4 . . . . .
6 | 5 . . . . .
|
_cons | 11 . . . . .
--------------+----------------------------------------------------------------
sigma_u | 4.7609523
sigma_e | 0
rho | 1 (fraction of variance due to u_i)
-------------------------------------------------------------------------------
F test that all u_i=0: F(3, 14) = . Prob > F = .
Abb. 4.27 Fixed-Effects-Regression
xtreg Number_Patents R_D_Subsidies i.Year, re
Random-effects GLS regression Number of obs = 24

Group variable: Enterprise~r Number of groups = 4
R-sq: Obs per group:

within = 1.0000 min = 6
between = 0.9650 avg = 6.0
overall = 0.6142 max = 6
Wald chi2(0) = .
corr(u_i, X) = 0 (assumed) Prob > chi2 = .
-------------------------------------------------------------------------------
Number_Pate~s | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------------+----------------------------------------------------------------
R_D_Subsidies | 5 . . . . .
Year |
2 | 1 . . . . .
3 | 2 . . . . .
4 | 3 . . . . .
5 | 4 . . . . .
6 | 5 . . . . .
_cons | 0 (omitted)
--------------+----------------------------------------------------------------
sigma_u | 1.4142136
sigma_e | 0
rho | 1 (fraction of variance due to u_i)
-------------------------------------------------------------------------------
Abb. 4.28 Random-Effects-Verfahren
regress D1.Number_Patents D1.R_D_Subsidies

-------------+---------------------------------- F(1, 18) = .
Model | 45 1 45 Prob > F = .
-------------+---------------------------------- Adj R-squared = 1.0000
Total | 45 19 2.36842105 Root MSE = 0
-------------------------------------------------------------------------------
D. |
--------------+----------------------------------------------------------------
R_D_Subsidies |
D1. | 5 . . . . .
|
_cons | 1 . . . . .
-------------------------------------------------------------------------------
Auch die FD-Methode kommt zu dem richtigen Ergebnis.
Abb. 4.29 First-Differences-Verfahren
Lösung 4.2
Bei einem Vergleich der Zahl der Patente vor und nach Einführung der Förderung nur in
der Treatmentgruppe scheint die Förderung wirkungslos zu sein. Der Vergleich mit der
Kontrollgruppe, d. h. den nicht geförderten Unternehmen, zeigt aber, dass die Förderung
wirksam war. Sie hat eine Verringerung der Innovationsaktivitäten – gemessen an der Zahl
der Patente – bei den geförderten Unternehmen verhindert.
4.9 Lösungen 291
Lösung 4.3
a) Abb. 4.30 enthält (auszugsweise) die Ergebnisse des gepoolten OLS-Verfahrens (unter
Verwendung von SPSS), bei dem weder die Zeit (Year) noch die Staaten (Country)
berücksichtigt werden. Es wird also angenommen, dass erstens kein zeitlicher Einfluss
(bzw. zeitliche Abhängigkeiten) existieren und zweitens keine individuellen Unter-
schiede, die staatenspezifisch sind, vorliegen.
Neuseeland (New Zealand) wird automatisch aus der Analyse ausgeschlossen, da keine
Daten für den Gini-Index vorhanden sind. Das korrigierte R2 des Modells beträgt 0,28 und
der F-Wert 31,49. Das Modell ist auf dem 1-%-Niveau signifikant.
Die Inflationsrate und der Anteil der älteren Bevölkerung weisen keinen signifikanten
Zusammenhang mit dem Bruttosparvolumen auf. Ein steigender Gini-Index – also eine
zunehmend ungleiche Einkommensverteilung – ist (überraschenderweise) mit einem ab-
nehmenden Sparvolumen verbunden. Ein höheres Wohlstandsniveau (gemessen am BIP
pro Kopf) geht – wie erwartet – mit einem steigenden Sparvolumen einher.
b) Bildung von Dummyvariablen für die 24 OECD-Mitgliedsstaaten:
SPSS: Dies erfolgt ab der Version IBM SPSS 22 über [Transformieren > Dummy-Vari-

ablen erstellen]. In dem dann erscheinenden Menüfeld befördern wir unsere Variable in
das Feld „Dummy-Variablen erstellen für:“, setzen ein Häkchen bei „Dummy für Hauptef-
fekte erstellen“ und vergeben unter „Stammnamen“ einen frei wählbaren Namen ein
(bspw. Dum_Staaten_). SPSS fügt dann unserem Datensatz 24 Dummys hinzu. Diese er-
halten automatisch die Namen Dum_Staaten_1, Dum_Staaten_2 usw.
Abb. 4.30 Savings – Pooled OLS

Stata: Durch das Präfix „i.“ kommunizieren wir Stata, dass es sich um eine kategoriale
Variable handelt. Stata legt dann automatisch im Hintergrund eine Dummyvariable für alle
Kategorien an und lässt dabei ein Kategorie wegfallen.
c) Das Resultat für eine LSDV-Schätzung (mittels SPSS) unter Berücksichtigung eines
linearen Zeittrends ist (auszugsweise) in Abb. 4.31 zu sehen. Das korrigierte R2 liegt
bei 0,85, der F-Wert ist gleich 69,21. Das Modell ist auf dem 1-%-Niveau signifikant.
Wir lassen die Dummyvariablen für die Staaten zunächst beiseite. Bis auf den Gini-In-
dex sind alle unabhängigen Variablen signifikant. Eine höhere Inflationsrate führt zu ei-
nem sinkenden Sparvolumen, und auch der lineare Zeittrend (Year) verringert das Brut-
tosparvolumen. Eine alternde Bevölkerung spart aber mehr, und gleiches gilt für einen
wachsenden Wohlstand. Die Ergebnisse sind deutlich andere bei der Pooled-OLS-Schät-
zung. Sie basieren jetzt auf der Within-Varianz der OECD-Staaten, womit unbeobachtete
Heterogenität (eher) beseitigt wird.
d) Die vorliegende Analyse besitzt eine ganze Reihe von Schwachpunkten und müsste
weiter ausgebaut werden. Wichtige Stichpunkte diesbezüglich sind: Definition des
Bruttosparvolumens? Erfassung der Einkommensungleichheit? Linearer Zeittrend?
Autokorrelation und Heteroskedastie? Mittelwertabweichungsverfahren? FD-Me-
thode? Luxemburg und Türkei sind Ausreißer?
Abb. 4.31 Savings – LSDV-Verfahren

4.9 Lösungen 293
Um mit größerer Sicherheit kausale Schlussfolgerungen abzuleiten, ist darüber hinaus

zu untersuchen, ob der Einfluss der unabhängigen Variablen InflationRate, GiniIndex,
AgeDependencyRatio und GDPpCapita für alle Staaten einheitlich und konstant ist. Mög-
liche unterschiedliche Wirkungen dieser Variablen in den einzelnen Staaten könnten durch
die Aufnahme von Interaktionseffekten der Variablen Year mit den Dummyvariablen der
Staaten überprüft werden.
Grundsätzlich sind aber kausale Wirkungen kaum identifizierbar. Allgemeine Gleich-
gewichtseffekte sind bei diesen hoch aggregierten (und auch räumlich sowie zeitlich inter-
dependenten) Makrovariablen nicht sicher auszuschließen. Es lässt sich kaum plausibel
ableiten, dass die Veränderungen der genannten vier Variablen exogen sind, weil sie einem
natürlichen Experiment entsprechen (oder auch nur nahekommen).
Interessant ist die deutlich höhere Erklärungskraft (gemessen am korrigierten R2) des
LSDV-Verfahrens. Das Bruttosparvolumen weist erhebliche Unterschiede zwischen den
Staaten auf, die auch durch unsere anderen unabhängigen Variablen nicht kontrolliert wer-
den. Im Rahmen des FE-Verfahrens sind also nicht beobachtbare Unterschiede zwar eli-
minierbar, verlangen aber ihrerseits nach einer Erklärung.
Lösung 4.4
a) Wenn nicht bereits erfolgt, muss die zeitliche Struktur des Datensatzes Stata zunächst
kommuniziert werden. Dies durch folgende Eingabe im Feld „Command“ der
Menüoberfläche:
„xtset HochschulenNumeric Jahr

panel variable: HochschulenNumeric (strongly balanced)
time variable: Jahr, 1 to 12
delta: 1 unit“
Das Ergebnis und seine Interpretation sind bereits bekannt. Es findet sich in der
Abb. 4.22.
b) Die erste Differenz der Variable Jahr ist immer gleich 1. Daher verweigert Stata auf-
grund perfekter Multikollinearität mit der Konstanten die Berechnung mit der Fehler-
meldung: „D.Jahr omitted because of collinearity“.
c) Die einfache Variable Jahr ist nicht signifikant: t-Wert 0,23, Signifikanzniveau 0,819.
Durch die Bildung der ersten Differenz der Zahl der Erstsemester sind (lineare) Trends
vollständig beseitigt worden.
d) Die Dummyvariable wird in Stata einfach mit dem Präfix „i.“ aufgenommen (also i.
Jahr). Es werden erhebliche jährliche Schwankungen in den ersten Differenzen der
Zahl der Studienanfänger deutlich. Der negative Einfluss der Einführung von Studien-
gebühren ändert sich aber nicht: Koeffizient: −90,195, t-Wert: −5,45, signifikant auf
dem 1-%-Niveau.
Literatur
Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station: Stata Press.
Allbus. (2020). Allgemeine Bevölkerungsumfrage der Sozialwissenchaften. https://www.gesis.org/
allbus/allbus. Zugegriffen am 05.01.2020.
Andreß, H.-J., Golsch, K., & Schmidt, A. W. (2013). Applied panel data analysis for economic and
social surveys. Berlin: Springer.
Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics, an empiricist’s companion.
Princeton: Princeton University Press.
Angrist, J. D., & Pischke, J.-S. (2015). Mastering metrics, the path from cause to effect. Princeton:
Princeton University Press.
Athey, S., & Imbens, G. W. (2006). Identification and inference in nonlinear difference in differen-
ces models. Econometrica, 74(2), 431–497.
Baltagi, B. H. (2013). Econometric analysis of panel data (5. Aufl.). Chichester: Wiley.
Baum, C. F. (2006). An introduction to modern econometrics using Stata. College Station: Stata Press.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer.
Brüderl, J., & Ludwig, V. (2015). Chapter 15: Fixed-effects panel regression. In H. Best & C. Wolf
(Hrsg.), The SAGE handbook of regression analysis and causal inference (S. 327–357). Los
Angeles: Sage Publications.
Brüderl, J., & Ludwig, V. (2019, April). Applied panel data analysis using Stata. LMU München
& TU Kaiserslautern. https://www.ls3.soziologie.uni-muenchen.de/studium-lehre/archiv/tea-
ching-marterials/panel-analysis_april-2019.pdf. Zugegriffen am 10.12.2019.
Cameron, A. C., & Trivedi P. K. (2007). Microeconometrics – Methods and applications. Cam-
bridge: Cambridge University Press.
Cameron, L. A., & Trivedi, P. K. (2009). Microeconometrics using Stata. College Station: Stata Press.
Cameron, L. A., & Trivedi, P. K. (2010). Microeconometrics using stata. College Station Texas,
Stata Press.
Card, D., & Krueger, A. B. (1994). Minimum wages and employment: A case study of the fast-food
industry in New Jersey and Pennsylvania. American Economic Review, 84(4), 772–793.
Carpenter, C., & Dobkin, C. (2011). The minimum legal drinking age and public health. Journal of
Economic Perspectives, 25(2), 133–156.
Dietrich, H., & Gerner, H.-D. (2012). The effects of tuition fees on the decision for higher education:
Evidence from a German policy experiment. Economics Bulletin, 32(2), 1–17.
Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: Sage Publications.
Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: Sage
Publications.
Frees, E.-W. (2004). Longitudinal and panel data, analysis and applications in the social sciences.
Cambridge: Cambridge University Press.
Greene, W. H. (2012). Econometric analysis (7. Aufl.). Boston: Pearson.
Günter, M., Vossebein, G., & Wildner, R. (2018). Marktforschung mit Panels (3. Aufl.). Berlin:
Springer Gabler.
Guo, S., & Fraser, M. W. (2015). Propensity score analysis, Statistical methods and applications.
Los Angeles: Sage Publications.
IAB. (2020). IAB-Betriebspanel. http://www.iab.de/de/erhebungen/iab-betriebspanel.aspx/. Zuge-
griffen am 05.01.2020.
IBM SPSS. (2018). Technical note. https://www-304.ibm.com/support/docview.wss?uid=swg21477323.
Kennedy, P. (2008). A guide to econometrics (6. Aufl.). Malden: Wiley-Blackwell.
Kopp, J., & Lois, D. (2009). Einführung in die Panelanalyse. Chemnitz: Institut für empirische
Sozialforschung, TU Chemnitz.
Literatur 295
Long, J. S., & Erwin, L. H. (2000). Using heteroscedasticity-consistent standard errors in the linear
regression model. The American Statistician, 54, 217–224.
Maddison. (2020). Maddison project database 2018. https://www.rug.nl/ggdc/historicaldevelop-
ment/maddison/releases/maddison-project-database-2018. Zugegriffen am 05.01.2020.
Monkerud, L. C. (2010). GRA 5917: Input politics and public opinion, Panel data regression in po-
litical economy, Lecture slides, BI Norwegian School of Business. Zugegriffen am 20.09.2019.
Nichols, A. (2009, June 26). Causal inference with observational data, regression discontinuity and
related methods in Stata. https://www.stata.com/meeting/germany09/nichols.pdf. Zugegriffen
am 20.07.2019.
OECD. (2020). OECD.stats. https://stats.oecd.org/. Zugegriffen am 05.01.2020.
Pairfam. (2020). pairfam – Das Beziehungs- und Familienpanel. https://www.pairfam.de/. Zugegrif-
fen am 05.01.2020.
Park, H. M. (2009). Linear regression models for panel data using SAS, Stata, LIMDEP, and
SPSS. Working paper, The University Information Technology Services (UITS), Center for Stati-
stical and Mathematical Computing, Indiana University. http://www.indiana.edu/~statmath/stat/
all/panel/panel.pdf. Zugegriffen am 29.09.2017.
Park, H. M. (2011). Practical guides to panel data modeling: A step by step analysis using Stata. Tuto-
rial working paper, Graduate School of International Relations, International University of Japan.
https://www.iuj.ac.jp/faculty/kucc625/method/panel/panel_iuj.pdf. Zugegriffen am 03.02.2019.
Penn World Tables. (2020). Penn World Tables, Version 9.1. https://www.rug.nl/ggdc/productivity/
pwt/. Zugegriffen am 05.01.2020.
Richardson, G., & Troost, W. (2009). Monetary intervention mitigated banking panics during
the great depression: Quasi-experimental evidence from a Federal Reserve District Border,
1929–1933. Journal of Political Economy, 117(6), 1031–1073. https://doi.org/10.1086/649603.
Schaffer, M., & Stillman, S. (2010). Xtoverid: Stata module to calculate tests of overidentifying
restrictions, Stata ado file. http://fmwww.bc.edu/RePEc/bocode/x/. Zugegriffen am 20.02.2019.
Schnell, R., Hill, P. B., & Esser, E. (2018). Methoden der empirischen Sozialforschung (11. Aufl.).
München: Oldenbourg.
Stata. (2019). Stata 16 longitudinal data/panel data. https://www.stata.com/includes/ir16/16-xt.png.
Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics (Updated 3. Aufl., Global Edi-
tion). Amsterdam: Pearson.
Stoetzer, M.-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung
(Bd. 1)., Berlin: Springer.
UCLA IDRE. (2019a). SPSS library: Comparing methods of analyzing repeated measures data.
https://stats.idre.ucla.edu/spss/library/spss-library-comparing-methods-of-analyzing-repea-
ted-measures-data/. Zugegriffen am 20.07.2019.
UCLA IDRE. (2019b). SPSS library: Panel data analysis using GEE. https://stats.idre.ucla.edu/
spss/library/spss-librarypanel-data-analysis-using-gee/. Zugegriffen am 20.07.2019.
UCLA IDRE. (2019c). Statistical computing workshop: Using the SPSS mixed command. https://
stats.idre.ucla.edu/spss/seminars/spss-mixed-command/. Zugegriffen am 03.11.2019.
Verbeek, M. (2008). Pseudo-panels and repeated cross-sections. In L. Mátyás & P. Sevestre (Hrsg.),
The econometrics of panel data: Fundamentals and recent developments in theory and practice
(3. Aufl., S. 369–383). Berlin: Springer.
Wooldridge, J. M. (2010). Econometric analysis of cross-section and panel data (2. Aufl.). Boston:
The MIT Press.
Western Education Publications.
World Bank. (2020). World development indicators. https://datacatalog.worldbank.org/dataset/wor-
ld-development-indicators. Zugegriffen am 08.01.2020.
Fehlende Datenwerte/Missing Values
5
Lernziele
• die Bedeutung fehlender Datenwerte (Missings bzw. Missing Values) in der prak-
tischen empirischen Forschung überblicken,
• die Begriffe „Unit Nonresponse“ und „Item Nonresponse“ unterscheiden können,
• die Konsequenzen verschiedener Formen von Missings verstehen,
• wissen, welche Möglichkeiten des Umgangs mit fehlenden Daten existieren,
• beherrschen, unter welchen Bedingungen der fallweise Ausschluss eingesetzt
werden kann,
• die wichtigsten Verfahren der Behandlung von Datenausfällen, das heißt die mul-
tiple Imputation und die FIML-Methode verstehen und umsetzen können,
• in der Lage sein, zu erklären, warum die einfache Mittelwertimputation kein ge-
eignetes Verfahren ist, um mit fehlenden Werten umzugehen,
• verstehen, wie der Little-Test und die logistische Regression als Methoden zu
Überprüfung der MCAR-Bedingung einsetzbar sind,
• die drei Schritte der multiplen Imputation – Imputation, Analyse und Pooling
(Zusammenfassung) – anwenden können,
• erläutern können, welche Regeln hinsichtlich der Zahl der Imputationen bei einer
multiplen Imputation existieren,
• fähig sein, zu erklären, welche Vorteile die FIML-Methode hinsichtlich der Ver-
wertung der Informationen eines Datensatzes mit Missing Values besitzt.
298 5 Fehlende Datenwerte/Missing Values
cc Wichtige Grundbegriffe Multiple Imputation, Mittelwertimputation, fallweiser Aus-

schluss, FIML, Missingquote, Unit Nonresponse, Item Nonresponse, Missing at Ran-
dom – MAR, Missing Completely at Random – MCAR, Little’s Test, Listwise Deletion,
Missing Not at Random – MNAR
5.1 Überblick
Der Abschn. 5.2 erläutert einige grundlegende Abgrenzungen ebenso wie die Relevanz
fehlender Datenwerte. Unterschiedliche Formen von Missing Values erfordern jeweils
spezielle Verfahren des Umgangs und werden daher im Abschn. 5.3 behandelt. Abschn. 5.4
stellt die wichtigsten Verfahren der Behandlung fehlender Daten knapp dar und konzen
triert sich dabei auf die modernen Methoden. Die zentralen Schlussfolgerungen und
praktischen Handlungsempfehlungen sind Thema des Abschn. 5.5 und 5.6 zeigt die prak-
tische Anwendung der verschiedenen Verfahren mittels SPSS und Stata.
5.2 Die Relevanz fehlender Datenwerte
Bei Primär- und Sekundärdaten existiert das Problem unvollständiger Datensätze. Dies
bezieht sich etwa auf die Beobachtungseinheiten (d. h. Fälle) selbst. Zum Beispiel ver-
weigern bei einer Befragung Unternehmen oder Personen die Teilnahme, so dass diese
Beobachtungseinheiten fehlen. Dies wird als „Unit Nonresponse“ bezeichnet und führt
ggf. dazu, dass die Stichprobe (das Sample) nicht repräsentativ für die Grundgesamt-
heit ist.
Außerdem treten fehlende Informationen aber auch hinsichtlich einzelner Datenwerte
auf. Dies resultiert etwa, wenn in einer Primärdatenerhebung eine Person (Haushalt) oder
ein Unternehmen einzelne Fragen nicht beantwortet hat. In empirischen Untersuchungen
zur Bildungsforschung oder Psychologie sind zu bestimmten Fragen üblicherweise Aus-
fallraten von 15 % zu verzeichnen (Enders 2003, S. 325). Bei Haushaltsbefragungen wer-
den Auskünfte zum Einkommen häufig nicht gegeben – hier sind Ausfallraten von 30 %
gängig. Diese können kumuliert bis zu 50 % ausmachen (Acock 2005, S. 1014–1015). In
Unternehmensbefragungen treten im Allgemeinen hohe Anteile von fehlenden Daten bei
Fragen zum Gewinn oder den Kosten auf. Dies gilt natürlich auch für Sekundärdatensätze
und amtliche Statistiken – etwa sind bei vielen Least-Developed-Country-Staaten Daten
zu Ausbildungsniveaus und -strukturen nicht vorhanden. Nur diese Situation fehlender
einzelner Datenwerte („Item Nonresponse“ oder „Missing Values“ bzw. kurz „Mis-
sings“) ist hier relevant.1
1
Einzelne Fragen in einer Erhebung werden als „Items“ bezeichnet. Deren Fehlen ist auch von so-
genannten benutzerdefinierten fehlenden Werten (User Missing Values) zu unterscheiden. Bspw.
5.2 Die Relevanz fehlender Datenwerte 299
In den Standardlehrbüchern zur Ökonometrie und empirischen Wirtschaftsforschung

wird das Problem der Missing Values in der Regel nicht behandelt.2 Dies ist ein Manko,
denn komplette (vollständige) Daten für alle Beobachtungseinheiten sind in der empiri-
schen Forschung selten. Auch in referierten Publikationen der BWL und VWL wird das
Problem fehlender Daten und der Umgang mit ihnen häufig ignoriert.3 Gängige Praxis ist
es, in der Regressionsanalyse nur Fälle mit kompletten Datenwerten zu berücksichtigen.
Dieses Verfahren ist die sogenannte „Listwise Deletion“ und wird von den Statistikpro-
grammpaketen automatisch angewandt. Auch wenn nur wenige Daten bei einzelnen Beob-
achtungen fehlen, führt dies aber unter Umständen zu einer erheblichen Verkleinerung der
für unsere Regression verwendeten Zahl von Beobachtungen.
Tab. 5.1 enthält noch einmal den aus Band 1 bekannten Datensatz unseres Pkw-
Beispiels (Stoetzer 2017). Allerdings sind jetzt verschiedene Daten aus einzelnen Regio-
nen durch einen Übertragungsfehler verloren gegangen. Dadurch sind „Lücken“ im Da-
tensatz entstanden. Hier steht jetzt nur noch ein Punkt zur Kennzeichnung fehlender Werte.
In der Region 1 fehlt der Wert für die Variable Preis, in der Region 4 für die Variable
Budget, in der Region 7 für Kontakte und außerdem Absatzmenge, in der Region 13 für
Absatzmenge und in der Region 14 für die Variable Preis. Wie sich die fehlenden Daten
auf die Beobachtungen sowie Variablen verteilen, bezeichnet man als Struktur (Muster)
der Missing Values.
Von den insgesamt 60 Werten (15 Regionen mit 4 Variablen) tritt ein Ausfall nur bei 6
Werten auf, d. h. 10 % der Daten sind nicht vorhanden. Die Listwise Deletion führt aber
dazu, dass 5 Beobachtungen (hier: Regionen) bei der Regressionsanalyse nicht berücksich-
tigt werden. Der Umfang unserer Stichprobe schrumpft also um ein Drittel. Die übliche
Vorgehensweise der Listwise Deletion ist daher nur unter bestimmten Voraussetzungen ein
sinnvolles Verfahren des Umgangs mit Datenausfällen. Dies erläutert Abschn. 5.4.1 genauer.
Die folgenden Ausführungen beschränken sich auf Aspekte, die bei Regressionen von
Querschnittsdaten relevant sind. Spezielle Gesichtspunkte bei univariaten Analysen (bspw.
Mittelwert- und Varianzvergleiche und insbesondere Tests) werden nicht behandelt. Glei-
ches gilt hinsichtlich Paneldaten (Längsschnittdaten). Alle Abschnitte enthalten aber Hin-
weise auf die entsprechende Spezialliteratur.
existiert im Fragebogen die Antwortkategorie „weiß nicht“ oder „sonstige“. Solche Antworten sind
inhaltlich etwas anderes als fehlende Daten im obigen Sinn. Weiterhin können fehlende Antworten
inhaltlich notwendig sein. Wenn ein Unternehmen bei der Frage nach Auslandsaktivitäten „Keine“
geantwortet hat, sind anschließende Fragen zum Anteil der Exporte am eigenen Umsatz und der
Zahl der ausländischen Tochtergesellschaften hinfällig. Sie werden in der Fragebogengestaltung
nach dem „Keine“ mit dem Hinweis „weiter mit Frage xy“ übersprungen.
2
Ausnahmen sind Fox (2016, S. 605–646) und Hosmer et al. (2013, S. 395–400).
3
Siehe bspw. Peugh und Enders (2004) für die Sozialwissenschaften und Backhaus und Blech-
schmidt (2009) für die BWL. Eine Ausnahme ist Vroomen et al. (2016) für die Gesundheitsökono-
mie. Missing Values treten in dieser Publikation insbesondere hinsichtlich Kostendaten von Kran-
kenhäusern auf.
Tab. 5.1 Der Pkw-Absatz

Region Kontakte Preis Budget Absatzmenge
1 22 . 26,3 214
2 18 16,0 27,1 202
3 20 15,2 22,2 198
4 13 13,4 . 178
5 13 13,8 25,0 184
6 25 14,1 21,2 210
7 . 13,0 24,0 .
8 17 13,1 28,0 205
9 18 15,7 23,4 192
10 14 15,9 23,9 181
11 10 13,7 21,0 164
12 23 14,1 24,0 213
13 21 14,8 26,9 .
14 17 . 26,3 198
15 18 14,3 27,0 200
Es handelt sich um 15 deutsche Verkaufsregionen eines Pkw-Herstellers. Die Variablen beziehen
sich auf ein Quartal sind wie folgt definiert:
Region: Laufende Nummer der 15 Verkaufsregionen in Deutschland
Kontakte: Zahl der Besuche der regionalen Produktmanager bei den Pkw-Händlern
Preis: Nettoverkaufspreis in Tausend Euro
Budget: Marketingbudget in Tausend Euro
Absatzmenge: Stückzahl der verkauften Pkw
5.3 Formen von Missing Values
5.3.1 Einführung
Bisher sind die Missings nur beschrieben worden. Aber welche Auswirkungen haben sol-
che fehlenden Werte für unsere Regressionsschätzungen – insbesondere hinsichtlich der
Koeffizienten und deren Standardfehlern? Und welche Konsequenzen ergeben sich daraus
für den geeigneten Umgang mit fehlenden Datenwerten? Dazu müssen die folgenden drei
Formen von Missing Values unterschieden werden: Missing Completely at Random, Mis-
sing at Random und Missing Not at Random.4
Zur Erläuterung verwenden wir zwei Beispiele. Erstens eine Schätzung des Einkom-
mens von Privathaushalten aufgrund eines Surveys, der auch die üblichen soziodemogra-
fischen Merkmale wie Alter, Geschlecht und Wohnort erfasst. Zweitens eine Umfrage, die
analysiert, von welchen Einflussfaktoren die Hochschulabschlussnote eines Studierenden
4
Die Klassifikation stammt von Rubin (1976). Allison (2002, S. 3–5) enthält eine verständliche Be-
schreibung, die sich in der Literatur durchgesetzt hat.
5.3 Formen von Missing Values 301
am Ende seines Studiums abhängt. Unabhängige Variablen sind die Note seiner Hoch-
schulzugangsberechtigung, sein Alter, der Zeitpunkt seines Hochschulabschlusses und als
Dummyvariablen das Geschlecht, die Art der Hochschulzugangsberechtigung sowie eine
mögliche Berufsausbildung vor Aufnahme seines Studiums.5
5.3.2 Missing Completely at Random (MCAR)
Im Fall des Missing Completely at Random (MCAR) ist die Wahrscheinlichkeit, dass ein
Wert bei einer abhängigen Variablen Y oder einer unabhängigen Variablen Xk fehlt, nicht
von den Ausprägungen (also Datenwerten) dieser Variablen (Y, X1, X2, X3…, Xk) abhängig.
Anders formuliert: Die Ursachen für das Fehlen eines Datenwertes dürfen nicht von den
beobachteten Variablen beeinflusst werden.6 Dies ist der Fall, wenn die fehlenden Werte
bei einer oder mehreren Variablen (Y, X1, X2, X3 usw.) das Ergebnis reiner Zufallsprozesse
sind. Damit sind die in den Daten unseres Samples vorhandenen Informationen zwar ge-
schrumpft, sie stellen aber nach wie vor eine repräsentative Zufallsauswahl der Grundge-
samtheit dar.
Wann ist dies der Fall? Bspw. dürfen im Rahmen einer Befragung von Personen die
fehlenden Angaben zum eigenen Einkommen weder von der Höhe des fehlenden Einkom-
mens noch vom (beobachteten) Alter des Befragten oder anderen Variablen – wie Ge-
schlecht, Familienstand, Bildungsabschluss usw. – abhängig sein.
Ein weiteres Beispiel hierfür ist, dass die Frage nach einer möglichen Ausbildung vor
der Aufnahme eines Studiums nur davon abhängt, ob der befragte Studienanfänger am
Befragungstag ausgeschlafen hatte oder nicht. Dies dürfte für das inhaltliche Problem des
Zusammenhangs von Hochschulzugangsberechtigungsnote und Studienabschlussnote ir-
relevant sein. Ursachen für solche zufälligen Lücken in den Daten sind bei Umfragen
bspw., dass fehlende Werte bei einigen Variablen nur auftreten, weil die Software für die
Onlineumfrage völlig unsystematisch die Abspeicherung dieser Antworten verweigert hat.
Zusammenfassend existieren also zwei Gruppen von Beobachtungen: eine erste Gruppe
mit kompletten Werten für alle Variablen und eine zweite Gruppe, bei der eine oder meh-
rere Daten (bei einer oder mehreren Variablen) nicht vorhanden sind. Wenn Beobachtun-
gen mit fehlenden Werten nicht zufällig auftreten, sondern sich systematisch von Beob-
achtungen mit vollständigen Daten unterscheiden, können die Regressionsschätzungen
falsche Ergebnisse liefern.
Um zu prüfen, ob MCAR vorliegt, untersuchen wir, inwieweit sich die Beobachtungen
der beiden Gruppen mit fehlenden und kompletten Werten unterscheiden. Das heißt, hat
5
Es handelt sich um einen realen Datensatz der Bachelor-Absolventen im Fach Betriebswirtschaft
der EAH Jena.
6
Für die nicht beobachteten sonstigen Variablen gilt dies ebenfalls. Bei einer reinen Zufallsaus-
wahl – einem RCT – sind die Variablen im Datensatz unabhängig von anderen möglichen Einfluss-
faktoren (siehe Kap. 1).
eine der anderen Variablen einen systematischen Einfluss auf die Existenz fehlender
Werte? Dazu bilden wir eine Dummyvariable für die beiden Gruppen: Alle Beobachtun-
gen mit fehlenden Werten bei einer Variablen (bspw. X1 = Ausbildung) erhalten eine „1“
(für „Missing“) und alle mit vollständigen Daten ein „0“ (für „Not Missing“). Diese neue
Variable zeigt an, wenn ein fehlender Datenwert vorliegt und wird daher als Indikatorva-
riable bezeichnet. Anschließend testen wir, ob sich diese beiden Gruppen im Hinblick auf
die anderen Variablen (Y, X2, X3 usw.) unterscheiden. Die Frage ist also, ob fehlende Werte
zur Ausbildung signifikant häufiger bei Frauen als bei Männern (oder bei Abiturienten als
bei Studierenden mit anderen Hochschulzugangsberechtigungen) zu verzeichnen sind.
Dies bezieht sich nicht (!) darauf, dass die Antwort „keine Ausbildung vor dem Studium“
bei Abiturienten häufiger auftritt als bei Studierenden mit einer anderen Form der Hoch-
schulzugangsberechtigung. Hier geht es vielmehr um den Unterschied zwischen fehlen-
den und kompletten Werten. Bei Letzteren ist es egal, ob eine Ausbildung vorliegt oder
nicht: Beide Arten von Antworten werden, wenn sie existieren, mit „0“ kodiert.
Sind bspw. die Mittelwerte (Erwartungswerte) der Noten der Hochschulzugangsbe-
rechtigung zwischen beiden Gruppen signifikant unterschiedlich? Oder: Ist der Anteil der
Frauen, bei denen Daten zur Ausbildung fehlen, signifikant höher (bzw. kleiner) als bei
den Männern? Im ersten Fall liegt eine metrische Skalierung vor, und wir prüfen den mög-
lichen Mittelwertunterschied anhand eines t-Tests für unabhängige Stichproben. Im zwei-
ten Fall einer nominalskalierten Variablen ist ein Chi2-Test verwendbar. Beides sind
sogenannte lokale MCAR-Tests. Finden wir signifikante Zusammenhänge, wird die
Nullhypothese „kein Unterschied“ abgelehnt. Dies bedeutet, dass die MCAR-Bedingung
nicht erfüllt ist.
Statt einzelner paarweiser Tests lässt sich eleganter eine logistische Regression (Logit-
bzw. Probit-Regression) durchführen. Existieren bspw. bei der Variable X1 fehlende Werte,
bilden wir – wie oben beschrieben – eine neue Indikatorvariable (d. h. Dummyvariable).
Anschließend benutzen wir diese neue Indikatorvariable als abhängige Variable und über-
prüfen, ob eine der anderen Variablen (Y, X2, X3 usw.) einen signifikanten Einfluss auf die
Wahrscheinlichkeit der Missingness besitzt. Ist dies der Fall, liegt die MCAR-Bedingung
nicht vor. Ist keine der unabhängigen Variablen signifikant – also von 0 verschieden –,
können wir die Annahme MCAR beibehalten.
Sind bei mehreren Variablen fehlende Werte vorhanden, muss entsprechend für jede
der betroffenen Variablen eine solche logistische Regression durchgeführt werden. Unter
Umständen treten dann aber zwei Schwierigkeiten auf. Erstens gibt es evtl. exogene Va-
riable (bspw. X2 und auch noch andere), die ebenfalls viele fehlende Werte besitzen. Ihre
Verwendung als exogene Variable in der logistischen Regression führt daher zu einem
starken Schrumpfen der Datenbasis und folglich geringerer Teststärke. Zum Teil wird
empfohlen, solche Variablen, die selbst eine hohe Zahl fehlender Werte besitzen, nicht als
exogene Variable in der logistischen Regression zu verwenden. Zweitens besitzen wir
dann mehrere logistische Regressionen mit unter Umständen unterschiedlichen Ergeb-
nissen. Es liegt aber bisher kein formaler Test vor, der ein zusammenfassendes Urteil
5.3 Formen von Missing Values 303
hinsichtlich der MCAR-Bedingung für den gesamten Datensatz erlaubt (SSCC 2017,
S. 2–3; Urban und Mayerl 2018, S. 450–453).
Als weiteren globalen Test auf Vorliegen der MCAR-Bedingung wird ein von Little
entwickeltes Testverfahren herangezogen (Little’s Test). Allerdings basiert er auf der
Analyse von Mittelwerten metrisch skalierter Variablen. Damit ist Little’s Test für nomi-
nalskalierte Variablen nicht verwendbar. Auch bei ihm lautet die Nullhypothese „keine
Zusammenhänge vorhanden“, so dass wir von MCAR nur ausgehen können, wenn er nicht
signifikant ist.
Wenn die MCAR-Bedingung nicht erfüllt ist, existieren Zusammenhänge unserer Vari-
ablen mit der Indikatorvariablen für Missing. Dies ist der Ansatzpunkt der MAR-Situation.
5.3.3 Missing at Random
Die Annahme Missing at Random (MAR) besagt, dass die fehlenden Datenwerte einer
Variablen X1 von anderen Variablen im vorliegenden Datensatz abhängig sind (bspw. Y, X2
oder X3). Die Indikatorvariable für Missingness (bei unserer Variablen X1) wird aber –
nachdem wir die Zusammenhänge mit Y, X2, X3 usw. kontrolliert haben – nicht mehr von
X1 selber beeinflusst. Der Ausdruck „Missing at Random“ ist insoweit irreführend. Tref-
fender wäre die Bezeichnung „bedingt zufällig“ (Conditionally Random), weil die Lücken
erst nach Berücksichtigung des Einflusses dieser anderen Variablen zufällig fehlen (Gra-
ham et al. 2003, S. 89).
Ein häufig angeführtes Beispiel sind fehlende Angaben zum Einkommen. Diese wer-
den bspw. vom Alter beeinflusst, da ältere Menschen bei der Preisgabe persönlicher Infor-
mationen zurückhaltender sind. Was wir berücksichtigen müssen und können, ist das Al-
ter, da wir Daten zum Alter haben. Wir kontrollieren den Einfluss des Alters auf die
Neigung, die Frage nach dem Einkommen zu beantworten. Danach sollten die fehlenden
Werte zum Einkommen für ein gegebenes Alter nicht mehr von der Höhe des Einkommens
abhängen – etwa weil Bezieher sehr hoher Einkommen auch bei einem gegebenen Alter
(oder leichter nachvollziehbar: innerhalb einer bestimmten Altersklasse) häufiger die Ant-
wort auf diese Frage verweigern.
In unserem Hochschulbeispiel fehlen etwa bei der endogenen Variablen „Abschluss-
note des Studiums“ Werte, weil diese Frage nicht beantwortet wurde. Diese Lücke korre-
liert bspw. damit, dass ein Studienanfänger eine Frau ist und wie alt der Befragte bei Stu-
dienbeginn war: Frauen und ältere Studienanfänger haben systematisch die Antwort auf
diese Frage verweigert. Wir berücksichtigen dies, indem wir die Variablen Alter und Ge-
schlecht in unsere Regression als Kontrollvariablen aufnehmen. Dies führt dazu, dass die
beobachteten Werte der Abschlussnote nur noch zufällig fehlen.
Die MAR-Voraussetzung ist weniger restriktiv als die MCAR-Bedingung und daher in
der praktischen Anwendung eher erfüllt. Wenn MCAR gilt, liegt automatisch auch die
MAR-Bedingung vor. Ist MAR gegeben, können die fehlenden Werte auf der Grundlage der
in den anderen Variablen enthaltenen Informationen geschätzt werden. Dies ist umso eher
der Fall, je mehr komplette Beobachtungen und Variablen mit hoher Prognosekraft zur Iden-
tifizierung von fehlenden Werten in unserem Datensatz vorhanden sind. Liegt MCAR oder
MAR vor, wird dies zusammenfassend auch als Ignorierbarkeit (Ignorability) bezeichnet.
5.3.4 Missing Not at Random
Wenn die fehlenden Werte nicht die MAR-Voraussetzung erfüllen, ist natürlich auch die
MCAR nicht vorhanden. Die fehlenden Datenwerte hängen auch nach Berücksichtigung
des Einflusses aller beobachteten Variablen immer noch von den fehlenden Werten genau
dieser Variablen (also sozusagen von sich selbst) ab. Dann liegt Missing Not at Random
(MNR) – auch als MNAR oder NMAR abgekürzt – vor. Ein Beispiel wurde bereits ge-
nannt: Die Lücken der Angaben zum Einkommen sind abhängig von der Höhe des Ein-
kommens, und zwar auch bei gleichem beobachtetem Alter der Befragten (und ggf. ande-
ren beobachteten Variablen wie Geschlecht, Familienstand oder Bildungsabschluss). Dies
etwa, weil Befragte mit einem hohen Einkommen systematisch und unabhängig von
anderen Variablen, die wir beobachten, nicht bereit waren, auf diese Frage zu antworten.
Im Hochschulbeispiel wurde die Frage zur Ausbildung von vielen Studierenden tatsäch-
lich nicht beantwortet. In diesem Fall wäre MNR gegeben, wenn Absolventen mit Ausbil-
dung deutlich eher die Antwort auf diese Frage verweigert hätten.
Die Existenz von MNR ist statistisch nicht überprüfbar, da wir ja nur über Informa-
tionen zu den beobachteten Werten verfügen. Sie kann nur einer kritischen Einschätzung
aufgrund inhaltlicher Überlegungen und Erkenntnissen aus der Literatur unterzogen wer-
den. Liegt ein MNR vor, ist keines der im Folgenden näher erörterten Verfahren verwendbar.
Zusammenfassend gilt, dass man nicht in der Lage ist zu unterscheiden, inwieweit
MAR oder MNR vorliegt. Testen können wir lediglich, ob unsere Daten die MCAR-
Eigenschaft aufweisen oder nicht. Ist MCAR nicht gegeben, müssen wir die Abhängigkeit
der fehlenden Daten von anderen Variablen in die Modellspezifikation einbeziehen und so
kontrollieren. Dieses Vorgehen basiert auf der Annahme, dass MNR nicht vorliegt.
5.4 Umgang mit fehlenden Daten
Von den recht zahlreichen Verfahren, bei MCAR und MAR mit fehlenden Datenwerten
umzugehen, werden hier nur die drei wichtigsten beschrieben. Es handelt sich um die
Listwise Deletion, eine Imputationsmethode – nämlich die multiple Imputation – sowie
die Full-Information-Maximum-Likelihood Methode.7 Die Mittelwertimputation wird nur
zu Vergleichszwecken behandelt.
7
Weitere Verfahren sind bspw.: Paarweiser Ausschluss, Hot-Deck-Methode, einfache und stochasti-
sche Regressionsimputation, EM (Expectation Maximization)-Schätzung, Just-Another-Variable
(Dummy-Variable-Adjustment)-Ansatz. Alle diese Methoden sind den drei oben genannten un-
terlegen.
5.4 Umgang mit fehlenden Daten 305
5.4.1 Fallweiser Ausschluss (Listwise Deletion)
Bei der Listwise Deletion (Complete Case Analysis, fallweiser Ausschluss) werden alle
Beobachtungen, für die mindestens bei einer Variablen ein Wert fehlt, aus der Stichprobe
ausgeschlossen. Da bei mehreren oder sogar vielen unabhängigen Variablen verschiedene
Daten fehlen können, führt das Verfahren unter Umständen zu einer (sehr) starken Ver-
ringerung der Zahl der Beobachtungen, auf der die Schätzungen der Koeffizienten
basieren.
Ist MCAR nicht gegeben, sind die Koeffizientenschätzungen (möglicherweise) ver-
zerrt. Liegt dagegen MCAR vor, sind die Schätzungen der Koeffizienten einer Regression
auf der Basis eines solchen Datensatzes mit fehlenden Datenwerten unverzerrt (weisen
also keinen Bias auf). Allerdings sind die Schätzungen nicht mehr effizient. Die Standard-
fehler werden aufgrund der verkleinerten Beobachtungszahl tendenziell größer sein. Dies
bedeutet, dass wir die Nullhypothese (Variable hat keinen Einfluss, also Koeffizient ist
nicht von 0 verschieden) eher nicht ablehnen. Damit wird ein möglicher in der Grundge-
samtheit existierender Einfluss ggf. nicht entdeckt. Anders formuliert, nimmt die Test-
stärke (Power) ab.
In bestimmten Konstellationen führt die Listwise Deletion aber auch bei MAR und
sogar MNAR zu konsistenten Koeffizientenschätzungen und ist insoweit ein akzeptables
Verfahren (Baltes-Götz 2013, S. 22–23; Urban und Mayerl 2018, S. 455–460).8 Bei einer
linearen Regression ist dies erstens der Fall, wenn nur Daten der abhängigen Variable
fehlen und die MAR-Voraussetzung vorliegt. Zweitens gilt dies bei fehlenden Daten der
exogenen Variablen, wenn deren Missing Values nicht von der endogenen Variablen ab-
hängig sind, bzw. nur von den anderen exogenen Variablen (Covariates) abhängen. Dann
ist der fallweise Ausschluss sogar unempfindlich bezüglich Verletzungen der MAR-
Bedingung – also in der MNAR-Situation verwendbar (Carpenter und Kenward 2013,
S. 21 und 34–35; Baltes-Götz 2013, S. 25; Allison 2002, S. 6–7). Es bleibt allerdings die
Einschränkung, dass die Schätzung ineffizient ist.
Die Listwise Deletion ist die Voreinstellung der gängigen Regressionssoftware, bspw.
gehen SPSS und Stata auf diese Weise mit fehlenden Datenwerten um. Für dieses Verfah-
ren spricht in erster Linie seine Einfachheit. Bei welcher Anzahl fehlender Werte dies zu
Problemen führt, wird in der Literatur sehr unterschiedlich beurteilt. Zum Teil gilt die
Elimination von mehr als 5 % der Beobachtungen aufgrund von Missing Values als
Grenze, bis zu der der Wegfall unproblematisch ist. Die Verzerrungen aufgrund der Elimi-
nation von weniger als 5 % der Beobachtungen werden als unbedeutend angesehen (IBM
SPSS 20, S. 1). Verschiedene Autoren unterstreichen darüber hinaus, dass die Listwise
Deletion auch bei höheren Ausfallquoten häufig zu belastbaren Resultaten führt – insbe-
sondere angesichts der kritischen Aspekte anderer Verfahren (Williams 2018; Urban und
Mayerl 2018, S. 441).
8
Zur Konsistenz und Effizienz von Koeffizientenschätzungen siehe Stoetzer (2017, S. 135).
Andererseits bleibt ein wichtiger Vorbehalt gegen die Methode des fallweisen Aus-
schlusses der (ggf. starke) Rückgang der für die Regression verwendeten Beobachtungen.
Den damit verbundenen Verlust der in ihnen enthaltenen Informationen vermeiden andere
Verfahren.
5.4.2 Imputationsmethoden
Im Rahmen der einfachen Mittelwertimputation berechnet die Software den Mittelwert

der Variablen über alle vorhandenen Datenwerte und verwendet diesen berechneten Wert
überall dort, wo Missing Values vorliegen.
Dies verringert aber die Streuung der Residuen, da ja alle fehlenden Werte jetzt durch
einen einzigen einheitlichen Datenwert ersetzt werden. Der tatsächliche Standardfehler
wird also zu gering ausgewiesen. Die Unsicherheit, die bei der Imputation existiert – der
von uns eingesetzte Mittelwert ist ja nur eine Schätzung – wird ignoriert.9
Abb. 5.1 verdeutlicht dies anhand einer einfachen linearen Regression mit einer abhän-
gigen Variablen Y und einer unabhängigen Variablen X1. Die schwarzen Punkte sind die
Beobachtungen, für die komplette Daten existieren. Ihre Analyse zeigt einen klaren nega-
tiven Zusammenhang von X1 und Y. Die lineare Regression besitzt einen negativen Koef-
fizienten b1: Y = b0 – b1X1 + e. Für eine größere Zahl von Beobachtungen fehlen die Daten
der Variable X1. Eine Mittelwertimputation für X1 hat zur Folge, dass diese als eingezeich-
XM X1
Abb. 5.1 Mittelwertimputation bei einfacher Regression I
9
Gleiches betrifft die Imputation mittels einer Regression (linear, logistisch usw.). Diese Methoden
setzen genau einen Wert ein und firmieren daher als „Simple Imputation Methods“ (im Unterschied
zur multiplen Imputation).
nete Kreise hinzukommen: Für alle Werte von Y befinden sich die imputierten Werte von
X1 bei dessen Mittelwert XM.
Die Varianz von X1 verringert sich dadurch erheblich, denn die imputierten Werte von
X1 besitzen überhaupt keine Streuung. Die tatsächliche Streuung wird also bei dieser Mit-
telwertimputation erheblich unterschätzt. Die Standardfehler sind daher zu klein und folg-
lich die t-Werte zu groß. Dies hat zur Folge, dass die Nullhypothese eher abgelehnt wird,
obwohl X1 keinen Einfluss besitzt.
Abb. 5.2 illustriert dieselbe Situation bei einer Mittelwertimputation nur der abhängi-
gen Variablen Y. Die imputierten Mittelwerte von Y sind als Sterne abgebildet. Werden sie
in die Regression aufgenommen, verringert sich der negative Einfluss von X1 auf Y im
Vergleich zum Zusammenhang für die kompletten Daten deutlich. Es resultiert eine Ver-
zerrung (Bias) der Koeffizientenschätzung. Der tatsächliche Einfluss wird unterschätzt
(Enders 2010, S. 43). Darüber hinaus kann der Determinationskoeffizient bei diesem Ver-
fahren künstlich erhöht (oder auch verringert) sein.
Die Probleme entstehen auch bei Vorliegen der MCAR-Bedingung. Das Verfahren der
Mittelwertimputation ist aus diesen Gründen immer ungeeignet und wird hier nur zur
Illustration behandelt (Williams 2015, S. 4; Baltes-Götz 2013, S. 29–31; Spieß 2008, S. 17
und 22).
Die Multiple Imputation besteht aus drei Schritten. Erstens werden im Imputations-
schritt zur Vervollständigung der fehlenden Daten Regressionsmodelle spezifiziert. Die
Variable mit den fehlenden Daten ist dabei die abhängige Variable, und alle anderen Vari-
ablen dienen als exogene Variable, das heißt Prädiktoren. Die ermittelten Koeffizienten-
schätzungen erlauben es dann, die fehlenden Werte zu schätzen. Dabei wird berücksich-
tigt, dass diese ja nur Schätzungen und also mit einer gewissen Unsicherheit behaftet sind.
Dies geschieht, indem aus der Verteilung der Koeffizientenschätzungen zufällig mehrere
YM
X1
Abb. 5.2 Mittelwertimputation bei einfacher Regression II

(bspw. 20) ausgesucht werden. Im Ergebnis hat man also nicht eine Regressionsgleichung
mit ihren Regressionskoeffizienten, sondern 20. Auf dieser Basis werden dann 20 kom-
plette Datensätze ermittelt.
Für die Regressionsgleichungen, die wir zum Zweck der Imputation aufstellen, gilt,
dass alle Variablen – einschließlich der abhängigen Variablen – als exogene Variable auf-
zunehmen sind. Wir berücksichtigen auf der rechten Seite dieser Regressionsgleichungen
also alle Variablen, die wir verwendet hätten, wenn der Datensatz von vornherein komplett
gewesen wäre (d. h. genau die, die man im unten beschriebenen dritten Schritt einbezieht).
Dies gilt auch für transformierte Variable und Interaktionseffekte. Da die fehlenden Daten-
werte geschätzt werden, können unmögliche oder unplausible Imputationswerte resultie-
ren (bspw. negative Kosten oder prozentuale Anteile, die sich zu mehr als 100 % aufsum-
mieren). Dies sollte überprüft werden, und ggf. sind geeignete Restriktionen für die
Wertebereiche der Imputationen festzulegen. Soweit vorhanden, können auch sogenannte
Hilfsvariablen eingesetzt werden. Geeignete Hilfsvariablen erklären das Auftreten fehlen-
der Werte. Ihre Verwendung im Imputationsmodell erhöht daher die Wahrscheinlichkeit,
dass die MAR-Bedingung gegeben ist. Sie werden aber im Analysemodell nicht als exo-
gene Variable verwendet.
Die jeweilige Imputationsmethode hängt vom Skalenniveau der betreffenden Variablen
(bzw. fehlenden Werte) ab. Für Missing Values mit metrischem Skalenniveau basiert die
Imputation auf einer linearen Regression, bei nominalem Skalenniveau auf der logisti-
schen Regression (d. h. einer Logit- oder Probitanalyse), bei ordinalem Skalenniveau auf
der Ordered-Logit-Regression und für Missings bei nominal skalierten Variablen mit mehr
als zwei Kategorien zieht man die Multinomial Logistic Regression heran. Van Buuren
(2018) beschreibt die Auswahl der jeweils geeigneten Imputationsverfahren genauer.
Im zweiten Schritt (der Analyse) geht man genauso vor, als wäre ein kompletter Daten-
satz ohne Missing Values vorhanden. Das heißt, man spezifiziert exakt die Regression, die
man von Anfang an auf dem kompletten Datensatz durchführen wollte. Da aber 20 solcher
Datensätze mit imputierten Werten existieren, wird nun mit jedem Datensatz diese Regres-
sion durchgeführt. Es resultieren also 20 Koeffizientenschätzungen (und 20 Standardfeh-
ler) für jede der unabhängigen Variablen.
Der dritte Schritt (das sogenannte Pooling) fasst die 20 Regressionsergebnisse zusam-
men. Dies erfolgt nach Vorgaben, die man als „Rubins Regeln“ bezeichnet. Dabei werden
die 20 Koeffizientenschätzungen und Standardfehler prinzipiell gemittelt (bei Letzteren ist
das komplexer). Das Ergebnis sind die Koeffizientenschätzungen der multiplen Imputa-
tion (einschließlich ihrer Standardfehler). Hinsichtlich des Gesamtmodells gibt es aber
bisher keine akzeptierten Verfahren, um den Determinationskoeffizient zu ermitteln und
den globalen F-Test durchzuführen. Diese sind bei der multiplen Imputation also – in Ab-
hängigkeit von der eingesetzten Software – unter Umständen nicht vorhanden.
Die Ergebnisse der Parameterschätzungen einer multiplen Imputation sind – im Unter-
schied zum fallweisen Ausschluss bzw. zur Mittelwertimputation – konsistent und asymp
totisch effizient.
Das gesamte Verfahren ist recht aufwendig und praktisch nur realisierbar, wenn in der
Statistiksoftware die drei Schritte (weitgehend) automatisiert durchführbar sind. SPSS
und Stata verfügen über entsprechende Prozeduren. Aber auch bei Verwendung der Soft-
wareroutinen ist im Fall komplexer Strukturen der Missings zu überprüfen, ob die einge-
setzte iterative Methode konvergiert hat.10 Dies wird hier nicht weiter behandelt.
Eine weitere Schwierigkeit ist, dass die Zahl der durchzuführenden Imputationen nicht
klar ableitbar ist. Die Zahl der Imputationen wird in der Literatur als M bezeichnet. Nach
Rubin (1996), der die multiple Imputation entwickelt hat, kann M = 5 ausreichen. Aber
auch eine Zahl von M = 20 wird empfohlen (Williams 2018; Urban und Mayerl 2018,
S. 467), zum Teil allerdings als Untergrenze (Enders 2010, S. 214; Stata 15 2017a, S. 5).
White et al. (2011, S. 388) schlagen folgende Faustregel vor: Die Zahl der Imputationen
sollte mindestens so groß sein wie der Anteil der nicht kompletten Beobachtungen. Das
heißt, wenn – wie in unserem Pkw-Beispiel der Tab. 5.1 – die fehlenden Beobachtungen
33 % ausmachen, führen wir mindestens 33 Imputationen durch. Pragmatisch in unserem
Fall 40 Imputationen. Ein größeres M ist auf jeden Fall besser als eine zu geringe Zahl von
Imputationen. Und die Rechenzeit, die dazu notwendig ist, spielt im Allgemeinen keine
(große) Rolle mehr. Allerdings gehören Multiple Imputationen von großen Datensätzen
mit vielen Variablen, komplexen Strukturen von Missing Values und einer hohen Zahl von
Imputationen zu den Verfahren, die auch heute noch längere Verarbeitungszeiten der Com-
puter benötigen.
Ist M festgelegt, werden die M Koeffizienten zufällig aus ihrer wahrscheinlichen Ver-
teilung ausgesucht. Es muss also eine Zufallsauswahl stattfinden. Dazu existieren in der
Statistiksoftware geeignete Verfahren, die auf der Grundlage eines vorgegebenen Aus-
gangswertes eine solche Zufallsauswahl gewährleisten. Dies impliziert aber, dass jede
multiple Imputation etwas andere Ergebnisse ermittelt. In der Wissenschaft ist die Repro-
duzierbarkeit der Ergebnisse fundamental. Damit dies bei der Zufallsauswahl möglich ist,
10
Die konkrete Durchführung ist nur einfach, wenn lediglich bei einer einzigen Variable fehlende
Werte vorliegen. Dies war oben unterstellt worden. In der Regel gibt es aber Missing Values bei
mehreren oder sogar vielen Variablen und ggf. recht vielen Beobachtungen. Wenn bei verschiedenen
Variablen Daten fehlen, und dies mit komplexen Strukturen über die Beobachtungen hinweg, stellt
sich die Frage, wie man bei der Imputation vorgehen soll. Eine Antwort ist, dass die fehlenden Daten
bei allen Variablen simultan geschätzt werden sollten. Darüber hinaus ist die Struktur des Modells
ggf. komplizierter als eine einfache lineare Regression (bspw. hierarchische geschachtelte Modelle
(Mehrebenenanalysen) und autokorrelierte Zeitreihen- oder Paneldaten). Schließlich muss die Zu-
fallskomponente in die Schätzung integriert werden. Bisher gibt es dazu keine Regressionsverfah-
ren, die sämtliche Informationen benutzen. Zur Lösung dieser Probleme existieren nur verschiedene
iterative Algorithmen, vor allem die MCMC – Markov-Chain-Monte-Carlo-Technik – und die
FCS – Fully Condition Specification –, auch als MICE – Multiple Imputation Chained Equations –
bezeichnet. Deren Berechnungen müssen mittels iterativer Verfahren gelöst werden, was ggf. mit
weiteren mathematischen Problemen verbunden ist. Unter Umständen führen die Iterationen nicht
zu einer eindeutigen Lösung (der sogenannten Konvergenz). Ausführliche Darstellungen dazu geben
Allison (2002); Enders (2010); Baltes-Götz (2013); SSCC (2017) und Stata 15 (2017a). Allison
(2012) vermittelt einen kurzen verständlichen Überblick.
sollte der Ausgangswert, der vom User gesetzt wird, dokumentiert werden. Schließlich
setzt auch die multiple Imputation voraus, dass die MAR-Bedingung erfüllt ist.
5.4.3 Maximum-Likelihood-Verfahren
Die Full-Information-Maximum-Likelihood Methode (FIML) führt keine Schätzung

der fehlenden Datenwerte durch. Stattdessen verwendet sie alle Informationen sämtlicher
Datenwerte, die in unserem Datensatz vorhanden sind, um auf dieser Grundlage simultan
die Koeffizientenwerte und Standardfehler der Regressionsgleichung zu schätzen. Das
heißt, die FIML-Methode ermittelt die Parameter (die Koeffizienten und die Varianz-
Kovarianz-Matrix) so, dass die Wahrscheinlichkeit, die Datenwerte zu erhalten, die uns
vorliegen (die in unserer Stichprobe vorhanden sind), maximiert wird. Anhang I erläutert
das Vorgehen der Maximum-Likelihood-Schätzung der FIML-Methode.
Auch das FIML-Verfahren setzt die MAR-Bedingung voraus. Bei bestimmten Berech-
nungsverfahren basiert es außerdem auf der Annahme der multivariaten Normalverteilung.
Wie bei der multiplen Imputation sind die Parameterschätzungen konsistent und asymp
totisch effizient. Im Vergleich zur multiplen Imputation weist es zusätzliche Vorteile auf.
Es führt zu einem eindeutigen Schätzergebnis für die Koeffizienten und Standardfehler,
und es sind bei der Durchführung keine Entscheidungen hinsichtlich der Zahl der Imputa-
tionen zu fällen. Es ist insoweit einfacher und transparenter handhabbar als die Multiple
Imputation. Andererseits sind FIML-Schätzungen aber in SPSS und Stata nur im Rahmen
der Schätzung von Strukturgleichungsmodellen verfügbar. Deren Anwendung ist komple-
xer als die gängigen Regressionsverfahren. Dies wird im Abschn. 5.6 zur Durchführung in
SPSS und Stata deutlich.
5.5 Zusammenfassung
Der beste Ausgangspunkt einer Regression besteht darin, einen kompletten Datensatz zu
besitzen. Fehlende Werte sind bei einer eigenen empirischen Untersuchung durch das Fra-
gebogendesign, Anreize für die Befragten, alle Items zu beantworten und ggf. Nachfassak-
tionen und Nacherhebungen möglichst gering zu halten. Hier existiert allerdings ein Trade-
off zwischen der Vollständigkeit der Daten einerseits und der Qualität der erhobenen
Informationen andererseits. Wie bereits erwähnt, werden bspw. Fragen zur genauen Höhe
des eigenen Einkommens in Deutschland ungern beantwortet. Um möglichst komplette
Antworten zu erhalten, verzichtet man auf die Angabe der genauen Höhe und bildet Klas-
sen, die lediglich angekreuzt werden müssen (bspw. <1000, 1000–2000, …, 5000–6000,
>6000 Euro pro Monat). Die Daten sind damit aber sehr „schwammig“, insbesondere in der
höchsten Einkommensklasse. Auch Nachfassaktionen führen unter Umständen zwar zu
mehr Antworten, die aber vor allem gegeben wurden, um die lästige Umfrage loszuwer-
den – mit entsprechend falschen oder dubiosen Antworten. Solche kompletten Datensätze
mit vielen falschen Werten führen ihrerseits zu inhaltlich sinnfreien Ergebnissen.
5.5 Zusammenfassung 311
Wenn fehlende Daten existieren, stellt sich die Frage des geeigneten Umgangs mit
diesem Problem. Erste Regel bei Missing Values ist es, diese nicht unter den Tisch zu
kehren. Bei eigenen Umfragen oder Kompilationen von Daten aus verschiedenen Quellen
also nicht so zu tun, als wäre der vorhandene Datensatz identisch mit dem Rücklauf oder
gar dem Sample. Ausfälle von Daten sind offenzulegen und mögliche Ursachen unter in-
haltlichen Aspekten zu bewerten.
Zweitens sollten Beobachtungen mit zu wenig Datenwerten ausgeschlossen werden. In
Abb. 5.1 oben fehlen bei der Region 7 zwei von insgesamt 4 Datenwerten – nämlich für
Kontakte und Absatzmenge. Dies ist grenzwertig. Würde auch noch für die Variable Preis
in der Region 7 kein Wert vorhanden sein, sollte diese Region aus der Stichprobe elimi-
niert werden (Datenbereinigung).
Drittens genügen von den vorgestellten Verfahren nur drei den heute üblichen methodi-
schen Ansprüchen: die Listwise Deletion, die multiple Imputation und die FIML-Methode.
Alle anderen Verfahren weisen fundamentale Mängel auf und kommen nicht in Frage.
Tab. 5.2 stellt diese drei Methoden im Überblick dar. Viertens sind Multiple Imputationen
bei Variablen nur sinnvoll, wenn die Zahl der fehlenden Werte bei diesen maximal 40–50 %
ausmacht (siehe SSCC 2017, S. 3). Allerdings sind nach Allison (2002, S. 50) auch mit
40 % fehlender Daten bei einer Variablen noch verlässliche Resultate erzielbar.
Zusammenfassend ist offenzulegen, wie man bei der Analyse eines Datenfiles mit feh-
lenden Werten umgegangen ist – also welches Verfahren man gewählt hat. In diesem Zu-
sammenhang sind außerdem folgende Aspekte zu erläutern:
• Art der Überprüfung der MCAR-Bedingung und deren Ergebnis

• Entscheidung und Begründung für ein bestimmtes Imputationsverfahren
• Erläuterung des gewählten konkreten Vorgehens bei multipler Imputation und FIML
Tab. 5.2 Die relevanten Verfahren im Vergleich

Verfahren Voraussetzung Eigenschaften Bemerkungen
Fallweiser MCAR (u. U. bei linearer/ Konsistente Informationsverlust;
Ausschluss logistischer Regression nur Koeffizienten; Default-Einstellung bei
MAR oder sogar MNR) Korrekte SPSS und Stata
Standardfehler
Multiple MAR Konsistente Kein Informationsverlust;
Imputation Koeffizienten; in SPSS und Stata
Korrekte vorhanden;
Standardfehler Ergebnisse variieren;
bestimmte statistische
Verfahren nicht möglich
FIML MAR (u. U. Multivariate Konsistente Kein Informationsverlust;
Normalverteilung) Koeffizienten; Stata: SEM
Korrekte SPSS: AMOS;
Standardfehler ein einziges Ergebnis für
die Koeffizienten und die
Standardfehler
In der praktischen Anwendung sollte die Robustheit der Ergebnisse abgeschätzt – also
eine Sensitivitätsanalyse durchgeführt werden – da Verletzungen der MCAR bzw. der
MAR-Bedingungen ggf. erheblich verzerrte Schätzresultate zur Folge haben (Lehmann
2005, S. 133–160). Empfehlenswert ist es, die Ergebnisse unterschiedlicher Verfahren zu
vergleichen (Williams 2018; van Buuren 2018, S. 253). Dabei ist die Listwise Deletion ein
naheliegender Ausgangspunkt. Deren Ergebnisse werden dann den Resultaten der Multip-
len Imputation und des FIML-Verfahrens gegenübergestellt. Sind die Koeffizientenschät-
zungen sehr ähnlich und Abweichungen nur im Hinblick auf die höhere Signifikanz be-
stimmter exogener Variablen feststellbar, spricht dies für die Robustheit der Schätzungen.
Die Schlussfolgerungen auf der Basis der FIML-Methode werden dabei als besonders
vertrauenswürdig und auch der Multiplen Imputation überlegen angesehen (Urban und
Mayerl 2018, S. 439 Fußnote 115; Allison 2012, S. 5–7; Enders 2010, S. 87).
Es bleibt die Frage, wie das Problem MNR zu behandeln ist. Vor allem in der Ökono-
metrie wird häufig ein weiteres Verfahren eingesetzt, um dem Problem der Unit-Non-
Response zu begegnen. Systematisch fehlende Daten (Item-Non-Response) können als
eine Form von fehlenden Beobachtungen (Unit-Non-Response) aufgefasst werden. Die im
ersten Kapitel bereits beschriebene Selbstselektion (Self-Selection) führt zu fehlenden Be-
obachtungen, die sich systematisch von den vorhandenen Beobachtungen unterscheiden.
In solchen Situationen dienen bspw. Sample-Selection-Methoden dazu, mögliche
MNR-Mechanismen zu modellieren und so ihren Einfluss auf die Schätzergebnisse zu
beseitigen. Dies gilt auch für Missing Data. Allerdings führen diese Ansätze ggf. zu
schlechteren Resultaten als die hier behandelten Verfahren. Erläuterungen dazu finden
sich bei Enders (2010, S. 287–328) und Allison (2002, S. 79–81).
Einig ist sich die Literatur darin, dass bei (vermuteter) MNR unbedingt eine Sensitivi-
tätsanalyse durchgeführt werden soll. Diese besteht darin, die Schätzergebnisse unter-
schiedlicher Methoden miteinander zu vergleichen.
Die Standardlehrbücher von Allison (2002, 2010), Enders (2010) und Graham (2012)
sowie Little und Rubin (2014) behandeln die genannten und eine Reihe weiterer Verfahren
und Aspekte in umfassender Weise. Williams (2015) vermittelt einen kurzen und leicht
verständlichen Überblick. Einen Abriss auf Deutsch enthält Spiess (2008). Zu den Verfah-
ren der multiplen Imputation geben Carpenter und Kenward (2013), Laaksonen (2018) und
van Buuren (2018) vertiefende Einblicke. Speziell auf Probleme von Missing Values aus-
gerichtet ist die Website www.iriseekhout.com.
Die Kodierung fehlender Werte (System Missing Values) ist abhängig von der verwende-
ten Software. SPSS und Stata kodieren fehlende Werte als „.“. Sie verwenden also einen
Punkt (Dot, Period), um diese zu kennzeichnen. Eine versehentliche Verwendung solcher
fehlender Werte bei unseren Regressionsschätzungen droht nicht, da damit keinerlei ma-
thematische Operationen durchführbar sind. Anders ist dies bei den oben erwähnten User
Missing Values. In SPSS werden dafür gerne „999“ oder andere Zahlenfolgen, die nur aus
Neunen bestehen, eingesetzt. Hier müssen wir darauf achten, solche Werte nicht unbeab-
sichtigt oder fälschlich als echte Daten einzustufen und bei Berechnungen von Koeffizien-
ten zu verwenden. Insbesondere bei der Nutzung von Sekundärdaten muss immer über-
prüft werden, wie die Originalquelle Missing Values behandelt und kodiert hat. Andernfalls
erhalten wir ggf. Nonsense-Resultate.
Der im Folgenden verwendete reale Datensatz „Hochschulabschlussnoten_BW“ ent-
hält Informationen zu 634 Absolventen des Bachelor-Studiengangs Business Administra-
tion der EAH Jena aus dem Zeitraum 2010 bis 2017. Die Abschlussnote des Studiums
wird durch sechs exogene Variablen erklärt: weiblich (das Geschlecht), die Note der Hoch-
schulzugangsberechtigung hzb_note, die Art der Hochschulzugangsberechtigung hzb_
gymnasium als Dummyvariable (Gymnasium = 1 oder andere Form = 0), das Alter bei der
Immatrikulation (alter_immatrik), das Datum des Abschlusses des Studiums abschlussda-
tum (der Studierende mit dem ältesten Abschluss aus dem Jahr 2010 besitzt den normier-
ten Wert 1) und das Vorliegen einer Berufsausbildung vor Aufnahme des Studiums
(Dummyvariable ausbildung mit der Kodierung Berufsausbildung Ja = 1; Nein = 0).
Abb. 5.26 weiter unten enthält eine deskriptive Beschreibung dieses Datensatzes.
Für SPSS und Stata gilt, dass die folgenden Erläuterungen nur einen groben ersten
Überblick der Vorgehensweise und der vorhandenen Möglichkeiten vermitteln. Zum Bei-
spiel werden die Voraussetzungen der Tests auf MCAR sowie der Multiplen Imputation
nicht weiter behandelt. Für diese Aspekte ist tiefer in die unten angeführte Literatur einzu-
steigen.11
SPSS
Ausgangspunkt ist erstens eine Analyse, wie stark der Datensatz schrumpft, wenn wir alle
Fälle mit fehlenden Werten aus der Regression ausschließen. Das heißt, wir ermitteln die
sogenannte Missingquote. Zweitens sind die Strukturen der fehlenden Werte relevant. Wie
viele Variablen besitzen komplette Daten und wie viele weisen fehlende Daten auf? Wel-
che Beobachtungen zeichnen sich durch fehlende Werte bei mehreren oder sogar vielen
Variablen aus?
Die Prozedur „Multiple Imputation“ erlaubt es, die Struktur der Missing Values zu
analysieren. Wir verwenden „Analysieren > Multiple Imputation > Muster analysieren“.
Dort lassen wir alle Variablen des Datensatzes „Hochschulabschlussnoten_BW“ untersu-
chen. Bei „Minimaler Prozentsatz fehlend“ ändern wir die Default-Einstellung von „10“
auf „0,0“ (siehe Abb. 5.3). Auf diese Weise werden alle fehlenden Daten erfasst.
Nach Klicken auf den Button „OK“ erhalten wir das in der Abb. 5.4 zu sehende Resul-
tat. Der obere Teil illustriert in drei Kreisdiagrammen grundlegende Ergebnisse. Von den
insgesamt 7 Variablen besitzen 6 Variablen komplette Daten. Von den insgesamt 634 Be-
obachtungen (Fällen) sind 260 von Datenausfällen betroffen – also 41 % aller Beobach-
Die Erläuterungen basieren auf der Version SPSS 25 und der Version Stata 15.
11
Abb. 5.3 Analyse fehlender Werte I
tungen. Von den insgesamt 4438 Datenwerten (634 Fälle × 7 Variablen) fehlen uns 260
(5,9 %).
In der Tabelle im unteren Teil der Abb. 5.4 erkennen wir, dass bis auf die Variable aus-
bildung für alle Variablen komplette Datenwerte bei den insgesamt 634 Beobachtungen
vorhanden sind. Das Ergebnis dieser Prozedur enthält noch weitere Darstellungen der
Struktur der fehlenden Werte, die hier nicht erörtert werden. Die Struktur der Missing
Values ist offensichtlich sehr einfach und der Umfang der fehlenden Informationen mit
5,9 % sehr gering (rechtes Kreisdiagramm). Sie bewirken aber ein erhebliches Schrump-
fen der Zahl der kompletten Beobachtungen (d. h. Fälle) um 41 % (mittleres Kreis-
diagramm).
Alternativ kann man die Prozedur „Analyse fehlender Werte“ verwenden, die ver-
schiedene Verfahren eröffnet. Über „Analysieren > Analyse fehlender Werte“ gelangen
wir in das Fenster der Abb. 5.5 und untersuchen dort alle unsere Variablen. Die metrisch
skalierten befördern wir in das Feld „Quantitative Variablen“ und die nominal skalierten
in das Feld „Kategoriale Variablen“. Nach „OK“ erhalten wir die Ergebnisse. Dies nur in
Abb. 5.4 Ergebnis der Analyse fehlender Werte
Tabellenform und daher weniger eingängig als über die Prozedur „Multiple Imputation >
Muster analysieren“ (vgl. Abb. 5.3).
Die Prozedur „Analyse fehlender Werte“ ermöglicht uns aber, die MCAR-Bedingung
zu untersuchen, und dies ist der nächste Schritt unseres Vorgehens. Dazu existieren lokale
und globale Tests. Im Folgenden werden zunächst lokale Tests und dann globale Verfahren
vorgestellt.
Im Fenster „Analyse fehlender Werte“ der Abb. 5.5 drücken wir rechts den Button „De-
skriptive Statistik“ und setzen dann Häkchen wie in Abb. 5.6. Falls wir auch Variablen mit
Missings in weniger als 5 % der Fälle einbeziehen wollen, lässt sich die Voreinstellung „5“
entsprechend verändern. Nach „Weiter“ und „OK“ folgt (unter anderem) der Output von
Abb. 5.7.
Für die vier metrisch skalierten Variablen unseres Datensatzes werden t-Tests auf Mit-
telwertunterschiede zwischen der Gruppe der kompletten Datenwerte und der fehlenden
Datenwerte bei der Variable ausbildung durchgeführt. SPSS bildet dazu im Hintergrund
eine Indikatorvariable mit dem Wert „1“ für fehlende Daten bei dieser Variablen und „0“
bei kompletten Daten. Der Mittelwert des Alters bei der Immatrikulation (alter_immatrik)
Abb. 5.5 Analyse fehlender Werte II
Abb. 5.6 Lokale Tests der MCAR-Bedingung

Abb. 5.7 t-Tests für Mittelwertunterschiede metrischer Variablen
beträgt bei den kompletten Daten für ausbildung 21,19 Jahre und bei den Missing Values
für ausbildung 21,94 Jahre (siehe Abb. 5.7, letzte rechte Spalte). Dieser Unterschied ist
statistisch signifikant, denn der t-Wert des Vergleichs dieser beiden Mittelwerte liegt bei
„−3,6“ und ist deutlich größer als unsere Daumenregel für den t-Wert von |2|. Gleiches gilt
hinsichtlich des Abschlussdatums (abschlussdatum) und der Abschlussnote des Studiums
(abschlussnote). Dagegen liegt für die Variable hzb_note kein signifikanter Unterschied
vor (t-Wert: 0,2).
Die eigenständige Bildung von Indikatorvariablen ist einfach durchführbar. Dazu
müssen wir aber die Kommandosprache (Syntax) von SPSS verwenden. Mittels „Datei >
Neu > Syntax“ kommt man in den Syntaxeditor. Um eine Indikatorvariable der Missing
Values bei der Variable ausbildung zu erhalten, geben wir folgendes Kommando ein:
„COMPUTE missausbildung = MISSING(ausbildung).“. Der Punkt am Ende darf nicht
vergessen werden. Danach ist auf das grüne Dreieck (mit Spitze nach rechts) oben in der
Mitte der Menüoberfläche zu klicken. Anschließend kann der t-Test realisiert werden über:
„Analysieren > Mittelwerte vergleichen > t-Test bei unabhängigen Stichproben“.12 Dort
platzieren wir unsere Variable alter_immatrik im Feld „Testvariable“ und die neue Varia-
ble missausbildung im Feld „Gruppierungsvariable“. Dann müssen noch die Gruppen de-
In älteren Versionen von SPSS findet sich „T-Test“, d. h. das „t“ wird großgeschrieben. In der
12
Darstellung der Resultate steht aber weiterhin bei manchen Prozeduren „T-Test“. Auch die Wieder-
gaben der Ergebnisse sehen in den älteren Versionen etwas anders aus.
Abb. 5.8 Kreuztabellen für Unterschiede nominalskalierter Variablen
finiert werden. Dazu ist der Button „Gruppen def.“ zu drücken. In dem sich dann öffnen-
den Fenster definieren wir Gruppe 1 = 0 und Gruppe 2 = 1. Mit dem Button „Weiter“ und
dann „OK“ wird der t-Test durchgeführt.
Als weiteres Ergebnis der Prozedur „Analysieren fehlender Werte“ entsprechend
Abb. 5.6 zeigt sich Folgendes: Bei der nominal skalierten Variablen weiblich haben die
Frauen mit 43,9 % einen deutlich höheren Anteil fehlender Daten bei der Variable ausbil-
dung als Männer (37,1 %). Die Studierenden mit gymnasialer Hochschulzugangsberech-
tigung weisen dagegen weniger Missing Values aus (38,3 %) als andere Zulassungsformen
(44,8 %) (siehe Abb. 5.8).
Einen Chi2-Test, ob diese Unterschiede statistisch signifikant sind, bietet SPSS leider
innerhalb dieser Prozedur nicht an. Dies ist aber nach Generierung der Variable missaus-
bildung wie folgt möglich: „Analysieren > Deskriptive Statistiken > Kreuztabellen“. Dann
nehmen wir die Variable missausbildung in das Feld „Zeile(n)“ und bspw. die Variable
weiblich in das Feld „Spalten“ auf. Jetzt drücken wir den Button „Statistiken“ und setzen
dort ein Häkchen bei „Chi-Quadrat“. Mit „Weiter“ und „OK“ wird der Chi2-Test (nach
Pearson) durchgeführt. Er kommt zu dem Ergebnis, dass auf dem 5 % Niveau kein Unter-
schied existiert. Gleiches ergibt sich für die Dummyvariable hzb_gymnasium.
Die Schlussfolgerung basierend auf den Tests der einzelnen Variablen ist, dass die
MCAR-Bedingung nicht vorliegt, da sich die fehlenden und die kompletten Beobachtun-
gen in den Mittelwerten für drei Variable (abschlussnote, abschlussdatum und alter_im-
matrik) signifikant unterscheiden. Für die anderen Variablen sind keine signifikanten Un-
terschiede feststellbar.
Allerdings sind diese Untersuchungen für alle einzelnen Variablen zeitaufwendig.
Schneller realisierbar und eleganter sind globale Testverfahren. Als globalen MCAR-Test
setzen wir zuerst Little’s Test ein. Dieser ist unter der Prozedur „Analysieren > Analyse
fehlender Werte“ versteckt. Dort gehen wir wie für Abb. 5.5 bereits beschrieben vor und
setzen dann ein Häkchen bei „EM“. Nach „OK“ folgt das Resultat aus Abb. 5.9.
Die EM-Schätzung ist für uns irrelevant, aber unter den Tabellen findet sich der MCAR-
Test von Little. Er wird von SPSS überflüssigerweise unter jeder Tabelle erneut aufge-
Abb. 5.9 Little’s Test

Abb. 5.10 Logistische Regression
führt. Little’s Test basiert nur auf den 4 metrisch skalierten Variablen. Der Test bestätigt
noch einmal unsere obige Schlussfolgerung, denn auf dem 5-%-Niveau ist die Nullhypo-
these, dass die MCAR-Bedingung vorliegt, abzulehnen.
Als zweiten globalen Test überprüfen wir die MCAR-Bedingung mittels einer logisti-
schen Regression unter „Analysieren > Regression > Binär logistisch“. Da nur bei der
Variable ausbildung Missing Values auftreten, können wir uns auf eine einzige logistische
Regression beschränken. Die Dummyvariable missausbildung, die wir weiter oben gene-
riert haben, ist unsere abhängige Variable, und die anderen Variablen (natürlich mit Aus-
nahme der Variable ausbildung) benutzen wir als exogene Einflussfaktoren. Abb. 5.10
enthält die uns interessierenden Teile des Outputs.
Der Wald-Test in Spalte 4 ist das Äquivalent zum t-Test der linearen Regression. Spalte
6 mit der Überschrift „Sig.“ zeigt die für uns relevanten Signifikanzniveaus. Danach sind
die Variablen abschlussdatum, alter_immatrik und abschlussnote auf dem 5-%-Niveau
signifikante Einflussfaktoren der Wahrscheinlichkeit eines fehlenden Wertes bei der Vari-
able ausbildung. Es bestätigen sich auf eine einfache und verständliche Weise die Ergeb-
nisse der lokalen Tests und des Tests von Little: Die MCAR Annahme muss verwor-
fen werden.
Als Fazit halten wir fest, dass erstens die MCAR nicht vorliegt, zweitens uns sehr viele
Beobachtungen bei einer Listwise Deletion verloren gehen und damit drittens auch viele
Informationen für die Schätzung nicht berücksichtigt werden, die ja prinzipiell vorhanden
sind. Wir wissen jetzt einiges mehr über die Missing Values und vergleichen im Folgenden
verschiedene Möglichkeiten, damit umzugehen.
Die Listwise Deletion ist – wie bereits erwähnt – in SPSS voreingestellt. Wir spezifi-
zieren eine lineare Regression mit der Abschlussnote des Studiums als abhängige
Variable.13 Die 6 anderen Variablen unseres Datensatzes sind die unabhängigen Variablen.
Zur Durchführung siehe Stoetzer (2017, Kap. 2).

13
Modellzusammenfassung
Korrigiertes R2- Standardfehler
2
Modell R R -Quadrat Quadrat des Schätzers
1 ,429a ,184 ,170 ,40681
a. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum,
hzb_gymnasium, hzb_note, alter_immatrik
ANOVAa
Mittel der
Modell Quadratsumme Df Quadrate F Sig.
1 Regression 13,674 6 2,279 13,770 ,000b
Residuen
Gesamt 74,411 373
a. Abhängige Variable: abschlussnote
b. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum, hzb_gymnasium, hzb_note, alter_immatrik
Koeffizientena
Standardisierte
Regressions-
koeffizentB
Modell Std.-Fehler Beta T Sig.
1 (Konstante) 1,597 ,239 6,690 ,000
hzb_note ,265 ,042 ,336 6,282 ,000
weiblich -,004 ,044 -,004 -,088 ,930
abschlussdatum -2,755E-5 ,000 -,038 -,758 ,449
hzb_gymnasium -,286 ,047 -,314 -6,047 ,000
alter_immatrik ,009 ,011 ,050 ,852 ,395
ausbildung -,019 ,052 -,020 -,354 ,723
Abb. 5.11 Regression mit Listwise Deletion
Die Schätzung der Abb. 5.11 basiert – wie in der ANOVA-Tabelle deutlich wird – nur auf
den 374 Beobachtungen mit kompletten Datenwerten.
Allerdings sind die Standardfehler aufgrund des verkleinerten Datensatzes nicht effizi-
ent und die Koeffizientenschätzungen eventuell verzerrt, da die MCAR-Bedingung nicht
vorliegt.
Zum Vergleich ziehen wir als ersten Schritt die einfache Mittelwertimputation heran,
obwohl diese Methode schwerwiegende Mängel aufweist. Ihr Einsatz wird hier nur zur
Illustration durchgeführt und nicht empfohlen! Sie ist innerhalb der Prozedur „Lineare
Regression“ aufrufbar. Nach „Analysieren > Regression > Linear“ und der Eingabe
unserer Regressionsgleichung klicken wir auf den Button „Optionen“. Die Voreinstellung
Abb. 5.12 Mittelwertimputation
im Bereich „Fehlende Werte“ ist „Listenweiser Fallausschluss“. Stattdessen aktivieren wir

„Durch Mittelwert ersetzen“ (siehe Abb. 5.12).
Die darauf basierende Regression ist auszugsweise in Abb. 5.13 zu finden. Sie verwen-
det alle 634 Beobachtungen. Hinsichtlich des Gesamtmodells ist das korrigierte R2 bei der
Listwise Deletion mit 0,17 etwas größer (Mittelwertimputation: 0,16), aber der F-Wert ist
gestiegen (Listwise Deletion: 13,77; Mittelwertimputation: 21,12).
Der Vergleich zeigt, dass alle t-Werte (absolut betrachtet) ebenfalls größer sind. Dies ist
insbesondere hinsichtlich der Variable abschlussdatum wichtig. Diese Variable besitzt
beim fallweisen Ausschluss keinen Einfluss (t-Wert: −0,76), ist jetzt aber signifikant auf
dem 5-%-Niveau (t-Wert: −2,35). Die Koeffizientenschätzungen sind für alle signifikan-
ten Variablen bei der Listwise Deletion und der Mittelwertimputation sehr ähnlich.
Es bestätigt sich also, dass die Verwendung von lediglich 374 Beobachtungen im Rah-
men des fallweisen Ausschlusses zu einem Effizienzverlust bzw. größeren Standardfeh-
lern führt. Methoden, die es erlauben, den gesamten Datensatz von 634 Studierenden zu
verwenden, sind vorzuziehen.
Aufgrund der Probleme der Mittelwertimputation bietet es sich an, die Multiple Im-
putation einzusetzen. Vorab müssen wir, um exakt reproduzierbare Resultate zu erhalten,
einen Anfangswert für den Zufallszahlengenerator von SPSS definieren. Dies geschieht
über „Transformieren > Zufallszahlengeneratoren“. In diesem Menü setzen wir jeweils ein
Häkchen bei „Aktiven Generator festlegen“ und „Anfangswert festlegen“. Im Feld „Akti-
ANOVAa
Mittel der
Modell Quadratsumme df Quadrate F Sig.
1 Regression 21,008 6 3,501 21,122 ,000b
Residuen
Gesamt 124,946 633
b. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum, hzb_gymnasium, hzb_note, alter_immatrik
Standardisierte
Regressions-
koeffizientB
Modell Std.-Fehler Beta T Sig.
1 (Konstante) 1,726 ,164 10,546 ,000
hzb_note ,272 ,031 ,351 8,727 ,000
weiblich ,024 ,035 ,027 ,695 ,488
abschlussdatum -4,869E-5 ,000 -,088 -2,351 ,019
hzb_gymnasium -,262 ,036 -,292 -7,351 ,000
alter_immatrik ,004 ,007 ,024 ,573 ,567
ausbildung ,005 ,048 ,004 ,109 ,913
Abb. 5.13 Regression mit Mittelwertimputation
ven Generator festlegen“ wählen wir „Mersenne Twister“.14 Im Feld „Anfangswert festle-
gen“ aktivieren wir „Fester Wert“ und geben eine beliebige Zahl ein, bspw. die Zahl
„12345“ (Abb. 5.14). Immer, wenn diese Zahl anfangs gesetzt wird, resultieren aus unse-
rem Datensatz (bei identischen sonstigen Einstellungen) auch gleiche Ergebnisse bei der
multiplen Imputation.
Über „Analysieren > Multiple Imputation > Fehlende Datenwerte imputieren …“ ge-
langen wir in die Dialogbox der multiplen Imputation. Dort befördern wir alle unsere Va-
riablen – außer der Variablen missausbildung – in das Feld „Variablen im Modell“ (siehe
Abb. 5.15). Die Variable missausbildung hatten wir ja weiter oben nur für Analysezwecke
neu gebildet. Sie spielt für unsere inhaltliche Fragestellung der Einflussfaktoren der Ab-
schlussnote eines Absolventen keine Rolle. Die Zahl der Imputationen erhöhen wir von
den voreingestellten 5 auf 50 Imputationen. So sind wir von der Untergrenze 20 weit ent-
fernt und halten uns an die Empfehlung, dass die Zahl der Imputationen mindestens so
groß sein sollte wie der prozentuale Anteil der nicht kompletten Beobachtungen
(hier 41 %).
14
Der Mersenne Twister ist ein Verfahren um (Pseudo-)Zufallszahlen zu erzeugen.
Abb. 5.14 Festlegung der Zufallszahlen
Abb. 5.15 Multiple Imputation

Im Abschnitt „Ort der imputierten Daten“ wird in diesem Beispiel eine neue Datei ge-
neriert, indem wir „Neues Dataset erstellen“ aktivieren. Er erhält einen aussagefähigen
Namen (nämlich „Hochschulabschlussnoten_BW_imputiert“). Die Reiter „Methode“,
„Nebenbedingungen“ und „Ausgabe“ sind im vorliegenden Beispiel vernachlässigbar.
Wir übernehmen daher die Default-Einstellungen und klicken auf den Button „OK“. SPSS
analysiert dann selbstständig, bei welchen Variablen Werte fehlen und wie diese imputiert
werden müssen. Das Resultat ist in Abb. 5.16 (auszugsweise) wiedergegeben.
Hier müssen nur fehlende Daten der Variable ausbildung ersetzt werden. Da es sich um
eine nominal skaliert Variable handelt, erfolgt dies mittels einer logistischen Regression.
Dies hat SPSS automatisch erkannt und durchgeführt. Da 50 Imputationen durchgeführt
werden, resultieren 13.000 imputierte Werte (50 × 260). Der Originaldatensatz und alle 50
imputierten Beobachtungen befinden sich im neuen Datensatz „Hochschulabschlussno-
ten_BW_imputiert“. Dort hat SPSS in die erste Spalte eine neue Variable Imputation_
eingefügt. Diese besitzt den Wert 0 für den unveränderten Originaldatensatz, den Wert 1
Abb. 5.16 Ergebnisse der multiplen Imputation

Abb. 5.17 Regression auf Basis der multiplen Imputationsdaten
für die erste Imputation, den Wert 2 für die zweite Imputation usw. bis 50. Alle 51 Daten-
sätze stehen untereinander (sind also im Long Format abgespeichert) und der gesamte
Datensatz umfasst jetzt 32.334 Beobachtungen (51 × 634).
Unter dem Reiter „Nebenbedingungen“ (siehe Abb. 5.15) lassen sich die Werte der
Imputationen eingrenzen. Gäbe es bspw. bei der Variable abschlussnote Missing Values,
wäre es sinnvoll, im Untermenü „Nebenbedingungen“ den Wertebereich 1,0 bis 4,0 vorzu-
geben, da die Abschlussnote eines Absolventen nur in diesem Bereich liegen kann. Unter
dem Reiter „Methode“ ist es möglich, bei komplexeren Strukturen der fehlenden Werte die
Imputationsmethode genauer zu steuern. Interaktionseffekte können innerhalb dieser Pro-
zedur im Modell nur zwischen kategorialen Variablen aufgenommen werden.
Im nächsten Schritt werden diese Imputationen für die Analyse verwendet. Im neuen
Datensatz „Hochschulabschlussnoten_BW_imputiert“ führen wir wie üblich eine lineare
Regression durch: „Analysieren > Regression > Linear“. Das Symbol für die lineare Re-
gression sieht jetzt ein wenig anders aus ( ). Der Wirbel rechts unten ist neu. Er kenn-
zeichnet alle statistischen Verfahren (Prozeduren), die mit dem imputierten neuen Daten-
satz durchführbar sind. Das Ergebnis ist ein ellenlanger Output, der alle 50 Regressionen
(für jeden der 50 imputierten Datensätze separat) auflistet. Abb. 5.17 zeigt nur die ganz am
Schluss stehenden Resultate für die gepoolte Regression. Vereinfacht ausgedrückt, han-
delt es sich um die gemittelten Resultate aller 50 Regressionen.
Der untere Teil von Abb. 5.17 enthält Informationen zur Qualität des Pooling unserer
6 exogenen Variablen und der Konstanten.
Die linke Spalte „Anteil fehlender Info.“ – „Info.“ steht für „Informationen“ – wird
auch als AFI abgekürzt oder englisch als „Fraction of Missing Information“ FMI
bezeichnet. Er beschreibt den Einfluss von Missing Values auf die Varianz der
Parameterschätzungen. Der Wert von 0,005 besagt, dass von der gesamten Varianz des
Regressionskoeffizienten der hzb_note 0,05 % auf die Imputation fehlender Werte zu-
rückzuführen ist. Es ist besser, wenn der AFI klein ist. Er sollte unter 0,25 liegen. Der
AFI des Koeffizienten der ausbildung beträgt 0,364 und überschreitet diesen Grenzwert.
Die nächste Spalte lautet „Relative Zunahmevarianz“ RZV (auch „Relativer Anstieg
der Varianz“ und englisch „Relative Increase of Variance“ RIV). Der Wert 0,021 des Koef-
fizienten der Hochschulzugangsberechtigung besagt, dass dessen Varianz aufgrund von
fehlenden Werten um 2,1 % höher ist als bei einer Schätzung auf Basis eines kompletten
Datensatzes. Üben die fehlenden Werte keinen Einfluss auf die Varianz (als Maßstab für
die Unsicherheit einer Schätzung) aus, wäre die RZV gleich 0,0.
In der dritten Spalte ist die „Relative Effizienz“ (RE) aufgeführt. Sie informiert darü-
ber, wie effektiv die auf M Imputationen beruhende Schätzung im Vergleich mit einer
optimalen, das heißt auf unendlich vielen Imputationen beruhenden Schätzung ist. Anders
formuliert, gibt sie Auskunft über die Differenz zwischen der Parametervarianz bei der
gewählten Anzahl von Imputationen (hier 50) und der Schätzung, wenn unendlich viele
Imputationen durchgeführt würden. Diese Differenz ist klein, wenn die RE nahe bei 1,0
liegt. Im Idealfall beträgt RE 1,0 (keine Differenz). Der kritische Grenzwert, der nicht
unterschritten werden sollte, liegt bei 0,90. Für die Berufsausbildung beträgt die RE 0,993
und ist daher groß genug (Urban und Mayerl 2018, S. 474–476).
Das FIML-Verfahren ist nicht direkt in SPSS implementiert, steht aber innerhalb des
Moduls AMOS (d. h. im Rahmen der Schätzung von Strukturgleichungsmodellen) zur
Verfügung.15 Es handelt sich um eine Maximum-Likelihood-Schätzung. Das Verfahren
wird im Anhang I erläutert. Solche Strukturgleichungsmodelle werden oft in Form von
Pfaddiagrammen grafisch entwickelt und dargestellt. AMOS wird hier extrem knapp (in
Form einer „Blindfluganleitung“) für den einfachen Fall behandelt, dass lediglich bei einer
Variable Missings existieren. Für komplexere Strukturen ist unbedingt die am Ende ge-
nannte Literatur heranzuziehen.
Das Modul rufen wir auf über: „Analysieren > IBM SPSS AMOS“. Damit dies funkti-
oniert, muss sich unser Datensatz bereits in SPSS als aktiver Datenfile befinden. Andern-
falls werden wir zunächst aufgefordert, ihn in SPSS einzulesen. In der dann auftauchenden
grafischen Menüoberfläche von AMOS klicken wir auf „File“ und dann „Data Files …“.
Hier lesen wir mittels „File name“ und „Öffnen“ den Datensatz „Hochschulabschlussnoten_
BW.sav“ ein, wie in Abb. 5.18 gezeigt. Dieser wird angeklickt und dadurch in blau hinter-
legter Schrift abgebildet. Danach wird er mit „OK“ aktiviert.
Alle Kommandos können über die Menüleiste ganz oben oder alternativ über die Tool-
bar (Werkzeugleiste) – links in der Abb. 5.18 – eingegeben werden. Als nächsten Schritt
15
Das Modul AMOS gehört in der Regel zum Softwarepaket IBM SPSS dazu, das an den Hochschu-
len eingesetzt wird.
Abb. 5.18 AMOS Datenfile einlesen
klicken wir in der linken Toolbar auf das Icon „List variables in data set“ (in Abb. 5.19
der bläulich unterlegte Icon), wodurch unsere Variablen in einem neuen Menüfeld erschei-
nen. Mittels „Drag and Drop“ ziehen wir unsere Variable abschlussnote nach rechts in das
Grafikfeld (d. h. den weißen Teil der Grafikoberfläche) und platzieren unsere exogenen
Variablen links davon, wie in Abb. 5.19 zu sehen.
Jetzt spezifizieren wir die Abhängigkeiten in unserer linearen Regression, indem wir
den Pfeil, der nach links zeigt und sich links oben in der Toolbar befindet, aktivieren. Dann
bewegen wir den Cursor auf die erste exogene Variable (diese wird dann rot umrandet
angezeigt) und ziehen anschließend mit der linken Maustaste einen Pfeil zur Variable ab-
schlussnote. Wenn die Zielvariable abschlussnote grün umrandet erscheint, ist uns das
gelungen und der Pfeil eingefügt. Dies wiederholen wir für alle unsere 6 exogenen Varia-
blen und erhalten dann die Abb. 5.20.
Was noch fehlt, ist der Fehlerterm (error).16 Dieser ist nicht direkt beobachtbar, sondern
muss geschätzt werden. In AMOS gilt er als „unobserved variable“, und die werden als
Ellipsen oder Kreise (und nicht wie die beobachteten Variablen als Rechtecke) in das Pfad-
diagramm eingezeichnet. Wir aktivieren in der Toolbar links die Ellipse (bläulich heraus-
gehoben) und können dann im Grafikfeld mit dem Cursor ganz rechts eine Ellipse (bzw.
einen Kreis) einfügen (siehe Abb. 5.21). Dann gehen wir auf diese Ellipse und klicken die
16
Diesen kürzen wir hier mit e ab. Er ist bei der Spezifikation einer linearen Regression der ganz
rechte Term.
Abb. 5.19 Variablen im Datensatz anzeigen und einfügen
Abb. 5.20 Modellbildung
rechte Maustaste, wodurch die Ellipse in Rot erscheint. Es taucht gleichzeitig ein Feld auf,
in dem wir „Object Properties …“ anklicken. Das Ergebnis zeigt Abb. 5.21. Dort fügen
wir „error“ in das Feld „Variable name“ ein. Was wir dort als Name eingeben, erscheint
simultan in der Ellipse. Dann schließen wir das Menü „Object Properties“.
Abb. 5.21 Einfügen des Fehlerterms I
Im nächsten Schritt ziehen wir einen Pfeil von der unbeobachteten Variable error zu
unserer abhängigen Variable abschlussnote. Anschließend gehen wir mit dem Cursor auf
diesen Pfeil und drücken die rechte Maustaste (wodurch der Pfeil rot wird): Jetzt klicken
wir auf „Object Properties …“. Im aufgeklappten Feld aktivieren wir den Reiter „Parame-
ters“ und tragen dann im Feld „Regression weights“ den Wert „1“ ein (siehe Abb. 5.22).
Dieser Wert ist jetzt über diesem Pfeil zu sehen, und wir schließen das Feld „Object Pro-
perties“.
Jetzt muss über „View > Analysis Properties“ ein neues Menüfeld geöffnet werden.
Dort behalten wir die Default-Einstellung „Maximum likelihood“ bei, setzen aber außer-
dem ein Häkchen bei „Estimate means and intercepts“ (Abb. 5.23). Anschließend wird das
Feld „Analysis Properties“ geschlossen.
Dann müssen wir alle Kovarianzen zwischen unseren 6 exogenen Variablen einfügen.
Dies erfolgt durch den Pfeil mit den zwei Spitzen links oben in der Toolbar. Praktisch heißt
das, von jeder der 6 exogenen Variablen muss ein solcher Doppelpfeil zu jeder der anderen
5 exogenen Variablen existieren. Die Doppelpfeile fügen wir genauso ein wie bereits oben
Abb. 5.22 Einfügen des Fehlerterms II
bei den einfachen Pfeilen erläutert. Durch „rot“ bei der Ausgangsvariablen und „grün“ bei
der Zielvariablen erkennen wir, dass das Einfügen des Doppelpfeils funktioniert hat. Das
Resultat sieht aus wie Abb. 5.24. Dabei ist es egal, ob die Pfeile links oder rechts ge-
krümmt sind und an welcher Stelle sie mit dem Kästchen einer anderen exogenen Variable
verbunden sind. Ggf. lässt sich mittels „Edit > Shape of object“ die Ausrichtung der Dop-
pelpfeile verändern (d. h. verschönern). Wir gehen dazu mit der Maus auf einen Pfeil bis
er rot erscheint und können dann seine Lage verschieben.17
Schließlich realisieren wir über „Analyze > Calculate estimates“ die FIML-Schätzung.18
Das Ergebnis können wir uns nach „View > Text output“ betrachten. In dem dadurch
aufgerufenen Fenster aktivieren wir „Estimates“ (siehe Abb. 5.25). Diese Darstellungs-
17
Weitere nützliche Werkzeuge sind das Icon „Move objects“ zur Verschiebung von Elementen
des Pfaddiagramms und „Erase objects“ , mit dem wir Fehler ausradieren können.
18
Die prinzipielle Logik des Maximum-Likelihood-Schätzverfahrens erläutert Anhang I verbal und
grafisch, d. h. ohne großen mathematischen Aufwand.
Abb. 5.23 Einfügen des Absolutglieds
Abb. 5.24 Das komplette Pfaddiagramm

weise ähnelt der uns bekannten Wiedergabe von Regressionsschätzungen. Rechts sehen
wir unter der Überschrift „Regression Weights: (Group number 1 – Default model)“ die
Schätzung unseres Regressionsmodells auf der Basis aller Informationen, die in den 634
Beobachtungen vorhanden sind. Die Koeffizientenschätzungen werden von AMOS als
„Estimates“ bezeichnet und befinden sich in der zweiten Spalte. In der Spalte „S.E.“ (für
Standard Errors) sehen wir die dazugehörigen Standardfehler. Die nächste Spalte heißt
„C.R.“ (als Abkürzung für Critical Ratio). Die Werte entsprechen der uns bekannten t-
Statistik.19 Das C.R. erhält man, indem der Koeffizient durch seinen Standardfehler divi-
diert wird. Die Spalte „P“ (für Probability) führt die empirischen Signifikanzniveaus (d. h.
die Irrtumswahrscheinlichkeiten) auf. Die in der Spalte ausgewiesene „P“ der Variable
hzb_note lautet „***“. AMOS kennzeichnet so Irrtumswahrscheinlichkeiten, die kleiner als
0,001 betragen, also als höchst signifikant bezeichnet werden. Der Koeffizient der Varia
blen abschlussdatum wird als 0,000 ausgegeben. Diese Darstellung ist etwas irreführend.
Wir sehen an dem negativen C.R.-Wert, dass der Einfluss dieser Variablen negativ ist. In
unserem Beispiel ist er außerdem kleiner als 0,000, und da AMOS nur drei Stellen hinter
dem Komma abbildet, wird der tatsächlich vorhandene Koeffizientenwert (und auch sein
Standardfehler) zwar berechnet, aber nicht dargestellt.
Die Resultate ähneln bis auf marginale Unterschiede denen der multiplen Imputation
(Abb. 5.17). Beide Verfahren bestätigen noch einmal die oben getroffenen Schlussfolgerun-
gen. Neben der Note der Hochschulzugangsberechtigung (hzb_note), und der Art der Zu-
gangsberechtigung (hzb_gymnasium) besitzt das Datum des Hochschulabschlusses (ab-
schlussdatum) einen signifikanten Einfluss auf die Abschlussnote des Studiums eines
Absolventen (alle auf dem 5-%-Niveau). In unserem Beispiel sind die Ergebnisse der List-
wise Deletion einerseits und der multiplen Imputation und der FIML-Methode andererseits
mit einer Ausnahme deckungsgleich. Die Listwise Deletion führt zu der falschen Schluss-
folgerung, dass ein Einfluss des Abschlussdatums nicht vorliegt. Exakter formuliert: die
Nullhypothese kann für diese Variable aufgrund des stark geschrumpften Datensatzes nicht
abgelehnt werden. Darüber hinaus führen in diesem Beispiel sogar die Koeffizientenschät-
zungen der (ggf. falschen) Mittelwertimputation zu denselben Resultaten.20
Urban und Mayerl (2018, S. 437–484) stellen die wichtigsten Aspekte der Behandlung
fehlender Werte mittels SPSS dar. Baltes-Götz (2013) gibt einen ausführlicheren Über-
blick. Das Handbuch IBM SPSS 25 (2017) ist eine recht kurze Darstellung der relevanten
Funktionen. Das entsprechende Handbuch der älteren Version IBM SPSS 20 (2011) ent-
hält darüber hinaus eine Reihe von Anwendungsbeispielen und ist insofern nützlich.
Ein YouTube-Video erklärt die Vorgehensweise: www.spss-tutorials.com/spss-missing-
values/. Für das Modul AMOS beschreibt Baltes-Götz kurz die Durchführung des
19
So Rudolf und Müller (2004, S. 300) und Weiber und Mühlhaus (2014, S. 229). Dies gilt aber nur
asymptotisch – also in großen Stichproben (genauer dazu Arbuckle 2016, S. 31).
20
Eine Einschätzung des Gesamtmodells (entsprechend dem F-Test und R2 in der linearen OLS-Re-
gression) ist nicht möglich, da AMOS für unser ML-Modell mit Mittelwerten und Konstante diese
Informationen nicht berechnet (AMOS Development 2019).
FIML-Verfahrens anhand eines Beispiels (2013, S. 47–52). Ausführlicher, verständlich

und auf aktuellem Stand ist die Darstellung von Arbuckle (2016, S. 7–21, 69–82 und
281–307).
Stata
Die folgenden Erläuterungen beziehen sich auf Stata 15, bei älteren Versionen ergeben
sich zum Teil leicht andere Befehlspfade. Wir verwenden den Datensatz „Hochschulab-
schlussnoten_BW.dta“. Dieser wird oben in der Einleitung zum Abschn. 5.6 erläutert. Mit-
tels des Befehls „Statistics > Summaries, tables, and tests > Summary and descriptive
statistics > Summary statistics“ und dann Klick auf den Button „OK“ erhalten wir die
üblichen Informationen zu den Variablen dieses Datensatzes (Abb. 5.26).
Die Zahl der Beobachtungen der Variablen beträgt 634. Für die Variable ausbildung
existieren allerdings nur 374 Datenwerte.
Alternativ lassen sich – wie Abb. 5.27 verdeutlicht – mittels „Statistics > Summaries,
tables, and tests > Other tables > Tabulate missing values“ direkt Informationen zu den
fehlenden Werten anzeigen. Wir aktivieren in diesem Menü die Variante „Report counts“.
Nach Anklicken des Buttons „OK“ folgt das Ergebnis der Abb. 5.28.
In unserem Datensatz ist die Struktur der fehlenden Werte extrem einfach, da nur bei
der Variable ausbildung insgesamt 260 Beobachtungen keine Informationen enthalten
(siehe Spalte „Obs=.“). Liegen komplexere Strukturen vor, ist es sinnvoll, in Abb. 5.27
„Report pattern“ zu aktivieren. Anschließend eröffnen sich verschiedene Möglichkeiten,
Abb. 5.25 Der Output des FIML-Verfahrens

.. summarize
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------
weiblich | 634 .5788644 .4941311 0 1
hzb_gymnas~m | 634 .5772871 .4943806 0 1
alter_imma~k | 634 21.49842 2.564338 18 35
hzb_note | 634 2.287066 .5725058 1 3.7
abschlussn~e | 634 2.228659 .4442829 1.16 3.68
-------------+--------------------------------------------------------
ausbildung | 374 .3983957 .4902236 0 1
abschlussd~m | 634 1491.257 799.2822 1 2860
Abb. 5.26 Der Datensatz Hochschulabschlussnoten_ BW
einen Überblick der Verteilung der Missing Values auf die einzelnen Variablen zu
bekommen.
Als nächstes müssen wir prüfen, ob die fehlenden Werte die MCAR-Eigenschaft besit-
zen. In das Kommandofenster (Feld „Command“ unten auf dem Bildschirm nach Aufruf
von Stata) geben wir dazu ein „generate missausbildung = missing(ausbildung)“. Damit
generieren wir eine neue Dummyvariable missausbildung. Diese besitzt den Wert 1 für
alle Beobachtungen, bei denen die Werte der Variable ausbildung fehlen. Andernfalls
nimmt die Variable missausbildung den Wert 0 an. Da lediglich bei dieser Variable Mis-
sing Values auftreten, müssen wir keine weiteren solcher Indikatorvariablen bilden. Über
„Data > Data Editor > Data Editor (Browse)“ werfen wir einen Blick auf unseren Daten-
satz. Dort hat Stata jetzt ganz rechts die neue Variable missausbildung angefügt.
Mittels Menüsteuerung ist dasselbe Ergebnis auch in Abb. 5.27 durch ein Häkchen bei
„Generate missing-values indicators“ erzielbar. Wir geben dazu unter „Variables“ die
Variablen an, bei denen fehlende Werte vorliegen (hier nur ausbildung) und im Feld
„Variable stub“ eine Abkürzung, die diese neuen Variablen kennzeichnet (hier missing_).
Dies zeigt Abb. 5.29. Stata fügt dann die neue Variable missing_ausbildung unserem
Datensatz hinzu.
Mittels lokaler Tests prüfen wir, ob die Abschlussnote (abschlussnote), die Note der
Hochschulzugangsberechtigung (hzb_note) und das Abschlussdatum (abschlussdatum)
sich zwischen den fehlenden und den vorhandenen Werten der Variable ausbildung signi-
fikant unterscheidet: Wir beginnen erstens mit einem t-Test auf einen Mittelwertunter-
schied bei diesen metrisch skalierten Variablen. Den Test ruft man über „Statistics > Sum-
maries, tables, and tests > Classical tests of hypotheses > t test (mean-comparison test)“
auf. Wir wählen die Testvariante „Two-sample using groups“ – wie in Abb. 5.30 gezeigt.
Die Abschlussnote des Studiums ist die Variable, deren Mittelwertunterschiede uns inte
ressiert und die Gruppierungsvariable (Group variable) ist missausbildung mit den beiden
Gruppen 0 (= komplette Daten) und 1 (= fehlende Daten). Nach Klick auf den Button
Abb. 5.27 Identifizierung von fehlenden Werten I
Abb. 5.28 Identifikation von fehlenden Werten II
„OK“ wird der Test durchgeführt. Falls Varianzunterschiede zwischen den beiden Grup-
pen vorhanden sind (also Heteroskedastie vorliegt), kann dies mittels der Optionen „Une-
qual variances“ und „Welch’s approximation“ berücksichtigt werden.
Anschließend realisieren wir dasselbe für hzb_note, abschlussdatum und alter_imma
trik. Abb. 5.31 beschränkt sich auf die Wiedergabe des Outputs für die Abschlussnote und
die Note der Hochschulzugangsberechtigung.
Zwischen den beiden Gruppen mit fehlenden und kompletten Daten existieren hin-
sichtlich der Abschlussnote signifikante Mittelwertunterschiede (auf dem 5-%-Niveau).
Dies gilt aber nicht für die Note der Hochschulzugangsberechtigung (hzb_note). Nicht
Abb. 5.29 Bildung einer Indikatorvariablen bei fehlenden Werten
Abb. 5.30 t-Test Mittelwertunterschied

Abb. 5.31 Ergebnis Test Mittelwertunterschied
abgebildet sind die Ergebnisse für das Abschlussdatum (es ist signifikant: t-Wert: 18,39)
und das Alter bei der Immatrikulation (ebenfalls signifikant: t-Wert: −3,67).
Zweitens setzen wir einen Chi2-Test ein, der prüft, ob die Dummyvariable des Ge-
schlechts weiblich sich zwischen den fehlenden und vorhandenen Werten von ausbildung
unterscheidet: „Statistics > Summaries, tables, and tests > Frequency tables > Two-way
table with measures of association“ führt zur Abb. 5.32. Dabei verwenden wir
missausbildung als Zeile (Row variable) und weiblich als Spalte (column variable). Außer-
dem setzen wir ein Häkchen im Feld „Test statistics“ bei „Pearson’s chi-squared“.
Nach „OK“ findet sich das Ergebnis in Form einer Kreuztabelle (Kontingenztabelle)
wie in Abb. 5.33.
Abb. 5.32 Unterschiede bei nominalen Variablen
Abb. 5.33 Testergebnis Chi2-Test Stata
Ein Unterschied zwischen Männern und Frauen bezüglich der Bereitschaft bei der
Frage nach der Berufsausbildung zu antworten, existiert auf dem 5-%-Niveau nicht (wäre
aber auf dem 10-%-Niveau gegeben). Für unsere zweite nominalskalierte Variable hzb_
gymnasium lässt sich der Test analog erledigen. Hier ist ebenfalls kein signifikanter Unter-
schied feststellbar.
Zusammenfassend ergeben die lokalen Tests, dass die MCAR-Bedingung nicht vor-
liegt. Allerdings ist dies nicht für alle Variablen zu bestätigen.
Als globaler Test ist Little’s Test verwendbar. Er ist in Stata nicht standardmäßig im-
plementiert, steht aber als Plug-in zur Verfügung und nennt sich „mcartest“. In dem Kom-
mandofeld (Command) geben wir „help mcartest“ ein. Es erscheint dann ein Fenster, aus
dem heraus wir diesen Test downloaden und installieren können. Da dieser Test kein Stata-
eigenes Produkt ist, kann er nicht über die Menüfelder aufgerufen werden. Wir müssen ihn
über das Kommandofeld wie folgt eingeben: „mcartest hzb_note weiblich abschlussdatum
hzb_gymnasium alter_immatrik ausbildung abschlussnote“.21 Es resultiert der Output der
Abb. 5.34.
Auch bei diesem globalen Test lehnen wir die Nullhypothese, dass MCAR vorliegt, auf
dem 5-%-Niveau ab. Der Test wird von Li genauer erläutert. Er erklärt – auch für den an-
wendungsorientierten User nachvollziehbar – seine Handhabung (Li 2013, S. 800–804).
Als weiteren globalen Test realisieren wir eine logistische Regression mit der bereits
oben generierten neuen Variablen missausbildung als abhängige Variable. Dies erfolgt
mittels „Statistics > Binary outcomes > Logistic regression“. Alle anderen Variablen mit
Ausnahme der Variablen ausbildung finden als exogene Variable Verwendung (siehe
Abb. 5.35). Unter dem Reiter „Reporting“ erhalten wir mittels Häkchen bei „Report esti-
mated coefficients“ die Koeffizientenschätzungen wie in Abb. 5.36 statt der Voreinstellung
„odds ratios“.
Die Ergebnisse in der Abb. 5.36 verdeutlichen, dass die Frage, ob Daten für die Berufs-
ausbildung vorliegen oder nicht, mit den exogenen Variablen zusammenhängt. Das Ge-
samtmodell ist mit einem Chi2-Wert des Likelihood-Ratio-Tests (LR) von 291,41 auch auf
dem 1-%-Niveau signifikant.22 Signifikante Einflüsse besitzen die Variablen abschlussda-
tum, alter_immatrik und abschlussnote. Dies bestätigt unsere Schlussfolgerungen aus den
lokalen Tests und dem Test von Little.
Unser Fazit lautet, dass die MCAR-Bedingung nicht vorliegt. Das spricht dafür, sich
nicht nur auf die Methode des fallweisen Ausschlusses zu verlassen.
Abb. 5.34 Little’s test (mcartest)
21
Bei Verwendung nur der metrisch skalierten vier Variablen führt der Test zu keinem Resultat (auf-
grund zu geringer Freiheitsgerade). Allerdings wird der Test häufig auch mit metrischen und nomi-
nalskalierten Variablen durchgeführt und interpretiert (siehe dazu im Statalist-Forum die Beiträge
unter dem Stichwort „mcar test“ (https://www.statalist.org/forums/).
22
Der Likelihood-Ratio-Test entspricht dem uns bekannten F-Test für das Gesamtmodell einer li-
nearen Regression. Er basiert auf ML-Schätzungen. Anhang I Abschn. 6.2 erläutert die Vorge-
hensweise.
Abb. 5.35 Logistische Regression zur Überprüfung der MCAR
Zur Wiederholung: Die Listwise Deletion ist problematisch. Erstens aufgrund der substan-
ziell verringerten Stichprobe. Zweitens verdeutlichen die obigen Tests, dass die MCAR-Ei-
genschaft nicht gegeben ist, also bei der Listwise Deletion unter Umständen eine Verzer-
rung der Koeffizientenschätzungen vorliegt. Beides legt nahe, eine multiple Imputation
bzw. eine FIML-Schätzung durchzuführen. Mit 41 % ausfallender Beobachtungen bei der
Variable ausbildung ist auch die in der Literatur genannte Grenze von 50 % nicht über-
schritten. Voraussetzung auch dieser Verfahren ist aber, dass MAR vorliegt (und nicht eine
MNAR-Situation existiert).
Die lineare Regression mit diesem Datensatz führt zu den für SPSS bereits erläuterten
Ergebnissen, die hier nicht noch einmal mit Stata wiederholt werden (für SPSS siehe oben
Abb. 5.11): Die Hypothesenvariablen ausbildung, und abschlussdatum sind (auf dem
5-%-Niveau) nicht signifikant, die Note der Hochschulzugangsberechtigung und die Art
der Zugangsberechtigung dagegen schon. Eine Listwise Deletion reduziert unsere
Stichprobe um 260 Beobachtungen, also um 41 %. Daher bietet es sich an, ein Verfahren
einzusetzen, mit dem die Informationen aller vorhandenen Beobachtungen genutzt werden.
Nur zu Vergleichszwecken wird im nächsten Schritt eine (nicht empfehlenswerte) Mit-
telwertimputation durchgeführt. Die Mittelwerte imputieren wir anstelle der Missings
durch die folgenden Befehle im Kommandofeld:
„egen ausbildung_imp = mean(ausbildung)

replace ausbildung_imp = ausbildung if ausbildung!=.“
Abb. 5.36 Ergebnisse der logistischen Regression
Mit der ersten Zeile bilden wir eine neue Variable („egen“ ist die Abkürzung für den
Befehl „extended generate“). Deren von uns beliebig wählbarer Name lautet ausbildung_
imp. Ihr Inhalt besteht aus dem Mittelwert der vorliegenden Variable ausbildung. Mit der
zweiten Befehlszeile setzen wir die vorhandenen Daten von ausbildung überall dort ein,
wo die Variable Ausbildung keinen fehlenden Datenwert besitzt. Der Befehl „!=“ ist der
logische Operator für „ist nicht gleich“ und „.“ zeigt in Stata einen Missing Value an.
Folglich steht bei der neuen Variablen ausbildung_imp jetzt überall der Mittelwert anstelle
der fehlenden Werte.
Anschließend kann die lineare Regression wie üblich durchgeführt werden; mittels:
„Statistics > Linear models and related > Linear regression“. Statt der Variable ausbildung
nehmen wir jetzt die neue imputierte Variable ausbildung_imp als exogene Variable auf.
Das Resultat gibt Abb. 5.37 wieder.
Die einzelnen Koeffizientenschätzungen unterscheiden sich von der Listwise Deletion
aus Abb. 5.11 vor allem hinsichtlich der Variable abschlussdatum. Der Zusammenhang ist
jetzt auf dem 5-%-Niveau signifikant. Der negative Koeffizient besagt, dass, je jünger das
Abschlussdatum ist, umso geringer (also besser) ist die Abschlussnote des Studiums.
Da die Mittelwertimputation eigentlich nicht sinnvoll ist, setzen wir anschließend die
Multiple Imputation ein. Sie findet sich wie folgt: Unter „Statistics > Multiple Imputa-
tion“ öffnet sich das Fenster „Multiple Imputation Control Panel“ der Abb. 5.38. Zunächst
muss Stata eine Reihe von Informationen erhalten, die sich unter der links stehenden Op-
tion „Setup“ eintragen lassen. Dazu gehört erstens, welches Datenformat gewählt wird.
Wir setzen hier im Feld „Setup“ der Abb. 5.38 den Style „Wide“ und klicken dann auf den
Button „Submit“. Anschließend müssen wir eingeben, bei welchen Variablen fehlende
Werte vorliegen. Im Feld „Add registered variables“ wählen wir unter „Type“ die Variante
„Imputed“ und geben dann rechts unter „Variables“ ein, welche Variablen fehlende Daten
aufweisen. In unserem Beispiel ist dies nur die Variable ausbildung.
Nach Klick auf „Submit“ wird von Stata eine neue Variable „_mi_miss“ rechts in den
Datensatz angefügt. Diese hat überall den Wert „0“. Wenn wir in der Abb. 5.38 zurück auf
die Option „Examine“ gehen, können wir dort über „Tabulate missing values“ und den
Abb. 5.37 Mittelwertimputation
Abb. 5.38 Multiple Imputation
Button „Go -->“ detaillierte Informationen zur Verteilung und Struktur der fehlenden
Werte bekommen – bspw. erhalten wir auf diese Weise die aus Abb. 5.28 bekannte Tabelle.
Für die Imputation wählen wir „Statistics > Multiple imputation“ und dann links die
Option „Impute“. Dort eröffnet sich eine Vielzahl von Möglichkeiten (siehe Abb. 5.39).
Abb. 5.39 Multiple Imputation II
Da nur eine einzige Variable ausbildung mit Missings existiert, wählen wir eine Option
innerhalb „Univariate“. Unsere Variable ausbildung ist eine Dummyvariable (binäre Vari-
able), also nominal skaliert. Die Imputation erfolgt daher auf Basis einer logistischen Re-
gression. Wir aktivieren also „Logistic regression for a binary variable“. Nach Klick auf
den Button „Go -->“ erscheint ein weiteres Menüfeld.
Falls fehlende Werte bei einer metrisch skalierten Variable auftreten, wählen wir in
Abb. 5.39 die Option „Linear regression for a continous variable“, bei ordinalen fehlenden
Werten die Option „Ordered logistic regression for an ordinal variable“ usw.
Unsere Variable ausbildung wird imputiert, steht also im Feld „Imputed variable“. Als
unabhängige Variable verwenden wir alle Variablen einschließlich unserer exogenen Vari-
able abschlussnote (!), mit Ausnahme der Variablen ausbildung, die wir ja imputieren
wollen (Abb. 5.40).
Die Zahl der Imputationen (im Feld „Imputations“) setzen wir hoch auf 50. Wir orien-
tieren uns dabei an der Untergrenze von 20 Imputationen und der Empfehlung, dass die
Zahl der Imputationen mindestens so hoch sein soll wie die Prozentzahl der fehlenden
Beobachtungen. Diese beträgt 41 %, und 50 Imputationen sind deutlich mehr. Tatsächlich
spricht nichts dagegen, auch 100 Imputationen zu wählen, da bei diesem sehr einfachen
Imputationsmodell die Rechenzeit keine Rolle spielt.
Abb. 5.40 Multiple Imputation III
Als Startzahl für die Zufallsauswahl tragen wir 12345 (oder eine andere beliebige Zahl
ein). So stellen wir sicher, dass die Ergebnisse unserer multiplen Imputation identisch
sind, wenn wir das gleiche Imputationsmodell und die gleiche Startzahl wählen. Mit „OK“
wird die Imputation durchgeführt und es resultiert Abb. 5.41.
Ein Blick in die Daten macht deutlich, dass Stata 50 imputierte Werte für die Variable
ausbildung geschätzt hat. Diese sind rechts im Datensatz angefügt: die erste Imputation
als Variable _1_ausbildung bis zur 50. Imputation als Variable _50_ausbildung.
Bei mehreren Variablen mit fehlenden Werten muss in der Abb. 5.39 eine multivariate
Imputationsmethode gewählt werden. Besitzen diese Variablen außerdem bestimmte kom-
plexere Strukturen bei den Missings, kommt nur eines der vielschichtigeren Verfahren in
Frage (entweder „Sequential imputation using chained equations“ oder „Multivariate nor-
Abb. 5.41 Output Multiple Imputation
mal regression“). Diese erläutert Medeiros (2016) kurz und Stata 15 (2017a, S. 114–265)
in ausführlicher Form.
Der erste Schritt „Imputation“ ist damit durchgeführt. Die nächsten beiden Schritte –
„Analyze“ und „Pooling“ – führt Stata zusammen durch. Wir verwenden dazu die links
in der Abb. 5.39 sichtbare Option „Estimate“. Anschließend stehen uns alle Regressions-
verfahren zur Auswahl, die auf der Grundlage der imputierten 50 Datensätze möglich sind
(siehe Abb. 5.42).
Unsere Schätzung ist eine lineare Regression. Diese Möglichkeit aktivieren wir, und
mit dem Button „Go -->“ geht es weiter. Es erscheint das uns bekannte Menü der linearen
Regression. Hier spezifizieren wir unser Modell mit der abschlussnote als abhängiger
Variable. Nach „OK“ gelangen wir zurück zu Abb. 5.42. Dort führen wir die Regression
mit Klick auf den Button „Submit“ durch. Den Output dazu enthält Abb. 5.43.
Im Hintergrund hat Stata 50 Regressionen dieses Modells basierend auf den 50 ver-
schiedenen Imputationen berechnet und diese 50 Ergebnisse gepoolt, um daraus verlässli-
che Koeffizientenschätzungen und Standardfehler zu ermitteln. Damit das funktioniert,
muss der Datensatz als multipel imputierter Datensatz definiert sein! Das hatten wir – wie
oben beschrieben – mittels „Setup“ durchgeführt.
Das Gesamtmodell ist signifikant: Der F-Wert beträgt 18,83 und dessen empirisches
Signifikanzniveau liegt unter 0,0000. Eine Einschätzung der Qualität der Imputation ist
mittels des „Average RVI“ und des „Largest FMI“ rechts oben in Abb. 5.43 möglich. Der
RVI (Relative Variance Increase) misst die durchschnittliche relative Erhöhung der Vari-
anz der Koeffizientenschätzungen, die auf die fehlenden Daten für ausbildung zurückzu-
führen ist. Je näher der RVI bei 0 liegt, desto geringeren Einfluss haben die Missing Data.
Dies ist wünschenswert und hier gegeben, da der RVI 0,1080 beträgt. Der FMI (Fraction
of Missing Information) ist der höchste Anteil an fehlenden Informationen bei einem der
Koeffizienten. Er wird benutzt, um einzuschätzen, ob die Zahl der Imputationen M groß
genug war. Nach einer Faustregel sollte M ≥ 100×FMI sein (Stata 15 2017a, S. 48). Hier
Abb. 5.42 Schätzung auf Basis der Imputationen
ergibt sich ein Wert von 43,31 (100×0,4331). Mit den durchgeführten 50 Imputationen
wird diese Regel eingehalten.
Weitere Analysen lassen wir wegen unseres sehr einfachen Imputationsmodells hier
außer Betracht. Sie sollten aber bei Einsatz der komplexen multivariaten Imputationsver-
fahren durchgeführt werden (siehe dazu UCLA 2016; SSCC 2017; Williams 2018).
Die Koeffizientenschätzungen verdeutlichen, dass neben den exogenen Variablen hzb_
note und hzb_gymnasium auch das Abschlussdatum einen Einfluss auf die Endnote des
Studiums besitzt (alle drei sind auf dem 5-%-Niveau signifikant). Die anderen exogenen
Variablen haben keinen statistisch nachweisbaren Einfluss.
Alternativ lässt sich das ganze Verfahren als eine Reihe von Befehlsfolgen im Feld
„Command“ durchführen. Dies ist wie folgt deutlich schneller durchführbar:
„mi set wide

mi register imputed ausbildung
mi impute logit ausbildung hzb_note weiblich abschlussdatum hzb_gymnasium
alter_immatrik abschlussnote, add(50) rseed(12345)
mi estimate: regress abschlussnote hzb_note weiblich abschlussdatum
hzb_gymnasium alter_immatrik ausbildung“
Abb. 5.43 Schätzung mit imputierten Werten
Abb. 5.44 FIML mittels GUI

Die erste Zeile identifiziert den Datensatz für eine multiple Imputation. Die zweite
Zeile registriert die Variable ausbildung als Variable mit fehlenden Daten, die imputiert
werden müssen. Die dritte und vierte Zeile führen 50 Imputationen mittels einer logisti-
schen Regression durch. Dabei sind die Zufallszahlen mit dem Ausgangswert 12.345 re-
produzierbar. Die fünfte und sechste Zeile schätzen die Regressionsgleichung.
Das FIML-Verfahren ist in Stata im Rahmen der Schätzung von Strukturgleichungs-
modellen (SEM – Structural Equation Modeling) möglich. Anhang I erläutert das dabei
eingesetzte Maximum-Likelihood-Schätzverfahren grafisch und verbal. Strukturglei-
chungsmodelle werden in Form von Pfaddiagrammen grafisch entwickelt und dargestellt.
Dies wird hier extrem knapp (in Form einer „Blindfluganleitung“) für den einfachen Fall
behandelt, dass nur bei einer Variable Missings existieren. Für komplexere Strukturen ist
die am Ende dieses Abschnitts genannte Literatur heranzuziehen. Über „Statistics > SEM
(Structural equation modeling) > Model building and estimation“ öffnet sich das Graphi-
cal User Interface (GUI) von Stata.
Allerdings besteht hier nicht die Absicht, ein komplexes SEM-Modell mit latenten Va-
riablen und Wirkungspfaden zu schätzen. Wir arbeiten ausschließlich mit beobachteten
Variablen, und die Spezifikation besteht aus einer abhängigen Variable (abschlussnote),
die linear additiv von 6 exogenen Variablen (hzb_note, weiblich, abschlussdatum, hzb_
gymnasium, alter_immatrik und ausbildung) beeinflusst wird. Diese einfache lineare Re-
gression lässt sich am schnellsten wie folgt über das Kommandofeld umsetzen:
„sem (abschlussnote <- hzb_note weiblich abschlussdatum hzb_gymnasium

alter_immatrik ausbildung), method(mlmv)“
Dabei ist „sem“ der Befehl für die Schätzung eines Strukturgleichungsmodells, dahin-
ter steht nach der Klammer die abhängige Variable abschlussnote, und nach dem Zeichen
„<-“ sind alle 6 exogenen Variablen aufgeführt. Zum Schluss wird die Schätzmethode
„mlmv“ gewählt. Die Abkürzung mlmv steht für „Maximum Likelihood with Missing
Values“. Dieses Verfahren ist bei fehlenden Werten zu verwenden, und genau darum geht
es uns ja.
Alternativ ist dies auch über die Menüsteuerung machbar. Dazu rufen wir die Oberflä-
che zur grafischen Bildung von Strukturgleichungsmodellen (Pfaddiagrammen) auf: „Sta-
tistics > SEM /structural equation modeling > Model building and estimation“. Es er-
scheint ein kariertes Blatt, auf dem wir unser Modell bilden können. Dies ermöglicht die
für Strukturgleichungsmodelle übliche grafische Darstellung der Beziehungen zwischen
den Variablen mittels GUI (Graphical User Interface). In unserem Beispiel einer einfachen
linearen Regression aktivieren wir am linken Rand das Symbol (siehe Abb. 5.44). Es
steht für die Einfügung einer Regression („Add regression component (R)“).
Nach Anklicken des in der karierten Fläche nun auftauchenden Kreuzes erscheint das
Menü „Regression component“ zur Spezifikation einer Regression. Wir geben hier die
Abb. 5.45 Pfaddiagramm im GUI von Stata
abhängige Variable abschlussnote und unsere 6 exogenen Variablen ein.23 Die sonstigen
Voreinstellungen ändern wir nicht (bspw. unter „Independent variables’ direction“ die
Richtung „Left“). Nach „OK“ sehen wir das Pfaddiagramm unseres linearen Regressions-
modells auf der karierten Fläche wie in Abb. 5.45.
Anschließend gehen wir oben in der Menüleiste auf: „Estimation > Estimate“. Im Rei-
ter „Model“ aktivieren wir die Option „Maximum likelihood with missing values“. An-
sonsten werden die Default-Einstellungen nicht geändert. Nach „OK“ fragt Stata nach, ob
erstens die Interaktionseffekte zwischen jeweils zwei Variablen aufgenommen werden
sollen (dies verneinen wir) und zweitens, ob die Schätzergebnisse unabhängig von den
zusätzlich möglichen Interaktionseffekten mit drei und mehr Variablen gezeigt werden
sollen (dies bejahen wir). Danach erscheinen die Schätzungen der Regressionskoeffizien-
ten im Pfaddiagramm des GUI. Bspw. steht jetzt am Pfeil von der exogenen Variable
hzb_note zur endogenen Variable abschlussnote der Koeffizient 0,27.
Dabei ist zu beachten, dass alle Variablen kleingeschrieben werden, da in der Prozedur SEM alle
23
beobachteten Variablen nur so akzeptiert werden. Großgeschriebene Variablen sind hier für die so-
genannten „latenten Variablen“ reserviert.
Übersichtlicher ist aber die gleichzeitige Ausgabe der Schätzergebnisse im normalen

Output-Fenster. Abb. 5.46 enthält (nur in Auszügen) die dort befindliche Regressions-
schätzung von Stata. Uns interessiert hier lediglich der Anfang des Outputs unter der
Überschrift „Structural“.
Rechts oben wird deutlich, dass die FIML-Schätzung auf allen 634 Beobachtungen
beruht, obwohl nur 374 komplette Beobachtungen vorhanden sind. Wie erläutert, benutzt
das FIML-Verfahren sämtliche Informationen, das heißt alle existierenden Daten, für die
Schätzung der Koeffizientenwerte und ihrer Standardfehler. Die fehlenden Werte werden
dabei nicht imputiert.
Im Ergebnis stimmen die Koeffizienten und ihre Signifikanzniveaus mit den Resultaten
der multiplen Imputation überein. Die uns geläufigen t-Werte fehlen, stattdessen sind in
Abb. 5.46 „z“-Werte aufgelistet. In großen Stichproben (n > 30) sind beide (asymptotisch)
gleich. Die Interpretation der empirischen Signifikanzniveaus ändert sich aber nicht.
Ergänzend lassen sich über „Statistics > SEM (structural equation modeling) > Good-
ness of fit > Overall goodness of fit“ eine Reihe von Informationen zur Anpassungsgüte
des Modells berechnen. Dazu geben wir im auftauchenden Menüfenster – im Feld „Stati-
stics to be displayed“ – „all“ ein. Zum Beispiel liegt der Determinationskoeffizient (hier
als CD – Coefficient of determination – bezeichnet) bei 0,168. Dies entspricht fast völlig
dem korrigierten R2 der Listwise Deletion (siehe Abb. 5.11) und auch der Mittelwertim-
putation (siehe Abb. 5.37). Die Schätzmethode mlmv (Maximum Likelihood with Missing
Values) innerhalb der Prozedur SEM setzt voraus, dass MCAR oder MAR vorliegt und die
Daten multivariat normalverteilt sind (Stata 2017b, S. 312).
Zusammenfassend wird deutlich, dass die Schätzungen auf der Basis der multiplen
Imputation und des FIML-Verfahrens zu fast identischen Ergebnissen führen. Dies gilt für
die geschätzten Koeffizienten und deren Standardfehler. Eine höhere (d. h. schlechtere)
hzb_note bedingt eine höhere (und damit schlechtere) Abschlussnote im Studium. Dane-
ben sind die Art der Hochschulzugangsberechtigung und das Abschlussdatum auf dem
5-%-Niveau einflussreich. Statistisch nicht signifikant sind dagegen das Geschlecht (weib-
Abb. 5.46 FIML-Verfahren zur Schätzung

lich), das Alter bei der Immatrikulation (alter_immatrik) und eine Berufsausbildung vor
dem Beginn des Studiums (ausbildung). Im Vergleich ist die Listwise Deletion kein
geeignetes Verfahren, obwohl ihre Koeffizientenschätzungen mit den anderen beiden Me-
thoden weitgehend übereinstimmen: Aufgrund der stark abnehmenden Fallzahl wird bei
ihr der Einfluss des Abschlussdatums nicht entdeckt. Im obigen Beispiel führt sogar die
(nicht empfehlenswerte) Mittelwertimputation zu den gleichen Resultaten.
Medeiros (2016) und SSCC (2017) bieten kurze Einführungen. Williams (2015, 2018)
gibt einen guten Überblick. Acock (2018, S. 417–469) beschreibt die multiple Imputation
und die FIML-Methode in Stata genauer. Das Vorgehen und die Möglichkeiten im Rah-
men der multiplen Imputation werden ausführlich und anhand von Beispielen im entspre-
chenden Stata-Handbuch Stata 15 (2017a) erläutert.
Die Verwendung linearer Strukturgleichungsmodelle in Stata erläutert Aichholzer
(2017) einführend und nachvollziehbar. Ausführlichere Darstellungen bietet Stata 15
(2017b).
5.7 Übungsaufgaben
Übung 5.1: Fehlende Werte Pkw-Beispiel 1

Verwenden Sie den Datensatz „PKW-Beispiel_Missings_1“ (als SPSS-Datensatz mit der
Endung „sav“ und als Stata-Datenfile mit der Endung „dta“). Es handelt sich dabei um den
Datenfile der Tab. 5.1. Es existieren Beobachtungen für 15 Verkaufsregionen eines Auto-
mobilproduzenten. Unsere 4 Variablen werden in der Legende zu Tab. 5.1 erläutert. Wir
wollen die verkaufte Menge an Pkw einer Region in einem Quartal anhand der exogenen
Variablen kontakte, preis und budget erklären.
a) Überprüfen Sie die Struktur der fehlenden Werte. Setzen Sie dabei geeignete Verfahren
in SPSS bzw. in Stata ein. Wie viele komplette Beobachtungen existieren? Welche der
4 Variablen weisen fehlende Daten auf? Beschreiben Sie die Struktur (das Muster) der
Missings.
b) Überprüfen Sie die MCAR-Bedingung mittels des Tests von Little.
c) Kontrollieren Sie mithilfe einer logistischen Regression, ob die MCAR-Eigenschaft
für die fehlenden Werte der Variable kontakte vorliegt.
d) Führen Sie eine lineare Regression mit erstens fallweisem Ausschluss sowie zweitens
der Mittelwertimputation durch, um festzustellen, inwieweit die abhängige Variable
absatzmenge von den Variablen kontakte, preis und budget beeinflusst wird.
e) Verwenden Sie die Methode der multiplen Imputation (mit 20 Imputationen), um die
Missings im Datensatz zu ersetzen. Schätzen Sie die lineare Regression der Teilfrage
d) auf der Basis der 20 imputierten Datensätze. Welches Resultat folgt bei einer
FIML-Schätzung für diese Regression?
f) Vergleichen Sie die Ergebnisse aus den Teilaufgaben d) und e) mit den Resultaten einer
Regressionsschätzung auf Basis des kompletten Datensatzes „PKW-Beispiel“.
5.8 Lösungen 353
Übung 5.2: Fehlende Werte Pkw-Beispiel 2

Wir verwenden jetzt den Datensatz „PKW-Beispiel_Missings_2“. Beantworten Sie auf
der Basis dieses neuen Datensatzes die Teilfragen a) bis f) der Übung 5.1. Vergleichen Sie
erstens die Resultate mit denen aus der Übung 5.1. Welche Gemeinsamkeiten und Unter-
schiede sind festzustellen? Vergleichen Sie zweitens die Resultate mit dem (hier aus-
nahmsweise bekannten) wahren Einfluss des Preises. Erläutern Sie Ihre Feststellungen.
5.8 Lösungen
Lösung 5.1
a) Der Datensatz ist in der Tab. 5.1 abgebildet. Da es sich nur um 15 Fälle und 4 Variablen
handelt, kann die Struktur der Missings leicht durch einen Blick auf diese Tabelle er-
fasst werden. Die Ergebnisse bei Verwendung von Stata zeigt Abb. 5.47 auszugsweise.
Nur die Kennzeichnungsvariable Region – inhaltlich bedeutungslos – ist komplett. Alle

anderen Variablen weisen einen oder zwei fehlende Werte auf: 67 % der Beobachtungen
sind komplett, bei 13 % fehlt der Wert für den Preis, bei 7 % für das Budget, bei 7 % für
die Absatzmenge sowie bei 7 % für Budget und Absatzmenge gleichzeitig.
misstable summarize, all

Obs<.
+------------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Ma5
-------------+--------------------------------+------------------------------
Region | 15 | 15 1 15
kontakte | 1 14 | 10 10 25
preis | 2 13 | 12 13 16
budget | 1 14 | 12 21 28
absatzmenge | 2 13 | 12 164 214
-----------------------------------------------------------------------------
misstable patterns
Missing-value patterns
(1 means complete)
| Pattern
Percent | 1 2 3 4
------------+-------------
67% | 1 1 1 1
|
13 | 1 1 1 0
7 | 0 1 1 1
7 | 1 0 0 1
7 | 1 1 0 1
------------+-------------
100% |
Variables are (1) budget (2) kontakte (3) absatzmenge (4) preis
Abb. 5.47 Stata-Musteranalyse der Missings

b) Little’s Tests ergibt, dass die Nullhypothese „keine Unterschiede zwischen den Beob-
achtungen (hier den Regionen) mit und ohne fehlende Werte“ nicht abgelehnt werden
kann. Stata: „Chi-square distance = 7,8196“, „Prob > chi-square = 0,7294“. SPSS:
„Chi-Quadrat = 7,789“, „Sig. = ,732“.
c) Die logistische Regression zur Überprüfung systematischer Unterschiede zwischen
den Beobachtungen mit und ohne Missings hinsichtlich der Variablen kontakte bestä-
tigt, dass keine signifikanten Abhängigkeiten von den anderen Variablen (absatz-
menge, preis und budget) vorhanden sind. Prinzipiell müssten wir dies für alle 4 Va-
riablen durchführen. In diesem Beispiel teilen uns aber Stata und SPSS bei den
restlichen 3 Variablen mit, dass mathematisch die Berechnung der erforderlichen
logistischen Regression nicht möglich ist. Grund hierfür ist die geringe Zahl von
Beobachtungen bzw. weil zum Teil ja nur ein einziger Datenwert bei einer Varia
blen fehlt.
d) Auf Grundlage der Ergebnisse aus b) und c) können wir die Annahme der MCAR-
Bedingung beibehalten, da diese nicht widerlegt wird. Folglich ist die Methode der
Listwise Deletion prinzipiell verwendbar. Die multiple Imputation und die FIML-
Methode sind ebenfalls einsetzbar und besitzen darüber hinaus den Vorteil größerer
Effizienz. Beispielhaft wird hier das Resultat der Mittelwertimputation bei Verwen-
dung von SPSS widergegeben (siehe Abb. 5.48).
e) und f) Exemplarisch enthält Abb. 5.49 das Resultat der FIML-Schätzung mittels der
Prozedur SEM in Stata. Wir verwenden die Methode mlmv, da diese alle Beobachtun-
gen einbezieht.
Im Vergleich mit dem wahren Zusammenhang, den wir in diesem konstruierten Daten-
satz ausnahmsweise kennen (siehe Stoetzer 2017, S. 57) und den hier noch einmal
Abb. 5.50 zeigt, schneidet der fallweise Ausschluss am besten ab. Auch das FIML-
Verfahren deckt die wahren Zusammenhänge recht gut auf. Die Mittelwertmethode liegt
am weitesten daneben, bei ihr ist bspw. der Preis kein signifikanter Einflussfaktor.
Lösung 5.2
a) bis f): Es fehlen in diesem Datensatz jetzt 5 Daten bei der Variablen preis. Little’s Test
zeigt, dass die MCAR-Annahme zu verwerfen ist. Auf der Grundlage der Listwise Dele-
tion besitzt die Variable preis keinen Einfluss auf die Absatzmenge. Aber auch die Me-
thode der multiplen Imputation (20 Imputationen) bestätigt dieses Resultat. Die FIML-
Methode kommt ebenfalls zu diesem (falschen) Ergebnis.
In diesem Beispiel ist keines der Verfahren in der Lage, den wahren Einfluss des Preises
auf die verkaufte Menge zu identifizieren. Dies resultiert, weil im Datensatz „PKW-
Beispiel_Missings_2“ die fehlenden Werte der Variable preis die MNAR Eigenschaft auf-
5.8 Lösungen 355
Koeffizientena

Modell B Standardfehler Beta T Sig.
1 (Konstante) 110,303 24,337 4,532 ,001
Zahl der Kontakte der

regionalen 3,016 ,320 ,892 9,424 ,000
Produktmanager
Nettoverkaufspreis in
-1,143 1,358 -,080 -,842 ,418
Tausend
Marketingbudget der
1,933 ,590 ,307 3,278 ,007
Region in Tausend
a. Abhängige Variable: Stückzahl der verkauften Pkw
Abb. 5.48 SPSS Mittelwertimputation
sem (absatzmenge <- kontakte preis budget), method(mlmv)
Structural equation model Number of obs = 15

Estimation method = mlmv
Log likelihood = -111.55246
----------------------------------------------------------------------------------
| OIM
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-----------------+----------------------------------------------------------------
Structural |
absatzmenge <- |
kontakte | 3.129696 .0906599 34.52 0.000 2.952006 3.307386
preis | -1.10028 .4062523 -2.71 0.007 -1.89652 -.3040401
budget | 2.433204 .1638311 14.85 0.000 2.112101 2.754307
_cons | 96.78948 7.462692 12.97 0.000 82.16287 111.4161
-----------------+----------------------------------------------------------------
Abb. 5.49 Stata-FIML-Schätzung
regress Absatzmenge Kontakte Preis Budget

-------------+------------------------------ F( 3, 11) = 390.64
Model | 3129.02968 3 1043.00989 Prob > F = 0.0000
Residual | 29.3703167 11 2.67002879 R-squared = 0.9907
-------------+------------------------------ Adj R-squared = 0.9882
Total | 3158.4 14 225.6 Root MSE = 1.634
------------------------------------------------------------------------------
Absatzmenge | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Kontakte | 3.055884 .1036244 29.49 0.000 2.827808 3.283959
Preis | -1.501242 .4730021 -3.17 0.009 -2.542313 -.4601717
Budget | 2.406905 .1965572 12.25 0.000 1.974286 2.839525
_cons | 104.6473 7.816077 13.39 0.000 87.44425 121.8504
------------------------------------------------------------------------------
Abb. 5.50 Pkw-Beispiel auf dem kompletten Datensatz ohne Missings

weisen (also weder MCAR noch MNR vorliegt): Es fehlen systematisch alle Preise, die
kleiner sind als 14. Die Missings der Variable preis hängen also von den Werteausprägun-
gen genau dieser Variablen ab.
Literatur
Acock, A. C. (2005). Working with missing values. Journal of Marriage and Family, 67, 1012–1028.
Aichholzer, J. (2017). Einführung in lineare Strukturgleichungsmodelle mit Stata. Wiesbaden/New
York: Springer VS.
Allison, P. D. (2002). Missing data. Thousand Oaks: SAGE Publications.
Allison, P. D. (2010). Missing data. In J. D. Wright & P. V. Marsden (Hrsg.), Handbook of survey
research (S. 631–657). Bingley: Emerald Publishing.
Allison, P. D. (2012). Handling missing data by maximum likelihood, SAS Global Forum 2012,
Paper: 312-2012. 20.09.2019.
AMOS Development. (2019). http://amosdevelopment.com/support/faq/no_gfi.htm. Zugegriffen am
25.05.2019.
Arbuckle, J. L. (2016). IBM SPSS Amos 24 user guide. ftp://public.dhe.ibm.com/software/ana-
lytics/spss/documentation/statistics/24.0/en/amos/Manuals/IBM_SPSS_Amos_User_Guide.
pdf. Zugegriffen am 05.08.2019.
Backhaus, K., & Blechschmidt, B. (2009). Fehlende Werte und Datenqualität – Eine Simulationsstu-
die am Beispiel der Kausalanalyse. Die Betriebswirtschaft, 69(2), 265–287.
Baltes-Götz, B. (2013). Behandlung fehlender Werte in SPSS und AMOS, Universität Trier. https://
www.uni-trier.de/fileadmin/urt/doku/bfw/bfw.pdf. Zugegriffen am 05.08.2019.
van Buuren, S. (2018). Flexible imputation of missing data (2. Aufl.). Boca Raton: Chapman and
Hall/CRC.
Carpenter, J. R., & Kenward, M. G. (2013). Multiple imputation and its application. Chiches-
ter: Wiley.
Enders, C. K. (2003). Using the expectation maximization algorithm to estimate coefficient alpha
for scales with item-level missing data. Psychological Methods, 8(3), 322–337. https://doi.org/
10.1037/1082-989x.8.3.322.
Enders, C. K. (2010). Applied missing data analysis. New York: The Guilford Press.
Fox, J. (2016). Applied regression analysis & generalized linear models (3. Aufl.). Thousand Oaks:
SAGE Publications.
Graham, J. W. (2012). Missing data: Analysis and design. Heidelberg/New York: Springer.
Graham, J. W., Cumsille, P. E., & Elek-Fisk, E. (2003). Methods for handling missing data. In
J. A. Schinka & W. F. Velicer (Hrsg.), Handbook of psychology: Research methods in psychology
(Bd. 2, S. 87–114). New York.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.).
Hoboken: Wiley.
IBM SPSS 20. (2011). IBM SPSS 20 missing values. ftp://public.dhe.ibm.com/software/analytics/
spss/documentation/statistics/20.0/de/client/Manuals/IBM_SPSS_Missing_Values.pdf, Zuge-
IBM SPSS 25. (2017). IBM SPSS 25 missing values. ftp://public.dhe.ibm.com/software/analytics/
spss/documentation/statistics/25.0/de/client/Manuals/IBM_SPSS_Missing_Values.pdf, Zuge-
Literatur 357
Laaksonen, S. (2018). Survey methodology and missing data: Tools and techniques for practitioners.
Berlin: Springer.
Lehmann, Th. (2005). Behandlung von fehlenden Werten bei nicht ignorierbaren Ausfallmechanis-
men, Dissertation, FSU Jena. http://d-nb.info/974105635. Zugegriffen am 11.09.2019.
Li, C. (2013). Little’s test of missing completely at random. The Stata Journal, 13(4), 795–809.
Little, R. J. A., & Rubin, D. B. (2014). Statistical analysis with missing data (2. Aufl.). Hobo-
ken: Wiley.
Medeiros, R. (2016). Handling missing data in Stata: Imputation and likelihood-based approaches,
2016 Swiss Stata Users Group meeting. www.stata.com/meeting/switzerland16/slides/
medeiros-switzerland16.pdf. Zugegriffen am 11.09.2019.
Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting
practices and suggestions for improvement. Review of Educational Research, 74, 525–556.
Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581–592. https://doi.org/10.1093/
biomet/63.3.581.
Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Asso-
ciation, 91(434), 473–489.
Rudolf, M., & Müller, J. (2004). Multivariate Verfahren. Göttingen/Bern/Toronto: Hogrefe.
Spieß, M. (2008). Missing-Data-Techniken: Analyse von Daten mit fehlenden Werten. Münster: LIT.
SSCC. (2017). Social science computing cooperative, multiple imputation in Stata, Section 1-8,
University of Wisconsin. www.ssc.wisc.edu/sscc/pubs/stata_mi _intro.htm. Zugegriffen am
04.08.2019.
Stata 15. (2017a). Multiple imputation reference manual, Release 15, College Station, Texas. www.
stata.com/manuals/mi.pdf. Zugegriffen am 26.07.2019.
Stata 15. (2017b). Structural equation modeling reference manual, Release 15, College Station,
Texas. www.stata.com/manuals/sem.pdf. Zugegriffen am 20.05.2019.
Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung
(Bd. 1). Berlin: Springer.
UCLA. (2016). University of California Los Angeles, IDRE – Institute for Research and Digital
Education, Multiple imputation in Stata. https://stats.idre.ucla.edu/stata/seminars/mi_in_stata_
pt1_new/. Zugegriffen am 30.08.2019.
Aufl.). Wiesbaden: Springer VS.
Vroomen, M., Eekhout, J. I., Dijkgraaf, M. G., van Hout, H., de Rooij, S. E., Heymans, M. W., &
Bosmans, J. E. (2016). Multiple imputation strategies for zero-inflated cost data in economic
evaluations: Which method works best? The European Journal of Health Economics, 17(8),
939–950. https://doi.org/10.1007/s10198-015-0734-5, Zugegriffen am 17.07.2019.
Weiber, R., & Mühlhaus, D. (2014). Strukturgleichungsmodellierung (2. Aufl.). Berlin/Heidelberg:
Springer.
White, I. R., Royston, P., & Wood, A. M. (2011). Multiple imputation using chained equations: Is-
sues and guidance for practice. Statistics in Medicine, 30(4), 377–399. https://doi.org/10.1002/
sim.4067.
Williams, R. (2015). Missing data part I: Overview, traditional methods. University of Notre Dame.
https://www3.nd.edu/~rwilliam/stats2/l12.pdf. Zugegriffen am 01.09.2019.
Williams, R. (2018). Missing data part II: Multiple imputation. University of Notre Dame. https://
www3.nd.edu/~rwilliam/stats2/l13.pdf. Zugegriffen am 01.09.2019.
Anhang I Maximum-Likelihood-Schätzung
6
6.1 Einführung in die Maximum-Likelihood-Schätzung
Die Maximum-Likelihood-Schätzung (ML) ist eine Alternative zur OLS-Schätzung. Sie

findet vor allem bei der Schätzung von Parametern nicht linearer Zusammenhänge Ver-
wendung. Dazu gehören Verfahren bei abhängigen Variablen, die nicht metrisch bzw. in-
tervallskaliert sind. Dies sind u. a. die Logit- und Probitregressionen sowie multinomiale
und ordinale Regressionen. Außerdem sind ML-Schätzungen geeignet, mit dem Problem
von Missing Values umzugehen und darüber hinaus simultane Gleichungssysteme zu
schätzen.1
Die Maximum-Likelihood-Schätzung basiert auf einem Modell der Verteilung der
Daten in der Grundgesamtheit. Üblicherweise wird in den Sozialwissenschaften davon
ausgegangen, dass diese Daten normalverteilt sind. Da die Regressionsanalyse häufig die
Beziehung zwischen einer abhängigen und mehreren (oder sogar sehr vielen) unabhängi-
gen Variablen modelliert, wird entsprechend eine multivariate Normalverteilung (NV) un-
terstellt. Für andere Verteilungen ist das ML-Verfahren aber entsprechend modifiziert ver-
wendbar. Zur Vereinfachung unterstellen wir im Folgenden eine univariate NV. Das
Prinzip kann so verständlich dargestellt werden.
Als Beispiel untersuchen wir die Ausgaben von Studierenden in Deutschland im Jahr
2018. Wir verfügen über eine Stichprobe von 5 Studierenden. Deren monatliche Ausgaben
enthält Tab. 6.1.
Unsere Forschungsfrage lautet: Was geben Studierende in Deutschland im Durch-
schnitt im Monat aus? Zur Schätzung dieser mittleren Ausgaben verfügen wir über die 5
1
Ein weiteres hier nicht behandeltes Schätzverfahren ist die Momentenmethode (englisch: Methods
of Moments bzw. die verallgemeinerte Momentenmethode (Generalized Method of Moments
GMM)). Sie wird erläutert von Ashley (2012, S. 658–670) und Hill et al. (2008, S. 276–278).
360 6 Anhang I Maximum-Likelihood-Schätzung
Beobachtungen der Tab. 6.1. Abb. 6.1 enthält auf der x-Achse die Ausgaben unserer 5
Studierenden. Auf der y-Achse ist die Wahrscheinlichkeit abgetragen.
Die ML-Schätzung basiert auf der Idee, dass die Beobachtungen in unserer Stichprobe
mit einer größeren Wahrscheinlichkeit aus einer bestimmten Grundgesamtheit stammen
als aus einer anderen Grundgesamtheit. In der Abb. 6.1 sind zwei solche möglichen Ver-
teilungen der Ausgaben der Studierenden in der Grundgesamtheit eingezeichnet. Dies sind
die Funktionen A und B. Dabei ist unterstellt, dass die Ausgaben der Studierenden in der
Grundgesamtheit eine Normalverteilung aufweisen. Es ist offensichtlich, dass die Vertei-
lung A besser zu unseren 5 Beobachtungen „passt“ als die Verteilung B. Anders formu-
liert: Es ist sehr unwahrscheinlich, dass wir zufällig unsere 5 Beobachtungen erhalten,
wenn tatsächlich die Ausgaben aller Studierenden in Deutschland der Verteilung B ent-
sprechen – also bspw. einen Mittelwert von ca. 1000 Euro aufweisen. Dies ist plausibel,
weil Ralf mit 981 Euro pro Monat die höchsten Ausgaben tätigt und selbst er – wie alle
anderen Studierenden unserer Stichprobe – unter dem Mittelwert der Verteilung B liegt.2
Dieses Prinzip der ML-Schätzung kann mathematisch präzise formuliert und anschlie-
ßend zur Schätzung des Mittelwerts eingesetzt werden. Zur besseren Illustration ziehen
wir in unserem Beispiel den tatsächlichen Mittelwert heran. Faktisch gaben Studierende
im Jahr 2017 im Durchschnitt einschließlich Miete und Sozialversicherungsbeiträgen mo-
Tab. 6.1 Monatliche Ausgaben

Name Jens Friederike Julia Silko Ralf
Ausgaben (€) 683 781 844 883 981
Wahrscheinlichkeit
A B
683 781 844 883 981 Ausgaben
Abb. 6.1 Prinzip der ML-Schätzung
2
Bei nur 5 Beobachtungen wäre es möglich, dass wir 5 Studierende mit stark unterdurchschnittli-
chen Ausgaben „erwischt“ haben. Bei einer echten Zufallsstichprobe wird dies aber nicht häufig der
Fall sein. Und wenn unsere Zufallsstichprobe 30 Studierende umfasst, ist es extrem selten, rein zu-
fällig 30 Studierende alle mit unterdurchschnittlichen Ausgaben vorzufinden.
6.1 Einführung in die Maximum-Likelihood-Schätzung 361
natlich 832 Euro aus (Dohmen et al. 2019, S. 11). Wir unterstellen, zusätzlich zur An-
nahme der Normalverteilung der Ausgaben, dass die Standardabweichung dieser Ausga-
ben 145 Euro beträgt.
Die Dichtefunktion (genauer Wahrscheinlichkeitsdichtefunktion oder englisch: Proba-
bility Density Function) einer normalverteilten Variablen Y lautet allgemein:
−0 ,5 ( Yi − µ )
2
1
L ( Y )i = e σ2
(6.1)
2πσ 2
In unserem Beispiel bezeichnet die Variable Yi die monatlichen Ausgaben eines Studie-
renden i. Der Mittelwert μ beträgt hier 832 Euro, die Standardabweichung σ ist gleich
145 Euro (und entsprechend ist σ2 die Varianz). Li (bzw. f(Yi)) ist die Likelihood. Sie ent-
spricht der Höhe der Normalverteilungskurve bei einem bestimmten Umfang der monatli-
chen Ausgaben. Die obige Dichtefunktion (6.1) beschreibt die Wahrscheinlichkeit, einen
bestimmten Wert für die Ausgaben eines Studierenden zu erhalten (bspw. bei einer Befra-
gung zur sozialen Lage), wenn wir wissen, dass die Studierenden in Deutschland im Mittel
832 Euro ausgeben und die Abweichung davon im Durchschnitt bei 145 Euro liegt.
Die Gl. (6.1) ist nicht allzu komplex. Entscheidenden Einfluss auf die Höhe der Like-
lihood Li hat der Term (Yi − μ)2/σ2. Dies ist der bekannte z-Wert aus der z-Transformation,
mit der wir Variablenwerte standardisieren und so skalierungsunabhängig und vergleich-
bar machen (siehe Stoetzer 2017, Abschn. 2.3.4).3 Der einzige Unterschied besteht darin,
dass der z-Wert quadriert wird. Dieser Wert beschreibt die standardisierte Abweichung
zwischen den Ausgaben eines Studierenden Yi vom Mittelwert, d. h. den 832 Euro.
Der linke Teil der Gl. (6.1) ist nur ein Skalierungsfaktor. Er sorgt dafür, dass die Fläche
(das Integral) unter dieser Funktion gleich 1 ist. Dies ist intuitiv nachvollziehbar: Die auf-
summierte Wahrscheinlichkeit der Ausgaben aller Studierenden muss bei 100 % – also
1 – liegen. Dieser Teil der Gl. (6.1) ist für das Verständnis der Maximum-Likelihood-
Schätzung nicht wichtig.
Die ML-Methode verwendet die Funktion (6.1), um die Parameter einer Verteilung zu
schätzen. Ein solcher Parameter ist der Mittelwert, und wir wissen, dass der Koeffizient
einer Regression nichts anders darstellt als einen solchen (bedingten) Mittelwert (siehe
Stoetzer 2017, Abschn. 2.2). Hier kennen wir den Mittelwert (er beträgt 832 Euro). Er muss
also eigentlich nicht geschätzt werden, aber so lässt sich das Verfahren leichter erläutern.
Jens gibt 683 Euro aus. Wie groß ist die Wahrscheinlichkeit, genau 683 Euro auszuge-
ben, wenn im Mittel alle Studierenden 832 Euro ausgeben und die Standardabweichung
bei 145 Euro liegt? Die Dichtefunktion der Abb. 6.2 zeigt diese Wahrscheinlichkeit. Aus-
gaben in Höhe von 683 Euro treten mit einer Wahrscheinlichkeit von 0,0016227 auf. Julia
hat monatliche Ausgaben in Höhe von 844 Euro. Dieser Wert besitzt eine Wahrscheinlich-
3
Zur Erinnerung: Wir ziehen von allen Werten deren Mittelwert ab (=μ) und dividieren durch die
Standardabweichung σ. Daraus ergeben sich bspw. die Beta-Koeffizienten der Regression.
keit von 0,0027419. Diese Wahrscheinlichkeiten lassen sich grafisch in der Abb. 6.2 natür-
lich nur annähernd ablesen.
Auf diese Weise ist es möglich, für jeden konkreten Ausgabewert die Likelihood seines
Auftretens zu bestimmen. Der Ausdruck „Likelihood“ ist sinnvoller als der Begriff „Wahr-
scheinlichkeit“, denn die Wahrscheinlichkeit, Ausgaben in der Höhe von exakt 629,00 Euro
zu beobachten, ist fast gleich 0. Insbesondere bei kontinuierlichen metrischen Variablen
liegt dies auf der Hand. Likelihoods können aber als relative Wahrscheinlichkeiten aufge-
fasst werden. Die Wahrscheinlichkeit, bei einem Studierenden Ausgaben in Höhe von
844 Euro zu beobachten, ist (deutlich) größer als die Wahrscheinlichkeit, dass ein Studie-
render nur 683 Euro ausgibt. Genau diese Information vermitteln uns die Likelihood-Werte.
Die Höhe der Likelihood-Funktion der Abb. 6.2 zeigt die Likelihood für einen be-
stimmten konkreten Datenwert. Ihr Maximum hat die Likelihood bei Ausgaben in Höhe
von 832 Euro, dem Mittelwert. Je weiter ein bestimmter Wert der monatlichen Ausgaben
davon weg liegt, desto kleiner ist die Likelihood (die Wahrscheinlichkeit), dass er in unse-
rer Umfrage bei einem der befragten Studierenden auftritt.
Die Likelihood kann als ein Maß für die Übereinstimmung (den Fit) zwischen einer
Ausgabenhöhe und den Parametern der Grundgesamtheit – also hier unserem Mittelwert
von 832 Euro und unserer Standardabweichung von 145 Euro – aufgefasst werden. Dass
in unserer Umfrage ein Studierender mehr als 1500 Euro pro Monat ausgibt, ist extrem
selten und entsprechend winzig ist die Likelihood. Dies korrespondiert mit einem großen
z-Wert in der Gl. (6.1), während kleine z-Werte zu einer großen Likelihood führen. Eine
große Likelihood ist also Resultat eines guten Fits des Beobachtungswertes mit den Para-
metern der Grundgesamtheit. Tab. 6.2 enthält in Spalte 3 die Likelihoods der 5 Stu-
dierenden.
.003
.002
y
.001
0
400 600 800 1000 1200

x
Ausgaben
Abb. 6.2 Normalverteilung mit μ = 832 und σ = 145

Tab. 6.2 Individuelle Likelihoods und Log-Likelihoods

Name Ausgaben Likelihood Log Likelihood
Jens 683 0,0016227 −6,423638
Friederike 781 0,0025863 −5,957527
Julia 844 0,0027419 −5,899096
Silko 883 0,0025863 −5,957527
Ralf 981 0,0016227 −6,423638
Unser Problem ist aber, dass wir die Parameter (Mittelwert und Standardabweichung
eines Regressionskoeffizienten) in der Grundgesamtheit nicht kennen. Die ML-Schätzung
zielt darauf ab, die Parameter der Grundgesamtheit zu ermitteln, die am besten zu den
beobachteten Werten unserer Stichprobe passen. Das sind die Parameter, die die Like-
lihood maximieren. Allerdings haben wir ja eine ganze Reihe von Beobachtungen (siehe
oben die 5 Ausgabenwerte unserer 5 Studierenden). Daher müssen wir die gemeinsame
Likelihood dieser 5 Datenwerte maximieren.4
Die Wahrscheinlichkeitstheorie sagt uns, dass die gemeinsame Wahrscheinlichkeit un-
abhängiger Ereignisse das Produkt der Einzelwahrscheinlichkeiten ist. Bei einem fairen
Würfel ist die Wahrscheinlichkeit, eine Sechs zu würfeln, gleich 1/6, d. h. 0,1666 (bzw.
16,66 %). Die Wahrscheinlichkeit, zweimal hintereinander eine Sechs zu erhalten, liegt
bei 0,1666 × 0,1666, d. h. 0,0277, also 2,77 %. Dies gilt auch für die Likelihood-Werte.
Die Likelihood unserer 5 Beobachtungen (= N), d. h. der Studierenden aus Tab. 6.1, ent-
spricht dem Produkt der einzelnen Likelihoods. Die entsprechende Gleichung lautet:
 1 −0 ,5 ( Yi − µ ) 
2
L=∏ N
i =1  e σ2
 (6.2)
 2πσ
2


Rechts in Gl. (6.2) befindet sich die Gl. (6.1) für die Likelihood jeweils einer Beobach-
tung. Das Zeichen ∏ ist der Operator für die Berechnung von Produkten (so wie das
Summenzeichen ∑ die Aufsummierung bedeutet). Wir multiplizieren also die Likelihoods
der Ausgaben unserer 5 Studierenden.
Wenn wir diese 5 individuellen Likelihoods miteinander multiplizieren, erhalten wir
die Likelihood unserer Stichprobe von 5 Studierenden. Dies ist ein sehr kleiner Wert, der
um Platz zu sparen, in der Notation E-x ausgedrückt wird. Damit wird die Dezimalstelle
um x Stellen nach rechts verschoben. In unserem Beispiel beträgt er 4,82932E-14.
Der Wert der Likelihood der Stichprobe drückt aus, wie groß die relative Wahrschein-
lichkeit ist, genau diese Stichprobenwerte zu erhalten, wenn die Grundgesamtheit der
4
Den Mittelwert der Ausgaben aller Studierenden könnten wir auf der Grundlage unserer Stichprobe
natürlich auch mittels des OLS-Verfahrens schätzen (Auer und Rottmann 2015, S. 331). Dieser
OLS-Schätzer entspricht dem Mittelwert unserer Stichprobe. Prinzipiell stimmen die Schätzungen
des OLS-Verfahrens und des ML-Verfahrens hinsichtlich der Koeffizienten überein.
Ausgaben aller Studierenden normalverteilt ist, einen Mittelwert von 832 Euro und eine
Standardabweichung von 145 Euro aufweist.
Der extrem kleine Likelihood-Wert ist umständlich darzustellen und von der Software
schwer zu verarbeiten, da er ggf. an Rundungsgrenzen stößt. Dies wird vermieden, indem
der Logarithmus dieser Likelihoods verwendet wird. Dazu logarithmieren wir beide Sei-
ten der Gl. (6.2):
−0 ,5 ( Yi − µ )
2
N
1
LogL = ∑ log
2
σ
e (6.3)
i =1 2πσ 2
Diese sehen wir in der vierten Spalte der Tab. 6.2 (Log Likelihoods). Die Likelihood
und die Log-Likelihood besitzen an der gleichen Stelle der Ausgaben ihr Maximum. Weil
die Likelihoods, als eine Form von Wahrscheinlichkeiten, natürlich immer zwischen 0 und
1 liegen müssen, sind ihre Logarithmen negativ. Der Logarithmus von 1 ist gleich 0. Hö-
here Likelihoods führen zu größeren Log-Likelihoods, und eine absolut kleine negative
Log-Likelihood ist größer, da sie näher an 0 liegt.
Da der Wert der Likelihood und damit auch der Log-Likelihood von einer Reihe von
Faktoren – wie bspw. der Stichprobengröße und der Zahl der Variablen – abhängt, existiert
kein eindeutiger Wert, der eine gute oder schlechte Übereinstimmung (einen Fit) der
Schätzung mit dem wahren Mittelwert, anzeigt. Likelihood (und Log-Likelihood) sind nur
relativ interpretierbar: Ein größerer Wert ist immer besser als ein kleinerer Wert.
Die Likelihood der 683 Euro von Jens beträgt 0,0016227, und die dazugehörige Log-
Likelihood ist −6,423638. Für die 844 Euro, die Julia ausgibt, beträgt die Likelihood
0,0027419 und die Log-Likelihood ist −5,899096. Je näher die Log-Likelihood an 0 liegt
(also je größer sie ist), desto näher sind die individuellen Ausgaben am Mittelwert von
832 Euro.
Die einzelnen Log-Likelihoods unserer 5 Studierenden summieren wir auf und erhalten
so die gesamt Log-Likelihood unserer Stichprobe.5 Die Summe der 5 Log-Likelihoods in
Tab. 6.2 beträgt −30,661426. Genau wie die Likelihood ist die Log-Likelihood unserer
Studierenden ein Maß für die relative Wahrscheinlichkeit eine Stichprobe von 5 Studieren-
den mit den Ausgaben der Tab. 6.1 zu ziehen, die aus einer Grundgesamtheit stammen, die
normalverteilt mit einem Mittelwert von 832 und einer Standardabweichung von
145 Euro ist.
Tatsächlich wissen wir aber nicht, ob der Mittelwert der Grundgesamtheit 832 Euro
beträgt. Wir können aber wie eben beschrieben die Log-Likelihood berechnen, die resul-
tiert, wenn der Mittelwert bei 740 oder 780 Euro liegt und dasselbe für andere Mittelwerte,
bspw. 872 Euro und 924 Euro. Jedes Mal erhalten wir eine bestimmte aufsummierte
Log-Likelihood unserer Stichprobe. Anschließend vergleichen wir alle diese aufsummier-
5
Die gesamte Likelihood entspricht dem Produkt aller einzelnen Likelihoods. Da die Rechenregel
Log (X×Y) = Log(X) + Log (Y) gilt, führt dies zur oben genannten Aufsummierung der Log-Li-
kelihoods.
ten Log-Likelihoods. Der Mittelwert mit der größten Log-Likelihood (der nächsten an 0
gelegenen) ist die relativ beste Schätzung des Mittelwerts der Grundgesamtheit.6 Die Soft-
ware auf der Basis heutiger leistungsfähiger Rechenchips kann sehr schnell hunderte
solcher Log-Likelihoods für verschiedene Mittelwerte berechnen, vergleichen und das
Maximum identifizieren. Der Mittelwert, der zu diesem Maximum führt, ist die beste er-
zielbare Schätzung. Bei ihm ist der Abstand zwischen den (standardisierten) Ausgaben
unserer Stichprobe (den 5 Studierenden) und dem geschätzten Mittelwert minimiert.
Tab. 6.3 zeigt dies am Beispiel von 5 verschiedenen Mittelwerten und unseren 5 Studie-
renden. Bei Ausgaben in Höhe von 832 Euro ist mit einer Likelihood von −30,661426 das
Maximum erreicht. Kleinere oder größere Mittelwerte führen zu einer kleineren Li-
kelihood.
Grafisch wird die aufsummierte Log-Likelihood unserer Stichprobe für alle möglichen
Mittelwerte zwischen 750 und 900 Euro in der Abb. 6.3 wiedergegeben.
Abb. 6.3 zeigt, dass das Maximum der Log-Likelihood in Abhängigkeit vom Mittel-
wert bei 832 Euro pro Monat liegt. Dieser Mittelwert ist also genau die Schätzung des
Mittelwerts, die die Wahrscheinlichkeit, die Beobachtungen der Tab. 6.1 zu erhalten,
maximiert.
Im nächsten Schritt könnten wir analog eine Likelihood für die Varianz (σ2) schätzen
und dabei den Mittelwert 832 Euro unterstellen. Es ergibt sich eine geschätzte Log-
Likelihood-Funktion für die Varianz. Ihr Maximum ist die ML-Schätzung des Parameters
„Varianz“ (σ2). Deren Wurzel ist die Schätzung der Standardabweichung für den Mittel-
wert. Auf die Durchführung wird hier verzichtet.
Unser Beispiel illustriert die ML-Methode, wenn bei nur einer Variablen Y deren Mittel-
wert identifiziert werden muss. In der multiplen Regression mit mehreren Variablen sind
aber auch mehrere Koeffizienten zu schätzen. Beispielsweise lautet bei einer endogenen
Variablen Y und zwei exogenen Variablen X1 und X2 die Regressionsgleichung:
Y = b0 + b1X1 + b2X2 + u. Die drei Parameter b0, b1 und b2 müssen geschätzt werden. Wir
Tab. 6.3 Individuelle und Stichproben-Log-Likelihoods

Log-Likelihoods für Mittelwert:
Name 740 780 832 872 924
Jens −5,972937 −6,119429 −6,423638 −6,74516 −7,276907
Friede −5,935648 −5,895696 −5,957527 −6,092604 −6,381974
Julia −6,152889 −5,99308 −5,899096 −5,914316 −6,047872
Silko −6,381974 −6,147966 −5,957527 −5,89855 −5,935648
Ralf −7,276907 −6,856456 −6,423638 −6,178216 −5,972937
Summe −31,720355 −31,012627 −30,661426 −30,828846 −31,615338
6
Bzw. der absolut gesehen kleinsten Log-Likelihood. Die Varianz (das σ) in der Gl. (6.2) bzw. (6.3)
spielt für die Schätzung des Mittelwertes keine Rolle, wir können dafür irgendeinen beliebigen Wert
größer als 0 annehmen (Enders 2010, S. 61).
Log-Likelihood
−29,00
−30,66
−31,00
780 832 872 Mittelwert

Grundgesamtheit
Abb. 6.3 Die Log-Likelihood-Funktion
nehmen an, dass u normalverteilt ist, b0, b1 und b2 konstante Werte sind sowie die Matrix
der Beobachtungen X bei unterschiedlichen Stichproben fixiert ist. Dann ist auch die ab-
hängige Variable Y normalverteilt und ihre Dichtefunktion lautet:
−0 ,5 ( Yi − b0 − b1X1 i − b2 X 2 i )
2
1
f ( Yi ) =
2
σ
e (6.4)
2πσ 2
Die dazugehörige Gleichung für die Log-Likelihood ist:

−0 ,5 ( Yi − b0 − b1X1 i − b2 X 2 i )
2
N
1
LogL = ∑ log
2
σ
e (6.5)
2πσ 2
i =1
Ggf. sind sogar sehr viele Koeffizientenwerte (d. h. bedingte Mittelwerte) gleichzeitig
zu schätzen. Damit ergeben sich anstatt der Gl. (6.1), (6.2), (6.3), (6.4) und (6.5) deutlich
komplexere Funktionen: Die vielen Mittelwerte, Varianzen und Kovarianzen lassen sich
nur noch in Matrixschreibweise darstellen. Das Prinzip bleibt aber das gleiche.
Die ML-Schätzungen sind konsistent und zumindest asymptotisch erwartungstreu, ef-
fizient und normalverteilt. Sie erfüllen daher die Anforderungen, die an eine „gute“ Schät-
zung gestellt werden.
In einfachen Fällen (wie unserem obigen Beispiel) kann das Maximum der Log-
Likelihood-Funktion auch direkt (analytisch) durch Bildung der ersten Ableitung und
Nullsetzung berechnet werden. Bei vielen komplexeren Funktionen (bspw. Strukturglei-
chungsmodellen, Missing-Data-Schätzungen) müssen iterative Optimierungsverfahren
(Algorithmen) eingesetzt werden, um die Parameterschätzungen zu ermitteln, bei denen
die Log-Likelihood-Funktion ihr Maximum erreicht. Diese Iterationen ähneln unserem
„Ausprobieren“ in der Tab. 6.3. Die Log-Likelihood-Werte werden von SPSS und Stata
ausgegeben, und die Software hört mit ihren Maximierungsversuchen (= Iterationen) auf,
wenn sie feststellt, dass sich die Log-Likelihood nicht mehr weiter erhöht.
Unter Umständen gelingt es aber der Software nicht, ein solches Maximum zu errei-
chen, weil die Log-Likelihood bei der nächsten Iteration wieder fällt, dann wieder steigt,
dann wieder abnimmt usw. Dies wird als fehlende Konvergenz bezeichnet, zum Teil
nennt man dies auch „nicht konkav“ („not concave“ im Output von Stata). Die Log-
Likelihood-Funktion der Abb. 6.3 ist konkav. Bei ihr ist das Maximum leicht identifizier-
bar. Abb. 6.4 enthält einen komplizierteren Funktionsverlauf, bei dem das Maximum nicht
mehr so einfach feststellbar ist.
Die Funktion der Abb. 6.4 besitzt mehrere Maxima, von denen zwei unglücklicher-
weise auch noch fast gleich groß sind. In solchen Situationen wird die Ermittlung des
Maximums schwierig, denn iterative Methoden identifizieren unter Umständen nur ein
lokales Maximum. Ob sie das absolute Maximum identifizieren, hängt bspw. von den
Startwerten ab. Im simplen Fall nur eines einzigen Koeffizienten (bedingten Mittelwertes)
scheint das Problem noch überschaubar zu sein. Aber schon im Fall zweier Koeffizienten
ergibt sich eine dreidimensionale Oberfläche: sozusagen ein Gebirge mit Gipfeln, Tälern,
Sätteln, Senken, Hochebenen und Felsspalten. Hier ein Maximum zu berechnen – d. h.
den höchsten Gipfel zu identifizieren – ist deutlich schwieriger und bei einer Vielzahl von
Variablen (und damit bedingten Mittelwerten) extrem komplex.
Wenn hinsichtlich der Konvergenz der ML-Schätzung Probleme auftreten, zeigen
SPSS und Stata dies an. Die einschlägige Literatur gibt weitere Hinweise zur Behandlung.
Gegebenenfalls ist aber das Modell nicht schätzbar.
Eingängige Erläuterungen – an denen sich die obigen Ausführungen orientieren – fin-
den sich bei Enders (2010, S. 56–85) sowie Urban und Mayerl (2018, S. 379–387) und
Pindyck und Rubinfeld (1991, S. 67–69, 239–242, 279–281). Sehr zu empfehlen sind die
konkreten Hinweise von Usern, bspw. bei Konvergenzproblemen. Für Stata ist das
Log-Likelihood
Mittelwert Grundgesamtheit
Abb. 6.4 Komplexe Log-Likelihood-Funktion

Statalist-Forum bestens geeignet (www.statalist.org). Für SPSS existiert eine entspre-

chende Diskussionsplattform (www.spss-forum.de).
6.2 Anwendungen des Maximum-Likelihood-Verfahrens
Maximum-Likelihood-Test
Im Rahmen einer OLS-Regression überprüfen wir das Gesamtmodell mittels des F-Tests.
Bei einer ML-Schätzung gibt es aber keine Abweichungsquadrate, mit einem erklärten
und einem unerklärten Teil. Bei einer ML-Schätzung verwenden wir stattdessen den soge-
nannten Likelihood-Ratio-Test (LR-Test). Die Likelihood-Ratio-Teststatistik wird in der
Regel als λ bezeichnet. Sie ist wie folgt definiert:
λ = 2 ( LogLikelihood _ Modell − LogLikelihood _ 0 ) (6.6)

Der linke Teil in der Klammer ist der Wert der Log-Likelihood unseres Modells. Der
Ausdruck „LogLikelihood_0“ (das Basismodell) ist der Wert der Log-Likelihood, wenn
das Modell keine einzige erklärende Variable außer der Konstante enthält. Beide Teile sind
negativ, und die Log-Likelihood unseres Modells sollte näher bei 0 liegen, also größer sein
als das Basismodell ohne erklärende Variablen. Der Ausdruck wird dann insgesamt positiv
und umso größer, je besser unser Modell die Beobachtungen unserer Stichprobe erklärt.
Beträgt die LogLikelihood_Modell bspw. −2,26 und die LogLikelihood_0 des Basismo-
dells −6,48 so ergibt sich:
λ = 2 ( −2, 26 − −6, 58 ) d.h. λ = 2 ( −2, 26 + 6, 58 ) bzw. λ = 8, 64 (6.7)

Unter der Nullhypothese, dass alle exogenen Variablen keinen Einfluss ausüben, ist λ
Chi2-verteilt. Wie bei Signifikanztests üblich, lehnen wir die Nullhypothese ab, wenn λ
einen kritischen Wert überschreitet. Dieser kritische Wert ergibt sich aus dem gewählten
Signifikanzniveau. Auf dem 1-%-Niveau ist der kritische Wert größer als auf dem
5-%-Niveau.
Der Likelihood-Ratio-Test wird in fast allen gängigen Lehrbüchern zur Regression er-
klärt. Wooldridge (2018) enthält eine verständliche Darstellung.
Goodness-of-Fit-Test
Als Maßstab für die Erklärungskraft des Modells verwendet man in der OLS-Regression
häufig den (korrigierten) Determinationskoeffizienten R2 (bzw. korrigiertes R2).7 Erklärte
Varianzanteile sind bei den ML-Schätzungen aber nicht vorhanden. Daher ziehen wir zur
Beurteilung der Modellgüte bei der ML-Schätzung sogenannte Pseudo R2-Werte heran.
Ein gängiges Pseudo-R2 lautet:
7
Darauf aufbauende Kriterien zur Beurteilung der relativen Güte verschiedener Modellspezifikatio-
nen sind das AIC und das BIC (siehe Stoetzer 2017, Kap. 6.3.2).
Literatur 369
LogLikelihood _ Modell
Pseudo − R 2 = 1 −
LogLikelihood _ 0
Rechts steht über im Zähler der Wert der Log-Likelihood unseres Modells. Der Aus-
druck im Nenner LogLikelihood_0 ist der Wert der Log-Likelihood, wenn das Modell
keine einzige erklärende Variable außer der Konstanten enthält. Beide Teile sind negativ,
womit der Bruch positiv wird. Die Log-Likelihood unseres Modells sollte näher bei 0
liegen als das Basismodell ohne erklärende Variablen. Der Zähler ist absolut sehr klein
und der Nenner absolut groß. Der Bruch wird daher umso kleiner, je besser unser Modell
unsere Beobachtungen erklärt.
Im Ergebnis liegt der Pseudo-R2-Wert bei 0, wenn unser Modell nicht brauchbarer ist
als das Basismodell und näher bei 1, wenn unser Modell „besser“ ist. Die Interpretation
des Pseudo-R2 gleicht insoweit der Interpretation des R2 der OLS-Regression. Für die
 −2, 26 
obigen Beispielwerte gilt: Pseudo − R 2 = 1 −   = 1 − 0, 34 = 0, 66. Allerdings ist
 −6, 58 
dies keine Aussage zur erklärten Varianz der abhängigen Variablen! Auch kleine Pseudo-
R2-Werte sind daher nicht als Indizien für ein „schlechtes“ Modell zu interpretieren.
Pseudo-R2-Werte von 0,2 bis 0,4 sind insoweit bereits gute oder sehr gute Ergebnisse.
Außerdem ist zu beachten, dass in der Literatur eine Reihe von Varianten zur Berech-
nung von Pseudo-R2-Werten existieren, die bei einer identischen Modellspezifikation und
gleicher Datenbasis unterschiedlich hoch ausfallen. Hierzu gehören bspw. die Pseudo-R2
von Cox & Snell sowie von Nagelkerke. Diese werden von SPSS berechnet. Eine Be-
schreibung und Erklärung dazu liefern Field (2018, S. 1118–1119, 1144–1146) und
Baltes-Götz (2012, S. 37–39). Stata verwendet als Default McFaddens Pseudo-R2. Dies
wird von Acock (2016, S. 346) und Williams (2018) erläutert.
Kennzahlen für die Güte der Anpassung der Spezifikation an die vorhandenen Daten
werden jeweils im Kontext des Schätzverfahrens dargestellt – so bspw. im Kap. 2 zu den
Logit-, Probit-Schätzungen bei dichotomen abhängigen Variablen.
Literatur
Auer, B., & Rottmann, H. (2015). Statistik und Ökonometrie für Wirtschaftswissenschaftler (3.
Aufl.). Berlin: Springer.
Baltes-Götz. (2012). Logistische Regressionsanlyse mit SPSS. https://www.uni-trier.de/fileadmin/
urt/doku/logist/logist.pdf. Zugegriffen am 01.07.2019.
Dohmen, D., Thomsen, M., Yelubayeva, G., & Ramirez, R. (2019). Ermittlung der Lebenshaltungs-
kosten von Studierenden: Aktualisierte Berechnung anhand der 21. Sozialerhebung des Deut-
schen Studentenwerks, Deutsches Studentenwerk, FiBS – Forschungsinstitut für Bildungs- und
Sozialökonomie, Berlin https://www.fibs.eu/fileadmin/user_upload/Literatur/FiBS_DSW_Stu-

dentischer_Warenkorb_2018_190108.pdf. Zugegriffen am 29.09.2019.
Enders, C. K. (2010). Applied missing data analysis. New York/London: The Guilford Press.
Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications.
Hill, R. C., Griffiths, W. E., & Lim, G. C. (2008). Principles of econometrics (3. Aufl.). Hobo-
ken: Wiley.
Pindyck, R. S., & Rubinfeld, D. L. (1991). Econometric models & economic forecasts (3. Aufl.).
New York: McGraw Hill.
Stoetzer, M.-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung
(Bd. 1). Berlin: Springer.
Aufl.). Wiesbaden: Springer VS.
Williams, R. (2018). Scalar measures of fit: Pseudo R2 and information measures (AIC & BIC). ht-
tps://www3.nd.edu/~rwilliam/stats3/L05.pdf. Zugegriffen am 10.07.2019.
Western Education.
Stichwortverzeichnis
A B
ACF 220. Siehe auch Autokorrelationsfunktion Bartlett´s Test 131
ADF-Test 144, 145, 152, 171, 193–198, 217 Bayes information criterion 151. Siehe
AIC 41, 145, 151, 152, 156, 171, 179, 192, auch BIC
193, 205, 208, 368 Beobachtung, einflussreiche 51, 53–55, 57, 83,
Akaike information criterion 195. Siehe 85, 95, 256
auch AIC Between-Abweichung 233, 236, 249,
AMOS 311, 327, 328, 333 264, 279
Antizipationseffekt 16, 19, 263 BIC 41, 151, 152, 156, 171, 179, 192, 193,
ARIMA 174, 177–180, 197, 201, 202, 204, 205, 208
205, 219 Big Data 3
ARMAX 156, 180, 181, 208, 209 Bootstrapping 57, 58, 251
AR-Modell 118, 133 Box-Tidwell-Test 51–53, 76, 78, 90, 92
Augmented Dickey-Fuller-Test 144 Breusch-Godfrey-Test 130, 131, 133, 152, 184,
Ausreißer 51, 53, 54, 55, 57, 83, 85, 94, 95, 97, 187, 192
122, 131, 164, 256 Breusch-Pagan-Test 252, 253, 280
Ausschluss, fallweiser 305, 311
Autokorrelationsfunktion 124, 125, 127, 151,
152, 156, 159, 165, 175, 183, 186, C
191, 213, 214, 219, 220 Cauchit-Funktion 51, 65
parteille 156 Chancenverhältnis 37–39, 42, 46, 62, 71, 87, 94.
partielle 124, 125, 128, 159, 160, 171, 173, Siehe auch Odds Ratio
176, 177, 202, 219 Chow-Test 146, 147, 173, 198
Average Treatment Effect (ATE) 8 Cloglog-Funktion 65, 101
Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9
372 Stichwortverzeichnis
Cochrane-Orcutt-Methode 132, 163, 165 G

Cochrane-Richtlinie 7 GEE 272–275
Common Trends Assumption 251 GENLIN 68, 69, 79, 81, 267, 272
Cook’s D 54, 84, 86, 95 Goodness of Fit 351, 368
Count data 67. Siehe auch Zählvariablen Granger-Kausalität 15, 16, 17, 20, 153, 154,
Cox&Snell R2 76. Siehe auch Pseudo-R2 210, 211
D H
Data HAC-Standardfehler 153, 200, 242
Mining 3, 22 Hausman-Test 253, 280, 282, 283
generating process 6 Hebelwert 54, 55, 84, 97
Datenanalyse, explorative 3, 17, 73, 88, 264 Heterogenität, unbeobachtete 8–10, 16, 21,
Daten, gepoolte 122, 228, 237 233, 238, 239, 249, 259, 287, 292
DFBETA 54, 84, 85 Heteroskedastie 51, 55–57, 65, 77, 78, 82,
DF-GLS Test 145. Siehe auch ADF-Test 90–93, 132, 134, 147, 156, 198, 205,
Dickey-Fuller Test 144, 145, 171, 193 239, 240, 245, 256, 267, 280,
DiD-Methode. Siehe Differenzen-in- 283, 336
Differenzen Homogenitätstest 269
Differenzen-in-Differenzen 237, 252, Hosmer-Lemeshow-Test 51, 52, 57, 76, 89
257, 259–261 Hysterese 117
Differenz, erste 14, 119, 120, 150, 155, 157,
159, 173, 198
Diskriminanzanalyse 32
I
Distributed Lag 116, 118
Identifikationsproblem 6
Drift 138, 140, 143, 144, 150, 195
Imputationsmethode 306
Durbin-Watson 129, 131, 165, 171
Instrumentvariable 13, 153, 263
Interaktionseffekt 50–52, 58, 76, 77, 90, 146,
E 147, 200, 259, 260, 293, 308,
Einheitswurzel 146. Siehe auch Unit-Root-Test 326, 350
Endogenität 9, 136, 153, 238, 239, Intervention 12. Siehe auch Treatment
255, 263
Exogenität 132, 134, 136, 153, 255
Experiment, natürliches 13, 248, 256 K
Kausalanalyse 9
Kausalrichtung, umgekehrte 9, 19
F Klassifikationstabelle 40, 43, 89
Feasible Generalized Least Squares (FGLS) Kointegration 157
132, 245 kontrafaktisch 7
Fehlschluss, ökologischer 9 Korrelation, serielle 125–127, 153
Feldexperiment 10 Korrelogramm 127, 128, 131
FIML-Verfahren 310, 311, 327, 334, 341, 348,
349, 351, 352
Fixe-Effekte-Methode 237, 240, 242, 243, 252, L
253, 267, 278, 279 Laborexperiment 10
Full-Information-Maximum-Likelihood 304. Lag 115. Siehe auch verzögerte Wirkungen
Siehe auch FIML-Verfahren Levene-Test 272, 280
Stichwortverzeichnis 373
„Leverage“ 53. Siehe auch Hebelwert O

Likelihood-Funktion 362, 365, 366 Odds Ratio 38, 39, 40, 42, 46, 56, 71, 87, 340
Likelihood-Ratio-Test 40, 41, 43, 45, 76, 87, OLS-Schätzung, gepoolte 237
88, 147, 340 Omitted Variable Bias 9, 10, 110, 117, 133,
Lineares Wahrscheinlichkeitsmodell 34. Siehe 142, 149, 238, 249, 263
auch LPM-Modell One-Way-Modell 242
Link-Funktion 36, 43, 51, 58, 65, 74–76, 92, Ordered
101, 272 Logit 64, 308
Listwise deletion 299. Siehe auch fallweiser Probit 64, 70
Ausschluss Overdispersion 55
Little´s Test 303, 319, 320, 340 Overfitting 21
Ljung-Box-Test 130, 131, 159, 162, 171, 176,
177, 181
Logits 35, 37, 40, 42, 46, 56, 77, 87, 104 P
Long Format 231, 233, 276, 326 PACF. Siehe auch partielle
LPM-Modell 34, 91, 99, 102 Autokorrelationsfunktion
LSDV-Verfahren 235, 241, 244, 252, 254, 267, Panel
280, 288, 292 balanced 231, 233
unbalanced 231, 233
Panelmortalität 229
M Parallelitätstest 65
Machine Learning 3 Pearson-Residuum 53, 54, 84, 85, 96, 97
MAR 303. Siehe auch Missing at Random Persistenz 117, 129, 155, 159, 168, 181,
Maßnahme 6. Siehe auch Treatment 189, 193
Matching-Verfahren 14 Pfaddiagramm 327, 328, 332, 349, 350
Maximum Likelihood 155, 202, 245, 310, 330, PLUM (Polytomous Universal Model) 65,
349, 351, 359 69, 73, 83
MCAR 301. Siehe auch Missing completely Poisson-Regression 31, 67, 68, 264
at random Portmanteau Test 130. Siehe auch
McFadden´s R2 43. Siehe auch Pseudo-R2 Ljung-Box-Test
Missing at Random (MAR) 303 Prognosemodell 20, 73, 88, 110, 111, 118, 141,
Missing completely at random (MCAR) 301 145, 153, 154, 156, 173, 179, 181,
Missing not at random (MNR) 304 193, 200, 205, 206, 264
Missing values 111, 298, 300 Pseudo-R2 40, 41, 43, 52, 64, 76, 368, 369
Mittelwertimputation 304, 306, 307, 321,
322, 341
ML-Schätzung 36. Siehe auch Maximum Q
Likelihood QLR-Statistik 147
MNR 304. Siehe auch Missing not at random Q-Test 130. Siehe auch Ljung-Box-Test
Modell, autoagressives 118. Siehe auch
AR-Modell
Multikollinearität 51, 58, 59, 63, 64, R
117, 152 Randomized Controlled Trial 10. Siehe
Multiple Imputation 304, 307, 311, 313, 324, auch RCT
342, 343, 349, 352 Random Walk 137, 138, 145
Ratchet-Effekt 117
Rauschen, weißes 9, 134, 155, 177, 181, 202
N RCT (Randomized Controlled Trial) 10–13,
Nagelkerke R2 43. Siehe auch Pseudo-R2 20, 61, 301
Newey-West-Standardfehler 132, 133, 188 Rubin-Neyman-Kausalmodell 6, 7, 20, 246
374 Stichwortverzeichnis
S U
Scheinkorrelation 141, 142, 143, 148, 157, 193, Unit-Root-Test 143, 146
197, 254
Schwankung, saisonale 138, 150, 165, 208, 238
Selbstselektion 9, 21, 233, 238, 249, 258, 259, V
287, 312 Validität
Separierung, komplette 51, 58, 59, 63, 100, 103 externe 11
Short Format 231 interne 11
Simpson´s Paradox 9 Variable
Simultanität 9, 10, 16, 135, 136 latente 18, 34, 57
Stable Unit Treatment Value Assumption 11. multimodale 31
Siehe auch SUTVA-Annahme multinominale 65
Standardfehler, robuste 57, 77, 78, 81, 90, 91, ordinale 31, 64
239, 256, 274, 275, 280, 284 trunkierte 31, 68
Stationarität 123, 136, 138, 140, 141, 143, 148, zensierte 31, 68
152, 155, 193, 194, 196, 220, 255, 264
Stichprobenumfang 63, 122
Streudiagramm 2, 85, 97, 99, 105, 111, 127,
143, 258 W
Strukturbruch 140, 145–147, 173, 199–201 Wide Format 231
Strukturgleichungsmodell 3, 17, 19, 310, 327, Wirkung 255
349, 366 verzögerte 114, 117, 118, 263
SUTVA-Annahme 251 Within-Abweichung 233, 236,
244, 278, 292
T
Treatment 7, 8, 10, 11, 17, 148, 238, 245, 246, Z
257, 259, 261 Zählvariable 31, 67
Two-Way-Modell 267 Zellenbesetzung 51, 59, 63

Stoetzer2020 Book RegressionsanalyseInDerEmpiris

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Stoetzer2020 Book RegressionsanalyseInDerEmpiris

Hochgeladen von

Copyright:

Verfügbare Formate

Matthias-W.

ISBN 978-3-662-61437-2 ISBN 978-3-662-61438-9

• ob diese metrisches, ordinales oder nominales Skalenniveau besitzen,

Entwicklung vorherzusagen oder insbesondere kausal zu erklären. Einführend stellt

• Welche Fragestellung kann ich mit welchem Regressionsverfahren untersuchen?

Aufbau des Buches

Onlineeinführungen/Ressourcen zu SPSS und Stata

• UCLA (University of California Los Angeles – IDRE): ats.ucla.edu/stat/

1 Einführung: Kausale Aussagen und Prognosemodelle������������������������������������ 1

3 Zeitreihenanalyse und dynamische Modelle ���������������������������������������������������� 109

5 Fehlende Datenwerte/Missing Values���������������������������������������������������������������� 297

• deskriptive und explorative Datenanalysen kennzeichnen können,

cc Wichtige Grundbegriffe Explorative Datenanalyse, Granger-Kausalität, Rubin-­

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 1

Regressionsmodelle können im einfachsten Fall zur Ermittlung und Beschreibung von

1.2 Deskriptive und explorative Datenanalyse

Übersicht 1.1 Elemente explorativer Datenanalyse

1.3 Kausale Schlussfolgerungen

1.3.1 Kausalität als Problem

Praktisches Beispiel: Der unklare Nutzen des Tempolimits

Im Dezember 2019 hat Bundesumweltministerien Svenja Schulze (SPD) eine allge-

Abb. 1.1 Zahl der Störche und Geburtenrate

­ aten der amtlichen Statistik, schwierig. Probleme kausaler Schlussfolgerungen mittels

1.3.2 Das Rubin-Neyman-Kausalmodell

Medikamenten, Operationsmethoden und Behandlungsverfahren Richtlinien und Emp-

Frage, ob die projektbezogene Förderung (Subventionierung) von Innovationen die Zahl

D i = YiT - YiK (1.1)

Da wir üblicherweise unterstellen, dass eine Stichprobe vorliegt, handelt es sich um

Übersicht 1.2 Probleme der Kausalanalyse

Bei F&E-Subventionen ist wahrscheinlich, dass Unternehmen mit stärkerer Innovati-

Praktisches Beispiel: Was wirkt wirklich in der Entwicklungshilfe?

Im Rahmen eines kontrollierten randomisierten (Feld-)Experiments die kausale Wir-

Beobachtungsdaten (Umfragedaten, Zensusdaten, Daten der amtlichen Statistik) ange-

Übersicht 1.3 Quasiexperimentelle Verfahren der Kausalanalyse

Praktisches Beispiel: The Achieving Society 1961

1.3.4 Strukturgleichungsmodelle (Kausalmodelle)

Höchster Schul- Hochschul-

Abb. 1.2 Rekursives Modell des Hochschulstudiums

• X geht Y zeitlich voraus

1.3.5 Fazit: Kausale Identifikation oder Fiktion?

Das Rubin-Neyman-Kausalmodell ist prinzipiell am überzeugendsten. In den obigen

1.4 Prognosemodelle und Klassifikationsmodelle

Ein wichtiges praktisches Anwendungsgebiet der Regressionsanalyse sind Prognosen.

1.5 Ausblick: Data Mining, Big Data und Deep Learning

Übung 1.1: Tempolimit auf Autobahnen

Übung 1.2: Wählerverhalten

Übung 1.3: Akkreditierung von Studiengängen

Übung 1.4: Würstchenparadox

Übung 1.5: Einflussfaktoren auf die Entscheidung, zu studieren

Übung 1.6: Kausale Effekte der Farbe eines Pkw

Freedman, D. A. (2005). Statistical models for causation. https://www.stat.berkeley.edu/~census/651.

cc Wichtige Grundbegriffe Kategoriale Variable, Logistische Regression, Probit-Ana-

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 29

2.3 Logistische Regression (Logit-, Probit-Analyse)

2.3.1 Der Ansatz der logistischen Regression

Tab. 2.1 Formen abhängiger Variablen mit begrenztem Wertebereich

Übersicht 2.1: Anwendungsfälle der binär logistischen Regression

solcher dichotomen (zweiwertigen bzw. binären) Fragestellungen finden sich in Übersicht

Abb. 2.1 Lineare Schätzung einer binären abhängigen Variable

Eine solche in Abb. 2.1 wiedergegebene OLS-Schätzung der Eigentumswahrschein-

Abb. 2.2 Nichtlinearer Zusammenhang bei binärer abhängiger Variable

Standardnormalverteilung andererseits. Letztere wird als Probit-Schätzung (Probit-Mo-

Schließlich muss noch eine Entscheidungsregel eingeführt werden, ab welcher ge-

Abb. 2.3 Der Verlauf der Logit-Funktion

1 Einführung: Kausale Aussagen und Prognosemodelle�� 1

3 Zeitreihenanalyse und dynamische Modelle �� 109

5 Fehlende Datenwerte/Missing Values�� 297

cc Wichtige Grundbegriffe Explorative Datenanalyse, Granger-Kausalität, Rubin-

1.2 Deskriptive und explorative Datenanalyse

1.3 Kausale Schlussfolgerungen

1.3.1 Kausalität als Problem

aten der amtlichen Statistik, schwierig. Probleme kausaler Schlussfolgerungen mittels

1.3.2 Das Rubin-Neyman-Kausalmodell

1.3.4 Strukturgleichungsmodelle (Kausalmodelle)

1.3.5 Fazit: Kausale Identifikation oder Fiktion?

1.4 Prognosemodelle und Klassifikationsmodelle

1.5 Ausblick: Data Mining, Big Data und Deep Learning

2.3 Logistische Regression (Logit-, Probit-Analyse)

2.3.1 Der Ansatz der logistischen Regression

2.3.2 Modellschätzung und Interpretation

2.3.3 Voraussetzungen und Probleme

2.3.4 Ergänzungen und Fazit

2.4 ndere Formen abhängiger Variablen mit

2.4.1 Ordinale und multinomiale abhängige Variablen

2.4.2 Zählvariablen und spezielle Variablenbeschränkungen

2.5 Durchführung in SPSS und Stata

scheinlichkeit besitzen (Koeffizientenschätzung −1,303). In Abb. 2.21 beträgt der Koeffizi-