Sie sind auf Seite 1von 15

Reihenherausgeber: Prof. Dr. Holger Dette Prof. Dr.

Wolfgang Hrdle

Statistik und ihre Anwendungen


Azizi Ghanbari, S. Einfhrung in die Statistik fr Sozial- und Erziehungswissenschaftler 2002 Bickebller, H.; Fischer, C. Einfhrung in die Genetische Epidemiologie 2007 Brunner, E.; Munzel, U. Nichtparametrische Datenanalysen 2002 Dehling, H.; Haupt, B. Einfhrung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage 2004 Dmbgen, L. Stochastik fr Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, J.; Hrdle, W.; Hafner, C. Einfhrung in die Statistik der Finanzmrkte 2. Auflage 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Multivariate Analysemethoden 2003 Hassler, U. Stochastische Integration und Zeitreihenmodellierung 2007 Hilgers, R. -D.; Bauer, R.; Scheiber, V. Einfhrung in die Medizinische Statistik 2. Auflage 2007 Kohn, W. Statistik Datenanalyse und Wahrscheinlichkeitsrechnung 2005 Krei, J. -P.; Neuhaus, G. Einfhrung in die Zeitreihenanalyse 2006 Ligges, U. Programmieren mit R 2. Auflage 2007 Meintrup, D.; Schffler, S. Stochastik Theorie und Anwendungen 2005 Plachky, D. Mathematische Grundbegriffe der Stochastik 2002 Pruscha, H. Statistisches Methodenbuch Verfahren, Fallstudien, Programmcodes 2005 Schumacher, M.; Schulgen, G. Methodik klinischer Studien 2. Auflage 2007 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004 Zucchini, W.; Schlegel, A.; Nenadic, O.; Sperlich, S. Statistik fr Bachelor- und Masterstudenten 2009

Ludwig Fahrmeir Thomas Kneib Stefan Lang

Regression
Modelle, Methoden und Anwendungen

Zweite Auflage

1C

Professor Dr. Ludwig Fahrmeir Institut fr Statistik Ludwig-Maximilians-Universitt Mnchen Ludwigstrae 33 80539 Mnchen Deutschland ludwig.fahrmeir@stat.uni-muenchen.de Prof. Dr. Thomas Kneib Institut fr Mathmatik Carl von Ossietzky Universitt Oldenburg 26111 Oldenburg Deutschland thomas.kneib@uni-oldenburg.de

Prof. Dr. Stefan Lang Institut fr Statistik Leopold-Franzens-Universitt Innsburg Universittsstrae 15 6020 Innsburg sterreich stefan.lang@uibk.ac.at

ISBN 978-3-642-01836-7 e-ISBN 978-3-642-01837-4 DOI 10.1007/978-3-642-01837-4 Springer Heidelberg Dordrecht London New York
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet ber http://dnb.d-nb.de abrufbar. Springer-Verlag Berlin Heidelberg 2007, 2009 Dieses Werk ist urheberrechtlich geschtzt. Die dadurch begrndeten Rechte, insbesondere die der bersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulssig. Sie ist grundstzlich vergtungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und MarkenschutzGesetzgebung als frei zu betrachten wren und daher von jedermann benutzt werden drften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf surefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)

Vorwort zur 1. Auage

Regression ist die wohl am hugsten eingesetzte statistische Methodik zur Analyse ema pirischer Fragestellungen in Wirtschafts-, Sozial- und Lebenswissenschaften. Dementsprechend existiert auch eine Vielfalt von Modellklassen und Inferenzmethoden, ausgehend von der klassischen linearen Regression bis hin zur modernen nicht- und semiparametrischen Regression. Zu den meisten speziellen Klassen von Regressionsmodellen gibt es bereits eigene Lehrbcher. Diese variieren zum Teil stark in Stil, mathematischu theoretischem Niveau und Anwendungsorientierung. Warum nun noch ein Buch uber Re gression? Einer hohen Zahl von einfhrenden Texten zur linearen Regression, die sich voru nehmlich an Studierende und Praktiker aus verschiedenen Anwendungsbereichen richten, steht eine vergleichsweise kleine Zahl von Texten zur modernen nicht- und semiparametrischen Regression gegenber, die jedoch in mathematisch-formaler Hinsicht wesentlich u anspruchsvoller und auch deutlich theoretischer angelegt sind. Ziel dieses Buches ist eine anwendungsorientierte, einheitliche Einfhrung in die parau metrische, nicht- und semiparametrische Regression, mit der diese bestehende Lcke u zwischen Theorie und Praxis geschlossen wird. Wesentliches Auswahlkriterium fr die u behandelten Methoden ist dabei insbesondere die Verfgbarkeit geeigneter, benutzeru freundlicher Software gewesen. Auf solider formaler Basis werden die wichtigsten Modelle und Verfahren der Regressionsanalyse dargestellt und deren sachgerechte Anwendung vermittelt. Wir sehen dies sowohl fr den Fortschritt in vielen Anwendungsdisziplinen u als auch fr die Entwicklung der methodischen Statistik, die ihre Motivation aus neuu en praktischen Herausforderungen erhlt, als wichtig an. Ein ahnliches Ziel, mit etwas a anderen Schwerpunkten, verfolgen Ruppert, Wand & Carroll (2003) mit ihrem Buch Semiparametric Regression. Damit wendet sich dieses Buch insbesondere an Studierende, Dozenten und Praktiker in den Wirtschafts-, Sozial und Lebenswissenschaften, an Studierende und Dozenten des Fachs Statistik, sowie an Mathematiker und Informatiker mit Interesse an statistischer Modellierung und Datenanalyse. Das Buch ist soweit wie mglich eigenstndig lesbar o a und setzt lediglich Kenntnisse zur elementaren Wahrscheinlichkeitsrechnung und Statistik voraus, wie sie etwa in dem Einfhrungsbuch von Fahrmeir, Knstler, Pigeot & u u Tutz (2007) vermittelt werden. Teile des Buches, die kompliziertere Details behandeln oder zustzliche Informationen beinhalten, die nicht unmittelbar zum Verstndnis der a a vorgestellten Methoden notwendig sind und damit beim ersten Lesen ubersprungen wer und am Ende durch das Symbol den knnen, werden am Anfang durch das Symbol o am Rand gekennzeichnet. Die wichtigsten Denitionen und Aussagen werden in Ksten a kompakt zusammengefasst. In zwei Anhngen werden die notwendigen Grundlagen zur a Matrix-Algebra, sowie zur Wahrscheinlichkeitsrechnung und induktiven Statistik kompakt dargestellt. Abhngig von Interessen und Schwerpunkten knnen Teile des Buches auch unabhngig a o a von anderen Teilen und auch in vernderter Reihenfolge gelesen werden: a

VI

Vorwort zur 1. Auage Kapitel 2 bietet eine einfhrende Ubersicht zu parametrischen sowie nicht- und semipau rametrischen Regressionsmodellen, wobei auf die statistische Inferenz und technische Details bewusst verzichtet wird. Die Kapitel 1 3 sind als Einfhrung in lineare Modelle geeignet. u Lineare gemischte Modelle (Kapitel 6.1 6.6) knnen als Erweiterung linearer Modelle o direkt anschlieend, ohne Vorkenntnisse aus den Kapiteln 4 und 5, gelesen werden. Die Kapitel 1 5 umfassen parametrische Regressionsmodelle fr stetige und diskrete u Zielvariablen. Schlielich knnen auch die Kapitel 1 3, 7 und die Abschnitte 8.1 8.3 als Einfhrung o u in die parametrische und semiparametrische Regression fr stetige Zielvariablen stuu diert werden. Darauf aufbauend sind Erweiterungen fr diskrete Zielvariablen dann in Kapitel 4 u (generalisierte lineare Modelle), Kapitel 5 (kategoriale Regression), Abschnitt 6.7 6.8 (generalisierte lineare gemischte Modelle) und Abschnitt 8.4 (strukturiert-additive Regression) dargestellt.

Zahlreiche Anwendungsbeispiele aus unterschiedlichen Bereichen illustrieren die Modelle und Methoden. Die meisten zugehrigen Datenstze sind uber die Homepage zum Buch o a http://www.statistik.lmu.de/~kneib/regressionsbuch/ beziehungsweise uber http://www.springer.de erhltlich und ermglichen so auch das eigenstndige Studium mit Hilfe realer Beispiele. a o a Darber hinaus enthlt die Homepage auch Hinweise zu statistischer Software mit deu a ren Hilfe die vorgestellten Verfahren angewendet werden knnen, neueste Informationen o zum Buch und ausfhrlichere Versionen der Appendices zur Matrix-Algebra sowie zur u Wahrscheinlichkeitstheorie und Inferenz. Wie fast immer verbleiben auch in diesem Buch einige Lcken. Diese betreen insbeu sondere Regressionsmodelle fr Lebensdauern und multivariate Zielvariablen. Da unsere u Vorgehensweise eher explorativ ausgerichtet ist, haben wir auch bewusst auf viele spezielle Tests, die insbesondere in der konometrischen Literatur populr sind, verzichtet. o a Fr die Hilfe und Untersttzung beim Schreiben von Teilen des Textes, bei der Ausu u arbeitung von Beispielen und beim Korrekturlesen bedanken wir uns insbesondere bei Kathrin Dallmeier, Oliver Joost, Franziska Kohl, Jana Lehmann, Cornelia Oberhauser, Sylvia Schmidt, Sven Steinert und Peter Wechselberger. Unser Dank gilt auch Lilith Braun und Christiane Beisel vom Springer Verlag fr die stets freundliche, sehr gute und u vor allen Dingen geduldige Zusammenarbeit.

Mnchen & Innsbruck, u Februar 2007

Ludwig Fahrmeir Thomas Kneib Stefan Lang

Vorwort zur 2., durchgesehenen Auage

Bei der vorliegenden 2. Auage handelt es sich um eine durchgesehene und verbesserte Version der ersten Auage. Wir danken allen Kollegen, Freunden, Mitarbeitern und Studenten fr Hinweise auf Fehler und Unstimmigkeiten ebenso wie fr die positiven u u Rckmeldungen, die mageblich zur Fertigstellung dieser 2. Auage beigetragen haben. u Unser Dank gilt auerdem Niels Peter Thomas vom Springer Verlag fr die Untersttzung u u bei der zgigen Erstellung der 2. Auage. u Um eine dauerhaft zugngliche Internet-Prsenz fr das Buch zu schaen, ist die Homea a u page nun unter http://www.regressionbook.org/ erreichbar.

Mnchen, Oldenburg & Innsbruck, u Mai 2009

Ludwig Fahrmeir Thomas Kneib Stefan Lang

Inhaltsverzeichnis

Einf hrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 1.1 Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Erste Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Beschreibung der Verteilung der Variablen . . . . . . . . . . . . . . . . . . . . . 1.2.2 Grasche Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stetige erklrende Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Kategoriale erklrende Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a

1 4 11 11 13 13 16

Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1 Einfhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 u 2.2 Lineare Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.1 Das einfache lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.2 Das multiple lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Regression bei binren Zielvariablen: Das Logit-Modell . . . . . . . . . . . . . . . . 30 a 2.4 Gemischte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.5 Einfache nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 Additive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.7 Generalisierte additive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.8 Geoadditive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.9 Modelle im Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.9.1 Lineare Modelle (LM, Kapitel 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.9.2 Logit-Modell (Kapitel 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.9.3 Poisson-Regression (Kapitel 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.9.4 Generalisierte lineare Modelle (GLM, Kapitel 4, 5) . . . . . . . . . . . . . 56 2.9.5 Lineare gemischte Modelle (LMM, Kapitel 6) . . . . . . . . . . . . . . . . . . 56 2.9.6 Additive Modelle und Erweiterungen (AM, Kapitel 7, 8) . . . . . . . . 57 2.9.7 Generalisierte additive (gemischte) Modelle (GAMM, Kapitel 8) . . 58 2.9.8 Strukturiert-additive Regression (STAR, Kapitel 8) . . . . . . . . . . . . . 58 Lineare Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.1 Das klassische lineare Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.1.1 Modelldenition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.1.2 Modellparameter, Schtzungen und Residuen . . . . . . . . . . . . . . . . . . 63 a 3.1.3 Diskussion der Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Linearitt des Einusses der Kovariablen . . . . . . . . . . . . . . . . . . . . . . 64 a Homoskedastische Varianz der Strgren . . . . . . . . . . . . . . . . . . . . . 64 o o

Inhaltsverzeichnis Unkorreliertheit der Strgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o Additivitt der Strgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a o o 3.1.4 Modellierung des Einusses der Kovariablen . . . . . . . . . . . . . . . . . . . Metrische Kovariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kategoriale Kovariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interaktionen zwischen Kovariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Parameterschtzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2.1 Schtzung der Regressionskoezienten . . . . . . . . . . . . . . . . . . . . . . . . a Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Geschtzte Werte und Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2.2 Schtzung der Varianz der Strgren . . . . . . . . . . . . . . . . . . . . . . . . . a o o Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Restringierte Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . a 3.2.3 Eigenschaften der Schtzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Geometrische Eigenschaften des KQ-Schtzers . . . . . . . . . . . . . . . . . a Streuungszerlegung und Bestimmtheitsma . . . . . . . . . . . . . . . . . . . . Statistische Eigenschaften ohne spezielle Verteilungsannahmen . . . Statistische Eigenschaften bei Normalverteilungsannahme . . . . . . . Asymptotische Eigenschaften des KQ-Schtzers . . . . . . . . . . . . . . . . a Statistische Eigenschaften der Residuen . . . . . . . . . . . . . . . . . . . . . . . Standardisierte und studentisierte Residuen . . . . . . . . . . . . . . . . . . . . 3.3 Hypothesentests und Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 F-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhang mit dem Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . F-Test fr einige spezielle Testprobleme . . . . . . . . . . . . . . . . . . . . . . . u Asymptotische Eigenschaften des F-Tests . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Kondenzbereiche und Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . Kondenzintervalle und Ellipsoide fr die Regressionskoezienten u Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Das allgemeine lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Modelldenition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Gewichtete Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . Gruppierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Heteroskedastische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagnose heteroskedastischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . Manahmen bei Heteroskedastizitt . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.4.4 Autokorrelierte Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autokorrelation erster Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagnose autokorrelierter Strungen . . . . . . . . . . . . . . . . . . . . . . . . . . o Manahmen bei Autokorrelation erster Ordnung . . . . . . . . . . . . . . . 66 70 72 72 80 83 90 90 90 92 93 94 94 94 95 95 98 101 103 105 107 108 111 113 115 115 119 119 119 121 124 124 125 127 128 129 132 136 137 139 142

Inhaltsverzeichnis 3.5 Bayesianische lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Priori-Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Vollstndig bedingte Dichten und MCMC-Inferenz . . . . . . . . . . . . . . a 3.5.3 Posteriori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Modellwahl und Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Auswirkunge Bias, Varianz und Prognosegte . . . . . . . . . . . . . . . . . . u Auswirkungen auf Bias und Varianz des KQ-Schtzers . . . . . . . . . . a Auswirkung der Modellspezikation auf die Prognosegte . . . . . . . . u 3.6.2 Modellwahlkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das korrigierte Bestimmtheitsma . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mallows Cp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informationskriterium nach Akaike AIC . . . . . . . . . . . . . . . . . . . . . . . Kreuzvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bayesianisches Informationskriterium BIC . . . . . . . . . . . . . . . . . . . . . 3.6.3 Praktische Verwendung der Modellwahlkriterien . . . . . . . . . . . . . . . . 3.6.4 Modelldiagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uberprfen der Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Kollinearittsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Ausreier- und Einussanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Alternative Modellierungsanstze nach Modelldiagnose . . . . . . . . . . a 3.7 Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.7.1 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Generalisierte lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Binre Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 4.1.1 Binre Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Probit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Komplementres log-log-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Binre Modelle als Schwellenwertmodelle latenter linearer Modelle a Parameterinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gruppierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uberdispersion (Overdispersion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Vergleich mit ML- bzw. KQ-Schtzung im linearen Modell . . . . . . . a Iterative numerische Berechnung des ML-Schtzers . . . . . . . . . . . . . a Asymptotische Eigenschaften des ML-Schtzers . . . . . . . . . . . . . . . . a 4.1.3 Testen linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Kriterien zur Modellanpassung und Modellwahl . . . . . . . . . . . . . . . . 4.2 Regression fr Zhldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u a

XI 147 147 149 152 152 155 156 157 159 160 161 161 161 162 163 168 168 170 173 179 180 180 181 189 189 189 190 191 191 193 194 195 197 198 201 202 203 204 205 210

XII

Inhaltsverzeichnis 4.2.1 Modelle fr Zhldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u a Log-lineares Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lineares Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uberdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Schtzen und Testen: Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . a Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Testen linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriterien zur Modellanpassung und Modellwahl . . . . . . . . . . . . . . . . Schtzung des Uberdispersions-Parameters . . . . . . . . . . . . . . . . . . . . a Modelle fr positive stetige Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Gamma-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inverse Gau-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Generalisierte Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Allgemeine Modelldenition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotische Eigenschaften des ML-Schtzers . . . . . . . . . . . . . . . . a Schtzung des Skalierungs- oder Uberdispersionsparameters . . . . . . a Testen linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriterien zur Modellanpassung und Modellwahl . . . . . . . . . . . . . . . . Quasi-Likelihood-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bayesianische generalisierte lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 210 210 210 210 212 212 213 213 213 215 217 217 217 217 220 223 224 224 225 226 228 233 235 235 236 237 238 241 242 242 245 247 249 249 252 253 254 259 261 261

4.3

4.4

4.5 4.6 4.7 5

Kategoriale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Einfhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Modelle fr ungeordnete Kategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Nominale Modelle und latente Nutzenmodelle . . . . . . . . . . . . . . . . . . 5.3 Ordinale Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das kumulative oder Schwellenwert-Modell . . . . . . . . . . . . . . . . . . . . Das sequentielle Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Schtzen und Testen: Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Numerische Bestimmung des ML-Schtzers . . . . . . . . . . . . . . . . . . . . a Asymptotische Eigenschaften und Tests linearer Hypothesen . . . . . 5.5 Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Gemischte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Lineare gemischte Modelle fr Longitudinal- und Clusterdaten . . . . . . . . . u 6.2 Das allgemeine lineare gemischte Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Likelihood-Inferenz fr LMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 6.3.1 Schtzung bei bekannter Kovarianzstruktur . . . . . . . . . . . . . . . . . . . . a

Inhaltsverzeichnis 6.3.2 Schtzung der Kovarianzstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.3.3 Schtzung xer und zuflliger Eekte . . . . . . . . . . . . . . . . . . . . . . . . . a a 6.3.4 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Likelihood-Inferenz fr Longitudinal- und Clusterdaten-Modelle . . . . . . . . u Bayesianische gemischte lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posteriori-Verteilung bei bekannter Kovarianzstruktur . . . . . . . . . . . Empirische Bayes-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Volle Bayes-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Generalisierte lineare gemischte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 Denition und Eigenschaften von GLMM . . . . . . . . . . . . . . . . . . . . . . GLMM fr Longitudinal- und Clusterdaten . . . . . . . . . . . . . . . . . . . . u GLMM in allgemeiner Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kategoriale gemischte Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . Likelihood- und Bayes-Inferenz in GLMM . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.1 Penalisierte Likelihood- und empirische Bayes-Schtzung . . . . . . . . a 6.7.2 Volle Bayes-Inferenz mit MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a

XIII 263 264 266 268 271 273 273 274 278 278 279 279 282 284 284 287 289 291 292 293 296 301 303 306 307 309 311 316 320 323 326 327 327 330 331 333 333 335 339 340

6.4 6.5

6.6

6.7

6.8 7

Nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Univariate Glttung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.1.1 Polynom-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polynom-Splines und trunkierte Potenzen . . . . . . . . . . . . . . . . . . . . . Einuss der Knoten auf die Schtzung . . . . . . . . . . . . . . . . . . . . . . . . a B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Penalisierte Splines (P-Splines) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P-Splines basierend auf der TP-Basis . . . . . . . . . . . . . . . . . . . . . . . . . P-Splines basierend auf B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Penalisierte KQ-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Bayesianische P-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3 Allgemeine Penalisierungsanstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.1.4 Glttungssplines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.1.5 Random Walks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.6 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassisches Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriging als Glttungsverfahren fr Zeitreihen . . . . . . . . . . . . . . . . . . a u Kriging als Glttungsverfahren der nichtparametrische Regression a 7.1.7 Lokale Glttungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Nchste-Nachbarn-Schtzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a a Lokal polynomiale Regression und Nadaraya-Watson-Schtzer . . . . a Loess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.8 Allgemeine Streudiagramm-Gltter . . . . . . . . . . . . . . . . . . . . . . . . . . . a

XIV

Inhaltsverzeichnis Lineare Glttungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Kondenzintervalle und -bnder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Aquivalente Freiheitsgrade (eektive Parameterzahl) . . . . . . . . . . . . Schtzung der Fehlervarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Bias-Varianz-Trade O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.9 Wahl des Glttungsparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Glttungsparameterwahl basierend auf Optimalittskriterien . . . . . a a Reprsentation von Penalisierungsanstzen als gemischte Modelle . a a Bayesianische Glttungsparameterwahl basierend auf MCMC . . . . a 7.1.10 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multivariate adaptive Regressions-Splines (MARS) . . . . . . . . . . . . . Regressionsbume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Bayesianische adaptive Verfahren I: Model Averaging . . . . . . . . . . . Bayesianische adaptive Verfahren II: Reversible Jump MCMC . . . . 7.2 Bivariate Glttung und rumliche Eekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . a a 7.2.1 Tensorprodukt-P-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tensorprodukt-Basen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2D-Penalisierungsanstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.2.2 Radiale Basisfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassische Geostatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriging als Basisfunktionenansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schtzung von Kriging-Modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.2.4 Markov-Zufallsfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nachbarschaften und penalisiertes KQ-Kriterium . . . . . . . . . . . . . . . Bayesianische Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rumlich autoregressive Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 7.2.5 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.6 Lokale und adaptive Glttungsverfahren . . . . . . . . . . . . . . . . . . . . . . . a 7.3 Hherdimensionale Glttung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o a 7.4 Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 340 342 345 347 348 350 350 353 357 359 359 361 364 366 368 371 371 375 379 381 382 384 385 387 387 389 393 393 394 395 397 399 399 404 407 408 410 413 419 420

Strukturiert-additive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Additive Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Geoadditive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Modelle mit Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 Modelle mit variierenden Koezienten . . . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Interaktion zwischen zwei metrischen Kovariablen . . . . . . . . . . . . . . 8.4 Strukturiert-additive Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.1 Penalisierte KQ- bzw- Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . a

Inhaltsverzeichnis Backtting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Direkte Minimierung des penalisierten KQ-Kriteriums . . . . . . . . . . . Generalisierte STAR-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schtzung der Glttungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . a a Modellwahl und Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Inferenz basierend auf der Reprsentation als gemischtes Modell . . a Modellwahl und Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.3 Bayesianische Inferenz mit MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilte Zielgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Latente normalverteilte Zielgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Nicht-normalverteilte Zielgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Modellwahl und Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.4 Software-Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Fallstudie: Unterernhrung in Sambia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 8.6.1 Hinweise zur grundstzlichen Vorgehensweise . . . . . . . . . . . . . . . . . . a Deskriptive Analyse der Rohdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grasche zweidimensionale Zusammenhangsanalyse . . . . . . . . . . . . . Schtzung erster Arbeitsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Modelldiagnose und Verfeinerung der Arbeitsmodelle . . . . . . . . . . . Darstellung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.2 Deskriptive Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.3 Modellierungsvarianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.4 Schtzergebnisse und Modellevaluation . . . . . . . . . . . . . . . . . . . . . . . . a 8.7 Bemerkungen und Ergnzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a A Matrix-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1 Denition und elementare Operationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Der Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Determinante und Spur einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4 Verallgemeinerte Inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.6 Quadratische Formen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.7 Dierentiation von Matrixfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsrechnung und induktive Statistik . . . . . . . . . . . . . . . . B.1 Einige eindimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3.1 Denition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3.2 Die singulre Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a B.3.3 Verteilungen quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . . . .

XV 420 421 422 422 423 423 425 425 425 427 428 428 430 431 431 431 431 432 432 432 434 435 437 438 443 445 445 449 451 452 453 455 457 459 459 461 464 464 465 466

XVI

Inhaltsverzeichnis B.3.4 Multivariate t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.4 Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.4.1 Maximum-Likelihood-Schtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a B.4.2 Numerische Berechnung des ML-Schtzers . . . . . . . . . . . . . . . . . . . . . a B.4.3 Asymptotische Eigenschaften des ML-Schtzers . . . . . . . . . . . . . . . . a B.4.4 Likelihood-basierte Tests fr lineare Hypothesen . . . . . . . . . . . . . . . . u B.4.5 Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.5 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.5.1 Grundlagen der Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.5.2 Punkt- und Intervallschtzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Punktschtzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Intervallschtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a B.5.3 MCMC-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metropolis-Hastings-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gibbs-Sampler und Hybrid-Algorithmen . . . . . . . . . . . . . . . . . . . . . . . B.5.4 Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 467 467 473 475 475 477 478 478 480 480 481 482 483 486 488

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497