Sie sind auf Seite 1von 387

Norbert Henze

Stochastik:
Eine Einführung
mit Grundzügen
der Maßtheorie
Inkl. zahlreicher Erklärvideos
Stochastik: Eine Einführung mit Grundzügen der Maßtheorie
Norbert Henze

Stochastik:
Eine Einführung
mit Grundzügen
der Maßtheorie
Inkl. zahlreicher Erklärvideos
Norbert Henze
Karlsruher Institut für Technologie (KIT)
Karlsruhe, Deutschland

ISBN 978-3-662-59562-6 ISBN 978-3-662-59563-3 (eBook)


https://doi.org/10.1007/978-3-662-59563-3

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte biblio-
grafische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Springer Spektrum
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom
Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfäl-
tigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen
Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk be-
deutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch
ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu
beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk
zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Heraus-
geber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen.
Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und
Institutionsadressen neutral.

Planung und Lektorat: Andreas Rüdinger

Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer
Nature.
Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort

Dieses Werk vermittelt eine fundierte, lebendige und durch diverse Erklärvideos audiovisuell ergänzte
Einführung sowohl in die Stochastik (inklusive der Statistik) als auch in die Maß- und Integrations-
theorie. Es wendet sich an Studierende im zweiten Jahr eines Mathematikstudiums, die Kenntnisse der
Grundvorlesungen in Analysis und Linearer Algebra besitzen. Da Kenntnisse der Maß- und Integra-
tionstheorie nach dem ersten Studienjahr nicht vorausgesetzt werden können und oft erst im dritten
Semester innerhalb einer weiterführenden Vorlesung über Analysis erworben werden, ist dieses Buch
so aufgebaut, dass große Teile keinerlei Vorwissen aus dieser mathematischen Teildisziplin benötigen.
Besondere didaktische Elemente dieses Buches sind neben den über QR-Codes verlinkten Erklär-
videos
farbige Überschriften, die den Kerngedanken eines Abschnitts markieren,
gelbe Merkkästen, die wichtige Definitionen und Sätze enthalten,
mit einem roten Achtung gekennzeichnete Stellen, die vor Fallstricken warnen,
kleine Beispiele, die der Einübung des Stoffes dienen,
ganzseitige Beispiele, die mehr Raum benötigende Probleme und deren Lösungen behandeln,
Unter-der-Lupe-Boxen, die insbesondere Sätze von großer Bedeutung und deren Beweise genauer
betrachten,
mit einem Fragezeichen gekennzeichnete Selbsttests, die eine unmittelbare Verständniskontrolle
ermöglichen,
Übersichten, in denen verschiedene Begriffe, Formeln oder Rechenregeln zusammengestellt sind,
Hintergrund-und-Ausblick-Boxen, die einen Einblick in ein weiterführendes Thema geben
sowie Zusammenfassungen am Ende eines jeden Kapitels, die die wesentlichen Inhalte, Ergebnisse
und Vorgehensweisen beinhalten.
Insgesamt geht der behandelte Stoff über das, was üblicherweise Gegenstand einer 4+2-stündigen
Einführungsveranstaltung ist, deutlich hinaus. Da meine Intention beim Verfassen dieses Buches aus-
drücklich nicht darin bestand, „möglichst viel Mathematik pro Seite unterzubringen“, unterscheidet
sich dieses Buch von anderen Lehrbüchern unter anderem durch eine relativ hohe Redundanz. So
werden manche Begriffe wie Erwartungswert und Varianz zuerst in einem elementaren Rahmen auf
diskreten Wahrscheinlichkeitsräumen motiviert, eingeführt und diskutiert, und später erkennt man,
dass alle Eigenschaften auch auf allgemeinen Wahrscheinlichkeitsräumen gelten, weil der im diskreten
Fall eingeführte Erwartungswert ein Spezialfall des allgemeinen Maß-Integrals ist. Weil gerade in der
Stochastik das Verständnis besonders wichtig ist, nehmen die Motivation von Begriffsbildungen wie
z. B. stochastische Unabhängigkeit sowie Erklärungen breiten Raum ein. Hinzu kommt das „harte Ge-
schäft“ der Modellierung zufallsabhängiger Vorgänge als ein wichtiges Aufgabenfeld der Stochastik.
Da die Konstruktion geeigneter Modelle im Hinblick auf die vielfältigen Anwendungen der Stochas-
tik von Grund auf gelernt werden sollte, ist dem Aspekt der Modellbildung viel Platz gewidmet. Hier
mag es trösten, dass selbst Universalgelehrte wie Leibniz oder Galilei bei einfachen Zufallsphänome-
nen mathematische Modelle aufstellten, die sich nicht mit den gemachten Beobachtungen des Zufalls
in Einklang bringen ließen.
Heutzutage ist die Wahrscheinlichkeitstheorie eine der fruchtbarsten mathematischen Theorien. Ihre
Untersuchungsobjekte sind unter anderem stochastische Prozesse, die als Zufallsvariablen in geeig-
neten Funktionenräumen aufgefasst werden können. Grundbausteine vieler stochastischer Prozesse
sind der eine zentrale Stellung in der stochastischen Analysis und Finanzmathematik einnehmende
Brown-Wiener-Prozess sowie der Poisson-Prozess. Letzterer bildet den Ausgangspunkt für allgemei-
ne Punktprozesse, wobei die untersuchten zufälligen Objekte, wie z.B. in der stochastischen Geometrie
und räumlichen Stochastik, Werte in relativ allgemeinen topologischen Räumen annehmen können.
V
VI Vorwort

Die Verbreitung des Computers hat die Bedeutung der Mathematik im Allgemeinen und der Stochastik
(und hier insbesondere der Statistik) im Speziellen ungemein vergrößert. So wären etwa die von Brad-
ley Efron (*1938) im Jahr 1979 begründeten Bootstrap-Verfahren (siehe [9]), die die beobachteten
Daten für weitere Simulationen verwenden, um etwa die Verteilung einer komplizierten Teststatistik
zu approximieren, ohne leistungsfähige Computer undenkbar. Gleiches gilt für das sog. maschinelle
Lernen, bei dem es unter anderem um das Erkennen von Mustern und Gesetzmäßigkeiten geht. Fast
explosionsartig ansteigende Speicherkapazitäten und Rechengeschwindigkeiten erlauben die Verar-
beitung immer größerer Datenmengen, was zum Schlagwort Big Data geworden ist.
Da man Mathematik am besten durch eine möglichst intensive Beschäftigung mit Aufgaben lernt,
enthält das Buch insgesamt 332 Übungsaufgaben, die am Ende der Kap. 2–8 zusammengestellt sind.
Diese in Verständnisfragen, Rechenaufgaben und Beweisaufgaben unterteilten Aufgaben sollen hel-
fen, den Stoff aktiv zu verarbeiten. Versuchen Sie sich zuerst selbstständig an den Aufgaben. Erst wenn
Sie sicher sind, dass Sie es alleine nicht schaffen, sollten Sie die Hinweise am Ende des Buches zurate
ziehen oder sich an Kommilitonen wenden. Zur Kontrolle finden Sie hier auch die Resultate. Sollten
Sie trotz Hinweisen nicht mit der Aufgabe fertig werden, finden Sie die Lösungswege im Arbeitsbuch
zu diesem Werk.
Selbstverständlich ist dieses Buch nicht ohne die tatkräftige Hilfe anderer entstanden. So sind große
Teile zunächst als Kapitel des Buches „Grundwissen Mathematikstudium – Höhere Analysis, Numerik
und Stochastik“ erschienen. Hier schulde ich Christian Karpfinger Dank, dass ich in Abschn. 1.2
Anleihen aus dem dortigen Abschnitt machen und sogar größere Teile von dort übernehmen durfte.
Frau Viola Riess und Herrn Bernhard Klar danke ich für geduldiges Korrekturlesen und zahlreiche
Verbesserungsvorschläge. Herrn M. Radke schulde ich Dank für ein perfektes Redigieren des Textes.
Mein besonderer Dank gilt dem Verlag Springer Spektrum. Nur die strukturierende Übersicht von Frau
Bianca Alton und die immer wieder beeindruckende Kompetenz von Herrn Andreas Rüdinger mit
vielen kreativen und engagierten Vorschlägen machten die Umsetzung dieses ehrgeizigen Projektes
überhaupt erst möglich.

Pfinztal
im Juni 2019
Inhaltsverzeichnis

1 Stochastik – eine Wissenschaft für sich . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


1.1 Über dieses Buch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Die didaktischen Elemente dieses Lehrbuches . . . . . . . . . . . . . . . . . . . 2
1.3 Zur Geschichte der Stochastik und der Maß- und Integrationstheorie . . . 5
1.4 Anmerkungen zur Mathematik und Stochastik . . . . . . . . . . . . . . . . . . 6

2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge . . . . . . . . . 9


2.1 Grundräume, Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Das Axiomensystem von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen . . . . . . . . . . . . . . . 17
2.5 Folgerungen aus den Axiomen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Elemente der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7 Urnen- und Fächer-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft)


ab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1 Modellierung mehrstufiger stochastischer Vorgänge . . . . . . . . . . . . . . 46
3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Folgen unabhängiger Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4 Diskrete Verteilungsmodelle – wenn der Zufall zählt . . . . . . . . . . . . . . . . . 81


4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3 Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
VII
VIII Inhaltsverzeichnis

4.5 Bedingte Erwartungswerte und bedingte Verteilungen . . . . . . . . . . . . 106


4.6 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch 125


5.1 Verteilungsfunktionen und Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.2 Transformationen von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.3 Kenngrößen von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.5 Charakteristische Funktionen (Fourier-Transformation) . . . . . . . . . . . . 159
5.6 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.7 Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Stoppzeiten und Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben 195


6.1 Konvergenz fast sicher, stochastisch und im p-ten Mittel . . . . . . . . . . . 196
6.2 Das starke Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.3 Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.4 Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen . . . . . 229


7.1 Einführende Betrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
7.2 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.3 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.4 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson . . . . . . . . . . . . . 271
7.6 Elemente der nichtparametrischen Statistik . . . . . . . . . . . . . . . . . . . . 276
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
Inhaltsverzeichnis IX

8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln . . . 299
8.1 Inhaltsproblem und Maßproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
8.2 Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.3 Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
8.4 Messbare Abbildungen, Bildmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
8.5 Das Maß-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
8.6 Nullmengen, Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
8.7 Lp -Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
8.8 Maße mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
8.9 Produktmaße, Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361

Hinweise zu den Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363

Lösungen zu den Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369

Bildnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Verzeichnis der Übersichten

Urnen- und Fächer-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37


Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Konvergenzbegriffe in der Analysis, der Maßtheorie und der Stochastik . . . . . . . . . . . . . . . 212

XI
Stochastik – eine
1

Kapitel 1
Wissenschaft für sich
Was bedeutet der Begriff
Stochastik ?
Welches sind die
Ursprünge der Wahrschein-
lichkeitsrechnung ?
Wann begann die moderne
Maß- und
Integrationstheorie?

1.1 Über dieses Buch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2


1.2 Die didaktischen Elemente dieses Lehrbuches . . . . . . . . . . . . . . . 2
1.3 Zur Geschichte der Stochastik und der Maß- und Integrationstheorie . 5
1.4 Anmerkungen zur Mathematik und Stochastik . . . . . . . . . . . . . . 6

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 1


N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_1
2 1 Stochastik – eine Wissenschaft für sich

Mit der Analysis und der Linearen Algebra werden im ersten Stu- über stetige Verteilungsmodelle und allgemeine Betrachtun-
Kapitel 1

dienjahr klassische Grundlagen der Mathematik gelegt. Im Hinblick gen beinhaltet u. a. (absolut) stetige Verteilungen, charakteris-
auf die moderne Entwicklung des Fachs sind heute weitere Aspek- tische Funktionen, bedingte Erwartungen sowie grundlegende
te ebenso maßgebend, die üblicherweise im zweiten Studienjahr Betrachtungen zu Martingalen in diskreter Zeit. Ein weiteres
hinzukommen. Hierzu gehören u. a. die Stochastik als „Kunst des Kapitel gibt einen Überblick über die Begriffe fast sichere und
Mutmaßens“ (von altgr. στόχος (stóchos) „Vermutung“) sowie ei- stochastische Konvergenz, Konvergenz im p-ten Mittel sowie
ne allgemeine Maß- und Integrationstheorie. Gerade die Stochastik Verteilungskonvergenz. Im Mittelpunkt stehen hier das starke
als „Mathematik des Zufalls“ kommt oft ganz andersartig daher Gesetz großer Zahlen sowie die zentralen Grenzwertsätze von
und gilt gemeinhin als schwierig, weil man häufig vor der Aufgabe Lindeberg-Lévy und Lindeberg-Feller. Ein Kapitel zur Statistik
steht, für ein in Worten beschriebenes Problem ein adäquates sto- enthält alle wichtigen Konzepte der schließenden Statistik wie
chastisches Modell aufstellen zu müssen. Aus diesem Grund nimmt Punktschätzer, Konfidenzbereiche und Tests. Auch Optimali-
die Modellierung in diesem Buch einen breiten Raum ein. Im Ge- tätsgesichtspunkte wie das Lemma von Neyman-Pearson sowie
gensatz zu meinem Lehrbuch Stochastik für Einsteiger, das sich einfache nichtparametrische Schätz- und Testverfahren werden
auch an Studienanfänger richtet, ist für dieses Buch eine Vertraut- behandelt. Nicht aufgenommen habe ich elementare Aspekte
heit mit dem Stoff der Grundvorlesungen in Linearer Algebra und der deskriptiven Statistik, wie sie etwa in Kap. 5 des Buches
vor allem in der Analysis unabdingbar. Nicht vorausgesetzt wer- Stochastik für Einsteiger (siehe [14]) zu finden sind. Das ab-
den jedoch Kenntnisse der Maß- und Integrationstheorie. Solche schließende Kapitel über Maß- und Integrationstheorie versteht
Kenntnisse sind nicht erforderlich, um viele Begriffe, Methoden und sich nicht nur als Zulieferer für die vorangegangenen Kapitel,
Denkweisen der Stochastik zu verinnerlichen, und dieses Werk trägt sondern beinhaltet mit ausführlichen Beweisen den Standard-
diesem Umstand in substanziellen Teilen Rechnung. Wer sich je- stoff, der im Rahmen einer weiterführenden Analysis-Vorlesung
doch intensiver mit der Stochastik beschäftigen möchte, muss über zu diesem Thema vermittelt wird.
Grundwissen aus der Maß- und Integrationstheorie verfügen. Die-
Insgesamt geht der behandelte Stoff über das, was üblicherweise
ser Notwendigkeit dient die Bereitstellung eines eigenen Kapitels zu
Gegenstand einer 4+2-stündigen Einführungsveranstaltung ist,
dieser mathematischen Teildisziplin, deren Anfänge etwa 120 Jahre
deutlich hinaus. Da es beim Schreiben dieses Buches ausdrück-
zurückreichen.
lich nicht meine Absicht war, bei gegebenem Gesamtumfang
In diesem ersten Kapitel möchte ich meine Intention, dieses Buch des Werkes möglichst viel Stoff zu vermitteln, unterscheidet
zu schreiben, erläutern, sowie die damit verbundenen didaktischen sich dieses Buch von anderen Lehrbüchern u. a. durch eine
Konzepte vorstellen. Das Kapitel enthält zudem einen kurzen Abriss relativ hohe Redundanz. Zudem nehmen Motivation und Er-
zur Geschichte der Stochastik und der Maß- und Integrationstheorie. klärungen breiten Raum ein, denn gerade in der Stochastik ist
das begriffliche Verständnis besonders wichtig. Insgesamt 332
Übungsaufgaben sollen helfen, den Stoff aktiv zu verarbeiten.
1.1 Über dieses Buch Mathematik lernt man am besten durch eine möglichst intensi-
ve Beschäftigung mit Aufgaben. Im Folgenden möchte ich die
In diesem Buch erwartet Sie eine fundierte, lebendige und durch besonderen didaktischen Elemente des Buches hervorheben.
diverse Erklärvideos audiovisuell ergänzte Einführung sowohl
in die Stochastik (inklusive der Statistik) als auch in die Maß-
und Integrationstheorie. Da Kenntnisse der Maß- und Integra- 1.2 Die didaktischen Elemente
tionstheorie nach dem ersten Studienjahr nicht vorausgesetzt
werden können und oft erst im dritten Semester innerhalb einer dieses Lehrbuches
weiterführenden Vorlesung über Analysis erworben werden, ist
dieses Buch so aufgebaut, dass große Teile keinerlei Kenntnisse Dieses Lehrbuch weist eine Reihe didaktischer Elemente auf,
dieser mathematischen Teildisziplin benötigen. die Sie beim Erlernen des Stoffes unterstützen sollen.
Grundlegende Begriffe der Stochastik sind u. a. Zufallsvariablen
und ihre Verteilungen, bedingte Wahrscheinlichkeiten, stochas-
tische Unabhängigkeit, Erwartungswert, Varianz, Korrelation, Farbige Überschriften markieren den
Quantile, Verteilungsfunktionen und Dichten. Die Stochastik Kerngedanken eines Abschnitts
ist in diesem Buch so aufgebaut, dass sich insbesondere Stu-
dierenden des Höheren Lehramts, die im Allgemeinen keine Der gesamte Text ist durch farbige Überschriften gegliedert,
Kenntnisse der abstrakten Maß- und Integrationstheorie erwer- die jeweils den Kerngedanken des folgenden Abschnitts zu-
ben, möglichst viele Konzepte und Denkweisen der Stochastik sammenfassen. In der Regel bildet eine farbige Überschrift
einschließlich der Statistik erschließen können, ist doch die zusammen mit dem dazugehörigen Abschnitt eine Lerneinheit.
Stochastik unter der Leitidee Daten und Zufall wichtiger Be- Machen Sie nach dem Lesen eines solchen Abschnitts eine
standteil des gymnasialen Mathematikunterrichts. So gibt es Pause und rekapitulieren Sie dessen Inhalte. Denken Sie auch
nach einem Kapitel über Wahrscheinlichkeitsräume ein Kapitel darüber nach, inwieweit die zugehörige Überschrift den Kern-
über bedingte Wahrscheinlichkeiten und stochastische Unab- gedanken beinhaltet. Bedenken Sie, dass diese Überschriften
hängigkeit, von dem große Teile und hier insbesondere der letzte oftmals nur kurz und prägnant formulierte mathematische Aus-
Abschnitt über Markov-Ketten keine Kenntnisse der Maß- und sagen sind, die man sich gut merken kann, die aber keinen
Integrationstheorie voraussetzen. Gleiches gilt für das Kapitel Anspruch auf Vollständigkeit erheben – es kann hier auch man-
über diskrete Verteilungsmodelle. Das anschließende Kapitel che Voraussetzung weggelassen sein.
1.2 Die didaktischen Elemente dieses Lehrbuches 3

Kapitel 1
Abb. 1.1 Gelbe Merkkästen heben das Wichtigste hervor

Abb. 1.3 Kleinere Beispiele sind in den Text integriert

Gelbe Merkkästen enthalten wichtige


Definitionen und Sätze Ganzseitige Beispiele – Probleme und Lösungen
mit mehr Raum
Im Gegensatz dazu beinhalten die gelben Merkkästen meist
Definitionen oder wichtige Sätze bzw. Formeln, die Sie sich Neben diesen (kleinen) Beispielen gibt es – meist ganzseitige
wirklich merken sollten. Bei der Suche nach zentralen Aussagen – große Beispiele. Diese behandeln meist komplexere oder all-
und Formeln dienen sie zudem als Blickfang. In diesen Merk- gemeinere Probleme, deren Lösung mehr Raum einnimmt. Ein
kästen sind in der Regel auch alle Voraussetzungen angegeben, solcher Kasten trägt einen Titel und beginnt mit einem blau un-
siehe Abb. 1.1. terlegten einleitenden Text, der die Problematik schildert. Es
folgt ein Lösungshinweis, der das Vorgehen zur Lösung kurz
erläutert, und daran schließt sich der ausführliche Lösungsweg
Achtung: Fallstricke! an, siehe Abb. 1.4.

Von den vielen Fallstricken der Stochastik kann ich nach über
40 Jahren in der universitären Lehre ein Lied singen. Um Sie auf Manches lohnt, unter der Lupe betrachtet zu
solche Fallstricke aufmerksam zu machen, sind gefährliche Stel- werden
len mit einem roten Achtung gekennzeichnet, siehe Abb. 1.2.
Manche Sätze bzw. ihre Beweise sind so wichtig, dass sie ei-
ner genaueren Betrachtung unterzogen werden. Dazu dienen
Kleine Beispiele dienen der Einübung

Zahlreiche Beispiele helfen Ihnen, neue Begriffe, Ergebnisse


oder auch Rechenschemata einzuüben. Diese Beispiele erken-
nen Sie an der blauen Überschrift Beispiel. Das Ende eines
solchen Beispiels markiert ein kleines blaues Dreieck, siehe
Abb. 1.3

Abb. 1.2 Mit einem roten Achtung beginnen Hinweise zu häufig ge- Abb. 1.4 Größere Beispiele stehen in einem Kasten und behandeln
machten „(Denk-)Fehlern“ komplexere Probleme
4 1 Stochastik – eine Wissenschaft für sich
Kapitel 1

Abb. 1.7 In Übersichten werden verschiedene Begriffe, Formeln oder


Rechenregeln zu einem Thema zusammengestellt

Übersicht einen einleitenden Text. Meist sind die Ergebnisse


oder Regeln stichpunktartig aufgelistet. Eine Gesamtschau der
Abb. 1.5 Sätze bzw. deren Beweise, die von großer Bedeutung sind,
Übersichten findet sich in einem Verzeichnis im Anschluss an
betrachten wir in einer Unter-der-Lupe-Box genauer
das Inhaltsverzeichnis. Die Übersichten dienen in diesem Sinne
also auch als eine Art Formelsammlung, siehe Abb. 1.7
die Boxen Unter der Lupe. Zwar sind diese Sätze mit ih-
ren Beweisen meist auch im Fließtext ausführlich dargestellt,
in diesen zugehörigen Boxen finden sich jedoch weitere Ideen Hintergrund und Ausblick – was gibt es noch?
und Anregungen, wie man auf diese Aussagen bzw. deren Be-
weise kommt. Oft werden auch weiterführende Informationen Hintergrund und Ausblick sind oft ganzseitige Kästen, die
zu Beweisalternativen oder mögliche Verallgemeinerungen der analog zu den Übersichtsboxen gestaltet sind. Sie behandeln
Aussagen bereitgestellt, siehe Abb. 1.5 Themen mit weiterführendem Charakter, die jedoch wegen
Platzmangels nur angerissen und damit keinesfalls erschöpfend
behandelt werden können. Diese Themen sind vielleicht nicht
Der Selbsttest – bin ich noch am Ball? unmittelbar grundlegend für das Bachelorstudium, sie sollen Ih-
nen aber die Vielfalt und Tiefe der Stochastik sowie der Maß-
Auch der am blauen Fragezeichen erkennbare Selbsttest tritt als und Integrationstheorie zeigen und auch ein Interesse an höhe-
didaktisches Element häufig auf, siehe Abb. 1.6. Meist enthält ren Gesichtspunkten wecken (siehe Abb. 1.8). Sie müssen aber
er eine Frage, die Sie mit dem Gelesenen beantworten können weder die Hintergrund-und-Ausblicks-Kästen noch die Unter-
sollten. Nutzen Sie diese Fragen als Kontrolle, ob Sie noch „am der-Lupe-Kästen kennen, um den sonstigen Text des Buches
Ball sind“. Sollten Sie die Antwort nicht geben können, so ist verstehen zu können. Diese beiden Elemente enthalten also nur
es empfehlenswert, den vorhergehenden Text ein weiteres Mal zusätzlichen Stoff, auf den im restlichen Text in aller Regel nicht
durchzuarbeiten. Kurze Lösungen zu den Selbsttests finden Sie Bezug genommen wird.
als „Antworten der Selbstfragen“ am Ende der jeweiligen Kapi-
tel.
Zusammenfassungen – alles noch einmal kurz
Manchmal hilft eine Übersicht und knapp

Im Allgemeinen lernen Sie im Laufe eines Kapitels viele Sätze, Eine Zusammenfassung am Ende eines jeden Kapitels enthält
Eigenschaften, Merkregeln und Rechentechniken kennen. Wann die wesentlichen Inhalte, Ergebnisse und Vorgehensweisen. Sie
immer es sich anbietet, formuliere ich die zentralen Ergebnisse sollten die dort dargestellten Zusammenhänge nachvollziehen
und Regeln in sog. Übersichten. Neben einem Titel hat jede und mit den geschilderten Rechentechniken und Lösungsansät-
zen umgehen können.
Bitte erproben Sie die erlernten Techniken an den zahlreichen
Aufgaben am Ende eines jeden Kapitels. Sie finden dort Ver-
ständnisfragen, Rechenaufgaben und Beweisaufgaben – jeweils
in drei verschiedenen Schwierigkeitsgraden. Versuchen Sie sich
zuerst selbstständig an den Aufgaben. Erst wenn Sie sicher sind,
Abb. 1.6 Selbsttests ermöglichen eine Verständniskontrolle dass Sie es alleine nicht schaffen, sollten Sie die Hinweise am
1.3 Zur Geschichte der Stochastik und der Maß- und Integrationstheorie 5

1.3 Zur Geschichte der Stochastik

Kapitel 1
und der Maß- und
Integrationstheorie
Die Wahrscheinlichkeitsrechnung entstand im 17. Jahrhundert
aus der Diskussion von Glücksspielen. Als Ausgangspunkt gilt
ein Briefwechsel aus dem Jahr 1654 zwischen Blaise Pascal
(1623–1662) und Pierre de Fermat (1601–1665) zu mathema-
tischen und moralischen Fragen des Grafen Antoine Gombault
Chevalier de Méré (1607–1684). Pascal und Fermat gelang 1654
auch unabhängig voneinander die Lösung des Teilungsproblems
von Luca Pacioli (ca. 1445–1517). Im Jahr 1663 erschien post-
hum das Werk Liber de ludo aleae (das Buch vom Würfelspiel)
von Gerolamo Cardano. Christiaan Huygens (1629–1695) ver-
öffentlichte 1657 die Abhandlung De Rationiciis in Aleae Ludo
(über Schlussfolgerungen im Würfelspiel). Seine tiefe Einsicht
in die Logik der Spiele führte ihn dazu, im Zusammenhang mit
dem gerechten Einsatz für ein Spiel den zentralen Begriff Er-
wartungswert einzuführen. Jakob Bernoulli schrieb mit der Ars
conjectandi (Kunst des geschickten Vermutens) das erste, weit
über die Mathematik des Glücksspiels hinausgehende, systema-
tische Lehrbuch der Stochastik. Dieses im Jahr 1713 posthum
veröffentlichte Werk enthält u. a. die früheste Form des Ge-
setzes der großen Zahlen. Abraham de Moivre (1667–1754)
bewies in seinem Buch Doctrine of Chances (1738) den ers-
Abb. 1.8 Ein Kasten Hintergrund und Ausblick gibt einen Einblick in
ein weiterführendes Thema ten Zentralen Grenzwertsatz. Auf den Arbeiten von Bernoulli
und de Moivre aufbauend entwickelte sich in der Folge die sog.
Theorie der Fehler, deren früher Höhepunkt als Anwendung
Ende des Buches zurate ziehen oder sich an Kommilitonen wen- der Methode der kleinsten Quadrate die Wiederentdeckung des
den. Zur Kontrolle finden Sie hier auch die Resultate. Sollten Sie Planetoiden Ceres im Jahr 1800 durch Carl Friedrich Gauß
trotz Hinweisen nicht mit der Aufgabe fertig werden, finden Sie war. Ebenfalls posthum erschien 1764 das Hauptwerk An Es-
die Lösungswege im Arbeitsbuch zu diesem Werk. say towards Solving a Problem in the Doctrine of Chances von
Thomas Bayes (1702–1761). Hierin werden u. a. der Begriff
der bedingten Wahrscheinlichkeit eingeführt und ein Spezial-
fall der Bayes-Formel bewiesen. Sowohl die Theorie der Fehler
Erklärvideos lassen den Autor sprechen als auch die von Bayes aufgeworfenen Fragen beeinflussten
auch die weitere Entwicklung der Statistik, deren historische
Ein besonderes Kennzeichen dieses Buches sind diverse Er-
Entwicklung in Abschn. 7.1 skizziert ist. Im Jahr 1812 publi-
klärvideos, die mithilfe von QR-Codes verlinkt sind. Ich habe
zierte Pierre Simon de Laplace (1749–1827) mit der Théorie
diese Videos produziert, weil immer mehr Studierende „digital
analytique des probabilités eine umfassende Darstellung des
sozialisiert“ sind und es ihnen leichter fällt, audiovisuelle In-
wahrscheinlichkeitstheoretischen Wissens seiner Zeit. Die mo-
halte aufzunehmen und zu speichern. Erklärvideos lockern den
derne Wahrscheinlichkeitstheorie entstand seit Mitte des 19.
Text auf und bilden eine hervorragende zusätzliche Möglichkeit,
Jahrhunderts. Dabei stand jedoch eine von David Hilbert auf
Wissen zu schaffen. Ihr enormer Mehrwert gegenüber einem
dem internationalen Mathematikerkongress 1900 in Paris an-
„statischen Text“ zeigt sich insbesondere bei komplexeren Gra-
gemahnte mathematische Axiomatisierung dieser Theorie noch
fiken, die sich im Video dynamisch aufbauen. Meine Videos
aus. Nach diesbezüglichen Ansätzen von Richard von Mises
sind so konzipiert, dass sie ausschließlich die Inhalte in den Vor-
(1883–1953) und bahnbrechenden Arbeiten von Felix Haus-
dergrund stellen und kein visueller Umweg über mich erfolgt. Es
dorff war es Andrej Nikolajewitsch Kolmogorov, der 1933 mit
reicht, wenn der Autor spricht. Der folgende Link (s. Video 1.1)
seinem Werk Grundbegriffe der Wahrscheinlichkeitsrechnung
führt auf ein Video über Rekorde in einer rein zufälligen Permu-
die Entwicklung der Grundlagen der modernen Wahrscheinlich-
tation.
keitstheorie abschließen konnte.
Video 1.1 Link auf ein Erklärvideo zu Rekorden Eine ausführliche Darstellung der Geschichte der Stochastik bis
zum Jahr 1930 findet man in [12], [13]. Im Buch [22] ist die
Geschichte der Statistik bis zum Jahr 1900 zusammengefasst.
Die moderne Maß- und Integrationstheorie entstand 1894 mit
der Entdeckung der -Additivität der elementargeometrischen
6 1 Stochastik – eine Wissenschaft für sich

Fischer (1875–1954) benannte Satz aus dem Jahr 1907 über die
Kapitel 1

Vollständigkeit der Räume von Äquivalenzklassen fast überall


gleicher in p-ter Potenz integrierbarer Funktionen. Wichtige Er-
rungenschaften sind weiterhin die Einführung des nach Felix
Hausdorff (1868–1942) benannten (äußeren) Hausdorff-Maßes
im Jahr 1919 und eines damit einhergehenden nichtganzzahli-
gen Dimensionsbegriffs sowie der Satz von Radon–Nikodym
über die Existenz einer abstrakten Dichte für ein Maß, das durch
ein -endliches Maß dominiert wird. Mit der 1930 von Otton
Marcin Nikodym (1887–1974) bewiesenen allgemeinen Version
dieses Satzes war die Entwicklung einer allgemeinen Maß- und
Integrationstheorie (vgl. Kap. 8) so weit abgeschlossen, dass
Andrej Nikolajewitsch Kolmogorov (1903–1987) im Jahr 1933
eine Axiomatisierung der Stochastik vornehmen konnte.

Abb. 1.9 Andrej Nikolajewitsch Kolmogorov (1903–1987), Bildarchiv


1.4 Anmerkungen zur Mathematik
des Mathematischen Forschungsinstituts Oberwolfach und Stochastik
Obwohl Sie schon die Anfangsschwierigkeiten mit einem Ma-
Länge durch Émile Borel (1871–1956). Im Jahr 1902 setzte thematikstudium überwunden haben, möchten wir an dieser
Henri Léon Lebesgue (1875–1941) die elementargeometrische Stelle einige grundsätzliche Punkte anführen. Ein wesentli-
Länge auf die -Algebra der nach ihm benannten Lebesgue- ches Merkmal der Mathematik besteht darin, dass ihre Inhalte
messbaren Mengen fort. streng aufeinander aufbauen und jeder einzelne Schritt im All-
gemeinen nicht schwer zu verstehen ist. Die Mathematik geht
Er begründete zudem einen gegenüber dem bis dahin übli- von Grundwahrheiten aus, um weitere Wahrheiten zu ver-
chen Riemann-Integral deutlich flexibleren Integralbegriff, wie mitteln. Diese auch als Axiome oder Postulate bezeichneten
etwa der im Jahr 1910 bewiesene Satz von der dominierten Grundwahrheiten sind nicht beweisbar, werden aber als gültig
Konvergenz zeigt. Das Lebesgue-Integral führte mit dem 1907 vorausgesetzt. Das Axiomensystem bildet die Gesamtheit der
aufgestellten Resultat von Guido Fubini (1879–1943) auch zu Axiome.
einer befriedigenden Theorie von Mehrfachintegralen. Johann
Radon (1887–1956) vereinigte 1913 die Integrationstheorien
von Lebesgue und Thomas Jean Stieltjes (1856–1894) und Auch die Stochastik beruht auf Axiomen
machte so den Weg zum abstrakten Integralbegriff frei. Con-
stantin Carathéodory (1873–1950) zeigte im Jahr 1914, dass die Das Axiomensystem der Stochastik ist vergleichsweise jung. Es
Messbarkeit einer Menge allein mithilfe eines äußeren Maßes wurde im Jahr 1933 in einem deutschsprachigen Aufsatz vom
definiert werden kann. Er legte damit den Grundstein für die russischen Mathematiker A. N. Kolmogorow aufgestellt (siehe
Fortsetzung eines beliebigen Prämaßes auf einem Halbring über [19]) und findet sich in Abschn. 2.3.
einer abstrakten Menge. Weitere Meilensteine der Entwicklung
sind der nach Frigyes Riesz (1880–1956) und Ernst Sigismund
Definitionen liefern den Rahmen
Auch in der Stochastik gibt es eine Fülle von Definitionen, über
die neue Begriffe wie etwa Zufallsvariable oder Kovarianz ein-
geführt werden. Wenn im Folgenden ein Begriff definiert wird,
so schreibe ich ihn fett. Nach erfolgter Definition wird dieser
Begriff aber nicht mehr besonders hervorgehoben.

Sätze formulieren zentrale Ergebnisse


Sätze stellen auch in diesem Buch die Werkzeuge dar, mit de-
nen ständig umgegangen wird, und es werden grundlegende
Sätze der Stochastik sowie der Maß- und Integrationstheorie
formuliert, bewiesen und angewandt. Dient ein Satz aber in ers-
ter Linie dazu, mindestens eine nachfolgende, weitreichendere
Aussage zu beweisen, wird er oft Lemma (Plural Lemmata,
griechisch für Weg) oder Hilfssatz genannt. Ein Korollar oder
eine Folgerung formuliert Konsequenzen, die sich aus zentralen
Abb. 1.10 Henri Léon Lebesgue (1875–1941), Wikimedia commons Sätzen ergeben.
1.4 Anmerkungen zur Mathematik und Stochastik 7

Erst der Beweis macht einen Satz zum Satz Abstraktion ist eine Schlüsselfähigkeit

Kapitel 1
Jede Aussage, die als Satz, Lemma oder Korollar formuliert Wie allgemein in der Mathematik stößt man auch in der Sto-
wird, muss sich beweisen lassen und somit wahr sein. In der chastik immer wieder auf das Phänomen, dass unterschiedliche
Tat ist die Beweisführung zugleich die wichtigste und die an- Anwendungsprobleme mit denselben oder sehr ähnlichen ma-
spruchsvollste Tätigkeit in der Mathematik. Einige grundlegen- thematischen Modellen behandelt werden können. So können
de Techniken, Sprech- und Schreibweisen haben Sie vermutlich „Fächer“ in einem Fächermodell für unterschiedliche Plätze auf
schon im ersten Studienjahr kennengelenert. Ich möchte sie aber einem Speichermedium, aber auch für die Tages des Jahres oder
teilweise nochmals vorstellen und wiederholen. die möglichen Gewinnreihen beim Zahlenlotto 6 aus 49 stehen.
Zunächst sollte jedoch der formale Rahmen betont werden, an Erkennen Mathematiker(innen) bei verschiedenen Problemen
den man sich beim Beweisen im Idealfall halten sollte. Dabei gleiche Strukturen, so sind sie bestrebt, deren Wesensmerkma-
werden in einem ersten Schritt die Voraussetzungen festgehal- le herauszuarbeiten und für sich zu untersuchen. Sie lösen sich
ten. Anschließend stellt man die Behauptung auf, und erst dann dann vom eigentlichen konkreten Problem und studieren statt-
beginnt der eigentliche Beweis. Ist Letzterer gelungen, so lassen dessen die herauskristallisierte allgemeine Struktur.
sich die Voraussetzungen und die Behauptung zur Formulierung
eines entsprechenden Satzes zusammenstellen. Außerdem ist es Den induktiven Denkprozess, das Wesentliche eines Problems
meistens angebracht, auch den Beweis noch einmal zu überden- zu erfassen und bei unterschiedlichen Fragestellungen Gemein-
ken und schlüssig zu formulieren. samkeiten auszumachen, die für die Lösung zentral sind, nennt
man Abstraktion. Hierdurch wird es möglich, mit ein und
Der Deutlichkeit halber wird das Ende eines Beweises häufig derselben mathematischen Theorie ganz verschiedenartige Pro-
mit „qed“ (quod erat demonstrandum) oder einfach mit einem bleme gleichzeitig zu lösen, und man erkennt oft auch Zusam-
Kästchen „“ gekennzeichnet. Insgesamt liegt fast immer fol- menhänge und Analogien, die sehr hilfreich sein können.
gende Struktur vor, die auch bei Ihren eigenen Beweisführungen
als Richtschnur dienen sollte: Abstraktion ist ein selbstverständlicher, unabdingbarer Bestand-
teil mathematischen Denkens, und nach dem ersten Studienjahr
Voraussetzungen: . . . haben Sie vermutlich die Anfangsschwierigkeiten damit über-
Behauptung: . . . wunden. Auch in diesem Band habe ich viel Wert darauf gelegt,
Beweis: . . .  Ihnen den Zugang zur Abstraktion mit zahlreichen Beispielen
Natürlich ist diese Reihenfolge kein Dogma. Auch in diesem zu erleichtern und Ihre Abstraktionsfähigkeit zu fördern.
Buch werden manchmal Aussagen hergeleitet, also letztend- Ich möchte abschließend noch auf einige allgemein übliche
lich die Beweisführung bzw. die Beweisidee vorweggenommen, Bezeichnungen eingehen, die im gesamten Werk verwendet
bevor die eigentliche Behauptung komplett formuliert wird. werden. So seien
Diese Vorgehensweise kann mathematische Zusammenhänge
verständlicher machen. Aber die drei Elemente Voraussetzung, N WD f1; 2; 3; : : :g die Menge der natürlichen Zahlen,
Behauptung und Beweis bei Resultaten zu identifizieren, bleibt N0 WD f0; 1; 2; 3; : : :g,
trotzdem stets wichtig, um sich Klarheit über Aussagen zu ver- Z WD f0; 1; 1; 2; 2 : : :g die Menge der ganzen Zahlen,
schaffen. Q die Menge der rationalen Zahlen,
R die Menge der reellen Zahlen,
R0 WD fx 2 R j x  0g,
O.B.d.A. bedeutet ohne Beschränkung R WD R [ fC1; 1g die um die uneigentlichen Punkte
C1 und 1 erweiterten reellen Zahlen,
der Allgemeinheit C die Menge der komplexen Zahlen,
dxe WD minfk 2 Z j x  kg, x 2 R, die obere Gauß-
Mathematische Sprechweisen sind oft etwas gewöhnungsbe- Klammer von x,
dürftig. So steht etwa o.B.d.A für „Ohne Beschränkung der bxc WD maxfk 2 Z j k  xg, x 2 R, die untere Gauß-
Allgemeinheit“. Manchmal sagt man stattdessen auch o.E.d.A. Klammer von x,
(„ohne Einschränkung der Allgemeinheit“) oder ganz kurz o.E. .x/k WD x.x  1/  : : :  .x  k C 1/ (x 2 R; k 2 N) die k-te
(„ohne Einschränkung“). Dahinter verbirgt sich meist das Ab- fallende Faktorielle von x sowie .x/0 WD 1,
handeln von Spezialfällen zu Beginn eines Beweises, um den x _ y WD max.x; y/ (x; y 2 R),
Beweis dadurch übersichtlicher zu gestalten. Der allgemei- x ^ y WD min.x; y/ (x; y 2 R),
ne Fall wird aber dennoch mitbehandelt; man erhält nur die jAj die Anzahl der Elemente einer endlichen Menge A sowie
Aufgabe, sich sorgsam zu vergewissern, dass tatsächlich der all- jAj WD 1, falls A unendlich ist.
gemeine Fall begründet wird. Soll also etwa eine Aussage für
jede Teilmenge A einer Menge ˝ bewiesen werden, so bedeutet Sind A und B disjunkte bzw. sind A1 ; A2 ; : : : paarweise disjunk-
„sei o.B.d.A. A ¤ ; und A ¤ ˝“, dass die zu beweisende Be- te Teilmengen einer Menge ˝, so schreiben wir Vereinigungen
hauptung im Fall A D ; und A D ˝ offensichtlich („trivial“) mit dem Summenzeichen,
P n Sn P1A C B S
setzen also WD A [ B,
1
ist. j D1 Aj WD j D1 Aj , n  2, sowie j D1 A j WD j D1 Aj .
Wahrscheinlichkeitsräume –
Modelle für stochastische 2
Vorgänge

Kapitel 2
Was ist ein
Wahrscheinlichkeitsraum?
Was besagt die Formel des
Ein- und Ausschließens?
Was ist die Verteilung einer
Zufallsvariablen?
In welchem
Zusammenhang tritt die
hypergeometrische
Verteilung auf?
Wie viele
Kartenverteilungen gibt es
beim Skat?

2.1 Grundräume, Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . 10


2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Das Axiomensystem von Kolmogorov . . . . . . . . . . . . . . . . . . . 15
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen . . . . . . . . . . . 17
2.5 Folgerungen aus den Axiomen . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Elemente der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7 Urnen- und Fächer-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 33
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 44

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 9


N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_2
10 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Mit diesem Kapitel steigen wir in die Stochastik, die Mathematik Wirft man zwei nicht unterscheidbare Würfel gleichzeitig, so
des Zufalls, ein. Dabei wollen wir nicht über Grundsatzfragen wie bietet sich der Grundraum
Existiert Zufall überhaupt? philosophieren, sondern den pragmati-
schen Standpunkt einnehmen, dass sich so verschiedene Vorgänge ˝ WD f.1; 1/; .1; 2/; .1; 3/; .1; 4/; .1; 5/; .1; 6/; .2; 2/;
wie die Entwicklung von Aktienkursen, die Ziehung der Lottozahlen, .2; 3/; .2; 4/; .2; 5/; .2; 6/; .3; 3/; .3; 4/; .3; 5/;
das Schadensaufkommen von Versicherungen oder die Häufigkeit
.3; 6/; .4; 4/; .4; 5/; .4; 6/; .5; 5/; .5; 6/; .6; 6/g
von Erdbeben einer bestimmten Mindeststärke einer deterministi-
schen Beschreibung entziehen und somit stochastische Phänomene
an. Dabei steht .j ; k/ für das Ergebnis einer der Würfel zeigt
darstellen, weil unsere Kenntnisse für eine sichere Vorhersage
j und der andere k.
nicht ausreichen. Mathematische Herzstücke dieses Kapitels sind
Eine Münze wird so lange geworfen, bis zum ersten Mal
das Kolmogorovsche Axiomensystem sowie grundlegende Folge-
Zahl auftritt. Es interessiere die Anzahl der dafür benötig-
Kapitel 2

rungen aus diesen Axiomen. Außerdem lernen wir Zufallsvariablen


ten Würfe. Da beliebig lange Wurfsequenzen logisch nicht
als Instrument zur Bündelung von Informationen über stochasti-
ausgeschlossen werden können, ist die Menge
sche Vorgänge und natürliches Darstellungsmittel für Ereignisse
kennen. In diskreten Wahrscheinlichkeitsräumen gibt es abzählbar
˝ WD N D f1; 2; : : :g
viele Elementarereignisse, deren Wahrscheinlichkeiten sich zu eins
aufaddieren. Als Spezialfall entstehen hier Laplace-Modelle, de-
der natürlichen Zahlen ein kanonischer Grundraum für die-
ren Behandlung Techniken der Kombinatorik erfordert. Eine weitere
Beispielklasse für Wahrscheinlichkeitsräume liefern nichtnegative sen stochastischen Vorgang.
Funktionen f W Rk ! R, deren Lebesgue-Integral gleich eins Wirft man eine Münze gedanklich unendlich oft hintereinan-
der und notiert das Auftreten von Kopf mit 1 und das von
R jeder Borelschen Teilmenge B des R
k
ist. In diesem Fall kann man
die Wahrscheinlichkeit B f .x/ dx zuordnen. An einigen Stellen Zahl mit 0, so drängt sich als Grundraum für diesen stochas-
zitieren und verwenden wir Resultate aus der Maß- und Integrati- tischen Vorgang die Menge
onstheorie. Diese können bei Bedarf in Kap. 8 nachgelesen werden.
˝ WD f0; 1gN D f.aj /j 1 j aj 2 f0; 1g für jedes j  1g

auf. Dabei steht aj für das Ergebnis des j -ten Wurfs.


2.1 Grundräume, Ereignisse Die zufallsbehaftete Lebensdauer einer Halogenlampe werde
mit sehr hoher Messgenauigkeit festgestellt. Kann man keine
sichere Obergrenze für die Lebensdauer angeben, so bietet
Um einen stochastischen Vorgang zu modellieren, muss man
sich als Grundraum die Menge
zunächst dessen mögliche Ergebnisse mathematisch präzise
beschreiben. Diese Beschreibung geschieht in Form einer Men-
˝ WD ft 2 R j t > 0g
ge ˝, die Grundraum oder Ergebnisraum genannt wird. Die
Elemente ! von ˝ heißen Ergebnisse.
aller positiven reellen Zahlen an. J
Die obigen Beispiele zeigen insbesondere, dass Tupel und Fol-
gen geeignete Darstellungsmittel sind, wenn ein stochastischer
Der Grundraum ˝ beschreibt die möglichen Vorgang zu diskreten Zeitpunkten beobachtet wird und in sei-
Ergebnisse eines stochastischen Vorgangs nem zeitlichen Verlauf beschrieben werden soll. Man beachte,
dass die Ergebnismenge in den ersten drei Fällen endlich, im
vierten abzählbar unendlich und in den letzten beiden Fällen
Beispiel überabzählbar ist.

Beobachtet man beim Würfelwurf die oben liegende Augen-


zahl, so ist die Menge
Ereignisse sind (gewisse) Teilmengen von ˝
˝ D f1; 2; 3; 4; 5; 6g Oft interessiert nur, ob das Ergebnis eines stochastischen Vor-
gangs zu einer gewissen Menge von Ergebnissen gehört. So
ein natürlicher Grundraum. kann es etwa beim zweifachen Würfelwurf nur darauf ankom-
Wird ein Würfel n-mal hintereinander geworfen, und sind men, ob die Summe der geworfenen Augenzahlen gleich 7 ist
die in zeitlicher Reihenfolge aufgetretenen Augenzahlen von oder nicht. Diese Überlegung führt dazu, Teilmengen des Grund-
Interesse, so ist das kartesische Produkt raums ˝ zu betrachten.
Wir nehmen zunächst an, dass ˝ abzählbar, also endlich oder
˝ WD f1; 2; 3; 4; 5; 6gn
abzählbar unendlich ist. In diesem Fall heißt jede Teilmenge
D f.a1 ; : : : ; an / j aj 2 f1; : : : ; 6g 8 j D 1; : : : ; ng A von ˝ ein Ereignis. Ereignisse werden üblicherweise mit
großen lateinischen Buchstaben aus dem vorderen Teil des Al-
ein angemessener Ergebnisraum. Hierbei steht aj für das Er- phabetes, also mit A, A1 , A2 ; : : :, B, B1 , B2 ; : : :, C , C1 , C2 ; : : :
gebnis des j -ten Wurfs. bezeichnet.
2.1 Grundräume, Ereignisse 11

Da wir den Grundraum ˝ als Ergebnismenge eines stochasti- Mengentheoretische Verknüpfungen von
schen Vorgangs deuten, kann jedes Element von ˝ als poten-
Ereignissen ergeben neue Ereignisse
zielles Ergebnis eines solchen Vorgangs angesehen werden. Ist
A  ˝ ein Ereignis, so sagen wir das Ereignis A tritt ein,
Als logische Konsequenz der Identifizierung von anschaulichen
wenn das Ergebnis des stochastischen Vorgangs zu A gehört.
Ereignissen und Teilmengen von ˝ entstehen aus Ereignissen
Durch diese Sprechweise identifizieren wir eine Teilmenge A
durch mengentheoretische Operationen wie folgt neue Ereig-
von ˝ als mathematisches Objekt mit dem anschaulichen Er-
nisse.
eignis, dass sich ein Element aus A als Resultat des durch den
Grundraum ˝ beschriebenen stochastischen Vorgangs einstellt.
Die leere Menge ; heißt das unmögliche, der Grundraum ˝ Mengentheoretische und logische Verknüpfungen
das sichere Ereignis. Jede einelementige Teilmenge f!g von ˝

Kapitel 2
heißt Elementarereignis. Sind A; B; A1 ; A2 ; : : : ; An ; : : :  ˝ Ereignisse, so ist
A \ B das Ereignis, dass A und B beide eintreten,
Selbstfrage 1 A [ B das Ereignis, dass mindestens eines der Ereig-
Können Sie im Beispiel des n-fachen Würfelwurfs das Ereignis nisse A oder B eintritt,
T 1
„keiner der Würfe ergibt eine Sechs“ als Teilmenge A von ˝ D nD1 An das Ereignis, dass jedes der Ereignisse
f1; 2; 3; 4; 5; 6gn formulieren? A ; A2 ; : : : eintritt,
S11
nD1 An das Ereignis, dass mindestens eines der Er-
eignisse A1 ; A2 ; : : : eintritt.
Viele stochastische Vorgänge bestehen aus Teilexperimenten
(Stufen), die der Reihe nach durchgeführt werden. Besteht das Das Komplement
Experiment aus insgesamt n Stufen, so stellen sich seine Ergeb-
nisse als n-Tupel ! D .a1 ; : : : ; an / dar, wobei aj den Ausgang Ac WD ˝ n A
des j -ten Teilexperiments angibt. Wird das j -te Teilexperiment
durch den Grundraum ˝j modelliert, so ist das kartesische Pro- von A oder das zu A komplementäre Ereignis bezeichnet
dukt das Ereignis, dass A nicht eintritt.

˝ WD ˝1  ˝2  : : :  ˝n Ereignisse A und B heißen disjunkt oder unvereinbar,


falls A \ B D ; gilt. Mehr als zwei Ereignisse heißen
D f! WD .a1 ; : : : ; an / j aj 2 ˝j für j D 1; : : : ; ng
paarweise disjunkt, falls je zwei von ihnen disjunkt sind.
ein kanonischer Grundraum für das aus diesen n Einzelexperi- Die Teilmengenbeziehung A  B bedeutet, dass das Ein-
menten bestehende Gesamtexperiment. treten des Ereignisses A das Eintreten von B nach sich
Ist Aj  ˝j , so beschreibt zieht. Die Sprechweise hierfür ist aus A folgt B.

Aj WD ˝1  : : :  ˝j 1  Aj  ˝j C1  : : :  ˝n
D f! D .a1 ; : : : ; an / 2 ˝ j aj 2 Aj g Man rufe sich in Erinnerung, dass Vereinigungs- und Durch-
schnittsbildung kommutativ und assoziativ sind und das Distri-
das Ereignis, dass beim j -ten Einzelexperiment das Ereignis Aj butivgesetz
eintritt. Man beachte, dass Aj eine Teilmenge von ˝ ist, also ein
sich auf das n-stufige Gesamtexperiment beziehendes Ereignis A \ .B [ C / D A \ B [ A \ C
beschreibt.
Offenbar kann dieser kanonische Grundraum sehr unterschied- sowie die nach dem Mathematiker Augustus de Morgan (1806–
liche Situationen modellieren, wobei der n-fache Würfel- oder 1871) benannten Regeln
Münzwurf als Spezialfälle enthalten sind. Lassen Sie sich je-
doch in Ihrer Phantasie nicht durch den Begriff Experiment ein- .A [ B/c D Ac \ B c ; .A \ B/c D Ac [ B c ;
engen! Gemeinhin verbindet man nämlich damit die Vorstellung
von einem stochastischen Vorgang, dessen Rahmenbedingun- 0 1c 0 1c
gen geplant werden können. Solche geplanten Experimente oder [
1 \
1 \
1 [
1

Versuche findet man insbesondere in der Biologie, in den In- @ Aj A D Ajc ; @ Aj A D Ajc
genieurwissenschaften oder in der Medizin. Es gibt aber auch j D1 j D1 j D1 j D1
stochastische Vorgänge, die sich auf die Entwicklung von Ak-
tienkursen, das Auftreten von Orkanen oder Erdbeben oder gelten, siehe z. B. [1], Abschn. 2.2.
die Schadenshäufigkeiten bei Sachversicherungen beziehen. So
könnte aj den Tagesschlusskurs einer bestimmten Aktie am
Achtung
j -ten Handelstag des nächsten Jahres beschreiben, aber auch
für die Stärke des von jetzt an gerechneten j -ten registrierten Der Kürze halber lassen wir oft das Durchschnittszeichen
Erdbebens stehen, das eine vorgegebene Stärke auf der Richter- zwischen Mengen weg, schreiben also etwa AB.C [ D/ an-
Skala übersteigt. stelle von A \ B \ .C [ D/.
12 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Disjunkte Ereignisse stellen eine spezielle und – wie wir spä-


ter sehen werden – besonders angenehme Situation für den Definition einer  -Algebra
Umgang mit Wahrscheinlichkeiten dar. Um diesen Fall auch
in der Notation zu betonen, schreiben wir die Vereinigung Eine -Algebra über ˝ ist ein System A  P .˝/ von
(paarweise) disjunkter Ereignisse mit dem Summenzeichen, Teilmengen von ˝ mit folgenden Eigenschaften:
d. h., wir setzen ; 2 A,
aus A 2 A folgt Ac D ˝ S n A 2 A,
A C B WD A [ B aus A1 ; A2 ; : : : 2 A folgt 1nD1 An 2 A.

für disjunkte Ereignisse A und B bzw.

X
n Video 2.1 -Algebren
Kapitel 2

Aj WD A1 C : : : C An WD A1 [ : : : [ An ;
j D1

X
1 [
1
Aj WD Aj
j D1 j D1

für paarweise disjunkte Ereignisse A1 ; A2 ; : : : Dabei verein- Wie ausführlich in Abschn. 8.2 dargelegt, enthält jede -
baren wir, dass diese Summenschreibweise ausschließlich Algebra den Grundraum ˝ sowie mit endlich oder abzählbar
für diesen speziellen Fall gelten soll. J vielen Mengen auch deren Durchschnitte. Zudem ist eine -
Algebra vereinigungsstabil, sie enthält also mit je zwei und
Selbstfrage 2 damit auch je endlich vielen Mengen auch deren Vereinigung.
Es seien A; B; C  ˝ Ereignisse. Können Sie die anschaulich Das Präfix „-“ im Wort -Algebra steht für die Möglich-
beschriebenen Ereignisse D1 : „es tritt nur A ein“ und D2 : „es keit, abzählbar unendlich viele Mengen bei Mengenoperationen
treten genau zwei der drei Ereignisse ein“ in mengentheoreti- wie Vereinigungs- und Durchschnittsbildung zuzulassen. Würde
scher Form ausdrücken? man die dritte eine -Algebra definierende Eigenschaft dahin-
gehend abschwächen, dass Vereinigungen von je zwei (und
damit von je endlich vielen) Mengen aus A wieder zu A gehö-
Beispiel Im kanonischen Modell ˝ D ˝1  : : :  ˝n für ein ren, so nennt man ein solches Mengensystem eine Algebra. Ist
n-stufiges Experiment seien Aj  ˝j , 1  j  n, und A  P .˝/ eine -Algebra über ˝, so heißt das Paar .˝; A/
Messraum oder messbarer Raum.
Aj WD ˝1  : : :  ˝j 1  Aj  ˝j C1  : : :  ˝n
Beispiel
das Ereignis, dass im j -ten Teilexperiment das Ereignis Aj ein-
tritt (j D 1; : : : ; n/. Dann ist Auf einem Grundraum ˝ gibt es stets zwei triviale -
Algebren, nämlich die kleinstmögliche (gröbste) -Algebra
A1 \ A2 \ : : : \ An D A1  A2  : : :  An A D f;; ˝g und die größtmögliche (feinste) -Algebra
A D P .˝/. Die erste ist uninteressant, die zweite im Fall
das Ereignis, dass für jedes j D 1; : : : ; n im j -ten Teilexperi- eines überabzählbaren Grundraums i. Allg. zu groß.
ment das Ereignis Aj eintritt. J Für jede Teilmenge A von ˝ ist das Mengensystem

A WD f;; A; Ac ; ˝g
Das System der Ereignisse ist eine  -Algebra eine -Algebra.
In Verallgemeinerung des letzten Beispiels sei
Ist der Grundraum ˝ überabzählbar, so muss man aus prin-
zipiellen Gründen Vorsicht walten lassen! Es ist dann i. Allg. X
1
nicht mehr möglich, jede Teilmenge von ˝ in dem Sinne als ˝D An
Ereignis zu bezeichnen, dass man ihr in konsistenter Weise eine nD1
Wahrscheinlichkeit zuordnen kann (siehe die Hintergrund-und-
Ausblick-Box in Abschn. 2.4). Wenn wir also unter Umständen eine Zerlegung des Grundraums ˝ in paarweise disjunkte
nicht mehr jede Teilmenge von ˝ als Ereignis ansehen können, Mengen A1 ; A2 ; : : : Dann ist das System
sollten wir wenigstens fordern, dass alle „praktisch wichtigen ( )
X
Teilmengen“ von ˝ Ereignisse sind und man mit Ereignissen A D B  ˝ j 9 T  N mit B D An (2.1)
mengentheoretisch operieren kann und damit wiederum Ereig- n2T
nisse erhält. Schließen wir uns der allgemeinen Sprechweise an,
eine Teilmenge M der Potenzmenge von ˝ als System von Teil- aller Teilmengen von ˝, die sich als Vereinigung irgend-
mengen von ˝ oder Mengensystem zu bezeichnen, so gelangen welcher der Mengen A1 ; A2 ; : : : schreiben lassen, eine -
wir zu folgender Begriffsbildung. Algebra über ˝ (Aufgabe 2.28). J
2.2 Zufallsvariablen 13

Um im Fall eines überabzählbaren Grundraums -Algebren zu über Erzeugendensysteme der Borel-Mengen in Abschn. 8.2 ge-
konstruieren, die hinreichend reichhaltig sind, um alle für ei- zeigt wird, enthält sie u. a. alle abgeschlossenen Teilmengen des
Śk
ne vorliegende Fragestellung wichtigen Teilmengen von ˝ zu Rk und alle halboffenen Quader .x; y D j D1 .xj ; yj , wobei
enthalten, geht man analog wie etwa in der Linearen Algebra x D .x1 ; : : : ; xk /, y D .y1 ; : : : ; yk /. Im Fall k D 1 setzen wir
vor, wenn zu einer gegebenen Menge M von Vektoren in ei- kurz B WD B1 .
nem Vektorraum V der kleinste Unterraum U von V mit der
Eigenschaft M  U gesucht wird. Dieser Vektorraum ist der
Durchschnitt aller Unterräume, die M enthalten. Hierzu muss 2.2 Zufallsvariablen
man sich nur überlegen, dass der Durchschnitt beliebig vieler
Unterräume von V wieder ein Unterraum ist. Bislang haben wir die Menge der möglichen Ergebnisse eines
Da der Durchschnitt stochastischen Vorgangs mit einer als Grundraum bezeichneten

Kapitel 2
\ Menge modelliert und gewisse Teilmengen von ˝ als Ereig-
Aj WD fA  ˝ j A 2 Aj für jedes j 2 J g nisse bezeichnet. Dabei soll das System aller Ereignisse eine
j 2J -Algebra über ˝ bilden. In diesem Abschnitt lernen wir Zu-
fallsvariablen als natürliches Darstellungsmittel für Ereignisse
beliebig vieler -Algebren über ˝ wieder eine -Algebra ist, kennen. Zur Einstimmung betrachten wir eine einfache Situa-
kann man für ein beliebiges nichtleeres System M  P .˝/ von tion, die aber schon wesentliche Überlegungen beinhaltet. Im
Teilmengen von ˝ den mit Kern geht es darum, dass man häufig nur an einem gewissen
\ Aspekt oder Merkmal der Ergebnisse eines stochastischen Vor-
.M/ WD fA j A  P .˝/ -Algebra und M  Ag gangs interessiert ist.
bezeichneten Durchschnitt aller -Algebren über ˝ betrachten,
die – wie z. B. die Potenzmenge von ˝ – das Mengensystem Beispiel Der n-fach hintereinander ausgeführte Würfelwurf
M enthalten. Man nennt .M/ die von M erzeugte -Algebra. wird durch den Grundraum
Nach Konstruktion ist .M/ die kleinste -Algebra über ˝, die
M enthält. Das Mengensystem M heißt (ein) Erzeugendensys- ˝ D f1; 2; 3; 4; 5; 6gn
tem oder kurz (ein) Erzeuger von .M/.
modelliert. Interessiert an einem Ergebnis ! D .a1 ; : : : ; an / 2
Beispiel (Von einer Zerlegung erzeugte  -Algebra) Ist ˝ nur die Anzahl der geworfenen Sechsen, so kann dieser As-
M WD fAn j n 2 Ng, wobei die P Mengen A1 ; A2 ; : : : eine Zerle- pekt durch die Abbildung
gung von ˝ bilden, also ˝ D 1 nD1 An gilt, so ist die von M
(
erzeugte -Algebra .M/ gerade das in (2.1) stehende Mengen- ˝ ! R;
XW P
system A. Zum einen ist nämlich A nach Aufgabe 2.28 eine ! D .a1 ; : : : ; an / 7! X .!/ WD jnD1 1faj D 6g
-Algebra, die M enthält, woraus die Inklusion .M/  A
folgt. Zum anderen muss jede -Algebra über ˝, die M enthält, beschrieben werden. Dabei sei 1faj D 6g WD 1 gesetzt, falls
jede abzählbare Vereinigung von Mengen aus M und somit A aj D 6 gilt; andernfalls sei 1faj D 6g WD 0.
enthalten. Es gilt somit auch A  .M/. J
Ist man an der größten Augenzahl interessiert, so wird dieses
Setzt man im obigen Beispiel speziell An WD ; für n  3 und Merkmal des Ergebnisses ! durch die Abbildung
M WD fA1 g, N WD fA2 g, so gilt wegen A2 D Ac1 die Beziehung (
.M/ D .N / D f;; A1 ; A2 ; ˝g. Eine -Algebra kann also ˝ ! R;
Y W
verschiedene Erzeuger haben. Will man allgemein zeigen, dass ! D .a1 ; : : : ; an / 7! Y .!/ WD max.a1 ; : : : ; an /
zwei Mengensysteme M  P .˝/ und N  P .˝/ die gleiche
-Algebra erzeugen, also .M/ D .N / gilt, so reicht es aus, beschrieben.
die Teilmengenbeziehungen
Man beachte, dass die auf ˝ definierten reellwertigen Funktio-
M  .N /; N  .M/ nen X und Y jeweils eine Datenkompression bewirken, die zu
einer geringeren Beobachtungstiefe führt. Wird etwa im Fall des
nachzuweisen, vgl. Teil c) des Lemmas über Erzeugendensyste- zweifachen Würfelwurfs nur das Ergebnis „X .!/ D 1“ mit-
me in Abschn. 8.2. geteilt, ohne dass man eine Information über ! preisgibt, so
Falls nichts anderes gesagt ist, legen wir auf dem Grundraum kann einer der zehn Fälle ! D .6; 1/, ! D .6; 2/, ! D .6; 3/,
˝ D Rk stets die ausführlich in Abschn. 8.2 behandelte, vom ! D .6; 4/, ! D .6; 5/, ! D .1; 6/, ! D .2; 6/, ! D .3; 6/,
System Ok aller offenen Mengen im Rk erzeugte -Algebra ! D .4; 6/ oder ! D .5; 6/ vorgelegen haben. In gleicher Weise
steht
Bk WD .Ok /
fY  3g WD f! 2 ˝ j Y .!/  3g
der Borel-Mengen zugrunde. Diese umfasst zwar nicht jede Teil-
menge des Rk , sie ist aber reichhaltig genug, um alle für konkre- kurz und prägnant für das Ereignis, dass das Maximum der ge-
te Fragestellungen wichtige Mengen zu beinhalten. Wie im Satz worfenen Augenzahlen höchstens drei ist. J
14 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Die Urbildabbildung zu einer Zufallsvariablen Kommentar


ordnet Ereignissen Ereignisse zu Es ist allgemeiner Brauch, für Zufallsvariablen nicht ver-
traute Funktionssymbole wie f oder g, sondern große la-
Das obige Beispiel verdeutlicht, dass eine auf ˝ definierte teinische Buchstaben aus dem hinteren Teil des Alphabets,
Funktion einen interessierenden Aspekt eines stochastischen also Z; Y ; X ; W ; V ; U ; : : :, zu verwenden. Nimmt X nur
Vorgangs beschreiben kann, und dass sich mithilfe dieser Funk- nichtnegative ganze Zahlen als Werte an, so sind auch die
tion Ereignisse formulieren lassen. Bezeichnungen N , M oder L üblich.
Im Hinblick auf eine tragfähige Theorie, die z. B. auch Ab- Die rein technische und im Fall A D P .˝/ entbehrliche
bildungen zulässt, deren Wertebereiche Funktionenräume sind Bedingung (2.2) wird .A; A0 /-Messbarkeit von X genannt,
(man denke hier etwa an kontinuierliche Aufzeichnungen seis- vgl. Abschn. 8.4. Sie garantiert, dass Urbilder von Ereignis-
sen in ˝ 0 Ereignisse in ˝ sind und besagt somit, dass die
Kapitel 2

mischer Aktivität), betrachten wir in der Folge Abbildungen mit


allgemeinen Wertebereichen. Ausgangspunkt sind zwei Mess- zwischen Messräumen vermittelnde Abbildung X struktur-
räume .˝; A/ und .˝ 0 ; A0 /, also zwei nichtleere Mengen ˝ verträglich ist. Wären A und A0 Systeme offener Mengen
und ˝ 0 als Grundräume sowie Ereignissysteme in Form von und damit Topologien auf ˝ bzw. ˝ 0 , so wäre (2.2) gerade
-Algebren A  P .˝/ bzw. A0  P .˝ 0 / über ˝ bzw. ˝ 0 . die Eigenschaft der Stetigkeit von X , also die Strukturver-
Weiter sei X W ˝ ! ˝ 0 eine Abbildung, deren Urbildabbil- träglichkeit von X als Abbildung zwischen topologischen
dung mit Räumen.
In der Maßtheorie wird gezeigt, dass (2.2) schon gilt, wenn
(
P .˝ 0 / ! P .˝/; nur die Urbilder X 1 .A0 / aller Mengen A0 eines Erzeugers
1
X W der -Algebra A0 in A liegen, und dass die Verkettung mess-
A0 7! X 1 .A0 / WD f! 2 ˝ j X .!/ 2 A0 g barer Abbildungen messbar ist (siehe Abschn. 8.4). Dort
wird auch gezeigt, dass sich u. a. Rechenregeln über reel-
bezeichnet werde.
le Zufallsvariablen ergeben, die den Regeln im Umgang mit
stetigen Funktionen entsprechen. So sind mit X und Y auch
aX C bY (a; b 2 R) sowie das Produkt X Y , der Quoti-
Definition einer Zufallsvariablen
ent X =Y (falls Y .!/ ¤ 0, ! 2 ˝) und max.X ; Y / sowie
In der obigen Situation heißt jede Abbildung X W ˝ ! ˝ 0 min.X ; Y / wieder Zufallsvariablen.
mit der Eigenschaft Manchmal kommt es vor, dass Zufallsvariablen Werte in
der Menge R WD R [ fC1; 1g, also der um die unei-
X 1 .A0 / 2 A für jedes A0 2 A0 (2.2) gentlichen Punkte C1 und 1 erweiterten reellen Zahlen,
annehmen. Dies geschieht z. B. dann, wenn auf das Eintreten
eine ˝ 0 -wertige Zufallsvariable. eines Ereignisses wie der ersten Sechs eim Würfelwurf ge-
wartet wird und dieses Ereignis unter Umständen nie eintritt,
Der Wert X .!/ heißt Realisierung der Zufallsvariablen
also die Anzahl der dafür benötigten Würfe den (uneigent-
X zum Ausgang !.
lichen) Wert 1 annimmt. Im Fall ˝ 0 D R wählt man als
-Algebra das System
Eine Zufallsvariable X ist also nichts anderes als eine Funkti- B WD fB [ E j B 2 B; E  f1; 1gg
on, die einen Grundraum in einen anderen Grundraum abbildet.
Dabei wird nur vorausgesetzt, dass die Urbilder der Ereig- der in R Borelschen Mengen und nennt X eine nume-
nisse im Bildraum Ereignisse im Ausgangsraum sind; man rische Zufallsvariable. Mit geeigneten Festsetzungen für
fordert aber weder die Injektivität noch die Surjektivität von Rechenoperationen und Ordnungsbeziehungen sind dann mit
X . Im Spezialfall .˝ 0 ; A0 / D .R; B/ nennt man X auch eine X ; X1 ; X2 ; : : : auch jX j, aX1 C bX2 (a; b 2 R) sowie
reelle Zufallsvariable, im Fall .˝ 0 ; A0 / D .Rk ; Bk / einen k-
dimensionalen Zufallsvektor. sup Xn ; inf Xn ; lim sup Xn ; lim inf Xn
n1 n1 n!1 n!1

numerische Zufallsvariablen. Insbesondere ist auch


Ω X
limn!1 Xn eine numerische Zufallsvariable, falls die Folge
Ω
Xn punktweise in R konvergiert. Mit Zufallsvariablen kann
ω• • X(ω) man also fast bedenkenlos rechnen. Wir werden auf Mess-
X −1
barkeitsfragen hier nicht eingehen, weil sie den Blick auf die
−1 wesentlichen stochastischen Fragen und Konzepte verstel-
X (A ) A len. Details können bei Bedarf in Abschn. 8.4 nachgelesen
werden. J
Sind X W ˝ ! ˝ 0 eine Zufallsvariable und A0 2 A0 , so
Abb. 2.1 Zufallsvariable und zugehörige Urbildabbildung schreiben wir – in völliger Übereinstimmung mit einer auch in
2.3 Das Axiomensystem von Kolmogorov 15

Abschn. 8.4 verwendeten Notation – kurz und suggestiv ! zu Aj gehört, also das Ereignis Aj eintritt (bzw. gleich 0,
wenn ! nicht zu Aj gehört). Die in (2.6) definierte Zufallsvaria-
fX 2 A0 g WD f! 2 ˝ j X .!/ 2 A0 g D X 1 .A0 / ble X beschreibt somit die Anzahl derjenigen Ereignisse unter
A1 ; A2 ; : : : ; An , die eintreten.
für das Ereignis, dass X einen Wert in der Menge A0 annimmt.
Im Spezialfall ˝ 0 D R und für spezielle Mengen wie A0 D Video 2.2 Indikatorfunktionen und Zählvariablen
Œ1; c, A0 D .c; 1 oder A0 D .a; b mit a; b; c 2 R setzen
wir

fX  cg WD f! 2 ˝ j X .!/  cg D X 1 .Œ1; c/;


fX > cg WD f! 2 ˝ j X .!/ > cg D X 1 ..c; 1/;

Kapitel 2
fa < X  bg WD f! 2 ˝ j a < X .!/  bg D X 1 ..a; b/
Das Ereignis fX D kg besagt, dass genau k der n Ereignis-
usw. Diese Nomenklatur deutet schon an, dass wir beim Studi- se A1 , A2 ; : : : ; An eintreten. In diesem Fall gibt es genau eine
um von Zufallsvariablen deren zugrunde liegenden Definitions- k-elementige Teilmenge T von f1; 2; : : : ; ng, sodass die Ereig-
bereich ˝ i. Allg. wenig Aufmerksamkeit schenken werden. nisse Aj mit j 2 T eintreten und die übrigen nicht. Diese
Überlegung liefert für jedes k 2 f0; 1; : : : ; ng die Darstellung
0 1
Indikatorsummen zählen, wie viele Ereignisse X \ \
fX D kg D @ Aj \ Ac` A : (2.7)
eintreten
T WjT jDk j 2T `…T

Besondere Bedeutung besitzen Zufallsvariablen, die das Eintre-


ten oder Nichteintreten von Ereignissen beschreiben. Dabei durchläuft T alle k-elementigen Teilmengen von
f1; : : : ; ng. Die Verwendung der Summenschreibweise für die
rechts stehende Vereinigung ist gerechtfertigt, da die zu verei-
Definition einer Indikatorfunktion nigenden Mengen für verschiedene T paarweise disjunkt sind.
Darstellung (2.7) unterstreicht die Nützlichkeit von Indikator-
Ist A  ˝ ein Ereignis, so heißt die durch summen. Da Indikatorsummen die eintretenden Ereignisse unter
( A1 ; : : : ; An zählen, nennen wir Indikatorsummen im Folgenden
1; falls ! 2 A manchmal auch Zählvariablen.
1A .!/ WD ; ! 2 ˝;
0 sonst
Selbstfrage 3
definierte Zufallsvariable 1A die Indikatorfunktion von Welche Gestalt besitzen die Spezialfälle k D 0 und k D n
A bzw. der Indikator von A (von lat. indicare: anzeigen). in (2.7)?
Anstelle von 1A schreiben wir häufig auch 1fAg.

Tatsächlich zeigt die Realisierung von 1A an, ob das Ereignis A 2.3 Das Axiomensystem
eingetreten ist (1A .!/ D 1) oder nicht (1A .!/ D 0). Für die von Kolmogorov
Ereignisse ˝ und ; gelten offenbar 1˝ .!/ D 1 bzw. 1; .!/ D 0
für jedes ! aus ˝. Weiter gelten die durch Fallunterscheidung Um einen stochastischen Vorgang zu modellieren, haben wir
einzusehenden Regeln bislang nur dessen mögliche Ergebnisse in Form einer nichtlee-
ren Menge ˝ zusammengefasst. Des Weiteren wurden gewisse
1A\B D 1A  1B ; (2.3) Teilmengen von ˝ als Ereignisse bezeichnet, wobei das System
1A[B D 1A C 1B  1A\B ; aller Ereignisse eine -Algebra bilden soll. Zudem haben wir
1ACB D 1A C 1B ; (2.4) gesehen, dass sich Ereignisse bequem mithilfe von Zufallsva-
riablen beschreiben lassen. Nun fehlt uns noch der wichtigste
1Ac D 1  1A : (2.5)
Bestandteil eines mathematischen Modells für stochastische
Dabei sind A; B 2 A Ereignisse (Aufgabe 2.29). Vorgänge, nämlich der Begriff der Wahrscheinlichkeit.

Sind A1 ; A2 ; : : : ; An  ˝ Ereignisse, so ist es oft von Bedeu-


tung, wie viele dieser Ereignisse eintreten. Diese Information
liefert die Indikatorsumme
Relative Häufigkeiten: der intuitive
frequentistische Hintergrund
X WD 1fA1 g C 1fA2 g C : : : C 1fAn g: (2.6)
Um diesen Begriff einzuführen, lassen wir uns von Erfahrun-
Werten wir nämlich die rechte Seite von (2.6) als Abbildung auf gen leiten, die vermutlich jeder schon einmal gemacht hat. Wir
˝ an der Stelle ! aus, so ist der j -te Summand gleich 1, wenn stellen uns einen Zufallsversuch wie etwa einen Würfelwurf
16 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

oder das Drehen eines Roulette-Rades vor, dessen Ergebnisse


durch einen Grundraum ˝ mit einer -Algebra A als Ereig-
0.5
nissystem beschrieben werden. Dieser Versuch werde n-mal
unter möglichst gleichen, sich gegenseitig nicht beeinflussen-
den Bedingungen durchgeführt und seine jeweiligen Ausgänge 0.4

als Elemente von ˝ protokolliert. Ist A  ˝ ein Ereignis, so


bezeichnen hn .A/ die Anzahl der Versuche, bei denen das Er- 0.3
eignis A eingetreten ist, sowie
0.2
hn .A/
rn .A/ WD
n 0.1
Kapitel 2

die relative Häufigkeit von A in dieser Versuchsserie.


0
Offenbar gilt 0  rn .A/  1, wobei sich die extremen Werte 0 0 50 100 150 200
bzw. 1 genau dann einstellen, wenn das Ereignis A in der Ver-
suchsserie der Länge n nie bzw. immer auftritt. Die Kenntnis Abb. 2.2 Fortlaufend notierte relative Häufigkeiten für 1 beim Reiß-
der relativen Häufigkeit rn .A/ liefert also eine Einschätzung der zweckenversuch
Chance für das Eintreten von A in einem weiteren, zukünftigen
Versuch: Je näher der Wert rn .A/ bei 1 bzw. bei 0 liegt, desto
Abb. 2.2 illustriert dieses empirische Gesetz über die Stabilisie-
eher würde man auf das Eintreten bzw. Nichteintreten von A in
rung relativer Häufigkeiten anhand eines 200-mal durchgeführ-
einem späteren Versuch wetten. Darüber hinaus würde man der
ten Versuchs, bei dem eine Reißzwecke auf einen Steinboden
relativen Häufigkeit einen umso größeren Prognosewert für das
geworfen wurde. Dabei wurde eine 1 notiert, falls die Reißzwe-
Eintreten oder Nichteintreten von A in einem zukünftigen Ver-
cke mit der Spitze nach oben zu liegen kam, andernfalls eine 0.
such zubilligen, je größer die Anzahl n der Versuche und somit
Abb. 2.2 zeigt die in Abhängigkeit von n, 1  n  200, aufge-
je verlässlicher die Datenbasis ist. Auf letzteren Punkt werden
tragenen relativen Häufigkeiten für das Ergebnis 1, wobei eine
wir gleich noch zurückkommen.
Stabilisierung deutlich zu erkennen ist.
Offenbar besitzt rn ./ als Funktion der Ereignisse A 2 A fol-
gende Eigenschaften: Man könnte versucht sein, die Wahrscheinlichkeit eines Ereig-
nisses A durch denjenigen „Grenzwert“ definieren zu wollen,
gegen den sich die relative Häufigkeit von A bei wachsen-
Eigenschaften der relativen Häufigkeit der Versuchsanzahl n erfahrungsgemäß zu stabilisieren scheint.
Dieser naive Ansatz scheitert jedoch schon an der mangeln-
Für die relative Häufigkeitsfunktion rn W A ! R gelten: den Präzisierung des Adverbs erfahrungsgemäß sowie an der
rn .A/  0 für jedes A 2 A, fehlenden Kenntnis dieses Grenzwertes. Man mache sich klar,
rn .˝/ D 1, dass das empirische Gesetz über die Stabilisierung relativer
Sind A1 ; A2 ; : : : paarweise disjunkte Mengen aus A, Häufigkeiten ausschließlich eine Erfahrungstatsache und kein
so gilt mathematischer Sachverhalt ist. So kann z. B. logisch nicht aus-
0 1 geschlossen werden, dass beim fortgesetzten Reißzweckenwurf
X1 X1
die Folge der relativen Häufigkeiten rn .f1g/ nicht konvergiert
rn @ Aj A D rn .Aj /:
oder dass eine Person immer nur das Ergebnis „Spitze nach
j D1 j D1
oben“ und eine andere immer nur das Resultat „Spitze schräg
nach unten“ beobachtet!
Die Eigenschaften rn .A/  0 und rn .˝/ D 1 sind unmittelbar Ungeachtet dieser Schwierigkeiten versuchte der Mathematiker
klar. Für die letzte beachte man, dass höchstens n der Ereignisse Richard von Mises (1883–1953) im Jahre 1919, Wahrschein-
A1 ; A2 ; : : : eintreten können. lichkeiten mithilfe von Grenzwerten relativer Häufigkeiten unter
gewissen einschränkenden Bedingungen zu definieren. Dieser
Offenbar hängt die Funktion rn von den konkreten Ergebnissen
Versuch einer Axiomatisierung der Wahrscheinlichkeitsrech-
!1 ; : : : ; !n der n Versuche ab, denn es gilt
nung führte zwar nicht zum vollen Erfolg, hatte jedoch starken
1X Einfluss auf die weitere Grundlagenforschung.
n
rn .A/ D 1A .!k /:
n
kD1

Die Prognosekraft der relativen Häufigkeit rn .A/ für das Ein- Die Mathematik des Zufalls ruht auf drei
treten von A in einem zukünftigen Experiment ist prinzipiell Grundpostulaten
umso stärker, je größer n ist. Dies liegt daran, dass relative
Häufigkeiten bei einer wachsenden Anzahl von Versuchen, die In der Tat war es lange Zeit ein offenes Problem, auf wel-
wiederholt unter möglichst gleichen Bedingungen und unbe- che Fundamente sich eine „Mathematik des Zufalls“ gründen
einflusst voneinander durchgeführt werden, erfahrungsgemäß sollte, und so dauerte es bis zum Jahr 1933, als Andrej Ni-
immer weniger fluktuieren und somit immer stabiler werden. kolajewitsch Kolmogorov (1903–1987) in einer auf Deutsch
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen 17

verfassten Abhandlung das bis heute fast ausschließlich als Bemerkenswerterweise geht es schon im ersten systematischen
Basis für wahrscheinlichkeitstheoretische Untersuchungen die- Lehrbuch zur Stochastik, der Ars conjectandi von Jakob Ber-
nende nachfolgende Axiomensystem aufstellte, siehe [19]. noulli (1655–1705) (siehe [2]) im vierten Teil um eine allge-
meine „Kunst des Vermutens“, die sich sowohl subjektiver als
auch objektiver Gesichtspunkte bedient:
Das Axiomensystem von Kolmogorov (1933) Irgendein Ding vermuten heißt seine Wahrscheinlichkeit zu messen.
Deshalb bezeichnen wir soviel als Vermutungs- oder Mutmaßungs-
Ein Wahrscheinlichkeitsraum ist ein Tripel .˝; A; P /. kunst (Ars conjectandi sive stochastice) die Kunst, so genau wie
Dabei sind möglich die Wahrscheinlichkeit der Dinge zu messen und zwar zu
dem Zwecke, dass wir bei unseren Urteilen und Handlungen stets das
a) ˝ eine beliebige nichtleere Menge, auswählen und befolgen können, was uns besser, trefflicher, sicherer
b) A eine -Algebra über ˝, oder ratsamer erscheint. Darin allein beruht die ganze Weisheit der

Kapitel 2
c) P W A ! R eine Funktion mit den folgenden drei Philosophen und die ganze Klugheit des Staatsmannes.
Eigenschaften: Um ein passendes Modell für einen stochastischen Vorgang zu
P .A/  0 für jedes A 2 A (Nichtnegativität). liefern, sollte der Wahrscheinlichkeitsraum .˝; A; P / eine vor-
P .˝/ D 1 (Normierung). liegende Situation möglichst gut beschreiben. Für den Fall eines
Sind A1 ; A2 ; : : : paarweise disjunkte Mengen aus wiederholt durchführbaren Versuchs bedeutet dieser Wunsch,
A, so gilt dass die Wahrscheinlichkeit P .A/ eines Ereignisses A als er-
0 1 wünschtes Maß für die Chance des Eintretens von A in einem
X
1 X
1
Experiment nach Möglichkeit der „Grenzwert“ aus dem empiri-
P@ Aj A D P .Aj / . -Additivität/ schen Gesetz über die Stabilisierung relativer Häufigkeiten sein
j D1 j D1 sollte. Insofern wäre es etwa angesichts von Abb. 2.2 wenig
sinnvoll, für den Wurf einer Reißzwecke als (Modell-)Wahr-
Die Funktion P heißt Wahrscheinlichkeitsmaß oder scheinlichkeiten P .f1g/ D 0:25 und P .f0g/ D 0:75 zu wählen.
auch Wahrscheinlichkeitsverteilung auf A. Jede Men- Die beobachteten Daten wären unter diesen mathematischen
ge A aus A heißt Ereignis. Für ein Ereignis A heißt die Annahmen so unwahrscheinlich, dass man dieses Modell als un-
Zahl P .A/ die Wahrscheinlichkeit von A. tauglich ablehnen würde.
Diese Überlegungen zeigen, dass das wahrscheinlichkeitstheo-
retische Modellieren und das Überprüfen von Modellen anhand
Das Kolmogorovsche Axiomensystem macht offenbar keiner- von Daten als Aufgabe der Statistik Hand in Hand gehen. Was
lei inhaltliche Aussagen darüber, was Wahrscheinlichkeiten sind Anwendungen betrifft, sind also Wahrscheinlichkeitstheorie und
oder sein sollten. Motiviert durch die Eigenschaften relativer Statistik eng miteinander verbunden!
Häufigkeiten und das empirische Gesetz über deren Stabilisie-
rung in langen Versuchsserien legt es vielmehr ausschließlich
fest, welche formalen Eigenschaften Wahrscheinlichkeiten als 2.4 Verteilungen von
mathematische Objekte unbedingt besitzen sollten. Diese eher
anspruchslos und bescheiden anmutende Vorgehensweise bil- Zufallsvariablen,
dete gerade den Schlüssel zum Erfolg einer mathematischen Beispiel-Klassen
Grundlegung der Wahrscheinlichkeitsrechnung. Sie ist uns auch
aus anderen mathematischen Gebieten geläufig. So wird etwa in In diesem Abschnitt wollen wir andeuten, dass es ein großes
der axiomatischen Geometrie nicht inhaltlich definiert, was ein Arsenal an Wahrscheinlichkeitsräumen gibt, um eine Vielfalt
Punkt p und was eine Gerade g ist. Es gilt jedoch stets entweder an stochastischen Vorgänge modellieren zu können. Zunächst
p 2 g oder p … g. erinnern wir an die Ausführungen in Abschn. 2.2. Dort haben
wir gesehen, dass Zufallsvariablen ein probates Mittel sind, um
Das Axiomensystem von Kolmogorov liefert einen abstrakten Ereignisse zu beschreiben, die sich auf einen gewissen Aspekt
mathematischen Rahmen mit drei Grundpostulaten, der völlig der Ergebnisse eines stochastischen Vorgangs beziehen. So gibt
losgelöst von irgendwelchen stochastischen Vorgängen ange- P
etwa eine Indikatorsumme jnD1 1fAj g an, wie viele der Ereig-
sehen werden kann und bei logischen Schlussfolgerungen aus nisse A1 ; : : : ; An eintreten.
diesen Axiomen auch so gesehen werden muss. Es bildet gleich-
sam nur einen Satz elementarer, über relative Häufigkeiten
motivierte Spielregeln im Umgang mit Wahrscheinlichkeiten
als mathematischen Objekten. Gerade dadurch, dass es jegliche
Aus .˝; A; P / und einer Zufallsvariablen
konkrete Deutung des Wahrscheinlichkeitsbegriffs vermeidet, X W ˝ ! ˝ 0 entsteht ein neuer
eröffnete das Kolmogorovsche Axiomensystem der Stochastik Wahrscheinlichkeitsraum .˝ 0 ; A0 ; P X /
als interdisziplinärer Wissenschaft vielfältige Anwendungsfel-
der auch außerhalb des eng umrissenen Bereichs wiederholbarer Im Hinblick auf eine tragfähige Theorie wurde eine Zufallsva-
Versuche unter gleichen, sich gegenseitig nicht beeinflussenden riable als Abbildung X W ˝ ! ˝ 0 definiert, wobei .˝ 0; A0 / ein
Bedingungen. Wichtig ist hierbei, dass auch subjektive Bewer- allgemeiner Messraum, also eine beliebige Menge mit einer da-
tungen von Unsicherheit möglich sind. rauf definierten -Algebra sein kann. Gefordert wurde nur, dass
18 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Hintergrund und Ausblick: Der Unmöglichkeitssatz von Vitali

Eine unendliche Folge von Münzwürfen wird zweckmäßi- gibt es eine Menge K  ˝, die aus jeder Äquivalenzklas-
gerweise durch den überabzählbaren Grundraum se genau ein Element enthält. Es sei E WD fE  N j 1 
jEj < 1g die Menge aller nichtleeren endlichen Teilmen-
˝ WD f0; 1gN D f.aj /j 1 j aj 2 f0; 1g für jedes j  1g gen von N. Für eine Menge E WD fn1 ; : : : ; nk g 2 E ist die
Komposition
modelliert. Dabei steht aj für das Ergebnis des j -ten Wurfs,
und 1 und 0 bedeuten Kopf bzw. Zahl. Die Münze sei homo-
DE WD Dn1 ı : : : ı Dnk
gen, jeder Wurf ergebe also mit gleicher Wahrscheinlichkeit
Kapitel 2

1=2 Kopf oder Zahl.


von Dn1 ; : : : ; Dnk diejenige Abbildung, die für jedes j D
Der nachfolgende, auf den italienischen Mathematiker Giu- 1; : : : ; k das Ergebnis des nj -ten Münzwurfs vertauscht.
seppe Vitali (1875–1932) zurückgehende Satz besagt, dass
wir kein Wahrscheinlichkeitsmaß P auf der vollen Potenz- Die Mengen DE .K/ sind für verschiedene E 2 E disjunkt,
menge von ˝ finden können, welches neben den Kol- denn wäre DE .K/ \ DE 0 .K/ ¤ ; für E; E 0 2 E , so gäbe es
mogorovschen Axiomen einer natürlichen Zusatzbedingung !; ! 0 2 K mit DE .!/ D DE 0 .! 0 /, woraus ! DE .!/ D
genügt. Diese besagt, dass sich die Wahrscheinlichkeit eines DE 0 .! 0 / ! 0 folgen würde. Da K aus jeder Äquivalenz-
Ereignisses nicht ändert, wenn das Ergebnis des n-ten Münz- klasse genau ein Element enthält, wäre dann ! D ! 0 und
wurfs vertauscht, also Kopf durch Zahl bzw. Zahl durch Kopf somit E D E 0 . Da ferner zu jedem ! 2 ˝ ein ! 0 2 K mit
ersetzt wird. ! ! 0 und somit ein E 2 E mit ! D DE .! 0 / 2 DE .K/
existiert, gilt somit
X
Unmöglichkeitssatz von Vitali (1905) ˝D DE .K/:
E2E
Es sei ˝ WD f0; 1gN . Dann gibt es kein Wahrschein-
lichkeitsmaß P W P .˝/ ! Œ0; 1 mit folgender
Weil es zu jedem ` 2 N nur endlich viele Mengen aus
Invarianz-Eigenschaft:
E mit größtem Element ` gibt, steht hier eine Vereinigung
Für jedes A  ˝ und jedes n  1 gilt P .Dn .A// D von abzählbar vielen Mengen, und es folgt aufgrund der
P .A/. Dabei sind Dn W ˝ ! ˝ die durch Normierungseigenschaft, der -Additivität und der im Satz
formulierten Invarianzeigenschaft von P
Dn .!/ WD .a1 ; : : : ; an1 ; 1  an ; anC1 ; : : :/; X X
1 D P .˝/ D P .DE .K// D P .K/:
! D .a1 ; a2 ; : : :/, definierte Abbildung und Dn .A/ WD E2E E2E
fDn .!/ j ! 2 Ag das Bild von A unter Dn .
Da unendliches Aufsummieren der gleichen Zahl nur 0 oder
1 ergeben kann, haben wir eine Menge K erhalten, für die
P .K/ nicht definiert ist.
Beweis Für ! D .aj /j 1 2 ˝ und ! 0 D .aj0 /j 1 2 ˝ set-
zen wir ! ! 0 , falls aj D aj0 bis auf höchstens endlich viele Die Konsequenz dieses negativen Resultats ist, dass wir
j gilt. Offenbar definiert „ “ eine Äquivalenzrelation auf ˝, das Wahrscheinlichkeitsmaß P nur auf einer geeigneten -
und ˝ zerfällt damit in paarweise disjunkte Äquivalenzklas- Algebra A  P .˝/ definieren können. Wir kommen hierauf
sen. Nach dem Auswahlaxiom (siehe z. B. [1], Abschn. 2.3) in Abschn. 3.4 zurück. 
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen 19

die Urbilder X 1 .A0 / D fX 2 A0 g der Ereignisse A0 2 A0 zu A Bei vorgegebener Verteilung lassen sich
gehören, also Ereignisse in ˝ sind. Diese Eigenschaft bewirkt, Zufallsvariablen kanonisch konstruieren
dass P .fX 2 A0 g/ eine wohldefinierte Wahrscheinlichkeit ist,
wenn mit P ein Wahrscheinlichkeitsmaß auf A vorliegt. Wir
Die obigen Schreibweisen deuten an, dass in den Anwendun-
gelangen somit fast zwangsläufig zu folgender zentralen Be-
gen der Stochastik an einer Zufallsvariablen meist nur deren
griffsbildung.
Verteilung interessiert und dem Grundraum ˝ als Definitions-
bereich der Abbildung X wenig Aufmerksamkeit geschenkt
Verteilung einer (allgemeinen) Zufallsvariablen wird. Zur Verdeutlichung dieses Punktes gehen wir von einem
Wahrscheinlichkeitsraum .˝ 0; A0 ; Q/ aus und fragen uns, ob
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum, es eine über irgendeinem Wahrscheinlichkeitsraum .˝; A; P /
.˝ 0 ; A0 / ein Messraum und X W ˝ ! ˝ 0 eine definierte ˝ 0 -wertige Zufallsvariable X gibt, deren Verteilung

Kapitel 2
Zufallsvariable. Dann wird durch die Festsetzung gleich Q ist. Die Antwort ist „ja“, denn wir brauchen nur
(
A0 ! R; ˝ WD ˝ 0 ; A WD A0 ; P WD Q; X WD id˝ ; (2.8)
P X
W
A 7! P .A / WD P .X .A //
0 X 0 1 0
also X .!/ WD !, ! 2 ˝, zu setzen. Dann ist X W ˝ ! ˝ 0 eine
ein Wahrscheinlichkeitsmaß auf der -Algebra A0 defi- Zufallsvariable, und es gilt für jedes A0 2 A0
niert. Dieses heißt Verteilung von X .
P X .A0 / D P .X 1.A0 // D P .A0 / D Q.A0 /:

In der Sprache der Maßtheorie ist die Verteilung P X einer Zu- Folglich besitzt X die Verteilung Q. Diese Eigenschaft wird in
fallsvariablen X das in Abschn. 8.4 eingeführte Bildmaß von P der Folge häufig in der Form
unter der Abbildung X . Dass mit P X in der Tat ein Wahrschein-
lichkeitsmaß vorliegt, sieht man auch ohne Rückgriff auf Kap. 8 X Q W() P X D Q (2.9)
direkt ein, denn offenbar ist P X eine nichtnegative reelle Funk-
tion, die die Normierungsbedingung P X .˝ 0/ D P .˝/ D 1 geschrieben.
erfüllt. Die -Additivität von P X folgt aus der -Additivität von
Man nennt (2.8) die kanonische Konstruktion. Entscheidend für
P , da mit paarweise disjunkten Mengen A01 ; A02 ; : : : in A0 auch
die Existenz einer ˝ 0 -wertigen Zufallsvariablen mit einer vor-
deren Urbilder X 1 .A01 /; X 1 .A02 /; : : : paarweise disjunkt sind.
gegebenen Verteilung Q auf der -Algebra A0 über ˝ 0 ist also
Von einem Wahrscheinlichkeitsraum .˝; A; P / ausgehend er- nur, ob diese Verteilung Q als Wahrscheinlichkeitsmaß auf A0
halten wir also mit einer Zufallsvariablen X W ˝ ! ˝ 0 einen überhaupt existiert. Auf letztere Frage gibt die Maßtheorie mit
neuen Wahrscheinlichkeitsraum .˝ 0; A0 ; P X /. Dieser kann als dem in Abschn. 8.3 vorgestellten Maßfortsetzungssatz Antwort.
ein vergröbertes Abbild von .˝; A; P / angesehen werden, denn Wir werden hierauf noch an geeigneter Stelle zurückkommen.
mit P X .A0 / D P .X 1.A0 // verfügen wir ja nur noch über die
Wahrscheinlichkeiten von gewissen Mengen aus A, nämlich Zunächst betrachten wir eine wichtige Klasse von Wahrschein-
denjenigen, die in dem Sinne durch die Zufallsvariable X be- lichkeitsräumen und damit zusammenhängende Verteilungen
schreibbar sind, dass sie sich als Urbilder der Mengen A0 2 A0 von Zufallsvariablen und Zufallsvektoren, die einer einfachen
ausdrücken lassen. Im Rahmen dieser einführenden Darstellung mathematischen Behandlung zugänglich ist.
in die Stochastik wird X fast immer eine reelle Zufallsvariable
oder ein Rk -wertiger Zufallsvektor sein. In vielen Anwendun-
gen beobachtet man jedoch zufällige geometrische Objekte oder Diskrete Wahrscheinlichkeitsräume: Summation
Realisierungen zufallsbehafteter Funktionen, weshalb der Wer-
tebereich von X bewusst allgemein gehalten wurde.
von Punktmassen

Kommentar Wir haben das Ereignis X 1 .A0 /, dass X einen


Diskreter Wahrscheinlichkeitsraum
Wert in der Menge A0 annimmt, auch suggestiv als fX 2 A0 g
geschrieben. Es ist üblich, hier bei Bildung der Wahrscheinlich- Ein Wahrscheinlichkeitsraum .˝; A; P / heißt diskret,
keit P .fX 2 A0 g/ die Mengenklammern wegzulassen, also für falls A alle abzählbaren Teilmengen von ˝ enthält und
A0 2 A0 es eine abzählbare Menge ˝0  ˝ mit der Eigenschaft
P .˝0/ D 1 gibt.
P .X 2 A0 / WD P .fX 2 A0 g/ D P X .A0 / D P .X 1 .A0 //
zu setzen. Ist X eine reelle Zufallsvariable, gilt also .˝ 0; A0 / D
.R; B/, so schreibt man für a; b 2 R mit a  b Diese Definition umfasst den Fall, dass ˝ eine abzählbare, also
endliche oder abzählbar unendliche Menge ist. Dann gilt A D
P .a  X  b/ WD P .X 2 Œa; b/;
P .˝/, denn A enthält ja jede abzählbare – und damit jede –
P .a < X  b/ WD P .X 2 .a; b/; Teilmenge von ˝. Ist ˝ endlich, so nennt man .˝; P .˝/; P /
P .X  a/ WD P .X 2 .1; a/ usw. J auch einen endlichen Wahrscheinlichkeitsraum.
20 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Sind .˝; A; P / ein diskreter Wahrscheinlichkeitsraum und jedem ! 2 ˝0 eine nichtnegative reelle Zahl p.!/ als „Punkt-
˝0  ˝ eine abzählbare Teilmenge von ˝ mit P .˝0/ D 1, masse“ zu, wobei
so gilt für jedes A 2 A X
p.!/ D 1 (2.11)
P .A/ D P .A \ ˝0 / C P .A \ ˝0c / D P .A \ ˝0 /; !2˝0

gelte. Auch hier steht auf der linken Seite entweder eine end-
denn A ist die disjunkte Vereinigung der Mengen A \ ˝0 und liche Summe oder der Grenzwert einer unendlichen Reihe.
A \ ˝0c , und es gilt A \ ˝0c  ˝0c und somit P .A \ ˝0c /  Definieren wir dann für jede Teilmenge A von ˝
P .˝0c / D 1  P .˝0/ D 0. Hierbei haben wir den elemen- X
taren Eigenschaften b), d) und e) von Wahrscheinlichkeiten in P .A/ WD p.!/;
Abschn. 2.5 vorgegriffen. !2A\˝0
Kapitel 2

Wegen der -Additivität von P folgt hieraus die Gleichung so ist die Funktion P W P .˝/ ! R aufgrund des Umordnungs-
satzes für Reihen wohldefiniert, und es gilt P .A/  0, A  ˝,
X
P .A/ D P .f!g/: (2.10) sowie wegen (2.11) P .˝/ D 1. Sind A1 ; A2 ; : : : paarweise dis-
!2A\˝0
junkte Teilmengen von ˝, so gilt nach Definition von P und
dem in der folgenden Gleichungskette beim zweiten Gleich-
Hier steht auf der rechten Seite entweder eine endliche Summe heitszeichen zum Tragen kommenden großen Umordnungssatz
oder der Grenzwert einer konvergenten Reihe, wobei es auf die für Reihen (siehe z. B. [1], Abschn. 10.4)
konkrete Summationsreihenfolge nicht ankommt. 0 1
X1 X
P@ Aj A D p.!/
P1
Selbstfrage 4 j D1 !2 j D1 Aj \˝0
Warum kommt es nicht auf die konkrete Summationsreihenfol- X
1 X
ge an? D p.!/
j D1 !2Aj \˝0

X
1
Insbesondere erkennt man, dass die auf dem System A von D P .Aj /:
Teilmengen von ˝ definierte Funktion P durch ihre Werte auf j D1
den Elementarereignissen f!g, ! 2 ˝, festgelegt ist. Wir kön-
nen folglich mit einem diskreten Wahrscheinlichkeitsraum die Die Funktion P ist somit -additiv und folglich ein auf der Po-
Vorstellung verbinden, dass in jedem Punkt ! aus ˝ eine Wahr- tenzmenge von ˝ definiertes Wahrscheinlichkeitsmaß. Selbst-
scheinlichkeitsmasse P .f!g/ angebracht ist. Dabei muss nicht verständlich können wir P auf jede -Algebra A  P .˝/
unbedingt P .f!g/ > 0 für jedes ! 2 ˝ gelten. Die Wahrschein- einschränken, die ˝0 und alle abzählbaren Teilmengen von ˝
lichkeit eines Ereignisses A ergibt sich dann nach (2.10) durch enthält. Auf diese Weise erhalten wir einen allgemeinen diskre-
Aufsummieren der Punktmassen P .f!g/ aller zu A \ ˝0 gehö- ten Wahrscheinlichkeitsraum. Wir können auch die bislang nur
renden ! 2 ˝, siehe Abb. 2.3. Man beachte, dass P .˝0c / D 0 auf ˝0 definierte Funktion p durch p.!/ WD 0 für ! 2 ˝ n ˝0
gilt und somit das (diskrete) Wahrscheinlichkeitsmaß P ganz formal auf ganz ˝ erweitern, ohne das Wahrscheinlichkeitsmaß
auf der abzählbaren Menge ˝0 konzentriert ist. Dieser Umstand P zu ändern.
motiviert die gängige Sprechweise, dass P eine Wahrscheinlich-
keitsverteilung auf ˝0 ist. Video 2.3 Der große Umordnungssatz für Reihen

Ist umgekehrt ˝0 eine beliebige nichtleere abzählbare Teilmen-


ge einer beliebigen Menge ˝, so können wir wie folgt einen
diskreten Wahrscheinlichkeitsraum konstruieren: Wir ordnen

Ein wichtiger Spezialfall eines endlichen Wahrscheinlichkeits-


raumes ergibt sich, wenn alle Elementarereignisse als gleich
({ω}) möglich erachtet werden. Da der französische Physiker und Ma-
• thematiker Pierre-Simon Laplace (1749–1827) bei seinen Un-
• •
• A∩Ω0 • tersuchungen zur Wahrscheinlichkeitsrechnung vor allem mit
ω
dieser Vorstellung gearbeitet hat, tragen die nachfolgenden Be-
griffsbildungen seinen Namen. Dabei schreiben wir allgemein
jAj für die Anzahl der Elemente einer endlichen Menge A. Ist
Abb. 2.3 Wahrscheinlichkeiten als Summen von Punktmassen A eine unendliche Menge, so setzen wir jAj WD 1.
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen 21

Im Laplace-Modell sind die Elementarereignisse (X = k)


6/36
gleich wahrscheinlich
5/36
4/36
3/36
Laplacescher Wahrscheinlichkeitsraum 2/36

Ist ˝ eine m-elementige Menge, und gilt speziell 1/36

2 3 4 5 6 7 8 9 10 11 12 k
jAj jAj
P .A/ D D ; A  ˝; (2.12)
j˝j m Abb. 2.4 Stabdiagramm der Verteilung der Augensumme beim zwei-

Kapitel 2
fachen Würfelwurf
so heißt .˝; P .˝/; P / Laplacescher Wahrscheinlich-
keitsraum (der Ordnung m). In diesem Fall heißt P die
Ordnet man die 36 Elemente von ˝ in der Form
(diskrete) Gleichverteilung oder Laplace-Verteilung
auf ˝. .1; 1/ .1; 2/ .1; 3/ .1; 4/ .1; 5/ .1; 6/
.2; 1/ .2; 2/ .2; 3/ .2; 4/ .2; 5/ .2; 6/
.3; 1/ .3; 2/ .3; 3/ .3; 4/ .3; 5/ .3; 6/
Wird die Gleichverteilung auf ˝ zugrunde gelegt, so nennen wir .4; 1/ .4; 2/ .4; 3/ .4; 4/ .4; 5/ .4; 6/
den zugehörigen stochastischen Vorgang auch Laplace-Versuch .5; 1/ .5; 2/ .5; 3/ .5; 4/ .5; 5/ .5; 6/
oder Laplace-Experiment. Die Annahme eines solchen Laplace- .6; 1/ .6; 2/ .6; 3/ .6; 4/ .6; 5/ .6; 6/
Modells drückt sich dann in Formulierungen wie homogene
(echte) Münze, regelmäßiger (echter) Würfel, rein zufälliges an, so ist die Augensumme X auf den aufsteigenden Diago-
Ziehen o. Ä. aus. nalen wie etwa .4; 1/, .3; 2/, .2; 3/, .1; 4/ konstant. Folglich
ergibt sich für jedes k D 2; 3; : : : ; 12 die Wahrscheinlichkeit
Nach (2.12) ergibt sich unter einem Laplace-Modell die Wahr- P .X D k/ durch Betrachten der für das Ereignis fX D kg
scheinlichkeit eines Ereignisses A als Quotient aus der Anzahl günstigen unter allen 36 möglichen Fällen zu
jAj der für das Eintreten von A günstigen Fälle und der Anzahl 6  j7  kj
j˝j aller möglichen Fälle. Es sollte also nicht schaden, das in P .X D k/ D : (2.13)
36
Abschn. 2.6 vermittelte kleine Einmaleins der Kombinatorik zu
beherrschen. Abb. 2.4 zeigt die Wahrscheinlichkeiten P .X D k/ in Form
eines Stabdiagramms.
Eine auf einem diskreten Wahrscheinlichkeitsraum definier- Hiermit erhält man z. B.
te Zufallsvariable kann höchstens abzählbar unendlich viele X
5
verschiedene Werte mit jeweils positiver Wahrscheinlichkeit an- 9 1
P .3  X  5/ D P .X D k/ D D ;
nehmen. Eine derartige Zufallsvariable heißt diskret verteilt. In 36 4
kD3
Kap. 4 werden wir uns ausführlicher mit diskreten Verteilungs-
X
12
15 5
modellen beschäftigen. P .X > 7/ D P .X D k/ D D :
36 12
kD8
Liegt eine reelle Zufallsvariable X vor, so ist es üblich, die von
X angenommenen Werte mit den zugehörigen Wahrscheinlich- In gleicher Weise zeigt Abb. 2.5 ein Stabdiagramm der Wahr-
keiten in Form von Stab- oder Balkendiagrammen darzustellen. scheinlichkeiten P .X D k/, k D 3; 4; : : : ; 18, der Augensum-
Dabei wird über jedem x 2 R mit P .X D x/ > 0 ein Stäbchen me X beim dreifachen Würfelwurf. J
oder Balken der Länge P .X D x/ aufgetragen. Das folgen-
de Beispiel zeigt, wie man im Fall eines zugrunde gelegten (X = k)
Laplace-Modells durch Abzählen von günstigen Fällen die Ver- 27/216
teilung von X ermittelt.
21/216

15/216
Beispiel (Mehrfacher Würfelwurf, Augensumme) Wir
betrachten den zweimal hintereinander ausgeführten Würfel- 9/216
wurf und modellieren diesen durch den Grundraum ˝ WD
f! D .a1 ; a2 / j a1 ; a2 2 f1; : : : ; 6gg. Als Wahrscheinlichkeits- 3/216
maß P legen wir die Gleichverteilung zugrunde, nehmen also 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
k
ein Laplace-Modell an. Die Zufallsvariable X W ˝ ! R be-
schreibe die Augensumme aus beiden Würfen, es gilt somit Abb. 2.5 Stabdiagramm der Verteilung der Augensumme beim dreifa-
X .!/ WD a1 C a2 , ! D .a1 ; a2 / 2 ˝. chen Würfelwurf
22 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Das Lebesgue-Integral liefert Modelle f (x)

für ein Kontinuum von Ergebnissen


Während diskrete Zufallsvariablen stochastische Vorgänge mo-
dellieren, bei denen nur abzählbar viele Ergebnisse auftreten
können, zeigen die folgenden Überlegungen zusammen mit der
kanonischen Konstruktion, dass es auch reelle Zufallsvariablen
und allgemeiner k-dimensionale Zufallsvektoren gibt, die je-
den festen Wert mit Wahrscheinlichkeit null annehmen. Solche
a b x
Zufallsvariablen beschreiben stochastische Vorgänge, bei denen
ein ganzes Kontinuum von Ausgängen möglich ist. Diese wei-
Kapitel 2

Abb. 2.6 Deutung der farbigen Fläche als Wahrscheinlichkeit


tere große Beispielklasse von Wahrscheinlichkeitsräumen ergibt
sich mithilfe des Lebesgue-Integrals. Ausgangspunkt ist eine
beliebige nichtnegative Funktion f W Rk ! R mit den Eigen-
schaften
fx 2 Rk j f .x/  cg 2 Bk für jedes c 2 R (2.14)
und Z
f .x/ dx D 1: (2.15)
Rk

Dabei ist das Integral als Lebesgue-Integral zu verstehen. Ei-


ne derartige Funktion heißt Wahrscheinlichkeitsdichte oder kurz
Dichte(-Funktion). Forderung (2.14) heißt Borel-Messbarkeit
von f . Durch die Festsetzung
Z Abb. 2.7 Graph einer Wahrscheinlichkeitsdichte auf R2 als Gebirge
Q.B/ WD f .x/ dx; B 2 Bk ; (2.16)
B so beschaffen sein, dass das Integral auch als Riemann-Integral
wird dann nach Sätzen der Maß- und Integrationstheorie ein berechnet werden kann (siehe hierzu die Unter-der-Lupe-Box
Wahrscheinlichkeitsmaß auf der Borelschen -Algebra Bk de- über das Riemann- und das Lebesgue-Integral in Abschn. 8.5).
finiert. Dabei sind die Nichtnegativität von Q und die Nor-
mierungsbedingung Q.Rk / D 1 wegen der Nichtnegativität
von f und (2.15) unmittelbar einzusehen. Die -Additivität 2.5 Folgerungen aus den Axiomen
von Q folgt aus dem Satz von der monotonen Konvergenz in
Abschn. 8.6. Wir werden jetzt einige Folgerungen aus den Kolmogorovschen
Mit ˝ 0 WD Rk , A0 WD Bk liefert dann die Konstruktion (2.8), Axiomen ziehen. Diese bilden das kleine Einmaleins im Um-
dass es einen k-dimensionalen Zufallsvektor X gibt, der die Ver- gang mit Wahrscheinlichkeiten und finden im Weiteren immer
teilung Q besitzt, für den also P .X 2 B/ gleich der rechten wieder Verwendung.
Seite von (2.16) ist. Ein solcher Zufallsvektor heißt (absolut)
stetig verteilt, siehe Kap. 5.
Elementare Eigenschaften von Wahrscheinlichkeiten
Im Fall k D 1 bedeutet Bedingung (2.15) anschaulich, dass die
Fläche zwischen dem Graphen von f und der x-Achse gleich Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
1 ist. Die Wahrscheinlichkeit P .B/ kann dann als Fläche zwi- A; B; A1 ; A2 ; : : : Ereignisse. Dann gelten:
schen diesem Graphen und der x-Achse über der Menge B
angesehen werden. Abb. 2.6 illustriert diese Situation für den a) P .;/
P D 0, Pn
Fall, dass B D Œa; b ein Intervall ist. b) P . jnD1 Aj / D j D1 P .Aj / für jedes n  2 und
jede Wahl paarweise disjunkter Ereignisse A1 ; : : : ; An
Für den Fall k D 2 kann man sich den Graphen von f als Ge- (endliche Additivität),
birge über der .x; y/-Ebene veranschaulichen (Abb. 2.7) und c) 0  P .A/  1,
dann die Wahrscheinlichkeit in (2.16) als Volumen zwischen d) P .Ac / D 1P .A/ (komplementäre Wahrscheinlich-
dem Graphen von f und der .x; y/-Ebene über dem Grundbe- keit),
reich B deuten. e) aus A  B folgt P .A/  P .B/ (Monotonie),
Falls Sie aus den Analysisvorlesungen noch nicht mit dem f) P .A [ B/ D P .A/ C P .B/  P .A \ B/ (Additions-
Lebesgue-Integral vertraut sind, sondern das Riemann-Integral gesetz),
S P
kennengelernt haben, können Sie unbesorgt weiterlesen! In kon- g) P . j1D1 Aj /  j1D1 P .Aj / ( -Subadditivität).
kreten Fällen werden die Menge B und die Funktion f in (2.16)
2.5 Folgerungen aus den Axiomen 23

Beweis Setzt man im -Additivitäts-Postulat von P speziell Die Mengen B1 ; B2 ; : : : sind paarweise disjunkt, denn sind
Aj WD ; für jedes j  1 ein, so folgt a) wegen der Reell- n; k 2 N mit n < k, so gilt Bn \ Bk  An \ Acn D ;.
wertigkeit von P . Die Wahl Aj WD ; für jedes j > n liefert
Eigenschaft b). Zum Nachweis von c) und d) verwenden wir die P 1 S1 gilt Bj  Aj für jedes j  1 und somit
Nach Konstruktion
Zerlegung ˝ D A C Ac von ˝ in die disjunkten Mengen A und j D1 Bj  j D1 Aj . In dieser letzten Teilmengenbeziehung
Ac . Aus der Normierung P .˝/ D 1 sowie der bereits gezeigten gilt aber
S auch die umgekehrte Inklusion „
“, da es zu jedem
endlichen Additivität folgt dann ! 2 j1D1 Aj einen kleinsten Index j mit ! 2 Aj und somit
! 2 Aj Ajc 1 : : : Ac1 D Bj gibt. Wir haben somit die Darstellung
1 D P .A C Ac / D P .A/ C P .Ac /:
X
1 [
1
Bj D Aj
Hieraus ergibt sich d) und wegen der Nichtnegativität von P
j D1 j D1

Kapitel 2
auch c). Die Monotonieeigenschaft e) folgt aus der Zerlegung
B D A C B n A von B in die disjunkten Mengen A und
erhalten. Zusammen mit der -Additivität von P und den Un-
B n A sowie der endlichen Additivität von P und der Unglei-
gleichungen P .Bj /  P .Aj /; j  1, folgt wie behauptet
chung P .B n A/  0.
0 1 0 1
Das Additionsgesetz f) ist anschaulich klar: Addiert man die [
1 X
1 X
1 X
1
Wahrscheinlichkeiten von A und B, so hat man die Wahrschein- P@ Aj A D P @ Bj A D P .Bj /  P .Aj /: 
lichkeit der Schnittmenge AB doppelt erfasst und muss diese j D1 j D1 j D1 j D1
somit subtrahieren, um P .A [ B/ zu erhalten. Ein formaler Be-
weis verwendet die Darstellungen
Beispiel Wir betrachten die Situation des n-fach wiederhol-
A D AB C AB c ; B D AB C Ac B ten Wurfs mit einem echten Würfel und legen hierfür den auf
Grundraum
von A und B als Vereinigungen disjunkter Mengen. Eigenschaft
b) liefert ˝ D f! D .a1 ; : : : ; an / j aj 2 f1; : : : ; 6g für j D 1; : : : ; 6g

P .A/ D P .AB/ C P .AB c /; P .B/ D P .AB/ C P .Ac B/: zugrunde. Als Wahrscheinlichkeitsmaß P wählen wir die
Gleichverteilung auf ˝, nehmen also ein Laplace-Modell an.
Addition dieser Gleichungen und erneute Anwendung von b) Welche Wahrscheinlichkeit besitzt das anschaulich beschriebe-
ergibt dann ne und formal als

P .A/ C P .B/ D P .AB/ C P .AB C AB c C Ac B/ A WD f.a1 ; : : : ; an / 2 ˝ j 9j 2 f1; : : : ; ng mit aj D 6g

und somit f), da AB C AB c C Ac B D A [ B. notierte Ereignis, mindestens eine Sechs zu würfeln?


Um g) nachzuweisen, machen wir uns zu Nutze, dass für jedes Um diese Frage zu beantworten, bietet es sich an, zum kom-
n  2 die Vereinigung A1 [ : : : [ An als Vereinigung paarweise plementären Ereignis Ac überzugehen. Die zu Ac gehören-
disjunkter Mengen B1 ; : : : ; Bn geschrieben werden kann. Hier- den n-Tupel .a1 ; : : : ; an / sind dadurch beschrieben, dass jede
zu setzen wir B1 WD A1 sowie für j  2 Komponente aj höchstens gleich 5 ist, also einen der Wer-
te 1; 2; 3; 4; 5 annimmt. Da es 5n solche Tupel gibt, liefert die
Bj WD Aj n .A1 [ : : : [ Aj 1 / D Aj Ajc 1 : : : Ac2 Ac1 : Laplace-Annahme
Die Menge Bj erfasst also denjenigen Teil der Menge Aj , der jAc j 5n
nicht in der Vereinigung A1 [: : :[Aj 1 enthalten ist (Abb. 2.8). P .Ac / D D n
j˝j 6

und somit nach der Regel d) von der komplementären Wahr-


A1 (= B1 )
scheinlichkeit
A3  n
5
P .A/ D 1  P .A / D 1 
c
:
6
B3
Speziell für n D 4 folgt P .A/ D 671=1 296 0:518. Beim
vierfachen Würfelwurf ist es also vorteilhaft, auf das Auftreten
A2
B2
von mindestens einer Sechs zu wetten. J

Bevor wir weitere Folgerungen aus den Kolmogorov-Axiomen


formulieren, seien noch eine übliche Sprechweise und eine No-
Abb. 2.8 Zur Konstruktion der Mengen Bj tation eingeführt.
24 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
P1
Ist .An /n2N eine Folge von Teilmengen von ˝, so heißt Beispiel Wegen kD1 1=.k.kC1// D 1 (Aufgabe 2.19) wird
.An /n2N aufsteigend mit Limes A, falls durch
X 1
[
1
P .A/ WD ; A  N;
An  AnC1 ; n 2 N; und A D An k2A
k.k C 1/
nD1
eine Wahrscheinlichkeitsverteilung auf der Menge N aller na-
gelten, und wir schreiben hierfür kurz An " A. In gleicher Weise türlichen Zahlen definiert. Nach Aufgabe 3.15 ist P .fkg/ die
verwenden wir die Notation An # A, falls Wahrscheinlichkeit, zum ersten Mal im k-ten Zug eine rote Ku-
gel aus einer Urne zu ziehen, die anfänglich je eine rote und
\
1 schwarze Kugel enthält und bei jedem Zug einer schwarzen
An
AnC1 ; n 2 N; und A D An Kugel mit einer weiteren schwarzen Kugel gefüllt wird. Wie
Kapitel 2

nD1 wahrscheinlich ist es, die rote Kugel beim k-ten Mal zu ziehen,
wobei k irgendeine ungerade Zahl ist? Gesucht ist also P .B/,
gelten, und nennen die Mengenfolge .An /n2N absteigend mit wobei B WD f1; 3; 5; : : :g die Menge der ungeraden Zahlen be-
Limes A. zeichnet.
P
Im Fall ˝ D R gelten also Œ0; 1  1=n " Œ0; 1/ und Œ0; 1 C Mit Bn WD jnD1 f2j  1g gilt Bn " B, und die Stetigkeit von
1=n/ # Œ0; 1. unten liefert
X
n
P .B/ D lim P .Bn/ D lim P .f2j  1g/
n!1 n!1
Satz über Stetigkeitseigenschaften von P j D1

Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und X


n
1
A1 ; A2 ; : : : Ereignisse. Dann gelten: D lim :
n!1
j D1
.2j  1/.2j /
a) aus An " A folgt P .A/ D limn!1 P .An / (Stetigkeit
von unten), Wegen
b) aus An # A folgt P .A/ D limn!1 P .An / (Stetigkeit 1 1 1
von oben). D 
.2j  1/.2j / 2j  1 2j
folgt
Sn
Beweis a): Im Fall An " A gilt An D j D1 Aj ; n  1: Mit X
n
1 X .1/j 1
2n1

den im Beweis der -Subadditivitätseigenschaft g) eingeführten D


j D1
.2j  1/.2j / j D1
j
paarweise disjunkten Mengen B1 D A1 und
P1
und somit P .B/ D kD1 .1/
k1
=k D log 2 0:693. J
Bj D Aj n .A1 [ : : : [ Aj 1 / D Aj Ajc 1 : : : Ac2 Ac1 :
P S Kommentar Nach den Ausführungen in der Hintergrund-
für j  2 folgt dann unter Beachtung von jnD1 Bj D jnD1 Aj
und der -Additivität von P und-Ausblick-Box über endlich-, aber nicht -additive Wahr-
scheinlichkeiten auf P .N/ ist die endliche Additivität eines
0 1 0 1
Wahrscheinlichkeitsmaßes im Fall eines unendlichen Grund-
[1 X1 X
1
P @ Aj A D P @ Bj A D P .Bj / raums echt schwächer als die -Additivität. Fordert man nur die
j D1 j D1 j D1
endliche Additivität von P sowie die Stetigkeit von unten, so
folgt die -Additivität (Aufgabe 2.31). Bei einer nur als endlich-
X
n
additiv angenommenen Funktion P W A ! R0 mit P .˝/ D 1
D lim P .Bj /
n!1 sind also -Additivität und Stetigkeit von unten äquivalente Ei-
j D1
0 1 genschaften. J
X
n
D lim P @ Bj A
n!1

0
j D1
1 Die Siebformel liefert die Wahrscheinlichkeit
[
n einer Vereinigung von Ereignissen
D lim P @ Aj A
n!1
j D1 Wie bei der Frage nach der Wahrscheinlichkeit für mindestens
D lim P .An /: eine Sechs in n Würfelwürfen kommt es häufig vor, dass die
n!1 Wahrscheinlichkeit des Eintretens von mindestens einem von n
Ereignissen von Interesse ist. In Verallgemeinerung des Additi-
Dabei wurde beim drittletzten Gleichheitszeichen die endliche onsgesetzes
Additivität von P ausgenutzt. Der Nachweis von b) ist Gegen-
stand von Aufgabe 2.30.  P .A [ B/ D P .A/ C P .B/  P .A \ B/ (2.17)
2.5 Folgerungen aus den Axiomen 25

Hintergrund und Ausblick: Endlich-, aber nicht  -additive Wahrscheinlichkeiten auf P .N/

Wie im Folgenden gezeigt werden soll, gibt es seltsame, besitzt, wobei das „oder“ ausschließend ist. Ein Filter mit
nicht -additive Wahrscheinlichkeiten. dieser Zusatzeigenschaft heißt Ultrafilter.
Wir behaupten, dass es eine Funktion Q W P .N/ ! Œ0; 1 Mithilfe von U definieren wir jetzt wie folgt eine Funktion
mit den Eigenschaften Q auf P .N/:
Q.N/ D 1; (
0 1 1; falls A 2 U;
Xn X
n Q.A/ WD
Q@ Aj A D 0; falls A 2 P .N/ n U:

Kapitel 2
Q.Aj /
j D1 j D1
Wegen N 2 U gilt Q.N/ D 1, und jede endliche Teilmenge
für jedes n  2 und jede Wahl paarweise disjunkter Teilmen- A von N gehört nicht zu U, was nach Definition von Q die
gen A1 ; : : : ; An von N sowie Beziehung Q.A/ D 0 zur Folge hat. Die Mengenfunktion
Q ist somit nicht -additiv. Um die endliche Additivität von
Q.A/ D 0 Q zu zeigen, betrachten wir zwei Mengen A; B  N mit
A \ B D ; sowie die möglichen Fälle
für jede endliche Teilmenge A von N gibt. Die Funktion
Q ist also wie ein Wahrscheinlichkeitsmaß normiert und a) A 2 U, B 2 U,
endlich-additiv. Die letzte Eigenschaft impliziert insbeson- b) A 2 U, B … U,
dere Q.fng/ D 0 für jedes n 2 N und somit c) A … U, B 2 U,
X1 b) A … U, B … U.
1 D Q.N/ ¤ 0 D Q.fng/;
Fall a) kann nicht auftreten, da hieraus A \ B D ; 2 U fol-
nD1
gen würde. Ein Filter enthält jedoch nicht die leere Menge.
was zeigt, dass Q nicht -additiv ist. In Fall b) gilt Q.A/ D 1 und Q.B/ D 0. Wegen A  A [ B
gilt A [ B 2 U und somit Q.A [ B/ D 1 D Q.A/ C Q.B/.
Zur Konstruktion von Q betrachten wir das System Fall c) folgt aus Symmetriegründen aus b). Im letzten Fall gilt
F WD fA  N j 9n 2 N mit fn; n C 1; : : :g  Ag
Q.A/ D Q.B/ D 0. Nach der Ultrafiltereigenschaft (2.18)
gilt Ac 2 U, B c 2 U und somit Ac \ B c 2 U (zweite Filt-
c c c
aller Teilmengen von N, die bis auf endlich viele Ausnahmen ereigenschaft!). Wegen A \ B D .A [ B/ folgt wiederum
alle natürlichen Zahlen enthalten. Für das Mengensystem F nach (2.18) A [ B … U . Nach Definition von Q gilt folglich
gelten offenbar Q.A C B/ D 0, was die endliche Additivität von Q zeigt.
F ¤ ; und ; … F , Stellen Sie sich vor, Anja und Peter wählen verdeckt jeder
aus A; B 2 F folgt A \ B 2 F , für sich zufällig eine natürlich Zahl, wobei die Wahrschein-
aus A 2 F und A  B  N folgt B 2 F . lichkeit, dass diese in einer Menge A  N liegt, gleich
Ist allgemein F  P .N/ ein Mengensystem mit diesen Ei- Q.A/ sei. Der Spieler mit der größeren Zahl möge gewin-
genschaften, so heißt F ein Filter auf N. nen. Es wird eine echte Münze geworfen. Zeigt sie Kopf, so
muss Anja ihre Zahl aufdecken, andernfalls Peter. Zeigt An-
Mithilfe des Zornschen Lemmas (siehe z. B. [1], ja ihre Zahl, so gewinnt Peter mit Wahrscheinlichkeit 1, da
Abschn. 2.4) kann gezeigt werden, dass es einen Filter U Q.fn; n C 1; : : :g/ D 1. Muss Peter seine Wahl offenlegen,
auf N gibt, der F enthält und die weitere Eigenschaft ist es umgekehrt. Mit nicht -additiven Wahrscheinlichkei-
ten können also seltsame Phänomene auftreten, siehe z. B.
8A  N W A 2 U oder Ac D N n A 2 U (2.18) [7], S. 70.

lernen wir jetzt eine Formel für die Wahrscheinlichkeit der Ver- Minusterm an und sortieren die Summanden nach der Anzahl
einigung einer beliebigen Anzahl von Ereignissen kennen. Wir der zu schneidenden Ereignisse, so folgt
beginnen mit dem Fall von drei Ereignissen A1 ; A2 und A3 , weil
sich anhand dieses Falls der Name der Formel unmittelbar er- P .A1 [ A2 [ A3 / D P .A1/ C P .A2 / C P .A3 / (2.19)
schließt. Setzen wir kurz A WD A1 [ A2 und B WD A3 , so liefert  P .A1 A2 /  P .A1 A3 /  P .A2 A3 /
das obige Additionsgesetz
C P .A1 A2 A3 /:
P .A1 [ A2 [ A3 / D P .A1 [ A2 / C P .A3 /  P ..A1 [ A2 / \ A3 /:
Abb. 2.9 zeigt die Struktur dieser Gleichung. Die jeweilige Zahl
Wenden wir hier (2.17) auf P .A1 [ A2 / sowie unter Beachtung links gibt an, wie oft die betreffende Teilmenge von A1 [A2 [A3
des Distributivgesetzes .A1 [ A2 /A3 D A1 A3 [ A2 A3 auf den nach Bildung der Summe P .A1 / C P .A2 / C P .A3 / erfasst
26 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

A1 A2 A1 A2 Natürlich ist die Siebformel nur dann ein schlagkräftiges Instru-


1 2 1 1 1 1 ment, um P .A1 [: : :[An / zu bestimmen, wenn die Wahrschein-
3 0 lichkeiten aller möglichen Durchschnitte der Aj bekannt sind.
2 2 1 1 Dass Wahrscheinlichkeiten für Durchschnitte von Ereignissen
prinzipiell leichter zu bestimmen sind als Wahrscheinlichkei-
1 1
A3 A3 ten für Vereinigungen von Ereignissen liegt daran, dass die
Durchschnittsbildung dem logischen UND entspricht und somit
Abb. 2.9 Zum Additionsgesetz für drei Ereignisse mehrere Forderungen erfüllt sein müssen.

Video 2.4 Ein-Ausschluss-Formel und Rencontre-Problem


und somit „eingeschlossen“ ist. Da gewisse Teilmengen von
Kapitel 2

A1 [A2 [A3 wie z. B. A1 A2 mehrfach erfasst sind, ist ein durch


Subtraktion der Schnitt-Wahrscheinlichkeiten von je zweien der
Ereignisse vollzogener „Ausschluss“ erforderlich, dessen Er-
gebnis die rechte Abb. 2.9 zeigt. Addiert man P .A1 A2 A3 /,
so ist jede der 7 paarweise disjunkten Teilmengen A1 A2 A3 ,
A1 A2 Ac3 , A1 Ac2 A3 , A1 Ac2 Ac3 , Ac1 A2 A3 , Ac1 A2 Ac3 und Ac1 Ac2 A3
von A1 [ A2 [ A3 genau einmal erfasst. Beispiel (Rencontre-Problem) Beim klassischen, von Pi-
erre Rémond de Montmort (1678–1719) untersuchten Treize-
In Verallgemeinerung dieses in (2.17) und (2.19) angewandten Spiel werden 13 Karten mit den Werten 1; 2; : : : ; 13 gut ge-
Ein-Ausschluss-Prinzips gilt: mischt und eine Karte nach der anderen gezogen. Man spricht
von einem Rencontre, wenn ein Kartenwert mit der Ziehungs-
nummer übereinstimmt, wenn also etwa die Karte mit dem Wert
Formel des Ein- und Ausschließens (Siebformel)
4 als vierte gezogen wird. Stimmt kein Kartenwert mit der Zie-
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und hungsnummer überein, tritt also kein Rencontre auf, so gewinnt
A1 ; : : : ; An Ereignisse. Für jede natürliche Zahl r mit der Spieler, andernfalls die Bank. Mit welcher Wahrscheinlich-
1  r  n sei keit ist die Bank im Vorteil?
X Gleichwertig hiermit ist die von Johann Heinrich Lambert
Sr WD P .Ai1 \ : : : \ Air / (2.20)
(1728–1777) gestellte Frage, mit welcher Wahrscheinlichkeit
1i1 <:::<ir n
mindestens ein Brief in den richtigen Umschlag gelangt, wenn n
die Summe aller Wahrscheinlichkeiten der Durchschnitte Briefe blind in n adressierte Umschläge gesteckt werden (Prob-
von r der Ereignisse A1 ; : : : ; An . Dann gilt: lem der vertauschten Briefe).
0 1 Im Kern geht es hier darum, mit welcher Wahrscheinlichkeit ei-
[n Xn
ne rein zufällige Permutation der Zahlen 1; 2; : : : ; n mindestens
P @ Aj A D .1/r1 Sr : (2.21)
ein Element fest lässt, also mindestens einen Fixpunkt besitzt.
j D1 rD1
Zur stochastischen Modellierung wählen wir als Grundraum ˝
die nŠ-elementige Menge

Beweis Der Beweis kann durch vollständige Induktion über ˝ WD f.a1 ; : : : ; an / j fa1 ; : : : ; an g D f1; : : : ; ngg
n erfolgen. Da wir mit der Jordanschen Formel in Abschn. 4.2
ein allgemeineres Resultat zeigen, werden wir diesen Indukti- aller Permutationen von 1; 2; : : : ; n und als Wahrscheinlich-
onsbeweis hier nicht führen, sondern verweisen auf Aufgabe keitsverteilung P die Gleichverteilung auf ˝. Bezeichnet
2.32. 
Aj WD f.a1 ; a2 ; : : : ; an / 2 ˝ j aj D j g
Ein wichtiger Spezialfall der Formel des Ein- und Ausschlie-
ßens entsteht, wenn für jedes r mit 1  r  n und jede Wahl die Menge aller Permutationen, die (mindestens) den Fixpunkt
von i1 ; : : : ; ir mit 1  i1 < : : : < ir  n die Wahrscheinlichkeit j besitzen, so ist das Ereignis mindestens ein Fixpunkt tritt auf
des Durchschnittes Ai1 \ : : : \ Air nur von der Anzahl r, nicht gerade die Vereinigung aller Aj .
aber von der speziellen Wahl dieser r Ereignisse abhängt. Liegt S
diese Eigenschaft vor, so heißen die Ereignisse A1 ; : : : ; An aus- Zur Berechnung von P . jnD1 Aj / mit der Ein-Ausschluss-
tauschbar. Formel ist für jedes r 2 f1; : : : ; ng und jede Wahl von i1 ; : : : ; ir
Für austauschbare Ereignisse sind die Summanden in (2.20) mit 1  i1 < : : : < ir  n die Wahrscheinlichkeit

identisch, nämlich gleich P .A1 \ : : : \ Ar /. Da nr Summanden
jAi1 \ : : : \ Air j jAi1 \ : : : \ Air j
vorliegen (siehe Abschn. 2.6), wird die Ein-Ausschluss-Formel P .Ai1 \ : : : \ Air / D D
in diesem Fall zu j˝j nŠ
0 1 !
[n X n
und somit die Anzahl jAi1 \ : : : \ Air j aller Permutatio-
@ A r1 n
P Aj D .1/ P .A1 \ : : : \ Ar /: (2.22) nen .a1 ; a2 ; : : : ; an / zu bestimmen, die r gegebene Elemente
j D1 rD1
r
i1 ; i2 ; : : : ; ir auf sich selbst abbilden. Da die Elemente ai1 .D
2.5 Folgerungen aus den Axiomen 27

i1 /; : : : ; air .D ir / eines solchen Tupels festgelegt sind und die Beweis Der Beweis kann analog zum Beweis der Formel des
übrigen Elemente durch eine beliebige Permutation der restli- Ein- und Ausschließens mithilfe vollständiger Induktion erfol-
chen nr Zahlen gewählt werden können, gilt jAi1 \: : :\Air j D gen. Eine andere Möglichkeit besteht darin, nur die aus der
.n  r/Š und folglich -Subadditivitätseigenschaft von P folgende erste Bonferroni-
Ungleichung 0 1
.n  r/Š [
n Xn
P .Ai1 \ : : : \ Air / D : (2.23)
nŠ P @ Aj A  P .Aj / D S1 (2.25)
j D1 j D1

Weil diese Wahrscheinlichkeit nur von r abhängt,   sind auszunutzen. Setzen wir hierzu kurz A WD A1 [ : : : [ An sowie
A1 ; : : : ; An austauschbare Ereignisse. Mit (2.22) und nr .n  B1 WD A1 , Bj WD Aj Ajc 1 : : : Ac1 .j D 2; : : : ; n/, so gilt wegen
r/Š=nŠ D 1=rŠ erhalten wir folglich das Resultat P
A D jnD1 Bj

Kapitel 2
0 1 X n
[
n Xn
1 P .A/ D P .Bj /: (2.26)
P@ Aj A D .1/r1 (2.24) j D1
j D1 rD1

Wegen Aj D Bj C Aj \ .A1 [ : : : [ Aj 1 / folgt
und somit insbesondere die Werte 0.5, 0.6667, 0.6250, 0.6333 !
und 0.6319P für die Fälle n D 2; 3; 4; 5; 6. Zusammen mit der [
j 1

Beziehung 1 r1 P .Bj / D P .Aj /  P Am \ Aj : (2.27)


rD1 .1/ =rŠ D 1  1=e 0:632 ergibt sich,
dass eine rein zufällige Permutation von n Zahlen mit der prak- mD1

tisch von n unabhängigen Wahrscheinlichkeit 0:632 mindestens Wendet man die Ungleichung (2.25) auf die Ereignisse Am \Aj ,
einen Fixpunkt besitzt. Damit wird klar, dass die Bank beim m D 1; : : : ; j  1, an, so ergibt sich
Treize-Spiel im Vorteil ist.
Das Rencontre-Problem wird auch als Koinzidenz-Paradoxon X
j 1
P .Bj /  P .Aj /  P .Am \ Aj /;
bezeichnet, weil die große Wahrscheinlichkeit von 0.632 für mD1
mindestens eine Koinzidenz auf den ersten Blick der Intuition
zuwider läuft. Hier zeigt sich nur einer der häufigsten Trug- und Einsetzen dieser Abschätzung in (2.26) liefert die zweite
schlüsse über Wahrscheinlichkeiten: Es wird oft übersehen, dass Bonferroni-Ungleichung
ein vermeintlich unwahrscheinliches Ereignis in Wirklichkeit
die Vereinigung vieler unwahrscheinlicher Ereignisse darstellt. X
n X
n X
j 1

Wie wir gesehen haben, kann jedoch die Wahrscheinlichkeit die- P .A/  P .Aj /  P .Am \ Aj /
ser Vereinigung recht groß sein! J j D1 j D1 mD1

D S1  S2 :
Bricht man in der Formel des Ein- und Ausschließens die al- Sj 1
ternierende Summe auf der rechten Seite von (2.20) nach einer Indem man diese auf P . mD1 Am Aj / in (2.27) anwendet erhält
ungeraden bzw. geraden Anzahl von Summanden ab, so ent- man
stehen X
j 1
S obere bzw. untere Schranken für die Wahrscheinlichkeit P .Bj /  P .Aj /  P .Am \ Aj /
P . jnD1 Aj /, die nach dem italienischen Mathematiker Carlo
mD1
Emilio Bonferroni (1892–1960) benannt sind. Sie spielen u. a. X
bei der Herleitung von Grenzwertsätzen eine wichtige Rolle. C P .Ai \ Am \ Aj /:
1i <m<j

Einsetzen dieser Ungleichung in (2.26) ergibt P .A/  S1 S2 C


Die Bonferroni-Ungleichungen
S3 usw. 
In der Situation der Formel des Ein- und Ausschließens
gelten die Bonferroni-Ungleichungen Beispiel (Regel von den kleinen Ausnahmewahrschein-
0 1 lichkeiten) Sind A1 ; : : : ; An Ereignisse mit
[
n X
2kC1 jn  1k
P@ Aj A  .1/r1 Sr ; k D 0; : : : ; ; P .Aj /  1  "j ; j D 1; : : : ; n;
j D1 rD1
2
0 1 wobei "1 ; : : : ; "n > 0, so folgt
[
n X
2k jnk
0 1
P@ Aj A  .1/r1 Sr ; k D 1; : : : ; : \n X
n
2
j D1 rD1 P @ Aj A  1  "j : (2.28)
j D1 j D1
Hierbei bezeichne bxc die größte ganze Zahl kleiner oder
gleich einer reellen Zahl x. Die Voraussetzung liefert nämlich P .Ajc /  "j , und aus
S
der ersten Bonferroni-Ungleichung folgt dann P . jnD1 Ajc / 
28 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Pn
j D1 "j . Die auch Regel von den kleinen Ausnahmewahrschein- bereits gewählten Komponenten a1 ; : : : ; as1 abhängen, nicht
lichkeiten genannte Ungleichung (2.28) ergibt sich jetzt durch jedoch deren Mächtigkeit jMs j D js (s D 1; : : : ; k). Gibt es
Komplementbildung. also j1 Möglichkeiten für die Wahl von a1 , danach (unabhängig
von a1 ) j2 Möglichkeiten für die Wahl von a2 , danach (unab-
Für Anwendungen etwa in der Zuverlässigkeitstheorie
hängig von der Wahl von a2 ) j3 Möglichkeiten für die Wahl von
ist der Fall bedeutsam, dass P .A1/; : : : ; P .An / Intakt-
a3 usw. so gibt es insgesamt j1  j2  : : :  jk verschiedene Tupel.
Wahrscheinlichkeiten für Bauteile darstellen und somit nahe
Insbesondere folgt, dass die Mächtigkeit des kartesischen Pro-
bei 1 sind. Ist z. B. P .A1/  0:99 und P .A2 /  0:95, so folgt Śk
P .A1 A2 /  0:94. J dukts j D1 Mj durch das Produkt jM1 j  : : :  jMk j gegeben ist.
J

Man beachte, dass die Besetzung der k Plätze des Tupels unter
2.6 Elemente der Kombinatorik
Kapitel 2

Umständen in einer beliebigen anderen Reihenfolge, also z. B.


zuerst Wahl von a4 , dann Wahl von a2 , dann Wahl von a5 usw.,
In diesem Abschnitt stellen wir einige Abzählmethoden zu- vorgenommen werden kann. Gibt es z. B. j4 Möglichkeiten für
sammen, die für einen sicheren Umgang mit Laplace-Modellen die Wahl von a4 , dann j2 Möglichkeiten für die Wahl von a2 ,
wichtig sind. Bei Bedarf kann hier auch Abschn. 26.2 aus [1] zu dann j5 Möglichkeiten für die Wahl von a5 usw., so lassen sich
Rate gezogen werden. ebenfalls insgesamt j1  j2  : : :  jk Tupel bilden.
Da Tupel ein schlagkräftiges Darstellungsmittel vieler stochas-
Erstes Fundamentalprinzip des Zählens tischer Vorgänge sind, verwundert es nicht, dass es hierfür eine
eigene Terminologie gibt.
Zwei endliche Mengen M und N sind genau dann gleich-
mächtig, wenn eine Bijektion f W M ! N existiert.
k-Permutationen
Ist M eine n-elementige Menge, so nennt man die Ele-
Dieses Abzählprinzip bedeutet insbesondere, dass die Menge mente (Tupel) .a1 ; : : : ; ak / des kartesischen Produkts
M WD f1; 2; : : : ; kg in dem Sinne Prototyp einer k-elementigen
Menge ist, als jede k-elementige Menge bijektiv auf M abge- M k D f.a1 ; : : : ; ak / j aj 2 M für j D 1; : : : ; kg
bildet werden kann.
k-Permutationen aus M mit Wiederholung.

Zweites Fundamentalprinzip des Zählens Gilt im Fall k  n speziell ai ¤ aj für jede Wahl
von i; j mit 1  i ¤ j  k, so heißt .a1 ; : : : ; ak /
Es seien M1 ; : : : ; Mk endliche Mengen und j1 ; : : : ; jk na- eine k-Permutation aus M ohne Wiederholung. Die
türliche Zahlen mit js  jMs j für s D 1; : : : ; k. Durch n-Permutationen aus M ohne Wiederholung heißen kurz
sukzessive Festlegung der Komponenten von links nach Permutationen von M . Wir schreiben
rechts sollen k-Tupel
Pernk .mW / WD M k ;
.a1 ; a2 ; : : : ; ak / mit as 2 Ms für s D 1; : : : ; k
Pernk .oW / WD f.a1 ; : : : ; ak / 2 M k j ai ¤ aj 8i ¤ j g
gebildet werden. Stehen für die s-te Komponente as des
Tupels js verschiedene Elemente aus Ms zur Verfügung, für die Menge der k-Permutationen aus M mit bzw. ohne
so ist die Anzahl aller nach dieser Vorschrift konstruierba- Wiederholung.
ren k-Tupel das Produkt

j1  j2  : : :  jk :
Kommentar Wir haben die Menge M in der Notation für
k-Permutationen unterdrückt, da es nach dem ersten Funda-
mentalprinzip des Zählens für Anzahlbestimmungen nicht auf
Nach diesem oft auch Multiplikationsregel genannten zweiten deren genaue Gestalt, sondern nur auf die Anzahl der Elemente
Zählprinzip gibt es von M ankommt. Zudem werden wir im Weiteren meist M D
f1; 2; : : : ; ng wählen und dann auch von k-Permutationen (mit
49  48  47  46  45  44 D 10 068 347 520
bzw. ohne Wiederholung) der Zahlen 1; 2; : : : ; n sprechen. Man
Möglichkeiten für die Notierung der Ergebnisse beim Lotto 6 beachte, dass die Menge Pernn .oW / aller Permutationen von
aus 49 in zeitlicher Reihenfolge, denn zur Ziehung der s-ten Ge- 1; 2; : : : ; n aus der Linearen Algebra als symmetrische Gruppe
winnzahl stehen unabhängig von den schon gezogenen Zahlen bekannt ist, siehe z. B. [1], Abschn. 3.1. J
noch 49.s 1/ Zahlen in der Ziehungstrommel zur Verfügung.
Im Sinne dieser Terminologie stellen also die Ziehungen der
Lottozahlen in zeitlicher Reihenfolge 6-Permutationen aus
Achtung Wie die Ziehungen der Lottozahlen zeigen, darf all- f1; 2; : : : ; 49g ohne Wiederholung dar, und Zahlenschloss-Kom-
gemein für jedes s  2 die Teilmenge Ms  Ms der zur binationen oder die Ergebnisse der 13-er-Wette beim deutschen
Besetzung der s-ten Komponente erlaubten Elemente von den Fußballtoto sind offenbar Permutationen mit Wiederholung.
2.6 Elemente der Kombinatorik 29

Aus dem zweiten Fundamentalprinzip des Zählens ergibt sich Dass M totalgeordnet sein soll, bedeutet keinerlei Einschrän-
unmittelbar folgendes Resultat. kung, da M bijektiv auf die Menge f1; 2; : : : ; ng abgebil-
det werden kann und letztere Menge durch die natürliche
Kleiner-gleich-Relation totalgeordnet ist. Man beachte, dass k-
Anzahlformeln für Permutationen Kombinationen ohne Wiederholung nur im Fall k  n möglich
Es gelten: sind.

a) j Pernk .mW /j D nk ,
Beispiel Werden die 6 Gewinnzahlen beim Lotto 6 aus 49 in
b) j Pernk .oW /j D n  .n  1/  .n  2/  : : :  .n  k C 1/.
den Nachrichten mitgeteilt, so fehlt die Information über den
Ziehungsverlauf in zeitlicher Reihenfolge. Das Ziehungsergeb-
nis ist dann eine 6-Kombination der Zahlen 1; 2; : : : ; 49 ohne

Kapitel 2
Kommentar Da Produkte vom obigen Typ mit absteigenden Wiederholung. J
Faktoren (sog. fallende Faktorielle) häufiger auftreten, hat sich
hierfür die Schreibweise Wie bei Permutationen kann auch für die Bestimmung der An-
zahl von Kombinationen o.B.d.A. der Fall M D f1; 2; : : : ; ng
.x/k WD x  .x  1/  : : :  .x  k C 1/; x 2 R; k 2 N angenommen werden. Offenbar werden beim Übergang von
(2.29) Pernk .oW / zu Komnk .oW / alle Tupel miteinander identifi-
(lies: „x tief k“) eingebürgert. Diese ergänzt man noch um die ziert, deren Komponenten durch eine Permutation auseinan-
Festsetzung .x/0 WD 1. J der hervorgehen. Formal bedeutet diese Identifizierung, dass
Komnk .oW / mit der Quotienten-Struktur Pernk .oW /= gleich-
gesetzt werden kann. Dabei ist die Äquivalenzrelation auf
Beispiel Sind M1 eine k-elementige und M2 eine n-
Pernk .oW / durch
elementige Menge, so gibt es nk verschiedene Abbildungen
f W M1 ! M2 . Im Fall k  n gibt es .a1 ; : : : ; ak / .b1 ; : : : ; bk / W() fa1 ; : : : ; ak g D fb1 ; : : : ; bk g
.n/k D n.n  1/.n  2/  : : :  .n  k C 1/ gegeben.
injektive Abbildungen von M1 nach M2 . J
Anzahlformeln für Kombinationen
Selbstfrage 5
Sehen Sie diese Aussagen unmittelbar ein? Es gelten:
 
a) j Komnk .mW /j D nCk1 ,
  k
b) j Komnk .oW /j D nk (k  n).
Kombinationen sind der Größe nach sortierte
Permutationen
Beweis Wir überlegen uns zunächst die Gültigkeit der zwei-
Auch die im Folgenden zu besprechenden k-Kombinationen
ten Aussage. Aufgrund der oben angesprochenen Identifizie-
sind spezielle k-Permutationen. Hierfür sei die n-elementige
rung Komnk .oW / Š Pernk .oW /= und der Tatsache, dass jede
Menge M durch eine eine Relation „“ total geordnet. Die Re-
Äquivalenzklasse kŠ Elemente enthält, folgt mit der Anzahlfor-
lation  sei also reflexiv, antisymmetrisch sowie transitiv, und
mel b) für Permutationen
für je zwei Elemente a; b 2 M gelte a  b oder b  a, siehe
z. B. [1], Abschn. 2.4. 1
jKomnk .oW /j D  jPernk .oW /j
kŠ !
k-Kombinationen n.n  1/  : : :  .n  k C 1/ n
D D ;
kŠ k
Jede k-Permutation .a1 ; : : : ; ak / der total geordneten
Menge M mit a1  : : :  ak heißt k-Kombination aus was zu zeigen war. Ein anderer Beweis verwendet eine Anfangs-
M mit Wiederholung. Jede k-Permutation .a1 ; : : : ; ak / bedingung sowie eine Rekursionsformel. Zunächst erhält man
aus M mit a1 < : : : < ak heißt k-Kombination aus M offenbar für jedes n 2 N
ohne Wiederholung. Hierbei ist wie üblich a < b W,
a  b und a ¤ b gesetzt. Wir schreiben j Komn1 .oW /j D n; j Komnn .oW /j D 1: (2.30)
Weiter gilt für jedes n  2 und jedes k mit 2  k  n die
Komnk .mW / WD f.a1 ; : : : ; ak / 2 M k j a1  : : :  ak g Rekursionsformel
Komnk .oW / WD f.a1 ; : : : ; ak / 2 M k j a1 < : : : < ak g
j KomnC1 n n
k .oW /j D j Komk .oW /j C j Komk1 .oW /j:
für die Menge der k-Kombinationen aus M mit bzw. ohne Diese ergibt sich, wenn man die k-Kombinationen .a1 ; : : : ; ak /
Wiederholung. aus KomnC1
k .oW / danach klassifiziert, ob ak  n oder ak D
n C 1 gilt.
30 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Unter der Lupe: Stimmzettelproblem und Spiegelungsprinzip

Zahlreiche stochastische Fragestellungen führen auf das zählen wir mit einem gemeinhin Désiré André (1840–1918)
Problem, die Anzahl gewisser Wege im ebenen ganzzahligen zugeschriebenen und in der nachfolgenden Abbildung illus-
Gitter zu bestimmen. Ein solcher Weg ist ein Polygonzug, trierten Spiegelungsprinzip ab.
der nur Auf- oder Abwärtsschritte der Länge 1 aufweist, also
einen Punkt .m; n/ mit einem der Punkte .m C 1; n C 1/ oder P

.m C 1; n  1/ verbindet. In diesem Zusammenhang wird die
• • •
Abszisse als Achse gedeutet, auf der die in Einheitsschritten Q
• • • •
fortschreitende Zeit gemessen wird. S
Kapitel 2

• • • A
Als Beispiel betrachten wir das folgende klassische • • • • •
Stimmzettel-Problem: Zwischen zwei Kandidatinnen A und • • •
B habe eine Wahl stattgefunden. Da bei der Stimmauszäh- •
lung ein Stimmzettel nach dem anderen registriert wird, ist
stets bekannt, welche Kandidatin gerade in Führung liegt.
Am Ende zeigt sich, dass A gewonnen hat, und zwar mit Dieses Prinzip besagt, dass es genauso viele Wege vom Punkt
a Stimmen gegenüber b Stimmen für B. Wie groß ist die P zum Punkt Q gibt, die die Achse A treffen, wie es Wege
Wahrscheinlichkeit des mit C bezeichneten Ereignisses, dass von P  nach Q gibt. Liegt nämlich ein Weg von P nach Q
Kandidatin A während der gesamten Stimmauszählung führ- vor, der die Achse A trifft, so entsteht durch Spiegelung des
te? Teilweges bis zum erstmaligen – im Bild mit S bezeichneten
Wir ordnen den Auszählungsverläufen Wege zu, indem wir – Treffpunkt an A ein Weg, der von P  nach Q verläuft. Um-
die Stimmen für A bzw. B als Aufwärts- bzw. Abwärtsschritt gekehrt besitzt jeder von P  nach Q verlaufende Weg einen
notieren. Jeder Auszählungsverlauf ist dann ein von .0; 0/ ersten Treffpunkt mit A. Spiegelt man diesen von P  nach
nach .a C b; a  b/ führender Weg wie in der nachstehenden S führenden Teilweg an A und belässt den zweiten Teilweg
Abbildung. unverändert, so entsteht der von P nach Q verlaufende Aus-
gangsweg. Diese Zuordnung von Wegen, die von P nach Q
verlaufen und die Achse A mindestens einmal treffen, zu We-
• gen von P  nach Q ist offenbar bijektiv.
a−b • • • •
Nach diesem Spiegelungsprinzip ist die gesuchte Anzahl von
1 • • • Wegen, die von .1; 1/ nach .a C b; a  b/ führen und die x-
• Achse treffen, gleich der Anzahl der Wege von .1; 1/ nach
a+b
.a C b; a  b/. Letztere Anzahl wurde schon als aCb1 b1
erkannt. Insgesamt ergibt sich, dass Kandidatin A mit der
Wahrscheinlichkeit
Da jeder Weg von .0; 0/ nach .a C b; a  b/ dadurch be- aCb1
stimmt ist, dass man von insgesamt a C b Zeitschritten a für ab
P .C / D 1  2  aCb
b1
 D
die Aufwärtsschritte festlegt,
  gibt es nach der Anzahlformel aCb
a
b) für Kombinationen aCb a
solche Wege, die wir als gleich
wahrscheinlich annehmen. während der gesamten Stimmauszählung führt. Für weitere
Die für das Eintreten des Ereignisses C günstigen Wege Anwendungen des Spiegelungsprinzips siehe z. B. [15].
verlaufen wie derjenige in obiger Abbildung strikt oberhalb
der x-Achse. Die für C ungünstigen Wege gehen entweder Video 2.5 Das Stimmzettelproblem
im ersten Schritt nach unten, führen also von .1; 1/ nach
.a C b; a  b/, oder sie starten mit einem Aufwärtsschritt
und treffen danach irgendwann die x-Achse. Von der ersten
Sorte gibt es
 wiederum
 nach der Anzahlformel für Kom-
binationen aCb1
b1
Stück, und letztere Menge von Wegen
2.6 Elemente der Kombinatorik 31

Da die Binomialkoeffizienten Beispiel Beim Skatspiel werden 32 Karten an drei Personen


! ! A, B, C verteilt, wobei jede 10 Karten erhält. Zwei Karten
n nŠ n werden verdeckt als sog. Skat auf den Tisch gelegt. Wie viele
D ; 0Š WD 1; WD 0 für n < k;
k kŠ  .n  k/Š k verschiedene Kartenverteilungen gibt es?
  Da es nur darauf ankommt, welche Teilmengen aller Karten die
wegen n D n1 und 1 D nn die gleichen Anfangsbedingungen
Personen erhalten und die Karten im Skat dann feststehen, ist
(2.30) und die gleiche Rekursionsformel, nämlich
die Menge aller Kartenverteilungen durch
! ! !
nC1 n n
D C ; 1  k  n; (2.31) ˝ WD f.A; B; C / j A C B C C  K; jAj D jBj D jC j D 10g
k k k1
gegeben. Dabei bezeichnen K die Menge aller 32 Karten und

Kapitel 2
erfüllen, ist b) auf anderem Wege bewiesen.
A, B und C die Menge der Karten für die Personen A, B und C.
Für den Nachweis von a) verwenden wir die soeben bewiesene Um die Anzahl der möglichen Tripel .A; B; C / zu bestimmen,
Aussage und ordnen jeder Kombination a WD .a1 ; a2 ; : : : ; ak / verwenden wir die Multiplikationsregel sowie die Anzahlformel
aus Komnk .mW /, also 1  a1  a2  : : :  ak  n, mithilfe b) für Kombinationen. Für die erste Stelle im Tripel .A; B; C /
 
der die Komponenten von a „auseinanderziehenden“ Abbildung gibt es 32 Möglichkeiten, dann – unabhängig von der speziel-
10  
bj WD aj C j  1; j D 1; : : : ; k; len Teilmenge A  K der an Person A verteilten Karten – 22 10
Möglichkeiten für die Menge B der an Person B verteilten Kar-
ein b WD .b1 ; b2 ; : : : ; bk / 2 KomnCk1 .oW / zu, denn es gilt ten und schließlich
  – unabhängig von den 22 bislang verteilten
k
Karten – 12 10
Möglichkeiten, 10 Karten an Person C zu vertei-
1  b1 < b2 < : : : < bk  n C k  1: len. Insgesamt gibt es also

Da diese Zuordnung zwischen Komnk .mW / und ! ! !


nCk1 32 22 12 32Š
Komk .oW / bijektiv ist (die Umkehrabbildung ist aj WD j˝j D   D
bj  j C 1; j D 1; : : : ; k), folgt wie behauptet 10 10 10 10Š3  2Š
!
nCk1 und damit etwa 2:75  1015 Kartenverteilungen. J
n
j Komk .mW /j D j Komk nCk1
.oW /j D : 
k

  Beispiel (Multinomialkoeffizient, multinomialer Lehr-


Kommentar Der Binomialkoeffizient kn gibt die Anzahl satz) Die im obigen Beispiel behandelte Fragestellung
der Möglichkeiten an, aus n Objekten k auszuwählen, also k- lässt sich wie folgt direkt verallgemeinern: Seien M eine n-
elementige Teilmengen einer n-elementigen Menge zu bilden. elementige Menge sowie k1 ; : : : ; ks 2 N0 mit k1 C: : :Cks D n.
Dabei ist der Fall k D 0 der
 leeren Menge
  mit eingeschlossen. Auf wie viele Weisen lässt sich M in paarweise disjunkte Teil-
Die Bedingungen n D n1 und 1 D nn sind zusammen mit mengen M1 ; : : : ; Ms der Mächtigkeiten k1 ; : : : ; ks aufteilen?
n
0
WD 1 (n 2 N0 ) und der Rekursionsformel (2.31) das Bil- Wie viele derartige s-Tupel .M1 ; : : : ; Ms / lassen sich bilden?
dungsgesetz des Pascalschen Dreiecks
Die Lösung verwendet wie oben das zweite Fundamentalprinzip
1 des Zählens sowie die Anzahlformel für Kombinationen oh-
ne Wiederholung. Für die erste Stelle des Tupels gibt es kn1
1 1
Möglichkeiten, eine k1 -elementige Teilmenge von M zu bilden.
1 2 1
Bei
nk1fester
 Wahl von M1 bleiben für die Wahl von M2 noch
1 3 3 1 k2 -elementige Teilmengen aus M n M1 übrig, für die
1 4 6 4 1
k2
 
Wahl von M3 dann noch nkk13k2 k3 -elementige Teilmengen
1 5 10 10 5 1
aus M n .M1 [ M2 / usw. Die gesuchte Anzahl ist somit das
1 6 15 20 15 6 1 Produkt
1 7 21 35 35 21 7 1 ! ! ! !
:: :: :: :: :: :: :: :: :: n n  k1 n  k1  k2 n  k1  : : :  ks1
: : : : : : : : : ::: :
n k1 k2 k3 ks
Hier steht an der .k C 1/-ten Stelle der .n C 1/-ten Zeile. J
k  
Drückt man hier jeden der Binomialkoeffizienten gemäß m` D
Selbstfrage 6 mŠ=.`Š.m  `/Š/ mithilfe von Fakultäten aus, so entsteht nach
Können Sie die binomische Formel Kürzen der durch
!
Xn
n k nk !
n n nŠ
.x C y/ D x y (2.32)
k WD (2.33)
kD0 k1 ; : : : ; ks k1 Š  : : :  ks Š
begrifflich (ohne Induktionsbeweis) herleiten?
definierte Multinomialkoeffizient.
32 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Unter der Lupe: Historische Kontroversen über Gleichwahrscheinlichkeit

In der Geschichte der Wahrscheinlichkeitstheorie hat es di- voneinander die Lösung des Teilungsproblems, indem sie die
verse intensive Diskussionen über Fragen der Gleichwahr- die vier (selbsterklärenden) fiktiven Spielfortsetzungen
scheinlichkeit gegeben. Nachstehend geben wir einige Kost-
proben. A; BA; BBA; BBB

1. D’Alembert’s Croix ou Pile? betrachteten. Dabei gewinnt A in den ersten drei Fällen und
In einem provokanten Beitrag mit dem Titel Croix ou Pile? B nur im letzten. Müsste A also 3=4 des Einsatzes (D 15 C)
in der Encyclopédie aus dem Jahre 1754 stellte der Mathe-
Kapitel 2

erhalten? Das wäre richtig, wenn diese Spielverläufe gleich


matiker Jean-Baptiste le Rond d’Alembert (1717–1783) die wahrscheinlich wären. Offenbar ist aber die Wahrscheinlich-
gängige Meinung zur Diskussion, beim zweimaligen Werfen keit des Spielverlaufs A gleich 1=2, von BA gleich 1=4
einer echten Münze sei die Wahrscheinlichkeit des Ereignis- und von BBA gleich 1=8, sodass A mit der Wahrschein-
ses A, dass mindestens einmal Zahl auftritt, gleich 3=4. Er lichkeit 7=8 (D 1=2 C 1=4 C 1=8) gewinnt und somit –
argumentierte, dass es nur drei relevante, zu unterscheiden- entsprechend den einzelnen Gewinnwahrscheinlichkeiten bei
de Möglichkeiten gebe, nämlich Zahl im ersten Wurf (dann fiktiver Spielfortsetzung – 7=8 (D 17.50 C) des Einsatzes er-
könne man aufhören) oder Kopf im ersten und Zahl im zwei- halten müsste.
ten Wurf oder aber in beiden Würfen Kopf. Da in den beiden
ersten Fällen das Ereignis A eintritt, sei die Wahrscheinlich- 3. Leibniz’ Irrtum beim Würfelwurf
keit gleich 2=3. Werden zwei nichtunterscheidbare Würfel gleichzeitig ge-
Laplace kritisierte diesen Standpunkt, der die Gleichwahr- worfen, so kann man 21 Fälle unterscheiden, die durch den
scheinlichkeit der drei Fälle Zahl, Kopf Zahl und Kopf Kopf zu Beginn von Abschn. 2.1 vorgestellten Grundraum, also
unterstellt. Tatsächlich müsse man den Fall, dass im ersten die Menge Kom62 .mW / gegeben sind. Wer glaubt, hier mit
Wurf Kopf auftritt, in die gleich wahrscheinlichen Fälle Zahl einem Laplace-Modell arbeiten zu können, unterliegt dem
Kopf und Zahl Zahl aufspalten, was zur Lösung 3/4 füh- gleichen Trugschluss wie Gottfried Wilhelm von Leibniz
re. Die gleiche Lösung erhält man für den Fall, dass man (1646–1716), einem der letzten Universalgelehrten. Leib-
zwei nicht unterscheidbare Münzen gleichzeitig wirft. Durch niz glaubte nämlich, dass beim Werfen mit zwei Würfeln
gedankliche Färbung der Münzen erkennt man vier unter- die Augensummen 11 und 12 gleich wahrscheinlich seien.
scheidbare gleich wahrscheinliche Fälle. Auch Leibniz’ Irrtum wird sofort deutlich, wenn wir die
Würfel (etwa durch Färbung) unterscheidbar machen. Eine
2. Das Teilungsproblem von Luca Pacioli (1494) farbenblinde Person kann die Würfel nicht unterscheiden, ei-
Bei dem vom Franziskanermönch Luca Pacioli (ca. 1445– ne nicht farbenblinde Person ist jedoch in der Situation des
1517) im Jahr 1494 formulierten Teilungsproblem geht es Beispiels nach der Definition des Laplaceschen Wahrschein-
darum, einen Spieleinsatz bei vorzeitigem Spielabbruch „ge- lichkeitsraumes, in dem die Verteilung der Augensumme un-
recht“ aufzuteilen. Angenommen, zwei Spieler .A/ und .B/ ter Annahme eines Laplace-Modells auf der 36-elementigen
setzen je 10 C ein und spielen wiederholt ein faires Spiel, Menge f1; 2; 3; 4; 5; 6g2 hergeleitet wurde.
bei dem beide die gleiche Gewinnchance haben. Wer zuerst
Wie schwierig das Erkennen der Gleichwahrscheinlichkeit
sechs Runden gewonnen hat, erhält den Gesamteinsatz von
war (und ist), zeigt auch ein Problem im Zusammenhang
20 C. Wegen widriger Umstände muss das Spiel zu einem
mit dem Werfen dreier Würfel. So beobachteten Glücks-
Zeitpunkt abgebrochen werden, bis zu dem A fünf Runden
spieler, dass die Augensumme 10 häufiger auftrat als die
und B drei Runden gewonnen hat.
Augensumme 9, obwohl doch 10 durch die „Kombinationen“
Pacioli schlug hier eine Aufteilung des Einsatzes im Ver- .1; 3; 6/, .1; 4; 5/, .2; 2; 6/, .2; 3; 5/, .2; 4; 4/ und .3; 3; 4/
hältnis des Spielstandes, also von 5 W 3 vor, was 12.50 C und 9 durch genauso viele Kombinationen, nämlich .1; 2; 6/,
für A und 7.50 C für B bedeuten würde. Gerolamo Carda- .1; 3; 5/, .1; 4; 4/, .2; 2; 5/, .2; 3; 4/ und .3; 3; 3/ erzeugt wür-
no (1501–1576) meinte, es käme vielmehr auf die Anzahl de. Galileo Galilei (1564–1642) klärte diesen Widerspruch
der zum Sieg noch fehlenden Spiele an, was zu einer Auf- auf, indem er zeigte, dass die Kombinationen nicht gleich
teilung von 3 W 1 und somit zu 15 C für A und 5 C für B wahrscheinlich sind, also (analog zum Fall zweier Würfel)
führen würde. Niccolò Tartaglia (1499–1557) empfand den nicht mit der Gleichverteilung auf der Menge Kom63 .mW /
Vorschlag von Pacioli als ungerecht, weil B für den Fall, dass gearbeitet werden kann. Ein Stabdiagramm der Verteilung
er noch kein Spiel gewonnen hat, gar nichts erhalten wür- der Augensumme beim dreifachen Würfelwurf, die von der
de. Den Mathematikern Pierre de Fermat (1601–1665) und korrekten Gleichverteilung auf der Menge Per63 .mW / D
Blaise Pascal (1623–1663) gelang im Jahre 1654 unabhängig f1; 2; 3; 4; 5; 6g3 ausgeht, zeigt Abb. 2.5.
2.7 Urnen- und Fächer-Modelle 33

Diese Herleitung ermöglicht einen einfachen begrifflichen Be-


weis des multinomialen Lehrsatzes
!
X n
n
.x1 C    C xs / D x k1 : : : xsks (2.34)
k1 ; : : : ; ks 1
.k1 ;:::;ks /

.n  0; s  2; x1 ; : : : ; xs 2 R/ als Verallgemeinerung der bi-


nomischen Formel (2.32). Die obige Summe erstreckt sich dabei
über alle s-Tupel .k1 ; : : : ; ks / 2 N0s mit k1 C    C ks D n. Wie
die binomische Formel folgt (2.34), indem man die linke Sei-
te als Produkt n gleicher Faktoren („Klammern“) .x1 C    C

Kapitel 2
xs / ausschreibt. Beim Ausmultiplizieren entsteht das Produkt
x1k1 : : : xsks immer dann, wenn aus kr der Klammern xr ausge-
wählt wird .r D 1; : : : ; s/. Die Zahl der Möglichkeiten hierfür
ist der in (2.33) stehende Multinomialkoeffizient. J Abb. 2.10 Ziehen ohne Zurücklegen unter Beachtung der Reihenfolge

Video 2.6 Multinomialkoeffizient und multinomialer Lehrsatz


(U2) Beachtung der Reihenfolge ohne Zurücklegen
Erfolgt das Ziehen mit Notieren wie oben, jedoch ohne Zurück-
legen der jeweils gezogenen Kugel, so ist (mit der Bedeutung
von aj wie oben) die Menge

Pernk .oW / D f.a1 ; : : : ; ak / 2 Pernk .mW / j ai ¤ aj 8i ¤ j g


Selbstfrage 7
Warum gilt in der Situation der großen Beispiel-Box zur hyper- der k-Permutationen aus 1; 2; : : : ; n ohne Wiederholung ein
geometrischen Verteilung P .Aj / D r=.r Cs/ für j D 1; : : : ; n? angemessener Ergebnisraum (siehe Abb. 2.10). Natürlich ist
hierbei k  n vorausgesetzt.

2.7 Urnen- und Fächer-Modelle (U3) Reihenfolge irrelevant, mit Zurücklegen


Wird mit Zurücklegen gezogen, aber am Ende aller Ziehungen
Viele stochastische Vorgänge lassen sich mithilfe von Urnen- nur mitgeteilt, wie oft jede einzelne Kugel gezogen wurde, so
oder Fächer-Modellen beschreiben. Eine solche zugleich an- bietet sich als Grundraum die Menge
schauliche und abstrakte Beschreibung lässt alle unwesentlichen
Aspekte einer konkreten Fragestellung wegfallen. So kann etwa Komnk .mW / D f.a1 ; : : : ; ak / 2 Pernk .mW / j a1  : : :  ak g
die Klassifikation eines Verkehrsunfalls nach dem Wochentag
als Ziehen einer von sieben Kugeln, aber auch als Verteilen ei- der k-Kombinationen aus 1; 2; : : : ; n mit Wiederholung an. In
nes Teilchens in eines von sieben Fächern angesehen werden. In diesem Fall gibt aj die j -kleinste der Nummern der gezogenen
gleicher Weise ist die Feststellung des Geburtstages einer Person Kugeln an, wobei Mehrfachnennungen möglich sind.
begrifflich gleichbedeutend damit, eine von 365 Kugeln zu zie-
hen oder ein Teilchen in eines von 365 Fächern zu legen. Dabei
haben wir von Schaltjahren abgesehen. Wir beginnen zunächst (U4) Reihenfolge irrelevant, ohne Zurücklegen
mit Urnenmodellen. Erfolgt das Ziehen wie in (U3), aber ohne Zurücklegen, so ist
die Menge
In einer Urne liegen gleichartige von 1 bis n nummerierte Ku-
geln. Wir betrachten vier Möglichkeiten, k Kugeln aus dieser Komnk .oW / D f.a1 ; : : : ; ak / 2 Komnk .mW / j a1 < : : : < ak g
Urne zu ziehen. Diese unterscheiden sich danach, ob die Rei-
henfolge der gezogenen Kugeln beachtet wird oder nicht und ob der k-Kombinationen aus 1; 2; : : : ; n ohne Wiederholung ein ge-
das Ziehen mit oder ohne Zurücklegen erfolgt. eigneter Grundraum. Hier bedeutet aj die eindeutig bestimmte
j -kleinste Nummer der gezogenen Kugeln, und es ist k  n
(U1) Beachtung der Reihenfolge mit Zurücklegen
vorausgesetzt.
Nach jedem Zug wird die Nummer der gezogenen Kugel notiert
und diese Kugel wieder zurückgelegt. Bezeichnet aj die Num-
mer der j -ten gezogenen Kugel, so ist die Menge Video 2.7 Urnen- und Fächer-Modelle

Pernk .mW / D fa1 ; : : : ; ak / j 1  aj  n für j D 1; : : : ; kg

der k-Permutationen aus 1; 2; : : : ; n mit Wiederholung ein ge-


eigneter Grundraum für dieses Experiment.
34 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Beispiel: Die hypergeometrische Verteilung

In einer Urne liegen r rote und s schwarze Kugeln, die wir und somit unter Beachtung von .m/j D mŠ=.m  j /Š
z. B. als defekte bzw. intakte Exemplare einer Warenliefe- r   s 
rung deuten können. Es werden rein zufällig (ohne Zurückle- 
gen) n Kugeln entnommen. Mit welcher Wahrscheinlichkeit P .X D k/ D k
rCsnk
 ; 0  k  n: (2.37)
enthält diese Stichprobe genau k rote Kugeln? n
m
Dabei haben wir die Festlegung WD 0 für m < j getrof-
Problemanalyse und Strategie Eine unter mehreren Mög- j
lichkeiten, diese Situation zu modellieren, besteht darin, die fen.
Kapitel 2

Kugeln gedanklich von 1 bis r C s durchzunummerieren, Die durch obiges System von Wahrscheinlichkeiten definier-
wobei R D f1; : : : ; rg bzw. S D fr C 1; : : : ; r C sg die Men- te Verteilung von X heißt hypergeometrische Verteilung
gen der Zahlen der roten bzw. schwarzen Kugeln bezeichnen. mit Parametern n, r und s, und wir schreiben hierfür kurz
Ein natürlicher Grundraum für dieses Experiment ist dann
˝ WD PerrCs n
n .oW / D f.a1 ; : : : ; an / 2 f1; : : : ; r C sg j ai ¤ X Hyp.n; r; s/:
aj 8i ¤ j g mit der Deutung von aj als Nummer der j -
ten gezogenen Kugel. Als Wahrscheinlichkeitsmaß P wählen Die nachstehende Abbildung zeigt Stabdiagramme von hy-
wir die Gleichverteilung auf ˝. pergeometrischen Im linken Bild gilt r D s,
  Verteilungen.

was wegen kr D nkr
nach (2.37) die Symmetrie des Stab-
Lösung Nach Definition der Menge R beschreibt diagramms zur Folge hat.

Aj WD f.a1 ; : : : ; an / 2 ˝ j aj 2 Rg (2.35) (X = k), X ∼ Hyp(8, 12, 12) (X = k), X ∼ Hyp(8, 16, 8)


.4 .4
das Ereignis, dass die j -te gezogene Kugel rot ist, sowie
.3 .3

X WD 1fA1 g C : : : C 1fAn g .2 .2

.1 .1
die Anzahl der gezogenen roten Kugeln. Die für das Ereignis
fX D kg günstigen n-Tupel .a1 ; : : : ; an / haben an k Stel- k k
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
len eine Zahl aus der Menge R und an n  k Stellen eine
Zahl aus der Menge S. Um diese Tupel abzuzählen, wäh- Stabdiagramme von hypergeometrischen Verteilungen
len wir zuerst diejenigen k Stellen
  aus, die für die aj aus
R vorgesehen sind, wofür es kn Fälle gibt. Dann belegen
wir diese k Stellen von links nach rechts mit verschiedenen Man mache sich klar, dass die in (2.35) definierten Ereignisse
Zahlen aus R. Hierfür existieren nach der Multiplikations- unabhängig von j die gleiche Wahrscheinlichkeit P .Aj / D
regel .r/k Möglichkeiten. Schließlich belegen wir die noch r=.r C s/ besitzen.
freien n  k Plätze von links nach rechts mit verschiedenen
Zahlen aus S, wofür es .s/nk Möglichkeiten gibt. Wegen Video 2.8 Die hypergeometrische Verteilung
j˝j D .r C s/n liefert die Laplace-Annahme
!
n .r/k  .s/nk
P .X D k/ D  (2.36)
k .r C s/n

Beispiel nacheinander ohne Zurücklegen gezogen werden. Sind die


Schalter gedanklich durchnummeriert, so liegt das Urnenmo-
Der Wurf eines Würfels ist gedanklich gleichbedeutend da- dell (U4) vor.
mit, rein zufällig eine Kugel aus einer Urne zu ziehen, in der Wirft man k gleichartige Würfel gleichzeitig, so lässt sich
sechs von 1 bis 6 nummerierte Kugeln sind. Wirft man die- nur unterscheiden, wie oft jede Augenzahl auftritt, wie oft al-
sen Würfel k mal hintereinander, so liegt das Urnenmodell so – in der obigen Uminterpretation als Urnenmodell – jede
(U1) vor. einzelne Kugel gezogen wurde. Es liegt somit das Urnenmo-
Aus einer Warensendung von 1 000 Schaltern werden zu dell (U3) vor. So bedeutet etwa im Fall k D 4 das Resultat
Prüfzwecken rein zufällig 20 Schalter entnommen. Wir kön- .1; 4; 4; 6/, dass einer der Würfel eine 1, zwei Würfel eine 4
nen die Schalter als Kugeln interpretieren, von denen 20 und einer eine 6 zeigen. J
2.7 Urnen- und Fächer-Modelle 35

Beispiel: Die Binomialverteilung

Im Unterschied zum Beispiel der hypergeometrischen Vertei- (X = k), p = 0.1 (X = k), p = 0.3
.4 .4
lung betrachten wir jetzt das n-malige rein zufällige Ziehen
mit Zurücklegen aus einer Urne mit r roten und s schwarzen .3 .3
Kugeln. Nach jedem Zug legt man also die gezogene Ku- .2 .2
gel in die Urne zurück und mischt den Urneninhalt neu. Mit
.1 .1
welcher Wahrscheinlichkeit zieht man jetzt genau k mal eine
rote Kugel? k k
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Kapitel 2
Problemanalyse und Strategie Ein adäquater Grundraum (X = k), p = 0.5 (X = k), p = 0.7
.4 .4
für diese Situation ist die Menge ˝ WD PerrCs n .mW / D
f.a1 ; : : : ; an / j 1  aj  r C s für j D 1; : : : ; r C sg. Dabei .3 .3

sei aj die Nummer der im j -ten Zug gezogenen Kugel. .2 .2

.1 .1
Lösung Mit R D f1; : : : ; rg beschreibt dann
k k
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Aj WD f.a1 ; : : : ; an / 2 ˝ j aj 2 Rg (2.38)
Stabdiagramme von Binomialverteilungen (n D 10)
das Ereignis, dass beim j -ten Zug eine rote Kugel erscheint,
und die Indikatorsumme
Kommentar
X WD 1fA1 g C : : : C 1fAn g
Die Ereignisse A1 ; : : : ; An in (2.38) und (2.35) sehen
steht für die Anzahl der Male, dass dies passiert. zwar formal gleich aus, sind aber Teilmengen verschie-
dener Grundräume. Somit ist auch die Zählvariable X
Um die Verteilung von X zu bestimmen, beachten wir, dass auf unterschiedlichen Grundräumen definiert. Wir wissen
die Menge fX D kg wie im Fall des Ziehens ohne Zurück- aber auch, dass der Definitionsbereich einer Zufallsvaria-
legen aus allen Tupeln .a1 ; : : : ; an / besteht, bei denen genau blen unwichtig ist, wenn nur deren Verteilung interessiert.
k der aj aus der Menge R sind. Analog  zur dortigen Argu- Dieser Aspekt wird auch durch die Schreibweisen X
mentation folgt jfX D kgj D nk r k s nk und somit wegen Hyp.n; r; s/ und X Bin.n; p/ unterstrichen.
j˝j D .r C s/n das Ergebnis Im Gegensatz zu den in (2.35) eingeführten Ereignis-
! sen sind die Ereignisse A1 ; : : : ; An in (2.38) in einem
n k gewissen, das Zurücklegen der jeweils gezogenen Kugel
P .X D k/ D p .1  p/nk ; k D 0; : : : ; n: (2.39)
k widerspiegelnden und im nächsten Kapitel zu präzisie-
renden Sinn stochastisch unabhängig. In Abschn. 3.3
Dabei wurde p WD r=.r C s/ gesetzt. werden wir sehen, dass ganz allgemein Indikatorsum-
men stochastisch unabhängiger Ereignisse, die die gleiche
Die hierdurch definierte Verteilung von X heißt Binomial- Wahrscheinlichkeit besitzen, binomialverteilt sind.
verteilung mit Parametern n und p, und wir schreiben Wenn die Anzahl der Ziehungen im Vergleich zum Ur-
hierfür kurz neninhalt klein ist, sollte es keine große Rolle für die
X Bin.n; p/: Verteilung der Anzahl der gezogenen roten Kugeln spie-
len, ob das Ziehen mit oder ohne Zurücklegen erfolgt.
Die Abbildung zeigt Stabdiagramme von Binomialverteilun- Diese Vermutung bestätigt sich anhand der Darstellung
gen. (2.36), denn es gilt

Man beachte, dass wegen .r/k  .s/nk Y r  j nk1


k1 Y sj
! D
Xn .r C s/n r C s  j r C skj
n k j D0 j D0
p .1  p/nk D .p C 1  p/n D 1  k  nk
k r s
kD0
;
r Cs r Cs
die Binomialverteilung Bin.n; p/ für jedes p mit 0  p  1
definiert ist. Im obigen Urnenmodell steht p D r=.r C s/ für wenn r und s wesentlich größer als n sind. Somit findet
den Anteil der roten Kugeln. Die Binomialverteilung ist eine die im Vergleich zur hypergeometrischen Verteilung ein-
der grundlegenden Verteilungen in der Stochastik und wird facher zu handhabende Binomialverteilung häufig auch in
uns noch mehrfach begegnen. der statistischen Qualitätskontrolle Verwendung. J
36 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Unter der Lupe: Die vermeintlich frühe erste Kollision

Befinden sich 23 Personen in einem Raum, so kann man und verwendet die Ungleichungen
P 1  1=t  log t  t  1,
getrost darauf wetten, dass mindestens zwei von ihnen am sowie die Summenformel jmD1 j D m.m C 1/=2, so erge-
gleichen Tag Geburtstag haben. Obwohl es fast 14 Millionen ben sich die Abschätzungen
verschiedene Sechserauswahlen im Lotto 6 aus 49 gibt, trat  
die erste Wiederholung einer bereits zuvor gezogenen Ge- k.k  1/
1  exp   P .Xn  k/
winnreihe schon nach der 3 016. Ausspielung auf. Was haben 2n
diese Zufallsphänomene gemeinsam, und sind sie wirklich so  
k.k  1/
überraschend?  1  exp 
Kapitel 2

2.n  k C 1/
Beiden Situationen liegt die gleiche Fragestellung in einem
Fächer-Modell zugrunde. Gegeben seien n verschiedene Fä- und daraus (vgl. Aufgabe 2.36) der Grenzwertsatz
cher, in die rein zufällig der Reihe nach Teilchen fallen.    2
Xn t
Wann gelangt zum ersten Mal ein Teilchen in ein Fach, das lim P p  t D 1  exp  ; t > 0: (2.42)
bereits mit einem Teilchen belegt ist, wann findet also die n!1 n 2
erste Kollision statt?
Hier steht auf der rechten Seite die Verteilungsfunktion
Im Fall des Geburtstags-Phänomens sind die Fächer die n D der Weibull-Verteilung Wei.2; 1=2/ (vgl. (5.53)). Aussage
365 Tage des Jahres (Schaltjahre seien ausgenommen) und (2.42) bedeutet, dass die zufällige Anzahl der Teilchen bis
die Teilchen die Personen, im Fall des Lotto-Phänomens
  die
p n Fächern bei wachsendem n von
zur ersten Kollision bei
möglichen, in irgendeiner Weise von 1 bis 496
D 13 983 816 der Größenordnung n und damit kleiner als gemeinhin
durchnummerierten Gewinnkombinationen und die Teilchen erwartet ist. Das dargestellte Stabdiagramm korrespondiert
die jeweils gezogenen Gewinnreihen. zur Dichte (D t exp.t 2 =2/ für t > 0) obiger Weibull-
Bezeichnet Xn die zufällige Anzahl der bis zum Auftreten Verteilung.
der ersten Kollision nötigen Teilchen, so gilt
Y  (X365 = k)
k1
.n/k j
P .Xn  k C 1/ D k D 1 .03
n j D1
n
(k D 1; : : : ; n). Das Ereignis fXn  k C 1g tritt nämlich .02

genau dann ein, wenn die ersten k Teilchen in verschiedene


Fächer fallen, und es gibt hierfür .n/k günstige bei insgesamt .01

nk möglichen gleichwahrscheinlichen Fällen. Geht man zum


komplementären Ereignis über, so ist 5 10 15 20 25 30 35 40 45 50 55 60 k
Y
k1
j

P .Xn  k/ D 1  1 (2.40) Stabdiagramm der Verteilung von X365
j D1
n
die Wahrscheinlichkeit, dass die erste Kollision spätestens Man mache sich klar, dass es bei der ersten Kollision nicht
nach dem Verteilen des k-ten Teilchens erreicht ist. Hiermit darum geht, dass zwei bestimmte Teilchen in das gleiche Fach
ergeben sich insbesondere die Werte gelangen. Die Wahrscheinlichkeit hierfür ist 1=n. Bezeichnet
P .X365  23/ 0:507; Ai ;j das Ereignis, dass bei einer Nummerierung der Teilchen
von 1 bis k die Teilchen Nr. i und Nr. j in dasselbe Fach
P .X13983816  3 016/ 0:278;
zu liegen kommen, so geht es vielmehr um das (viel wahr-
was insbesondere das eingangs behauptete „gestroste Wet- scheinlichere) Eintreten von mindestens einem der k.k1/=2
ten“ rechtfertigt. Die Abbildung rechts zeigt ein durch Bil- Ereignisse Ai ;j , 1  i < j  k.
dung der Differenzen
P .Xn D k/ D P .Xn  k/  P .Xn  k  1/ Natürlich ist die Annahme einer Gleichverteilung der Ge-
burtstage über die Tage des Jahres unrealistisch. In einer
k2  
k1 Y j Unter-der-Lupe-Box in Abschn. 3.3 werden wir jedoch zei-
D  1 gen, dass sich bei Abweichung von diesem Modell die
n j D1
n
Wahrscheinlichkeit für mindestens einen Doppelgeburtstag
erhaltenes Stabdiagramm der Verteilung von X365 . unter k Personen vergrößert.
Die Verteilung von X365 ist „rechtsschief“, d. h., die Wahr-
scheinlichkeiten P .X365 D k/ fallen nach Erreichen des Ma- Video 2.9 Das Paradoxon der frühen ersten Kollision
ximalwertes langsamer ab, als sie vorher zunehmen. Schreibt
man (2.40) in der Form 2 3
X
k1  
j
P .Xn  k/ D 1  exp 4 log 1  5 (2.41)
j D1
n
2.7 Urnen- und Fächer-Modelle 37

Urnen- und Fächer-Modelle sind begrifflich


äquivalent
Wir stellen jetzt vier Fächer-Modelle vor, die zu obigen Urnen-
modellen begrifflich äquivalent sind. In einem solchen Modell
sollen Teilchen auf n von 1 bis n nummerierte Fächer ver-
teilt werden. Die Anzahl der Besetzungen sowie der zugehörige
Grundraum hängen davon ab, ob die Teilchen unterscheid-
bar sind und ob Mehrfachbesetzungen zugelassen werden oder
nicht.
Interpretieren wir die vorgestellten Urnenmodelle dahingehend

Kapitel 2
um, dass den Teilchen die Ziehungen und den Fächern die Abb. 2.11 Fächer-Modell (F3). Die dargestellte Besetzung entspricht
Kugeln entsprechen, so ergeben sich die folgenden Fächer- dem Tupel .1; 3; 3; 3; 4; 4; 5/ 2 Kom57 .mW /
Modelle:

(F1) Teilchen unterscheidbar, Mehrfachbesetzungen erlaubt Beispiel (Fächer-Modelle in der Physik) Die vorgestell-
In diesem Fall ist die Menge der Besetzungen durch Pernk .mW / ten Fächer-Modelle (F1), (F3) und (F4) finden in der statisti-
wie im Urnenmodell (U1) gegeben. Dabei bezeichnet jetzt aj schen Physik Anwendung. Dort sind die Teilchen Gasmoleküle,
die Nummer des Fachs, in das man das j -te Teilchen gelegt hat. Photonen, Elektronen, Protonen o. Ä., und der Phasenraum wird
in Zellen (Fächer) unterteilt. Je nachdem, welche Gleichvertei-
(F2) Teilchen unterscheidbar, keine Mehrfachbesetzungen lungsannahme gemacht wird, ergeben sich verschiedene, nicht
In diesem Fall ist Pernk .oW / (vgl. das Modell (U2)) der geeig- a priori, sondern nur aus der Situation bzw. aus der Erfah-
nete Ergebnisraum. rung heraus begründbare Verteilungen, die „Statistiken“ genannt
werden. So tritt das Modell (F1) als eine nach den Physikern
(F3) Teilchen nicht unterscheidbar, Mehrfachbesetzungen James Clerk Maxwell (1831–1879) und Ludwig Eduard Boltz-
erlaubt mann (1844–1906) benannte Maxwell-Boltzmann-Statistik u. a.
Sind die Teilchen nicht unterscheidbar, so kann man nach Ver- bei Gasen unter mittleren und hohen Temperaturen auf. Das Mo-
teilung der k Teilchen nur noch feststellen, wie viele Teilchen in dell (F3) ergibt sich als Bose-Einstein-Statistik – benannt nach
jedem Fach liegen (siehe Abb. 2.11 im Fall n D 5, k D 7). Die den Physikern Satyendranath Bose (1894–1974) und Albert Ein-
vorliegende Situation entspricht dem Urnenmodell (U3), wobei stein (1879–1955) – für Photonen und He-4-Kerne. Schließlich
das Zulassen von Mehrfachbesetzungen gerade Ziehen mit Zu- ist das Modell (F4), bei dem höchstens ein Teilchen in einer Zel-
rücklegen bedeutet. Der geeignete Grundraum ist Komnk .mW /. le sein kann, eine adäquate Annahme für Elektronen, Neutronen
und Protonen. In der statistischen Physik ist es nach den Physi-
(F4) Teilchen nicht unterscheidbar, keine kern Enrico Fermi (1901–1954) und Paul Adrien Maurice Dirac
Mehrfachbesetzungen (1902–1984) als Fermi-Dirac-Statistik bekannt. Die Forderung,
Der Bedingung, keine Mehrfachbesetzungen zuzulassen, ent- dass höchstens ein Teilchen in einer Zelle liegt, entspricht in der
spricht das Ziehen ohne Zurücklegen mit dem Grundraum Physik dem nach dem Physiker Wolfgang Pauli (1900–1958)
Komnk .oW / (vgl. das Urnenmodell (U4)). benannten Pauli-Verbot. J

Übersicht: Urnen- und Fächer-Modelle

Ziehen von k Kugeln aus einer Urne mit n Kugeln


Verteilung von k Teilchen auf n Fächer
Beachtung der Reihenfolge? Erfolgt Zurücklegen? Modell Grundraum Anzahl
Teilchen unterscheidbar? Mehrfachbesetzungen erlaubt?
Ja Ja (U1) bzw. (F1) Pernk .mW / nk
Ja Nein (U2) bzw. (F2) Pernk .oW / .n/k
nCk1
Nein Ja (U3) bzw. (F3) Komnk .mW / k
n 
Nein Nein (U4) bzw. (F4) Komnk .oW / k
38 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Zusammenfassung

Ein Grundraum (engl.: sample space) ˝ modelliert die Men- Eine weitere Beispielklasse von Wahrscheinlichkeitsräumen lie-
ge der Ergebnisse eines stochastischen Vorgangs. Ereignisse fern nichtnegative Borel-messbare
R Funktionen f W Rk ! R
(events) sind gewisse Teilmengen von ˝. Das System A al- R Rk f .x/dx D 1. In diesem Fall wird
mit der Eigenschaft
ler Ereignisse ist eine  -Algebra (-field, -algebra) über ˝, durch Q.B/ WD B f .x/ dx; B 2 Bk ; ein Wahrscheinlich-
d. h., A enthält ; und mit jeder Menge auch deren Komplement. keitsmaß auf der -Algebra Bk definiert. Die Funktion f heißt
Des Weiteren ist A abgeschlossen gegenüber der Bildung von
Kapitel 2

(Wahrscheinlichkeits-)Dichte ((probability) density).


abzählbaren Vereinigungen von Mengen aus A. Ist ˝ abzähl-
bar, so kann A stets als Potenzmenge von ˝ gewählt werden. Folgerungen aus den Kolmogorovschen Axiomen sind P .;/ D
Der Unmöglichkeitssatz von Vitali zeigt, dass man andernfalls 0, P .Ac / D 1  P .A/ sowie das Additionsgesetz P .A [ B/ D
Vorsicht walten lassen muss. Im Fall ˝ D Rk wählen wir die P .A/ C P .B/  P .AB/. Letzteres findet seine Verallgemei-
Borelsche -Algebra, also die kleinste -Algebra, die alle offe- nerung in der Formel S des Ein- und P Ausschließens (inclusion-
nen Teilmengen des Rk enthält. Ist A eine -Algebra über ˝, exclusion formula) P . jnD1 Aj / D nrD1 .1/r1 Sr : Dabei ist
so nennt man das Paar .˝; A/ einen Messraum (measurable Sr die Summe über die Wahrscheinlichkeiten der Schnitte von
space). r der Ereignisse A1 ; : : : ; An . Bricht man die alternierende Sum-
me nach einer geraden bzw. ungeraden Anzahl von Summanden S
Sind .˝; A/ und .˝ 0 ; A0 / Messräume, so heißt jede Abbil- ab, so entstehen untere bzw. obere Schranken für P . jnD1 Aj /,
dung X W ˝ ! ˝ 0 mit der Eigenschaft, dass die Urbilder die sog. Bonferroni-Ungleichungen (Bonferroni inequalities).
X 1 .A0 / der Ereignisse aus A0 zu A gehören, eine ˝ 0 -wertige Wahrscheinlichkeitsmaße sind stetig (continuous) in dem Sin-
Zufallsvariable (random variable). Zufallsvariablen sind ein ne, dass für auf- oder absteigende Mengenfolgen An " A bzw.
suggestives Darstellungsmittel für Ereignisse. Die Indikator- An # A die Beziehung P .An / ! P .A/ gilt.
funktion (indicator function) 1A eines Ereignisses ist durch
1A .!/ WD 1, falls ˝ 2PA und 1A .!/ WD 0, sonst, definiert. Ist M eine n-elementige Menge, so nennt man die Elemente
Eine Indikatorsumme jnD1 1Aj gibt an, wie viele unter den a D .a1 ; : : : ; ak / des kartesischen Produkts M k von M auch
Ereignissen A1 ; : : : ; An eintreten. k-Permutationen aus M mit Wiederholung (ordered sam-
ples of size k with replacement). Gilt ai ¤ aj für i ¤ j , so
Nach dem Kolmogorovschen Axiomensystem besteht ein heißt .a1 ; : : : ; ak / k-Permutation ohne Wiederholung (orde-
Wahrscheinlichkeitsraum (probability space) .˝; A; P / aus red samples of size k without replacement). Diese Mengen wer-
einem Messraum .˝; A/ und einer Wahrscheinlichkeitsmaß den mit Pernk .mW / D M k und Pernk .oW / D fa 2 M k j ai ¤
(probability measure) genannten nichtnegativen, durch die Fest- aj 8i ¤ j g bezeichnet. Ist M durch die Relation „“ totalge-
setzung P .˝/ D 1 normierten und -additiven Funktion P W ordnet, so setzt man Komnk .mW / D fa 2 M k j a1  : : :  ak g,
A ! R. Die  -Additivität (-additivity)
P besagt, dass die
Komnk .oW / D fa 2 M k j a1 < : : : < ak g. Die Elemente von
Wahrscheinlichkeit einer Vereinigung 1 nD1 APn paarweise dis-
1 Komnk .mW / bzw. Komnk .oW / heißen k-Kombinationen aus
junkter Mengen aus A gleich der Summe nD1 P .An / der M mit bzw. ohne Wiederholung (unordered samples of size
einzelnen Wahrscheinlichkeiten ist.
k with resp. without replacement).
Sind .˝; A; P / ein Wahrscheinlichkeitsraum, .˝ 0; A0 / ein
Für die Anzahlen dieser Mengen gelten die Grundformeln der
Messraum und X W ˝ ! ˝ 0 eine Zufallsvariable, so wird durch Q
P X .A0 / WD P .X 1.A0 //, A0 2 A0 , ein Wahrscheinlichkeitsmaß Kombinatorik j Pernk .mW /j D nk , j Pernk .oW /j D jk1 D0 .n 
  n 
P X auf A0 definiert. Es heißt Verteilung (distribution) von X . j /, j Komnk .mW /j D nCk1 und j Kom n
.oW /j D .
k  
k k
Zufallsvariablen mit einer vorgegebenen Verteilung Q auf A0 Dabei beschreibt der Binomialkoeffizient kn (binomial co-
lassen sich als Abbildungen kanonisch konstruieren, indem man efficient) die Anzahl der Möglichkeiten, aus n Objekten k
˝ WD ˝ 0 , A WD A0 und X WD id˝ setzt. auszuwählen.
 n Der  Multinomialkoeffizient (multinomial coef-

ficient) k1 ;:::;k D ist die Anzahl der Möglichkeiten,
Ein Wahrscheinlichkeitsraum .˝; A; P / heißt diskret (discre- s k1 Š:::ks Š
eine n-elementige Menge in disjunkte Teilmengen der Mächtig-
te probability space), falls A alle einelementigen Teilmengen keiten k1 ; : : : ; ks aufzuteilen. Dabei sind k1 ; : : : ; ks 2 N0 mit
von ˝ enthält und es eine abzählbare Teilmenge ˝0 von ˝ mit k1 C : : : C ks D n.
P .˝0/ D 1 gibt. In diesem Fall ist P durch die Angabe der
Werte P .f!g/ mit ! 2 ˝0 eindeutig bestimmt. Ist ˝ eine endli- Die Mengen Pernk .mW /, Pernk .oW /, Komnk .mW / und
che Menge, und gilt speziell P .A/ D jAj=j˝j, A  ˝, so liegt Komnk .oW / sind natürliche Grundräume bei Urnenmodel-
ein sog. Laplacescher Wahrscheinlichkeitsraum vor. In die- len (urn models). Dabei führt die Beachtung der Reihenfolge
sem Fall sind alle Elementarereignisse gleich wahrscheinlich. auf Permutationen. Diese sind mit bzw. ohne Wiederholung je
Zusammenfassung 39

nachdem, ob das Ziehen mit bzw. ohne Zurücklegen erfolgt.


Gibt es r rote und s schwarze Kugeln, und wird n-mal gezogen,
so besitzt die Anzahl X der gezogenen roten Kugeln im Falle
des Ziehens ohne Zurücklegen die hypergeometrische Vertei-
lung Hyp.n; r; s/. Erfolgt das Ziehen mit Zurücklegen, so ist X
binomialverteilt mit Parametern
  n und p WD r=.r C s/, d. h.,
es gilt P .X D k/ D kn p k .1  p/nk ; k D 0; 1; : : : ; n: Ist
nur bekannt, wie oft jede einzelne Kugel gezogen wurde, so
entstehen Kombinationen. Urnenmodelle sind begrifflich äqui-
valent zu Fächer-Modellen (occupancy models), wenn man
gedanklich den Teilchen die Ziehungen und den Fächern die

Kapitel 2
Kugeln entsprechen lässt. Die Unterscheidbarkeit der Teilchen
korrespondiert dann zur Beachtung der Reihenfolge, und das
Erlauben bzw. Verbieten von Mehrfachbesetzungen entspricht
dem Ziehen mit bzw. ohne Zurücklegen.
40 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Kapitel 2

Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen Stromfluss nicht unterbrochen ist. Drücken Sie für jedes der vier
Schaltbilder das Ereignis A durch A1 ; A2 ; A3 ; A4 aus.
2.1 In einer Schachtel liegen fünf von 1 bis 5 numme-
rierte Kugeln. Geben Sie einen Grundraum für die Ergebnisse a 1 2 3 4
eines stochastischen Vorgangs an, der darin besteht, rein zufäl-
lig zwei Kugeln mit einem Griff zu ziehen.
1

2.2 Geben Sie jeweils einen geeigneten Grundraum 2


für folgende stochastischen Vorgänge an: 2

a) Drei nicht unterscheidbare 1-C-Münzen werden gleichzeitig b c 1 3


geworfen. 3
b) Eine 1-C-Münze wird dreimal hintereinander geworfen. 4
c) Eine 1-Cent-Münze und eine 1-C-Münze werden gleichzei-
4
tig geworfen.

2.3 Eine technische Anlage bestehe aus einem Gene-


rator, drei Kesseln und zwei Turbinen. Jede dieser sechs Kom- 1 3

ponenten kann während eines gewissen, definierten Zeitraums d


ausfallen oder intakt bleiben. Geben Sie einen Grundraum an, 2 4
dessen Elemente einen Gesamtüberblick über den Zustand der
Komponenten am Ende des Zeitraums liefern. Schaltbilder zu Stromkreisen

2.4 Es seien A; B; C ; D Ereignisse in einem Grund-


2.7 Ein Versuch mit den möglichen Ergebnissen Tref-
raum ˝. Drücken Sie das verbal beschriebene Ereignis E: Von
fer (1) und Niete (0) werde 2n-mal durchgeführt. Die ersten
den Ereignissen A; B; C ; D treten höchstens zwei ein durch
(bzw. zweiten) n Versuche bilden die sog. erste (bzw. zweite)
A; B; C und D aus.
Versuchsreihe. Beschreiben Sie folgende Ereignisse mithilfe ge-
eigneter Zählvariablen:
2.5 In der Situation von Aufgabe 2.3 sei die Anlage
arbeitsfähig (Ereignis A), wenn der Generator, mindestens ein a) In der zweiten Versuchsreihe treten mindestens zwei Treffer
Kessel und mindestens eine Turbine intakt sind. Die Arbeitsfä- auf,
higkeit des Generators, des i-ten Kessels und der j -ten Turbine b) bei beiden Versuchsreihen treten unterschiedlich viele Treffer
seien durch die Ereignisse G, Ki und Tj (i D 1; 2; 3; j D 1; 2) auf,
beschrieben. Drücken Sie A und Ac durch G; K1 ; K2 ; K3 und c) die zweite Versuchsreihe liefert weniger Treffer als die erste,
T1 ; T2 aus. d) in jeder Versuchsreihe gibt es mindestens einen Treffer.

2.6 In einem Stromkreis befinden sich vier numme- 2.8 Ein Würfel wird höchstens dreimal geworfen. Er-
rierte Bauteile, die jedes für sich innerhalb eines gewissen scheint eine Sechs zum ersten Mal im j -ten Wurf (j D 1; 2; 3),
Zeitraums intakt bleiben oder ausfallen können. Im letzteren so erhält eine Person aj C, und das Spiel ist beendet. Hierbei
Fall ist der Stromfluss durch das betreffende Bauteil unterbro- sei a1 D 100, a2 D 50 und a3 D 10. Erscheint auch im
chen. Es bezeichnen Aj das Ereignis, dass das j -te Bauteil dritten Wurf noch keine Sechs, so sind 30 C an die Bank zu
intakt bleibt (j D 1; 2; 3; 4) und A das Ereignis, dass der zahlen, und das Spiel ist ebenfalls beendet. Beschreiben Sie den
Aufgaben 41

Spielgewinn mithilfe einer Zufallsvariablen auf einem geeigne- 2.16 Es sei f eine auf einer offenen Teilmenge des Rn
ten Grundraum. definierte stetig differenzierbare reellwertige Funktion. Wie vie-
le verschiedene partielle Ableitungen k-ter Ordnung besitzt f ?
2.9 Das gleichzeitige Eintreten der Ereignisse A und
B ziehe das Eintreten des Ereignisses C nach sich. Zeigen Sie, 2.17 Aus sieben Männern und sieben Frauen werden
dass dann gilt: sieben Personen rein zufällig ausgewählt. Mit welcher Wahr-
scheinlichkeit enthält die Stichprobe höchstens drei Frauen? Ist
P .C /  P .A/ C P .B/  1: das Ergebnis ohne Rechnung einzusehen?

2.10 Es sei c 2 .0; 1/ eine beliebige (noch so große) Rechenaufgaben


Zahl. Gibt es Ereignisse A, B in einem geeigneten Wahrschein-

Kapitel 2
lichkeitsraum, sodass 2.18 Im Lotto 6 aus 49 ergab sich nach 5 047 Ausspie-
lungen die nachstehende Tabelle der Gewinnhäufigkeiten der
P .A \ B/  c  P .A/  P .B/ einzelnen Zahlen.

gilt? 1 2 3 4 5 6 7
616 624 638 626 607 649 617
2.11 Ist es möglich, dass von drei Ereignissen, von de-
8 9 10 11 12 13 14
nen jedes die Wahrscheinlichkeit 0.7 besitzt, nur genau eines
eintritt? 598 636 605 623 600 561 610

15 16 17 18 19 20 21
2.12 Zeigen Sie, dass es unter acht paarweise disjunk- 588 623 615 618 610 585 594
ten Ereignissen stets mindestens drei gibt, die höchstens die
Wahrscheinlichkeit 1=6 besitzen. 22 23 24 25 26 27 28
627 611 619 652 659 648 577
2.13 Mit welcher Wahrscheinlichkeit ist beim Lotto 6
29 30 31 32 33 34 35
aus 49
593 602 649 629 643 615 615
a) die zweite gezogene Zahl kleiner als die erste?
b) die dritte gezogene Zahl kleiner als die beiden ersten Zahlen? 36 37 38 39 40 41 42
c) die letzte gezogene Zahl die größte aller 6 Gewinnzahlen? 618 610 658 617 616 639 623

43 44 45 46 47 48 49
2.14 Auf einem m  n-Gitter mit den Koordinaten
663 612 570 592 621 612 649
.i; j /, 0  i  m, 0  j  n (s. nachstehende Abbildung
für den Fall m D 8, n D 6) startet ein Roboter links unten im
Punkt .0; 0/. Er kann wie abgebildet pro Schritt nur nach rechts a) Wie groß sind die relativen Gewinnhäufigkeiten der Zahlen
oder nach oben gehen. 13, 19 und 43?
b) Wie groß wäre die relative Gewinnhäufigkeit, wenn jede Zahl
n gleich oft gezogen worden wäre?
1
2.19 Zeigen Sie, dass durch die Werte pk WD k.kC1/ ,
k  1, eine Wahrscheinlichkeitsverteilung auf der Menge N
.
. der natürlichen Zahlen definiert wird.
.

1 2.20 Bei einer Qualitätskontrolle können Werkstücke


0 zwei Arten von Fehlern aufweisen, den Fehler A und den Fehler
0 1 ··· m B. Aus Erfahrung sei bekannt, dass ein zufällig herausgegriffe-
nes Werkstück mit Wahrscheinlichkeit
a) Auf wie viele Weisen kann er den Punkt .m; n/ rechts oben 0.04 den Fehler A hat,
erreichen? 0.005 beide Fehler aufweist,
b) Wie viele Wege von .0; 0/ nach .m; n/ gibt es, die durch den 0.01 nur den Fehler B hat.
Punkt .a; b/ verlaufen? a) Mit welcher Wahrscheinlichkeit weist das Werkstück den
Fehler B auf?
2.15 Wie viele Möglichkeiten gibt es, k verschiedene b) Mit welcher Wahrscheinlichkeit ist das Werkstück fehlerhaft
Teilchen so auf n Fächer zu verteilen, dass im j -ten Fach kj bzw. fehlerfrei?
Teilchen liegen (j D 1; : : : ; n, k1 ; : : :, kn 2 N0 , k1 C    C kn D c) Mit welcher Wahrscheinlichkeit besitzt das Werkstück genau
k)? einen der beiden Fehler?
42 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

2.21 Beim Zahlenlotto 6 aus 49 beobachtet man häufig, Beweisaufgaben


dass sich unter den sechs Gewinnzahlen mindestens ein Zwil-
P
ling, d. h. mindestens ein Paar .i; i C 1/ benachbarter Zahlen, 2.28 Es sei ˝ D 1
nD1 An eine Zerlegung des Grund-
befindet. Wie wahrscheinlich ist dies? raums ˝ in paarweise disjunkte Mengen A1 ; A2 ; : : :. Zeigen
Sie, dass das System
2.22 Sollte man beim Spiel mit einem fairen Würfel ( )
eher auf das Eintreten mindestens einer Sechs in vier Würfen X
oder beim Spiel mit zwei echten Würfeln auf das Eintreten A D B  ˝ j 9T  N mit B D An
mindestens einer Doppelsechs (Sechser-Pasch) in 24 Würfen n2T
setzen? (Frage des Antoine Gombault Chevalier de Meré (1607–
eine -Algebra über ˝ ist.
1684))
Kapitel 2

Man mache sich klar, dass A nur dann gleich der vollen Po-
2.23 Bei der ersten Ziehung der Glücksspirale 1971 tenzmenge von ˝ ist, wenn jedes Aj einelementig (und somit
wurden für die Ermittlung einer 7-stelligen Gewinnzahl aus ei- ˝ insbesondere abzählbar) ist.
ner Trommel, die Kugeln mit den Ziffern 0; 1; : : : ; 9 je 7mal
enthält, nacheinander rein zufällig 7 Kugeln ohne Zurücklegen 2.29 Es seien A und B Ereignisse in einem Grundraum
gezogen. ˝. Zeigen Sie:
a) Welche 7-stelligen Gewinnzahlen hatten hierbei die größte a) 1A\B D 1A  1B ,
und die kleinste Ziehungswahrscheinlichkeit, und wie groß b) 1A[B D 1A C 1B  1A\B ,
sind diese Wahrscheinlichkeiten? c) 1ACB D 1A C 1B ,
b) Bestimmen Sie die Gewinnwahrscheinlichkeit für die Zahl d) 1Ac D 1  1A ,
3 143 643. e) A  B () 1A  1B .
c) Wie würden Sie den Ziehungsmodus abändern, um allen
Gewinnzahlen die gleiche Ziehungswahrscheinlichkeit zu si- 2.30 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
chern? und .An / eine Folge in A mit An # A. Zeigen Sie:

2.24 Bei der Auslosung der 32 Spiele der ersten Haupt- P .A/ D lim P .An /:
n!1
runde des DFB-Pokals 1986 gab es einen Eklat, als der Loszettel
der Stuttgarter Kickers unbemerkt buchstäblich unter den Tisch
gefallen und schließlich unter Auslosung des Heimrechts der 2.31 Es seien .˝; A/ ein Messraum und P W A !
zuletzt im Lostopf verbliebenen Mannschaft Tennis Borussia Œ0; 1 eine Funktion mit
Berlin zugeordnet worden war. Auf einen Einspruch der Stutt-
garter Kickers hin wurde die gesamte Auslosung der ersten P .A C B/ D P .A/ C P .B/, falls A; B 2 A mit A \ B D ;,
Hauptrunde neu angesetzt. Kurioserweise ergab sich dabei wie- P .B/ D limn!1 P .Bn/ für jede Folge .Bn / aus A mit
derum die Begegnung Tennis Borussia Berlin – Stuttgarter Bn " B.
Kickers. Zeigen Sie, dass P -additiv ist.
a) Zeigen Sie, dass aus stochastischen Gründen kein Einwand
gegen die erste Auslosung besteht. 2.32 Beweisen Sie die Formel des Ein- und Ausschlie-
b) Wie groß ist die Wahrscheinlichkeit, dass sich in der zweiten ßens durch Induktion über n.
Auslosung erneut die Begegnung Tennis Borussia Berlin –
Stuttgarter Kickers ergibt? 2.33 In einer geordneten Reihe zweier verschiedener
Symbole a und b heißt jede aus gleichen Symbolen bestehende
2.25 Die Zufallsvariable Xk bezeichne die k-kleinste Teilfolge maximaler Länge ein Run. Als Beispiel betrachten wir
der 6 Gewinnzahlen beim Lotto 6 aus 49. Welche Verteilung die Anordnung b b a a a b a, die mit einem b-Run der Länge 2
besitzt Xk unter einem Laplace-Modell? beginnt. Danach folgen ein a-Run der Länge 3 und jeweils ein b-
und ein a-Run der Länge 1. Es mögen nun allgemein
 m Symbole
2.26 Drei Personen A, B, C spielen Skat. Berechnen a und n Symbole b vorliegen, wobei alle mCn
m
Anordnungen im
Sie unter einem Laplace-Modell die Wahrscheinlichkeiten Sinne von Auswahlen von m der m C n Komponenten in einem
a) Person A erhält alle vier Buben, Tupel für die a’s (die übrigen Komponenten sind dann die b’s)
b) irgendeine Person erhält alle Buben, gleich wahrscheinlich seien. Die Zufallsvariable X bezeichne
c) Person A erhält mindestens ein Ass, die Gesamtanzahl der Runs. Zeigen Sie:
d) es liegen ein Bube und ein Ass im Skat.  n1
2 m1
P .X D 2s/ D s1 mCns1 ; 1  s  min.m; n/;
2.27 Eine Warenlieferung enthalte 20 intakte und 5 de- m
fekte Stücke. Wie groß ist die Wahrscheinlichkeit, dass eine n1m1   
C n1 m1
Stichprobe vom Umfang 5 P .X D 2s C 1/ D s s1
mCns1 s ;
m
a) genau zwei defekte Stücke enthält?
b) mindestens zwei defekte Stücke enthält? 1  s < min.m; n/.
Aufgaben 43

2.34 Es seien M1 eine k-elementige und M2 eine n-


elementige Menge, wobei n  k gelte. Wie viele surjektive
Abbildungen f W M1 ! M2 gibt es?

2.35 Es seien A1 ; : : : ; An die in (2.35) definierten Er-


eignisse. Zeigen Sie:

r  .r  1/
P .Ai \ Aj / D .1  i ¤ j  n/:
.r C s/  .r C s  1/

Kapitel 2
2.36 Es fallen rein zufällig der Reihe nach Teilchen
in eines von n Fächern. Die Zufallsvariable Xn bezeichne die
Anzahl der Teilchen, die nötig sind, damit zum ersten Mal ein
Teilchen in ein Fach fällt, das bereits belegt ist. Zeigen Sie:
 
a) 1  exp  k.k1/  P .Xn  k/,
2n
 
k.k1/
b) P .Xn  k/  1  exp  2.nkC1/ ,
c) für jedes t > 0 gilt
   2
Xn t
lim P p t D 1  exp  :
n!1 n 2
44 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge

Antworten zu den Selbstfragen

Antwort 1 Antwort 5 Da o.B.d.A. M1 D f1; : : : ; kg und M2 D f1; : : : ; ng


gesetzt werden kann, ist mit aj WD f .j / die Abbildung f durch
A D f.a1 ; : : : ; an / 2 ˝ j aj  5 für j D 1; : : : ; ng
die k-Permutation .a1 ; : : : ; ak / aus M2 gegeben.
D f.a1 ; : : : ; an / 2 ˝ j max aj  5g:
j D1;:::;n
Antwort 6 Denkt man sich die linke Seite in der Form
Kapitel 2

Antwort 2
D1 D AB c C c .D A \ B c \ C c /; .x C y/ .x C y/ : : : .x C y/ .n Faktoren/
D2 D ABC c C Ac BC C AB c C
ausgeschrieben, so entsteht beim Ausmultiplizieren das Produkt
. D A \ B \ C c C Ac \ B \ C C A \ B c \ C /: x k y nk immer dann, wenn
 aus genau k der n Klammern x ge-
wählt wurde. Da es nk Fälle gibt, eine derartige Auswahl zu
Man beachte, dass wir die oben eingeführte Summenschreib- treffen, folgt die Behauptung.
weise verwendet haben, weil die in der Darstellung für D2
auftretenden Ereignisse paarweise disjunkt sind.
Antwort 7 Jede der r C s Kugeln hat aus Symmetriegründen
Antwort 3 Diese Spezialfälle besagen, dass keines bzw. jedes die gleiche Chance, als j -te gezogen zu werden. Da es hierfür
der Ereignisse A1 ; : : : ; An eintritt. Es gelten r günstige unter insgesamt r C s möglichen Fällen gibt, folgt
P .Aj / D r=.r C s/. Für einen formalen Beweis besetzen wir
fX D 0g D Ac1 \ Ac2 \ : : : \ Acn ; zuerst die j -te Stelle des Tupels .a1 ; : : : ; an / (hierfür gibt es r D
fX D ng D A1 \ A2 \ : : : \ An : jRj Fälle) und danach alle anderen Stellen von links nach rechts.
Da man Letzteres auf .r C s  1/n1 Weisen bewerkstelligen
Antwort 4 Für endliche Summen reicht als Begründung, dass kann, folgt
die Addition kommutativ ist. Hiermit beweist man auch den
aus [1] bekannten Umordnungssatz für absolut konvergente Rei- jAj j D r  .r C s  1/n1 (2.43)
hen, der im Fall unendlich vieler Summanden die Begründung
liefert. und damit die Behauptung.
Bedingte Wahrscheinlichkeit
und Unabhängigkeit – 3
Meister Zufall hängt (oft) ab
Warum ist die erste
Pfadregel kein Satz?
Können Sie die
Bayes-Formel herleiten?
Wann sind n Ereignisse
stochastisch unabhängig?
Warum sind Funktionen

Kapitel 3
unabhängiger
Zufallsvariablen ebenfalls
unabhängig?
Wie lautet der Ergodensatz
für Markov-Ketten?

3.1 Modellierung mehrstufiger stochastischer Vorgänge . . . . . . . . . . . 46


3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Folgen unabhängiger Zufallsvariablen . . . . . . . . . . . . . . . . . . . 61
3.5 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 79

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 45


N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_3
46 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

In diesem Kapitel lernen wir mit den Begriffsbildungen bedingte Übergangswahrscheinlichkeiten und Startver-
Wahrscheinlichkeit und stochastische Unabhängigkeit zwei grund-
legende Konzepte der Stochastik kennen. Bedingte Wahrscheinlich-
teilung modellieren mehrstufige Experimente
keiten dienen in Form von Übergangswahrscheinlichkeiten insbe-
Eine Startverteilung ist eine Wahrscheinlichkeitsverteilung P1
sondere als Bausteine bei der Modellierung mehrstufiger stochas-
auf ˝1 . Sie beschreibt die Wahrscheinlichkeiten, mit denen
tischer Vorgänge über die erste Pfadregel. Mit der Formel von
die Ausgänge des ersten Teilexperiments auftreten. Wegen der
der totalen Wahrscheinlichkeit lassen sich die Wahrscheinlichkei-
Abzählbarkeit von ˝1 ist P1 schon durch die Startwahrschein-
ten komplizierter Ereignisse bestimmen, indem man eine Zerlegung
lichkeiten
nach sich paarweise ausschließenden Ereignissen durchführt und
eine gewichtete Summe von bedingten Wahrscheinlichkeiten be- p1 .a1 / WD P1 .fa1 g/; a1 2 ˝1 ;
rechnet. Die Bayes-Formel ist ein schlagkräftiges Mittel, um Wahr-
scheinlichkeitseinschätzungen unter dem Einfluss von zusätzlicher festgelegt. Diese erfüllen die Normierungsbedingung
Information neu zu bewerten. Stochastisch unabhängige Ereignisse X
üben wahrscheinlichkeitsheoretisch keinerlei Einfluss aufeinander p1 .a1 / D 1: (3.1)
aus. Der Begriff der stochastischen Unabhängigkeit lässt sich un- a1 2˝1
mittelbar auf Mengensysteme und damit auch auf Zufallsvariablen
mit allgemeinen Wertebereichen übertragen: Zufallsvariablen sind Meist geht man umgekehrt vor und gibt sich nichtnegative Wer-
unabhängig, wenn die durch sie beschreibbaren Ereignisse un- P p1 .a1 /, a1 2 ˝1 , mit (3.1) vor. Dann definiert P1 .A1 / WD
te
abhängig sind. Hinreichend reichhaltige Wahrscheinlichkeitsräume a1 2A1 p1 .a1 /, A1  ˝1 , eine Startverteilung.
enthalten eine ganze Folge unabhängiger Ereignisse mit vorgege- Eine Übergangswahrscheinlichkeit von ˝1 nach ˝2 ist eine
benen Wahrscheinlichkeiten. Markov-Ketten beschreiben stochasti- Funktion
Kapitel 3

sche Systeme, deren zukünftiges Verhalten nur vom gegenwärtigen


Zustand und nicht der Vergangenheit abhängt. Unter gewissen Vor- P1;2 W ˝1  P .˝2 / ! R0 (3.2)
aussetzungen strebt die Verteilung einer Markov-Kette exponentiell
schnell gegen eine eindeutig bestimmte stationäre Verteilung, die derart, dass P1;2.a1 ; / für jedes a1 2 ˝1 ein Wahrscheinlich-
das Langzeitverhalten der Markov-Kette charakterisiert. keitsmaß auf ˝2 ist. Wegen der Abzählbarkeit von ˝2 ist P1;2
bereits durch die Übergangswahrscheinlichkeiten
Die Abschnitte dieses Kapitels weisen einen sehr heterogenen ma-
thematischen Schwierigkeitsgrad auf. Ein unbedingtes „Muss“ sind p2 .a1 ; a2 / WD P1;2 .a1 ; fa2 g/; a2 2 ˝2 ;
die Abschn. 3.1 und 3.2. Für sie wie auch für den Abschnitt
über Markov-Ketten sind keinerlei Vorkenntnisse der Maß- und festgelegt. Letztere erfüllen die Normierungsbedingung
Integrationstheorie nötig. Gleiches gilt für den ersten Teil von X
Abschn. 3.3 über stochastische Unabhängigkeit von Ereignissen. p2 .a1 ; a2 / D 1; a1 2 ˝1 : (3.3)
Maßtheoretisch nicht vorgebildete Leser sollten auf jeden Fall die a2 2˝2

Unabhängigkeit von Mengensystemen sowie die charakterisierende


Auch hier gibt man meist Werte p2 .a1 ; a2 /  0 vor, die für je-
Gleichung (3.35) der Unabhängigkeit von Zufallsvariablen kennen-
des a1 Gleichung (3.3) genügen. Dann definiert P1;2 .a1 ; A2 / WD
P
lernen. Letztere Eigenschaft wird in den beiden folgenden Kapiteln
im Zusammenhang mit diskreten und stetigen Zufallsvariablen wie- a2 2A2 p2 .a1 ; a2 /, A2  ˝2 , für jedes a1 2 ˝1 ein Wahr-
scheinlichkeitsmaß über ˝2 .
der aufgegriffen.
Durch den Modellierungsansatz

3.1 Modellierung mehrstufiger p.!/ WD p1 .a1 /  p2 .a1 ; a2 /; ! D .a1 ; a2 / 2 ˝; (3.4)

stochastischer Vorgänge wird dann vermöge


X
Im Folgenden betrachten wir einen aus n Teilexperimenten P .A/ WD p.!/; A  ˝; (3.5)
(Stufen) bestehenden stochastischen Vorgang, der durch den !2A
Grundraum eine Wahrscheinlichkeitsverteilung P auf dem kartesischen Pro-
˝ WD ˝1  ˝2  : : :  ˝n dukt ˝ D ˝1  ˝2 definiert. Hierzu ist nur zu beachten, dass
wegen (3.1) und (3.3) die Normierungseigenschaft
D f! WD .a1 ; : : : ; an / j aj 2 ˝j für j D 1; : : : ; ng
X X X
modelliert wird. Dabei stehe ˝j für die Menge der möglichen p.!/ D p1 .a1 /  p2 .a1 ; a2 /
Ausgänge des j -ten Teilexperiments. Wir setzen in diesem Ab- !2˝ a1 2˝1 a2 2˝2
0 1
schnitt voraus, dass ˝1 ; : : : ; ˝n abzählbar sind. Damit ist auch X X
˝ abzählbar. D p1 .a1 /  @ p2 .a1 ; a2 /A
Die stochastische Dynamik eines mehrstufigen Vorgangs mo- a1 2˝1 a2 2˝2
X
delliert man mithilfe einer Startverteilung und Übergangswahr- D p1 .a1 / D 1
scheinlichkeiten. Der Übersichtlichkeit wegen betrachten wir a1 2˝1
zunächst den Fall n D 2. Der allgemeine Fall ergibt sich hieraus
durch Induktion. erfüllt ist.
3.1 Modellierung mehrstufiger stochastischer Vorgänge 47

Kommentar Die von relativen Häufigkeiten her motivierte Start


Definition (3.4) wird in der Schule als erste Pfadregel be-
2 3
zeichnet. Erwartet man bei einer oftmaligen Durchführung des 5 5
zweistufigen Experiments in etwa p1  100 Prozent aller Fälle
das Ergebnis a1 und in etwa p2 .a1 ; a2 /  100 Prozent die-
ser Fälle beim zweiten Teilexperiment das Ergebnis a2 , so 1 0
3 3 2 4
wird sich im Gesamtexperiment in etwa p1 .a1 /p2 .a1 ; a2 /  100 6 6 6 6
Prozent aller Fälle das Resultat .a1 ; a2 / einstellen. Insofern soll-
te bei adäquater Modellierung des ersten Teilexperiments mit
den Startwahrscheinlichkeiten p1 .a1 / und des Übergangs vom 1 0 1 0
ersten zum zweiten Teilexperiment mithilfe der von a1 abhän-
genden Übergangswahrscheinlichkeiten p2 .a1 ; a2 / der Ansatz 6 6 6 12
30 30 30 30
(3.4) ein passendes Modell für das zweistufige Experiment lie-
fern. In diesem Zusammenhang findet man in der Literatur auch Abb. 3.1 Baumdiagramm zum Pólyaschen Urnenmodell
den Begriff Kopplungspostulat; das Wahrscheinlichkeitsmaß
P wird dann als Kopplung von P1 und P1;2 bezeichnet. In der
Schule nennt man die Definition (3.5) als Berechnungsmethode Übergangswahrscheinlichkeiten zu den Ergebnissen der zwei-
für die Wahrscheinlichkeiten P .A/ häufig auch zweite Pfad- ten Stufe. Jedem Ergebnis des Gesamtexperiments entspricht im
regel. J Baumdiagramm ein vom Startpunkt ausgehender und entlang
der Pfeile verlaufender Pfad. Dabei stehen an den Pfadenden
die gemäß (3.4) gebildeten Wahrscheinlichkeiten.
Beispiel (Das Pólyasche Urnenmodell) Das folgende Ur-

Kapitel 3
nenschema wurde von dem Mathematiker George Pólya (1887– Für die Wahrscheinlichkeit des in (3.6) definierten Ereignisses
1985) als einfaches Modell vorgeschlagen, um die Ausbreitung B ergibt sich jetzt
ansteckender Krankheiten zu beschreiben: Ein Urne enthalte r
rote und s schwarze Kugeln. Es werde eine Kugel rein zufäl- P .B/ D P .f.1; 1/g/ C P .f.0; 1/g/
lig gezogen, deren Farbe notiert und anschließend diese sowie
r.r C c/ sr
c weitere Kugel derselben Farbe in die Urne gelegt. Nach gu- D C
tem Mischen wird wiederum eine Kugel gezogen. Mit welcher .r C s/.r C s C c/ .r C s/.r C s C c/
Wahrscheinlichkeit ist diese rot? r
D :
r Cs
Notieren wir das Ziehen einer roten oder schwarzen Kugel mit
1 bzw. 0, so ist ˝ WD ˝1  ˝2 mit ˝1 D ˝2 D f0; 1g ein Es ist also genauso wahrscheinlich (und kaum verwunderlich),
geeigneter Grundraum für dieses zweistufige Experiment. Dabei im ersten wie im zweiten Zug eine rote Kugel zu ziehen. Der Ur-
stellt sich das Ereignis die beim zweiten Mal gezogene Kugel ist neninhalt vor der zweiten Ziehung besteht ja (in Unkenntnis des
rot formal als Ergebnisses der ersten Ziehung!) aus den ursprünglich vorhan-
denen Kugeln sowie c zusätzlich in die Urne gelegten Kugeln.
B D f.1; 1/; .0; 1/g (3.6) Wird beim zweiten Zug eine der r C s zu Beginn vorhandenen
Kugeln gezogen, so ist die Wahrscheinlichkeit, eine rote Kugel
dar. Da zu Beginn r rote und s schwarze Kugeln vorhanden sind, zu ziehen, gleich r=.r C s/. Dies trifft aber auch zu, wenn eine
wählen wir als Startwahrscheinlichkeiten der c Zusatzkugeln gezogen wird. J
r s
p1 .1/ WD ; p1 .0/ WD : (3.7) Besitzt das Experiment mehr als zwei Stufen, so benötigt man
r Cs r Cs
neben den Startwahrscheinlichkeiten p1 .a1 / WD P1 .fa1 g/, a1 2
Erscheint beim ersten Zug eine rote Kugel, so enthält die Urne ˝1 , für jedes j D 2; : : : ; n eine Übergangswahrscheinlichkeit
vor der zweiten Ziehung r C c rote und s schwarze Kugeln, von ˝1  : : :  ˝j 1 nach ˝j . Diese ist eine Funktion
andernfalls sind es r rote und s C c schwarze Kugeln. Für die
Übergangswahrscheinlichkeiten p2 .i; j / (i; j 2 f0; 1g) machen P1;:::;j 1;j W ˝1  : : :  ˝j 1  P .˝j / ! R0
wir somit den Modellansatz
derart, dass für jede Wahl von a1 2 ˝1 ; : : : ; aj 1 2 ˝j 1 die
r Cc r
p2 .1; 1/ WD ; p2 .0; 1/ WD ; Zuordnung
r CsCc r CsCc
s sCc Aj 7! P1;:::;j 1;j .a1 ; : : : ; aj 1 ; A/; Aj  ˝j ;
p2 .1; 0/ WD ; p2 .0; 0/ WD :
r CsCc r CsCc
eine Wahrscheinlichkeitsverteilung auf ˝j ist. Letztere ist we-
Das nachstehende Baumdiagramm veranschaulicht diese Situa-
tion für den speziellen Fall r D 2, s D 3 und c D 1. Es gen der Abzählbarkeit von ˝j durch die sog. Übergangswahr-
zeigt an den vom Startpunkt ausgehenden Pfeilen die Wahr- scheinlichkeiten
scheinlichkeiten für die an den Pfeilenden notierten Ergebnisse
der ersten Stufe. Darunter finden sich die davon abhängenden pj .a1 ; : : : ; aj 1 ; aj / WD P1;:::;j 1;j .a1 ; : : : ; aj 1 ; faj g/ (3.8)
48 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

mit aj 2 ˝j eindeutig bestimmt. Diese genügen für jede Wahl und s C .j  1  `/  c schwarze Kugeln. Wir legen demnach
von a1 ; : : : ; aj 1 der Normierungsbedingung für ein Tupel .a1 ; : : : ; aj 1 / mit genau ` Einsen und j  1  `
Pj 1
X Nullen, d. h., D1 a D `, die Übergangswahrscheinlichkeiten
pj .a1 ; : : : ; aj 1 ; aj / D 1: (3.9) wie folgt fest:
aj 2˝j
r C`c
Wie oben wird man bei konkreten Modellierungen nichtne- pj .a1 ; : : : ; aj 1 ; 1/ WD ;
r C s C .j  1/  c
gative Zahlen pj .a1 ; : : : ; aj 1 ; aj / mit (3.9) vorgeben. Dann s C .j  1  `/  c
entsteht eine Übergangswahrscheinlichkeit P1;:::;j 1;j von ˝1  pj .a1 ; : : : ; aj 1 ; 0/ WD :
: : :  ˝j 1 nach ˝j , indem man für jede Wahl von a1 2 r C s C .j  1/  c
˝1 ; : : : ; aj 1 2 ˝j 1 die Festlegung
Wegen der Kommutativität der Multiplikation ist dann die ge-
X mäß der ersten Pfadregel (3.10) gebildete Wahrscheinlichkeit
P1;:::;j 1;j .a1 ; : : : ; aj 1 ; Aj / WD pj .a1 ; : : : ; aj 1 ; aj /; p.!/ für ein n-Tupel ! D .a1 ; : : : ; an / 2 ˝ mit genau k Einsen
aj 2Aj durch
Aj  ˝j , trifft. Qk1 Q
j D0 .rC jc/  jnk1
D0 .s C jc/
Die Modellierung der Wahrscheinlichkeit p.!/ für das Ergeb- p.!/ D Qn1 (3.12)
j D0 .r C s C jc/
nis ! D .a1 ; : : : ; an / des Gesamtexperiments erfolgt dann in
direkter Verallgemeinerung von (3.4) durch (k D 0; 1; : : : ; n) gegeben. Dabei sei wie üblich ein Produkt
Y
n über die leere Menge, also z. B. ein von j D 0 bis j D 1 lau-
Kapitel 3

p.!/ WD p1 .a1 /  pj .a1 ; : : : ; aj 1 ; aj /: (3.10) fendes Produkt, gleich eins gesetzt. Die Wahrscheinlichkeit für
j D2 das Auftreten eines Tupels .a1 ; : : : ; an / hängt also nur von der
Anzahl seiner Einsen, nicht aber von der Stellung dieser Einsen
Dass innerhalb des Tupels ab. Konsequenterweise sind die Ereignisse
P die so definierten Wahrscheinlichkeiten die Bedingung
!2˝ p.!/ D 1 erfüllen und somit das durch
X Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g; j D 1; : : : ; n;
P .A/ WD p.!/; A  ˝; (3.11)
!2A im j -ten Zug eine rote Kugel zu erhalten, nicht nur gleich wahr-
scheinlich, sondern sogar austauschbar, d. h., es gilt
definierte P eine Wahrscheinlichkeitsverteilung auf ˝ ist, folgt
wie im Fall n D 2, indem man bei der Summation der Produkte P .Ai1 \ : : : \ Aik / D P .A1 \ : : : \ Ak /
in (3.10) über ˝1  : : :  ˝n sukzessive die Gleichungen (3.9)
für j D n, j D n  1 usw. ausnutzt. für jedes k D 1; : : : ; n und jede Wahl von i1 ; : : : ; ik mit 1 
i1 < : : : < ik  n (siehe Aufgabe 3.26). Diese Austauschbar-
Beispiel (Das Pólyasche Urnenmodell, Fortsetzung) In keit zeigt auch, dass die Verteilung der mit
Verallgemeinerung des Pólyaschen Urnenschemas mit zwei-
maligem Ziehen wird n-mal rein zufällig nach jeweils gutem X WD 1fA1 g C : : : C 1fAn g
Mischen aus einer Urne mit anfänglich r roten und s schwarzen
Kugeln gezogen. Nach jedem Zug werden die gezogene Kugel bezeichneten Anzahl gezogener roter Kugeln durch
und c weitere Kugeln derselben Farbe in die Urne zurückge- ! Qk1 Q
legt. Dabei darf c auch negativ oder null sein. Dann werden n C jc/ jnk1
j D0 .r D0 .s C jc/
P .X D k/ D Qn1 (3.13)
der Urne nach Zurücklegen der gezogenen Kugel jcj Kugeln k j D0 .r C s C jc/
derselben Farbe entnommen. Der Urneninhalt muss hierfür nur
hinreichend groß sein. Der Fall c D 0 bedeutet Ziehen mit Zu- .k D 0; 1; : : : ; n/ gegeben
rücklegen.   ist, denn die Anzahl der n-Tupel mit
genau k Einsen ist ja nk .

Selbstfrage 1 Die Verteilung von X heißt Pólya-Verteilung mit Parametern


Was bedeutet hier „hinreichend groß“? n, r, s und c, und wir schreiben hierfür kurz

X Pol.n; r; s; c/:
Als Grundraum diene die Menge ˝ WD f0; 1gn der n-Tupel aus
Nullen und Einsen, wobei eine 1 bzw. 0 an der j -ten Stelle des Die Pólya-Verteilung enthält als Spezialfälle für c D 0 die
Tupels .a1 ; : : : ; an / 2 ˝ angibt, ob die im j -ten Zug erhaltene Binomialverteilung Bin.n; r=.r C s// und für c D 1 die hy-
Kugel rot oder schwarz ist. pergeometrische Verteilung Hyp.n; r; s/ (vgl. die Darstellung
(2.36)).
Zur Modellierung von p.!/, ! D .a1 ; : : : ; an /, wählen wir
die Startwahrscheinlichkeiten (3.7). Sind in den ersten j  1 Abb. 3.2 zeigt Stabdiagramme von Pólya-Verteilungen mit n D
Ziehungen insgesamt ` rote und j  1  ` schwarze Kugeln auf- 4, r D s D 1 und c D 0; 1; 2; 3. Man sieht, dass bei Vergröße-
getreten, so enthält die Urne vor der j -ten Ziehung r C `  c rote rung von c (plausiblerweise) die Wahrscheinlichkeiten für die
3.2 Bedingte Wahrscheinlichkeiten 49

(X = k), c=0 (X = k), c=1 p2 .j / D 1=6, also p.i; j / D 1=36 für i; j D 1; : : : ; 6.


0.4 0.4
Eine weitreichende Verallgemeinerung auf allgemeine Grund-
0.3 0.3 räume und abzählbar-unendliche Produkte findet sich in der
0.2 0.2 Hintergrund-und-Ausblick-Box über unendliche Produkträume
in Abschn. 3.4.
0.1 0.1

k k
0 1 2 3 4 0 1 2 3 4
3.2 Bedingte Wahrscheinlichkeiten
(X = k), c=2 (X = k), c=3 Wie schon im vorigen Abschnitt geht es auch jetzt um
0.4 0.4
Fragen der vernünftigen Verwertung von Teilinformationen
0.3 0.3 über stochastische Vorgänge. Diese Verarbeitung geschah in
0.2 0.2 Abschn. 3.1 mithilfe von Übergangswahrscheinlichkeiten. In
0.1 0.1 diesem Abschnitt lernen wir den zentralen Begriff der bedingten
Wahrscheinlichkeit kennen. Hierzu stellen wir uns ein wie-
k k derholt durchführbares Zufallsexperiment vor, das durch den
0 1 2 3 4 0 1 2 3 4
Wahrscheinlichkeitsraum .˝; A; P / beschrieben sei. Über den
Abb. 3.2 Stabdiagramme der Pólya-Verteilungen Pol.4; 1; 1; c/ mit Ausgang ! des Experiments sei nur bekannt, dass ein Ereignis
c D 0; 1; 2; 3 A 2 A eingetreten ist, also ! 2 A gilt. Diese Information wer-
de im Folgenden kurz die Bedingung A genannt. Ist B 2 A ein
Ereignis, so würden wir aufgrund dieser unvollständigen Infor-

Kapitel 3
extremen Fälle, nur rote oder schwarze Kugeln zu ziehen, zu- mation über ! gerne eine Wahrscheinlichkeit für das Eintreten
nehmen. Für c ! 1 gilt P .X D 0/ D P .X D 4/ ! 1=2, von B unter der Bedingung A festlegen. Im Gegensatz zu frühe-
siehe hierzu auch Aufgabe 3.5. J ren Überlegungen, bei denen Wahrscheinlichkeiten als Chancen
für das Eintreten von Ereignissen bei zukünftigen Experimen-
Ein wichtiger Spezialfall eines mehrstufigen Experiments ent- ten gedeutet wurden, stellt sich hier das Problem, die Aussicht
steht, wenn die n Teilexperimente unbeeinflusst voneinander auf das Eintreten von B nach Durchführung eines Zufallsexpe-
ablaufen, also für jedes j 2 f2; : : : ; ng das j -te Teilexperi- riments zu bewerten.
ment ohne Kenntnis der Ergebnisse a1 ; : : : ; aj 1 der früheren
j  1 Teilexperimente räumlich oder zeitlich getrennt von al- Welche Eigenschaften sollte eine mit P .BjA/ bezeichnete und
len anderen Teilexperimenten durchgeführt werden kann. Ein geeignet zu definierende bedingte Wahrscheinlichkeit von B
alternativer Gedanke ist, dass die n Teilexperimente gleichzeitig unter der Bedingung A besitzen? Natürlich sollte P .BjA/ die
durchgeführt werden. In diesem Fall hängen die Übergangs- Ungleichungen 0  P .BjA/  1 erfüllen. Weitere natürliche
wahrscheinlichkeiten in (3.8) nicht von a1 ; : : : ; aj 1 ab, sodass Eigenschaften wären
wir
P .BjA/ D 1; falls A  B; (3.16)
pj .aj / WD pj .a1 ; : : : ; aj 1 ; aj / (3.14)
und
(a1 2 ˝1 ; : : : ; aj 2 ˝j ) setzen können. Dabei definiert pj .:/
über die Festsetzung P .BjA/ D 0; falls B \ A D ;: (3.17)
X
Pj .Aj / WD pj .aj /; Aj  ˝j ; Die erste Gleichung sollte gelten, da die Inklusion A  B unter
aj 2Aj der Bedingung A das Eintreten von B nach sich zieht. (3.17) ist
ebenfalls klar, weil im Fall A \ B D ; das Eintreten von A das
eine Wahrscheinlichkeitsverteilung Pj auf ˝j . Eintreten von B ausschließt.

Weil mit (3.14) der Ansatz (3.10) die Produktgestalt Natürlich stellen (3.16) und (3.17) extreme Situationen dar. All-
gemein müssen wir mit den Möglichkeiten P .BjA/ > P .B/,
p.!/ WD p1 .a1 /p2 .a2 / : : : pn .an / (3.15) P .BjA/ < P .B/ und P .BjA/ D P .B/ rechnen. In den ers-
ten beiden Fällen begünstigt bzw. beeinträchtigt das Eintreten
annimmt, nennen wir solche mehrstufigen Experimente auch von A die Aussicht auf das Eintreten von B. Im letzten Fall ist
Produktexperimente. die Aussicht auf das Eintreten von B unabhängig vom Eintreten
von A.
Insbesondere erhält man im Fall ˝1 D : : : D ˝n und
p1 .:/ D : : : D pn .:/ ein stochastisches Modell für die n-
malige unabhängige wiederholte Durchführung eines durch die Beispiel In der Situation des Pólya-Urnenschemas seien
Grundmenge ˝1 und die Startverteilung P1 modellierten Zu- A WD f.1; 0/; .1; 1/g und B WD f.0; 1/; .1; 1/g die Ereignisse,
fallsexperiments. Dieses Modell ist uns schon in Spezialfällen beim ersten bzw. zweiten Zug eine rote Kugel zu erhalten. Un-
wie etwa dem Laplace-Ansatz für den zweifachen Würfelwurf ter der Bedingung A enthält die Urne vor dem zweiten Zug r Cc
begegnet. Hier gelten ˝1 D ˝2 D f1; 2; 3; 4; 5; 6g, p1 .i/ D rote und insgesamt r Cs Cc Kugeln. Wir würden also in diesem
50 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

konkreten Fall die bedingte Wahrscheinlichkeit von B unter der p(ω) pA (ω)
Bedingung A zu
r Cc 0.4 0.4
P .BjA/ WD
r CsCc
ansetzen. Diese Festlegung ist aber identisch mit derjenigen 0.2 0.2
für die Übergangswahrscheinlichkeit p2 .1; 1/. Nachdem wir
bedingte Wahrscheinlichkeiten formal definiert haben, werden
0 0
wir sehen, dass Übergangswahrscheinlichkeiten immer als be- ω ω
dingte Wahrscheinlichkeiten interpretiert werden können. Man A A
beachte, dass im vorliegenden Beispiel P .BjA/ > P .A/ gleich-
bedeutend mit c > 0 und die umgekehrte Ungleichung „<“ zu Abb. 3.3 Übergang zur bedingten Verteilung
c < 0 äquivalent ist. Der Fall c D 0, also Ziehen mit Zurückle-
gen, lässt das Eintreten oder Nichteintreten von A die Aussicht
auf das Eintreten von B unverändert. In diesem Fall sind die Er- Selbstfrage 2
eignisse in einem im nächsten Abschnitt zu präzisierenden Sinn Warum ist PA ein Wahrscheinlichkeitsmaß?
stochastisch unabhängig. J

Um die Definition von P .BjA/ anhand relativer Häufigkeiten Kommentar Aus der Definition von P .BjA/ folgt unmit-
zu motivieren, mögen in n gleichartigen und unbeeinflusst von- telbar, dass die von einem heuristischen Standpunkt aus wün-
einander ablaufenden Versuchen hn .A/ mal das Ereignis A und schenswerten Eigenschaften (3.16) und (3.17) erfüllt sind. Man
Kapitel 3

hn .A\B/ mal sowohl A als auch B eingetreten sein. Unter allen beachte, dass die bedingte Verteilung PA wegen PA .A/ D 1
Versuchen, bei denen A eintritt, zählt hn .A \ B/ somit diejeni- ganz auf dem bedingenden Ereignis A konzentriert ist. Für den
gen, bei denen sich auch noch B ereignet. Um die Aussicht auf Spezialfall eines diskreten Wahrscheinlichkeitsraumes, in dem
das Eintreten von B unter der Bedingung A zu bewerten, liegt P durch die Wahrscheinlichkeiten p.!/ WD P .f!g/, ! 2 ˝,
es nahe, bei positivem Nenner den Quotienten festgelegt ist, ist die bedingte Verteilung PA durch die Wahr-
hn .A \ B/ scheinlichkeiten
rn .BjA/ WD (
hn .A/ p.!/
; falls ! 2 A;
als empirisch gestützte Chance für das Eintreten von B unter pA .!/ WD PA .f!g/ D P .A/ (3.19)
0; sonst
der Bedingung A anzusehen. Teilt man hier Zähler und Nenner
durch n, so ergibt sich die Darstellung (! 2 ˝) eindeutig bestimmt. In diesem Fall erhält beim
rn .B \ A/ Übergang von P zur bedingten Verteilung PA jedes Elemen-
rn .BjA/ D tarereignis f!g mit ! 62 A die Wahrscheinlichkeit 0, und die
rn .A/
ursprünglichen Wahrscheinlichkeiten p.!/ der in A liegenden
als Quotient zweier relativer Häufigkeiten. Da sich nach dem Elementarereignisse werden jeweils um den gleichen Faktor
empirischen Gesetz über die Stabilisierung relativer Häufigkei- P .A/1 vergrößert, siehe Abb. 3.3. J
ten (vgl. die Diskussion in Abschn. 2.3) rn .B \A/ und rn .A/ bei
wachsendem n den „richtigen Modell-Wahrscheinlichkeiten“
P .B \ A/ bzw. P .A/ annähern sollten, ist die nachfolgende De-
finition kaum verwunderlich. Übergangswahrscheinlichkeiten sind bedingte
Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit, bedingte Verteilung Multipliziert man die P .BjA/ definierende Gleichung mit
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und P .A/, so ergibt sich die im Hinblick auf Anwendungen wich-
A 2 A ein Ereignis mit P .A/ > 0. Dann heißt tige Identität

P .B \ A/ P .B \ A/ D P .A/  P .BjA/: (3.20)


P .BjA/ WD ; B 2 A;
P .A/
Meist wird nämlich nicht P .BjA/ aus P .A/ und P .B \ A/ be-
die bedingte Wahrscheinlichkeit von B unter der Bedin- rechnet, sondern P .B \A/ aus P .A/ und P .BjA/ gemäß (3.20).
gung A. Die Standardsituation hierfür ist ein zweistufiges Experiment,
Das durch bei dem A bzw. B einen Ausgang des ersten bzw. zweiten Teil-
experiments beschreiben. Formal ist hier
PA .B/ WD P .BjA/; B 2 A; (3.18)
˝ D ˝1  ˝2 ; A D fa1 g  ˝2 ; B D ˝1  fa2 g; (3.21)
definierte Wahrscheinlichkeitsmaß auf A heißt bedingte
Verteilung von P unter der Bedingung A. wobei a1 2 ˝1 ; a2 2 ˝2 . Mit ! WD .a1 ; a2 / gilt dann
B \ A D f!g. Gibt man sich Startwahrscheinlichkeiten p1 .a1 /
3.2 Bedingte Wahrscheinlichkeiten 51

und Übergangswahrscheinlichkeiten p2 .a1 ; a2 / vor und kon- Beweis Die Behauptung folgt wegen
struiert hieraus das Wahrscheinlichkeitsmaß P auf ˝ mithilfe 0 1
von (3.4) und (3.5), so stellt (3.20) die erste Pfadregel (3.4) dar. X X
Wir sehen also, dass Übergangswahrscheinlichkeiten in gekop- B D˝ \B D@ Aj A \ B D Aj \ B
pelten Experimenten bedingte Wahrscheinlichkeiten sind und j 1 j 1
dass bedingte Wahrscheinlichkeiten als Bausteine für die Mo-
dellierung stochastischer Vorgänge dienen. aus der -Additivität von P und der Definition von P .BjAj /.

Achtung Bei der bedingten Wahrscheinlichkeit P .BjA/
steht das „bedingende Ereignis“ A durch den „Bedingungs- Bayes-Formel
strich“ j getrennt hinter dem Ereignis B, bei den Übergangs-
wahrscheinlichkeiten p2 .a1 ; a2 / ist es umgekehrt. Hier steht der In der obigen Situation gilt für jedes B 2 A mit P .B/ > 0
„bedingende Zustand“ a1 vor dem Zustand a2 des zweiten Teil- die nach Thomas Bayes (1702–1761) benannte Formel
experiments. In der Situation von (3.21) gilt also p.a1 ; a2 / D
P .BjA/. J P .Ak /  P .BjAk /
P .Ak jB/ D P ; k  1:
j 1 P .Aj /  P .BjAj /
Eine direkte Verallgemeinerung von (3.20) ist die induktiv ein-
zusehende allgemeine Multiplikationsregel

Y
n Beweis Nach der Formel von der totalen Wahrscheinlichkeit
P .A1 \ : : : \ An / D P .A1 / P .Aj jA1 \ : : : \ Aj 1 / sind der Nenner gleich P .B/ und der Zähler gleich P .B \ Ak /.

Kapitel 3
j D2 
(3.22)
Obwohl die Formel von der totalen Wahrscheinlichkeit und die
für n Ereignisse A1 ; : : : ; An , wobei P .A1 \ : : : \ An1 / > Bayes-Formel aus mathematischer Sicht einfach sind, ist ihre
0. Letztere Bedingung stellt sicher, dass alle auftretenden be- Bedeutung sowohl für die Behandlung theoretischer Probleme
dingten Wahrscheinlichkeiten definiert sind. Der Hauptanwen- als auch im Hinblick auf Anwendungen immens. Erstere For-
dungsfall hierfür ist ein n-stufiges Experiment mit gegebener mel kommt immer dann zum Einsatz, wenn zur Bestimmung
Startverteilung und gegebenen Übergangswahrscheinlichkeiten der Wahrscheinlichkeit eines „komplizierten“ Ereignisses B ei-
(vgl. (3.8)), wobei ne Fallunterscheidung weiterhilft. Diese Fälle sind durch die
paarweise disjunkten Ereignisse A1 ; A2 ; : : : einer Zerlegung des
Aj D ˝1  : : :  ˝j 1  faj g  ˝j C1  : : :  ˝n Grundraums ˝ gegeben. Kennt man die Wahrscheinlichkeiten
der Aj und – aufgrund der Rahmenbedingungen des stochas-
das Ereignis bezeichnet, dass beim j -ten Teilexperiment das Er- tischen Vorgangs – die bedingten Wahrscheinlichkeiten von B
gebnis aj auftritt (j D 1; : : : ; n; aj 2 ˝j ). Definieren wir P unter diesen Fällen, so ergibt sich P .B/ als eine mit den Wahr-
über (3.11) und (3.10), so stimmt die bedingte Wahrscheinlich- scheinlichkeiten der Aj gewichtete Summe dieser bedingten
keit P .Aj jA1 \ : : : \ Aj 1 / mit der in (3.8) angegebenen Über- Wahrscheinlichkeiten. Ein Beispiel hierfür ist ein zweistufiges
gangswahrscheinlichkeit pj .a1 ; : : : ; aj 1 ; aj / überein, und die Experiment, bei dem das Ereignis Aj D fej g  ˝2 einen
Multiplikationsregel ist nichts anderes als die erste Pfadregel Ausgang ej des ersten Teilexperiments beschreibt und sich das
(3.10). Ereignis B D ˝1  fbg auf ein Ergebnis b des zweiten Teilex-
periments bezieht. Nach früher angestellten Überlegungen gilt
P .Aj / D p1 .ej / sowie P .BjAj / D p2 .ej ; b/. Wegen
Die Formel von der totalen Wahrscheinlichkeit X X
P .B/ D p1 .a1 /p2 .a1 ; a2 / D p1 .ej /p2 .ej ; b/
unterscheidet Fälle, die Bayes-Formel j 1
.a1 ;a2 /2˝1 fbg
aktualisiert Wahrscheinlichkeiten
geht die Formel von der totalen Wahrscheinlichkeit in diesem
Fall in die zweite Pfadregel über.
Formel von der totalen Wahrscheinlichkeit
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und Beispiel Gegeben seien 3 Urnen U1 ; U2 ; U3 . Urne Uj enthalte
A1 ; A2 ; : : : endlich oder abzählbar-unendlich
P viele paar- j  1 rote und 3  j schwarze Kugeln. Es wird eine Urne rein
weise disjunkte Ereignisse mit j 1 Aj D ˝ sowie zufällig ausgewählt und dann aus dieser Urne rein zufällig zwei
P .Aj / > 0, j  1. Dann gilt für jedes B 2 A: Kugeln mit Zurücklegen gezogen. Mit welcher Wahrscheinlich-
keit sind beide Kugeln rot?
X
P .B/ D P .Aj /  P .BjAj /: Bezeichnen Aj das Ereignis, dass Urne j ausgewählt wird
j 1 (j D 1; 2; 3) und B das Ereignis, dass beide gezogenen Kugeln
rot sind, so gilt aufgrund der Aufgabenstellung P .Aj / D 1=3
52 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

(j D 1; 2; 3) sowie P .BjA1/ D 0, P .BjA2/ D 1=4 und für k D 3 gegen eins. Das gleiche asymptotische Verhalten wür-
P .BjA3/ D 1. Nach der Formel von der totalen Wahrschein- de man für jede andere Wahl der A-priori-Wahrscheinlichkeiten
lichkeit folgt   P .Aj / (j D 0; 1; 2; 3) erhalten (Aufgabe 3.9). Unter dem
1 1 5 Eindruck objektiver Daten gleichen sich also u. U. zunächst
P .B/ D  0 C C 1 D :
3 4 12 sehr unterschiedliche, z. B. von verschiedenen Personen vorge-
nommene, A-priori-Bewertungen als A-posteriori-Bewertungen
Als formaler Grundraum für diesen zweistufigen stochastischen immer weiter an – was sie bei lernfähigen Individuen auch soll-
Vorgang kann ˝ D f.j ; k/ j j D 1; 2; 3I k D 0; 1; 2g gewählt ten. J
werden. Dabei geben j die Nummer der ausgewählten Urne und
k die Anzahl der gezogenen roten Kugeln an. In diesem Raum
Beispiel (Zur Interpretation der Ergebnisse medizini-
ist Aj D f.j ; k/ j k D 0; 1; 2g und B D f.j ; 2/ j j D 1; 2; 3g.
scher Tests) Bei medizinischen Tests zur Erkennung von
J
Krankheiten sind falsch positive und falsch negative Befunde
unvermeidlich. Erstere diagnostizieren das Vorliegen der Krank-
Die Bayes-Formel erfährt eine interessante Deutung, wenn die
heit bei einer gesunden Person, bei letzteren wird eine kranke
Ereignisse A1 ; A2 ; : : : als Ursachen oder Hypothesen für das
Person als gesund angesehen. Unter der Sensitivität bzw. Spe-
Eintreten des Ereignisses B angesehen werden. Ordnet man den
zifität des Tests versteht man die mit pse bzw. psp bezeichneten
Aj vor der Beobachtung eines stochastischen Vorgangs gewis-
Wahrscheinlichkeiten, dass eine kranke Person als krank bzw.
se Wahrscheinlichkeiten P .Aj / zu, so nennt man P .Aj / die
eine gesunde Person als gesund erkannt wird. Für Standard-
A-priori-Wahrscheinlichkeit für Aj . Mangels genaueren Wis-
tests gibt es hierfür verlässliche Schätzwerte. So besitzt etwa der
sens über die Hypothesen Aj werden letztere häufig als gleich
ELISA-Test zur Erkennung von Antikörpern gegen das HI-Virus
wahrscheinlich angenommen (dies ist natürlich nur bei endlich
eine Sensitivität von 0:999 und eine Spezifität von 0:998.
vielen Aj möglich). Das Ereignis B trete mit der bedingten
Kapitel 3

Wahrscheinlichkeit P .BjAj / ein, falls Aj eintritt, d. h. Hypothe- Nehmen wir an, eine Person habe sich einem Test auf Vorlie-
se Aj zutrifft. Beobachtet man nun das Ereignis B, so ist die „in- gen einer bestimmten Krankheit unterzogen und einen positiven
verse“ bedingte Wahrscheinlichkeit P .Aj jB/ die A-posteriori- Befund erhalten. Mit welcher Wahrscheinlichkeit ist sie wirk-
Wahrscheinlichkeit dafür, dass Aj Ursache von B ist. Es liegt lich krank? Die Antwort auf diese Frage hängt von der mit
somit nahe, daraufhin die A-priori-Wahrscheinlichkeiten zu ak- q bezeichneten A-priori-Wahrscheinlichkeit der Person ab, die
tualisieren und den Hypothesen Aj gegebenenfalls andere, näm- Krankheit zu besitzen. Bezeichnen K das Ereignis, krank zu
lich die A-posteriori-Wahrscheinlichkeiten zuzuordnen. Unter sein, sowie und ˚ die Ereignisse, ein negatives bzw. ein
dem Einfluss weiterer Daten (Beobachtungen) erfolgt dann wie- positives Testergebnis zu erhalten, so führen die Voraussetzun-
derum eine Aktualisierung der A-priori-Wahrscheinlichkeiten gen zu den Modellannahmen P .K/ D q, P .˚jK/ D pse und
usw. Dieses Paradigma liegt z. B. dem maschinellen Lernen zu- P . jK c / D psp . Nach der Bayes-Formel folgt
grunde. Wie auch die nachstehende klassische Fragestellung
von Laplace aus dem Jahr 1783 zeigt, löst die Bayes-Formel P .K/P .˚jK/
P .Kj˚/ D
somit das Problem der Veränderung von Wahrscheinlichkeiten P .K/P .˚jK/ C P .K c /P .˚jK c /
unter dem Einfluss von Information.
und somit wegen P .K c / D 1  q und P .˚jK c / D 1  psp

Beispiel (Laplace, 1783) Eine Urne enthalte drei Kugeln, q pse


P .Kj˚/ D : (3.23)
wobei jede Kugel entweder rot oder schwarz ist. Das Mi- q tpse C .1  q/ .1  psp /
schungsverhältnis von Rot zu Schwarz sei unbekannt. Es wird n-
mal rein zufällig mit Zurücklegen eine Kugel gezogen und jedes Abb. 3.4 zeigt die Abhängigkeit dieser Wahrscheinlichkeit als
Mal eine rote Kugel beobachtet. Wie groß sind die A-posteriori- Funktion des logarithmisch aufgetragenen Wertes q für den
Wahrscheinlichkeiten für die einzelnen Mischungsverhältnisse, ELISA-Test. Interessanterweise beträgt die Wahrscheinlichkeit
wenn diese a priori gleich wahrscheinlich waren?
Es seien Aj das Ereignis, dass die Urne j rote Kugeln enthält
(j D 0; 1; 2; 3), und B das Ereignis, dass man n-mal hinterein- 1.0
ander eine rote Kugel zieht. Es gilt 0.8
 n
j
P .BjAj / D ; j D 0; 1; 2; 3: 0.6
3
0.4
Unter der Gleichverteilungsannahme P .Aj / D 1=4 (j D
0; 1; 2; 3) folgt nach der Bayes-Formel 0.2
 k n
P .Ak /  P .BjAk / 0 q
P .Ak jB/ D P3 D  1 n 3 2 n : 0.0001 0.001 0.01 0.1
j D0 P .A j /  P .BjAj / 3
C 3 C1
Abb. 3.4 Wahrscheinlichkeit für eine HIV-Infektion bei posi-
Für n ! 1 konvergieren (plausiblerweise) die A-posteriori- tivem ELISA-Test in Abhängigkeit vom subjektiven A-priori-
Wahrscheinlichkeiten P .Ak jB/ für k D 0; 1; 2 gegen null und Krankheitsrisiko
3.2 Bedingte Wahrscheinlichkeiten 53

Unter der Lupe: Das Simpson-Paradoxon

Teilgesamtheiten können sich im Gleichschritt konträr zur Es seien .˝; A; P / ein Wahrscheinlichkeitsraum,
Gesamtheit verhalten K1 ; : : : ; Kn paarweise disjunkte Ereignisse mit ˝ D
K1 C: : :CKn sowie A und B Ereignisse mit P .A\Kj / > 0,
Können Sie sich vorstellen, dass eine Universität Männer
P .Ac \ Kj / > 0 für jedes j D 1; : : : ; n. Das Simpson-
so eklatant benachteiligt, dass sie von 1 000 Bewerbern nur
Paradoxon liegt vor, wenn neben den für jedes j D 1; : : : ; n
420 aufnimmt, aber 74 Prozent aller Bewerberinnen zulässt?
geltenden Ungleichungen
Würden Sie glauben, dass diese Universität in jedem ein-
zelnen Fach Männer den Vorzug gegenüber Frauen gibt?
Dass dies möglich ist und in abgeschwächter Form an der P .BjA \ Kj / > P .BjAc \ Kj / (3.24)
Universität Berkeley, Kalifornien, unter Vertauschung der
Geschlechter auch wirklich auftrat (siehe [3]), zeigen nach- „paradoxerweise“ die umgekehrte Ungleichung
stehende fiktive Daten. Dabei wurden der Einfachheit halber
nur zwei Fächer angenommen.
P .BjA/ < P .BjAc / (3.25)
Frauen Männer
Bewerberinnen
zugelassen Bewerber zugelassen erfüllt ist.
Fach 1 900 720 200 180
Berechnet man die bedingten Wahrscheinlichkeiten
Fach 2 100 20 800 240
PA .B/ D P .BjA/ und PAc .B/ D P .BjAc / mithilfe der

Kapitel 3
Summe 1 000 740 1 000 420
Formel von der totalen Wahrscheinlichkeit, so folgt

Offenbar wurden für Fach 1 zwar 80 % der Frauen, aber 90 % X


n

aller Männer zugelassen. Auch im zweiten Fach wurden die P .BjA/ D P .Kj jA/P .BjA \ Kj /; (3.26)
Männer mitnichten benachteiligt, denn ihre Zulassungsquote j D1

ist mit 30 % um 10 % höher als die der Frauen. Eine Erklä- X


n

rung für diesen zunächst verwirrenden Sachverhalt liefern P .BjAc / D P .Kj jAc /P .BjAc \ Kj /: (3.27)
die Darstellungen j D1

0:74 D 0:9  0:8 C 0:1  0:2; 0:42 D 0:2  0:9 C 0:8  0:3 Da die bedingten Wahrscheinlichkeiten P .Kj jA/ in (3.26)
der globalen Zulassungsquoten als gewichtete Mittel der gerade für diejenigen j klein sein können, für die P .BjA \
Zulassungsquoten in den einzelnen Fächern. Obwohl die Kj / groß ist und umgekehrt sowie in gleicher Weise
Quoten der Männer in jedem Fach diejenige der Frauen über- P .Kj jAc / in (3.27) gerade für diejenigen j groß sein kann,
treffen, erscheint die Universität aufgrund der bei Frauen und für die P .BjAc \ Kj / groß ist (ohne natürlich (3.24) zu
Männern völlig unterschiedlichen Gewichtung dieser Quo- verletzen), ist es mathematisch banal, dass das Simpson-
ten auf den ersten Blick männerfeindlich. Die Männer haben Paradoxon auftreten kann.
sich eben überwiegend in dem Fach beworben, in dem eine
Im fiktiven Beispiel der vermeintlich männerfeindlichen
Zulassung sehr schwer zu erlangen war.
Universität ist n D 2, und die Ereignisse K1 und K2 stehen
Hinter diesem konstruierten Beispiel steckt ein allgemei- für eine Bewerbung in Fach 1 bzw. Fach 2. Weiter bezeichnet
nes, als Simpson-Paradoxon bekanntes Phänomen (benannt B (bzw. A) das Ereignis, dass eine aus allen 2 000 Bewerbern
nach dem britischen Statistiker Edward Hugh Simpson rein zufällig herausgegriffene Person zugelassen wird (bzw.
(1922–2019)). Dieses Paradoxon kann wie folgt mithilfe be- männlich ist). Die in der Überschrift genannten Teilgesamt-
dingter Wahrscheinlichkeiten formuliert werden: heiten sind die Bewerber(innen) für die beiden Fächer.

für eine HIV-Infektion bei positivem Befund im Fall q D 0:001 nur etwa ein Drittel wirklich infiziert. Diese einfache Überle-
nur etwa 1/3. Dieses Ergebnis erschließt sich leicht, wenn man gung entspricht Formel (3.23), wenn man Zähler und Nenner
gedanklich eine Million Personen dem Test unterzieht. Wenn mit der Anzahl der getesteten Personen, also im obigen Fall mit
von diesen (gemäß q D 0:001) 1 000 infiziert und 999 000 1 000 000, multipliziert.
gesund sind, so würden von den Infizierten fast alle positiv ge-
testet, wegen psp D 0:998 aber auch (und das ist der springende Bzgl. einer Verallgemeinerung von Formel (3.23) für den Fall,
Punkt!) etwa 2 Promille der Gesunden, also etwa 2 000 Perso- dass die wiederholte Durchführung des ELISA-Tests bei einer
nen. Von insgesamt ca. 3 000 positiv Getesteten ist dann aber Person ein positives Resultat ergibt, siehe Übungsaufgabe 3.16.
J
54 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Tab. 3.1 Auszug der Sterbetafel 2001/2003 für Deutschland (Quelle: und somit P .AxC2 jAx / D px  pxC1 : Induktiv folgt dann
Statistisches Bundesamt 2004)
Vollendetes Sterbewahrsch. Überlebenswahrsch. Lebende P .AxCk jAx / D px  pxC1  : : :  pxCk1 ; k D 1; 2; : : :
Alter in Œx; x C 1/ in Œx; x C 1/ im Alter x
x qx px `x Die Wahrscheinlichkeit, dass ein 60-Jähriger seinen 65. Ge-
0 0.00465517 0.99534483 100 000
burtstag erlebt, ist folglich nach Tab. 3.1
1 0.00042053 0.99957947 99 534
P .A65 jA60 / D p60  p61  p62  p63  p64 0:933:
2 0.00023474 0.99976526 99 493
3 0.00021259 0.99978741 99 469 Mit knapp 7-prozentiger Wahrscheinlichkeit stirbt er also vor
:: :: :: ::
: : : : Vollendung seines 65. Lebensjahres. J
58 0.00982465 0.99017535 89 296
59 0.01072868 0.98927132 88 419
60 0.01135155 0.98864845 87 470 3.3 Stochastische Unabhängigkeit
61 0.01249053 0.98750947 86 477
In diesem Abschnitt steht die stochastische Unabhängigkeit als
62 0.01366138 0.98633862 85 397
eine weitere zentrale Begriffsbildung der Stochastik im Mit-
63 0.01493241 0.98506759 84 230
telpunkt. Die Schwierigkeiten im Umgang mit diesem Begriff
64 0.01627038 0.98372962 82 973
erkennt man schon daran, dass man gemeinhin (fälschlicher-
65 0.01792997 0.98207003 81 623 weise) einem Ereignis eine umso höhere Wahrscheinlichkeit
66 0.01993987 0.98006013 80 159 zubilligen würde, je länger es nicht eingetreten ist. Dies gilt etwa
:: :: :: ::
Kapitel 3

: : : : beim oft allzu langen Warten auf die erste Sechs beim wieder-
holten Würfelwurf oder beim Warten auf das Auftreten von Rot
beim Roulette-Spiel, wenn einige Male Schwarz in Folge aufge-
Beispiel (Sterbetafeln) Sterbetafeln geben für jedes er- treten ist.
reichte Lebensalter x (in Jahren) an, mit welcher Wahrschein-
lichkeit eine Person einer wohldefinierten Gruppe das Alter Video 3.1 Stochastische Unabhängigkeit I
x C 1 erreicht. Derartige Tafeln sind somit für die Prämien-
kalkulation von Lebens- und Rentenversicherungen von großer
Bedeutung.
Tab. 3.1 zeigt einen Auszug aus der vom Statistischen Bundes-
amt herausgegebenen und laufend aktualisierten Sterbetafel für
Männer. Die Wahrscheinlichkeit einer x-jährigen Person, vor
Erreichen des Alters x C 1 und somit innerhalb des nächsten Im Folgenden sei .˝; A; P / ein fester Wahrscheinlichkeits-
Jahres zu sterben, wird als Sterbewahrscheinlichkeit qx be- raum. Sind A; B 2 A Ereignisse mit P .A/ > 0, so haben wir
zeichnet. Die Größe px WD 1  qx ist dann die entsprechende die bedingte Wahrscheinlichkeit von B unter der Bedingung A
Überlebenswahrscheinlichkeit, also die Wahrscheinlichkeit, als den Quotienten P .BjA/ D P .A \ B/=P .A/ definiert. Für
als x-jährige Person auch das Alter x C 1 zu erreichen. Ne- den Fall, dass P .BjA/ gleich der (unbedingten) Wahrschein-
ben diesen Wahrscheinlichkeiten zeigt Tab. 3.1 auch für jedes lichkeit P .B/ ist, gilt
Alter x die Anzahl `x der dann noch lebenden männlichen Per-
sonen. Dabei geht man wie üblich von einer sog. Kohorte von P .A \ B/ D P .A/ P .B/: (3.28)
`0 WD 100 000 neugeborenen Personen aus. Zwischen `x und
px besteht der Zusammenhang px D `xC1 =`x . Die Ereignisse sind demnach im Sinne der folgenden allgemei-
nen Definition stochastisch unabhängig.
Vom stochastischen Standpunkt aus sind die Einträge px und qx
in Tab. 3.1 bedingte Wahrscheinlichkeiten. Ist Ax das Ereignis,
dass eine rein zufällig aus der Kohorte herausgegriffene Person Stochastische Unabhängigkeit von Ereignissen
das Alter x erreicht, so gelten
Ereignisse A1 ; : : : ; An , n  2, in einem Wahrscheinlich-
px D P .AxC1 jAx /; qx D P .AcxC1 jAx /: keitsraum .˝; A; P / heißen (stochastisch) unabhängig,
falls gilt:
Da für jedes x  1 aus dem Ereignis AxC1 das Ereignis Ax
0 1
folgt, also AxC1  Ax und somit AxC1 \ Ax D AxC1 gilt, ergibt
\ Y
sich nach der allgemeinen Multiplikationsregel (3.22) P@ Aj A D P .Aj /
P .AxC2 \ AxC1 \ Ax / j 2T j 2T
P .AxC2 jAx / D
P .Ax / für jede mindestens zweielementige Menge T 
P .Ax /P .AxC1 jAx /P .AxC2 jAxC1 \ Ax / f1; 2; : : : ; ng.
D
P .Ax /
3.3 Stochastische Unabhängigkeit 55

Die Unabhängigkeit von n Ereignissen ist durch roten und einer schwarzen Kugel, aus der zweimal rein zu-
2n  n  1 Gleichungen bestimmt fällig ohne Zurücklegen gezogen wird. Bezeichnen A bzw.
B die Ereignisse, dass die erste bzw. die zweite gezogene
Kugel rot ist, so gelten P .BjA/ D 1=2 und P .B/ D 2=3.
Kommentar Unabhängigkeit von A1 ; : : : ; An bedeutet, dass Dies zeigt, dass A und B nicht unabhängig sind. Zwar ist B
die Wahrscheinlichkeit des Durchschnitts irgendwelcher dieser real beeinflusst von A, aber nicht A von B, da sich B auf den
Ereignisse gleich dem Produkt der einzelnen Wahrscheinlich- zweiten und A auf den ersten Zug bezieht. Im Unterschied zu
keiten ist. Da aus einer n-elementigen Menge auf 2n  n  1 realer Beeinflussung ist jedoch der Unabhängigkeitsbegriff
Weisen Teilmengen mit mindestens zwei Elementen gebildet symmetrisch!
werden können, sind für den Nachweis der Unabhängigkeit von Wie das folgende Beispiel zeigt, schließen sich reale Beein-
n Ereignissen 2n  n  1 Gleichungen nachzuprüfen. Für zwei flussung und Unabhängigkeit aber auch nicht aus. Bezeich-
Ereignisse A und B bzw. drei Ereignisse A; B; C müssen also nen bei zweifachen Wurf mit einem echten Würfel A bzw.
(3.28) bzw. B die Ereignisse, dass die Augensumme ungerade ist bzw.
dass der erste Wurf eine gerade Augenzahl ergibt, so gel-
P .A \ B/ D P .A/ P .B/; (3.29)
ten – wie man durch elementares Abzählen nachrechnet –
P .A \ C / D P .A/ P .C /; (3.30) P .A/ D P .B/ D 1=2 sowie P .A\B/ D 1=4. Die Ereignis-
P .B \ C / D P .B/ P .C /; (3.31) se A und B sind also unabhängig, obwohl jedes Ereignis das
P .A \ B \ C / D P .A/ P .B/ P .C / (3.32) Eintreten des jeweils anderen Ereignisses real mitbestimmt.
Unabhängigkeit darf keinesfalls mit Disjunktheit verwech-
gelten. J selt werden! Wegen A \ B D ; sind disjunkte Ereignisse
genau dann unabhängig, wenn mindestens eines von ihnen

Kapitel 3
Selbstfrage 3 die Wahrscheinlichkeit null besitzt und damit ausgesprochen
Warum hat eine n-elementige Menge 2n  n  1 Teilmengen mit uninteressant ist.
mindestens 2 Elementen? Aus der Unabhängigkeit von A1 ; : : : ; An für n  3 folgt di-
rekt aus der Definition, dass für jedes k 2 f2; : : : ; n  1g
und jede Wahl von i1 ; : : : ; ik mit 1  i1 < : : : < ik  n
Video 3.2 Stochastische Unabhängigkeit II die Ereignisse Ai1 ; : : : ; Aik unabhängig sind. Wie Aufgabe
3.29 zeigt, kann man jedoch i. Allg. aus der Unabhängigkeit
von jeweils n  1 von n Ereignissen A1 ; : : : ; An nicht auf die
Unabhängigkeit von A1 ; : : : ; An schließen. J

Video 3.3 Stochastische Unabhängigkeit III

Das nachstehende Beispiel zeigt, dass man aus der Gleichung


(3.32) nicht auf die Gültigkeit von (3.29)–(3.31) schließen kann.
Die Unabhängigkeit von n Ereignissen lässt sich T somit im
Fall n  3 nicht durch die eine Gleichung P . jnD1 Aj / D
Qn
j D1 P .Aj / beschreiben. Umgekehrt ziehen aber die Gleichun-
gen (3.29)–(3.31) auch nicht die Gültigkeit von (3.32) nach sich Das nachfolgende Beispiel zeigt, dass in einem mithilfe von
(siehe Aufgabe 3.29). Paarweise Unabhängigkeit reicht dem- (3.14) und (3.15) definierten Produktexperiment Ereignisse, die
nach zum Nachweis der Unabhängigkeit von drei Ereignissen sich auf verschiedene Teilexperimente beziehen, stochastisch
nicht aus! unabhängig sind.

Beispiel Es seien ˝ WD f1; 2; 3; 4; 5; 6; 7; 8g und P die Beispiel Es seien ˝ D ˝1 : : :˝n mit abzählbaren Mengen
Gleichverteilung auf ˝. Für die Ereignisse A WD B WD ˝j und Pj ein Wahrscheinlichkeitsmaß auf ˝j , j D 1; : : : ; n.
f1; 2; 3; 4g und C WD f1; 5; 6; 7g gelten dann P .A/ D P .B/ D Setzen wir pj .aj / WD Pj .faj g/, aj 2 ˝j , sowie
P .C / D 1=2 sowie
Y
n

P .A \ B \ C / D 1=8 D P .A/ P .B/ P .C /: p.!/ WD pj .aj /; ! D .a1 ; : : : ; an / 2 ˝; (3.33)


j D1
Die Ereignisse A und B sind jedoch nicht unabhängig, da P
und P .A/ WD !2A p.!/, A  ˝, so ist P ein Wahr-
1 1 scheinlichkeitsmaß auf ˝. In der Sprache der Maßtheorie ist
P .A \ B/ D ¤ D P .A/ P .B/: J P das Produkt-Wahrscheinlichkeitsmaß von P1 ; : : : ; Pn (siehe
2 4
Abschn. 8.9). Definieren wir

Achtung Aj WD ˝1  : : :  ˝j 1  Bj  ˝j C1  : : :  ˝n ;
Unabhängigkeit ist strikt von realer Beeinflussung zu unter- mit Bj  ˝j , j D 1; : : : ; n, so ist Aj ein Ereignis in ˝, das sich
scheiden! Als Beispiel betrachten wir eine Urne mit zwei nur auf das j -te Teilexperiment bezieht. Wir zeigen jetzt, dass
56 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Unter der Lupe: Stochastik vor Gericht: Der Fall Sally Clark

Ist doppelter plötzlicher Kindstod ein Fall von Unabhängig- (sie interpretierte diese verschwindend kleine Wahrschein-
keit? lichkeit zudem fälschlicherweise als Wahrscheinlichkeit für
die Unschuld der Mutter!) und verurteilte Sally Clark mit
Dass mangelnde Sensibilisierung für die Frage, wie stark Zu-
10 W 2 Stimmen.
fallsereignisse stochastisch voneinander abhängen können,
bisweilen fatale Folgen haben kann, zeigt sich immer wie- Die Royal Statistical Society (RSS) drückte in einer Presse-
der in Gerichtsverfahren. Der nachstehend geschilderte Fall erklärung im Oktober 2001 ihre Besorgnis über den Miss-
steht insofern nicht allein. brauch von Statistik im Fall Sally Clark aus. Die von Herrn
Meadow in dessen Berechnung unterstellte Annahme, die Er-
Im Dezember 1996 stirbt der 11 Wochen alte Christo-
eignisse Aj , dass das j -te Kind durch plötzlichen Kindstod
pher Clark; die Diagnose lautet auf plötzlichen Kindstod.
stirbt (j D 1; 2), seien stochastisch unabhängig, sei so-
Nachdem die Eltern im November 1997 ein zweites Baby
wohl empirisch nicht gerechtfertigt als auch aus prinzipiellen
bekommen und auch dieses im Alter von acht Wochen un-
Gründen falsch. So könne es genetische oder Umweltfakto-
ter gleichen Umständen stirbt, gerät die Mutter Sally unter
ren geben, die die (bedingte) Wahrscheinlichkeit für einen
zweifachen Mordverdacht. Sie wird im November 1999 zu
zweiten Kindstod deutlich erhöhen könnten; die RSS führte
lebenslanger Haft verurteilt.
noch weitere Aspekte von Missbrauch der Statistik im Fall
Das Gericht stützte sich maßgeblich auf ein statistisches Sally Clark an. Weitere Informationen und diverse Literatur-
Gutachten von Sir Roy Meadow, einem renommierten Kin- angaben finden sich unter der Internetadresse
Kapitel 3

derarzt. Sir Meadow lagen Ergebnisse epidemiologischer


http://en.wikipedia.org/wiki/Sally_Clark
Studien vor, nach denen die Wahrscheinlichkeit, dass in
einer wohlhabenden Nichtraucherfamilie ein Kind an plötz- Die Freilassung von Sally Clark im Januar 2003 führte dazu,
lichem Kindstod stirbt, 1 zu 8 543 beträgt. Er argumentierte dass die Urteile in zwei weiteren, ähnlichen Fällen revidiert
dann, die Wahrscheinlichkeit, dass auch das zweite Kind wurden. Sally Clark wurde im März 2007 mit einer akuten
dieses Schicksal erleidet, sei mit ca. 1 zu 73 Millionen (D Alkoholvergiftung tot in ihrer Wohnung aufgefunden. Nach
.1=8 543/2) so klein, dass ein Zufall praktisch ausgeschlos- Aussage ihrer Familie hatte sie sich nie von dem Justizirrtum
sen sei. Die Jury ließ sich von diesem Argument überzeugen erholt.

A1 ; : : : ; An aufgrund des Produktansatzes (3.33) stochastisch Komplement übergehen und erhält, dass Ac und B c unabhängig
unabhängig sind. Sei hierzu T  f1; : : : ; ng mit 2  jT j  n sind. Induktiv ergibt sich hieraus, dass im Fall der Unabhängig-
beliebig. Dann gilt keit von Ereignissen A1 ; : : : ; An für jede Wahl von Teilmengen
\ I ; J  f1; : : : ; ng mit I \ J D ; die Gleichungen
Aj D C1  C2  : : :  Cn 0 1
j 2T \ \ Y Y
P @ Ai \ Ajc A D P .Ai / P .Ajc / (3.34)
mit Cj WD Aj für j 2 T und Cj WD ˝j , falls j … T . Wegen
X i 2I j 2J i 2I j 2J
P .C1  : : :  Cn / D p.!/ erfüllt sind. Hierbei definiert man Schnitte über die leere Men-
!2C1 :::Cn ge zu ˝ und Produkte über die leere Menge zu eins. Wir
0 1 0 1
X X werden dieses Resultat in einem allgemeineren Rahmen herlei-
D@ p1 .a1 /A  : : :  @ pn .an /A ten. Hierzu definieren wir die stochastische Unabhängigkeit von
a1 2C1 an 2Cn / Mengensystemen.
D P1 .C1 /  : : :  Pn .Cn /
Y
D P .Aj / Stochastische Unabhängigkeit von Mengensystemen
j 2T Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
sind A1 ; : : : ; An stochastisch unabhängig. Dabei ergibt sich das Mj  A, j D 1; : : : ; n, n  2, nichtleere Systeme
letzte Gleichheitszeichen wegen Pj .Cj / D P .Aj / für j 2 T von Ereignissen. Die Mengensysteme M1 ; : : : ; Mn hei-
und Pj .Cj / D 1 für j … T . J ßen (stochastisch) unabhängig, falls gilt:
0 1
Sind A und B unabhängige Ereignisse, so gilt \ Y
P@ Aj A D P .Aj /
P .Ac \ B/ D P .B/  P .A \ B/ D P .B/  P .A/P .B/ j 2T j 2T

D P .Ac /P .B/; für jede mindestens zweielementige Menge T 


c
und somit sind die Ereignisse A und B ebenfalls unabhängig. f1; 2; : : : ; ng und jede Wahl von Aj 2 Mj , j 2 T .
In gleicher Weise kann man jetzt auch beim Ereignis B zum
3.3 Stochastische Unabhängigkeit 57

Kommentar Folglich liegt auch die Differenzmenge E n D in Dn . Um


Unabhängigkeit von Mengensystemen besagt, dass die die dritte Eigenschaft eines Dynkin-Systems zu zeigen, sei-
Wahrscheinlichkeit des Schnittes von Ereignissen stets en D1 ; D2 ; : : : paarweise disjunkte Mengen aus Dn und Aj
gleich dem Produkt der einzelnen Wahrscheinlichkeiten ist, ( D 1; : : : ; k) wie oben. Das Distributivgesetz und die -
und zwar ganz egal, welche der n Mengensysteme ausge- Additivität von P liefern zusammen mit der Unabhängigkeit von
wählt und welche Ereignisse dann aus diesen Mengensys- Aj1 ; : : : ; Ajk ; D`
temen jeweils herausgegriffen werden. Man beachte, dass !! !
sich im Spezialfall Mj WD fAj g, j D 1; : : : ; n, die Defi- \
k X
1 X
1 \
k
P Aj \ D` D P Aj \ D`
nition der stochastischen Unabhängigkeit von n Ereignissen
D1 `D1 `D1 D1
A1 ; : : : ; An ergibt.
Aus obiger Definition ist klar, dass mit Mengensystemen X
1 Y
k

M1 ; : : : ; Mn auch Teilsysteme N1  M1 ; : : : ; Nn  Mn
D P .Aj / P .D`/
`D1 D1
stochastisch unabhängig sind. Oben haben wir gesehen, dass !
mit fAg und fBg auch die größeren Systeme fA; Ac g und Y
k X
1

fB; B c g unabhängig sind. Offenbar können wir hier jedes D P .Aj / P D` :


System auch um die Ereignisse ; und ˝ erweitern und erhal- D1 `D1
ten, dass mit fAg und fBg auch deren erzeugte -Algebren P1
Es gilt also die noch fehlende Eigenschaft `D1 D` 2 Dn , und
f;; A; Ac ; ˝g D .fAg/; f;; B; B c ; ˝g D .fBg/ somit ist Dn ein Dynkin-System.
stochastisch unabhängig sind. J Nach Konstruktion sind M1 ; : : : ; Mn1 , Dn unabhängige Men-
gensysteme. Wegen Mn  Dn enthält Dn als Dynkin-System

Kapitel 3
Das nächste Resultat verallgemeinert die eben gemachte Beob- das kleinste Mn umfassende Dynkin-System. Letzteres ist
achtung. In diesem Zusammenhang bezeichnen wir allgemein aber wegen der \-Stabilität von Mn gleich der von Mn er-
ein Mengensystem M  P .˝/ als durchschnittstabil (kurz: zeugten -Algebra .Mn /. Folglich sind die Mengensysteme
\-stabil), falls es mit je zwei und damit je endlich vielen Men- M1 ; : : : ; Mn1 ; .Mn / unabhängig. Fahren wir in der gleichen
gen auch deren Durchschnitt enthält. Weise mit dem Mengensystem Mn1 usw. fort, so ergibt sich
die Behauptung. 
Auch die erzeugten  -Algebren unabhängiger
Beispiel (Bernoulli-Kette, Binomialverteilung) Es sei-
\-stabiler Mengensysteme sind unabhängig en .˝; A; P / ein Wahrscheinlichkeitsraum und A1 ; : : : ; An 2
A stochastisch unabhängige Ereignisse mit gleicher Wahr-
Erweitern unabhängiger \-stabiler Systeme scheinlichkeit p, wobei 0  p  1. Dann besitzt die Indika-
torsumme
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
Mj  A, 1  j  n, n  2, durchschnittsstabi- X WD 1fA1 g C : : : C 1fAn g
le Mengensysteme. Dann folgt aus der Unabhängigkeit
von M1 ; : : : ; Mn die Unabhängigkeit der erzeugten - die Binomialverteilung Bin.n; p/, d. h., es gilt
Algebren .M1 /; : : : ; .Mn /. !
n k
P .X D k/ D p .1  p/nk ; k D 0; 1; : : : ; n:
k
Beweis Wir betrachten das Mengensystem
Nach (2.7) gilt nämlich
Dn WD fE 2 A j M1 ; : : : ; Mn1 ; fEg sind unabhängigg
0 1
und weisen nach, dass Dn die Eigenschaften eines Dynkin- X \ \
fX D kg D @ Aj \ Ac` A ;
Systems (vgl. Abschn. 8.2) besitzt. Zunächst gilt offenbar ˝ 2
j 2T
Dn . Sind weiter D, E 2 Dn mit D  E, so ergibt sich für eine T WjT jDk `…T

beliebige Teilmenge fj1 ; : : : ; jk g ¤ ; von f1; : : : ; n  1g und


beliebige Mengen Aj 2 Mj ( D 1; : : : ; k) wobei T alle k-elementigen Teilmengen von f1; : : : ; ng durch-
läuft. Da nach obigem Satz mit A1 ; : : : ; An auch die Systeme
\k  \k  \ k  f;; Aj ; Ajc ; ˝g, j D 1; : : : ; n, unabhängig sind und demnach
P Aj \ .E n D/ D P Aj \ E  P Aj \ D (3.34) gilt, folgt im Fall jT j D k
D1 D1 D1 0 1
Y
k \ \
D P .Aj /.P .E/  P .D// P@ Aj \ A` A D p k .1  p/nk
c

D1 j 2T `…T

Y
k n 
D P .Aj /P .E n D/: und somit die Behauptung, denn es gibt k
k-elementige Teil-
D1 mengen von f1; : : : ; ng.
58 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
T  Q
Ein konkretes Modell für .˝; A; P / und A1 ; : : : ; An ist das j 2 T , die Beziehung P Aj D j 2T P .Aj / erfüllt ist.
j 2T
spezielle Produktexperiment ˝ WD f0; 1gn , A WD P .˝/,
P WD p k .1  p/nk , falls ! D .a1 ; : : : ; an / mit Wegen Aj 2 X 1 .Aj / gibt es eine Menge Bj 2 Aj mit Aj D
P.f!g/
n Xj1 .Bj /, j D 1; : : : ; n. Mit P .Xj 2 Bj / WD P .Xj1.Bj // geht
j D1 j D k sowie Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g.
a
Dieses Modell heißt Bernoulli-Kette der Länge n mit Treffer- obige Gleichung in
wahrscheinlichkeit p. Dabei interpretiert man eine 1 als Treffer 0 1
und eine 0 als Niete. Die Zufallsvariable X zählt also die Anzahl \ Y
der Treffer in n unabhängigen, jedoch nicht notwendig gleich- P@ fXj 2 Bj gA D P .Xj 2 Bj /
artigen Versuchen. Entscheidend ist nur, dass jeder Versuch mit j 2T j 2T
gleicher Wahrscheinlichkeit p einen Treffer (und folglich mit
Wahrscheinlichkeit 1  p eine Niete) ergibt. J über. Sollte T eine echte Teilmenge von f1; : : : ; ng sein, so
kann für jedes i mit i 2 f1; : : : ; ng n T die Menge Bi als
Video 3.4 Binomialverteilung und Bernoulli-Kette Bi WD ˝i gewählt werden. Für jedes solche i ergänzt man
die zu schneidenden Mengen auf der linken Seite um ˝ .D
fXi 2 ˝i g/ und das Produkt rechts um den Faktor 1 .D P .Xi 2
˝i //. Vereinbaren wir noch, Schnitte von Ereignissen, die durch
Zufallsvariablen beschrieben werden, durch Kommata zu kenn-
zeichnen, also

P .X1 2 B1 ; X2 2 B2 / WD P .fX1 2 B1 g \ fX2 2 B2 g/


Zufallsvariablen sind unabhängig, wenn ihre
Kapitel 3

usw. zu schreiben, so haben wir folgendes Kriterium für die Un-


erzeugten  -Algebren unabhängig sind abhängigkeit von n Zufallsvariablen erhalten:

Wir betrachten jetzt die stochastische Unabhängigkeit von Zu-


fallsvariablen. In Abschn. 2.2 haben wir ganz allgemein eine Allgemeines Unabhängigkeitskriterium
Zufallsvariable X als Abbildung X W ˝ ! ˝ 0 zwischen zwei
Messräumen .˝; A/ und .˝ 0 ; A0 / eingeführt, die .A; A0 /- In der Situation obiger Definition sind X1 ; : : : ; Xn genau
messbar ist, also die Eigenschaft besitzt, dass die Urbilder dann unabhängig, wenn gilt:
X 1 .A0 / der Mengen aus A0 sämtlich in A liegen. Schreiben
wir kurz Y
n
P .X1 2 B1 ; : : : ; Xn 2 Bn / D P .Xj 2 Bj / (3.35)
1 0 1 0 0 0 j D1
.X / WD X .A / WD fX .A / j A 2 A g
für jede Wahl von Mengen B1 2 A1 ; : : : ; Bn 2 An .
für das System aller dieser Urbilder, also der durch X beschreib-
baren Ereignisse, so ist aufgrund der Verträglichkeit von X 1
mit mengentheoretischen Operationen .X / eine -Algebra
(siehe auch Teil a) des Lemmas zu Beginn von Abschn. 8.4). Kommentar Schreiben wir X WD .X1 ; : : : ; Xn / für die durch
Man nennt .X / die von X erzeugte  -Algebra. Da es somit X .!/ WD .X1 .!/; : : : ; Xn .!//, !
zu jeder Zufallsvariablen X ein charakteristisches Mengensys- N 2 ˝, definierte Abbildung
W ˝ ! ˝1  : : :  ˝n , und jnD1 Aj für die Produkt--
tem .X / mit .X /  A gibt und wir die Unabhängigkeit Algebra von A1 ; : : : ; An (vgl.NAbschn. 8.4), so ist X nach
von Mengensystemen bereits eingeführt haben, liegt die folgen- n
dem sich der Definition von
Nn j D1 Aj anschließenden Satz
de Begriffsbildung auf der Hand.
(A; j D1 Aj )-messbar. Bezeichnet H WD fA1 : : :An j Aj 2
Aj ; j D 1; : : : ; ng das System der messbaren Rechtecke, so
besagt (3.35), dass das Wahrscheinlichkeitsmaß
Nn P X und das
Unabhängigkeit von Zufallsvariablen
Produkt-Maß (vgl. Abschn. 8.9) j D1 P auf dem Mengen-
Xj

Es seien .˝; A; P / ein Wahrscheinlichkeitsraum, system H übereinstimmen. Nach dem Eindeutigkeitssatz für
.˝1 ; A1 /; : : : ; .˝n ; An /, n  2, Messräume und Maße sind beide Maße identisch. In der Situation obiger Defini-
Xj W ˝ ! ˝j , j D 1; : : : ; n, Zufallsvariablen. tion sind also X1 ; : : : ; Xn genau dann stochastisch unabhängig,
Die Zufallsvariablen X1 ; : : : ; Xn heißen (stochas- wenn ihre gemeinsame Verteilung (das Wahrscheinlichkeitsmaß
tisch) unabhängig, falls ihre erzeugten -Algebren P X ) gleich dem Produkt der Verteilungen von X1 ; : : : ; Xn ist,
.Xj / D Xj1 .Aj /, j D 1; : : : ; n, unabhängig sind. wenn also

O
n
P .X1;:::;Xn / D P Xj (3.36)
Nach Definition sind die Mengensysteme .X1 /; : : : ; .Xn / un- j D1
abhängig, wenn für jede mindestens zweielementige Teilmenge
T von f1; : : : ; ng und jede Wahl von Ereignissen Aj 2 .Xj /, gilt. J
3.3 Stochastische Unabhängigkeit 59

Sind X1 ; : : : ; Xn reelle Zufallsvariablen, so ist die Unabhängig- Voraussetzungen beweisen und beginnen dabei mit dem Letzte-
keit von X1 ; : : : ; Xn gleichbedeutend damit, dass (3.35) für jede ren.
Wahl von Borel-Mengen B1 ; : : : ; Bn gilt. Mit dem Satz über das
Erweitern \-stabiler unabhängiger Systeme und der Tatsache,
dass die -Algebra .X / von den Urbildern eines Erzeugenden- Funktionen unabhängiger Zufallsvariablen
systems der -Algebra des Wertebereichs von X erzeugt wird
(siehe Teil b) des Lemmas über -Algebren und Abbildungen Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
zu Beginn von Abschn. 8.4), reicht es aus, (3.35) für die Men- .˝j ; Aj / sowie .˝j0 ; Aj0 /, j D 1; : : : ; n, n  2, Mess-
gen Bj eines Erzeugendensystems der Borelschen -Algebra räume. Weiter seien Xj W ˝ ! ˝j und hj W ˝j ! ˝j0
zu fordern. Nach dem Satz über Erzeuger der Borel-Mengen in .A; Aj /- bzw. .Aj ; Aj0 /-messbare Abbildungen, j D
Abschn. 8.2 bilden die Intervalle .1; x mit x 2 R ein derar- 1; : : : ; n. Sind dann X1 ; : : : ; Xn stochastisch unabhängig,
tiges System. Wir erhalten somit für reelle Zufallsvariablen das so sind auch die Zufallsvariablen
folgende Kriterium für stochastische Unabhängigkeit: (
˝ ! ˝j0 ;
hj .Xj / D hj ı Xj W
! 7! hj .Xj /.!/ WD hj .Xj .!//;
Unabhängigkeit und Verteilungsfunktionen
j D 1; : : : ; n, stochastisch unabhängig.
Reelle Zufallsvariablen X1 ; : : : ; Xn auf einem Wahr-
scheinlichkeitsraum .˝; A; P / sind genau dann stochas-
tisch unabhängig, wenn gilt:
Beweis Für den Beweis benötigen wir nur, dass die Unabhän-
Y
n gigkeit von X1 ; : : : ; Xn über die Unabhängigkeit der erzeugten

Kapitel 3
P .X1  x1 ; : : : ; Xn  xn / D P .Xj  xj / (3.37) -Algebren .X1 /; : : : ; .Xn / definiert ist und mit Mengensys-
j D1 temen auch Teilsysteme davon unabhängig sind. Die Behaup-
tung folgt dann aus
für alle x1 ; : : : ; xn 2 R.
.hj ı Xj / D .hj ı Xj /1 .Aj0 / D Xj1 .hj1 .Aj0 //
 Xj1 .Aj / D .Xj /:
Die Namensgebung des obigen Kriteriums rührt daher, dass
P .Xj  x/ als Funktion von x die Verteilungsfunktion von Dabei gilt die Inklusion wegen der Messbarkeit von hj . 
Xj darstellt (siehe Abschn. 5.1). Da zudem für die linke Seite
von (3.37) als Funktion von x1 ; : : : ; xn der Begriff gemein-
same Verteilungsfunktion von X1 ; : : : ; Xn üblich ist, kann Zusammenfassen unabhängiger \-stabiler Systeme
obiges Kriterium auch wie folgt formuliert werden: Reelle Zu-
fallsvariablen X1 ; : : : ; Xn sind genau unabhängig, wenn ihre Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
gemeinsame Verteilungsfunktion gleich dem Produkt der Vertei- Mj  A, 1  j  n, n  2, unabhängige \-stabile
lungsfunktionen der Xj ist. Spezielle Situationen (diskrete und Mengensysteme. Weiter sei f1; : : : ; ng D I1 C: : :CIs eine
stetige Zufallsvariablen) werden in den beiden nächsten Kapi- Zerlegung von f1; : : : ; ng in paarweise disjunkte nichtlee-
teln behandelt. re Mengen I1 ; : : : ; Is . Bezeichnet
0 1
[
Ak WD  @ Mj A ; k D 1; : : : ; s;
Funktionen unabhängiger Zufallsvariablen sind j 2Ik
unabhängig
die von allen Mj mit j 2 Ik erzeugte -Algebra, so sind
Sind X , Y und Z unabhängige reelle Zufallsvariablen, so auch A1 ; : : : ; As stochastisch unabhängig.
sind auch die Zufallsvariablen sin.X C cos.Y // und exp.Z/
unabhängig. Hinter diesem (zu beweisenden) offensichtlichen
Resultat stecken zwei allgemeine Prinzipien. Das erste besagt,
dass man unabhängige Zufallsvariablen in disjunkte Blöcke zu- Beweis Für k D 1; : : : ; s sei
sammenfassen kann und wieder unabhängige Zufallsvariablen ˚
Bk WD Ai1 \ : : : \ Aim j m  1; ; ¤ fi1 ; : : : ; im g  Ik ;
enthält. In obigem Fall sind die Blöcke der zweidimensiona- 
le Vektor .X ; Y / sowie Z. Das zweite Prinzip lautet, dass Ai1 2 Mi1 ; : : : ; Aim 2 Mim
messbare Funktionen unabhängiger Zufallsvariablen ebenfalls
unabhängig sind. Im obigen Beispiel sind dies die Funktionen die Menge aller Schnitte endlich vieler Mengen aus den Men-
f W R2 ! R, .x; y/ 7! sin.x C cos.y// und g W R ! R, gensystemen Mj , j 2 f1; : : : ; ng mit j 2 Ik . Wegen der \-
x 7! exp.x/. Wir werden beide Prinzipien unter allgemeinen Stabilität der Mj ist auch Bk \-stabil. Zudem sind B1 ; : : : ; Bs
60 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Unter der Lupe: Das Geburtstagsproblem und die Gleichverteilungsannahme

Kollisionen beim Verteilen von Kugeln auf Fächer sind bei oder ik < n. Mit der abkürzenden Schreibweise a D
einer rein zufälligen Verteilung am unwahrscheinlichsten. .p2 ; : : : ; pn1 / ergibt sich dann
k Kugeln werden unabhängig voneinander auf n von 1 bis n Sk;n .p1 ; : : : ; pn / D Sk;n2 .a/ C .p1 C pn /  Sk1;n2 .a/
nummerierte Fächer verteilt. Jede Kugel gelange mit Wahr-
C p1  pn  Sk2;n2 .a/
P pj in das j -te Fach. Dabei sei pj > 0 für jedes
scheinlichkeit
j sowie jnD1 pj D 1 und k  n.
und folglich wegen .p1 C pn /2  4p1 pn
Die Wahrscheinlichkeit des mit A bezeichneten Ereignisses,  
dass die Kugeln in verschiedene Fächer fallen, ist p1 C pn p1 C pn
Sk;n ; p2 ; : : : ; pn1 ;
X 2 2
P .A/ D kŠ  pi1  : : :  pik ; D Sk;n2 .a/ C .p1 C pn /  Sk1;n2 .a/
1i1 <:::<ik n  
p1 C pn 2
C  Sk2;n2 .a/
denn es müssen die Nummern i1 ; : : : ; ik für diese Fächer 2
spezifiziert werden, und jede der kŠ Reihenfolgen führt zur  Sk;n .p1 ; : : : ; pn /:
gleichen Wahrscheinlichkeit pi1  : : :  pik . Somit ist
Das Gleichheitszeichen tritt dabei nur für p1 D pn ein.
Kapitel 3

P .Ac / D 1  kŠ  Sk;n .p1 ; : : : ; pn / Es sei nun


 
die Wahrscheinlichkeit, dass mindestens zwei Kugeln im Sk;n p1 ; : : : ; pn D max Sk;n .p1 ; : : : ; pn /;
p1 ;:::;pn
gleichen Fach liegen. Dabei ist allgemein
X wobei aus Symmetriegründen o.B.d.A. p1      pn gel-
Sr;m .q1 ; : : : ; qm / WD qi1  : : :  qir te. Da die Annahme p1 < pn aufgrund obiger Ungleichung
1i1 <<ir m zum Widerspruch

gesetzt.  
p1 C pn   p  C pn
Sk;n ; p2 ; : : : ; pn1 ; 1
Es ist plausibel, dass P .Ac / in Abhängigkeit von p1 ; : : : ; pn 2 2
 
im Gleichverteilungsfall p1 D : : : D pn D 1=n mini- > Sk;n p1 ; : : : ; pn
mal wird, und diese Behauptung soll jetzt bewiesen werden.
Hierzu zerlegen wir die Summe Sk;n .p1 ; : : : ; pn / nach dem führt, muss die Gleichverteilung p1 D    D pn D 1=n
Auftreten der vier Fälle i1 D 1 oder i1  2 und ik D n vorliegen, und dies war zu zeigen.

unabhängige Mengensysteme, denn die Wahrscheinlichkeit des


Schnittes von Durchschnitten des Typs Ai1 \ : : : \ Aim wie oben Das Blockungslemma
ist wegen der paarweisen Disjunktheit der Mengen I1 ; : : : ; Is
und der Unabhängigkeit aller Mj gleich dem Produkt der Es seien .˝; A; P / ein Wahrscheinlichkeitsraum,
einzelnen Wahrscheinlichkeiten aller beteiligter Mengen. Ande- .˝j ; Aj /, j D 1; : : : ; n, n  2, Messräume und
T Qm Xj W ˝ ! ˝j , j D 1; : : : ; n, Zufallsvariablen. Für
rerseits gilt aber auch P . m
D1 A i / D D1 P .A i /. Wegen
` 2 f1; : : : ; n  1g seien Z1 WD .X1 ; : : : ; X` / und
0 1 Z2 WD .X`C1 ; : : : ; Xn /, also
[ [
Mj  Bk   @ Mj A D Ak (3.38) (
˝ ! ˝1  : : :  ˝` ;
j 2Ik j 2Ik Z1 W
! 7! Z1 .!/ WD .X1 .!/; : : : ; X` .!//;
(
ergibt sich .Bk / D Ak , sodass die Behauptung aus dem Lem- ˝ ! ˝`C1  : : :  ˝n ;
ma über das Erweitern \-stabiler unabhängiger Systeme folgt. Z2 W
 ! 7! Z2 .!/ WD .X`C1 .!/; : : : ; Xn .!//:

Dann sind mit X1 ; : : : ; Xn auch Z1 und Z2 stochastisch


Selbstfrage 4 unabhängig.
Warum gilt die zweite Inklusion in (3.38)?
3.4 Folgen unabhängiger Zufallsvariablen 61

Beweis Wir schicken voraus, dass Z1 und Z2 Zufallsvaria- Für unsere Zwecke reicht es aus, den abzählbar-unendlichen
blen, also messbare Abbildungen sind, wenn man die kartesi- Fall, also Folgen von Zufallsvariablen, Ereignissen oder auch
schen Produkte e̋ 1 WD ˝1 : : :˝` und e̋ 2 WD ˝`C1 : : :˝n Mengensystemen zu betrachten. Die Botschaft ist einfach: Man
N
mit den jeweiligen Produkt--Algebren B1 WD j`D1 Aj bzw. zieht sich einfach auf den bislang behandelten Fall zurück.
Nn
B2 WD j D`C1 Aj versieht (s. den Satz nach der Definition
einer Produkt--Algebra in Abschn. 8.4). Wegen
0 1 0 1 Unabhängigkeit einer Folge von Ereignissen, Mengen-
[` [
n
systemen oder Zufallsvariablen
.Z1 / D  @ .Xj /A ; .Z2 / D  @ .Xj /A
j D1 j D`C1 Es sei .˝; A; P / ein Wahrscheinlichkeitsraum. Eine Fol-
(3.39) ge A1 ; A2 ; : : : von Ereignissen heißt (stochastisch) unab-
hängig, wenn je endlich viele dieser Ereignisse unabhän-
(vgl. Aufgabe 3.31) folgt die Unabhängigkeit von Z1 und Z2 aus gig sind, wenn also für jede endliche Menge I  N
dem Satz über das Zusammenfassen unabhängiger \-stabiler mit jI j  2 die Ereignisse Ai mit i 2 I unabhängig
Systeme, wenn man dort Mj D .Xj /, s D 2, I1 D f1; : : : ; `g sind. Gleiches gilt für die Unabhängigkeit einer Folge
und I2 D f` C 1; : : : ; ng setzt.  M1 ; M2 ; : : : von Mengensystemen Mj  A oder einer
Folge X1 ; X2 ; : : : von Zufallsvariablen Xj W ˝ ! ˝j mit
Aus dem Beweis des Blockungslemmas ist klar, dass die Aus- Werten in allgemeinen Messräumen .˝j ; Aj /, j  1.
sage dieses Lemmas auch für Unterteilungen in mehr als zwei
Blöcke gültig bleibt. Die Botschaft des Blockungslemmas ist,
dass man unabhängige Zufallsvariablen (die nicht notwendig
Abb. 3.5 zeigt ein prägnantes Beispiel für die Notwendig-

Kapitel 3
reell sein müssen) in Blöcke zusammenfassen kann und dass
keit, über eine ganze Folge unabhängiger Ereignisse auf einem
dann die entstehenden – einen vektorartigen Charakter tragen-
Wahrscheinlichkeitsraum verfügen zu müssen. Im ganzzahligen
den – Zufallsvariablen ebenfalls stochastisch unabhängig sind.
Gitter Z2 D f.i; j / j i; j 2 Zg werden je zwei benachbarte Git-
Bildet man letztere Zufallsvariablen mithilfe messbarer Funk-
terpunkte, also Gitterpunkte .i; j / und .k; `/ mit i D k und
tionen weiter ab, so sind die entstehenden Zufallsvariablen nach
jj  `j D 1 oder j D ` und ji  kj D 1, mit Wahrschein-
dem Satz über Funktionen unabhängiger Zufallsvariablen eben-
lichkeit p durch eine Kante verbunden, und zwar unabhängig
falls unabhängig. Insofern sind mit drei reellen Zufallsvariablen
von allen anderen Kanten. Abb. 3.5 zeigt einen Ausschnitt die-
X , Y und Z auch sin.X C cos.Y // und exp.Z/ unabhängig.
ses Gitters, in dem die so (durch Simulation erhaltenen) Kanten
Nach Aufgabe 3.30 sind n Ereignisse A1 ; : : : ; An genau dann farbig hervorgehoben sind. Auf diese Weise entsteht ein Graph
unabhängig, wenn die Indikatorfunktionen 1fA1 g; : : : ; 1fAn g mit Knotenmenge Z2 und zufallsabhängigen Kanten. Eine Men-
unabhängig sind. Da den mengentheoretischen Operationen ge von Knoten heißt zusammenhängend, wenn je zwei Knoten
A 7! Ac , .A; B/ 7! A [ B und .A; B/ 7! A \ B die al- dieser Menge durch einen Weg entlang der farbigen Kanten ver-
gebraischen Operationen 1fAg 7! 1  1fAg, .1fAg; 1fBg/ 7! bunden sind. Eine der Ausgangsfragen der Perkolationstheorie
max.1fAg; 1fBg/ und .1fAg; 1fBg/ 7! 1fAg  1fBg entspre- ist die folgende: Was ist der kleinste Wert für p 2 Œ0; 1, so-
chen, ergibt sich aus dem Blockungslemma unmittelbar die dass Perkolation auftritt, also mit Wahrscheinlichkeit eins eine
nachstehende Folgerung. unendliche zusammenhängende Knotenmenge existiert?

Folgerung (Blockungslemma für Ereignisse) Es seien


.˝; A; P / ein Wahrscheinlichkeitsraum und A1 ; : : : ; An 2 A,
n  2, stochastisch unabhängige Ereignisse. Für ` 2 f1; : : : ; n
1g sei B eine mengentheoretische Funktion von A1 ; : : : ; A` und
C eine mengentheoretische Funktion von A`C1 ; : : : ; An . Dann
sind B und C stochastisch unabhängig. J

3.4 Folgen unabhängiger


Zufallsvariablen
Die Grenzen diskreter Wahrscheinlichkeitsräume werden ins-
besondere dann erreicht, wenn man auf einem Wahrscheinlich-
keitsraum unendlich viele stochastisch unabhängige Zufallsva-
riablen mit vorgegebenen Verteilungen oder auch nur eine Folge
A1 ; A2 ; : : : unabhängiger Ereignisse mit gleicher Wahrschein-
lichkeit 1=2 zur Verfügung haben möchte. Hierzu müssen wir
zunächst definieren, wann unendlich viele Zufallsvariablen oder
unendlich viele Ereignisse stochastisch unabhängig sein sollen. Abb. 3.5 Perkolationsproblem auf Z2
62 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Beispiel In einem diskreten Wahrscheinlichkeitsraum sucht sind, nennt man die Folge X1 ; X2 ; : : : unabhängig und iden-
man vergeblich nach einer Folge unabhängiger Ereignisse mit tisch verteilt mit Verteilung Q und schreibt hierfür kurz
gleicher Wahrscheinlichkeit 1=2. Ist nämlich .˝; A; P / ein sol-
cher Wahrscheinlichkeitsraum, so gibt es eine abzählbare Teil- u.i.v.
X1 ; X2 ; : : : Q:
menge D  ˝ mit P .D/ D 1. Nehmen wir an, A1 ; A2 ; : : : wäre
eine unabhängige Folge von Ereignissen aus A mit P .Aj / D Ist die Verteilung Q nicht von Belang, so spricht man nur von
1=2 für jedes j  1. Wir fixieren ein beliebiges !0 2 D. Für einer unabhängigen und identisch verteilten Folge oder
jedes j 2 N gilt entweder !0 2 Aj oder !0 2 Ajc . Setzen wir kürzer von einer u.i.v.-Folge .Xj /j 1 .
Bj WD Aj , falls !0 2 Aj und Bj WD Ajc sonst, so sind B1 ; B2 ; : : :
T Der obige Satz garantiert insbesondere, dass zu jedem
unabhängige Ereignisse, und es gilt f!0 g  jnD1 Bj , n  1, p 2 .0; 1/ ein Modell für eine u.i.v.-Folge X1 ; X2 ; : : : mit
und damit P .Xj D 1/ D p und P .Xj D 0/ D 1  p existiert. Mit
0 1 Aj WD fXj D 1g, j  1, liefert dieses Modell zugleich
\ n Y n  n
1 eine Folge stochastisch unabhängiger Ereignisse mit glei-
P .f!0 g/  P @ Bj A D P .Bj / D ; n  1; cher Wahrscheinlichkeit p. Interpretiert man das Eintreten
j D1 j D1
2
von Aj als einen Treffer im j -ten Versuch, so kann dieses
Modell – etwa für den in unabhängiger Folge ausgeführten
also P .f!0g/ D 0. Da !0 2 D beliebig war, folgt P .D/ D 0, Wurf mit einer nicht notwendig homogenen Münze – als eine
was ein Widerspruch zur Annahme P .D/ D 1 ist. Ein diskreter Bernoulli-Kette unendlicher Länge mit Trefferwahrschein-
Wahrscheinlichkeitsraum ist also „zu klein“, um eine derartige lichkeit p angesehen werden. J
Folge von Ereignissen zu enthalten (siehe hierzu auch Aufga-
be 3.32). J
Kapitel 3

Für ein terminales Ereignis A bezüglich einer


Es gibt eine Folge unabhängiger unabhängigen Folge .Xn / gilt P .A/ 2 f0; 1g
Zufallsvariablen mit gegebenen Verteilungen
Ist das Eintreten oder Nichteintreten eines Ereignisses A, das
Eine Folge unabhängiger Ereignisse mit gleicher Wahrschein- sich durch eine Folge von Zufallsvariablen X1 ; X2 ; : : : beschrei-
lichkeit 1=2 wird benötigt, um ein Modell für den gedanklich ben lässt, für jedes (noch so große) k 2 N nur von den
unendlich oft ausgeführten Wurf einer homogenen Münze zu Realisierungen der Zufallsvariablen Xk ; XkC1 ; : : : abhängig, so
erhalten. Ein kanonischer Grundraum für diese Situation ist die ist A im folgenden Sinn terminal bzgl. der Folge .Xj /j 1 :
Menge ˝ D f0; 1gN aller 0-1-Folgen. In der Hintergrund-
und-Ausblick-Box über den Unmöglichkeitssatz von Vitali in
Abschn. 2.4 haben wir gesehen, dass zumindest auf der vollen Terminale  -Algebra bzgl. einer Folge .Xj /
Potenzmenge von ˝ kein passendes Wahrscheinlichkeitsmaß Es seien .˝; A; P / ein Wahrscheinlichkeitsraum,
zur Beschreibung dieser Situation existiert. Der nachfolgende .˝j ; Aj /, j  1, Messräume und Xj W ˝ ! ˝j , j  1,
Satz und die Hintergrund-und-Ausblick-Box über unendliche Zufallsvariablen. Dann heißt die -Algebra
Prodkuträume zeigen, dass man sich nur auf eine passende
-Algebra über ˝ einschränken muss, um Erfolg zu haben. \
1
Allgemeiner erhält man sogar, dass auf unendlichen Produkt- A1 WD .Xk ; XkC1 ; : : :/ . A/
räumen Folgen unabhängiger Zufallsvariablen mit beliebigen kD1
Wertebereichen und beliebig vorgegebenen Verteilungen exis-
tieren. die terminale  -Algebra bzgl. der Folge .Xj /j 1 oder
die  -Algebra der terminalen Ereignisse.

Existenz einer Folge unabhängiger Zufallsvariablen


Es seien .˝j ; Aj ; Qj /, j  1, Wahrscheinlichkeits- Beispiel Es sei X1 ; X2 ; : : : eine Folge reeller Zufallsvaria-
räume. Dann existieren ein Wahrscheinlichkeitsraum
.˝; A; P / und Zufallsvariablen Xj W ˝ ! ˝j , j  1, Pn auf einem Wahrscheinlichkeitsraum .˝; A; P / und Sn WD
blen
j D1 Xj , n  1, deren n-te Partialsumme. Wegen
mit folgenden Eigenschaften:

1 X 1 X
X1 ; X2 ; : : : sind stochastisch unabhängig, k1 n
1
es gilt P Xj D Qj für jedes j  1.  Sn D  Xj C  Xj
n n j D1 n
j Dk

erhalten wir für das Ereignis


Kommentar

Für den speziellen Fall, dass alle Räume .˝j ; Aj ; Qj / 1


A WD ! 2 ˝ j lim  Sn .!/ D 0
gleich einem festen Wahrscheinlichkeitsraum .˝ 0; A0 ; Q/ n!1 n
3.4 Folgen unabhängiger Zufallsvariablen 63

Hintergrund und Ausblick: Unendliche Produkträume


S1
Der Maßfortsetzungssatz garantiert die Existenz hinreichend gelten. Setzen wir S WD nD1 Sn , wobei
reichhaltiger Wahrscheinlichkeitsräume
Die folgende Konstruktion liefert einen Wahrscheinlichkeits- n ą
1 ˇ o
ˇ
raum, auf dem eine unabhängige Folge von Zufallsvariablen Sn WD A1      An ˝j ˇ A1 2 A1 ; : : : ; An 2 An ;
mit beliebig vorgegebenen Verteilungen existiert. Wir star- j DnC1

ten hierzu mit einer Folge .˝j ; Aj ; Qj /, j  1, beliebiger


S
Wahrscheinlichkeitsräume. Als Grundraum wählen wir das so ist S \-stabil, und wegen j1D1 Xj1 .Aj /  S gilt
kartesische Produkt .S/ D A. Nach dem Eindeutigkeitssatz für Maße wäre
ą
1 also P durch die Vorgabe (3.40) eindeutig bestimmt. Be-
˝ WD ˝j D f! D .!j /j 1 j !j 2 ˝j ; j  1g zeichnet Bn WD A1 ˝    ˝ An die Produkt--Algebra von
j D1 A1 ; : : : ; An , so bilden die Mengensysteme

von ˝1 ; ˝2 ; : : : Die Abbildung n ˇ o


(
ą
1
ˇ
Fn WD Bn  ˝j ˇ Bn 2 Bn ; n  1;
˝ ! ˝j ;
Xk W j DnC1
! D .!j /j 1 7! Xk .!/ WD !k ;

ordnet als k-te Projektionsabbildung einer Folge aus ˝ de- eine aufsteigende
S Folge von -Algebren über ˝. Das Sys-

Kapitel 3
ren k-tes Folgenglied zu. Als -Algebra A über ˝ bietet tem Z WD 1 nD1 Fn  A ist eine Algebra (nicht -Algebra),
sich die von X1 ; X2 ; : : : erzeugte -Algebra die sog. Algebra der Zylindermengen.

O
1 [
1  Definiert man mithilfe des Produkt-Maßes Q1 ˝  ˝Qn auf
A WD Aj D  Xj1 .Aj / ; der -Algebra Fn das Wahrscheinlichkeitsmaß Pn durch
j D1 j D1

das sog. Produkt von A1 ; A2 ; : : :, an.  ą


1 
Pn Bn  ˝j WD Q1 ˝    ˝ Qn .Bn /
Gäbe es ein Wahrscheinlichkeitsmaß P auf A mit j DnC1
 ą1  Y n
P A1      An  ˝j D Qk .Ak / (3.40) und auf der Algebra Z die Mengenfunktion P durch
j DnC1 kD1

für jedes n  1 und beliebige Mengen Ak 2 Ak , k D P .A/ WD Pn .A/; falls A 2 Fn ;


1; : : : ; n, dann wäre für jedes j  1 und jede Wahl von
Aj 2 Aj nach Definition von Xj so lässt sich zeigen, dass P wohldefiniert und auf Z -additiv
ist. Nach dem Maßfortsetzungssatz hat P eine (eindeu-
P Xj
.Aj / D P .Xj1.Aj //
tig bestimmte) Fortsetzung auf A D .Z/. Man nennt

j 1 ą
1  das Wahrscheinlichkeitsmaß P mit (3.40) das Produkt von
DP ˝k  Aj  ˝k D Qj .Aj /: Q1 ; Q2 ; : : :, und bezeichnet es mit
kD1 kDj C1

Somit hätte Xj die Verteilung Qj . Zudem wären X1 ; X2 ; : : : O


1

unabhängig, denn für jedes n  2 und jede Wahl von A1 2 P DW Qj :


j D1
A1 ; : : : ; An 2 An würde
 ą
1 
P .X1 2 A1 ; : : : ; Xn 2 An / D P A1      An  ˝k Der Wahrscheinlichkeitsraum
kDnC1
Y
n Y
n ą
1 O
1 O
1 
D Qj .Aj / D P Xj .Aj / ˝j ; Aj ; Qj WD .˝; A; P /
j D1 j D1 j D1 j D1 j D1
Y
n
D P .Xj 2 Aj / heißt das Produkt von .˝j ; Aj ; Qj /, j  1, siehe z. B. [4],
j D1 Section 36.
64 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

für jedes feste k 2 N die Darstellung


8ˇ ˇ 9 Limes superior und limes inferior von Ereignissen
\ [ \ <ˇˇ 1 X n ˇ
ˇ 1=
AD ˇ  Xj ˇˇ  Es sei .An /n1 eine Folge von Ereignissen in einem Wahr-
:ˇˇ n ˇ `; scheinlichkeitsraum .˝; A; P /. Dann heißen
`1 mk nm j Dk

und somit A 2 .Xk ; XkC1 ; : : :/. Nach Definition der termina- \


1 [
1

len -Algebra ist A ein terminales Ereignis bzgl. der Folge .Xj /. lim sup An WD Ak
n!1
J nD1 kDn

der Limes superior und


Das Null-Eins-Gesetz von Kolmogorov
[
1 \
1
Ist in der Situation obiger Definition die Folge .Xj /j 1 lim inf An WD Ak
n!1
stochastisch unabhängig, so gilt für jedes terminale Ereig- nD1 kDn
nis A 2 A1 entweder P .A/ D 0 oder P .A/ D 1.
der Limes inferior der Folge .An /n1 .

Beweis Wir zeigen, dass jedes A 2 A1 stochastisch un-


abhängig von sich selbst ist, woraus die Behauptung folgt. Kommentar Wegen
Nach Definition der Unabhängigkeit unendlich vieler Men-
lim sup An D f! 2 ˝ j 8n  1 9k  n mit ! 2 Ak g
gensysteme und dem Satz über das Zusammenfassen un-
Kapitel 3

n!1
abhängiger \-stabiler Systeme sind für jedes k die - lim inf An D f! 2 ˝ j 9n  1 8k  n mit ! 2 Ak g
Algebren .XkC1 ; XkC2 ; : : :/ und .X1 ; : : : ; Xk / unabhängig. n!1
Wegen A1  .XkC1 ; XkC2 ; : : :/ sind dann auch A1 und tritt das Ereignis lim supn!1 An genau dann ein, wenn un-
.X1 ; : : : ; Xk / für jedes k  1Sunabhängig. Es ergibt sich endlich viele der Ereignisse A1 ; A2 ; : : : eintreten. Diese Bedin-
die Unabhängigkeit von A1 und 1 kD1 .X1 ; : : : ; Xk /. Da das gung wird beim Limes inferior noch verschärft. Das Ereignis
letzte Mengensystem \-stabil ist, folgt nach dem Satz über lim infn!1 An tritt genau dann ein, wenn bis auf höchstens
das Erweitern unabhängiger \-stabiler Systeme und der mit- endlich viele Ausnahmen jedes An eintritt. Folglich gilt die In-
tels der Implikation „aus M  .N / und N  .M/ folgt klusion
.M/ D .N /“ erhältlichen Identität
! ! lim inf An  lim sup An :
[1 [
1 n!1 n!1
 .X1 ; : : : ; Xk / D  .Xk /
kD1 kD1 Offenbar sind beide Ereignisse terminal bzgl. der Folge
S1  .1fAn g/n1 . Sie treten also nach dem Kolmogorovschen Null-
die Unabhängigkeit
S 1  A1 und 
von kD1 .Xk / . Wegen Eins-Gesetz nur mit Wahrscheinlichkeit 0 oder 1 ein, wenn die
A1   kD1 .Xk / folgt dann, dass A1 stochastisch un-
Ereignisse A1 ; A2 ; : : : stochastisch unabhängig sind. Das nach-
abhängig von sich selbst ist, und dies war zu zeigen.  folgende Lemma gibt Kriterien hierfür an. J

Selbstfrage 5
S1 Das Lemma von Borel-Cantelli
Warum ist das System kD1 .X1 ; : : : ; Xk / \-stabil?
Es sei .An /n1 eine beliebige Folge von Ereignissen in ei-
nem Wahrscheinlichkeitsraum .˝; A; P /. Dann gilt:
Aus dem Null-Eins-Gesetz von Kolmogorov und obigem Bei- P
spielPergibt sich sofort, dass die Folge der arithmetischen Mittel a) Aus 1 nD1 P .An / < 1 folgt P .lim supn!1 An / D 0.
n1 jnD1 Xj von stochastisch unabhängigen reellen Zufallsva- die Ereignisse A1 ; A2 ; : : : unabhängig, so gilt:
b) Sind P
riablen X1 ; X2 ; : : : entweder mit Wahrscheinlichkeit 1 oder mit Aus 1 nD1 P .An / D 1 folgt P .lim supn!1 An / D 1.
Wahrscheinlichkeit 0 konvergiert. In Kap. 6 werden wir mit
dem starken Gesetz großer Zahlen eine hinreichende Bedingung
für die erste Alternative angeben. Das Null-Eins-Gesetz zeigt
Beweis
auch, dass in dem zu Beginn dieses Abschnitts beschriebenen S1
Perkolationsproblem entweder mit Wahrscheinlichkeit eins oder a) Für die durch Bn WD kDn Ak , n  1, defi-
mit Wahrscheinlichkeit null eine unendliche zusammenhängen- nierten Mengen
P gilt wegen der -Subadditivität von P
de Knotenmenge existiert. Hierzu definiert man Xj WD 1, falls P .Bn /  1 kDn P .A k /. Aus der Voraussetzung folgt somit
die j -te Kante gefärbt ist und Xj WD 0 sonst. Dabei nummeriert limn!1 P .Bn/ D 0. Da P stetig von oben und die Folge
man alle Kanten nach dem Abstand der sie bildenden Knoten .Bn / absteigend ist, ergibt sich
vom Ursprung „von innen nach außen“ durch. Das Ereignis,   !
dass eine Knotenmenge wie oben existiert, ist dann terminal \
1
P lim sup An D P Bn D lim P .Bn / D 0:
bzgl. der Folge .Xj /. n!1 n!1
nD1
3.5 Markov-Ketten 65

b) Die Ungleichung 1  x  ex liefert für x D P .Ak / und jede Die Wahrscheinlichkeit für den gesamten Verlauf des Prozesses
Wahl von m; n 2 N mit n  m bis zur Zeit n ist also bestimmt durch die Anfangswahrschein-
! lichkeiten P .X0 D i0 / und die Übergangswahrscheinlichkeiten
X
m Ym
P .Xk D ik jX0 D i0 ; : : : ; Xk1 D ik1 /.
1  exp  P .Ak /  1  .1  P .Ak //  1
kDn kDn Man beachte, dass es sich hierbei nur um einen wie zu Beginn
dieses Kapitels beschriebenen mehrstufigen stochastischen Vor-
und somit beim Grenzübergang m ! 1 gang handelt. Die Ergebnisse der einzelnen, zu den Zeitpunkten
0; 1; : : : ; n durchgeführten Stufen werden im Gegensatz zu
Y
m
früher jetzt durch Realisierungen von Zufallsvariablen beschrie-
lim .1  P .Ak // D 0:
m!1 ben.
kDn

Zusammen mit der Unabhängigkeit von An ; : : : ; Am folgt


Definition einer Markov-Kette
  !
[1
1  P lim sup An D 1  lim P Ak Eine Folge .Xn /n0 von Zufallsvariablen auf ˝ heißt
n!1 n!1
kDn
Markov-Kette mit Zustandsraum S, falls sie die folgende
! Markov-Eigenschaft besitzt: Für jedes n 2 N0 und jede
\
1
D lim P Ack Wahl von i0 ; : : : ; inC1 2 S mit
n!1
kDn
" !# P .X0 D i0 ; X1 D i1 ; : : : ; Xn D in / > 0 (3.41)
\
m
D lim lim P Ack
n!1 m!1 gilt:

Kapitel 3
kDn
" #
Y
m
P .XnC1 D inC1 jX0 D i0 ; : : : ; Xn D in /
D lim lim .1  P .Ak //
n!1 m!1
kDn D P .XnC1 D inC1 jXn D in /: (3.42)
D 0: 

Video 3.5 Das Lemma von Borel-Cantelli Kommentar Interpretieren wir Xn als den zufälligen Zu-
stand eines wie immer gearteten stochastischen Systems zur Zeit
n, so präzisiert die auf den russischen Mathematiker Andrej
Andrejewitsch Markov (1856–1922) zurückgehende Markov-
Eigenschaft gerade die zu Beginn dieses Abschnitts formulierte
„Gedächtnislosigkeit“: Das Verhalten des Systems zu einem
zukünftigen Zeitpunkt n C 1 hängt nur von dessen (gegen-
wärtigem) Zustand zur Zeit n ab, nicht aber von der weiteren
3.5 Markov-Ketten Vorgeschichte, also von den Zuständen zu den Zeitpunkten
0; ; : : : ; n  1. Die Positivitätsbedingung (3.41) garantiert, dass
In diesem Abschnitt betrachten wir stochastische Prozesse in
die bedingte Wahrscheinlichkeit in (3.42) wohldefiniert ist.
diskreter Zeit mit abzählbarem Zustandsraum, deren zukünf-
Bedingungen dieser Art werden zukünftig stillschweigend vor-
tiges Verhalten nur von der Gegenwart, nicht aber von der
ausgesetzt und nicht immer formuliert. J
Vergangenheit abhängt. Um diese anschauliche Vorstellung ma-
thematisch zu präzisieren, legen wir für diesen Abschnitt einen
festen Wahrscheinlichkeitsraum .˝; A; P / zugrunde, auf dem Beispiel (Partialsummen unabhängiger Zufallsvariablen) Es
alle auftretenden Zufallsvariablen definiert sind. sei Y0 ; Y1 ; : : : eine Folge stochastisch unabhängiger Zufallsva-
riablen mit Werten in Z. Setzen wir
Ein stochastischer Prozess in diskreter Zeit ist eine Folge
.Xn /n0 von Zufallsvariablen auf ˝. Hierbei deuten wir den In- Xn WD Y0 C : : : C Yn ; n  0;
dex n als Zeit(punkt). Der Prozess beginnt also zur Zeit 0 und
so bildet die Folge .Xn /n0 eine Markov-Kette mit Zustands-
entwickelt sich zu den diskreten Zeitpunkten 1; 2; : : : weiter. Die
raum S WD Z, denn es gilt XnC1 D Xn C YnC1 , und da
Zufallsvariablen mögen Werte in einer abzählbaren Menge S,
Xn eine Funktion von Y0 ; : : : ; Yn ist, sind Xn und YnC1 nach
dem sog. Zustandsraum, annehmen. Sind i0 ; i1 ; : : : ; in 2 S mit
dem Blockungslemma stochastisch unabhängig. Der Zustand
P .X0 D i0 ; : : : ; Xn1 D in1 / > 0, so gilt nach der allgemeinen
des Systems zur Zeit n C 1 ist also eine additive Überlage-
Multiplikationsregel (3.22)
rung des gegenwärtigen Zustandes Xn und einer davon (und
P .X0 D i0 ; : : : ; Xn D in / auch von X0 ; : : : ; Xn1 ) unabhängigen Zufallsvariablen. Bitte
rechnen Sie direkt nach, dass Eigenschaft (3.42) erfüllt ist (Auf-
D P .X0 D i0 /  P .X1 D i1 jX0 D i0 / gabe 3.20). J
Y
n
 P .Xk D ik jX0 D i0 ; : : : ; Xk1 D ik1 /: Wir setzen stets voraus, dass die Markov-Kette homogen
kD2 ist, was bedeutet, dass die Übergangswahrscheinlichkeiten
66 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

P .XnC1 D inC1 jXn D in / nicht vom Zeitpunkt n abhängen. in Form einer Matrix mit eventuell unendlich vielen Zeilen und
Es gilt dann also Spalten angeordnet denken. Die Matrix
P .XnC1 D inC1 jX0 D i0 ; : : : ; Xn D in / D p.in ; inC1 / P WD .pij /i ;j 2S
mit einer Funktion p W S  S ! R0 . Ein einfaches Beispiel ei-
ner nicht homogenen Markov-Kette liefert die zufällige Anzahl heißt Übergangsmatrix der Markov-Kette. Die durch
Xn roter Kugeln nach dem n-ten Zug im Pólyaschen Urnenmo-
0 .i/ WD P .X0 D i/; i 2 S;
dell von Abschn. 3.1 (Aufgabe 3.3).
Das folgende Resultat zeigt, dass wir in (3.42) die Bedingung gegebene Verteilung P X0 von X0 heißt Startverteilung von
X0 D i0 ; : : : ; Xn1 D in1 durch ein allgemeines mithilfe .Xn /n0 . Startverteilung und Übergangsmatrix legen die sto-
von .X0 ; : : : ; Xn1 / formuliertes Ereignis ersetzen können und chastische Entwicklung der Markov-Kette .Xn / eindeutig fest.
somit die Markov-Eigenschaft auch in einer (vermeintlich) ver-
schärften Form gilt. Die Übergangsmatix ist stochastisch, d. h., sie besitzt nichtne-
gative Einträge, und es gilt
X
Satz über die verallgemeinerte Markov-Eigenschaft pij D 1; i 2 S:
j 2S
Es seien X0 ; X1 ; : : : eine Markov-Kette mit Zustandsraum
S sowie n  1 und k > n. Dann gilt für in 2 S und Jede Zeilensumme von P ist also gleich eins.
beliebige Mengen A  S kn , B  S n :
Im Fall einer Markov-Kette mit endlichem Zustandsraum S
Kapitel 3

P ..XnC1; : : : ; Xk / 2 AjXn D in ; .X0 ; : : : ; Xn1 / 2 B/ oder kurz einer endlichen Markov-Kette nehmen wir S meist
als S WD f1; 2; : : : ; sg oder – was manchmal vorteilhaft ist – als
D P ..XnC1; : : : ; Xk / 2 AjXn D in /: S WD f0; 1; : : : ; s  1g an. Im Fall eines abzählbar-unendlichen
Zustandsraums ist häufig S D N, S D N0 oder S D Z.

Beweis Da P -additiv ist, kann ohne Beschränkung der Beispiel Die Übergangsmatrix einer Markov-Kette mit den
Allgemeinheit A D f.inC1 ; : : : ; ik /g mit inC1 ; : : : ; ik 2 S an- beiden möglichen Zuständen 0 und 1 hat die Gestalt
genommen werden. Für beliebige i0 ; : : : ; in1 2 S gilt
!
P ..XnC1; : : : ; Xk / 2 AjXn D in ; X0 D i0 ; : : : ; Xn1 D in1 / 1p p
PD ;
P .X0 D i0 ; : : : ; Xn D in ; XnC1 D inC1 ; Xk D ik / q 1q
D
P .X0 D i0 ; : : : ; Xn D in /
Q wobei 0  p; q  1. Wir deuten Xn als Zustand eines einfachen
P .X0 D i0 /  krD1 p.ir1 ; ir / Bediensystems zur Zeit n. Dieses kann entweder frei (Xn D 0)
D Q
P .X0 D i0 /  nrD1 p.ir1 ; ir / oder besetzt (Xn D 1) sein. Die Matrix P ergibt sich dann aus
folgenden Annahmen: Bis zum nächsten Zeitpunkt kann – wenn
D p.in ; inC1 /  : : :  p.ik1 ; ik /:
überhaupt – nur ein neuer Kunde kommen, was mit Wahrschein-
Da diese Wahrscheinlichkeit nicht von i0 ; : : : ; in1 und damit lichkeit p geschehe. Dabei wird der Kunde abgewiesen, wenn
vom Ereignis fX0 D i0 ; : : : ; Xn1 D in1 g abhängt, folgt die das System besetzt ist. Ist ein Kunde im System, so verlässt die-
Behauptung aus Aufgabe 3.25, indem man für das dortige Er- ser mit der Wahrscheinlichkeit q bis zum nächsten Zeitpunkt das
eignis C fXn D in g und für die paarweise disjunkten Cj die System.
Ereignisse fXn D in ; X0 D i0 ; : : : ; Xn1 D in1 g für verschie- Abb. 3.6 illustriert die Markov-Kette anhand eines Graphen,
dene Vektoren .i0 ; : : : ; in1 / wählt.  dessen Knoten die Zustände bilden. Die Übergänge zwischen
den Zuständen sind durch Pfeile mit zugehörigen Übergangs-
Kommentar Interpretieren wir den Zeitpunkt n als „Gegen- wahrscheinlichkeiten dargestellt. J
wart“, so besagt obiges Resultat, dass zwei Ereignisse, von
denen sich eines auf die Zukunft und das andere auf die Vergan-
genheit bezieht, bei gegebener Gegenwart bedingt stochastisch Beispiel Wir verfeinern obiges Modell dahingehend, dass ein
unabhängig sind. J Kunde in einer Warteschleife gehalten werden kann. Dement-
sprechend gibt es jetzt die möglichen Zustände 0, 1 und 2,

Startverteilung und Übergangsmatrix 1−p 1−q


bestimmen das Verhalten einer Markov-Kette
p

Zählt man die Zustände aus S in irgendeiner Weise ab, so kann 0 1


man sich die Übergangswahrscheinlichkeiten q

pij WD pi ;j WD p.i; j / Abb. 3.6 Zustandsgraph einer Markov-Kette mit 2 Zuständen


3.5 Markov-Ketten 67

1−p 1 − q(1 − p) − p(1 − q) 1−q Selbstfrage 6


p p(1 − q)
Wo wurde hier die Markov-Eigenschaft verwendet?
0 1 2
q(1 − p) q Deuten wir pij
.nC1/
als Eintrag in der i-ten Zeile und der
j -ten Spalte der Matrix der .n C 1/-Schritt-Übergangs-
Abb. 3.7 Zustandsgraph zum Bediensystem mit 3 Zuständen wahrscheinlichkeiten, so besagt obige Gleichung, dass dieser
Eintrag über eine Multiplikation der Matrix der n-Schritt-
Übergangswahrscheinlichkeiten mit der Übergangsmatrix P ge-
wobei Xn D j bedeutet, dass sich zur Zeit n genau j Kun- wonnen werden kann. Induktiv ergibt sich hieraus, dass die
den im System befinden. Unter der oben gemachten Annahme gesuchte Matrix die n-te Potenz Pn von P ist.
über hinzukommende Kunden erhält man die Übergangswahr-
scheinlichkeiten
p00 D 1  p; p01 D p; p02 D 0: Satz über die Verteilung von Xn

Im Fall Xn D 2 kann der nicht in der Warteschleife befindliche Für eine Markov-Kette .Xn / mit Übergangsmatrix P D
Kunde mit Wahrscheinlichkeit q das System bis zum nächsten .pij /i ;j 2S bezeichne
Zeitpunkt verlassen, woraus sich
n WD .P .Xn D i/ j i 2 S/
p20 D 0; p21 D q; p22 D 1  q
den (u. U. unendlich langen) Zeilenvektor der Wahr-
ergibt. Ist genau ein Kunde im System, so seien die Ereignis-
scheinlichkeiten für die Zustände der Kette zur Zeit n,
se, dass dieser Kunde das System verlässt und ein neuer Kunde

Kapitel 3
n  0. Dann gilt:
hinzukommt, stochastisch unabhängig. Das System geht also
vom Zustand 1 in den Zustand 2 über, wenn der Kunde im Sys- n D 0  Pn ; n  1:
tem bleibt und zugleich ein neuer Kunde (in die Warteschleife)
hinzukommt, was mit Wahrscheinlichkeit p12 D p.1  q/ ge-
schieht. In gleicher Weise gilt p10 D q.1  p/, und wir erhalten
die Übergangsmatrix Beweis Die zu beweisende Gleichung folgt aus der Formel
0 1 von der totalen Wahrscheinlichkeit, denn es ist
1p p 0 X
B C P .Xn D j / D P .Xn D j jX0 D i/  P .X0 D i/
P D @q.1  p/ 1  q.1  p/  p.1  q/ p.1  q/A :
i 2S
0 q 1q X .n/
D pij  P .X0 D i/: 
Abb. 3.7 zeigt den Zustandsgraphen zu dieser Markov-Kette. J i 2S

Wir wenden uns nun der Frage nach dem Langzeitverhalten von Nach obigem Resultat ergibt sich die Verteilung von Xn in Form
Markov-Ketten zu. Hierzu bezeichne des Vektors n durch Multiplikation des Vektors 0 der Start-
.n/ wahrscheinlichkeiten mit der n-Schritt-Übergangsmatrix. Dabei
pij WD P .Xn D j jX0 D i/; i; j 2 S;
seien für den Rest dieses Kapitels Vektoren grundsätzlich als
die Wahrscheinlichkeit, vom Zustand i ausgehend in n Zeit- Zeilenvektoren geschrieben. Das Studium des Langzeitverhal-
schritten in den Zustand j zu gelangen. Dabei lässt man auch tens einer Markov-Kette, also dem Verhalten von n für große
n D 0 zu und definiert Werte von n, läuft somit darauf hinaus, Informationen über Pn
.0/ .0/
pij WD 1; falls i D j und pij WD 0 sonst. für n ! 1 zu gewinnen. Für die folgenden Betrachtungen
.n/
setzen wir eine endliche Markov-Kette voraus. Das zentrale Re-
Man nennt pij die n-Schritt-Übergangswahrscheinlichkeit sultat gilt aber unter einer Zusatzbedingung auch allgemeiner.
von i nach j . Die mit P.n/ bezeichnete Matrix dieser Über-
gangswahrscheinlichkeiten heißt n-Schritt-Übergangsmatrix. Beispiel Wir betrachten die Markov-Kette des Bediensystems
Natürlich gilt P.1/ D P. mit 3 Zuständen 0, 1 und 2 wie in Abb. 3.7 für die speziellen
Die folgende Überlegung zeigt, dass P.n/ gleich der n-ten Po- Parameterwerte p D 0:4 und q D 0:5 und somit die Übergangs-
tenz von P ist. Zerlegen wir das Ereignis fXnC1 D j g nach matrix
0 1
den möglichen Werten von Xn , so ergibt sich mit der Formel 0:6 0:4 0
von der totalen Wahrscheinlichkeit und der (verallgemeinerten) B C
P D @0:3 0:5 0:2A :
Markov-Eigenschaft
0 0:5 0:5
P .XnC1 D j jX0 D i/
X Für P2 ergibt sich
D P .Xn D kjX0 D i/  P .XnC1 D j jXn D k/ 0 1
k2S 0:48 0:44 0:08
X B C
.n/ P2 D @0:33 0:47 0:2 A ;
D pij  pkj :
k2S 0:15 0:5 0:35
68 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

und P20 besitzt die Gestalt 1 1/2 1/2 1/2


0 1 0 1 2 3 4
0:3488 0:4651 0:1860 1/2 1/2 1/2 1
20 B C
P D @0:3488 0:4651 0:1860A :
Abb. 3.8 Symmetrische Irrfahrt auf f0; 1; 2; 3; 4g mit reflektierenden
0:3488 0:4651 0:1860 Rändern

Die Bildung höherer Potenzen ändert nichts an den angegebe-


nen 4 Nachkommastellen. Die Folge .Pn /n1 scheint also gegen Besitzt jede Markov-Kette eine invariante Verteilung ˛?
eine Matrix mit identischen Zeilen zu konvergieren. Das glei- Falls ja, ist diese eindeutig bestimmt?
che Phänomen tritt auf, wenn man andere Werte von p und Gilt limn!1 n D ˛ für jede Wahl des Start-Wahrschein-
q wählt. Dass die Matrix P20 identische Zeilen hat, bedeutet, lichkeitsvektors 0 ?
.20/
dass pij (auf vier Nachkommastellen berechnet) für jedes j Wie schnell konvergiert n gegen ˛?
nicht von den drei möglichen Anfangszuständen abhängt. Ganz
Dass diese Fragen nicht uneingeschränkt mit Ja beantwortet
egal, in welchem Zustand die Markov-Kette startet, ist die Wahr-
werden können, zeigt das in offensichtlicher Weise auch allge-
scheinlichkeit, dass sie sich nach 20 Zeitschritten im Zustand 0
meiner geltende folgende Beispiel.
befindet und damit kein Kunde im System ist, gleich 0:3488,
und genau ein Kunde bzw. genau zwei Kunden sind nach 20
Zeitschritten mit Wahrscheinlichkeit 0:4651 bzw. 0:186 im Sys- Beispiel Wir betrachten eine in Abb. 3.8 dargestellte symme-
tem. Die Markov-Kette scheint also schon nach relativ kurzer trische Irrfahrt auf der Menge f0; 1; 2; 3; 4g mit reflektierenden
Zeit einem stochastischen Gleichgewicht in Form einer durch Rändern bei 0 und 4.
die Zeilen von P20 gegebenen invarianten Verteilung zuzustre-
Kapitel 3

Beginnt diese Irrfahrt in 0, 2 oder 4, so kann für jedes n  1


ben, die sich auch für die folgenden Zeitpunkte nicht mehr
die Zufallsvariable X2n nur die Werte 0; 2; 4 und X2n1 nur die
ändert. J
Werte 1 und 3 annehmen. Ist der Startzustand 1 oder 3, so kön-
nen die Zustände 0; 2; 4 nur zu ungeradzahligen und 1; 3 nur
Ist .Xn / eine Markov-Kette, so heißt eine Verteilung auf S in-
zu geradzahligen Zeitpunkten erreicht werden. Diese Irrfahrt ist
variant, falls P X0 D P Xj für jedes j  1 gilt, wenn sich
somit in einer gewissen Weise periodisch. Auf 4 Nachkomma-
also anschaulich gesprochen das stochastische Verhalten der
stellen genau berechnet ändert sich P2k ab k D 14 nicht mehr.
Markov-Kette über die Zeit nicht ändert. Man spricht in diesem
Gleiches gilt für P2kC1 . Die Matrizen
Fall auch von einer stationären Verteilung, der Markov-Kette.
Aufgrund der Abzählbarkeit von S ist eine invariante Verteilung 0 1
0:25 0 0:5 0 0:25
durch den (u. U. unendlich langen) Zeilenvektor B 0
B 0:5 0 0:5 0 CC
B C
˛ WD .˛i ; i 2 S/ P28 D B0:25 0 0:5 0 0:25C ;
B C
@ 0 0:5 0 0:5 0 A
mit ˛i D P .X0 D i/ eindeutig bestimmt. Der Vektor ˛ erfüllt
0:25 0 0:5 0 0:25
(vgl. den Beweis des Satzes über die Verteilung von Xn ) die
0 1
Gleichungen 0 0:5 0 0:5 0
X B0:25 0:25C
B 0 0:5 0 C
˛j D pij  ˛i ; j 2 S: (3.43) B C
P29 DB 0 0:5 0 0:5 0 C
i 2S B C
@0:25 0 0:5 0 0:25A
Im Fall des endlichen Zustandsraums S D f1; 2 : : : ; sg gilt ˛ D 0 0:5 0 0:5 0
.˛1 ; : : : ; ˛s / 2 W , wobei
8 ˇ 9 spiegeln den eben beschriebenen Sachverhalt wider. Im Fall
< ˇ =
ˇ X
s X0 D 1 befindet sich die Irrfahrt bei ungeradem großen n mit

W WD x D .x1 ; : : : ; xs / 2 R ˇx1  0 : : : ; xs  0; xj D 1 gleicher Wahrscheinlichkeit 1=2 in 1 oder 3 und bei geradem
: ˇ ;
j D1 großen n mit Wahrscheinlichkeit 1=2 in 2 und je mit gleicher
Wahrscheinlichkeit 1=4 in 0 oder 4. J
die Menge aller möglichen Wahrscheinlichkeitsvektoren im Rs
bezeichnet. Die Gleichungen (3.43) gehen dann in

˛ D˛P (3.44) Ist Pk für ein k strikt positiv, so strebt eine


über, was bedeutet, dass ˛ ein linker Eigenvektor von P zum
Markov-Kette gegen die invariante Verteilung
Eigenwert 1 ist.
Der folgende Satz über das Langzeitverhalten von Markov-
Aufgrund des obigen Beispiels erheben sich in natürlicher Wei- Ketten schließt in seiner Voraussetzung periodische Fälle wie
se die folgenden Fragen: den eben beschriebenen aus.
3.5 Markov-Ketten 69

Unter der Lupe: Das Spieler-Ruin-Problem

Markov-Ketten mit zwei absorbierenden Zuständen und somit für dk WD PkC1  Pk die Rekursionsformel
Für a; b 2 N betrachten wir eine Markov-Kette .Xn / mit q
Zustandsraum S D f0; 1; : : : ; a C bg und Übergangswahr- dk D dk1  ; k D 1; : : : ; r  1: (3.46)
p
scheinlichkeiten pi ;i C1 D p D 1  pi ;i 1 für 1  i 
a C b  1 sowie p0;0 D 1 D paCb;aCb . Die Zustände 0
Hieraus liest man sofort Pk im Fall p D q D 1=2 ab:
und a C b sind somit absorbierend: Hat man einen von ihnen
Da die Differenzen d1 ; : : : ; dr1 nach (3.46) gleich sind, er-
erreicht, so kann man ihn nicht mehr verlassen. Wir inter-
gibt sich wegen (3.45) das Resultat Pk D k=r und somit
pretieren a und b als die Kapitalvermögen (in Euro) zweier
˛aCb D Pa D a=.a C b/, falls p D 1=2. Im Fall p ¤ 1=2
Spieler A und B, die wiederholt in unabhängiger Folge ein
folgt aus (3.46) induktiv dj D .q=p/j  d0 .j D 1; : : : ; r  1/
Spiel spielen, bei dem A und B mit den Wahrscheinlichkei-
und somit
ten p bzw. 1p gewinnen und im Gewinnfall einen Euro von
ihrem Gegenspieler erhalten. Mit X0 WD a steht dann Xn für
den Kapitalstand von A nach dem n-ten Spiel, und eine Ab- Pk D Pk  P0
sorption der Markov-Kette im Zustand a C b bzw. 0 besagt, X
k1 k1  j
X q 1  .q=p/k
dass Spieler B bzw. Spieler A bankrott ist (s. nachfolgende D dj D d0  D d0  :
Abbildung). j D0 j D0
p 1  q=p

Kapitel 3
a+b Setzt man hier k D r, so folgt wegen Pr D 1 die Gleichung
d0 D .1  q=p/=.1  .q=p/r /, und man erhält
B ist bankrott
a 1  .q=p/k
Pk D ; falls p ¤ 1=2:
A ist bankrott 1  .q=p/r

Zum Spieler-Ruin-Problem 1.0


0.8

Da die Übergangsmatrix Tridiagonalgestalt besitzt, ist die 0.6


invariante Verteilung ˛ D .˛0 ; : : : ; ˛aCb / durch (3.51) 0.4
gegeben. Wie man leicht sieht, liefern die entstehenden Glei- 0.2
chungen ˛0 C˛aCb D 1, sodass früher oder später Absorption 0 p
stattfindet. Wir behaupten, dass 0 0.5 1.0
(
a
; falls p D 1=2; Ruinwahrscheinlichkeit für B als Funktion von p für a D b D 3
˛aCb D aCb 1.q=p/a (blau) und a D b D 10 (rot)
1.q=p/aCb
; falls p ¤ 1=2;

gilt. Dabei ist kurz q WD 1  p gesetzt.


Die obige Abbildung zeigt die Absorptionswahrscheinlich-
Zur Herleitung von ˛aCb betrachten wir den Anfangszustand keit in a C b und damit die Ruinwahrscheinlichkeit für
X0 als Parameter k und untersuchen die mit Pk bezeichnete Spieler B in Abhängigkeit der Erfolgswahrscheinlichkeit p
Wahrscheinlichkeit, dass Absorption im Zustand a C b statt- für A im Falle eines Startkapitals von je drei Euro (blau) bzw.
findet, als Funktion von k. Mit r WD a C b folgt offenbar je 10 Euro (rot) für jeden der Spieler. Bemerkenswert ist, wie
sich das größere Startkapital auf die Ruinwahrscheinlichkeit
P0 D 0; Pr D 1; (3.45) auswirkt: Beginnt jeder Spieler mit 3 Euro, so geht Spieler
B bei einer Erfolgswahrscheinlichkeit p D 0:55 für A mit
denn im Fall k D 0 bzw. k D r findet bereits zu Beginn einer Wahrscheinlichkeit von ungefähr 0:65 bankrott. Startet
eine Absorption statt. Im Fall 1  k  r  1 gilt entweder jedoch jeder Spieler mit 10 Euro, so kann sich die größere
X1 D k C 1 oder X1 D k  1. Die Situation stellt sich al- Erfolgswahrscheinlichkeit von A gegenüber B in einer län-
so nach dem ersten Zeitschritt wie zu Beginn dar, wobei sich geren Serie von Einzelspielen besser durchsetzen, was sich
nur der Parameter k geändert hat. Nach der Formel von der in der großen Ruinwahrscheinlichkeit von 0:88 für Spieler
totalen Wahrscheinlichkeit folgt B auswirkt. Man beachte auch, dass letztere immer positiv
bleibt, wenn p > 1=2 gilt, denn sie ist dann unabhängig vom
Pk D p  PkC1 C q  Pk1 ; k D 1; 2; : : : ; r  1; Startkapital b immer mindestens 1  .q=p/a .
70 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Diese Ungleichung ist der Schlüssel für die weiteren Betrach-


Ergodensatz für endliche Markov-Ketten tungen. Definieren wir für beliebiges x 2 W eine Folge .xn /
rekursiv durch x0 WD x und xnC1 WD xn P, n  0, so ergibt sich
Es sei X0 ; X1 ; : : : eine Markov-Kette mit endlichem Zu- für `; n  0
standsraum. Für mindestens ein k  1 seien alle Einträge
der k-Schritt-Übergangsmatrix Pk strikt positiv. Dann gel- kxnC`  xn k D kx0 PnC`  x0 Pn k
ten:
D k.x0 P`  x0 /Pn k
a) Es gibt genau eine invariante Verteilung ˛.
 2.1  ı/bn=kc :
b) Für jede Wahl des Start-Wahrscheinlichkeitsvektors 0
gilt limn!1 n D ˛. Dabei ist die Konvergenz expo- Dies zeigt, dass .xn / eine Cauchy-Folge bildet. Setzen wir
nentiell schnell. x1 WD limn!1 xn , so liefert (3.47)
c) Es gilt 0 1
˛ kx1 P  x1 k D kx1 P  xn C xn  x1 k
B:C
lim P D @ :: C
n B
A:
D kx1 P  xn1 P C xn  x1 k
n!1
 k.x1  xn1 /Pk C kxn  x1 k
˛
 kx1  xn1 k C kxn  x1 k
und somit x1 D x1 P. Es kann aber nur ein y 2 W mit y D yP
Beweis Es sei o.B.d.A. geben, denn die Annahme y D yP und z D zP zieht wegen
Ps S D f1; : : : ; sg für ein s  2. y D yPn und z D zPn für jedes n und (3.49) wegen ı > 0 die
Bezeichnet kxk WD j D1 jxj j die Summenbetragsnorm von
Gleichheit ky zk D 0 und somit y D z nach sich. Hiermit sind
Kapitel 3

x 2 Rs , so gilt für x; y 2 Rs zunächst


a) und b) bewiesen. Der Zusatz über die Konvergenzgeschwin-
s ˇX
X s ˇ
ˇ ˇ digkeit ergibt sich, wenn man in (3.49) für x die stationäre
kxP  yPk D ˇ .xi  yi /  pij ˇ Verteilung ˛ und für y den Vektor 0 der Startwahrschein-
j D1 i D1
lichkeiten einsetzt. Wegen ˛Pn D ˛ und nC1 D 0 Pn und
X
s X
s
bn=kc  n=k  1 folgt mit der Abkürzung c WD log.1  ı/1=k
 jxi  yi j  pij die Ungleichung
i D1 j D1
Ps knC1  ˛k 
2
 exp.cn/; n  1;
und somit wegen j D1 pij D 1 1ı
kxP  yPk  kx  yk: (3.47) also exponentiell schnelle Konvergenz von n gegen ˛. Aussage
c) folgt, wenn man als Start-Vektoren für die Iteration xnC1 D
Dabei gilt diese Ungleichung für jede stochastische Matrix. xn P die kanonischen Einheitsvektoren des Rs wählt. 
.k/
Nach Voraussetzung gibt es ein ı > 0 mit pij  ı=s für al-
le i; j , wobei ı < 1 angenommen werden kann. Es gilt also Kommentar Die invariante Verteilung ˛ D .˛1 ; : : : ; ˛s / ist
Pk  ıE, wobei E die stochastische (s  s)-Matrix bezeichnet, nach (3.44) Lösung des linearen Gleichungssystems
deren Einträge identisch gleich 1=s sind. Die durch
X
s
1 ˛j D pij ˛i ; i D 1; : : : ; s; (3.50)
Q WD  .Pk  ıE/
1ı i D1

definierte Matrix ist stochastisch, und es gilt Pk D ıE C .1  wobei ˛ als Wahrscheinlichkeitsvektor nichtnegative Kompo-
ı/Q. Für x; y 2 W folgt dann mit der Dreiecksungleichung, der nenten hat und die Normierungsbedingung
Beziehung xE D yE für x; y 2 W und (3.47) mit Q anstelle
von P ˛1 C : : : C ˛s D 1
k k
kxP  yP k  ı  k.x  y/Ek C .1  ı/  k.x  y/Qk erfüllt. J
 .1  ı/  kx  yk: (3.48)
Beispiel Die Markov-Kette mit zwei Zuständen aus Abb. 3.6
Bezeichnet m WD bn=kc den ganzzahligen Anteil von n=k, so und der Übergangsmatrix
folgt durch Anwendung von (3.47) auf xPkm , yPkm und die sto- !
chastische Matrix Pnkm 1p p
PD
kxPn  yPn k D k.xPkm  xPkm /  Pnkm k q 1q
 k.x  y/Pkm k: erfüllt im Fall 0 < p; q < 1 die Voraussetzungen des obigen
Wiederholte Anwendung von (3.48) und kx  yk  2 liefern Satzes. Die Gleichungen (3.50) lauten in diesem Fall
dann ˛1 D .1  p/˛1 C q˛2 ;
n n bn=kc
kxP  yP k  2  .1  ı/ : (3.49) ˛2 D p˛1 C .1  q/˛2 ;
3.5 Markov-Ketten 71

stellen also ein und dieselbe Gleichung dar. Zusammen mit der Um triviale Fälle auszuschließen, haben wir dabei stets pij > 0
Normierungsbedingung ergibt sich für ji  j j D 1 vorausgesetzt. Mit der Konvention, ein Produkt
q p über
Ps die leere Menge gleich eins zu setzen, erhält man wegen
˛1 D ; ˛2 D : kD1 ˛k D 1
pCq pCq
Qk1 pj ;j C1
In diesem Fall lässt sich auch relativ leicht ein geschlossener j D1 pj C1;j
Ausdruck für Pn angeben. Wie man direkt nachrechnet, gilt
˛k D Ps1 Qk1 pj ;j C1 ; k D 1; : : : ; s: (3.51)
1C kD1 j D1 pj C1;j
nämlich mit
! !
1 p 1 0 Beispiel Beim diskreten Diffusionsmodell des Physikers Paul
A WD ; D WD Ehrenfest (1880–1933) und der Mathematikerin Tatjana Eh-
1 q 0 1pq
renfest (1876–1964) aus dem Jahr 1907 befinden sich in zwei
die Identität P D A  D  A1 und somit Behältern A und B zusammen s Kugeln. Man wählt eine der
s Kugeln rein zufällig aus und legt sie in den anderen Behäl-
Pn D A  D n  A1 ter. Dieser Vorgang wird in unabhängiger Folge wiederholt. Die
! Zufallsvariable Xn bezeichne die Anzahl der Kugeln in Behälter
1 0 A nach n solchen Auswahlen, n  0. Da die Übergangswahr-
DA  A1
0 .1  p  q/n scheinlichkeit P .XnC1 D j jXn D i/ nur von der Anzahl i der
" ! !# Kugeln in Behälter A nach n Auswahlen abhängt, liegt eine
1 q p p p
D  C .1  .p C q//n  : zeitlich homogene Markov-Kette vor, deren Übergangsmatrix
pCq q p q q tridiagonal ist, denn es gilt

Kapitel 3
Wegen j1 .p Cq/j < 1 liest man hieran noch einmal direkt die p01 D 1; ps;s1 D 1;
Konvergenz der n-Schritt-Übergangsmatrix gegen die Matrix j
! pj ;j 1 D ; j D 1; : : : ; s  1;
s
˛1 ˛2 j
˛1 ˛2 pj ;j C1 D 1  ; j D 1; : : : ; s  1
s
ab. Die invariante Verteilung des Bediensystems mit drei Zu- und pij D 0 sonst. Wegen
ständen wird in Aufgabe 3.23 behandelt. J !
Y
k1
pj ;j C1 Y sj
k1
s
Die im Ergodensatz angegebene Bedingung der strikten Posi- D D
p
j D0 j C1;j
j C1 k
tivität von Pk für mindestens ein k  1 ist zwar hinreichend, j D0

aber nicht notwendig für die Existenz einer eindeutigen statio- und
nären Verteilung. Ist die Übergangsmatrix P D .pij /1i ;j s eine !
Tridiagonalmatrix, gilt also X Y pj ;j C1
s1 k1 X
s
s
D D 2s
pij D 0; für alle i; j 2 S mit ji  j j > 1; p
j D0 j C1;j
k
kD0 kD0

so geht das Gleichungssystem (3.50) in folgt aus (3.51) – wobei nur zu beachten ist, dass wegen S D
f0; 1; : : : ; sg die Indizes ab k D 0 laufen und auch der Index j
˛1 D p11 ˛1 C p21 ˛2 in den auftretenden Produkten bei 0 beginnt –
˛2 D p12 ˛1 C p22 ˛2 C p32 ˛3 !
˛3 D p23 ˛2 C p33 ˛3 C p43 ˛4 s s
˛k D 2 ; k D 0; 1; : : : ; s:
k
:: ::
: :
Die invariante Verteilung ist also die Binomialverteilung
˛s1 D ps2;s1 ˛s2 C ps1;s1 ˛s1 C ps;s1 ˛s Bin.s; 1=2/. Diese kann man gleich zu Beginn bei der Be-
˛s D ps1;s ˛s1 C pss ˛s füllung der Behälter erreichen, wenn jede Kugel unabhängig
von den anderen mit gleicher Wahrscheinlichkeit 1=2 in Be-
über. Nutzt man aus, dass die Zeilensummen von P gleich eins hälter A oder B gelegt wird. In der Physik bezeichnet man
sind, so ergibt sich eine solche invariante Verteilung auch als Gleichgewichtsver-
p12 p12 p23 p12 p23 p34 teilung. Aufgabe 3.24 behandelt das diskrete Diffusionsmodell
˛2 D  ˛1 ; ˛3 D  ˛1 ; ˛4 D  ˛1 von Bernoulli-Laplace, bei dem als Gleichgewichtsverteilung
p21 p21 p32 p21 p32 p43
die hypergeometrische Verteilung auftritt.
und allgemein
Man beachte, dass die Folge .Pn /n1 der n-Schritt-Übergangs-
.2k/
Y
k1
pj ;j C1 matrizen nicht konvergiert, denn pi ;j > 0 kann nur eintreten,
˛k D  ˛1 ; k D 2; : : : ; s: wenn i  j gerade ist. Andererseits muss i  j ungerade sein,
p
j D1 j C1;j .2kC1/
wenn pi ;j positiv ist. J
72 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Für irreduzible aperiodische endliche Die mit d .i/ bezeichnete Periode eines Zustands i 2 S ist der
größte gemeinsame Teiler der Menge
Markov-Ketten gilt der Ergodensatz
.n/
Wie kann man einer Markov-Kette ansehen, ob sie die Vor- Ji WD fn  1 j pi i > 0g;
aussetzungen des Ergodensatzes erfüllt, ob also für ein k  1
.n/
(was u. U. sehr groß sein kann) alle Einträge der k-Schritt- also d .i/ WD ggT.Ji /, falls Ji ¤ ;. Ist pi i D 0 für jedes n  1,
Übergangsmatrix strikt positiv sind? In diesem Zusammenhang so setzt man d .i/ WD 1. Ein Zustand mit der Periode 1 heißt
sind die Begriffsbildungen Irreduzibilität und Aperiodizität aperiodisch. Eine Markov-Kette heißt aperiodisch, wenn jeder
wichtig. Zustand i 2 S aperiodisch ist. Man beachte, dass jeder Zustand
i mit pi i > 0 aperiodisch ist.
Um den ersten Begriff zu definieren, betrachten wir zwei Zu-
stände i und j aus S. Wir sagen i führt zu j oder j ist von i Besitzt also ein Zustand i die Periode 2, so kann die Markov-
aus erreichbar und schreiben hierfür i ! j , falls es ein n  0 Kette nur nach 2; 4; 6 : : : Zeitschritten nach i zurückkehren.
.n/
mit pij > 0 gibt. Gilt i ! j und j ! i, so heißen i und j Dies trifft etwa für jeden Zustand der Irrfahrt mit reflektieren-
kommunizierend, und wir schreiben hierfür i $ j . den Rändern zu.
.0/
Mit der getroffenen Vereinbarung pij D 1 bzw. D 0, falls Zustände in derselben Kommunikationsklasse besitzen die glei-
i D j bzw. i ¤ j gilt, sieht man leicht ein, dass die che Periode. Gilt nämlich i $ j für verschiedene i; j 2 S,
.m/ .n/
Kommunikations-Relation $ eine Äquivalenzrelation auf S so gibt es m; n 2 N mit pij > 0 und pj i > 0 und somit
darstellt: Wegen obiger Vereinbarung ist $ ja zunächst reflexiv .mCn/
pi i
.mCn/
> 0, pjj > 0. Hieraus folgt zunächst Ji ¤ ;, Jj ¤ ;
und nach Definition symmetrisch. Um die Transitivität nachzu- .k/
und somit d .i/ < 1, d .j / < 1. Gilt pjj > 0 für ein k 2 N,
Kapitel 3

weisen, gelte i $ j und j $ k. Es gibt dann m; n 2 N0 mit


.m/ .n/ .mCkCn/
pij > 0 und pj k > 0. Wegen was zu d .j /jk äquivalent ist, so folgt pi i > 0 und somit
.mCn/
X .m/ .n/ d .i/jkCmCn. Wegen pi i > 0 gilt aber auch d .i/jmCn und
.mCn/
pi k D pi ` p`k (3.52) somit d .i/jk. Die Periode d .i/ ist somit gemeinsamer Teiler al-
`2S ler k 2 Jj , was d .i/  d .j / impliziert. Aus Symmetriegründen

.m/
pij
.n/
pj k gilt auch d .j /  d .i/ und damit insgesamt d .i/ D d .j /.

.mCn/ .m/
Ist M  N eine Teilmenge der natürlichen Zahlen, die mit je
folgt pi k > 0, und aus Symmetriegründen ziehen pj i > 0 zwei Zahlen auch deren Summe enthält und den größten ge-
.n/ .mCn/ meinsamen Teiler 1 besitzt, so enthält M nach einem Resultat
und pkj > 0 die Ungleichung pki > 0 nach sich. Die Rela-
tion $ ist also in der Tat eine Äquivalenzrelation, was bedeutet, der elementaren Zahlentheorie alle bis auf endlich viele natür-
dass die Zustandsmenge S in paarweise disjunkte sog. Kom- liche Zahlen (siehe Aufgabe 3.36). Ist i 2 S ein aperiodischer
munikationsklassen von Zuständen zerfällt. Ein Zustand i 2 S Zustand, so gibt es – da die Menge Ji  N gegenüber der Ad-
mit pi i D 1 heißt absorbierend. Absorbierende Zustände bil- dition abgeschlossen ist – nach diesem Resultat ein n0 .i/ 2 N
.n/
den einelementige Kommunikationsklassen. mit der Eigenschaft pi i > 0 für jedes n  n0 .i/. Gilt zudem
.k/
i $ j für ein j ¤ i, so existiert ein k.i; j / 2 N mit pij > 0.
Eine Markov-Kette heißt irreduzibel, wenn sie aus einer Klasse .nCk/ .n/ .k.i ;j //
besteht, also jeder Zustand mit jedem kommuniziert, andernfalls Für jedes n  n0 .i/ folgt dann pij  pi i pij > 0. Ist
reduzibel. .Xn / eine irreduzible und aperiodische Markov-Kette mit Zu-
standsraum S D f1; : : : ; sg, so setzen wir
Selbstfrage 7
Warum gilt die Gleichung (3.52)? r1 WD max n0 .i/; r2 WD max k.i; j /
i D1:::;s 1i ¤j s

.n/
Beispiel Die Markov-Kette mit zwei Zuständen wie in und erhalten wegen pij > 0 für alle i; j 2 S und jedes n 
Abb. 3.6 ist genau dann irreduzibel, wenn 0 < p; q < 1 r1 C r2 das folgende Resultat.
gilt. Gleiches gilt für das Bediensystem mit drei Zuständen,
vgl. Abb. 3.7. Eine wie in Abb. 3.8 dargestellte Irrfahrt mit re-
flektierenden Rändern ist irreduzibel, nicht jedoch die in der Satz
Unter-der-Lupe-Box über das Spieler-Ruin-Problem behandel-
te Irrfahrt mit absorbierenden Rändern, also den absorbierenden Ist .Xn / eine endliche irreduzible und aperiodische
Zuständen 0 und a C b. Diese zerfällt in die drei Kommunikati- Markov-Kette, so gilt der Ergodensatz.
onsklassen f0g, f1; : : : ; a C b  1g und fa C bg. J
Zusammenfassung 73

Zusammenfassung

Ein zweistufiger stochastischer Vorgang wird durch den Grund- (stochastisch) unabhängig, wenn die von ihnen erzeugten -
raum ˝ D ˝1  ˝2 modelliert. Dabei beschreibt ˝j die Menge Algebren unabhängig sind. Unendlich viele Ereignisse, Men-
der Ergebnisse der j -ten Stufe, j D 1; 2. Motiviert durch gensysteme oder Zufallsvariablen sind unabhängig, wenn dies
Produkte relativer Häufigkeiten definiert man die Wahrschein- für je endlich viele von ihnen zutrifft. Messbare Funktionen
lichkeit p.!/ D P .f!g/ von ! D .a1 ; a2 / 2 ˝ durch die paarweise disjunkter Blöcke von unabhängigen Zufallsvariablen
erste Pfadregel p.!/ WD p1 .a1 /  p2 .a1 ; a2 /. Hier ist p1 .a1 / sind unabhängig. In gleicher Weise sind mengentheoretische
die Start-Wahrscheinlichkeit (initial probability), dass das ers- Funktionen, die aus paarweise disjunkten Blöcken unabhängi-
te Teilexperiment den Ausgang a1 hat, und p2 .a1 ; a2 / ist eine ger Ereignisse gebildet werden, ebenfalls unabhängig. Reelle
Übergangswahrscheinlichkeit (transition probability), die an- Zufallsvariablen X1 ; : : : ; Xn sind genau dann unabhängig, wenn
gibt, mit welcher Wahrscheinlichkeit im zweiten Teilexperiment
\
n  Yn
das Ergebnis a2 auftritt, wenn das erste Teilexperiment das Re-
P Xj 2 Bj D P .Xj 2 Bj /
sultat a1 ergab. Induktiv modelliert man n-stufige stochastische
j D1 j D1
Vorgänge, wobei n  3.
Die bedingte Wahrscheinlichkeit (conditional probability) ei- für jede Wahl von Borel-Mengen B1 ; : : : ; Bn gilt.
nes Ereignisses B unter der Bedingung, dass ein Ereignis A Auf unendlichen Produkträumen existieren Folgen unabhängi-
eintritt, ist durch P .BjA/ WD P .A \ B/=P .A/ definiert.

Kapitel 3
P Sind ger Zufallsvariablen mit beliebig vorgegebenen Verteilungen.
A1 ; A2 ; : : : paarweise disjunkte Ereignisse mit ˝ D j 1 Aj ,
Ein bzgl. einer Folge .Xn /n1 von Zufallsvariablen auf einem
so gilt die Formel von der totalen Wahrscheinlichkeit (law of
total probability)
Wahrscheinlichkeitsraum .˝; TA; P / terminales Ereignis (tail
event) gehört zur -Algebra 1 kD1 .Xk ; XkC1 ; : : :/, ist also für
X jedes (noch so große) k nur durch Xk ; XkC1 ; : : : bestimmt. Im
P .B/ D P .Aj /  P .BjAj / Fall einer stochastisch unabhängigen Folge hat jedes terminale
j 1
Ereignis entweder die Wahrscheinlichkeit 0 oder 1 (Null-Eins-
Gesetz von Kolmogorov) (Zero-one law).
sowie die Bayes-Formel (Bayes’ rule)
Eine Markov-Kette (Markov chain) ist eine Folge X0 ; X1 ; : : :
P .Ak /  P .BjAk / von Zufallsvariablen auf einem Wahrscheinlichkeitsraum
P .Ak jB/ D P : .˝; A; P / mit Werten in einem abzählbaren Zustandsraum
j 1 P .Aj /  P .BjAj /
S, sodass für jedes n  1 und jede Wahl von Zuständen
i0 ; : : : ; inC1 2 S die bedingte Wahrscheinlichkeit P .XnC1 D
Die P .Aj / heißen A-priori- und die P .Aj jB/ A-posteriori-
inC1 jX0 D i0 ; : : : ; Xn D in / gleich P .XnC1 D inC1 jXn D in /
Wahrscheinlichkeiten (prior and posterior probability).
ist. Diese sog. Markov-Eigenschaft (Markov property) bedeu-
Ereignisse A1 ; : : : ; An heißen (stochastisch) unabhängig (inde- tet, dass das zukünftige Verhalten der Markov-Kette nur von der
pendent), falls die 2n  n  1 Gleichungen Gegenwart und nicht von der Vergangenheit bestimmt ist. Bei
\  Y einer zeithomogenen (time-homogeneous) Markov-Kette hängt
P Aj D P .Aj / P .XnC1 D j jXn D i/ nicht von n ab. Die Markov-Eigenschaft
j 2T j 2T
bleibt gültig, wenn man die Bedingung X0 D i0 ; : : : ; Xn1 D
in1 durch ein allgemeines, mithilfe von .X0 ; : : : ; Xn1 / be-
.T  f1; : : : ; ng, jT j  2/ gelten. Mengensysteme schreibbares Ereignis ersetzt.
M1 ; : : : ; Mn  A heißen (stochastisch) unabhängig, wenn Die Matrix P D .pij /, i; j 2 S, der Übergangswahrscheinlich-
diese Beziehung für jedes T und jede Wahl von A1 2 keiten einer zeithomogenen Markov-Kette heißt Übergangs-
M1 ; : : : ; An 2 Mn gilt. Die Unabhängigkeit \-stabiler Men- matrix (transition matrix). Die Matrix der n-Schritt-Über-
gensysteme überträgt sich auf deren erzeugte -Algebren und gangswahrscheinlichkeiten (nth order transition probabilities)
auch auf die von paarweise disjunkten Blöcken dieser Systeme .n/
pij WD P .Xn D j jX0 D i/ heißt n-Schritt-Übergangsma-
erzeugten -Algebren.
trix. Sie ist die n-te Potenz von P, und im Fall S D f1; : : : ; sg
Ist X eine Zufallsvariable mit Werten in einem Messraum gilt für den Zeilenvektor n D .P .Xn D 1/; : : : ; P .Xn D s//
.˝ 0 ; A0 /, so heißt das Mengensystem .X / WD X 1 .A0 /  A die Gleichung
die von X erzeugte  -Algebra (generated -field). Zufalls-
variablen X1 ; : : : ; Xn mit allgemeinen Wertebereichen heißen n D 0  Pn ; n  0:
74 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

Eine Verteilung ˛ D .˛1 ; : : : ; ˛s / auf S heißt invariant oder


stationär (stationary), falls ˛ D ˛P gilt. Der Ergodensatz
für endliche Markov-Ketten (ergodic theorem for finite Mar-
kov chains) besagt, dass es genau eine invariante Verteilung
˛ gibt, wenn für ein k  1 alle Einträge von Pk strikt
positiv sind. In diesem Fall konvergiert für jede Wahl des
Start-Wahrscheinlichkeitsvektors 0 die Folge n exponentiell
schnell gegen ˛. Kommuniziert jeder Zustand mit jedem ande-
ren, gibt es also für jede Wahl von i; j 2 S ein n  0 mit
.n/
pij > 0, so heißt die Markov-Kette irreduzibel (irreducible).
.n/
Gibt es ein n  1 mit pi i > 0, so heißt der größte gemeinsame
Teiler aller dieser n die Periode (period) d .i/ des Zustands i.
Andernfalls setzt man d .i/ WD 1. In einer aperiodischen (ape-
riodic) Markov-Kette besitzt jeder Zustand die Periode 1. Für
irreduzible und aperiodische endliche Markov-Ketten gilt der
Ergodensatz.
Kapitel 3
Aufgaben 75

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen Rechenaufgaben

3.1 (Drei-Kasten-Problem von Joseph Bertrand 3.5 Zeigen Sie, dass für eine Zufallsvariable X mit
(1822–1900)) Drei Kästen haben je zwei Schubladen. In jeder der in (3.13) definierten Pólya-Verteilung Pol.n; r; s; c/ gilt:
Schublade liegt eine Münze, und zwar in Kasten 1 je eine Gold- s r

Kapitel 3
und in Kasten 2 je eine Silbermünze. In Kasten 3 befindet sich in lim Pc .X D 0/ D ; lim Pc .X D n/ D :
c!1 r Cs c!1 r Cs
einer Schublade eine Gold- und in der anderen eine Silbermün-
ze. Es wird rein zufällig ein Kasten und danach aufs Geratewohl Dabei haben wir die betrachtete Abhängigkeit der Verteilung
eine Schublade gewählt, in der sich eine Goldmünze befinde. von c durch einen Index hervorgehoben.
Mit welcher bedingten Wahrscheinlichkeit ist dann auch in der
anderen Schublade des gewählten Kastens eine Goldmünze? 3.6 Eine Schokoladenfabrik stellt Pralinen her, die je-
weils eine Kirsche enthalten. Die benötigten Kirschen werden
3.2 Es seien A, B und C Ereignisse in einem Wahr- an zwei Maschinen entkernt. Maschine A liefert 70 % dieser
scheinlichkeitsraum .˝; A; P /. Kirschen, wobei 8 % der von A gelieferten Kirschen den Kern
noch enthalten. Maschine B produziert 30 % der benötigten Kir-
a) A und B sowie A und C seien stochastisch unabhängig. Zei- schen, wobei 5 % der von B gelieferten Kirschen den Kern noch
gen Sie an einem Beispiel, dass nicht unbedingt auch A und enthalten. Bei einer abschließenden Gewichtskontrolle werden
B \ C unabhängig sein müssen. 95 % der Pralinen, in denen ein Kirschkern enthalten ist, aussor-
b) A und B sowie B und C seien stochastisch unabhängig. tiert, aber auch 2 % der Pralinen ohne Kern.
Zeigen Sie anhand eines Beispiels, dass A und C nicht
notwendig unabhängig sein müssen. Der Unabhängigkeits- a) Modellieren Sie diesen mehrstufigen Vorgang geeignet. Wie
begriff ist also nicht transitiv! groß ist die Wahrscheinlichkeit, dass eine Praline mit Kirsch-
kern in den Verkauf gelangt?
b) Ein Kunde kauft eine Packung mit 100 Pralinen. Wie groß ist
3.3 Es bezeichne Xn , n  1, die Anzahl roter Kugeln
die Wahrscheinlichkeit, dass nur gute Pralinen, also Pralinen
nach dem n-ten Zug im Pólyaschen Urnenmodell von Abschn.
ohne Kirschkern, in der Packung sind?
3.2 mit c > 0. Zeigen Sie: Mit der Festsetzung X0 WD r ist
.Xn /n0 eine nicht homogene Markov-Kette.
3.7 Ein homogenes Glücksrad mit den Ziffern 1; 2; 3
wird gedreht. Tritt das Ergebnis 1 auf, so wird das Rad noch
3.4 Es sei .Xn /n0 eine Markov-Kette mit Zustands- zweimal gedreht, andernfalls noch einmal.
raum S. Ein Zustand i 2 S heißt wesentlich, falls gilt:
a) Modellieren Sie diesen zweistufigen Vorgang.
8j 2 S W i ! j H) j ! i: b) Das Ergebnis im zweiten Teilexperiment sei die Ziffer bzw.
die Summe der Ziffern. Mit welcher Wahrscheinlichkeit tritt
Andernfalls heißt i unwesentlich. Ein wesentlicher Zustand das Ergebnis j auf, j D 1; : : : ; 6?
führt also nur zu Zuständen, die mit ihm kommunizieren. Zeigen c) Mit welcher Wahrscheinlichkeit ergab die erste Drehung
Sie: Jede Kommunikationsklasse hat entweder nur wesentliche eine 1, wenn beim zweiten Teilexperiment das Ergebnis 3
oder nur unwesentliche Zustände. auftritt?
76 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

3.8 Beim Skatspiel werden 32 Karten rein zufällig 3.13 Es bezeichne ak 2 fm; j g das Geschlecht des k-
an drei Spieler 1, 2 und 3 verteilt, wobei jeder 10 Karten er- jüngsten Kindes in einer Familie mit n  2 Kindern (j = Junge,
hält; zwei Karten werden verdeckt als Skat auf den Tisch gelegt. m = Mädchen, k D 1; : : : ; n). P sei die Gleichverteilung auf der
Spieler 1 gewinnt das Reizen, nimmt den Skat auf und will mit Menge ˝ D fm; j gn aller Tupel .a1 ; : : : ; an /. Weiter sei
Karo-Buben und Herz-Buben einen Grand spielen. Mit welcher
Wahrscheinlichkeit besitzt A D f.a1 ; : : : ; an / 2 ˝ j jfa1 ; : : : ; an g \ fj ; mgj D 2g
a) jeder der Gegenspieler einen Buben? D f„die Familie hat Kinder beiderlei Geschlechts“g;
b) jeder der Gegenspieler einen Buben, wenn Spieler 1 bei Spie- B D f.a1 ; : : : ; an / 2 ˝ j jfj W 1  j  n; aj D mgj  1g
ler 2 den Kreuz-Buben (aber sonst keine weitere Karte) sieht? D f„die Familie hat höchstens ein Mädchen“g:
c) jeder der Gegenspieler einen Buben, wenn Spieler 1 bei Spie-
ler 2 einen (schwarzen) Buben erspäht (er ist sich jedoch Beweisen oder widerlegen Sie: A und B sind stochastisch unab-
völlig unschlüssig, ob es sich um den Pik-Buben oder den hängig () n D 3.
Kreuz-Buben handelt)?
3.14 Zwei Spieler A und B drehen in unabhängiger
3.9 Zeigen Sie, dass im Beispiel von Laplace (1783) Folge abwechselnd ein Glücksrad mit den Sektoren A und
in Abschn. 3.2 die A-posteriori-Wahrscheinlichkeiten P .Ak jB/ B. Das Glücksrad bleibt mit Wahrscheinlichkeit p im Sektor
für jede Wahl von A-priori-Wahrscheinlichkeiten P .Aj / für A stehen. Gewonnen hat derjenige Spieler, welcher als Ers-
n ! 1 gegen die gleichen Werte null (für k  2) und eins ter erreicht, dass das Glücksrad in seinem Sektor stehen bleibt.
(für k D 3) konvergieren. Spieler A beginnt. Zeigen Sie:
p
Gilt p D .3  5/=2 0:382, so ist das Spiel fair, d. h., beide
Kapitel 3

3.10 Drei-Türen-Problem, Ziegenproblem Spieler haben die gleiche Gewinnchance.


In der Spielshow Let’s make a deal! befindet sich hinter einer
von drei rein zufällig ausgewählten Türen ein Auto, hinter den 3.15 Eine Urne enthalte eine rote und eine schwarze
beiden anderen jeweils eine Ziege. Ein Kandidat wählt eine der Kugel. Es wird rein zufällig eine Kugel gezogen. Ist diese rot,
Türen aufs Geratewohl aus; diese bleibt aber vorerst verschlos- ist das Experiment beendet. Andernfalls werden die schwarze
sen. Der Spielleiter öffnet daraufhin eine der beiden anderen Kugel sowie eine weitere schwarze Kugel in die Urne gelegt
Türen, und es zeigt sich eine Ziege. Der Kandidat kann nun bei und der Urneninhalt gut gemischt. Dieser Vorgang wird so lange
seiner ursprünglichen Wahl bleiben oder die andere verschlos- wiederholt, bis die (eine) rote Kugel gezogen wird. Die Zu-
sene Tür wählen. Er erhält dann den Preis hinter der von ihm fallsvariable X bezeichne die Anzahl der dazu benötigten Züge.
zuletzt gewählten Tür. Mit welcher Wahrscheinlichkeit gewinnt Zeigen Sie:
der Kandidat bei einem Wechsel zur verbleibenden verschlosse-
1
nen Tür das Auto, wenn wir unterstellen, dass P .X D k/ D ; k  1:
k.k C 1/
a) der Spielleiter weiß, hinter welcher Tür das Auto steht, diese
Tür nicht öffnen darf und für den Fall, dass er eine Wahlmög- 3.16 In der Situation des Beispiels zur Interpretation
lichkeit hat, mit gleicher Wahrscheinlichkeit eine der beiden der Ergebnisse medizinischer Tests in Abschn. 3.2 habe sich ei-
verbleibenden Türen wählt? ne Person r-mal einem ELISA-Test unterzogen. Wir nehmen an,
b) der Spielleiter aufs Geratewohl eine der beiden verbleibenden dass die einzelnen Testergebnisse – unabhängig davon, ob ei-
Türen öffnet, und zwar auch auf die Gefahr hin, dass das Auto ne Infektion vorliegt oder nicht – als stochastisch unabhängige
offenbart wird? Ereignisse angesehen werden können. Zeigen Sie: Die beding-
te Wahrscheinlichkeit, dass die Person infiziert ist, wenn alle
3.11 Eine Mutter zweier Kinder sagt: r Tests positiv ausfallen, ist in Verallgemeinerung von (3.23)
durch
a) „Mindestens eines meiner beiden Kinder ist ein Junge.“
b) „Das älteste meiner beiden Kinder ist ein Junge.“ r
q  pse
q r
pse C .1  q/  .1  psp /r
Wie schätzen Sie jeweils die Chance ein, dass auch das andere
Kind ein Junge ist?
gegeben. Was ergibt sich speziell für q D 0:0001, pse D 0:999,
psp D 0:998 und r D 1; 2; 3?
3.12 95 % der in einer Radarstation eintreffenden Si-
gnale sind mit einer Störung überlagerte Nutzsignale, und 5 %
3.17 Von einem regulären Tetraeder seien drei der vier
sind reine Störungen. Wird ein gestörtes Nutzsignal empfangen,
Flächen mit jeweils einer der Farben 1, 2 und 3 gefärbt; auf der
so zeigt die Anlage mit Wahrscheinlichkeit 0.98 die Ankunft ei-
vierten Fläche sei jede dieser drei Farben sichtbar. Es sei Aj
nes Nutzsignals an. Beim Empfang einer reinen Störung wird
das Ereignis, dass nach einem Wurf des Tetraeders die unten
mit Wahrscheinlichkeit 0.1 fälschlicherweise ein Nutzsignals
liegende Seite die Farbe j enthält (j D 1; 2; 3). Zeigen Sie:
angezeigt. Mit welcher Wahrscheinlichkeit ist ein als Nutzsignal
angezeigtes Signal wirklich ein (störungsüberlagertes) Nutzsi- a) Je zwei der Ereignisse A1 , A2 und A3 sind unabhängig.
gnal? b) A1 , A2 , A3 sind nicht unabhängig.
Aufgaben 77

3.18 Es sei .˝; P .˝/; P / ein Laplacescher Wahr- im Behälter A genau j weiße Kugeln befinden. Aus jedem Be-
scheinlichkeitsraum mit hälter wird unabhängig voneinander je eine Kugel rein zufällig
entnommen und in den jeweils anderen Behälter gelegt. Dieser
a) j˝j D 6 (echter Würfel),
Vorgang wird in unabhängiger Folge wiederholt. Die Zufallsva-
b) j˝j D 7.
riable Xn beschreibe den Zustand des Systems nach n solchen
Wie viele Paare .A; B/ unabhängiger Ereignisse mit 0 < Ziehungsvorgängen, n  0. Leiten Sie die Übergangsmatrix der
P .A/  P .B/ < 1 gibt es jeweils? Markov-Kette .Xn /n0 her und zeigen Sie, dass die invariante
Verteilung eine hypergeometrische Verteilung ist.
3.19 Ein kompliziertes technisches Gerät bestehe aus n
Einzelteilen, die innerhalb eines festen Zeitraumes unabhängig
voneinander mit derselben Wahrscheinlichkeit p ausfallen. Das
Beweisaufgaben
Gerät ist nur funktionstüchtig, wenn jedes Einzelteil funktions-
tüchtig ist.
3.25 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
a) Welche Ausfallwahrscheinlichkeit besitzt das Gerät? und C1 ; C2 ; : : : endlich oder abzählbar-unendlich viele paar-
b) Durch Parallelschaltung identischer Bauelemente zu jedem weise disjunkte PEreignisse mit positiven Wahrscheinlichkeiten
der n Einzelteile soll die Ausfallsicherheit erhöht werden. Bei sowie C WD j 1 Cj . Besitzt A 2 A die Eigenschaft, dass
Ausfall eines Bauelements übernimmt dann eines der noch P .AjCj / nicht von j abhängt, so gilt
funktionierenden Parallel-Elemente dessen Aufgabe. Zeigen
Sie: Ist jedes Einzelteil k-fach parallel geschaltet, und sind P .AjC / D P .AjC1/:
alle Ausfälle voneinander unabhängig, so ist die Ausfallwahr-
scheinlichkeit des Gerätes gleich 1  .1  p k /n .

Kapitel 3
c) Welche Ausfallwahrscheinlichkeiten ergeben sich für n D
3.26 Im Pólyaschen Urnenmodell von Abschn. 3.1 sei
200, p D 0:0015 und die Fälle k D 1, k D 2 und k D 3?
Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g
3.20 Zeigen Sie durch Nachweis der Markov-Eigen-
schaft, dass Partialsummen unabhängiger Z-wertiger Zufalls-
das Ereignis, im j -ten Zug eine rote Kugel zu erhalten (j D
variablen (erstes Beispiel in Abschn. 3.5) eine Markov-Kette
1; : : : ; n). Zeigen Sie: Für jedes k D 1; : : : ; n und jede Wahl
bilden.
von i1 ; : : : ; ik mit 1  i1 < : : : < ik  n gilt
3.21 Es seien Y0 ; Y1 ; : : : unabhängige und je Bin.1; p/ Y
k1
r C jc
verteilte Zufallsvariablen, wobei 0 < p < 1. Die Folge .Xn /n0 P .Ai1 \ : : : \ Aik / D P .A1 \ : : : \ Ak / D :
sei rekursiv durch Xn WD 2Yn C YnC1 , n  0, definiert. Zeigen j D0
r C s C jc
Sie, dass .Xn / eine Markov-Kette bildet, und bestimmen Sie de-
ren Übergangsmatrix.
3.27 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
und A; B 2 A. Beweisen oder widerlegen Sie:
3.22 Es sei X0 ; X1 ; : : : eine Markov-Kette mit Zu-
standsraum S. Zeigen Sie, dass für alle k; m; n mit 0  k < a) A und ; sowie A und ˝ sind unabhängig.
m < n und alle h; j 2 S die sog. Chapman-Kolmogorov- b) A und A sind genau dann stochastisch unabhängig, wenn gilt:
Gleichung P .A/ 2 f0; 1g.
c) Gilt A  B, so sind A und B genau dann unabhängig, wenn
X
P .Xn D j jXk D h/ D P .Xm D ijXk D h/ P .B/ D 1 gilt.
i 2S  P .X D j jX D i/
d) A \ B D ; ) A und B sind stochastisch unabhängig.
n m
e) Es gelte 0 < P .B/ < 1 und A \ B D ;. Dann folgt:
P .Ac jB/ D P .AjB c / () P .A/ C P .B/ D 1.
gilt.
3.28 Es sei ˝ WD Pernn D f.a1 ; : : : ; an / j 1  aj 
3.23 Leiten Sie im Fall des Bediensystems mit drei
n; j D 1; : : : ; nI ai ¤ aj für i ¤ j g die Menge der Permuta-
Zuständen (vgl. Abb. 3.7) die invariante Verteilung ˛ D
tionen der Zahlen 1; : : : ; n. Für k D 1; : : : ; n bezeichne
.˛0 ; ˛1 ; ˛2 / her. Warum sind die Voraussetzungen des Ergoden-
satzes erfüllt?
Ak WD f.a1 ; : : : ; an / 2 ˝ j ak D max.a1 ; : : : ; ak /g
3.24 Beim diskreten Diffusionsmodell von Bernoulli- das Ereignis, dass an der Stelle k ein „Rekord“ auftritt. Zeigen
Laplace für den Fluss zweier inkompressibler Flüssigkeiten
Sie: Unter einem Laplace-Modell gilt:
befinden sich in zwei Behältern A und B jeweils m Kugeln. Von
den insgesamt 2m Kugeln seien m weiß und m schwarz. Das a) P .Aj / D 1=j , j D 1; : : : ; n.
System sei im Zustand j , j 2 S WD f0; 1; : : : ; mg, wenn sich b) A1 ; : : : ; An sind stochastisch unabhängig.
78 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab

3.29 Es sei ˝ WD f! D .a1 ; : : : ; an / j aj 2 3.33 Es seien An , n  1, Ereignisse in einem Wahr-


f0; 1g für 1  j  ng D f0; 1gn , n  3, und p W ˝ ! Œ0; 1 scheinlichkeitsraum .˝; A; P /. Zeigen Sie:
durch
( a) lim supn!1 Acn D .lim infn!1 An /c ;
P b) lim infn!1 Acn D .lim supn!1 An /c ;
2nC1 ; falls jnD1 aj ungerade;
p.!/ WD c) lim supn!1 An n lim infn!1 An D lim supn!1 .An \ AcnC1 /:
0; sonst;

definiert. Ferner sei 3.34 Es seien An ; Bn , n  1, Ereignisse in einem Wahr-


scheinlichkeitsraum .˝; A; P /. Zeigen Sie:
Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g; 1  j  n:
a) lim supn!1 An \ lim supn!1 Bn
lim supn!1 .An \ Bn /;
Zeigen Sie: b) lim supn!1 An [ lim supn!1 Bn D lim supn!1 .An [ Bn /;
P c) lim infn!1 An \ lim infn!1 Bn D lim infn!1 .An \ Bn /;
a) Durch P .A/ WD !2A p.!/, A  ˝, wird ein Wahrschein- d) lim infn!1 An [ lim infn!1 Bn  lim infn!1 .An [ Bn /:
lichkeitsmaß auf P .˝/ definiert.
b) Je n  1 der Ereignisse A1 ; : : : ; An sind unabhängig. Geben Sie Beispiele für strikte Inklusion in a) und d) an.
c) A1 ; : : : ; An sind nicht unabhängig.
3.35 Es seien X1 ; X2 ; : : : stochastisch unabhängige Zu-
3.30 Es seien A1 ; : : : ; An Ereignisse in einem Wahr- fallsvariablen auf einem Wahrscheinlichkeitsraum .˝; A; P /
scheinlichkeitsraum .˝; A; P /. Zeigen Sie, dass A1 ; : : : ; An mit P .Xj D 1/ D p und P .Xj D 0/ D 1  p, j  1, wobei
genau dann unabhängig sind, wenn die Indikatorfunktionen 0 < p < 1. Zu vorgegebenem r 2 N und .a1 ; : : : ; ar / 2 f0; 1g
r

1fA1 g; : : : ; 1fAn g unabhängig sind. sei A k das Ereignis


Kapitel 3

3.31 Beweisen Sie die Identitäten in (3.39). \


r
Ak WD fXkC`1 D a` g; k  1:
`D1
3.32 Es sei .˝; A; P / ein diskreter Wahrscheinlich-
keitsraum. Weiter sei A1 ; A2 ; : : : 2 A eine Folge unabhängiger Zeigen Sie: P .lim supk!1 Ak / D 1.
Ereignisse mit pn WD P .An /, n  1. Zeigen Sie:

X
1 3.36 Es seien A  N und 1 der größte gemeinsame
min.pn ; 1  pn / < 1: Teiler von A. Für m; n 2 A gelte m C n 2 A. Zeigen Sie: Es
nD1 gibt ein n0 2 N, sodass n 2 A für jedes n  n0 .
Antworten zu den Selbstfragen 79

Antworten zu den Selbstfragen

S
Antwort 1 Damit sichergestellt ist, dass im Fall c < 0 auch im Antwort 4 Jede -Algebra, die die Vereinigung j 2Ik Mj ent-
n-ten Zug eine rote oder eine schwarze Kugel gezogen werden hält, muss als -Algebra auch die Durchschnitte Ai1 \ : : : \ Aim
kann, muss min.r; s/  .n  1/jcj C 1 gelten. von Mengen Ai1 ; : : : ; Aim mit fi1 ; : : : ; im g  Ik und Ai 2 Ai
für  D 1; : : : ; m, also das System Bk , umfassen.
Antwort 2 Es gelten PA .B/  0 für jedes B 2 A sowie
PA .˝/ D P .A \ ˝/=P .A/ D 1. Sind B1 ; B2 ; : : : paarweise S
Antwort 5 Wegen Sk WD .X1 ; : : : ; Xk / D . jkD1 .Xj //
disjunkte Mengen aus A, so sind B1 \ A; B2 \ A; : : : paarweise S1
disjunkte Mengen aus A. Die -Additivität von P ergibt dann gilt S1  S2  : : : Sind A; B 2 kD1 .X1 ; : : : ; Xk /, so gibt
es m; n 2 N mit A 2 Sm und B 2 Sn . Es sei o.B.d.A. m  n.
X
1  1  X1   Dann gilt A 2 SS
n und somit wegen der \-Stabilität von Sn auch
PA Bj D P Bj \ A A \ B 2 Sn  1
P .A/ kD1 .X1 ; : : : ; Xk /.
j D1 j D1

1 X1  Antwort 6 In der ersten Summe steht eigentlich P .XnC1 D


D P Bj \ A j jXn D k; X0 D i/. Die Bedingung X0 D i kann jedoch wegen
P .A/ j D1
der verallgemeinerten Markov-Eigenschaft entfallen.
1 X
1 X1
P .Bj \ A/ D PA .Bj /;

Kapitel 3
D 
P .A/ j D1 j D1
Antwort 7 Sie folgt aus der Formel der totalen Wahrscheinlich-
keit, wenn man das Ereignis fXmCn D kg nach den möglichen
also die -Additivität von PA . Werten ` für Xn zerlegt und die verallgemeinerte Markov-
Eigenschaft verwendet. Letztlich ist es die Matrizengleichung
Antwort 3 Von den insgesamt 2n Teilmengen muss man die n PmCn D Pm  Pn , die auch für unendliche Matrizen gilt, siehe
einelementigen Teilmengen sowie die leere Menge abziehen. auch Aufgabe 3.22.
Diskrete Verteilungsmodelle
– wenn der Zufall zählt 4
Warum ist die
Erwartungswertbildung ein
lineares Funktional?
Wie entsteht die
Multinomialverteilung?
Wie beweist man die
Tschebyschow-
Ungleichung?
Warum kann man von
Unabhängigkeit auf
Unkorreliertheit schließen?
Auf welche Weise entsteht
die bedingte Erwartung
E.X jZ/?

Kapitel 4
4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3 Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Bedingte Erwartungswerte und bedingte Verteilungen . . . . . . . . . . 106
4.6 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 124

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 81


N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_4
82 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

In Abschn. 2.2 haben wir die Verteilung einer Zufallsvariablen mit für jede eindimensionale bzw. jede k-dimensionale Borel-
Werten in einer allgemeinen Menge eingeführt. In diesem Kapitel Menge B. Aus diesem Grund bezeichnet man bei diskreten
werden wir deutlich konkreter und betrachten reelle Zufallsvaria- Zufallsvariablen oft auch das System der Wahrscheinlichkeiten
blen oder Zufallsvektoren, die höchstens abzählbar viele verschie- P .X D t /, t 2 D, synonym als Verteilung von X . Für die Ab-
dene Werte annehmen können. Die zugehörigen Verteilungen sind bildung t 7! P .X D t / ist bisweilen auch die Namensgebung
meist mit Zählvorgängen verknüpft. So entstehen Binomialvertei- Wahrscheinlichkeitsfunktion gebräuchlich. Verteilungen diskre-
lung, hypergeometrische Verteilung und Pólya-Verteilung, wenn die ter Zufallsvariablen können wie in den Abb. 2.4 und 2.5 durch
Anzahl gezogener Kugeln einer bestimmten Art in unterschiedli- Stabdiagramme veranschaulicht werden.
chen Urnenmodellen betrachtet wird. Zählt man die Nieten vor dem
Auftreten von Treffern in Bernoulli-Ketten, so ergeben sich die geo- Achtung
metrische Verteilung und die negative Binomialverteilung, und die
Wenn wir in der Folge Formulierungen wie „die Augen-
Multinomialverteilung tritt in natürlicher Weise beim Zählen von
summe X beim zweifachen Wurf mit einem echten Würfel
Treffern unterschiedlicher Art in einem verallgemeinerten Bernoul-
besitzt die Verteilung
lischen Versuchsschema auf. Die Poisson-Verteilung modelliert die
Anzahl eintretender Ereignisse bei spontanen Phänomenen; sie ist 6  j7  kj
P .X D k/ D ; k D 2; 3; : : : ; 12“
eine gute Approximation der Binomialverteilung bei großem n und 36
kleinem p. Diese Verteilungen sind grundlegend für ein begriffli- verwenden, so ist uns damit stets Zweierlei bewusst: Erstens
ches Verständnis vieler stochastischer Vorgänge. Zugleich werden ist klar, dass man für X als Abbildung einen Definiti-
Grundbegriffe der Stochastik wie gemeinsame Verteilung, Unab- onsbereich angeben kann, und zweitens liefern die obigen
hängigkeit, Erwartungswert, Varianz, Kovarianz, Korrelation sowie Wahrscheinlichkeiten über die Bildung (4.1) eine Wahr-
bedingte Erwartungswerte und bedingte Verteilungen in einem ele- scheinlichkeitsverteilung auf der Borelschen -Algebra B.
mentaren technischen Rahmen behandelt, der keinerlei Kenntnisse Sind X eine Zufallsvariable und M eine Borel-Menge mit
der Maß- und Integrationstheorie voraussetzt. P .X 2 M / D 1, so nennt man X eine M -wertige Zufalls-
variable. Dabei ist zugelassen, dass P .X 2 M 0 / D 1 für
eine echte Teilmenge M 0 von M gilt. Spricht man also von
4.1 Diskrete Zufallsvariablen einer N0 -wertigen Zufallsvariablen X , so bedeutet dies nur,
dass X mit Wahrscheinlichkeit eins nichtnegative ganzzah-
In diesem Abschnitt führen wir die Begriffe diskrete Zufalls- lige Werte annimmt. Insofern sind etwa die Augensumme
variable, diskreter Zufallsvektor sowie gemeinsame Verteilung beim zweifachen Würfelwurf oder eine Indikatorsumme N0 -
und Marginalverteilung ein. Wir werden sehen, wie sich Ver- wertige Zufallsvariablen. Analoge Sprechweisen sind für
teilungen abgeleiteter Zufallsvariablen bestimmen lassen. Hier Zufallsvektoren anzutreffen. J
Kapitel 4

lernen wir insbesondere die diskrete Faltungsformel kennen, mit


deren Hilfe man die Verteilung der Summe zweier unabhängi- Die folgende Definition hebt zwei im Zusammenhang mit (nicht
ger Zufallsvariablen erhalten kann. Es sei vereinbart, dass alle notwendig diskret verteilten) Zufallsvektoren übliche Namens-
auftretenden Zufallsvariablen auf dem gleichen Wahrscheinlich- gebungen hervor.
keitsraum .˝; A; P / definiert sind.
Gemeinsame Verteilung, Marginalverteilung
Diskrete Zufallsvariable, diskreter Zufallsvektor Ist X D .X1 ; : : : ; Xk / ein k-dimensionaler Zufallsvektor,
Es seien X eine reelle Zufallsvariable oder ein k-dimen- so nennt man die Verteilung von X auch die gemeinsa-
sionaler Zufallsvektor. X heißt diskret (verteilt), wenn es me Verteilung von X1 ; : : : ; Xk . Die Verteilung von Xj
eine abzählbare Menge D  R (bzw. D  Rk ) gibt, so- heißt j -te Marginalverteilung oder Randverteilung von
dass P .X 2 D/ D 1 gilt. Man sagt auch, dass X eine X, j 2 f1; : : : ; kg.
diskrete Verteilung besitzt.
Die letzte Sprechweise wird durch den Fall k D 2 verständlich.
In diesem Sinn ist also insbesondere jede Indikatorsumme eine Nehmen die Zufallsvariablen X und Y die Werte x1 ; x2 ; : : : ; xr
diskrete Zufallsvariable, was insbesondere die Binomialvertei- bzw. y1 ; y2 ; : : : ; ys an, so ist die gemeinsame Verteilung von X
lung und die hypergeometrische Verteilung mit einschließt. Man und Y durch die Wahrscheinlichkeiten
beachte, dass in der obigen Definition der zugrunde liegende pi ;j WD P .X D xi ; Y D yj /;
Wahrscheinlichkeitsraum keine Erwähnung findet, weil nur ei-
i D 1; : : : ; rI j D 1; : : : ; s festgelegt. Ordnet man die pi ;j
ne Aussage über die Verteilung von X getroffen wird. Ist X
in Form einer Tabelle mit r Zeilen und s Spalten an, so er-
auf einem diskreten Wahrscheinlichkeitsraum definiert, so ist X
geben sich die Marginalverteilungen, indem man die Zeilen-
immer diskret verteilt. Wegen der -Additivität von P ist die
bzw. Spaltensummen bildet und an den Rändern (lat. margo für
Verteilung von X durch das System der Wahrscheinlichkeiten
Rand) notiert. Für jedes i 2 f1; : : : ; rg gilt
P .X D t / mit t 2 D eindeutig bestimmt, denn es gilt
X X
r

P .X 2 B/ D P .X D t / (4.1) fX D xi g D fX D xi ; Y D yj g;
t 2B\D j D1
4.1 Diskrete Zufallsvariablen 83

Tab. 4.1 Tabellarische Aufstellung der gemeinsamen Verteilung zweier (X = i, Y = j)


Zufallsvariablen mit Marginalverteilungen
P
1 2  s 5
0.2
1 p1;1 p1;2  p1;s P .X D x1 /
0
2 p2;1 p2;2  p2;s P .X D x2 / 0.2
:: :: :: :: :: :: j
5 7
: : : : : : 0.1 6
r pr;1 pr;2  pr;s P .X D xr / 5
P 0.1
0 4
P .Y D y1 / P .Y D y2 /    P .Y D ys / 1 3
5 2
0.0 1

d. h., das Ereignis fX D xi g ist Vereinigung der paarweise dis- 1


junkten Mengen fX D xi ; Y D yj g, 1  j  s. Ein analoger 2
3
Sachverhalt gilt für fY D yj g (Tab. 4.1). 4
5 i
6
7
Die gemeinsame Verteilung lässt sich auch im Fall k D 2 in
Form eines Stabdiagrammes veranschaulichen. Hierzu bringt Abb. 4.1 Stabdiagramm der gemeinsamen Verteilung von erster und
man in einer .x; y/-Ebene für jedes Paar .i; j / mit 1  i  r größter Augenzahl beim zweifachen Würfelwurf
und 1  j  s über dem Punkt .xi ; yj / ein Stäbchen der Hö-
he P .X D xi ; Y D yj / an, siehe Abb. 4.1 im nachfolgenden
Beispiel. Allgemein ergibt sich P .Xj D xj /, indem man die Wahr-
scheinlichkeiten P .X1 D x1 ; : : : ; Xk D xk / über alle x1 2
D1 ; : : : ; xj 1 2 Dj 1 ; xj C1 2 Dj C1 ; : : : ; xk 2 Dk aufsum-
Beispiel (Erste und höchste Augenzahl) Ein echter miert. Den Übergang von der gemeinsamen Verteilung zu den
Würfel wird zweimal in unabhängiger Folge geworfen. Die Zu- Verteilungen der einzelnen Komponenten bezeichnet man als
fallsvariablen X und Y bezeichnen das Ergebnis des ersten Marginalverteilungsbildung. Diese erfolgt bei diskreten Zu-
Wurfs bzw. die höchste geworfene Augenzahl. Wählen wir den fallsvektoren wie oben beschrieben durch Summation und bei
kanonischen Grundraum ˝ D f.i; j / j 1  i; j  6g mit der den im nächsten Kapitel behandelten Zufallsvektoren mit steti-
Gleichverteilung P auf ˝, so gilt etwa P .X D 2; Y D 2/ D ger Verteilung durch Integration.
P .f.2; 1/; .2; 2/g/ D 2=36, P .X D 3; Y D 5/ D P .f.3; 5/g/ D
1=36 usw. Die gemeinsame Verteilung von X und Y ist zusam-
men mit den an den Rändern aufgeführten Marginalverteilungen
Die gemeinsame Verteilung bestimmt die

Kapitel 4
von X und Y in Tab. 4.2 veranschaulicht.
Marginalverteilungen, aber nicht umgekehrt
Abb. 4.1 zeigt das Stabdiagramm der gemeinsamen Verteilung
von X und Y . J Wie das folgende Beispiel zeigt, kann man aus den Marginal-
verteilungen nicht ohne Weiteres die gemeinsame Verteilung
Ist allgemein X D .X1 ; : : : ; Xk / ein k-dimensionaler diskreter bestimmen.
Zufallsvektor mit P .Xi 2 Di / D 1 für abzählbare Mengen
D1 ; : : : ; Dk  R, so gilt wegen der -Additivität von P für
jedes x1 2 D1 Beispiel Ist c eine beliebige Zahl im Intervall Œ0; 1=2, so wird
durch Tab. 4.3 die gemeinsame Verteilung zweier Zufallsvaria-
X X blen X und Y definiert, deren Marginalverteilungen nicht von
P .X1 D x1 / D  P .X1 D x1 ; : : : ; Xk D xk /:
c abhängen, denn es gilt P .X D 1/ D P .X D 2/ D 1=2 und
x2 2D2 xk 2Dk
P .Y D 1/ D P .Y D 2/ D 1=2. Ohne weitere Kenntnis wie
etwa die stochastische Unabhängigkeit von X und Y (s. unten)
kann also von den Marginalverteilungen nicht auf die gemein-
Tab. 4.2 Gemeinsame Verteilung und Marginalverteilungen der ersten same Verteilung geschlossen werden! J
und der größten Augenzahl beim zweifachen Würfelwurf
j
P
i 1 2 3 4 5 6 P .X D i / Tab. 4.3 Verschiedene gemeinsame Verteilungen mit gleichen Margi-
1 1=36 1=36 1=36 1=36 1=36 1=36 1=6 nalverteilungen
2 0 2=36 1=36 1=36 1=36 1=36 1=6 j
P
3 0 0 3=36 1=36 1=36 1=36 1=6 i 1 2 P .X D i /
4 0 0 0 4=36 1=36 1=36 1=6 1 1
1 c 2
c 2
5 0 0 0 0 5=36 1=36 1=6 1 1
2 2
c c 2
6 0 0 0 0 0 6=36 1=6 P
P 1 1
1=36 3=36 5=36 7=36 9=36 11=36 1 2 2
1
P .Y Dj/ P .Y D j /
84 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Nach dem allgemeinen Unabhängigkeitskriterium in Summenbildung g.x1 ; x2 / WD x1 C x2 , .x1 ; x2 / 2 R2 . Nach der


Abschn. 3.3 sind n reelle Zufallsvariablen X1 ; : : : ; Xn genau obigen allgemeinen Vorgehensweise gilt mit B WD fyg, y 2 R,
dann stochastisch unabhängig, wenn für beliebige Borel-
Mengen B1 ; : : : ; Bn die Identität P .X1 C X2 D y/ D P .g.X1; X2 / 2 B/
D P ..X1; X2 / 2 g 1 .B//
Y
n
P .X1 2 B1 ; : : : ; Xn 2 Bn / D P .Xj 2 Bj / (4.2) D P ..X1; X2 / 2 g 1 .fyg/ \ D/
j D1 X
D P .X1 D x1 ; X2 D x2 /
besteht. Sind X1 ; : : : ; Xn diskret verteilt, gilt also P .Xj 2 .x1 ;x2 /2DWx1 Cx2 Dy
X
Dj / D 1 für eine abzählbare Teilmenge Dj  R (j D D P .X1 D x1 ; X2 D y  x1 /: (4.4)
1; : : : ; n), so ist (4.2) gleichbedeutend mit x1 2D1

Y
n
Selbstfrage 2
P .X1 D x1 ; : : : ; Xn D xn / D P .Xj D xj / (4.3)
Warum gilt das letzte Gleichheitszeichen?
j D1

für jede Wahl von x1 2 D1 ; : : : ; xn 2 Dn . Sind X1 und X2 stochastisch unabhängig, gilt also
Zunächst folgt ja (4.3) unmittelbar aus (4.2), wenn man Bj WD
fxj g setzt, und umgekehrt ergibt sich (4.2) wie folgt aus (4.3) P .X1 D x1 ; X2 D x2 / D P .X1 D x1 /  P .X2 D x2 /
(wir führen den Nachweis für den Fall n D 2, der allgemeine
Fall erfordert nur einen höheren Schreibaufwand): Sind B1 ; B2 für .x1 ; x2 / 2 D1  D2 , so ergibt sich das folgende auch als
beliebige Borel-Mengen, so gilt wegen der -Additivität von P Faltungsformel bezeichnete Resultat. Bei dessen Formulierung
haben wir die in (4.4) stehende Menge D1 durch deren Teilmen-
P .X1 2 B1 ; X2 2 B2 / ge fx1 2 R j P .X1 D x1 / > 0g ersetzt.
X X
D P .X1 D x1 ; X2 D x2 /
x1 2B1 \D1 x2 2B2 \D2
X X Die diskrete Faltungsformel
D P .X1 D x1 /  P .X2 D x2 /
Es seien X1 und X2 stochastisch unabhängige diskrete Zu-
x1 2B1 \D1 x2 2B2 \D2
0 1 0 1 fallsvariablen. Dann gilt für jedes y 2 R
Kapitel 4

X X
D@ P .X1 D x1 /A  @ P .X2 D x2 /A P .X1 C X2 D y/
x1 2B1 \D1 x2 2B2 \D2 X
D P .X1 D x1 /P .X2 D y  x1 /:
D P .X1 2 B1 /  P .X2 2 B2 /: x1 WP .X1 Dx1 />0

Selbstfrage 1
Was ergibt sich für c in Tab. 4.3, wenn X und Y stochastisch Man beachte, dass die links stehende Wahrscheinlichkeit nur für
unabhängig sind? abzählbar viele Werte y positiv sein kann. Wir werden die dis-
krete Faltungsformel in Abschn. 4.3 wiederholt anwenden und
darum an dieser Stelle nur ein Beispiel angeben, das die Na-
Durch Summieren erhält man auch die Verteilung irgendeiner mensgebung Faltungsformel verständlich macht und typische
reell- oder vektorwertigen Funktion eines diskreten Zufallsvek- Tücken bei der Anwendung dieser Formel offenbart. Um nicht
tors X D .X1 ; : : : ; Xk /, wobei P .X 2 D/ D 1 für eine zu viele Indizes schreiben zu müssen, setzen wir X WD X1 und
abzählbare Menge D  Rk . Ist g W Rk ! Rm eine messba- Y WD X2 .
re Funktion, so gilt mit x WD .x1 ; : : : ; xk / für jede Borel-Menge
B 2 Bm
Beispiel (Faltung diskreter Gleichverteilungen) Die
P .g.X/ 2 B/ D P .X 2 g 1 .B// Zufallsvariablen X und Y seien unabhängig und besitzen je-
weils eine Gleichverteilung auf den Werten 1; 2; : : : ; k. Es gelte
D P .X 2 g 1 .B/ \ D/
X also P .X D j / D P .Y D j / D 1=k für j 2 f1; : : : ; kg. Die
D P .X1 D x1 ; : : : ; Xk D xk /: Zufallsvariable X C Y kann mit positiver Wahrscheinlichkeit
x2g 1 .B/\D nur die Werte 2; 3; : : : ; 2k annehmen. Für z 2 f2; 3; : : : ; 2kg
gilt nach der Faltungsformel
Als Spezialfall betrachten wir die Situation zweier diskreter Zu-
fallsvariablen X1 und X2 mit P .X1 2 D1 / D P .X2 2 D2 / D 1 X
k

für abzählbare Mengen D1 ; D2  R, also P ..X1; X2 / 2 D/ D P .X C Y D z/ D P .X D j /  P .Y D z  j /:


1 mit D WD D1  D2 . Eine häufig auftretende Funktion ist die j D1
4.2 Erwartungswert und Varianz 85

Wegen P .Y D z  j / D 1=k für 1  z  j  k und P .Y D Der Erwartungswert einer Zufallsvariablen


z  j / D 0 sonst, ist der zweite Faktor auf der rechten Seite
hängt nur von deren Verteilung ab
nicht unbedingt für jedes j 2 f1; : : : ; kg positiv. Hat man diese
Tücke eingesehen, so betrachtet man die Fälle z  k C 1 und Um von der obigen Situation zu abstrahieren und technische
k C 2  z  2k getrennt. Im ersten wird die Summe auf der
P Feinheiten zu umgehen, nehmen wir ohne Beschränkung der
rechten Seite zu jz1 2 2
D1 1=k D .z  1/=k und im zweiten zu Allgemeinheit an, dass die auftretenden diskreten Zufallsvaria-
Pk 2 2
j Dzk 1=k D .2k .z 1//=k . Beide Fälle lassen sich unter
blen auf einem diskreten Wahrscheinlichkeitsraum im Sinne der
das Endergebnis in Abschn. 2.4 getroffenen Vereinbarung definiert sind. Es gibt
also eine abzählbare Teilmenge ˝0 von ˝ mit P .˝0/ D 1. Der
k  jk C 1  zj Vorteil dieser Annahme ist, dass sich die wichtigen strukturel-
P .X C Y D z/ D ; z D 2; 3; : : : ; 2k;
k2 len Eigenschaften der Erwartungswertbildung unmittelbar auch
subsumieren, das aus (2.13) für den Spezialfall k D 6 (Au- ohne jegliche Kenntnisse der Maß- und Integrationstheorie er-
gensumme beim zweifachen Würfelwurf) bekannt ist. Das für schließen. Die nachfolgende Definition knüpft direkt an (4.5)
diesen Fall in Abb. 2.4 gezeigt Stabdiagramm besitzt eine Drei- an. Wer sofort Erwartungswerte ausrechnen möchte, kann erst
ecksgestalt. Ist k sehr groß, so geht das „plane“ Stabdiagramm einmal zur Darstellung (4.9) springen.
der Gleichverteilung auf 1; : : : ; k in ein Stabdiagramm über, das
Assoziationen an ein in der Mitte gefaltetes Blatt weckt. J
Definition des Erwartungswertes
Wir möchten zum Schluss dieses Abschnitts darauf hinwei- Der Erwartungswert einer reellen Zufallsvariablen X
sen, dass man die Verteilung der Summe zweier unabhängiger existiert, falls gilt:
Zufallsvariablen oft als Faltung oder Faltungsprodukt der Ver-
teilungen P X und P Y bezeichnet und hierfür die Symbolik X
jX .!/j  P .f!g/ < 1: (4.6)
P X CY DW P X ? P Y verwendet. Diese Namensgebung haben
!2˝0
auch wir in der Überschrift zu obigem Beispiel benutzt.
In diesem Fall heißt
4.2 Erwartungswert und Varianz X
E.X / WD EP .X / WD X .!/  P .f!g/ (4.7)
!2˝0
In diesem Abschnitt behandeln wir den Erwartungswert und
die Varianz als zwei grundlegende Kenngrößen von Verteilun-
der Erwartungswert von X (bzgl. P ).
gen. Um die Definition des Erwartungswertes zu verstehen,

Kapitel 4
stellen Sie sich vor, Sie würden an einem Glücksspiel teilneh-
men, dessen mögliche Ausgänge durch den Grundraum ˝ D
f!1 ; : : : ; !s g beschrieben werden. Dabei trete das Ergebnis !j Kommentar
mit der Wahrscheinlichkeit pj auf, und Pes gelte p1 C : : : C ps D Wer Kenntnisse der Maß- und Integrationstheorie mitbringt,
1. Durch die Festsetzung P .A/ WD j W!j 2A pj , A  ˝, ent- erkennt obige RDefinition als Spezialfall des allgemeinen
steht dann ein endlicher Wahrscheinlichkeitsraum. Erhält man Maß-Integrals X dP . Er kann entspannt weiterlesen und
X .!j / Euro ausbezahlt, wenn sich beim Spiel das Ergebnis !j gewisse Sachverhalte überspringen.
einstellt, und tritt dieser Fall bei n-maliger Wiederholung des Die bisweilen verwendete Indizierung des Erwartungswertes
Spiels hj -mal auf (hj  0, h1 C : : : P C hs D n), so beträgt mit P und die Sprechweise bzgl. P sollen deutlich machen,
der Gesamtgewinn aus den n Spielen js D1 X .!j /  hj Euro. dass der Erwartungswert entscheidend von der Wahrschein-
Der
Ps durchschnittliche Gewinn pro Spiel beläuft sich somit auf lichkeitsverteilung P abhängt. In Abschn. 4.5 werden wir
j D1 X .!j /  hj =n Euro. Da sich nach dem empirischen Gesetz bedingte Erwartungswerte betrachten, die nichts anderes als
über die Stabilisierung relativer Häufigkeiten (vgl. die Diskus- Erwartungswerte bzgl. bedingter Verteilungen sind.
sion vor Abb. 2.2) der Quotient hj =n bei wachsendem n der Bedingung (4.6) ist nur nachzuprüfen, wenn X unendlich
Wahrscheinlichkeit P .f!j g/ annähern sollte, müsste die Sum- viele verschiedene Werte mit positiver Wahrscheinlichkeit
me annimmt. In diesem Fall ist mit (4.6) die absolute Konver-
X
s genz einer unendlichen Reihe nachzuweisen. Diese garan-
X .!j /  P .f!j g/ (4.5) tiert, dass der Erwartungswert wohldefiniert ist und gewisse
j D1 Rechenregeln gelten.
In der Folge lassen wir häufig die Klammern bei der Erwar-
den auf lange Sicht erwarteten Gewinn pro Spiel und somit
tungswertbildung weg, schreiben also
einen fairen Einsatz für dieses Spiel darstellen. Mathematisch
gesprochen ist obige Summe der Erwartungswert der Zufalls- EX WD E.X /;
variablen X als Abbildung auf ˝. Dieser Grundbegriff der
Stochastik geht auf Christiaan Huygens (1629–1695) zurück, wenn keine Verwechslungen zu befürchten sind.
der in seiner Abhandlung Van rekeningh in spelen van geluck Die Zufallsvariable X darf auch die Werte 1 und/oder 1
(1656) den erwarteten Wert eines Spiels mit „Das ist mir so viel annehmen. Der Erwartungswert von X kann aber nur exis-
wert“ umschreibt. tieren, wenn P .X D ˙1/ D 0 gilt. J
86 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Achtung Im Fall einer nichtnegativen diskreten Zufallsvaria- Beispiel (Gleichverteilung auf 1; 2; : : : ; k) Besitzt X ei-
blen sind die in (4.6) und (4.7) stehenden Reihen identisch. Da ne Gleichverteilung auf den Werten 1; 2; : : : ; k, gilt also P .X D
die rechte Seite von (4.7) aber auch (mit dem Wert 1) Sinn j / D 1=k für j D 1; : : : ; k, so folgt mit (4.8)
macht, wenn die Reihe divergiert, definiert man für eine nicht-
negative diskrete Zufallsvariable X
k
1 1 k.k C 1/ kC1
EX D j D  D :
X j D1
k k 2 2
E.X / WD X .!/  P .f!g/ . 1/:
!2˝0 Im Spezialfall k D 6 (Augenzahl beim Wurf eines echten
Würfels) gilt somit EX D 3:5. Der Erwartungswert einer
Hiermit existiert der Erwartungswert einer beliebigen diskreten Zufallsvariablen X muss also nicht notwendig eine mögliche
Zufallsvariablen genau dann, wenn gilt: Realisierung von X sein. J
EjX j < 1: J
Beispiel Eine Urne enthalte eine rote und eine schwarze Ku-
Wir möchten zunächst zeigen, dass der Erwartungswert einer gel. Es wird rein zufällig eine Kugel gezogen. Ist diese rot, ist
Zufallsvariablen nur von deren Verteilung und nicht von der das Experiment beendet. Andernfalls werden die schwarze Ku-
konkreten Gestalt des zugrunde liegenden Wahrscheinlichkeits- gel sowie eine weitere schwarze Kugel in die Urne gelegt und
raums abhängt. der Urneninhalt gut gemischt. Dieser Vorgang wird so lange
wiederholt, bis die (eine) rote Kugel gezogen wird. Die Zu-
fallsvariable X bezeichne die Anzahl der dazu benötigten Züge.
Die Transformationsformel für den Erwartungswert Nach Aufgabe 3.15 gilt
Der Erwartungswert einer diskreten Zufallsvariablen X 1
P .X D k/ D ; k  1;
existiert genau dann, wenn gilt: k.k C 1/
X und somit
jxj  P .X D x/ < 1:
X
1 X
1
1
x2RWP .X Dx/>0 EX D k  P .X D k/ D D 1:
kC1
kD1 kD1
In diesem Fall folgt
Der Erwartungswert von X existiert also nicht. J
X
EX D x  P .X D x/: (4.8)
x2RWP .X Dx/>0
Die Zuordnung X 7! E.X / ist ein lineares,
Kapitel 4

monotones Funktional
Beweis Mit dem großen Umordnungssatz für Reihen (s. z. B. Die nachfolgenden Eigenschaften bilden das grundlegende
[1], Abschn. 10.4) gilt im Falle der Konvergenz Werkzeug im Umgang mit Erwartungswerten.
X X X
jX .!/j  P .f!g/ D jxj  P .f!g/
!2˝0 x2X .˝0 / !2˝0 WX .!/Dx Eigenschaften der Erwartungswertbildung
X
D jxj  P .X D x/ Es seien X und Y Zufallsvariablen mit existierenden Er-
x2X .˝0 / wartungswerten und a 2 R. Dann existieren auch die
X
D jxj  P .X D x/: Erwartungswerte von X C Y und aX , und es gelten:
x2RWP .X Dx/>0 a) E.aX / D aEX (Homogenität),
b) E.X C Y / D EX C EY (Additivität),
Lässt man jetzt die Betragsstriche weg, so folgt die Behauptung.
c) E .1A / D P .A/; A 2 A,

d) aus X  Y folgt EX  EY (Monotonie),
e) jE.X /j  EjX j. (Dreiecksungleichung)
Selbstfrage 3
An welcher Stelle wurde hier der große Umordnungssatz be-
nutzt?
Beweis In (4.7) steht eine endliche Summe oder der Grenz-
wert einer absolut konvergenten Reihe. Die Regeln a), b), d)
Kommentar Formel (4.8) zur Berechnung des Erwartungs- und e) folgen dann durch elementare Betrachtungen endlicher
wertes kann salopp als „Summe aus Wert mal Wahrscheinlich- Summen bzw. Rechenregeln für absolut konvergente unendliche
keit“ beschrieben werden. Nimmt X die Werte x1 ; x2 ; : : : an, so Reihen. c) ergibt sich aus
ist X
X E .1A / D P .f!g/ D P .A \ ˝0 / D P .A/:
E.X / D xj  P .X D xj /: (4.9) !2A\˝0
j 1 J Das letzte Gleichheitszeichen gilt wegen P .˝0/ D 1. 
4.2 Erwartungswert und Varianz 87

Selbstfrage 4 kann es Fälle wie den folgenden geben, in denen der Erwar-
Können Sie Eigenschaft e) beweisen? tungswert ohne Kenntnis der (viel komplizierteren) Verteilung
angegeben werden kann.

Nach a), b) und d) ist die Erwartungswertbildung X 7! EX ein Beispiel (Rekorde in zufälligen Permutationen) Ein
lineares Funktional auf dem Vektorraum aller reellen Zufallsva- Kartenspiel (32 Karten) wird gut gemischt und eine Karte auf-
riablen auf ˝, für die EjX j < 1 gilt. Durch Induktion erhalten gedeckt; diese bildet den Beginn eines ersten Stapels. Hat die
wir die wichtige Rechenregel nächste aufgedeckte Karte bei vorab definierter Rangfolge einen
0 1 höheren Wert, so beginnt man einen neuen Stapel. Andernfalls
Xn Xn
legt man die Karte auf den ersten Stapel. Auf diese Weise fährt
E@ aj Xj A D aj EXj (4.10) man fort, bis alle Karten aufgedeckt sind. Wie viele Stapel lie-
j D1 j D1
gen am Ende im Mittel vor?
für Zufallsvariablen X1 ; : : : ; Xn mit existierenden Erwartungs- Offenbar ist dieses Problem gleichwertig damit, die Anzahl der
werten und reelle Zahlen a1 ; : : : ; an . Zusammen mitP c) ergibt Rekorde in einer rein zufälligen Permutation der Zahlen von 1
sich der Erwartungswert einer Indikatorsumme jnD1 1fAj g bis 32 zu untersuchen. Allgemeiner betrachten wir hierzu wie im
von Ereignissen A1 ; : : : ; An 2 A zu Rencontre-Problem in Abschn. 2.5 die Menge ˝ D Pernn .oW /
0 1 aller Permutationen der Zahlen von 1 bis n mit der Gleichver-
X n X n teilung P sowie die Ereignisse
E@ 1fAj gA D P .Aj /: (4.11)

j D1 j D1
Aj D .a1 ; : : : ; an / 2 ˝ j aj D max ai ; j D 1; : : : ; n:
i D1;:::;j
Insbesondere gilt also
0 1 Denkt man sich a1 ; a2 ; : : : ; an wie Karten nacheinander aufge-
X
n deckt, so tritt Aj ein, wenn die j -te Zahl einen Rekord liefert,
E@ 1fAj gA D n  p; (4.12) also aj unter den bis dahin aufgedeckten P Zahlen die größte ist.
j D1 Somit gibt die Indikatorsumme X D jnD1 1fAj g die Anzahl
der Rekorde in einer zufälligen Permutation der Zahlen 1; : : : ; n
wenn A1 ; : : : ; An die gleiche Wahrscheinlichkeit p besitzen. an.
Wegen P .Aj / D 1=j (siehe Aufgabe 3.28) liefert (4.11) das
Beispiel (Binomialverteilung) Das Beispiel über die Resultat
Bernoulli-Kette und die Binomialverteilung in Abschn. 3.3
1 1 1

Kapitel 4
zeigt, dass eine Zufallsvariable X mit Pder Binomialverteilung EX D 1 C C C ::: C (4.14)
Bin.n; p/ als Indikatorsumme X D jnD1 1fAj g von n Ereig- 2 3 n
nissen A1 ; : : : ; An mit P .A1 / D : : : D P .An / D p dargestellt und somit EX 4:06 im Fall n D 32.
werden kann. Nach (4.12) gilt E.X / D np. Dieses Ergebnis
Das Verhalten von EX für große Werte von n ist überraschend.
erhält man auch umständlicher durch direkte Rechnung aus der
Durch Integral-Abschätzung (Abb. 4.2) folgt EX  1 C log n,
Verteilung
was in den Fällen n D 1 000 und n D 1 000 000 die Unglei-
! chungen EX  7:91 bzw. EX  14:81 liefert. Es sind also
n k
P .X D k/ D p .1  p/nk ; k D 0; 1; : : : ; n; deutlich weniger Rekorde zu erwarten, als so mancher vielleicht
k zunächst annehmen würde. J
denn (4.8) sowie die binomische Formel liefern Video 4.1 Rekorde in einer rein zufälligen Permutation I
!
X n
n k
EX D k p .1  p/nk
k
kD0
!
Xn
n  1 k1
D np p .1  p/.n1/.k1/
k1
kD1

D np.p C 1  p/n1 f (x) = 1/x

D np:

Ganz analog ergibt sich der Erwartungswert einer Zufallsvaria-


blen mit der hypergeometrischen Verteilung (2.37) zu EX D 1
np, wobei p D r=.r C s/, siehe Aufgabe 4.9. J .5

Wie in diesem Beispiel gesehen ist es oft eleganter, den Er- x


0 1 2 3 ··· n
wartungswert einer Zufallsvariablen mithilfe der Linearität der
Zuordnung X 7! EX und der Beziehung E1fAg D P .A/ als Pn
über die Transformationsformel (4.8) zu berechnen. Überdies Abb. 4.2 Zur Ungleichung j D1 1=j  1 C log n
88 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Unter der Lupe: Die Jordansche Formel

Über die Verteilungen von Indikatorsummen und man erhält insgesamt


Sind A1 ; : : : ; An Ereignisse in einem Wahrscheinlichkeits-
X
nk X X Y
raum, so kann die Verteilung der Indikatorsumme 1fX D kg D .1/r 1fAj g:
X D 1fA1 g C : : : C 1fAn g rD0 T 2fN gk U 2fN nT gr j 2T [U

mithilfe der schon bei der Formel des Ein- und Ausschlie-  
Die .k Cr/-elementige Menge T [U tritt hier kCr k
-mal auf,
ßens verwendeten Summen denn so oft lässt sich aus T [U eine k-elementige Teilmenge
X
Sr WD P .Ai1 \ : : : \ Air /; (4.13) T bilden. Mit dieser Einsicht folgt
1i1 <:::<ir n !
X
nk
k Cr X Y
1  r  n, sowie S0 WD 1 ausgedrückt werden. Es gilt näm- 1fX D kg D .1/r 1fAj g:
lich das folgende, auf den ungarischen Mathematiker und rD0
k
V 2fN gkCr j 2V
Chemiker Károly Jordan (1871–1959) zurückgehende Resul-
tat. Die Linearität der Erwartungswertbildung sowie E.1A / D
P .A/ und (2.3) ergeben dann
Die Jordan-Formel P .X D k/ D E1fX D kg
! 0 1
Für k 2 f0; 1; : : : ; ng gilt ! X
nk X \
X kCr
P@ Aj A
n
j k j D .1/r
P .X D k/ D .1/ Sj : k
k rD0 V 2.N /kCr j 2V
j Dk !
X
nk
kCr
D .1/r SkCr ;
rD0
k
Beweis Die Beweisidee ist sehr klar und einsichtig. Wir
setzen N WD f1; : : : ; ng und schreiben allgemein fM gs für und die Behauptung folgt mit der Indexverschiebung j WD
die Menge aller s-elementigen Teilmengen einer Menge M . k C r. 
Kapitel 4

Nach (2.7) gilt dann 0 1


X \ \ Aus der Jordanschen Formel ergibt sich die Formel des Ein-
fX D kg D @ Aj \ Ac` A ; und Ausschließens (Aufgabe 4.10), und man erhält u. a. in
T 2fN gk j 2T `2N nT Verallgemeinerung des Rencontre-Problems die Verteilung
und die Rechenregeln (2.3), (2.4) und (2.5) für Indikator- der Anzahl der Fixpunkte in einer rein zufälligen Permuta-
funktionen liefern tion (Aufgabe 4.52).
X Y Y
1fX D kg D 1fAj g .1  1fA` g/ :
Video 4.2 Die Jordan-Formel: Verteilungen von Zählvaria-
T 2fN gk j 2T `2N nT
blen
Multipliziert man das rechts stehende Produkt aus, so ergibt
sich
Y X
nk X Y
.1  1fA` g/ D .1/r 1fAi g;
`2N nT rD0 U 2fN nT gr i 2U

so entstehenden Körpers ergibt sich nämlich aus der Gleichge-


E.X / ist der Schwerpunkt einer Verteilung P
wichtsbedingung jkD1 .xj  s/P .X D xj / D 0 zu

Wir haben zu Beginn dieses Abschnitts den Erwartungswert X


k
einer diskreten Zufallsvariablen X über eine Häufigkeitsinter- sD xj  P .X D xj / D E.X /;
pretation motiviert, nämlich den auf lange Sicht erwarteten j D1
Gewinn pro Spiel. Eine wichtige physikalische Interpretation
des Erwartungswertes ergibt sich, wenn die möglichen Werte siehe Abb. 4.3.
x1 ; : : : ; xk von X als Massepunkte mit den Massen P .X D xj / Häufig ist eine Zufallsvariable X eine Funktion eines Zufalls-
auf der als gewichtslos angenommenen reellen Zahlengeraden vektors. Für diesen Fall ist zur Berechnung des Erwartungswer-
gedeutet werden. Der Schwerpunkt (Massenmittelpunkt) s des tes von X folgendes Resultat wichtig.
4.2 Erwartungswert und Varianz 89

(X = xj )
Multiplikationsregel für den Erwartungswert
0.3
Sind X und Y stochastisch unabhängige Zufallsvariablen
mit existierenden Erwartungswerten, so existiert auch der
0.2 Erwartungswert des Produktes X Y , und es gilt

0.1 E.X Y / D EX  EY :

0
x3 x2 xk x1 x4
Beweis Wir wenden die allgemeine Transformationsformel
(X) mit k D 2, Z D .X ; Y / und g.x; y/ D x  y an. Mit
D WD fx j P .X D x/ > 0g und E WD fy 2 R j P .Y D y/ > 0g
Abb. 4.3 Erwartungswert als physikalischer Schwerpunkt folgt
X
jX .!/Y .!/jP .f!g/
!2˝0
Die allgemeine Transformationsformel X
D jxyj P .X D x; Y D y/
Es seien Z ein k-dimensionaler diskreter Zufallsvektor .x;y/2DE
und g W Rk ! R eine messbare Funktion. Dann existiert X
der Erwartungswert der Zufallsvariablen g.Z/ D g ı Z D jxjjyjP .X D x/P .Y D y/
.x;y/2DE
genau dann, wenn gilt: X X
X D jxjP .X D x/ jyjP .Y D y/
jg.z/j  P .Z D z/ < 1: x2D y2E
z2Rk WP .ZDz/>0 <1

In diesem Fall folgt und somit EjX Y j < 1. Weglassen der Betragsstriche liefert
dann wegen (4.8) die Behauptung. 
X
Eg.Z/ D g.z/  P .Z D z/: (4.15)
z2Rk WP .ZDz/>0
Die Varianz ist der Erwartungswert der

Kapitel 4
quadrierten Abweichung vom Erwartungswert

Beweis Es sei D WD fz 2 Rk j P .Z D z/ > 0g. Wegen Während der Erwartungswert als „Schwerpunkt einer Vertei-
lung“ deren grobe Lage beschreibt, fehlt uns noch eine Kenn-
X X X größe, um die Stärke der Streuung einer Verteilung um deren
jg.Z.!//j  P .f!g/ D jg.z/j  P .f!g/ Erwartungswert zu messen.
!2˝0 z2D !2˝0 WZ.!/Dz
X Betrachtet man etwa die Stabdiagramme der (den glei-
D jg.z/j  P .Z D z/ chen Erwartungswert 4 aufweisenden) Binomialverteilung
z2D Bin.8; 0:5/ und der hypergeometrischen Verteilung Hyp.8; 9; 9/
in Abb. 4.4, so scheinen die Wahrscheinlichkeitsmassen der
ergibt sich die erste Behauptung aus dem Großen Umordnungs- Binomialverteilung im Vergleich zu denen der hypergeome-
satz für Reihen. Lässt man die Betragsstriche weg, so folgt die trischen Verteilung stärker um den Wert 4 zu streuen. Unter
Darstellung für Eg.Z/.  diversen Möglichkeiten, die Stärke der Streuung einer Vertei-
lung um ihren Erwartungswert zu messen, ist die Varianz die
Selbstfrage 5 gebräuchlichste.
Wie folgt die (spezielle) Transformationsformel (4.8) aus die-
sem allgemeinen Resultat?
(X = k), X ∼ Bin(8, 0.5) (X = k), X ∼ Hyp(8, 9, 9)
0.4 0.4
Eine in (4.15) enthaltene Botschaft ist wiederum, dass nur die 0.3 0.3
Verteilung von Z und nicht die spezielle Gestalt des zugrun- 0.2 0.2
de liegenden Wahrscheinlichkeitsraums zur Bestimmung von 0.1 0.1
Eg.Z/ benötigt wird.
k k
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Als erste Anwendung der allgemeinen Transformationsformel
erhalten wir eine weitere grundlegende Eigenschaft des Erwar- Abb. 4.4 Stabdiagramme der Binomialverteilung Bin.8; 0:5/ und der
tungswertes. hypergeometrischen Verteilung Hyp.8; 9; 9/
90 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Somit haben wir die zweite der nachfolgenden elementaren Ei-


Definition von Varianz und Standardabweichung genschaften der Varianz bewiesen.
Ist X eine Zufallsvariable mit EX 2 < 1, so heißen
Elementare Eigenschaften der Varianz
V .X / WD E.X  EX /2
Für die Varianz einer Zufallsvariablen X gelten:
die Varianz von X und
a) V .X / D E.X  a/2  .EX  a/2 ; a 2 R,
p b) V .X / D EX 2  .EX /2,
C V .X /
c) V .X / D mina2R E.X  a/2 ,
die Standardabweichung oder Streuung von X . d) V .aX C b/ D a2 V .X /; a; b 2 R,
e) V .X /  0; V .X / D 0 () P .X D a/ D 1 für ein
a 2 R.

Kommentar Wegen jX j  1 C X 2 folgt aus der voraus-


gesetzten Existenz von EX 2 auch EjX j < 1 und damit die
Existenz von EX . Weiter existiert wegen Beweis a) folgt wie die bereits hergeleitete Regel b), indem
man .X a C aEX /2 ausquadriert. Die Minimaleigenschaft c)
.X  a/2  X 2 C 2jaj  jX j C a2 ; a 2 R; ist eine Konsequenz aus a). Den Nachweis von d) und e) sollten
Sie selbst führen können. 
auch der Erwartungswert von .X  EX /2 . J

Als Erwartungswert der Zufallsvariablen g.X / mit g.x/ WD Selbstfrage 6


.x  EX /2 , x 2 R, kann man analog zu den zu Beginn die- Können Sie d) und e) beweisen?
ses Abschnitts angestellten Überlegungen die Größe V .X / als
durchschnittliche Auszahlung pro Spiel auf lange Sicht deu-
ten, wenn der Spielgewinn im Fall des Ausgangs ! nicht durch Kommentar Zu Ehren des Mathematikers Jakob Steiner
X .!/, sondern durch .X .!/EX /2 gegeben ist. Eine physikali- (1796–1863) bezeichnet man die Eigenschaft a) auch als Stei-
sche Interpretation erfährt die Varianz, wenn in der vor Abb. 4.3 nerschen Verschiebungssatz. Die Größe E.X a/2 wird mittlere
beschriebenen Situation die als gewichtslos angenommene reel- quadratische Abweichung von X um a genannt. Da wir die
le Zahlengerade mit konstanter Winkelgeschwindigkeit v um den Varianz als Trägheitsmoment des durch die Verteilung von X
Schwerpunkt EX gedreht wird. Es sind dann vj WD jxj EX jv definierten Systems von Massepunkten bzgl. der Rotationsach-
Kapitel 4

die Rotationsgeschwindigkeit und Ej WD 12 P .X D xj /vj2 die se um den Schwerpunkt EX identifiziert haben, ist in gleicher
Rotationsenergie des j -ten Massepunktes. Die gesamte Rotati- Weise E.X  a/2 das resultierende Trägheitsmoment, wenn die
onsenergie beträgt Drehung des Systems um den Punkt a erfolgt. Die Minimalei-
genschaft c) heißt dann aus physikalischer Sicht nur, dass das
X
k
1 2X
k
Trägheitsmoment bei Drehung um den Schwerpunkt minimal
Ej D v .xj  EX /2 P .X D xj /: wird. Eigenschaft d) besagt insbesondere, dass sich die Varianz
j D1
2 j D1
einer Zufallsvariablen nicht unter Verschiebungen der Vertei-
Somit ist V .X / das Trägheitsmoment des Systems von Masse- lung, also bei Addition einer Konstanten, ändert. J
punkten bzgl. der Rotationsachse um den Schwerpunkt.
Als Erwartungswert einer Funktion der Zufallsvariablen X kann Beispiel (Gleichverteilung auf 1; 2; : : : ; k) Besitzt X ei-
man die Varianz von X über die allgemeine Darstellungsformel ne Gleichverteilung auf den Werten 1; 2; : : : ; k, gilt also P .X D
(4.15) berechnen und erhält j / D 1=k für j D 1; : : : ; k, so folgt mit der allgemeinen Trans-
X formationsformel
V .X / D .x  EX /2  P .X D x/: (4.16)
x2RWP .X Dx/>0 X
k
1X 2
k
EX 2 D j 2 P .X D j / D j
k j D1
Oft ist es jedoch zweckmäßiger, den Ausdruck .X  EX /2 nach j D1
der binomischen Formel auszurechnen und die Linearität der 1 k.k C 1/.2k C 1/ .k C 1/.2k C 1/
Erwartungswertbildung sowie die Eigenschaft E.1A / D P .A/ D  D :
k 6 6
auszunutzen. Mit A WD ˝ und P .˝/ D 1 ergibt sich insbeson-
dere, dass der Erwartungswert der konstanten Zufallsvariablen Zusammen mit dem auf schon berechneten Erwartungswert
Y  a gleich a ist, und wir erhalten EX D .k C 1/=2 ergibt sich unter Beachtung von Eigenschaft
b) das Resultat
V .X / D E .X  EX /2

D E X 2  2.EX /X C .EX /2 .k C 1/.2k C 1/ .k C 1/2 k2  1
V .X / D  D : (4.17)
D EX 2  2.EX /  .EX / C .EX /2: 6 4 12
J
4.2 Erwartungswert und Varianz 91

Wohingegen der Erwartungswert einer Summe von Zufallsva- Eine standardisierte Zufallsvariable hat den
riablen nach (4.10) gleich der Summe der Erwartungswerte der
Erwartungswert 0 und die Varianz 1
Summanden ist, trifft dieser Sachverhalt für die Varianz i. Allg.
nicht mehr zu (siehe Abschn. 4.4). Es gilt jedoch folgendes Man nennt die Verteilung P X einer Zufallsvariablen ausge-
wichtige Resultat. artet oder degeneriert, falls sie in einem Punkt konzentriert
ist, falls also ein a 2 R mit P .X D a/ D 1 existiert.
Additionsregel für die Varianz Andernfalls heißt P X nichtausgeartet oder nichtdegeneriert.
Diese Begriffsbildungen gelten gleichermaßen für Zufallsvek-
Es seien X1 ; : : : ; Xn stochastisch unabhängige Zufallsva- toren. Da degenerierte Verteilungen in der Regel uninteressant
riablen mit existierenden Varianzen. Dann gilt sind, wird dieser Fall im Folgenden häufig stillschweigend
X  ausgeschlossen.
n X
n
V Xj D V .Xj /: Hat X eine nichtdegenerierte Verteilung, und gilt EX 2 < 1, so
j D1 j D1 ist die Varianz von X positiv. In diesem Fall kann man von X
mithilfe der affinen Transformation
X  EX
Beweis Nach der X 7! p DW X 
P P Cauchy-Schwarz-Ungleichung gilt V .X /
. jnD1 Xj  1/2  n jnD1 Xj2 . Dies zeigt, dass auch die Varianz
der Summe X1 C : : : C Xn existiert. Wegen V .X C a/ D V .X /
zu einer Zufallsvariablen X  übergehen, die wegen V .aX C
reicht es aus, den Fall EXj D 0, j D 1; : : : ; n, zu betrach-
b/ D a2 V .X / den Erwartungswert 0 und die Varianz p 1 be-
ten. Dann gilt nach der Multiplikationsregel E.Xj Xk / D 0 für
j ¤ k sowie EXj2 D V .Xj /, und es folgt sitzt. Man nennt den Übergang von X zu .X  EX /= V .X /
die Standardisierung von X . Gilt bereits EX D 0 und
X n   X n 2  V .X / D 1, so heißt X eine standardisierte Zufallsvaria-
V Xj D E Xj ble oder kurz standardisiert. Man beachte, dass man wegen
j D1 j D1 V .aX / D a2 V .X / beim Standardisieren durch die Standardab-
X
n X
n  weichung, also die Wurzel aus der Varianz, dividiert.
DE Xj Xk
j D1 kD1
Die folgende wichtige Ungleichung zeigt, wie die Wahrschein-
lichkeit einer großen Abweichung einer Zufallsvariablen X um
X
n X
n
ihren Erwartungswert mithilfe der Varianz abgeschätzt wer-
D E.Xj Xk /
den kann. Sie wird gemeinhin mit dem Namen des russischen

Kapitel 4
j D1 kD1
Mathematikers Pafnuti Lwowitsch Tschebyschow (1821–1894)
X
n X verknüpft, war aber schon Irénée-Jules Bienaymé im Jahr 1853
D E.Xj2 / C E.Xj Xk /
im Zusammenhang mit der Methode der kleinsten Quadrate be-
j D1 j ¤k
kannt.
X
n
D V .Xj /: 
j D1
Die Tschebyschow-Ungleichung

Beispiel (Binomialverteilung) Um die Varianz einer Ist X eine Zufallsvariable mit EX 2 < 1, so gilt für jedes
Bin.n; p/-verteilten Zufallsvariablen zu bestimmen, nutzen wir " > 0:
wie bei der Berechnung des Erwartungswertes vonP X aus, dass
X die gleiche Verteilung wie eine Indikatorsumme jnD1 1fAj g V .X /
P .jX  EX j  "/  : (4.18)
besitzt, in der die auftretenden Ereignisse unabhängig sind und "2
die gleiche Wahrscheinlichkeit p besitzen. Da die Indikatorva-
riablen 1fAj g, j D 1; : : : ; n, nach Aufgabe 3.30 stochastisch
unabhängig sind, folgt mit obigem Satz Beweis Wir betrachten die Funktionen
X
n (
V .X / D V .1fAj g/ D n V .1fA1 g/: 1; falls jx  EX j  ";
j D1
g.x/ WD
0 sonst,
Mit 1fA1 g2 D 1fA1 g und E1fA1 g D P .A1 / D p sowie 1
V .1fA1 g/ D E.1fA1 g2 /  .E1fA1 g/2 ergibt sich dann h.x/ WD  .x  EX /2 ; x 2 R:
"2
V .X / D n p .1  p/:
Wegen g.x/  h.x/, x 2 R (siehe Abb. 4.5) gilt g.X .!// 
Natürlich kann man dieses Resultat auch über die Darstellungs- h.X .!// für jedes ! 2 ˝. Nach Eigenschaft d) der Erwartungs-
formel erhalten, siehe Aufgabe 4.31. J wertbildung folgt Eg.X /  Eh.X /, was zu zeigen war. 
92 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Hintergrund und Ausblick: Der Weierstraßsche Approximationssatz

Bernstein-Polynome, die Binomialverteilung und die f


Diese zöge die gleichmäßige Konvergenz der Folge .Bn / ge-
Tschebyschow-Ungleichung gen f nach sich, denn die rechte Seite wäre für genügend
Nach dem Weierstraßschen Approximationssatz (s. z. B. [1], großes n kleiner oder gleich 2".
Abschn. 19.6) gibt es zu jeder stetigen Funktion f auf einem P  
Wegen nkD0 kn x k .1  x/nk D 1 gilt
kompakten Intervall Œa; b mit a < b eine Folge .Pn /n1
von Polynomen, die gleichmäßig gegen f konvergiert, für ˇ !
n ˇ  
X
die also ˇ k ˇ n k
jBnf .x/  f .x/j  ˇ ˇ nk
lim max jPn .x/  f .x/j D 0 ˇf n  f .x/ˇ k x .1  x/ :
n!1 axb kD0

gilt. Die nachfolgende Konstruktion einer solchen Folge geht


Wir spalten jetzt die rechts stehende Summe über k 2
auf den Mathematiker Sergej Natanowitsch Bernstein (1880–
f0; 1; : : : ; ng auf, indem wir k einmal die Menge I1 WD
1968) zurück. Zunächst ist klar, dass wir o.B.d.A. a D 0
fk j jk=n  xj  ıg und zum anderen die Menge I2 WD
und b D 1 setzen können. Wir müssen ja nur zur Funktion
fk j jk=n  xj > ıg durchlaufen lassen. Nach (4.19) ist die
g W Œ0; 1 ! R mit g.x/ WD f .a C x.b  a// übergehen.
Summe über k 2 I1 höchstens gleich ". In der Summe über
Gilt dann max0x1 jg.x/  Q.x/j  " für ein Polynom Q,
k 2 I2 schätzen wir jf .k=n/  f .x/j durch 2M nach oben
so folgt maxayb jf .x/  P .x/j  ", wobei P das durch
ab und erhalten insgesamt
P .y/ WD Q..y  a=.b  a// gegebene Polynom ist.
!
Die von Bernstein verwendeten und nach ihm benannten
f
X n
Bernstein-Polynome Bn sind durch jBnf .x/  f .x/j  " C 2M x k .1  x/nk :
k
X
n   ! k2I2

f k n k
Bn .x/ WD f x .1  x/nk
n k Die hier übrig bleibende Summe ist aber stochastisch in-
kD0
terpretierbar, nämlich als P .jX =n  xj > ı/, wobei die
definiert. Um die Approximationsgüte der Funktion f durch Zufallsvariable X die Binomialverteilung Bin.n; x/ besitzt.
f Wegen E.X =n/ D x ergibt sich mit der Tschebyschow-
Bn zu prüfen, geben wir uns ein beliebiges " > 0 vor. Da
f auf Œ0; 1 gleichmäßig stetig ist, gibt es ein ı > 0 mit der Ungleichung
Kapitel 4

Eigenschaft !
X n
8x; y 2 Œ0; 1 W jy  xj  ı H) jf .y/  f .x/j  ": x k .1  x/nk
k
(4.19) k2I2
ˇ ˇ 
ˇX ˇ V .X =n/
Zudem existiert ein M < 1 mit max0x1 jf .x/j  M , D P ˇˇ  x ˇˇ > ı 
n ı2
denn f ist auf dem Intervall Œ0; 1 beschränkt. Wir behaup-
ten nun die Gültigkeit der Ungleichung nx.1  x/ 1
D  ;
n2 ı 2 4nı 2
M
max jBnf .x/  f .x/j  " C : (4.20)
0x1 2nı 2 sodass (4.20) folgt.

Nach der Tschebyschow-Ungleichung gilt also für eine standar-


disierte Zufallsvariable X
P .jX j  2/  0:25; P .jX j  5/  0:04; P .jX j  10/  0:01:
1
Für spezielle Verteilungen gibt es hier bessere Schranken. Wie
wir jetzt sehen werden, liegt der Wert der Tschebyschow-
Ungleichung vor allem in ihrer Allgemeinheit.
x
Video 4.3 Die Bienaymé-Tschebyschow-Ungleichung
X −ε X X +ε

Abb. 4.5 Zum Beweis der Tschebyschow-Ungleichung


4.3 Wichtige diskrete Verteilungen 93

Das schwache Gesetz großer Zahlen: Xn

Der Erwartungswert als stochastischer 6

Grenzwert arithmetischer Mittel 5

4
Wir haben zu Beginn von Abschn. 2.3 das empirische Gesetz
über die Stabilisierung relativer Häufigkeiten herangezogen, um 3
die axiomatischen Eigenschaften von Wahrscheinlichkeiten als 2
mathematische Objekte zu motivieren. Diese Erfahrungstatsa-
1
che stand auch am Anfang von Abschn. 4.2 Pate, als wir die
Definition des Erwartungswertes einer Zufallsvariablen über die n
durchschnittliche Auszahlung pro Spiel auf lange Sicht ver- 0 50 100 150 200 250 300
ständlich gemacht haben. Das folgende Schwache Gesetz großer
Zahlen stellt ebenfalls einen Zusammenhang zwischen arithme- Abb. 4.6 Simulierte arithmetische Mittel der Augensumme beim Wür-
tischen Mitteln und Erwartungswerten her. Es geht dabei jedoch felwurf
vom axiomatischen Wahrscheinlichkeitsbegriff aus.
man das Ereignis Aj als Treffer in einem j -ten Versuch einer
Das Schwache Gesetz großer Zahlen Bernoulli-Kette
P der Länge n, so kann das mit Rn WD X n D
n1 j D1 1fAj g bezeichnete arithmetische Mittel als zufälli-
Es seien X1 ; X2 ; : : : ; Xn stochastisch unabhängige Zu- ge relative Trefferhäufigkeit angesehen werden. Das Schwache
fallsvariablen mit gleichem Erwartungswert  WD EX1 Gesetz großer Zahlen bedeutet dann in „komplementärer For-
und gleicher Varianz  2 WD V .X1 /. Die Zufallsvariable mulierung“

1X
n
lim P .jRn  pj < "/ D 1 für jedes " > 0: (4.22)
X n WD Xj n!1
n j D1
Dieses Hauptergebnis der Ars Conjectandi von Jakob Bernoulli
bezeichne das arithmetische Mittel von X1 ; : : : ; Xn . Dann besagt, dass sich die Wahrscheinlichkeit von Ereignissen, deren
gilt für jedes " > 0: Eintreten oder Nichteintreten unter unabhängigen und gleichen
  Bedingungen beliebig oft wiederholt beobachtbar ist, wie eine
lim P jX n  j  " D 0: (4.21) physikalische Konstante messen lässt: Die Wahrscheinlichkeit,
n!1

Kapitel 4
dass sich die relative Trefferhäufigkeit Rn in einer Bernoulli-
Kette vom Umfang n von der Trefferwahrscheinlichkeit p um
weniger als einen beliebig kleinen, vorgegebenen Wert " unter-
Beweis Da die Erwartungswertbildung linear ist und glei- scheidet, konvergiert beim Grenzübergang n ! 1 gegen eins.
che Erwartungswerte vorliegen, gilt EX n D . Wegen der In der Sprache der Analysis heißt (4.22), dass es zu jedem " > 0
Unabhängigkeit ist auch die Varianzbildung
Pn additiv, und der und zu jedem  mit 0 <  < 1 eine von " und  abhängende
Faktor 1=n vor der Summe j D1 Xj führt zu V .X n / D natürliche Zahl n0 mit der Eigenschaft
 2=n. Mithilfe der Tschebyschow-Ungleichung folgt dann
P jX n  j  "   2 =.n  "2 / und somit die Behauptung.  P .jRn  pj < "/  1   (4.23)

Kommentar Die Aussage des schwachen Gesetzes großer für jedes feste n  n0 gibt. In Abschn. 6.2 werden wir dieses
Zahlen bedeutet, dass die Folge der arithmetischen Mittel un- Ergebnis dahingehend zu einem Starken Gesetz großer Zahlen
abhängiger Zufallsvariablen mit gleichem Erwartungswert  verschärfen, dass man die in (4.23) stehende Wahrscheinlich-
und gleicher Varianz stochastisch gegen  konvergiert (siehe keitsaussage für genügend großes n0 simultan für jedes n  n0
Abschn. 6.2). In diesem Sinn präzisiert es unsere Vorstellung, behaupten kann, dass also
dass der Erwartungswert ein auf die Dauer erhaltener durch- !
schnittlicher Wert sein sollte. J \
1
P fjRn  pj < "g  1  
nDn0
Abb. 4.6 zeigt Plots der arithmetischen Mittel X n , n D
1; : : : ; 300, der Augenzahlen X1 ; : : : ; Xn von n D 300 simu- gilt.
lierten Würfen mit einem echten Würfel. Es ist deutlich zu
erkennen, dass sich diese Mittel gegen den Erwartungswert
E.X1 / D  D 3:5 stabilisieren.
4.3 Wichtige diskrete Verteilungen
Sind A1 ; : : : ; An stochastisch unabhängige Ereignisse mit glei-
cher Wahrscheinlichkeit p, so kann man in der Situation des Mit der hypergeometrischen Verteilung und der Binomialvertei-
obigen Satzes speziell Xj WD 1fAj g, j D 1; : : : ; n, setzen. Es lung sind uns bereits zwei wichtige diskrete Verteilungsmodelle
gilt dann  D EX1 D P .A1 / D p und  2 D p.1  p/. Deutet begegnet. Beide treten beim n-maligen rein zufälligen Ziehen
94 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

aus einer Urne auf, die r rote und s schwarze Kugeln enthält. X C Y die Binomialverteilung Bin.m C n; p/ besitzt. Hier-
Die zufällige Anzahl X der gezogenen roten Kugeln besitzt die zu betrachten wir das Standard-Modell einer Bernoulli-Kette
hypergeometrische Verteilung Hyp.n; r; s/, falls das Ziehen oh- der Länge m C n wie im Beispiel über die Bernoulli-Kette
ne Zurücklegen erfolgt. Wird mit Zurücklegen gezogen, so hat und die Binomialverteilung in Abschn. 3.3. In dem dort kon-
X die Binomialverteilung Bin.n; p/ mit p D r=.r C s/, vgl. die struierten Grundraum f0; 1gmCn gibt es unabhängige Ereignisse
in den großen Beispiel-Boxen in Abschn. 2.6 zu diesen Vertei- A1 ; : : : ; A
PmCn mit gleicher Wahrscheinlichkeit
Pn p. Setzen wir
m
lungen geführte Diskussion. Der Vollständigkeit halber führen X WD j D1 1fAj g und Y WD j D1 1fAmCj g, so sind X
wir beide Verteilungen noch einmal an. und Y unabhängig und besitzen P die geforderten Verteilungen.
Außerdem ist X C Y D jmCn D1 1fA j g binomialverteilt mit Pa-
rametern m C n und p, was zu zeigen war. Der Beweis mithilfe
Definition der hypergeometrischen Verteilung der Faltungsformel erfolgt durch direkte Rechnung: Für jedes
Die Zufallsvariable X besitzt eine hypergeometrische k 2 f0; 1; : : : ; ng gilt
Verteilung mit Parametern n; r und s (r; s 2 N; n 
r C s), falls gilt: X
k
P .X C Y D k/ D P .X D j ; Y D k  j /
r  s
 j D0
P .X D k/ D rCs 
k nk
; k D 0; 1; : : : ; n: X
k
n D P .X D j /  P .Y D k  j /
j D0
Wir schreiben hierfür kurz X Hyp.n; r; s/. ! !
X k
m j n
D p .1  p/mj p kj .1  p/nkCj
j D0
j kj
! !
Definition der Binomialverteilung X k
m n
k mCnk
D p .1  p/ :
Die Zufallsvariable X besitzt eine Binomialverteilung j D0
j kj
mit Parametern n und p, 0 < p < 1, in Zeichen
X Bin.n; p/, falls gilt: Hieraus folgt die Behauptung, denn die letzte Summe ist wegen
P
! der Beziehung jkD0 P .Z D j / D 1 für eine Zufallsvariable
n k  
P .X D k/ D p .1  p/nk ; k D 0; 1; : : : ; n: Z Hyp.k; m; n/ gleich mCnk
. 
k
Kapitel 4

Mit der geometrischen Verteilung, der negativen Binomialver-


teilung, der Poisson-Verteilung und der Multinomialverteilung
Strukturell sind die Verteilungen Hyp.n; r; s/ und Bin.n; p/ lernen wir jetzt weitere grundlegende diskrete Verteilungsmo-
(wie auch deren gemeinsame Verallgemeinerung, die in delle kennen. All diesen Verteilungen ist gemeinsam, dass sie
Abschn. 3.2 vorgestellte Pólya-Verteilung Pol.n; r; s; c/) Ver- etwas mit stochastischer Unabhängigkeit zu tun haben.
teilungen von Zählvariablen, also von Indikatorsummen der
Gestalt 1fA1 g C : : : C 1fAn g. Kennzeichnend für die Bino-
mialverteilung ist, dass die Ereignisse A1 ; : : : ; An stochastisch
unabhängig sind und die gleiche Wahrscheinlichkeit besitzen. Die geometrische Verteilung modelliert die
Letztere Eigenschaft liefert eine begriffliche Einsicht in das fol- Anzahl der Nieten vor dem ersten Treffer
gende Additionsgesetz.
Um die geometrische Verteilung und deren Verallgemeine-
rung, die negative Binomialverteilung, einzuführen, betrachten
Das Additionsgesetz für die Binomialverteilung wir eine Folge unabhängiger gleichartiger Versuche mit den
Die Zufallsvariablen X und Y seien stochastisch unabhän- Ausgängen Treffer bzw. Niete. Dabei trete ein Treffer mit Wahr-
gig, wobei X Bin.m; p/ und Y Bin.n; p/. Dann gilt scheinlichkeit p und eine Niete mit Wahrscheinlichkeit 1  p
X C Y Bin.m C n; p/. auf. Es liege also eine Bernoulli-Kette unendlicher Länge mit
Trefferwahrscheinlichkeit p vor, vgl. den Kommentar vor der
der Definition einer terminalen -Algebra in Abschn. 3.4. Da-
bei sei 0 < p < 1 vorausgesetzt.
Beweis Wir geben zwei Beweise an, einen begrifflichen und
einen mithilfe der diskreten Faltungsformel. Da die Verteilung Mit welcher Wahrscheinlichkeit treten vor dem ersten Treffer
von X C Y wegen der Unabhängigkeit von X und Y durch genau k Nieten auf? Nun, hierfür muss die Bernoulli-Kette mit
P X und P Y festgelegt ist, konstruieren wir einen speziellen k Nieten beginnen, denen sich ein Treffer anschließt. Schreiben
Wahrscheinlichkeitsraum, auf dem unabhängige Zufallsvaria- wir X für die zufällige Anzahl der Nieten vor dem ersten Tref-
blen X Bin.m; p/ und Y Bin.n; p/ definiert sind, wobei fer, so besitzt X wegen der stochastischen Unabhängigkeit von
4.3 Wichtige diskrete Verteilungen 95

(X = k) (X = k) Die geometrische Verteilung ist gedächtnislos in folgendem


0.8 0.8
Sinn: Für jede Wahl von k; m 2 N0 gilt
p = 0.8 p = 0.5
0.6 0.6
P .X D k C mjX  k/ D P .X D m/: (4.24)
0.4 0.4
Diese Gleichung desillusioniert alle, die das Auftreten der ersten
0.2 0.2
Sechs beim fortgesetzten Würfeln für umso wahrscheinlicher
halten, je länger diese nicht vorgekommen ist. Unter der Be-
k k
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 dingung einer noch so langen Serie von Nieten (d. h. X  k) ist
es genauso wahrscheinlich, dass sich m weitere Nieten bis zum
Abb. 4.7 Stabdiagramme geometrischer Verteilungen ersten Treffer einstellen, als wenn die Bernoulli-Kette mit dem
ersten Versuch starten würde. Aufgabe 4.50 zeigt, dass die Ver-
teilung G.p/ durch diese „Gedächtnislosigkeit“ charakterisiert
Ereignissen, die sich auf verschiedene Versuche beziehen, eine wird.
geometrische Verteilung im Sinne der folgenden Definition.
Selbstfrage 7
Können Sie Gleichung (4.24) beweisen?
Definition der geometrischen Verteilung
Die Zufallsvariable X hat eine geometrische Verteilung
Wir fragen jetzt allgemeiner nach der Wahrscheinlichkeit, dass
mit Parameter p, 0 < p < 1, wenn gilt:
für ein festes r  1 vor dem r-ten Treffer genau k Nieten auftre-
ten. Dieses Ereignis tritt ein, wenn der (k C r)-te Versuch einen
P .X D k/ D .1  p/k p; k 2 N0 :
Treffer ergibt und sich davor – in welcher Reihenfolge auch
 im-
In diesem Fall schreiben wir kurz X G.p/. mer – k Nieten und r  1 Treffer einstellen. Nun gibt es kCr1
k
Möglichkeiten, aus k C r  1 Versuchen k Stück für die Nieten
(und damit r  1 für die Treffer) auszuwählen. Jede konkrete
P Ergebnisfolge, bei der einem Treffer k Nieten und r  1 Treffer
Wegen 1 k 1
kD0 .1  p/ p D .1  .1  p// p D 1 bildet vorangehen, hat wegen der Kommutativität der Multiplikation
die geometrische Verteilung in der Tat eine Wahrscheinlich-
und der Unabhängigkeit von Ereignissen, die sich auf verschie-
keitsverteilung auf den nichtnegativen ganzen Zahlen. Die Na-
dene Versuche beziehen, die Wahrscheinlichkeit .1  p/k p r .
mensgebung dieser Verteilung rührt von der eben benutzten
Somit besitzt die Anzahl der Nieten vor dem r-ten Treffer eine
geometrischen Reihe her. Abb. 4.7 zeigt Stabdiagramme der
negative Binomialverteilung im Sinne der folgenden Definition.
Verteilungen G.0:8/ und G.0:5/.

Kapitel 4
Video 4.4 Die geometrische Verteilung
Definition der negativen Binomialverteilung
Die Zufallsvariable X besitzt eine negative Binomialver-
teilung mit Parametern r und p, r 2 N, 0 < p < 1,
wenn gilt:
!
k Cr 1
Die Stabdiagramme und auch die Erzeugungsweise der geo- P .X D k/ D .1  p/k p r ; k 2 N0 :
k
metrischen Verteilung lassen vermuten, dass bei wachsendem
p sowohl der Erwartungswert als auch die Varianz der geo- In diesem Fall schreiben wir kurz X Nb.r; p/.
metrischen Verteilung abnehmen. In der Tat gilt der folgende
Sachverhalt:
Offenbar geht die negative Binomialverteilung für den Fall r D
Satz (Erwartungswert und Varianz von G.p/) 1 in die geometrische
 Verteilung
  es gilt also G.p/ D
über;
Nb.1; p/. Wegen kCr1
k
D .1/ k r
k
und der Binomialreihe
Für eine Zufallsvariable X mit der geometrischen Vertei-
!
lung G.p/ gilt: X1
˛ k
˛
.1 C x/ D x ; ˛ 2 R; jxj < 1; (4.25)
1p 1p k
kD0
E.X / D ; V .X / D :
p p2
(s. z. B. [1], Kap. 15, Übersicht über Potenzreihen oder Video
4.5) folgt
!
Beweis Der Nachweis kann mithilfe der allgemeinen Trans- X 1 X1
r
formationsformel erfolgen und ist dem Leser als Übungsaufgabe P .X D k/ D ..1  p//k p r D p r p r D 1:
k
4.23 überlassen.  kD0 kD0
96 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

(X = k) (X = k)
0.6 0.6 Das Additionsgesetz für die Verteilung Nb.r; p/
p = 0.8, r = 2 p = 0.5, r = 2
0.4 0.4 a) Es seien X1 ; : : : ; Xr unabhängige Zufallsvariablen mit
der gleichen geometrischen Verteilung G.p/. Dann
0.2 0.2
besitzt die Summe X1 C : : : C Xr die negative Bino-
mialverteilung Nb.r; p/.
b) Die Zufallsvariablen X und Y seien stochastisch unab-
k k hängig, wobei X Nb.r; p/ und Y Nb.s; p/ mit
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
r; s 2 N. Dann gilt X C Y Nb.r C s; p/.
(X = k) (X = k)
0.6 0.6
p = 0.8, r = 3 p = 0.5, r = 3 Beweis Wegen G.p/ D Nb..1; p/ ergibt sich a) durch In-
0.4 0.4 duktion aus b), sodass nur b) zu zeigen ist. Mit (4.26) und der
diskreten Faltungsformel gilt für jedes k 2 N0
0.2 0.2
X
k
P .X C Y D k/ D P .X D j ; Y D k  j /
k k j D0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
X
k
Abb. 4.8 Stabdiagramme von negativen Binomialverteilungen D P .X D j /  P .Y D k  j /
j D0
! !
Somit definiert die negative Binomialverteilung in der Tat eine X k
r s
rCs
Dp ..1  p//k
Wahrscheinlichkeitsverteilung auf N0 . Das Adjektiv „negative“ j k  j
j D0
rührt von der Darstellung !
! .r C s/ rCs
r r D p ..1  p//k ;
P .X D k/ D p ..1  p//k ; k 2 N0 ; (4.26) k
k
was zu zeigen war. Dabei ergibt sich das letzte Gleichheits-
her. zeichen, wenn man die in (4.25) stehenden Binomialreihen für
˛ D r und ˛ D s miteinander multipliziert (Cauchy-Produkt)
Kapitel 4

Video 4.5 Die Binomialreihe und einen Koeffizientenvergleich durchführt. 

Da der Erwartungswert additiv ist und diese Eigenschaft bei


unabhängigen Zufallsvariablen auch für die Varianz zutrifft,
erhalten wir aus Teil a) zusammen mit den Ergebnissen zur geo-
metrischen Verteilung das folgende Resultat.

Abb. 4.8 zeigt Stabdiagramme von negativen Binomialvertei- Folgerung Ist X eine Zufallsvariable mit der negativen Bi-
lungen Nb.r; p/ für r D 2 (oben) und r D 3 (unten). Es ist nomialverteilung Nb.r; p/, so gelten
deutlich zu erkennen, dass bei Vergrößerung von p bei gleichem
r eine „stärkere Verschmierung“ der Wahrscheinlichkeitsmas- 1p 1p
E.X / D r  ; V .X / D r  : J
sen stattfindet. Gleiches trifft bei Vergrößerung von r bei festem p p2
p zu.
Wir kommen jetzt zu einer weiteren grundlegenden diskre-
ten Verteilung mit zahlreichen Anwendungen, der nach dem
Für die Verteilungen Bin.n; p/, Nb.r; p/ Mathematiker Simeon Denise Poisson (1781–1840) benannten
Poisson-Verteilung.
und Po./ gelten Additionsgesetze
Intuitiv ist klar, dass bei einer Bernoulli-Kette die Anzahl der Die Verteilung Bin.n; p/ nähert sich für großes
Nieten vor dem ersten und zwischen dem j -ten und (j C 1)-
ten Treffer (j D 1; 2; : : : ; r  1) unabhängige Zufallsvariablen n und kleines p einer Poisson-Verteilung an
sein sollten. Da nach jedem Treffer die Bernoulli-Kette neu Die Poisson-Verteilung entsteht als Approximation der Binomi-
startet, sollte eine Zufallsvariable mit der negativen Binomial- alverteilung Bin.n; p/ bei großem n und kleinem p. Genauer
verteilung die additive Überlagerung von unabhängigen geo- gesagt betrachten wir eine Folge von Verteilungen Bin.n; pn /,
metrisch verteilten Zufallsvariablen darstellen. In der Tat gilt n  1, mit konstantem Erwartungswert
folgender Zusammenhang zwischen den Verteilungen Nb.r; p/
und G.p/.  WD n  pn ; 0 <  < 1; (4.27)
4.3 Wichtige diskrete Verteilungen 97

setzen also pn WD =n. Da Bin.n; pn / die Verteilung der Tref- (X = k) (X = k)


feranzahl in einer Bernoulli-Kette der Länge n mit Trefferwahr- 0.6 0.6
scheinlichkeit pn angibt, kompensiert eine wachsende Anzahl 0.5 λ = 0.5 0.5 λ=1
von Versuchen eine immer kleiner werdende Trefferwahrschein- 0.4 0.4
lichkeit dahingehend, dass die erwartete Trefferanzahl konstant 0.3 0.3
bleibt. Mit .n/k wie in (2.29) gilt für jedes n  k 0.2 0.2
! 0.1 0.1
n k .npn /k .n/k  npn k  npn n
pn .1  pn /nk D 1  1  k k
k kŠ nk n n 1 2 3 4 5 6 7 1 2 3 4 5 6 7
   
k .n/k  k  n (X = k) (X = k)
D 1  1  : 0.6 0.6
kŠ nk n n
0.5 λ=2 0.5 λ=5
Wegen limn!1 .n/k =nk D 1 sowie 0.4 0.4

    0.3 0.3
 k  n 0.2 0.2
lim 1  D 1; lim 1  D e ;
n!1 n n!1 n 0.1 0.1

k k
folgt dann für jedes feste k 2 N0 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 10
!
n k k Abb. 4.9 Stabdiagramme von Poisson-Verteilungen
lim pn .1  pn /nk D e : (4.28)
n!1 k kŠ

Die Wahrscheinlichkeit für das Auftreten von k Treffern in triert, wohingegen bei wachsendem  sowohl eine Vergrößerung
obiger Bernoulli-Kette
P konvergiert also gegen den Ausdruck des Schwerpunktes als auch eine „stärkere Verschmierung“
e k =kŠ. Wegen 1 kD0 e
  k
=kŠ D e  e D 1 bildet die stattfindet. Die Erklärung hierfür liefert das folgende Resultat.
rechte Seite von (4.28) eine Wahrscheinlichkeitsverteilung auf Den Beweis überlassen wir dem Leser als Übung (Aufga-
N0 , und es ergibt sich folgende Definition. be 4.24).

Video 4.6 Die Poisson-Verteilung


Erwartungswert und Varianz der Verteilung Po./

Kapitel 4
Ist X eine Zufallsvariable mit der Poisson-Verteilung
Po./, so gelten

E.X / D ; V .X / D :

Definition der Poisson-Verteilung


Die Zufallsvariable X besitzt eine Poisson-Verteilung Analog zur negativen Binomialverteilung besteht auch für die
mit Parameter  ( > 0), kurz: X Po./, falls gilt: Poisson-Verteilung ein Additionsgesetz. Der Beweis ist völlig
analog zum Nachweis des Additionsgesetzes für die negative
k Binomialverteilung.
P .X D k/ D e  ; k D 0; 1; 2; : : :

Das Additionsgesetz für die Poisson-Verteilung


Die in (4.28) formulierte Poisson-Approximation der Binomial-
verteilung ist oft unter der Bezeichnung Gesetz seltener Ereig- Es seien X und Y unabhängige Zufallsvariablen mit X
nisse zu finden. Diese Namensgebung wird verständlich, wenn Po./ und Y Po./, wobei 0 < ;  < 1. Dann gilt
man die Erzeugungsweise der Binomialverteilung Bin.n; pn /
als Indikatorsumme von unabhängigen Ereignissen gleicher X C Y Po. C /:
Wahrscheinlichkeit pn rekapituliert. Obwohl jedes einzelne Er-
eignis eine kleine Wahrscheinlichkeit pn D =n besitzt und
somit selten eintritt, konvergiert die Wahrscheinlichkeit, dass k Selbstfrage 8
dieser Ereignisse eintreten, gegen einen von  und k abhängen-
Können Sie dieses Additionsgesetz beweisen?
den Wert. Aufgabe 4.26 zeigt, dass die Grenzwertaussage (4.28)
auch unter schwächeren Annahmen gültig bleibt.
Abb. 4.9 zeigt Stabdiagramme der Poisson-Verteilung für ver- Aufgrund ihrer Entstehung über das Gesetz seltener Ereig-
schiedene Werte von . Offenbar sind die Wahrscheinlichkeits- nisse (4.28) bietet sich die Poisson-Verteilung immer dann
massen für kleines  stark in der Nähe des Nullpunktes konzen- als Verteilungsmodell an, wenn gezählt wird, wie viele von
98 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Unter der Lupe: Eine Poisson-Approximation von Zählvariablen durch geeignete Kopplung

Die Kopplungsmethode zielt darauf ab, bei vorgegebenen Ferner besitzt die Zufallsvariable Tn WD Y1 C : : : C Yn nach
Verteilungen möglichst weit übereinstimmende Zufallsvaria- dem Additionsgesetz für die Poisson-Verteilung die Vertei-
blen mit diesen Verteilungen zu konstruieren lung Po./, wobei  D p1 C : : : C pn .
Das folgende Resultat des Mathematikers Lucien Marie Le Nach Konstruktion unterscheiden sich Xj und Yj und so-
Cam (1924–2000) ist eine Verallgemeinerung der Aussage mit auch Sn WD X1 C : : : C Xn und Tn nur wenig. Da
(4.28) mit konkreter Fehlerabschätzung. das Ereignis fXj ¤ Yj g genau dann eintritt, wenn entwe-
der fYj  2g oder fYj D 0; Zj D 1g gilt, folgt ja wegen
Satz (Le Cam, 1960) Seien A1 ; : : : ; An unabhängige Er- P .Yj  2/ D 1  P .Yj D 0/  P .Yj D 1/ zunächst
eignisse mit P .Aj / WD pj > 0 für j D 1; : : : ; n sowie
Sn WD 1fA1 g C    C 1fAn g,  WD p1 C    C pn . Dann
P .Xj ¤ Yj / D P .Yj  2/ C P .Yj D 0; Zj D 1/
gilt:
X1 ˇ ˇ
X
ˇ kˇ n
D 1  epj  pj epj C epj .1  .1  pj /epj /
ˇP .Sn D k/  e  ˇ  2 pj2 : J
ˇ kŠ ˇ
kD0 j D1 D pj .1  epj /  pj2 :

Beweis Es seien Y1 ; : : : ; Yn und Z1 ; : : : ; Zn stochastisch Mit fSn D kg D fSn D k D Tn g C fSn D k ¤ Tn g und


unabhängige Zufallsvariablen mit den Verteilungen Yj fTn D kg D fTn D k D S Sn g C fTn D k ¤ Sn g sowie der
Po.pj / .j D 1; : : : ; n/ sowie Inklusion fSn ¤ Tn g  jnD1 fXj ¤ Yj g folgt dann
P .Zj D 1/ WD 1  .1  pj /epj DW 1  P .Zj D 0/: 1 ˇ ˇ
X ˇ kˇ
ˇP .Sn D k/  e  ˇ
Wegen exp.pj /  1  pj gilt dabei 0  P .Zj D 1/  1. ˇ kŠ ˇ
Als Grundraum, auf dem alle Yi ; Zj als Abbildungen defi- kD0
niert sind, kann das kartesische Produkt ˝ WD N0n  f0; 1gn X
1
gewählt werden (vgl. das zweite Beispiel in Abschn. 3.3). D jP .Sn D k/  P .Tn D k/j
Setzen wir kD0

Aj WD fYj > 0g [ fZj D 1g; j D 1; : : : ; n; X


1
 ŒP .Sn D k ¤ Tn / C P .Sn ¤ k D Tn /
Kapitel 4

so sind wegen der Unabhängigkeit aller Yi ; Zj die Ereignisse kD0


A1 ; : : : ; An und damit die Indikatorvariablen Xj WD 1fAj g,
j D 1; : : : ; n, unabhängig, und es gilt D 2 P .Sn ¤ Tn /
X
n X
n
P .Aj / D 1  P .Ajc / D 1  P .Yj D 0/  P .Zj D 0/ 2 P .Xj ¤ Yj /  2 pj2 : 
pj pj
D1e  .1  pj /e D pj : j D1 j D1

vielen möglichen, aber einzeln unwahrscheinlichen Ereignis- der s verschiedene, zweckmäßigerweise mit 1; 2; : : : ; s bezeich-
sen eintreten. Neben den Zerfällen von Atomen wie beim nete Ausgänge besitzt. Der Ausgang k wird Treffer k-ter Art
Rutherford-Geiger-Experiment sind etwa auch die Anzahl re- genannt; er trete mit der Wahrscheinlichkeit pk auf. Dabei sind
gistrierter Photonen oder Elektronen bei sehr geringem Fluss p1 ; : : : ; ps nichtnegative Zahlen mit der Eigenschaft p1 C    C
angenähert poissonverteilt. Gleiches gilt für die Anzahl feh- ps D 1. Der Vorgang werde n-mal in unabhängiger Folge
lerhafter Teile in Produktionsserien, die Anzahl von Gewittern durchgeführt. Ein einfaches Beispiel für diese Situation ist der
innerhalb eines festen Zeitraums in einer bestimmten Region n-malige Würfelwurf; hier gilt s D 6, und ein Treffer k-ter Art
oder die Anzahl von Unfällen oder Selbstmorden, bezogen auf bedeutet, dass die Augenzahl k auftritt. Bei einem echten Wür-
eine gewisse große Population und eine festgelegte Zeitdauer. fel würde man p1 D : : : D p6 D 1=6 setzen.
Protokolliert man die Ergebnisse der n Versuche in Form ei-
ner Strichliste (Abb. 4.10), so steht am Ende fest, wie oft jede
Die Multinomialverteilung verallgemeinert einzelne Trefferart aufgetreten ist. Die vor Durchführung der
die Binomialverteilung auf Experimente Versuche zufällige Anzahl der Treffer k-ter Art wird mit Xk be-
zeichnet, k 2 f1; : : : ; sg.
mit mehr als zwei Ausgängen
Selbstfrage 9
Die Binomialverteilung entsteht bei der unabhängigen Wieder- Können Sie einen Grundraum angeben, auf dem X1 ; : : : ; Xs als
holung eines Experiments mit zwei Ausgängen. In Verallgemei- Abbildungen definiert sind?
nerung dazu betrachten wir jetzt einen stochastischen Vorgang,
4.3 Wichtige diskrete Verteilungen 99

Unter der Lupe: Das Rutherford-Geiger-Experiment

Die Poisson-Verteilung und spontane Phänomene E.Xn;j / D =n. Ferner fordern wir die in der Physik fast
unbesehen akzeptierte Regularitätsbedingung
1910 untersuchten Ernest Rutherford (1871–1937) und Hans
Wilhelm Geiger (1882–1945) ein radioaktives Präparat über 0 1
2 608 je 7 Sekunden lange Zeitintervalle. Dabei zählten sie [
n
lim P @ fXn;j  2gA D 0: (4.30)
insgesamt 10 097 Zerfälle, also durchschnittlich 3.87 Zer- n!1
j D1
fälle pro Intervall. Die folgende Tabelle gibt für jedes k D
0; 1; : : : ; 14 die Anzahl nk der Zeitintervalle an, in denen k Bei feiner werdender Intervalleinteilung soll also das Auftre-
Zerfälle beobachtet wurden. ten von mehr als einem Zerfall in irgendeinem Teilintervall
immer unwahrscheinlicher werden. Damit liegt es nahe, Xn;j
k 0 1 2 3 4 5 6 7 durch die Indikatorvariable 1fXn;j  1g anzunähern, die in
nk 57 203 383 525 532 408 273 139 den Fällen Xn;j D 0 und Xn;j D 1 mit Xn;j übereinstimmt.
Konsequenterweise betrachten wir dann die Indikatorsumme
k 8 9 10 11 12 13 14
nk 45 27 10 4 0 1 1 X
n
Sn WD 1fXn;j  1g
j D1
Die nachstehende Abbildung zeigt die zugehörigen relativen
Häufigkeiten (blau) sowie ein Stabdiagramm der Poisson- als eine Approximation der in (4.29) stehenden Summe und
Verteilung mit Parameter  D 3:87 (orange). somit als Näherung für X . Da die Ereignisse fXn;j  1g
(j D 1; : : : ; n) unabhängig sind und die gleiche Wahrschein-
lichkeit pn WD P .Xn;1  1/ besitzen, gilt Sn Bin.n; pn /,
0.2 wobei
X 
0.1 pn  j  P .Xn;1 D j / D E.Xn;1/ D :
j 1
n

Fordern wir noch limn!1 npn D , so liefert Aufgabe 4.26

Kapitel 4
1 2 3 4 5 6 7 8 9 10 11 12 13 14
die Grenzwertaussage
Um diese frappierende Übereinstimmung zu begreifen, neh-
men wir idealisierend an, dass während eines Untersu- k
lim P .Sn D k/ D e  :
chungszeitraums nur ein ganz geringer Anteil der Atome des n!1 kŠ
Präparates zerfällt. Ferner soll jedes Atom nur von einem Zu-
stand hoher Energie in einen Grundzustand niedriger Energie Zerlegt man das Ereignis fX D kg nach den Fällen fX D
zerfallen können, was (wenn überhaupt) unabhängig von den Sn g und fX ¤ Sn g, so ergibt sich
anderen Atomen ohne Alterungserscheinung völlig spontan
geschehe. P .X D k/ D P .X D k; X D Sn / C P .X D k; X ¤ Sn /
D P .Sn D k; X D Sn / C P .X D k; X ¤ Sn /
Als Untersuchungszeitraum wählen wir o.B.d.A. das Inter-
vall I WD .0; 1 und schreiben X für die zufällige Anzahl D P .Sn D k/  P .Sn D k; X ¤ Sn /
der Zerfälle in I sowie  WD EX für den Erwartungswert C P .X D k; X ¤ Sn /:
von X (die sog. Intensität des radioaktiven Prozesses). Wir S
behaupten, dass X unter gewissen mathematischen Annah- Da aus dem Ereignis fX ¤ Sn g das Ereignis jnD1 fXn;j  2g
men Po./-verteilt ist. Hierzu zerlegen wir I in die Intervalle folgt, liefert (4.30) die Beziehung limn!1 P .X ¤ Sn / D 0
Ij WD ..j  1/=n; j =n (j D 1; : : : ; n) und schreiben Xn;j und somit
für die Anzahl der Zerfälle in Ij , sodass
lim P .Sn D k; X ¤ Sn / D 0 D lim P .X D k; X ¤ Sn /:
n!1 n!1
X D Xn;1 C Xn;2 C : : : C Xn;n (4.29)
Insgesamt erhalten wir dann wie behauptet
gilt. Durch obige Annahmen motiviert unterstellen wir dabei
die Unabhängigkeit und identische
Pn Verteilung der Summan- k
den. Wegen E.X / D P .X D k/ D lim P .Sn D k/ D e  :
j D1 E.Xn;j / folgt insbesondere n!1 kŠ
100 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

X1 = 3
Beispiel Ein echter Würfel wird sechsmal in unabhängiger
Folge geworfen. Mit welcher Wahrscheinlichkeit tritt jede Au-
Experiment

X2 = 5 genzahl genau einmal auf?


.
.
. · · ·· · · · · ·· · · Bezeichnet Xj die zufällige Anzahl der Würfe, bei denen die
.
.
. Augenzahl j auftritt, so besitzt .X1 ; : : : ; X6 / die Multinomial-
· · ·· · · · · ·· · ·
verteilung Mult.6I 1=6; : : : ; 1=6/. Es folgt
Xs = 2
 6
6Š 1
P .X1 D 1; : : : ; X6 D 1/ D 6  0:0154:
Abb. 4.10 Trefferanzahlen in einem Experiment mit s Ausgängen 1Š 6

Mancher hätte hier wohl eine größere Wahrscheinlichkeit erwar-


Eine sich nahezu aufdrängende Frage ist die nach der gemein- tet. J
samen Verteilung der einzelnen Trefferanzahlen, also nach der
Verteilung des Zufallsvektors .X1 ; : : : ; Xs /. Da sich die Treffer-
anzahlen zur Gesamtzahl n der Versuche aufaddieren müssen, Beispiel Für die Vererbung eines Merkmals sei ein Gen ver-
kann .X1 ; : : : ; Xs / mit positiver Wahrscheinlichkeit nur s-Tupel antwortlich, das die beiden Ausprägungen A (dominant) und a
.k1 ; : : : ; ks / mit kj 2 N0 (j D 1; : : : ; s) und k1 C : : : C ks D n (rezessiv) besitze. Machen wir die Annahme, dass zwei hybride
annehmen. Für ein solches Tupel bedeutet das Ereignis fX1 D Aa-Eltern unabhängig voneinander und je mit gleicher Wahr-
k1 ; : : : ; Xs D ks g, dass in den n Versuchen k1 Treffer erster Art, scheinlichkeit 1=2 die Keimzellen A bzw. a hervorbringen und
k2 Treffer zweiter Art usw. auftreten. Jede konkrete Versuchs- dass die Verschmelzung beider Keimzellen zu einer (diploiden)
folge mit diesen Trefferanzahlen hat wegen der Unabhängigkeit Zelle rein zufällig erfolgt, so besitzt jede der Möglichkeiten AA,
von Ereignissen, die sich auf verschiedene Versuche beziehen, Aa, aA und aa die gleiche Wahrscheinlichkeit 1=4. Da die Fäl-
und der Kommutativität der Multiplikation die Wahrscheinlich- le Aa und aA nicht unterscheidbar sind, gibt es somit für den
keit p1k1 p2k2  : : :  psks . Da es nach den im Beispiel am Ende von Genotyp eines Nachkommen die mit den Wahrscheinlichkei-
Abschn. 2.6 angestellten Überlegungen ten 1=4, 1=2 und 1=4 auftretenden drei Möglichkeiten AA, Aa
! und aa.
n nŠ
D Unter der Annahme, dass bei mehrfacher Paarung zweier Aa-
k1 ; : : : ; ks k1 Š  : : :  ks Š Eltern die zufälligen Genotypen der Nachkommen stochastisch
Möglichkeiten gibt, aus n Versuchen mit den Nummern 1; : : : ; n unabhängig sind, besitzen bei insgesamt n Nachkommen die
k1 für einen Treffer erster Art, k2 für einen Treffer zweiter Art Genotyp-Anzahlen
Kapitel 4

usw. auszuwählen, besitzt der Vektor .X1 ; : : : ; Xs / eine Multi-


XAA D Anzahl aller Nachkommen mit Genotyp AA;
nomialverteilung im Sinne der folgenden Definition:
XAa D Anzahl aller Nachkommen mit Genotyp Aa;

Definition der Multinomialverteilung Xaa D Anzahl aller Nachkommen mit Genotyp aa

Der Zufallsvektor .X1 ; : : : ; Xs / hat eine Multinomialver- die Verteilung Mult.nI 1=4; 1=2; 1=4/, d. h., es gilt
teilung mit Parametern n und p1 ; : : : ; ps (s  2, n  1,
p1  0, . . . , ps  0, p1 C    C ps D 1), falls für P .XAA D i; XAa D j ; Xaa D k/
k1 ; : : : ; ks 2 N0 mit k1 C : : : C ks D n gilt:  i  j  k
nŠ 1 1 1
D
nŠ Y
s
k iŠj ŠkŠ 4 2 4
P .X1 D k1 ; : : : ; Xs D ks / D Qs  pj j (4.31)
j D1 kj Š j D1 für jede Wahl von i; j ; k  0 mit i C j C k D n. J
Andernfalls sei P .X1 D k1 ; : : : ; Xs D ks / WD 0 gesetzt.
Für einen multinomialverteilten Zufallsvektor schreiben Man sollte auf keinen Fall die Definition der Multinomial-
wir kurz verteilung auswendig lernen, sondern die Entstehung dieser
Verteilung verinnerlichen: Es handelt sich um die gemeinsa-
.X1 ; : : : ; Xs / Mult.nI p1 ; : : : ; ps /: me Verteilung von Trefferanzahlen, nämlich den Treffern j -ter
Art in n unabhängig voneinander durchgeführten Experimenten
(j D 1; : : : ; s). Da wir Trefferarten immer zu Gruppen zusam-
Video 4.7 Die Multinomialverteilung menfassen können – so kann beim Würfeln eine 1; 2 oder 3 als
Treffer erster Art, eine 4 oder 5 als Treffer zweiter Art und ei-
ne 6 als Treffer dritter Art interpretiert werden – ist folgendes
Resultat offensichtlich. Sie sind aufgefordert, einen formalen
Nachweis der ersten Aussage durch Marginalverteilungsbildung
in Übungsaufgabe 4.30 zu führen.
4.4 Kovarianz und Korrelation 101

Übersicht: Diskrete Verteilungen

Verteilung Wertebereich P .X D k/ E.X/ V .X/


!
n k
Bin.n; p/ f0; 1; : : : ; ng p .1  p/nk np np.1  p/
k
 r  s   
nr nrs n1
Hyp.n; r; s/ f0; 1; : : : ; ng k
rCs
nk
 1
n
r Cs .r C s/2 r Cs1
! Qk1 Q  
n j D0 .r C jc/ jnk1
D0 .s C jc/ nr nrs .n  1/c
Pol.n; r; s; c/ f0; 1; : : : ; ng Qn1 1C
k j D0 .r C s C jc/
r Cs .r C s/2 r CsCc

1p 1p
G.p/ N0 .1  p/k p
p p2
!
kCr 1 r r.1  p/ r.1  p/
Nb.r; p/ N0 p .1  p/k
k p p2

k
Po./ N0 e  

X
s
Y s
nŠ k
Mult.nI p1 ; : : : ; ps / k D .k1 ; : : : ; ks / 2 N0s W kj D n P .X D k/ D pj
j D1
k1 Š    ks Š j D1 j

Folgerung Falls .X1 ; : : : ; Xs / Mult.nI p1 ; : : : ; ps /, so scher Hilfsmittel, s. nächstes Kapitel) auch in größerer Allge-
gelten: meinheit gelten.
a) Xi Bin.n; pi /, i D 1; : : : ; s. Der Grund für die Namensgebung Kovarianz („mit der Va-
b) Es sei T1 C    C T` eine Zerlegung der Menge f1; : : : ; sg in rianz“) wird klar, wenn wir die Varianz der Summe zweier

Kapitel 4
nichtleere Mengen T1 ; : : : ; T` , `  2. Für Zufallsvariablen X und Y berechnen wollen. Nach Definition
X X der Varianz und wegen der Linearität der Erwartungswertbil-
Yr WD Xk ; qr WD pk r D 1; : : : ; `; dung gilt
k2Tr k2Tr
V .X C Y / D E .X C Y  E.X C Y //2
gilt dann: .Y1 ; : : : ; Y` / Mult.nI q1 ; : : : ; q` /: J
D E .X  EX C Y  EY /2
Die Situation unabhängiger gleichartiger Versuche ist insbeson-
dere dann gegeben, wenn man n-mal rein zufällig mit Zurückle- D E.X  EX /2 C E.Y  EY /2
gen aus einer Urne zieht, die verschiedenfarbige Kugeln enthält, C 2E Œ.X  EX /.Y  EY /
wobei rj Kugeln die Farbe j tragen (j D 1; : : : ; s). Ein Treffer D V .X / C V .X / C 2E Œ.X  EX /.Y  EY / :
j -ter Art bedeutet dann das Ziehen einer Kugel der Farbe j . Er-
folgt das Ziehen ohne Zurücklegen, so besitzt der Zufallsvektor Die Varianz der Summe ist also nicht einfach die Summe der
der Trefferanzahlen die in Aufgabe 4.8 behandelte mehrdimen- einzelnen Varianzen, sondern es tritt ein zusätzlicher Term auf,
sionale hypergeometrische Verteilung. der von der gemeinsamen Verteilung von X und Y abhängt.

Kovarianz und Korrelationskoeffizient


4.4 Kovarianz und Korrelation
Der Ausdruck
In diesem Abschnitt wenden wir uns mit der Kovarianz und der
Korrelation zwei weiteren Grundbegriffen der Stochastik zu. Cov.X ; Y / WD E Œ.X  EX /.Y  EY /
Um Definitionen und Sätze möglichst prägnant zu halten, ma- heißt Kovarianz zwischen X und Y . Der Quotient
chen wir die stillschweigende Annahme, dass jede auftretende
Cov.X ; Y /
Zufallsvariable die Eigenschaft EX 2 < 1 besitzt. Falls nö- .X ; Y / WD p
tig (wie z. B. bei der Definition des Korrelationskoeffizienten) V .X /V .Y /
setzen wir zudem voraus, dass die Verteilungen nichtausgeartet heißt Korrelationskoeffizient zwischen X und Y .
sind und somit positive Varianzen besitzen. Wir werden auch
nicht betonen, dass die auftretenden Zufallsvariablen diskret X und Y heißen unkorreliert, falls Cov.X ; Y / D 0 gilt.
sind, da alle Aussagen (unter Heranziehung stärkerer techni-
102 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Aus Unabhängigkeit folgt Unkorreliertheit, Mit der in der Tab. 4.2 gegebenen gemeinsamen Verteilung er-
gibt sich durch direkte Rechnung
aber nicht umgekehrt
X
6
616
Die wichtigsten Eigenschaften der Kovarianz sind nachstehend E.X Y / D i j  P .X D i; Y D j / D 17:111
aufgeführt. i ;j D1
36

und somit die Kovarianz zwischen X und Y zu


Eigenschaften der Kovarianz
35
Cov.X ; Y / D E.X Y /  EX  EY D 1:458:
Für Zufallsvariablen X , Y , X1 ; : : : ; Xm , Y1 ; : : : ; Yn und 24
reelle Zahlen a, b, a1 ; : : : ; am , b1 ; : : : ; bn gelten:
Hiermit erhält man den Korrelationskoeffizienten
a) Cov.X ; Y / D E.X Y /  EX  EY , 35
b) Cov.X ; Y / D Cov.Y ; X /, Cov.X ; X / D V .X /, .X ; Y / D q 24
0:60816: J
c) Cov.X C a; Y C b/ D Cov.X ; Y /. 35 2 555
12
 1 296
d) Sind X und Y unabhängig, so gilt Cov.X ; Y / D 0.
e) Xm X
n  X m X n
Nach e) ist die Kovarianz-Bildung .X ; Y / ! Cov.X ; Y / ein bi-
Cov ai Xi ; bj Yj D ai bj Cov.Xi ; Yj /; lineares Funktional für Paare von Zufallsvariablen. Aus f) folgt,
i D1 j D1 i D1 j D1 dass die Varianz einer Summe von Zufallsvariablen gleich der
f) V .X1 C : : : C Xn / Summe der einzelnen Varianzen ist, wenn die Zufallsvariablen
X
n X paarweise unkorreliert sind, wenn also Cov.Xi ; Xj / für jede
D V .Xj / C 2 Cov.Xi ; Xj /: Wahl von i; j mit i ¤ j gilt. Insbesondere
P folgt
P mit d) die
j D1 1i <j n bereits bekannte Additionsregel V . jnD1 Xj / D jnD1 V .Xj /
für die Varianz einer Summe unabhängiger Zufallsvariablen.
Das folgende Beispiel zeigt, dass unkorrelierte Zufallsvariablen
Beweis Die Aussagen a) bis c) folgen unmittelbar aus der nicht notwendig stochastisch unabhängig sein müssen.
Definition der Kovarianz und der Linearität der Erwartungs-
wertbildung. d) ergibt sich mit a) und der Multiplikationsregel Beispiel (Unkorreliertheit und Unabhängigkeit) Es
E.X Y / D EX EY für den Erwartungswert des Produktes von seien X und Y unabhängige Zufallsvariablen mit identischer
unabhängigen Zufallsvariablen. Aus a) und der Linearität der Verteilung; es gelte also P X D P Y . Da die Kovarianz-Bildung
Erwartungswertbildung erhalten wir weiter bilinear ist, erhalten wir
X X 
Kapitel 4

m n
Cov ai Xi ; bj Yj Cov.X C Y ; X  Y / D Cov.X ; X / C Cov.Y ; X /
i D1 j D1  Cov.X ; Y /  Cov.Y ; Y /
X
m X
n  X
m  X
n  D V .X /  V .Y / D 0;
DE ai bj Xi Yj E ai Xi E bj Yj
i D1 j D1 i D1 j D1 sodass X C Y und X  Y unkorreliert sind. Besitzen X und
Y jeweils eine Gleichverteilung auf den Werten 1; 2; : : : ; 6 und
X
m X
n X
m X
n
D ai bj  E.Xi Yj /  ai bj  E.Xi /  E.Yj / modellieren hiermit die Augenzahlen beim zweifachen Würfel-
i D1 j D1 i D1 j D1
wurf, so ergibt sich
X
m X
n 1
D ai bj  Cov.Xi ; Yj / P .X C Y D 12; X  Y D 0/ D ;
36
i D1 j D1
1 1
und somit e). Behauptung f) folgt aus b) und e).  P .X C Y D 12/  P .X  Y D 0/ D  :
36 6
Dies zeigt, dass X CY und X Y nicht stochastisch unabhängig
Beispiel (erste und größte Augenzahl) Es seien X und
sind. Summe und Differenz der Augenzahlen beim zweifachen
Y das Ergebnis des ersten Wurfs bzw. die höchste geworfene
Würfelwurf bilden somit ein einfaches Beispiel für unkorrelier-
Augenzahl beim zweifachen Würfelwurf. Es gilt EX D 3:5,
te, aber nicht unabhängige Zufallsvariablen. J
und nach (4.17) mit k D 6 folgt V .X / D 35=12. Aus der
Tab. 4.2 entnimmt man P .Y D j / D .2j  1/=36, j D Selbstfrage 10
1; : : : ; 6, und somit folgt
Warum gilt V .X / D V .Y /?
1 X
6
161
EY D j .2j  1/ D 4:472;
36 j D1 36
Sind A1 ; : : : ; An Ereignisse, so kann man in Eigenschaft f) der
X
6 Kovarianz speziell Xj D 1fAj g, j D 1; : : : ; n, setzen. Wegen
1 791
EY 2 D j 2 .2j  1/ D 21:972;
36 j D1 36 Cov.1fAi g; 1fAj g/ D E.1fAi g1fAj g/  E1fAi gE1fAj g
2 555 D E.1fAi Aj g/  P .Ai /P .Aj /
V .Y / D EY 2  .EY /2 D 1:971: D P .Ai Aj /  P .Ai /P .Aj /
1 296
4.4 Kovarianz und Korrelation 103

ergibt sich folgendes nützliche Resultat für die Varianz einer Indem man die Quotienten der Ausdrücke (4.33) für zwei
Zählvariablen. aufeinanderfolgende Werte von c betrachtet, folgt mit direk-
ter Rechnung, dass die Varianz der Verteilung Pol.n; r; s; c/
monoton mit c wächst, was durch die „variabilitätsfördernde
Die Varianz einer Indikatorsumme Wirkung“ zusätzlicher Kugeln plausibel ist. Insbesondere ist die
Varianz der hypergeometrischen Verteilung Hyp.n; r; s/ klei-
Für eine Indikatorsumme X D 1fA1 g C : : : C 1fAn g gilt
ner als die sich für c D 0 ergebende Varianz der Verteilung
X
n Bin.n; p/ mit p D r=.r C s/, siehe Abb. 4.4. J
V .X / D P .Aj /.1  P .Aj //
j D1 Wir wenden uns nun dem Korrelationskoeffizienten p .X ; Y / zu,
X   der sich aus der Kovarianz nach Division durch V .X /V .Y /
C2 P .Ai Aj /  P .Ai /P .Aj / : ergibt. Er entsteht quasi als „Abfallprodukt“ aus einem Op-
1i <j n
timierungsproblem. Hierzu stellen wir uns die Aufgabe, die
Realisierungen einer Zufallsvariablen Y aufgrund der Kenntnis
der Realisierungen von X in einem noch zu präzisierenden Sinn
Video 4.8 Die Varianz einer Zählvariablen möglichst gut vorherzusagen. Ein Beispiel hierfür wäre die Vor-
hersage der größten Augenzahl beim zweifachen Würfelwurf
durch die Augenzahl des ersten Wurfes. Wir fassen allgemein
eine Vorhersage als Funktion g W R ! R mit der Deutung
von g.X .!// als Prognosewert für Y .!/ bei Kenntnis der Rea-
lisierung X .!/ auf. Da die einfachste nicht konstante Funktion
einer reellen Variablen von der Gestalt y D g.x/ D a C bx ist,
P
Wie schon der Erwartungswert EX D jnD1 P .Aj / lässt sich liegt der Versuch nahe, Y .!/ nach geeigneter Wahl von a und
somit auch die Varianz einer Indikatorsumme in einfacher Wei- b durch a C bX .!/ vorherzusagen. Dabei orientiert sich diese
se ohne Zuhilfenahme der Verteilung bestimmen. Sind die Ai Wahl am Gütekriterium, die mittlere quadratische Abweichung
gleich wahrscheinlich und hängt die Wahrscheinlichkeit der E.Y  a  bX /2 des Prognosefehlers durch geeignete Wahl von
Durchschnitte Ai Aj nicht von i und j ab, vereinfacht sich diese a und b zu minimieren.
Darstellung zu

V .X / D nP .A1 /.1  P .A1// (4.32) Satz


 
C n.n  1/ P .A1 A2 /  P .A1 /2 : Das Optimierungsproblem

Kapitel 4
Beispiel (Pólya-Verteilung) Im Pólyaschen Urnenmodell min E.Y  a  bX /2 (4.34)
a;b
von Abschn. 3.1 wird n-mal rein zufällig aus einer Urne mit r
roten und s schwarzen Kugeln gezogen, wobei nach jedem Zug besitzt die Lösung
die gezogene sowie c weitere Kugeln derselben Farbe zurück-
gelegt werden. Bezeichnet Aj das Ereignis, im j -ten
P Zug eine Cov.X ; Y /
rote Kugel zu ziehen, so besitzt die Anzahl X D jnD1 1fAj g b D ; a D E.Y /  b  E.X /; (4.35)
V .X /
der gezogenen roten Kugeln die in (3.13) angegebene Pólya-
Verteilung Pol.n; r; s; c/. Nach Aufgabe 3.26 gilt und der Minimalwert M  in (4.34) ergibt sich zu
r r.r C c/
P .Aj / D ; P .Ai Aj / D M  D V .Y /  .1  2 .X ; Y //: (4.36)
r Cs .r C s/.r C s C c/

für alle i; j 2 f1; : : : ; ng mit i ¤ j . Es folgt


r Beweis Mit Z WD Y  bX gilt
EX D n 
r Cs
E.Y  a  bX /2 D E.Z  a/2
sowie nach direkter Rechnung mit (4.32) D V .Z/ C .EZ  a/2  V .Z/:
  
r r .n  1/c
V .X / D n  1 1C : (4.33) Somit kann a D EZ D EY  bEX gesetzt werden. Mit den
r Cs r Cs r CsCc Abkürzungen Y e WD Y EY , Xe WD X EX bleibt die Aufgabe,
e e
die durch h.b/ WD E.Y  b X/2 ; b 2 R, definierte Funktion h
Als Spezialfall ergibt sich für c D 1 die Varianz der hypergeo-
bzgl. b zu minimieren. Wegen
metrischen Verteilung Hyp.n; r; s/ zu
   e2 /  2bE.X
0  h.b/ D E.Y eY
e/ C b 2 E.X
e2/
r r n1
V .X / D n  1 1 :
r Cs r Cs r Cs1 D V .Y /  2b Cov.X ; Y / C b 2 V .X /
104 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

beschreibt h als Funktion von b eine Parabel, welche für b  D Beweis Die beiden ersten Aussagen folgen aus der Nichtne-
Cov.X ; Y /=V .X / ihren nichtnegativen Minimalwert M  an- gativität von M  in (4.36). Im Fall j .X ; Y /j D 1 gilt M  D 0
nimmt. Einsetzen von b  liefert dann wie behauptet und somit 0 D E.Y  a  bX /2 , also P .Y D a C bX / D 1 für
gewisse reelle Zahlen a und b. Die Umkehrung gilt ebenfalls.
Cov.X ; Y /2 Cov.X ; Y /2 Der Zusatz in c) gilt, weil .X ; Y / und Cov.X ; Y / das gleiche
M  D V .Y /  2  C
V .X / V .X / Vorzeichen besitzen. 
 2 
Cov.X ; Y /
D V .Y /  1  Wir möchten noch eine Eigenschaft des Korrelationskoeffizien-
V .X /  V .Y /
ten notieren, die man sich merken sollte. Wegen
p Cov.aX C
D V .Y /  .1  2 .X ; Y //:  b; cY V .aX C b/ D
p C d / D ac Cov.X ; Y / sowie
jaj V .X / ergibt sich für a; c ¤ 0

Der Korrelationskoeffizient misst die Güte ac  Cov.X ; Y /


.aX C b; cY C d / D p p
der affinen Vorhersagbarkeit jajjcj  V .X / V .Y /
D sgn.ac/  .X ; Y /:
Bevor wir einige Folgerungen aus diesem Ergebnis ziehen,
möchten wir mit einem Beispiel etwas konkreter werden. Der Korrelationskoeffizient ist also invariant gegenüber nicht-
ausgearteten affinen Transformationen X 7! aX C b, Y 7!
Beispiel (erste und größte Augenzahl, Fortsetzung) Wir cY C d , bei denen a und c das gleiche Vorzeichen besitzen. Im
wollen das Maximum Y der Augenzahlen beim zweifachen Fall sgn.ac/ D 1 kehrt sich das Vorzeichen von um.
Würfelwurf durch die Augenzahl X des ersten Wurfes im Sin- Nach (4.36) kann das Quadrat des Korrelationskoeffizienten als
ne der mittleren quadratischen Abweichung bestmöglich durch Maß für die Güte der affinen Vorhersagbarkeit von Y durch
eine affine Funktion X 7! a C bX vorhersagen. Mit den Er- X gedeutet werden. Je näher .X ; Y / bei C1 oder 1 liegt,
gebnissen des ersten Beispiels in diesem Abschnitt sowie (4.35) umso besser gruppieren sich die Wertepaare .X .!/; Y .!// um
sind die Parameter a und b  dieser besten affinen Vorhersage- eine gewisse Gerade. In dieser Hinsicht zeigt Abb. 4.11 ei-
funktion durch nen klassischen, auf Karl Pearson (1857–1936) und Alice Lee
Cov.X ; Y / 1 49 (1859–1939) zurückgehenden Datensatz, nämlich die an 11
b D D ; a D EY  bEX D Geschwisterpaaren (Bruder/Schwester) gemessene Größe des
V .X / 2 18
Bruders (X ) und der Schwester (Y ). Der hervorgehobene Punkt
gegeben. Die konkreten Vorhersagewerte g.k/ WD 49=18Ck=2, bedeutet, dass hier zwei Datenpaare vorliegen.
k D 1; : : : ; 6, sind in Tab. 4.4 auf zwei Nachkommastellen ge- Offenbar besitzen größere Brüder zumindest tendenziell auch
Kapitel 4

nau berechnet aufgeführt. größere Schwestern, es besteht also – wohltuend vage formu-
Aus dieser Tabelle wird deutlich, welche Kritik man an einem liert – ein „statistischer Zusammenhang“ zwischen den Größen
aufgrund mathematischer Optimalitätsgesichtspunkte erhalte- von Geschwistern. Zu dessen Quantifizierung liegt es nahe, eine
nen Verfahren anbringen muss. Zunächst wird jeder, der das Trendgerade festzulegen, die in einem zu präzisierenden Sinn
Maximum der größten Augenzahl nach einer Vier im ersten möglichst gut zu den Daten passt.
Wurf mit 4:72 vorhersagt, Gelächter hervorrufen, denn das Ma- Carl Friedrich Gauß (1777–1855) und Adrien-Marie Legendre
ximum kann ja nur 4, 5 oder 6 sein. Diese Kritik bezieht sich (1752–1833) schlugen vor, bei Vorliegen einer durch Datenpaa-
also auf den Wertebereich der Vorhersagefunktion. Noch wahn- re .xj ; yj / 2 R2 , 1  j  n, gegebenen Punktwolke in einem
witziger fällt ja die Vorhersage des Maximums zu 5:72 aus, .x; y/-Koordinatensystem eine Ausgleichsgerade y D a Cb  x
wenn schon der erste Wurf eine Sechs ergeben hat. Kritisie- so zu bestimmen, dass sie die Eigenschaft
ren kann man natürlich auch, dass nur affine Funktionen in
Betracht gezogen wurden. Hierauf gehen wir in Abschn. 4.5 X
n X
n
.yj  a  b  xj /2 D min .yj  a  bxj /2 (4.37)
näher ein. Die beste Vorhersage im quadratischen Mittel, die a;b
j D1 j D1
nur Vorhersagefunktionen mit Wertebereich f1; : : : ; 6g zulässt,
ist Gegenstand von Aufgabe 4.35. J
y Größe der Schwester
Folgerung Für Zufallsvariablen X und Y gelten: (in cm) •
a) Cov.X ; Y /2  V .X /V .Y / (Cauchy–Schwarz-Ungleichung)
170
b) j .X ; Y /j  1, •
c) j .X ; Y /j D 1 () 9a; b 2 R mit P .Y D a C bX / D 1. • •
Dabei gilt b > 0 im Fall .X ; Y / D 1 und b < 0 im Fall • •

.X ; Y / D 1. J 160
• •
Größe des
Bruders
Tab. 4.4 Beste affine Vorhersage der größten Augenzahl durch die erste 150 • (in cm)
Augenzahl k im quadratischen Mittel x
165 170 175 180 185
k 1 2 3 4 5 6
g.k/ 3.22 3.72 4.22 4.72 5.22 5.72 Abb. 4.11 Größen von 11 Geschwisterpaaren mit Regressionsgerade
4.4 Kovarianz und Korrelation 105

y y = a + bx ρ ≈ −0.156 ρ ≈ 0.466

yj •


a + bxj •

ρ ≈ 0.925 ρ ≈ −0.782
• •

xj x

Abb. 4.12 Zur Methode der kleinsten Quadrate: Die Summe der Qua-
dratflächen ist durch geeignete Wahl von a und b zu minimieren

Abb. 4.13 Punktwolken mit zugehörigen empirischen Korrelationsko-


besitzt. Weil hier anschaulich eine Summe von Quadratflächen effizienten
minimiert wird (Abb. 4.12), heißt dieser Ansatz auch die Metho-
de der kleinsten Quadrate. ρ=0

Betrachten wir das Merkmalpaar .X ; Y / als zweidimensiona-


len Zufallsvektor, der die Wertepaare .xj ; yj / (j D 1; : : : ; n)
mit gleicher Wahrscheinlichkeit 1=n annimmt (wobei jedoch
ein mehrfach auftretendes Paar auch mehrfach gezählt wird,
sodass seine Wahrscheinlichkeit ein entsprechendes Vielfaches
von 1=n ist), so gilt
Abb. 4.14 Punktwolke mit perfektem quadratischen Zusammenhang
1X
n
E.Y  a  bX / D 2
.yj  a  bxj /2 :
n j D1
Die rechte Seite heißt empirischer Korrelationskoeffizient von
Folglich ist die Bestimmung des Minimums in (4.37) ein Spezi- .x1 ; y1 /; : : : .xn ; yn /. Abb. 4.13 zeigt verschiedene Punktwolken
alfall der Aufgabe (4.34). Setzen wir aus je 30 Punkten mit zugehörigen empirischen Korrelationsko-

Kapitel 4
1X 1X 1X
n n n effizienten.
x WD xj ; y WD yj ; x2 WD .xj  x/2 ;
n j D1 n j D1 n j D1 Abb. 4.14 sollte als warnendes Beispiel dafür dienen, dass
ein starker funktionaler Zusammenhang zwischen Merkmalen
1X 1X
n n
y2 WD .yj  y/2 ; xy WD .xj  x/.yj  y/; vorliegen kann, der nicht durch den Korrelationskoeffizienten
n j D1 n j D1 erfasst wird. Man sieht eine Punktwolke, deren Punkte auf einer
Parabel liegen. Der empirische Korrelationskoeffizient dieser
so gelten EX D x, EY D y, Cov.X ; Y / D xy , V .X / D x2 Punktwolke ist jedoch exakt gleich null.
und V .Y / D y2 : Somit besitzt die Lösung .a ; b  / der Aufgabe
(4.37) nach (4.35) die Gestalt
Selbstfrage 11
xy
b  D 2 ; a D y  b  x: (4.38) Warum ist der empirische Korrelationskoeffizient der Punktwol-
x ke in Abb. 4.14 gleich null?
Die nach der Methode der kleinsten Quadrate gewonnene op-
timale Gerade y D a C b  x heißt die (empirische) Regressi-
onsgerade von Y auf X . Dabei geht das Wort Regression auf Abschließend sei betont, dass oft vorschnell von Korrelation auf
Sir Francis Galton (1822–1911) zurück, der bei der Vererbung Kausalität geschlossen wird. So stellte man etwa bei Gehältern
von Erbsen einen Rückgang des durchschnittlichen Durchmes- von Berufsanfängern fest, dass Studiendauer und Einstiegsge-
sers feststellte. Wegen der zweiten Gleichung in (4.38) geht halt positiv korreliert sind, also ein langes Studium tendenziell
die Regressionsgerade durch den Schwerpunkt .x; y/ der Da- zu höheren Anfangsgehältern führt. Bei Unterscheidung nach
ten. Die Regressionsgerade zur Punktwolke der Größen der 11 dem Studienfach stellt sich hingegen in jedem einzelnen Fach
Geschwisterpaare ist in Abb. 4.11 veranschaulicht. Weiter gilt eine negative Korrelation zwischen Studiendauer und Einstiegs-
im Fall x2 > 0; y2 > 0: gehalt ein. Der Grund für diesen in Abb. 4.15 mit drei ver-
Pn schiedenen Studienfächern dargestellten auf den ersten Blick
xy j D1 .xj  x/.yj  y/ verwirrenden Sachverhalt ist einfach: Die Absolventen des rot
.X ; Y / D q D qP Pn :
x2 y2 n
.x  x/ 2 .y  y/ 2 gekennzeichneten Faches erzielen im Schnitt ein höheres Start-
j D1 j j D1 j
gehalt als ihre Kommilitonen im blau markierten Fach, weil
(4.39) ihr Studium augenscheinlich wesentlich aufwändiger ist. Das
106 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Jahresanfangsgehalt in TEuro Selbstfrage 12


• ρ ≈ +0.77
45
• Warum ist die Existenz von E.X jA/ gesichert?
• ••
• •
40 •
• •• In der Definition des Erwartungswertes von X haben wir in (4.7)
•• auch die Schreibweise EP .X / verwendet, um die Abhängigkeit
•• ρ• ≈ −0.68
35 •• des Erwartungswertes von P kenntlich zu machen. Wenn wir
• •
•• • •• uns jetzt daran erinnern, dass wir in Abschn. 3.2 das durch
••
• • ρ• ≈ −0.85
30 •
• P .A \ B/
• PA .B/ WD P .BjA/ D ; B 2 A;
ρ• ≈ −0.90 Studiendauer P .A/
6 7 8 9 10 11 12 13
definierte Wahrscheinlichkeitsmaß als bedingte Verteilung von
Abb. 4.15 Punktwolke mit positiver Korrelation, aber negativen Korre- P unter der Bedingung A bezeichnet haben, so gilt wegen
lationen innerhalb verschiedener Gruppen PA .f!g/ D P .f!g/=P .A/ für ! 2 A und PA .f!g/ D 0, falls
! … A:
X
orangefarben gekennzeichnete Fach nimmt hier eine Mittelstel- E.X jA/ D X .!/ PA .f!g/ D EPA .X /: (4.42)
lung ein. Offenbar führt innerhalb jedes einzelnen Faches ein !2˝0
schnellerer Studienabschluss tendenziell zu einem höheren An-
fangsgehalt. Der bedingte Erwartungswert E.X jA/ ist also nichts anderes
als der (normale) Erwartungswert von X bzgl. der bedingten
Hier wird deutlich, dass bei Vernachlässigung eines dritten Verteilung PA . Mit dieser Sichtweise ist klar, dass die für die Er-
Merkmals in Form einer sog. Hintergrundvariablen (hier des wartungswertbildung charakteristischen Eigenschaften auch für
Studienfaches) zwei Merkmale positiv korreliert sein können, bedingte Erwartungswerte bei festem „bedingenden Ereignis“ A
obwohl sie in jeder Teilpopulation mit gleichem Wert der Hin- gelten.
tergrundvariablen eine negative Korrelation aufweisen.
Besitzt der Zufallsvektor Z die Komponenten Z1 ; : : : ; Zk , so
setzt man
4.5 Bedingte Erwartungswerte E.X jZ1 D z1 ; : : : ; Zk D zk / WD E.X jZ D z/;
und bedingte Verteilungen wobei z D .z1 ; : : : ; zk / mit P .Z D z/ > 0. Grundsätzlich
Kapitel 4

lässt man wie in (4.41) die Mengenklammern weg, wenn das


In diesem Abschnitt machen wir uns mit einem zentralen Ob-
bedingende Ereignis durch eine Zufallsvariable oder einen Zu-
jekt der modernen Stochastik vertraut, dem bedingten Erwar-
fallsvektor definiert ist. Man schreibt also etwa E.X jZ1  Z2 
tungswert. Wir setzen weiterhin voraus, dass die auftretenden
3/ anstelle von E.X jfZ1  Z2  3g/.
Zufallsvariablen und Zufallsvektoren auf einem diskreten Wahr-
scheinlichkeitsraum .˝; A; P / definiert sind. Es gibt also eine Für bedingte Erwartungswerte gelten die folgenden Eigenschaf-
abzählbare Menge ˝0  ˝ mit P .˝0/ D 1. ten:

Definition des bedingten Erwartungswertes Eigenschaften des bedingten Erwartungswertes

Sind X eine Zufallsvariable mit existierendem Erwar- Es seien X und Y Zufallsvariablen mit existierenden Er-
tungswert und A ein Ereignis mit P .A/ > 0, so heißt wartungswerten, A ein Ereignis mit P .A/ > 0 sowie
Z ein k-dimensionaler Zufallsvektor und z 2 Rk mit
1 X P .Z D z/ > 0. Dann gelten:
E.X jA/ WD X .!/ P .f!g/ (4.40)
P .A/ !2A\˝ a) E.X C Y jA/ D E.X jA/ C E.Y jA/,
0
b) E.aX jA/ D aE.X jA/, a 2 R,
bedingter Erwartungswert von X unter der Bedin- c) E.1B jA/ D P P .BjA/, B 2 A, P
gung A (bzw. unter der Hypothese A). d) E.X jA/ D j 1 xj P .X D xj jA/, falls j 1 P .X D
xj / D 1, P
Gilt speziell A D fZ D zg für einen k-dimensionalen e) E.X jZ D z/ D
P j 1 xj P .X D xj jZ D z/, falls
Zufallsvektor Z und ein z 2 Rk , so heißt
j 1 P .X D xj / D 1,
E.X jZ D z/ WD E.X jfZ D zg/ (4.41) f) E.X jZ D z/ D E.X /, falls X und Z unabhängig sind.

der bedingte Erwartungswert von X unter der Bedin-


gung Z D z. Beweis Die Eigenschaften a) bis c) folgen direkt aus der Dar-
stellung (4.42). Man muss nur in den Eigenschaften a) bis c)
4.5 Bedingte Erwartungswerte und bedingte Verteilungen 107

der Erwartungswertbildung in Abschn. 4.2 stets P durch die be- Beweis Wir schreiben kurz Aj WD fZ D zj g und sor-
dingte Verteilung PA ersetzen. In gleicher Weise ergibt sich d) tieren die Summanden auf der rechten Seite von (4.43) nach
aus der zu Beginn von Abschn. 4.2 formulierten Transformati- gleichen Werten zj für Z.!/. Zusammen mit PAj .f!g/ D
onsformel für den Erwartungswert. e) ist ein Spezialfall von d) P .f!g/=P .Z D zj / und PAj .f!g/ D 0 für ! 2 ˝ n Aj so-
mit A WD fZ D zg. Wegen P .X D xj jZ D z/ D P .X D xj / wie in der in (4.42) verwendeten Schreibweise EPAj folgt
im Fall der Unabhängigkeit von X und Z folgt f) aus e). 
E .X  h.Z//2
Beispiel Beim zweifachen Wurf mit einem echten Würfel sei XX
Xj die Augenzahl des j -ten Wurfs. Wie groß ist der bedingte D .X .!/  h.zj //2 P .f!g/
Erwartungswert von X1 unter der Bedingung X1 C X2  5? j 1 !2Aj
X X
Zur Beantwortung dieser Frage beachten wir, dass sich das Er- D P .Z D zj / .X .!/  h.zj //2 PAj .f!g/
eignis A WD fX1 C X2  5g im Grundraum ˝ WD f.i; j / W j 1 !2Aj
i; j 2 f1; 2; 3; 4; 5; 6gg in der Form A D f.1; 1/; .1; 2/; .1; 3/; X X
.1; 4/; .2; 1/; .2; 2/; .2; 3/; .3; 1/; .3; 2/; .4; 1/g darstellt. Wegen D P .Z D zj / .X .!/  h.zj //2 PAj .f!g/
P .A/ D 10=36 und P .f!g/ D 1=36, ! 2 ˝, folgt nach Defini- j 1 !2˝0
tion des bedingten Erwartungswertes X
D P .Z D zj /EPAj .X  h.zj //2 :
E.X1 jA/ D E.X1 jX1 C X2  5/ j 1

1
36
 .1 C 1 C 1 C 1 C 2 C 2 C 2 C 3 C 3 C 4/ Die MQA EPAj .X  h.zj //2 wird nach der allgemeinen Mini-
D
10=36 malitätseigenschaft V .U / D mina2R E.U  a/2 der Varianz
D 2: einer Zufallsvariablen U für die Wahl
Aus Symmetriegründen gilt E.X2 jA/ D 2. J h.zj / WD EPAj .X / D E.X jAj / D E.X jZ D zj /; j  1;
Wir wenden uns nun dem Problem zu, die Realisierungen X .!/
minimal. Die in (4.44) getroffene Festsetzung h.z/ WD 0 für
einer Zufallsvariablen X mithilfe der Realisierungen Z.!/ ei-
z 2 Rk n fz1 ; z2 ; : : :g ist willkürlich. Sie dient nur dazu, die
nes k-dimensionalen Zufallsvektors Z vorherzusagen. Diese
Funktion h auf ganz Rk zu definieren. 
Vorhersage erfolgt über eine Funktion h W Rk ! R, wobei
h.Z.!// als Prognosewert für X .!/ bei Kenntnis der Realisie-
rung Z.!/ angesehen wird. Als Kriterium für die Qualität der
Vorhersage diene die mittlere quadratische Abweichung (MQA) Die bedingte Erwartung E.X jZ / ist eine von Z
X abhängende Zufallsvariable

Kapitel 4
E .X  h.Z//2 D .X .!/  h.Z.!///2 P .f!g/ (4.43)
!2˝0 Bilden wir die Komposition von Z und der eben konstruierten
Abbildung h, so entsteht die folgende zentrale Begriffsbildung.
zwischen tatsächlichem und vorhergesagtem Wert. Hierfür müs-
sen wir natürlich die zusätzliche Annahmen E.X 2/ < 1 und
E.h.Z/2/ < 1 treffen.
Definition der bedingten Erwartung
Welche Prognose-Funktion h liefert die kleinstmögliche MQA?
Die Antwort erschließt sich relativ leicht, wenn man bedenkt, Die mit h wie in (4.44) für jedes ! 2 ˝ durch
dass die mittlere quadratische Abweichung E.X  a/2 für die
Wahl a WD EX minimal wird. In unserer Situation führt die E.X jZ/.!/ WD h.Z.!//
(
Lösung auf den bedingten Erwartungswert. E.X jZ D Z.!//; falls Z.!/ 2 fz1 ; z2 ; : : :g
D
0 sonst,
Satz über den bedingten Erwartungswert als beste Vor-
hersage im quadratischen Mittel definierte Zufallsvariable E.X jZ/ heißt bedingte Erwar-
tung von X bei gegebenem Z .
Der Zufallsvektor Z nehme die verschiedenen Werte
z1 ; z2 ; : : : mit positiven Wahrscheinlichkeiten an, wobei
P
j 1 P .Z D zj / D 1 gelte. Dann wird die mittlere qua- Man beachte, dass die Realisierungen E.X jZ/.!/, ! 2 ˝, von
dratische Abweichung (4.43) minimal, falls
E.X jZ/ nur vom Wert Z.!/ abhängen. Die bedingte Erwartung
( E.X jZ/ ist somit als Funktion auf ˝ konstant auf den Mengen
E.X jZ D zj /; falls z D zj für ein j  1 fZ D zj g, j  1.
h.z/ WD
0; falls z 2 Rk n fz1 ; z2 ; : : :g
(4.44) Beispiel Beim zweifachen Würfelwurf seien Xj die Augen-
zahl des j -ten Wurfs sowie M WD max.X1 ; X2 / die höchs-
gesetzt wird. te Augenzahl. Welche Gestalt besitzt die bedingte Erwartung
E.M jX1/?
108 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

In diesem Beispiel ist aus Sicht obiger Definition Z D X1 und Setzt man in (4.45) speziell X D 1B für ein Ereignis B, so ent-
X D M . Unter der Bedingung X1 D j gilt M D j , falls steht wegen der Eigenschaft E.1B jA/ D P .BjA/ des bedingten
das Ereignis X2  j eintritt, was mit der Wahrscheinlichkeit Erwartungswertes die Formel von der totalen Wahrscheinlich-
j =6 geschieht, andernfalls gilt M D X2 . Somit nimmt unter der keit.
Bedingung X1 D 6 die Zufallsvariable M den Wert 6 mit der
(bedingten) Wahrscheinlichkeit 1 an, und im Fall X1 D j mit
j < 6 werden die Werte j und j C 1; : : : ; 6 mit den (bedingten) Man kann Erwartungswerte durch Bedingen
Wahrscheinlichkeiten j =6 bzw. 1=6; : : : ; 1=6 angenommen. Mit
der Konvention, eine Summe über die leere Menge gleich 0 zu
nach einer Zufallsvariablen iteriert ausrechnen
setzen, folgt für j 2 f1; : : : ; 6g

X6 Iterierte Erwartungswertbildung
j 1
E.M jX1 D j / D j  C k
6 6 Gilt im obigen Satz speziell Aj D fZ D zj g für ei-
kDj C1
  nen Zufallsvektor Z, der die Werte z1 ; z2 ; : : : mit positiver
1 j .j C 1/ Wahrscheinlichkeit annimmt, so geht (4.45) über in
D  j 2 C 21 
6 2 X
j .j  1/ E.X / D E.X jZ D zj / P .Z D zj /: (4.46)
D 3:5 C ; j 1
12
und somit
X1 .X1  1/ Nach Definition der bedingten Erwartung E.X jZ/ steht auf der
E.M jX1/ D 3:5 C : rechten Seite von (4.46) der Erwartungswert von E.X jZ/. So-
12
mit besitzt Darstellung (4.46) die Kurzform
Setzt man die möglichen Realisierungen 1, 2; : : : ; 6 für X1 ein,
so ergeben sich als Vorhersagewerte für M die auf zwei Stellen EX D E.E.X jZ//: (4.47)
gerundeten Werte 3.5, 3.67, 4, 4.5, 5.17, 6. Auch hier treten (als
jeweils bedingte Erwartungswerte) nicht ganzzahlige Werte auf. Gleichung (4.46) kann als eine iterierte Erwartungswertbildung
Würde man den Wertebereich einer Prognosefunktion auf die verstanden werden. Man erhält EX , indem man zunächst die
Menge f1; 2; : : : ; 6g einschränken, so ergäbe sich eine andere bedingten Erwartungswerte von X bei gegebenen Realisierun-
Lösung (Aufgabe 4.35). J gen zj von Z bestimmt, diese mit den Wahrscheinlichkeiten
P .Z D zj / gewichtet und dann aufsummiert. Natürlich machen
Kapitel 4

die Anwendung der Formel vom totalen Erwartungswert und die


Die Formel vom totalen Erwartungswert iterierte Erwartungswertbildung (4.46) nur dann Sinn, wenn die
Es seien A1 ; A2 ; : : : endlich oder abzählbar-unendlich vie- bedingten Erwartungswerte E.X jAj / bzw. E.X jZ D zj / wie
P disjunkte Ereignisse mit P .Aj / > 0 für jedes
le paarweise im folgenden Beispiel leicht erhältlich sind.
j sowie j 1 P .Aj / D 1. Dann gilt für jede Zufallsva-
riable X mit existierendem Erwartungswert: Beispiel (Warten auf den ersten Doppeltreffer) In ei-
X ner Bernoulli-Kette mit Trefferwahrscheinlichkeit p 2 .0; 1/
E.X / D E.X jAj / P .Aj /: (4.45) bezeichne X die Anzahl der Versuche, bis zum ersten Mal direkt
j 1 hintereinander zwei Treffer aufgetreten sind. Welchen Erwar-
tungswert besitzt X ?

P Abb. 4.16 zeigt diese Situation anhand eines sog. Zustandsgra-


Beweis Wegen E.X jAj /P .Aj / D !2Aj X .!/P .f!g/ er- phen mit den Knoten Start, 1 und 11. Zu Beginn befindet man
gibt sich sich im Startknoten. Dort bleibt man, wenn eine Niete auftritt,
0 1 was mit Wahrscheinlichkeit q WD 1  p geschieht. Andernfalls
X X X gelangt man in den Knoten 1. Von dort erreicht man entweder
EX D X .!/P .f!g/ D @ X .!/P .f!g/A den Knoten 11, oder man fällt wieder in den Startknoten zurück.
!2˝0 j 1 !2Aj
X
D E.X jAj / P .Aj /; q
j 1

was zu zeigen war. 


p p
Start 1 11
Selbstfrage 13
q
Warum gilt das zweite Gleichheitszeichen, wenn ˝0 eine un-
endliche Menge ist?
Abb. 4.16 Zustandsgraph beim Warten auf den ersten Doppeltreffer
4.5 Bedingte Erwartungswerte und bedingte Verteilungen 109

Einer unter mehreren möglichen Grundräumen für dieses Prob- Die Substitutionsregel besagt, dass man die durch Bedingung
lem ist die (abzählbare) Menge ˝ aller endlichen Sequenzen aus Z D z gegebene Information über Z in die Funktion g.X ; Z/
Nullen und Einsen, die nur am Ende zwei direkt aufeinanderfol- „einsetzen“, also den Zufallsvektor Z durch dessen Realisie-
gende Einsen aufweisen. Wir gehen an dieser Stelle nicht auf rung z ersetzen kann.
die Existenz des Erwartungswertes von X und die Gleichung
P
!2˝ P .f!g/ D 1 ein (siehe Aufgabe 4.36), sondern machen Beispiel (Augensumme mit zufälliger Wurfanzahl) Ein
deutlich, wie die Formel vom totalen Erwartungswert in dieser
echter Würfel wird geworfen. Fällt die Augenzahl k, so wer-
Situation angewendet werden kann.
den danach k echte Würfel geworfen. Welchen Erwartungswert
Aufgrund von Abb. 4.16 drängt sich auf, nach den Ergebnis- hat die insgesamt gewürfelte Augensumme? Zur Beantwortung
sen der beiden ersten Versuche zu bedingen. Hierzu bezeichne dieser Frage wählen wir den Grundraum ˝ D f1; 2; : : : ; 6g7 D
A1 das Ereignis, dass der erste Versuch eine Niete ergibt. Der f! D .a0 ; a1 ; : : : ; a6 / W 1  aj  6 für j D 0; : : : ; 6g mit der
konträre Fall, dass die Bernoulli-Kette mit einem Treffer be- Gleichverteilung P auf ˝. Die durch Xj .!/ WD aj definierte
ginnt, wird in die beiden Unterfälle aufgeteilt, dass sich im Zufallsvariable Xj gibt die Augenzahl des .j C 1/-ten Wurfs
zweiten Versuch eine Niete bzw. ein Treffer einstellt. Diese Er- an. Die Zufallsvariablen X0 ; X1 ; : : : ; X6 sind unabhängig, und
eignisse werden mit A2 bzw. A3 bezeichnet. Offenbar gelten die durch
A1 C A2 C A3 D ˝ sowie P .A1 / D q, P .A2/ D pq und
P .A3 / D p 2 . Tritt A1 ein, so verbleibt man nach einem im X
X0 .!/

Hinblick auf den Doppeltreffer vergeblichen Versuch im Start- X .!/ WD X0 .!/ C Xj .!/; ! 2 ˝;
zustand, was sich in der Gleichung j D1

E.X jA1/ D 1 C EX definierte Zufallsvariable X beschreibt die insgesamt gewürfelte


Augensumme. Es ist
äußert. Im Fall von A2 ist man nach zwei Versuchen wieder im
Startzustand, es gilt also E.X jA2 / D 2 C EX . Tritt A3 ein, so 0 1
XX0 ˇ
ist der erste Doppeltreffer nach zwei Versuchen aufgetreten, was ˇ
E.X jX0 D k/ D E @X0 C Xj ˇX0 D k A
E.X jA3 / D 2 bedeutet. Nach Gleichung (4.45) folgt
j D1
EX D .1 C EX /  q C .2 C EX /  pq C 2p 2 0 1
X
k ˇ
ˇ
und somit D E @k C Xj ˇX0 D k A
1Cp j D1
EX D :
p2 X
k

Insbesondere gilt EX D 6 im Fall p D 1=2. Interessanterweise D E.kjX0 D k/ C E.Xj jX0 D k/

Kapitel 4
ergibt sich für die Wartezeit Y auf das mit gleicher Wahrschein- j D1

lichkeit 1=4 eintretende Muster 01 der kleinere Wert EY D 4 X


k
(Aufgabe 4.37). J DkC E.Xj /
j D1
Für den Umgang mit bedingten Erwartungswerten ist folgendes D k C k  3:5:
Resultat wichtig.
Dabei wurde beim zweiten Gleichheitszeichen die Substituti-
onsregel (4.48) und beim dritten Gleichheitszeichen die Addi-
Die Substitutionsregel
tivität des bedingten Erwartungswertes verwendet. Das vierte
Es seien X ein n-dimensionaler und Z ein k-dimensio- Gleichheitszeichen gilt, da X0 und Xj unabhängig sind. Mit
naler Zufallsvektor. Weiter sei g W Rn  Rk ! R eine (4.46) folgt
Funktion mit der Eigenschaft, dass der Erwartungswert
der Zufallsvariablen g.X ; Z/ existiert. Dann gilt für jedes X
6

z 2 Rk mit P .Z D z/ > 0: EX D E.X jX0 D k/ P .X0 D k/


kD1
E.g.X ; Z/jZ D z/ D E.g.X ; z/jZ D z/: (4.48) 1 X 6
D  4:5  k D 15:75:
6
kD1

Beweis Mit der Abkürzung pz WD P .Z D z/ gilt Dieses Ergebnis sollte auch plausibel sein. Es werden ja „im
1 X Schnitt 4:5.D 1 C 3:5/ Würfelwürfe“ durchgeführt, und jeder
E.g.X ; Z/jZ D z/ D g.X .!/; Z.!//P .f!g/ Wurf trägt im Durchschnitt den Wert 3.5 zur Gesantsumme bei.
pz
!2˝0 WZ.!/Dz J
1 X
D g.X .!/; z/P .f!g/
pz Selbstfrage 14
!2˝0 WZ.!/Dz
Warum gilt E.kjX0 D k/ D k?
D E.g.X ; z/jZ D z/: 
110 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Unter der Lupe: Zwischen Angst und Gier: Die Sechs verliert

Ein Problem des optimalen Stoppens vom erreichten Punktestand k betrachtet, also den mit Ek .G/
abgekürzten bedingten Erwartungswert von G unter dem-
Ein echter Würfel wird wiederholt geworfen. Solange kei-
jenigen Ereignis Ak , das aus allen zu einem Punktestand
ne Sechs auftritt, werden die erzielten Augenzahlen auf ein
von k führenden Wurfsequenzen besteht. Wenn wir formal
Punktekonto addiert. Das Spiel kann jederzeit gestoppt wer-
A0 WD ˝ setzen, läuft k hierbei von 0 bis 19. Der maximale
den. Der erzielte Punktestand ist dann der Gewinn (in Euro).
Wert 19 wird erreicht, wenn man mit 14 Punkten eine Fünf
Kommt eine Sechs, so fällt man auf 0 Punkte zurück und
würfelt. Nach Definition gilt offenbar EG D E0 .G/.
gewinnt nichts. Würfelt man etwa 4,5,2,2 und stoppt dann,
so beträgt der Gewinn 13 Euro. Bei der Sequenz 3,1,6 geht Da man mit mindestens 15 Punkten stoppt und diese Punkt-
man leer aus, da nach den ersten beiden Würfen das Spiel zahl als Gewinn erhält, gilt
nicht beendet wurde. Welche Strategie sollte verfolgt wer-
den, wenn man das Spiel oft wiederholt spielen müsste? Ek .G/ D k; falls k 2 f15; 16; 17; 18; 19g: (4.49)
Eine Entscheidung zwischen Weiterwürfeln und Stoppen
sollte offenbar vom erreichten Punktestand und nicht von Für k  14 betrachten wir das zufällige Ergebnis X des
der Anzahl der Würfe, die man ohne Sechs überstanden hat, nächsten Wurfs. Die Formel vom totalen Erwartungswert,
abhängig gemacht werden, denn die Wahrscheinlichkeit für angewendet auf Ek .G/, besagt
eine Sechs wird ja nicht größer, je länger sie ausgeblieben
ist. Aber lohnt es sich, bei k erreichten Punkten weiter- X
6

zuwürfeln? Hierzu betrachten wir den Erwartungswert des Ek .G/ D Ek .GjX D j / P .X D j /: (4.50)
zufälligen Punktestandes Xk nach einem gedanklichen wei- j D1
teren Wurf. Da Xk die Werte k C 1; : : : ; k C 5 und 0 jeweils
mit Wahrscheinlichkeit 1=6 annimmt, gilt Da eine Sechs verliert, gilt Ek .GjX D 6/ D 0. Im Fall
X D j mit j  5 erhält man weitere j Punkte, es gilt al-
1X so Ek .GjX D j / D EkCj .G/. Wegen P .X D j / D 1=6
5
5k C 15
E.Xk / D .k C j / D (j D 1; : : : ; 6) nimmt dann (4.50) die Gestalt
6 j D1 6

1X
5
und somit E.Xk / > k () k < 15. Nach diesem aus der Ek .G/ D EkCj .G/
Kapitel 4

Betrachtung des Erwartungswertes abgeleiteten Prinzip soll- 6 j D1


te man also weiterspielen, falls der Punktestand kleiner ist als
15. Andernfalls sollte man aufhören und den Gewinn mitneh- an. Zusammen mit (4.49) lässt sich hiermit E0 .G/ durch
men. Rückwärtsinduktion gemäß
Welchen Erwartungswert hat der Spielgewinn G, wenn man
so vorgeht? Als Definitionsbereich ˝ für G bietet sich die 1 85
E14 .G/ D .15 C 16 C 17 C 18 C 19/ D 14:167;
Menge aller denkbaren Wurfsequenzen ! bis zum Spielen- 6  6
de an. Diese haben eine maximale Länge von 15 (die bei 14 1 85 481
Einsen in Folge erreicht wird) und enthalten entweder nur E13 .G/ D C 15 C 16 C 17 C 18 D 13:361
6 6 36
am Ende eine Sechs (dann gilt G.!/ D 0) oder keine Sechs.
Im letzteren Fall ist ! von der Gestalt ! D a1 a2 : : : a` mit usw. berechnen (Tabellenkalkulation). Schließlich ergibt sich
`  3 und a1 C : : : C a`  15 sowie a1 C : : : C a`1 < 15.
In diesem Fall gilt G.!/ D a1 C : : : C a` . EG D E0 .G/ 6:154:
Prinzipiell lässt sich EG über Definition (4.7) berechnen.
Wegen der großen Zahl an Spielverläufen ist hierfür je- Man kann beweisen, dass die vorgestellte Strategie in dem
doch ein Computerprogramm erforderlich. Einfacher geht Sinne optimal ist, dass sie den Erwartungswert des Spielge-
es, wenn man den Erwartungswert von G in Abhängigkeit winns maximiert, siehe [20].
4.5 Bedingte Erwartungswerte und bedingte Verteilungen 111

Bedingte Wahrscheinlichkeiten Die gesuchte bedingte Verteilung ist also die Binomialvertei-
lung Bin.n; =. C // oder kurz
P .X 2 BjZ D z/ als Funktion von B:
Die bedingte Verteilung PXXCY Dn D Bin.n; =. C //:
In gleicher Weise entsteht die hypergeometrische Verteilung als
Definition der bedingten Verteilung bedingte Verteilung bei gegebener Summe von zwei unabhän-
gigen binomialverteilten Zufallsvariablen (Aufgabe 4.11). Eine
Es seien X und Z n- bzw. k-dimensionale diskrete Zu- Verallgemeinerung des obigen Beispiels auf die Multinomial-
fallsvektoren sowie z 2 Rk mit P .Z D z/ > 0. Dann verteilung findet sich in Aufgabe 4.40. J
heißt das Wahrscheinlichkeitsmaß
( Nach (4.46) und (4.47) kann der Erwartungswert einer Zufalls-
Bk ! Œ0; 1 variablen durch Bedingen nach einer anderen Zufallsvariablen
PZDz W
X
B 7! PZDz
X
.B/ WD P .X 2 BjZ D z/ iteriert berechnet werden. Die Frage, ob es eine analoge Vorge-
hensweise zur Bestimmung der Varianz gibt, führt auf folgende
bedingte Verteilung von X unter der Bedingung Begriffsbildung.
Z D z.
Definition der bedingten Varianz
P
Gilt j 1 P .X D xj / D 1, so ist die bedingte Verteilung PZDz
X
Es seien X eine Zufallsvariable mit existierender Vari-
durch das System der Wahrscheinlichkeiten anz, Z ein k-dimensionaler Zufallsvektor und z 2 Rk mit
P .Z D z/ > 0. Dann heißt
P .X D xj jZ D z/; j  1;

eindeutig bestimmt, denn es gilt V .X jZ D z/ WD E .X  E.X jZ D z//2 jZ D z
X
P .X 2 BjZ D z/ D P .X D xj jZ D z/: die bedingte Varianz von X unter der Bedingung
j Wxj 2B Z D z.
Man beachte auch, dass Nimmt Z die Werte z1 ; z2 ; : : : mit positiven Wahrschein-
X lichkeiten an, so heißt die durch
E.X jZ D z/ D xj P .X D xj jZ D z/
j 1 V .X jZ/.!/
(

Kapitel 4
nach Eigenschaft e) des bedingten Erwartungswertes der Erwar- V .X jZ D Z.!//; falls Z.!/ 2 fz1 ; z2 ; : : :g
tungswert der bedingten Verteilung von X unter der Bedingung WD
0 sonst,
Z D z ist.
(! 2 ˝) definierte Zufallsvariable V .X jZ/ die bedingte
Beispiel (Binomialverteilung als bedingte Verteilung) Varianz von X bei gegebenem Z .
Die Zufallsvariablen X und Y seien stochastisch unabhängig,
wobei X Po./ und Y Po./ mit ;  > 0. Welche be-
dingte Verteilung besitzt X unter der Bedingung X CY D n mit Nach Definition ist V .X jZ D z/ die Varianz der bedingten Ver-
festem n 2 N? Da X und Y N0 -wertig sind, kann X unter der teilung von X unter der Bedingung Z D z. Nimmt X die Werte
Bedingung X C Y D n jeden Wert k 2 f0; 1; : : : ; ng annehmen. x1 ; x2 ; : : : an, so berechnet sich V .X jZ D z/ gemäß
Für ein solches k gilt X 2
P .X D k; X C Y D n/ V .X jZ D z/ D xj  E.X jZ D z/ P .X D xj jZ D z/:
P .X D kjX C Y D n/ D : j 1
P .X C Y D n/
Die Zufallsvariable V .X jZ/ ist ebenso wie die bedingte Erwar-
Da X CY nach dem Additionsgesetz für die Poisson-Verteilung
tung E.X jZ/ auf den Mengen fZ D zj g, j  1, konstant.
die Verteilung Po. C / besitzt und das Ereignis fX D k; X C
Die Festsetzung V .X jZ/.!/ WD 0 im Fall Z.!/ … fz1 ; z2 ; : : :g
Y D ng gleichbedeutend mit fX D k; Y D n  kg ist, folgt
dient nur dazu, dass V .X jZ/ auf ganz ˝ definiert ist.
wegen der Unabhängigkeit von X und Y
Das angekündigte Resultat zur iterierten Berechnung der Vari-
P .X D k/ P .Y D n  k/ anz lautet wie folgt:
P .X D kjX C Y D n/ D
P .X C Y D n/
k nk
e kŠ e .nk/Š Satz über die iterierte Berechnung der Varianz
D n
e.C/ .C/
nŠ In der Situation der obigen Definition gilt
! k  nk
n   V .X / D V .E.X jZ// C E.V .X jZ//: (4.51)
D 1 :
k C C
112 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Beweis P Der Zufallsvektor Z nehme die Werte z1 ; z2 ; : : : an,


wobei j 1 P .Z D zj / D 1 gelte. Wenden wir (4.46) auf die
4.6 Erzeugende Funktionen
Zufallsvariable .X  EX /2 an, so folgt Erzeugende Funktionen sind ein häufig verwendetes Hilfsmit-
tel zur Lösung kombinatorischer Probleme (s. z. B. [1], Abschn.
V .X / D E .X  EX / 2
26.3). In der Stochastik verwendet man sie bei der Untersuchung
X
D E .X  EX /2 jZ D zj P .Z D zj /: von N0 -wertigen Zufallsvariablen.
j 1

Schreiben wir auf der rechten Seite X  EX D X  h.zj / C Definition der erzeugenden Funktion
h.zj /  EX mit h.zj / WD E.X jZ D zj /, so liefern die binomi- Für eine N0 -wertige Zufallsvariable X heißt die durch
sche Formel und die Linearität des bedingten Erwartungswerts
sowie die Substitutionsregel X
1

X gX .t / WD P .X D k/ t k ; jt j  1; (4.52)
V .X / D E .X  h.zj //2 jZ D zj P .Z D zj / kD0
j 1
X definierte Potenzreihe gX die erzeugende Funktion
C2 .h.zj /  EX /2 von X .

j 1
 E X  h.zj /jZ D zj P .Z D zj /
X
C .h.zj /  EX /2 P .Z D zj /:
Kommentar
j 1
Allgemein nennt man für eine reelle Zahlenfolge .ak /k0 die
Wegen E.X  h.zj /jZ D zj / D E.X jZ D zj /  h.zj / D Potenzreihe
0 verschwindet hier der gemischte Term. Der X 1
Perste Term ist g.t / WD ak t k (4.53)
nach Definition der bedingten Varianz gleich j 1 V .X jZ D
zj /P .Z D zj /, also gleich E.V .X jZ//, und der letzte Term kD0

gleich V .E.X jZ//.  die erzeugende Funktion von .ak /k0 . Hiermit ist also gX die
erzeugende Funktion der Folge .P .X D k//k0 . In (4.53)
Nach diesem Satz ergibt sich also die Varianz von X als Summe setzen wir voraus, dass der Konvergenzradius von g nicht
aus der Varianz der bedingten Erwartung von X bei gegebenem verschwindet. Wegen
Z und des Erwartungswerts der bedingten Varianz von X bei
X
1
Kapitel 4

gegebenem Z. Ein schon einmal behandeltes Beispiel soll die


Vorgehensweise verdeutlichen. 1D P .X D k/ D gX .1/
kD0

Beispiel (Augensumme mit zufälliger Wurfanzahl, ist diese Bedingung für erzeugende Funktionen von Zufalls-
Fortsetzung) In Fortsetzung des Beispiels der Augensum- variablen stets erfüllt.
me mit zufälliger Wurfanzahl wollen wir die Varianz der Die erzeugende Funktion einer Zufallsvariablen X hängt nur
P 0 von der Verteilung P X von X und nicht von der speziellen
insgesamt gewürfelten Augensumme X WD X0 C jXD1 Xj be-
stimmen. Hierzu bedingen wir nach der Zufallsvariablen X0 . Gestalt des zugrunde liegenden Wahrscheinlichkeitsraums
Die bedingte Verteilung von X unter der Bedingung X0 D k ist ab. Aus diesem Grund wird gX auch die erzeugende Funk-
P tion von P X genannt. Wegen
die Verteilung der Zufallsvariablen k C jkD1 Xj . Wir müssen
diese Verteilung nicht kennen, um deren Varianz zu bestimmen, gX .0/ D P .X D 0/
sondern nutzen die Summenstruktur aus. Da sich Varianzen bei
Addition von Konstanten nicht ändern und V .Xj / D 35=12 gilt, und
folgt wegen der Unabhängigkeit von X1 ; : : : ; X6 dj X 1

j
gX .t /j t D0 D .k/j P .X D k/t kj j t D0
dt
35 kDj
V .X jX0 D k/ D k  ; k D 1; 2; : : : ; 6;
12 D j Š P .X D j /
also .j D 1; 2; : : :/ kann aus der Kenntnis von gX die Verteilung
35 von X zurückgewonnen werden. Folglich gilt der Eindeutig-
V .X jX0/ D X0  : keitssatz
12 P X D P Y () gX D gY (4.54)
Wegen E.X jX0/ D 4:5  X0 folgt
für N0 -wertige Zufallsvariablen X und Y .
  Nach der allgemeinen Transformationsformel (4.15) gilt
35
V .X / D V .4:5  X0 / C E X0 
12 gX .t / D E.t X /; jt j  1: (4.55)
35 35
D 4:52  C 3:5  69:27: J J
12 12
4.6 Erzeugende Funktionen 113

Beispiel Selbstfrage 15
a) Eine Bin.n; p/-verteilte Zufallsvariable X besitzt die erzeu- Können Sie das Additionsgesetz für die Poisson-Verteilung be-
gende Funktion weisen?
!
X
n
n k Dass man mithilfe erzeugender Funktionen sehr einfach Erwar-
gX .t / D p .1  p/nk t k
k tungswert und Varianz von Verteilungen berechnen kann, zeigt
kD0
folgendes Resultat. In diesem Zusammenhang erinnern wir an
D .1  p C pt /n : (4.56) die abkürzende Schreibweise

b) Ist X eine Zufallsvariable mit der Poisson-Verteilung Po./, .k/r D k.k  1/  : : :  .k  r C 1/:
so gilt

X
1 Satz über erzeugende Funktionen und Momente
k k
gX .t / D e t D e et
kŠ Es seien X eine N0 -wertige Zufallsvariable mit erzeugen-
kD0
der Funktion gX sowie r eine natürliche Zahl. Dann sind
.t 1/
De : (4.57) folgende Aussagen äquivalent:

c) Besitzt X die negative Binomialverteilung Nb.r; p/, so gilt a) E.X /r < 1,


b) die linksseitige Ableitung
 r
p dr
gX .t / D .r/
gX .1/ WD lim gX .t /
1  .1  p/t t !1;t <1 dt r
(Übungsaufgabe 4.41). J existiert (als endlicher Wert).
.r/
Eine wichtige Eigenschaft erzeugender Funktionen ist, dass sie In diesem Fall gilt E.X /r D gX .1/:
sich multiplikativ gegenüber der Addition unabhängiger Zufalls-
variablen verhalten.
Beweis a) ist äquivalent zur Aussage
Multiplikationsformel für erzeugende Funktionen X
1
.k/r P .X D k/ < 1;

Kapitel 4
Sind X ; Y unabhängige N0 -wertige Zufallsvariablen, so kDr
gilt
welche ihrerseits gleichbedeutend mit der Konvergenz der Po-
gX CY .t / D gX .t / gY .t /; jt j  1: tenzreihe
dr
1X
r
gX .t / D .k/r P .X D k/ t kr
dt
kDr
Beweis Da mit X und Y auch t X und t Y stochastisch unab- im Randpunkt t D 1 des Intervalls .1; 1/ ist. Nach dem
hängig sind, folgt mit der Darstellung (4.55) Abelschen Grenzwertsatz (s. z. B. [1], Abschn. 11.1) gilt dann
.r/
E.X /r D gX .1/. 
gX CY .t / D E.t X CY / D E.t X t Y /
D E.t X / E.t Y / Kommentar Man nennt E.X /r das r-te faktorielle Moment
D gX .t / gY .t /; jt j  1:  von X . Die Existenz (Endlichkeit) des r-ten faktoriellen Mo-
mentes ist also gleichbedeutend mit der Existenz der linksseiti-
gen r-ten Ableitung der erzeugenden Funktion an der Stelle 1.
Beispiel Sind X und Y unabhängige Zufallsvariablen mit
.r/ .r/
X Bin.m; p/ und Y Bin.n; p/, so folgt mit (4.56) und Wir schreiben im Folgenden kurz gX .1/ D gX .1/ sowie
der Multiplikationsformel .1/ .2/
gX0 .1/ D gX .1/, gX00 .1/ D gX .1/ usw. Mithilfe des obigen Sat-
zes lassen sich Erwartungswert und Varianz von X sehr leicht
gX CY .t / D .1  p C pt /m  .1  p C pt /n aus gX berechnen, wobei rekursiv vorgegangen wird:
D .1  p C pt /mCn : E.X / D gX0 .1/
Mit dem Eindeutigkeitssatz (4.54) und (4.56) ergibt sich das E.X 2 / D EŒX .X  1/ C EX D gX00 .1/ C gX0 .1/ usw.
schon aus Abschn. 4.3 bekannte Additionsgesetz X C Y Insbesondere ergibt sich
Bin.m C n; p/. Völlig analog beweist man die Additionsgesetze
für die Poisson-Verteilung und die negative Binomialverteilung. V .X / D gX00 .1/ C gX0 .1/  .gX0 .1//2: (4.58)
J J
114 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Beispiel: Die exakte Verteilung der Augensumme Sn beim n-fachen Würfelwurf

Mithilfe erzeugender Funktionen lässt sich ein einfacher ge- Mit k WD n C i s C j , also j D k  n  i s ergibt sich
schlossener Ausdruck für P .Sn D k/ angeben. ! ! !
nCj 1 kis1 kis1
Problemanalyse und Strategie Die Zufallsvariablen D D :
X1 ; : : : ; Xn seien unabhängig und je gleichverteilt auf den j k isn n1
Werten 1; 2; : : : ; s, wobei s  2. Im Folgenden leiten wir
einen geschlossenen Ausdruck für die Verteilung der Sum- Der letzte Binomialkoeffizient ist nur dann von null verschie-
me Sn D X1 C : : : C Xn her. Für s D 6 erhält man somit die den, falls k  i s  1  n  1 gilt, was gleichbedeutend
Verteilung der Augensumme beim n-fachen Wurf mit einem mit i  b kn
s
c ist. Weiter gilt n  k  n s, da andernfalls
echten Würfel. P .Sn D k/ D 0 wäre. Es folgt

Lösung Bezeichnet kn


n s bX
! !
X s c
kis1 i n 1
1   gSn .t / D .1/  tk
g.t / WD Et X1 D t C t2 C : : : C ts kDn i D0
n  1 i s n
s
die erzeugende Funktion von X1 , so gilt nach der Multipli-
Mit dem PEindeutigkeitssatz (4.54) erhält man wegen
kationsformel für erzeugende Funktionen und der Summen-
gSn .t / D 1 kD0 P .Sn D k/t durch Koeffizientenvergleich
k
formel für die geometrische Reihe
das Resultat
1  n
gSn .t / D g.t /n D n t C t 2 C : : : C t s b kn ! !
s X s c
 s1    kis1 i n 1
tn X j n tn ts  1 n P .Sn D k/ D .1/ ;
D n t D n i D0
n1 i sn
s j D0
s t 1
tn falls k 2 fn; n C 1; : : : ; n sg und P .Sn D k/ D 0 sonst.
D .t  1/n .t s  1/n
sn Die nachstehende Abbildung zeigt das Stabdiagramm der
tn Verteilung der Augensumme beim fünffachen Würfelwurf.
D n .1  t /n .1/n .t s  1/n ; t ¤ 1:
s
Kapitel 4

Mit der Binomialreihe (4.25) und der binomischen Formel (S5 = k)


0.10
folgt für t ¤ 1
! ! 0.08
tn X n C j  1 j X
1 n
i n
gSn .t / D n t .1/ ti s 0.06
s j D0 j i D0
i 0.04
! n !
X 1
nCj 1 X 0.02
1 i n
D n .1/ t nCi sCj : 0
s j D0 j i D0
i 5 10 15 20 25 30 k

Beispiel Für eine Bin.n; p/-verteilte Zufallsvariable X folgt In Anwendungen treten häufig randomisierte Summen, also
mit gX .t / D .1  p C pt /n Summen von Zufallsvariablen mit einer zufälligen Anzahl von
Summanden, auf. Beispielsweise ist die Anzahl der einer Versi-
gX0 .t / D np.1  p C pt /n1 cherung in einem bestimmten Zeitraum gemeldeten Schadens-
gX00 .t / D n.n  1/p 2 .1  p C pt /n2 ; fälle zufällig, und die Gesamt-Schadenshöhe setzt sich additiv
aus den zufälligen Schadenshöhen der einzelnen Schadensfälle
und wir erhalten die schon bekannten Resultate zusammen.

E.X / D gX0 .1/ D np; Wir betrachten hier den Fall stochastisch unabhängiger N0 -
wertiger Zufallsvariablen N ; X1 ; X2 ; : : :, die alle auf einem
V .X / D gX00 .1/ C gX0 .1/  .gX0 .1//2 gemeinsamen Wahrscheinlichkeitsraum .˝; A; P / definiert sei-
D n.n  1/p 2 C np  n2 p 2 en. Dabei mögen X1 ; X2 ; : : : alle die gleiche Verteilung und
somit auch die gleiche erzeugende Funktion g besitzen. Die er-
D np.1  p/:
zeugende Funktion von N sei '.t / D E.t N /. Mit S0 WD 0,
Völlig analog ergeben sich Erwartungswert und Varianz für die Sk WD X1 C    C Xk , k  1, ist die randomisierte Summe SN
Poisson-Verteilung und die negative Binomialverteilung (Auf- durch
gabe 4.42). J SN .!/ WD SN .!/ .!/; ! 2 ˝;
4.6 Erzeugende Funktionen 115

Hintergrund und Ausblick: Stochastische Populationsdynamik

Der einfache Galton-Watson-Prozess Man kann vermuten, dass w entscheidend von dem als
existent angenommenen Erwartungswert  WD g 0 .1/ der Re-
Francis Galton (1822–1911) formulierte im Jahre 1873 das
produktionsverteilung abhängt. Gilt  > 1 bzw.  D 1 bzw.
folgende Problem: Mit welcher Wahrscheinlichkeit stirbt die
 < 1, so heißt der Galton-Watson-Prozess superkritisch
männliche Linie der Nachkommenschaft eines Mannes aus,
bzw. kritisch bzw. subkritisch. In der Tat ist die Aussterbe-
wenn dieser und jeder seiner Söhne, Enkel usw. unabhängig
wahrscheinlichkeit w die kleinste nichtnegative Lösung der
voneinander mit der gleichen Wahrscheinlichkeit pk genau k
Gleichung g.t / D t , und es gilt w < 1 im superkritischen
Söhne hat .k 2 f0; 1; 2; : : :g/?
Fall  > 1. Unter den Annahmen p1 < 1 und   1 gilt
In neutraler Einkleidung und mit weiteren vereinfachenden w D 1.
Annahmen liege eine Population von Individuen vor, die al-
le eine Lebensdauer von einer Zeiteinheit besitzen und sich Diese Behauptungen sind relativ leicht einzusehen. Zunächst
ungeschlechtlich vermehren. Dabei kommen die Individuen ist wegen
einer Generation simultan zur Welt und sterben auch gleich-  
zeitig. Wir bezeichnen mit Mn den Umfang der Population g.w/ D g lim 'n .0/
n!1
zur Zeit n  1 und setzen M0 WD 1.
D lim g.'n .0//
n!1
Die Folge .pk /k0 definiert eine Wahrscheinlichkeitsvertei-
lung auf N0 , die sog. Reproduktionsverteilung. Die erzeu- D lim 'nC1 .0/ D w
n!1
gende Funktion dieser Verteilung sei mit
w ein Fixpunkt von g. Für einen weiteren Fixpunkt x  0 gilt
X
1
x D g.x/  g.0/ D '1 .0/ und somit induktiv x  'n .0/,
k
g.t / WD pk t ; jt j  1;
n 2 N, also x  w D limn!1 'n .0/.
kD0

bezeichnet. Wir nehmen an, dass sich jedes Individuum in je- Falls p0 C p1 D 1, so folgt P .Mn D 0/ D 1  p1n und
der Generation unabhängig von den anderen Individuen nach somit w D 1 für p1 < 1 (in diesem P Fall ist   1/.
dieser Verteilung fortpflanzt. Diese Annahme führt zur Re- Falls p0 C p1 < 1, so ist g 0 .t / D 1 kD1 kpk t
k1
auf Œ0; 1
produktionsgleichung streng monoton und g.t / dort strikt konvex. g kann dann
höchstens zwei Fixpunkte haben. Die beiden Möglichkeiten
X
Mn  D g 0 .1/  1 bzw.  D g 0 .1/ > 1 sind nachstehend

Kapitel 4
.j /
MnC1 D XnC1 : (4.59) veranschaulicht. Die Behauptungen ergeben sich unmittelbar
j D1 aus dem Mittelwertsatz (falls g 0 .1/  1/ bzw. aus dem Zwi-
schenwertsatz (falls g 0 .1/ > 1/.
.j /
Dabei seien fXn W n; j 2 Ng unabhängige N0 -wertige Zu-
.j /
fallsvariablen mit obiger erzeugender Funktion, und XnC1 g(t) g(t)
bezeichne die Anzahl der Nachkommen des j -ten Indivi-
duums in der n-ten Generation. Die durch (4.59) rekursiv
definierte Folge .Mn /n0 heißt (einfacher) Galton-Watson-
Prozess (kurz: GW-Prozess).
Bezeichnet 'n die erzeugende Funktion von Mn , so folgt
aus (4.59) und (4.60) 'nC1 .t / D 'n .g.t // und somit wegen t w t
0 1 0 1
(= w)
'1 .t / D g.t /, dass

'n .t / D .g ı    ı g/.t / Als Beispiel betrachten wir für  > 1 die geometrische
Reproduktionsverteilung mit Erwartungswert  und erzeu-
die n-fach iterierte Anwendung von g ist. Die Wahrschein- gender Funktion g.t / D 1=. C t  t /, also
lichkeit, dass der Prozess ausstirbt, ist
!  k
[1 1 
pk WD ; k 2 N0 :
w WD P fMn D 0g : C1 C1
nD1
Die Gleichung g.t / D t führt auf die quadratische Gleichung
Da P stetig von unten ist, folgt wegen fMk D 0g  t 2  . C 1/t C 1 D 0, die neben der trivialen Lösung 1
fMkC1 D 0g, k  1, die Darstellung die Lösung 1= < 1 besitzt. Der Galton-Watson-Prozess mit
w D lim P .Mn D 0/ D lim gn .0/: dieser Reproduktionsverteilung stirbt also mit Wahrschein-
n!1 n!1 lichkeit 1= aus.
116 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

definiert. Indem man das Ereignis fSN D j g nach dem ange- also
nommenen Wert von N zerlegt und beachtet, dass N und Sk gSN .t / D '.g.t //: (4.60)
nach dem Blockungslemma stochastisch unabhängig sind, er-
gibt sich
Beispiel Die Wahrscheinlichkeit, dass ein ankommendes ra-
X
1
dioaktives Teilchen von einem Messgerät erfasst wird, sei p.
P .SN D j / D P .N D k; Sk D j / Die zufällige Anzahl N der von einem radioaktiven Präparat
kD0 in einem bestimmten Zeitintervall
t emittierten Teilchen sei
X1
poissonverteilt mit Parameter . Setzen wir Xj D 1, falls das j -
D P .N D k/ P .Sk D j /: te Teilchen wahrgenommen wird (Xj D 0 sonst; j D 1; 2; : : :),
P
kD0
so gibt die randomisierte Summe SN D jND1 Xj die Anzahl
Die Multiplikationsformel für erzeugende Funktionen liefert der im Zeitintervall
t erfassten Teilchen an. Unter der Annah-
gSk .t / D g.t /k , und wir erhalten me, dass N ; X1 ; X2 ; : : : stochastisch unabhängig sind und die
Xj die Binomialverteilung Bin.1; p/ besitzen, erhalten wir mit
X
1
gSN .t / D P .SN D j / t j (4.60) sowie (4.56) und (4.57) für die erzeugende Funktion der
j D0
Anzahl registrierter Teilchen
X
1 X
1 
D P .N D k/ P .Sk D j / t j gSN .t / D e.g.t /1/ D e.1pCpt 1/
kD0 j D0 D ep.t 1/ :
X
1
D P .N D k/ .g.t //k ; Nach dem Eindeutigkeitssatz und (4.57) hat SN somit die
kD0 Poisson-Verteilung Po.p/. J
Kapitel 4
Zusammenfassung 117

Zusammenfassung

In diesem Kapitel sind alle auftretenden Zufallsvariablen und " > 0. Hierbei ist X n das arithmetische Mittel von n unab-
Zufallsvektoren auf einem diskreten Wahrscheinlichkeitsraum hängigen Zufallsvariablen mit gleichem Erwartungswert  und
.˝; A; P / definiert. Da es damit eine abzählbare Menge ˝0 mit gleicher Varianz.
P .˝0/ D 1 gibt, nehmen solche Zufallsvariablen und Zufalls-
vektoren nur abzählbar viele verschiedene Werte mit positiven Wichtige diskrete Verteilungen sind die hypergeometrische
Wahrscheinlichkeiten an. Sie sind in diesem Sinne diskret. Verteilung Hyp.n; r; s/, die Binomialverteilung Bin.n; p/, die
geometrische Verteilung G.p/, die negative Binomialvertei-
Ist X D .X1 ; : : : ; Xk / ein k-dimensionaler Zufallsvektor, so lung Nb.r; p/, die Poisson-Verteilung Po./ und die Multi-
erhält man die Verteilungen der einzelnen Komponenten Xj nomialverteilung Mult.nI p1 ; : : : ; ps /. Die Anzahl der Nieten
durch Marginalverteilungsbildung (engl.: marginal distribu- vor dem r-ten Treffer in einer Bernoulli-Kette mit Trefferwahr-
tion), also durch Summieren der Wahrscheinlichkeiten P .X1 D scheinlichkeit p hat die Verteilung Nb.r; p/. Im Spezialfall
x1 ; : : : ; Xk D xk / über alle xi mit i ¤ j . Die gemeinsame r D 1 entsteht hier die gedächtnislose geometrische Vertei-
Verteilung (joint distribution) von X1 ; : : : ; Xk ist i. Allg. nicht lung G.p/. Die Verteilung Po./ ergibt sich als Gesetz seltener
durch die k Marginalverteilungen bestimmt. Über die diskrete Ereignisse aus der Binomialverteilung für n ! 1, pn ! 0
Faltungsformel (convolution formula) und npn ! . Für die Verteilungen Bin.n; p/, Nb.r; p/ und
X Po./ gelten Additionsgesetze. Die Multinomialverteilung
P .X C Y D z/ D P .X D x/P .Y D z  x/ entsteht als gemeinsame Verteilung der Trefferanzahlen in n un-
xWP .X Dx/>0
abhängigen gleichartigen Experimenten, die jeweils s mögliche
Ausgänge besitzen.
kann die Verteilung der Summe zweier unabhängiger Zufalls- Für unabhängige Zufallsvariablen gilt V .X C Y / D V .X / C
variablen bestimmt werden. V .Y /, sonst steht auf der rechten Seite das Zweifache der
Der Erwartungswert (expected value, expectation) einer Zu- Kovarianz (covariance) Cov.X ; Y / D E..X  EX /.Y 
fallsvariablen ist durch die im Fall einer unendlichen Menge EY // als zusätzlicher Summand. Die Kovarianzbildung ist
˝0 als absolut konvergent vorausgesetzte Summe E.X / D
P
ein bilinearespFunktional. Durch die Normierung .X ; Y / D
Cov.X ; Y /= V .X /V .Y / ergibt sich der Korrelationskoef-
!2˝0 X .!/P .f!g/ definiert. Aus obiger Darstellung folgen
fizient (coefficient of correlation) .X ; Y /. Letzterer tritt im

Kapitel 4
die Linearität der Erwartungswertbildung und durch Zusam-
menfassen der Summanden nach gleichen Werten von X .!/ die Ergebnis der Approximationsaufgabe E.Y  a  bX /2 D
Transformationsformel mina;b Š auf, denn der resultierende Minimalwert ergibt sich zu
V .Y /.1  2 .X ; Y //. Da dieser Wert nichtnegativ ist, folgt die
X
E.X / D x  P .X D x/: Cauchy-Schwarzsche Ungleichung (Cauchy-Schwarz inequa-
lity) Cov.X ; Y /2  V .X /V .Y /. Die obige Approximations-
x2RWP .X Dx/>0
aufgabe führt zur Methode der kleinsten Quadrate (method
of least squares), wenn der Zufallsvektor .X ; Y / endlich viele
Der Erwartungswert einer Zufallsvariablen hängt also nur von
Wertepaare .xj ; yj / mit gleicher Wahrscheinlichkeit annimmt.
deren Verteilung ab. Die Gleichung E1A D P .A/ für ein Ereig-
nis A zeigt zusammen mit der
P Linearität, dass P
der Erwartungs- Für ein Ereignis A mit P .A/ > 0 definiert man den bedingten
wert einer Indikatorsumme jnD1 1fAj g gleich jnD1 P .Aj / ist. Erwartungswert (conditional expected value) von X unter der
Hiermit ergibt sich u. a. unmittelbar der Erwartungswert der Bedingung A durch
Binomialverteilung Bin.n; p/ zu np. Für unabhängige Zufalls-
variablen X und Y gilt die Multiplikationsregel E.X Y / D 1 X
EX  EY . E.X jA/ D X .!/P .f!g/:
P .A/ !2˝ \A
0
Die Varianz (variance) V .X / WD E.X  EX /2 einer Zu-
fallsvariablen misst die Stärke der Streuung einer Verteilung Für einen Zufallsvektor Z schreibt man E.X jZ D z/ WD
um den Erwartungswert. Unter affinen Transformationen gilt E.X jfZ D zg/. Nimmt X die Werte x1 ; x2 ; : : : an, so gilt
V .aX C b/ D a2 V .X /, und somit kann jede nichtausge- X
artete (non-degenerate) Zufallsvariable X mithilfe der auch E.X jZ D z/ D xj P .X D xj jZ D z/:
Standardisierung (standardization)
p genannten Transformation j 1
X 7! .X  EX /= V .X / in eine standardisierte Zufallsva-
riable mit dem Erwartungswert 0 und der Varianz 1 überführt Somit ist E.X jZ D z/ der Erwartungswert der bedingten Ver-
werden. Die Tschebyschow-Ungleichung (Chebyshev’s ine- teilung (conditional distribution) von X unter der Bedingung
quality) P .jX  Ej  "/  V .X /="2 liefert einen kurzen Z D z. Nimmt der Zufallsvektor Z die Werte z1 ; z2 ; : : : 2
Beweis des Schwachen Gesetzes großer Zahlen (weak law of Rk mit positiven Wahrscheinlichkeiten an, so löst die durch
large numbers) P .jX n  j  "/ ! 0 bei n ! 1 für jedes h.zj / WD E.X jZ D zj /, j  1, und h.z/ WD 0 für z 2
118 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Rk n fz1 ; z2 ; : : :g definierte Funktion h das Problem, die mitt-


lere quadratische Abweichung E.X  h.Z//2 zu minimieren.
Die durch E.X jZ/ WD h.Z/ erklärte Zufallsvariable heißt be-
dingte Erwartung (conditional expectation) von X bzgl. Z. Sie
ist konstant auf den Mengen fZ D zj g, j  1. Der Erwar-
tungswert
P kann durch Bedingen nach Z in der Form E.X / D
j 1 E.ZjZ D zj /P .Z D zj / berechnet werden, wofür man
auch kurz EX D E.E.X jZ// schreibt. Die analoge Formel für
die Varianz ist V .X / D E.V .X jZ// C V .E.X jZ//.
Für eine N0 -wertige Zufallsvariable X heißt die durch gX .t / WD
P 1
kD0 P .X D k/t D E.t /, jt j  1; definierte Potenzreihe
k X

die erzeugende Funktion ((probability) generating function)


von X . Sie legt die Verteilung von X eindeutig fest, und sie
verhält sich multiplikativ bei der Addition unabhängiger Zu-
fallsvariablen. Erwartungswert und Varianz von X – sofern sie
existieren – erhält man durch Differenziation. Es gilt gX0 .1/ D
E.X / und gX00 .1/ D E.X .X  1//.
Kapitel 4
Aufgaben 119

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen 4.5 Die Zufallsvariablen X und Y seien stochastisch


unabhängig und je geometrisch verteilt mit Parameter p. Über-
4.1 In der gynäkologischen Abteilung eines Kran- legen Sie sich ohne Rechnung, dass
kenhauses entbinden in einer bestimmten Woche n Frauen. Es
1
mögen keine Mehrlingsgeburten auftreten, und Jungen- bzw. P .X D j jX C Y D k/ D ; j D 0; 1; : : : ; k
Mädchengeburten seien gleich wahrscheinlich. Außerdem wer- kC1
de angenommen, dass das Geschlecht der Neugeborenen für alle gelten muss, und bestätigen Sie diese Einsicht durch formale
Geburten stochastisch unabhängig sei. Sei an die Wahrschein- Rechnung. Die bedingte Verteilung von X unter der Bedingung
lichkeit, dass mindestens 60 % der Neugeborenen Mädchen X C Y D k ist also eine Gleichverteilung auf den Werten
sind. 0; 1; : : : ; k.
a) Bestimmen Sie a10 .
b) Beweisen oder widerlegen Sie: a100 < a10 . 4.6 Stellen Sie sich eine patriarchisch orientierte Ge-
c) Zeigen Sie: limn!1 an D 0. sellschaft vor, in der Eltern so lange Kinder bekommen, bis
der erste Sohn geboren wird. Wir machen zudem die An-
4.2 nahmen, dass es keine Mehrlingsgeburten gibt, dass Jungen-

Kapitel 4
und Mädchengeburten gleich wahrscheinlich sind und dass die
Es werden unabhängig voneinander Kugeln auf n Fächer ver- Geschlechter der Neugeborenen stochastisch unabhängig von-
teilt, wobei jede Kugel in jedes Fach mit Wahrscheinlichkeit 1=n einander sind.
gelangt. Es sei Wn die (zufällige) Anzahl der Kugeln, die benö-
tigt wird, bis jedes Fach mindestens eine Kugel enthält. Zeigen a) Welche Verteilung (Erwartungswert, Varianz) besitzt die An-
Sie: zahl der Mädchen in einer Familie?
Pn 1 b) Welche Verteilung (Erwartungswert, Varianz) besitzt die An-
a) E.Wn / D n  j D1 j . zahl der Jungen in einer Familie?
P Pn1 1
b) V .Wn / D n2  jn1D1 j
1
2  n  j D1 j . a) Es bezeichne Sn die Gesamtanzahl der Mädchen in einer aus
n Familien bestehenden Gesellschaft. Benennen Sie die Ver-
teilung von Sn und zeigen Sie:
4.3 Ein echter Würfel wird solange in unabhängiger
Folge geworfen, bis die erste Sechs auftritt. Welche Verteilung p 1
besitzt die Anzahl der davor geworfenen Einsen? P .jSn  nj  K 2n/  2 ; K > 0:
K
4.4 Es werden n echte Würfel gleichzeitig geworfen. Was bedeutet diese Ungleichung für K D 10 und eine aus
Diejenigen, die eine Sechs zeigen, werden beiseitegelegt, und 500 000 Familien bestehenden Gesellschaft?
die (falls noch vorhanden) übrigen Würfel werden wiederum
gleichzeitig geworfen und die erzielten Sechsen beiseitegelegt. 4.7 In einer Urne befinden sich 10 rote, 20 blaue, 30
Der Vorgang wird solange wiederholt, bis auch der letzte Würfel weiße und 40 schwarze Kugeln. Es werden rein zufällig 25 Ku-
eine Sechs zeigt. Die Zufallsvariable Mn bezeichne die Anzahl geln mit Zurücklegen gezogen. Es sei R (bzw. B; W ; S/ die
der dafür nötigen Würfe. Zeigen Sie: Anzahl gezogener roter (bzw. blauer, weißer, schwarzer) Ku-
  k n  geln. Welche Verteilungen besitzen
a) P .Mn > k/ D 1  1  56 , k 2 N0 . a) .R; B; W ; S/?
Pn n
k1 .k / b) .R C B; W ; S/?
b) E.Mn / D kD1 .1/ k.
1. 56 / c) R C B C W ?
120 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

4.8 In einer Urne befinden sich r1 C    C rs gleich- Rechenaufgaben


artige Kugeln, von denen rj die Farbe j tragen. Es werden rein
zufällig n Kugeln nacheinander ohne Zurücklegen gezogen. Die
4.16 Die Verteilung des Zufallsvektors .X ; Y / sei ge-
Zufallsvariable Xj bezeichne die Anzahl der gezogenen Kugeln
geben durch
der Farbe j , 1  j  s. Die Verteilung des Zufallsvektors
.X1 ; : : : ; Xs / heißt mehrdimensionale hypergeometrische Ver-
teilung. Zeigen Sie: P .X D 1; Y D 1/ D 1=8 P .X D 0; Y D 1/ D 1=8
r1
. / . / ::: krss P .X D 1; Y D 1/ D 1=8 P .X D 0; Y D 1/ D 1=8
a) P .X1 D k1 ; : : : ; Xs D ks / D k1
;
r1 C:::Crs
. / n P .X D 2; Y D 0/ D 1=4 P .X D 1; Y D 0/ D 1=4:
0  kj  rj ; k1 C    C ks D n.
b) Xj Hyp.n; rj ; m  rj /; 1  j  s.
Bestimmen Sie:
4.9 Die Zufallsvariable X besitze die hypergeometri- a) EX , b) EY , c) V .X /, d) V .Y /, e) E.X Y /.
sche Verteilung Hyp.n; r; s/, d. h., es gelte
r   s 
 4.17 Beim Roulette gibt es 37 gleich wahrscheinliche
P .X D k/ D k rCsnk  ; 0  k  n: Zahlen, von denen 18 rot und 18 schwarz sind. die Zahl 0 besitzt
n
die Farbe Grün. Man kann auf gewisse Mengen von n Zahlen
Leiten Sie analog zum Fall der Binomialverteilung den Erwar- setzen und erhält dann im Gewinnfall in Abhängigkeit von n zu-
tungswert sätzlich zum Einsatz das k.n/-fache des Einsatzes zurück. Die
r Setzmöglichkeiten mit den Werten von n und k.n/ zeigt die fol-
E.X / D n  gende Tabelle:
r Cs
von X auf zwei unterschiedliche Weisen her.
n Name k.n/
4.10 Zeigen Sie, dass die Formel des Ein- und Aus- 1 Plein 35
schließens aus der Jordanschen Formel folgt. 2 Cheval 17
3 Transversale 11
4.11 Die Zufallsvariablen X und Y seien stochastisch 4 Carré 8
unabhängig, wobei X Bin.m; p/ und Y Bin.n; p/, 0 < 6 Transversale simple 5
p < 1. Zeigen Sie: Für festes k 2 f1; 2; : : : ; m C ng ist die 12 Douzaines, Colonnes 2
bedingte Verteilung von X unter der Bedingung X C Y D k die
Kapitel 4

18 Rouge/Noir, Pair/Impair, Manque/Passe 1


hypergeometrische Verteilung Hyp.k; m; n/. Ist dieses Ergebnis
ohne Rechnung einzusehen?
Es bezeichne X den Spielgewinn bei Einsatz einer Geldeinheit.
Zeigen Sie. Unabhängig von der gewählten Setzart gilt EX D
4.12 Es seien X1 , X2 und X3 unabhängige Zufallsva- 1=37. Man verliert also beim Roulette im Durchschnitt pro
riablen mit identischer Verteilung. Zeigen Sie: eingesetztem Euro ungefähr 2,7 Cent.
1
E.X1 jX1 C X2 C X3 / D  .X1 C X2 C X3 /:
3 4.18 n Personen haben unabhängig voneinander und
je mit gleicher Wahrscheinlichkeit p eine Krankheit, die durch
4.13 Die Zufallsvariable X besitze die Binomialvertei- Blutuntersuchung entdeckt werden kann. Dabei sollen von den
lung Bin.n; p/. Zeigen Sie: n Blutproben dieser Personen die Proben mit positivem Befund
 n j n ko 1 C .1  2p/n möglichst kostengünstig herausgefunden werden. Statt alle Pro-
P X 2 0; 2; : : : ; 2  D : ben zu untersuchen bietet sich ein Gruppen-Screening an, bei
2 2
dem jeweils das Blut von k Personen vermischt und untersucht
4.14 Es sei .Mn /n0 ein Galton-Watson-Prozess mit wird. In diesem Fall muss nur bei einem positiven Befund jede
M0 D 1, EM1 D  und V .M1 / D  2 < 1. Zeigen Sie mithil- Person der Gruppe einzeln untersucht werden, sodass insgesamt
fe von Aufgabe 4.44: k C 1 Tests nötig sind. Andernfalls kommt man mit einem Test
für k Personen aus.
a) E.Mn / D n ,
b) ( Es sei Yk die (zufällige) Anzahl nötiger Blutuntersuchungen bei
 2 n1 .n 1/ einer Gruppe von k Personen. Zeigen Sie:
; falls  ¤ 1
V .Mn / D 1
2
n ; falls  D 1:
a) E.Yk / D k C 1 p k.1  p/k .
b) Für p < 1  1= 3 3 D 0:3066 : : : gilt E.Yk / < k.
4.15 Kann man zwei Würfel (möglicherweise unter- c) Welche Gruppengröße ist im Fall p D 0:01 in Bezug auf die
schiedlich) so fälschen, d. h., die Wahrscheinlichkeiten der ein- erwartete Ersparnis pro Person optimal?
p
zelnen Augenzahlen festlegen, dass beim gleichzeitigen Werfen d) Begründen Sie die Näherungsformel k 1= p für die opti-
jede Augensumme 2; 3; : : : ; 12 gleich wahrscheinlich ist? male Gruppengröße bei sehr kleinem p.
Aufgaben 121

4.19 Beim Pokerspiel Texas Hold’em wird ein 52- 4.26 Es sei .pn /n1 eine Folge aus .0; 1/ mit
Blatt-Kartenspiel gut gemischt; jeder von insgesamt 10 Spielern limn!1 npn D , wobei 0 <  < 1. Zeigen Sie:
erhält zu Beginn zwei Karten. Mit welcher Wahrscheinlichkeit !
bekommt mindestens ein Spieler zwei Asse? n k k
lim pn .1  pn /nk D e  ; k 2 N0 :
n!1 k kŠ
4.20 Es sei X Bin.n; p/ mit 0 < p < 1. Zeigen Sie
die Gültigkeit der Rekursionsformel
4.27 Es sei X Po./. Für welche Werte von k wird
.n  k/p P .X D k/ maximal?
P .X D k C 1/ D  P .X D k/;
.k C 1/.1  p/
4.28 Ein echter Würfel wird 8-mal in unabhängiger
k D 0; : : : ; n  1, und überlegen Sie sich hiermit, für wel- Folge geworfen. Wie groß ist die Wahrscheinlichkeit, dass je-
chen Wert bzw. welche Werte von k die Wahrscheinlichkeit de Augenzahl mindestens einmal auftritt?
P .X D k/ maximal wird.
4.29 Beim Spiel Kniffel werden fünf Würfel gleichzei-
4.21 In Kommunikationssystemen werden die von der tig geworfen. Mit welcher Wahrscheinlichkeit erhält man
Informationsquelle erzeugten Nachrichten in eine Bitfolge um-
gewandelt, die an den Empfänger übertragen werden soll. Um a) einen Kniffel (5 gleiche Augenzahlen)?
die durch Rauschen und Überlagerung verursachten Störungen b) einen Vierling (4 gleiche Augenzahlen)?
zu unterdrücken und die Zuverlässigkeit der Übertragung zu c) ein Full House (Drilling und Zwilling, also z. B. 55522)?
erhöhen, fügt man einer binären Quellfolge kontrolliert Redun- d) einen Drilling ohne weiteren Zwilling (z. B. 33361)?
danz hinzu. Letztere hilft, Übertragungsfehler zu erkennen und e) zwei Zwillinge (z. B. 55226)?
eventuell sogar zu korrigieren. Wir machen die Annahme, dass f) einen Zwilling (z. B. 44153)?
jedes zu übertragende Bit unabhängig von anderen Bits mit der- g) fünf verschiedene Augenzahlen?
selben Wahrscheinlichkeit p in dem Sinne gestört wird, dass 0
in 1 und 1 in 0 umgewandelt wird. Die zu übertragenden Code- 4.30 Der Zufallsvektor .X1 ; : : : ; Xs / besitze die Mul-
wörter mögen jeweils aus k Bits bestehen. tinomialverteilung Mult.n; p1 ; : : : ; ps /. Leiten Sie aus (4.31)
a) Es werden n Wörter übertragen. Welche Verteilung besitzt durch Zerlegung des Ereignisses fX1 D k1 g nach den Wer-
die Anzahl X der nicht (d. h. in keinem Bit) gestörten Wör- ten der übrigen Zufallsvariablen die Verteilungsaussage X1
ter? Bin.n; p1 / her.
b) Zur Übertragung werden nur Codewörter verwendet, die ei-

Kapitel 4
ne Korrektur von bis zu zwei Bitfehlern pro Wort gestatten. 4.31 Leiten Sie die Varianz np.1  p/ einer Bin.n; p/-
Wie groß ist die Wahrscheinlichkeit, dass ein übertragenes verteilten Zufallsvariablen X über die Darstellungsformel her.
Codewort korrekt auf Empfängerseite ankommt (evtl. nach
Korrektur)? Welche Verteilung besitzt die Anzahl der richtig 4.32 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
erkannten unter n übertragenen Codewörtern? blen mit gleicher Verteilung und der Eigenschaft EX12 < 1.
P
Ferner seien  WD EX1 ,  2 WD V .X1 / und X n WD nkD1 Xk =n.
4.22 Peter wirft 10-mal in unabhängiger Folge einen Zeigen Sie:
echten Würfel. Immer wenn eine Sechs auftritt, wirft Claudia
eine echte Münze (Zahl/Wappen). Welche Verteilung besitzt die a) E.X n / D .
Anzahl der dabei erzielten Wappen? b) V .X n / D  2 =n.
c) Cov.Xj ; X n / D  2 =n. p
4.23 Es sei X G.p/. Zeigen Sie: d) .X1  2X2 ; X n / D 1= 5n.
1p
a) E.X / D p
,
1p
4.33 Der Zufallsvektor .X1 ; : : : ; Xs / besitze die Multi-
b) V .X / D p2
. nomialverteilung Mult.n; p1 ; : : : ; ps /, wobei p1 > 0; : : : ; ps >
0 vorausgesetzt ist. Zeigen Sie:
4.24 Es sei X Po./. Zeigen Sie: a) Cov.Xi ; Xj / D n  pi  pj (i ¤ j ),
q p pj
E.X / D V .X / D : b) .Xi ; Xj / D  .1pi i/.1pj/
(i ¤ j ).

4.25 Ein echter Würfel wird in unabhängiger Folge 4.34 In der Situation des zweifachen Wurfs mit einem
geworfen. Bestimmen Sie die Wahrscheinlichkeiten folgender echten Würfel seien Xj die Augenzahl des j -ten Wurfs sowie
Ereignisse: M WD max.X1 ; X2 /. Zeigen Sie:
a) mindestens eine Sechs in sechs Würfen,
b) mindestens zwei Sechsen in 12 Würfen, M 2 C M .M  1/=2
E.X1 jM / D :
c) mindestens drei Sechsen in 18 Würfen. 2M  1
122 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

4.35 Beim zweifachen Würfelwurf seien Xj die Au- 4.41 Es gelte X Nb.r; p/. Zeigen Sie, dass X die
genzahl des j -ten Wurfs sowie M WD max.X1 ; X2 / die höchs- erzeugende Funktion
te Augenzahl. Es soll die mittlere quadratische Abweichung  r
E.M  h.X1 //2 durch geeignete Wahl einer Funktion h mini- p
gX .t / D ; jt j < 1;
miert werden. Dabei darf h nur die Werte 1; 2; : : : ; 6 annehmen. 1  .1  p/t
Zeigen Sie: Die unter diesen Bedingungen optimale Funktion
h ist durch h.1/ 2 f3; 4g, h.2/ D h.3/ D 4, h.4/ 2 f4; 5g, besitzt.
h.5/ D 5 und h.6/ D 6 gegeben.
4.42 Leiten Sie mithilfe der erzeugenden Funktion
4.36 In einer Bernoulli-Kette mit Trefferwahrschein- Erwartungswert und Varianz der Poisson-Verteilung und der ne-
lichkeit p 2 .0; 1/ bezeichne X die Anzahl der Versuche, bis gativen Binomialverteilung her.
zum ersten Mal direkt hintereinander zwei Treffer aufgetreten
sind. Es sei wn WD P .X D n/, n  2, gesetzt. Zeigen Sie: 4.43 Die Zufallsvariable X sei poissonverteilt mit Para-
meter . Zeigen Sie:
PkC1 D q  wk C pq  wk1 ; k  3,
a) w
a) EŒX .X  1/.X  2/ D 3 .
b) P1kD2 wk D 1,
c) 1 b) EX 3 D 3 C 32 C .
kD2 k  wk < 1 (d. h., EX existiert).
c) E.X  /3 D .

4.37 In einer Bernoulli-Kette mit Trefferwahrschein- 4.44 Es seien N ; X1 ; X2 ; : : : stochastisch unabhängi-


lichkeit p 2 .0; 1/ sei X die Anzahl der Versuche, bis erstmalig ge N0 -wertige Zufallsvariablen, wobei X1 ; X2 ; : : : die gleiche
a) die Sequenz 01 aufgetreten ist. Zeigen Sie: Es gilt EX D Verteilung und somit auch die gleiche, mit g bezeichnete erzeu-
1=.p.1  p//. gende Funktion besitzen. Die erzeugende Funktion von N sei
b) die Sequenz 111 aufgetreten ist. Zeigen Sie: Es gilt EX D mit ' bezeichnet. Mit S0 WD 0 und Sk WD X1 C : : : C Xk , k  1,
.1 C p C p 2 /=p 3 . ist die randomisierte Summe SN durch

SN .!/ WD SN .!/ .!/; ! 2 ˝;


4.38 Wir würfeln in der Situation der Unter-der-
Lupe-Box „Zwischen Angst und Gier: Die Sechs verliert“ in definiert, vgl. die Ausführungen am Ende von Abschn. 4.6. Zei-
Abschn. 4.5 k-mal und stoppen dann. Falls bis dahin eine Sechs gen Sie:
auftritt, ist das Spiel natürlich sofort (mit dem Gewinn 0) be-
endet. Zeigen Sie, dass bei dieser Strategie der Erwartungswert a) E.SN / D EN  EX1 , 2
Kapitel 4

des Spielgewinns G durch b) V .SN / D V .N /  .EX1 / C EN  V .X1 /.

 k Dabei seien EX12 < 1 und EN 2 < 1 vorausgesetzt.


5
EG D 3  k 
6
Beweisaufgaben
gegeben ist. Welcher Wert für k liefert den größten Erwartungs-
wert?
4.45 Beim Coupon-Collector-Problem oder Sammler-
problem wird einer Urne, die n gleichartige, von 1 bis n
4.39 In einer Bernoulli-Kette mit Trefferwahrschein- nummerierte Kugeln enthält, eine rein zufällige Stichprobe von
lichkeit p 2 .0; 1/ bezeichne Yj die Anzahl der Nieten vor dem s Kugeln (Ziehen ohne Zurücklegen bzw. „mit einem Griff“)
j -ten Treffer (j D 1; 2; 3). Nach Übungsaufgabe 4.5 besitzt entnommen. Nach Notierung der gezogenen Kugeln werden
Y1 unter der Bedingung Y2 D k eine Gleichverteilung auf den diese wieder in die Urne zurückgelegt und der Urneninhalt neu
Werten 0; 1; : : : ; k. Zeigen Sie: Unter der Bedingung Y3 D k, gemischt.
k 2 N0 , ist die bedingte Verteilung von Y1 durch
Die Zufallsvariable X bezeichne die Anzahl der verschiedenen
2.k C 1  j / Kugeln, welche in den ersten k (in unabhängiger Folge entnom-
P .Y1 D j jY3 D k/ D ; j D 0; 1; : : : ; k; menen) Stichproben aufgetreten sind. Zeigen Sie:
.k C 1/.k C 2/ h  k i
a) EX D n  1  1  ns ,
gegeben. n Pr   hrj .nik
j r
b) P .X D r/ D r j D0 .1/ j s s
, 0  r  n.
4.40 Es seien X1 ; : : : ; Xs unabhängige Zufallsvariablen
mit den Poisson-Verteilungen Xj Po.j /, j D 1; : : : ; s. 4.46 Es sei X eine N0 -wertige Zufallsvariable mit
Zeigen Sie, dass der Zufallsvektor .X1 ; : : : ; Xs / unter der Be- EX < 1 (für a)) und EX 2 < 1 (für b)). Zeigen Sie:
dingung X1 C : : : C Xs D n, n 2 N, die Multinomialverteilung P1
Mult.n; p1 ; : : : ; ps / besitzt. Dabei ist pj D j =.1 C : : : C s /, a) EX D PnD1
1
P .X  n/,
j 2 f1; : : : ; sg. b) EX 2
D nD1 .2n  1/P .X  n/.
Aufgaben 123

4.47 Es sei X eine Zufallsvariable mit der Eigenschaft 4.50 Es sei X eine N0 -wertige Zufallsvariable mit 0 <
b  X  c, wobei b < c. Zeigen Sie: P .X D 0/ < 1 und der Eigenschaft
a) V .X /  14 .c  b/2. P .X D m C kjX  k/ D P .X D m/ (4.61)
b) V .X / D 14 .c  b/2 () P .X D b/ D P .X D c/ D 12 .
für jede Wahl von k; m 2 N0 . Zeigen Sie: Es gibt ein p 2 .0; 1/
4.48 Es sei X eine Zufallsvariable mit EX D 0 und mit X G.p/.
EX 2 < 1. Zeigen Sie die Ungleichung von Cantelli:
4.51 Zeigen Sie: In der Situation und mit den Bezeich-
V .X / nungen der Jordanschen Formel gilt
P .X  "/  " > 0:
V .X / C "2 !
X
n
j k j  1
P .X  k/ D .1/ Sj ; k D 0; 1; : : : ; n:
4.49 k1
j Dk
a) X1 ; : : : ; Xn seien Zufallsvariablen mit EXj DW  und
V .Xj / DW  2 für j D 1; : : : ; n. Weiter existiere eine na- 4.52 Wir betrachten die Gleichverteilung P auf der
türliche Zahl k, sodass für ji  j j  k die Zufallsvariablen Menge
Xi und Xj unkorreliert sind. Zeigen Sie:
0ˇ ˇ 1 ˝ WD f.a1 ; : : : ; an / j fa1 ; : : : ; an g D f1; : : : ; ngg;
ˇ n ˇ
ˇ1 X ˇ
lim P @ˇˇ Xj  ˇˇ  "A D 0 für jedes " > 0: also eine rein zufällige Permutation der Zahlen 1; 2; : : : ; n. Mit
n!1 ˇ n j D1 ˇ Aj WD f.a1 ; a2 ; : : : ; an / 2P
˝ j aj D j g für j 2 f1; : : : ; ng gibt
die Zufallsvariable Xn WD jnD1 1fAj g die Anzahl der Fixpunk-
b) Ein echter Würfel werde in unabhängiger Folge geworfen. te einer solchen Permutation an. Zeigen Sie:
Die Zufallsvariable Yj bezeichne die beim j -ten Wurf erziel- a) E.Xn / D 1,
te Augenzahl, und für j  1 sei Aj WD fYj < Yj C1 g. Zeigen Pnk .1/j
Sie mithilfe von Teil a): b) P .Xn D k/ D 1
kŠ j D0 jŠ
,k D 0; 1; : : : ; n;
e1
0ˇ ˇ 1 c) limn!1 P .Xn D k/ D kŠ
,k 2 N0 ,
ˇ n ˇ
ˇ1 X 5 ˇ
lim P @ˇˇ 1fAj g  ˇˇ  "A D 0 für jedes " > 0: d) V .Xn / D 1.
n!1
ˇ n j D1 12 ˇ

Kapitel 4
124 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt

Antworten zu den Selbstfragen

Antwort 1 In diesem Fall ist P .X D 1; Y D 1/ D P .X D Antwort 8 Für jedes k 2 N0 gilt


1/P .Y D 1/ D 1=4 D c.
X
k

Antwort 2 Die Wahrscheinlichkeit P .X1 D x1 ; X2 D y  x1 / P .X C Y D k/ D P .X D j ; Y D k  j /


kann nur positiv sein, wenn x1 2 D1 gilt und wenn die in der j D0
Summe stehende Bedingung x1 C x2 D y erfüllt ist, also neben X
k
X1 D x1 noch die Gleichheit X2 D y  x1 besteht. D P .X D j /  P .Y D k  j /
j D0
Antwort 3 Beim ersten Gleichheitszeichen. Es wird eine Um-
sortierung nach gleichen Werten x von X .!/ vorgenommen. X
k
j  kj
D ee
j D0
jŠ .k  j /Š
Antwort 4 Die zu zeigende Ungleichung
ˇ ˇ !
ˇX ˇ X e.C/ X k j kj
k
ˇ X .!/P .f!g/ˇˇ  jX .!/jP .f!g/ D   
ˇ kŠ j
!2˝0 !2˝0 j D0

folgt für endliches ˝0 direkt aus der Dreiecksungleichung. Im e.C/


D  . C /k ;
anderen Fall gilt die Ungleichung, wenn man auf der linken Sei- kŠ
te über jede beliebige endliche Teilmenge von ˝0 summiert.
was zu zeigen war.
Hieraus folgt die Behauptung.
Antwort 9 Eine naheliegende Möglichkeit besteht darin, ˝ WD
Antwort 5 Sie brauchen nur k D 1, X D Z und g.x/ D x,
f1; : : : ; sgn zu setzen. Für ein n-Tupel .a1 ; : : : ; an / 2 ˝ inter-
x 2 R, zu setzen.
pretieren wir dabei die j -te Komponente aj als Ausgang des
Antwort 6 Es ist j -ten Experiments. Die Anzahl Xk der TrefferPk-ter Art ist auf
diesem Grundraum durch Xk .a1 ; : : : ; an / D jnD1 1faj D kg
V .aX C b/ D E .aX C b  E.aX C b//2 gegeben.

D E .aX C b  aEX  b/2
Kapitel 4

Antwort 10 Weil die Varianz einer Zufallsvariablen nur von


D E .a.X  EX //2 deren Verteilung abhängt und X und Y die gleiche Verteilung
D a2 V .X /: besitzen.
Die Ungleichung 0  V .X / in e) ergibt sich aus der Monotonie Antwort 11 Die Anzahl n DW 2k C 1 der Punkte ist ungerade,
der Erwartungswertbildung. Mit (4.16) folgt aus und es gilt xj D x2kC2j , j D 1; : : : ; k sowie xkC1 D 0.
X Hieraus folgt x D 0. Weiter gilt yj D axj2 für ein a > 0 und
0 D V .X / D .x  EX /2 P .X D x/; P P
x2RWP .X Dx/>0
somit jnD1 xj yj D a jnD1 xj3 D 0. Folglich verschwindet der
Zähler auf der rechten Seite von (4.39).
dass für jedes x mit der Eigenschaft P .X D x/ > 0 zwingen-
derweise x D EX gelten muss. Es gibt somit ein a.D EX / Antwort 12 Die Existenz von EX garantiert, dass für den Fall
mit P .X D a/ D 1. Gilt umgekehrt P .X D a/ D 1, so folgt einer unendlichen Menge ˝0 die in der Definition von E.X jA/
EX D a und V .X / D .a  a/2  1 D 0. stehende Reihe absolut konvergiert.

Antwort 7 Es gilt Antwort 13 Es folgtP aus dem Großen Umordnungssatz für Rei-
X
1 X
1 hen, da die Reihe !2˝0 X .!/P .f!g/ als absolut konvergent
P .X  k/ D P .X D j / D p.1  p/j vorausgesetzt ist.
j Dk j Dk
Antwort 14 Setzen Sie X D 1˝ in Eigenschaft b) des beding-
X
1
ten Erwartungswertes zu Beginn dieses Abschnitts und beachten
D p.1  p/k .1  p/` D .1  p/k :
Sie die Eigenschaft c).
`D0

Wegen fX D k C mg  fX  kg folgt nach Definition der Antwort 15 Sind X und Y unabhängige poissonverteilte Zu-
bedingten Wahrscheinlichkeit fallsvariablen mit Parametern  bzw. , so besitzen X und Y die
erzeugenden Funktionen gX .t / D e.t 1/ und gY .t / D e.t 1/ .
P .X D k C m/ p.1  p/kCm
P .X D k C mjX  k/ D D Nach der Multiplikationsformel hat X CY die erzeugende Funk-
P .X  k/ .1  p/k tion gX .t /gY .t / D e.C/.t 1/ . Der Eindeutigkeitssatz ergibt,
D p.1  p/ D P .X D m/:
m
dass X C Y poissonverteilt mit Parameter  C  ist.
Stetige Verteilungen und
allgemeine Betrachtungen – 5
jetzt wird es analytisch
Besitzt jede stetige
Verteilungsfunktion eine
Dichte?
Wie überträgt sich die
Dichte eines Zufallsvektors
unter einer regulären
Transformation?
Wie ist der Erwartungswert
einer Zufallsvariablen
definiert?
Wie entsteht die
Normalverteilung
Nk .; ˙/?
Was besagt die
Multiplikationsformel für
charakteristische
Funktionen?

5.1 Verteilungsfunktionen und Dichten . . . . . . . . . . . . . . . . . . . . 126


5.2 Transformationen von Verteilungen . . . . . . . . . . . . . . . . . . . . 136
5.3 Kenngrößen von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 145

Kapitel 5
5.4 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 154
5.5 Charakteristische Funktionen (Fourier-Transformation) . . . . . . . . . 159
5.6 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.7 Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Stoppzeiten und Martingale . . . . . . . . . . . . . . . . . . . . . . . . 176
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 191

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 125
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_5
126 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Im letzten Kapitel haben wir uns ausgiebig mit diskreten Verteilun-


gen beschäftigt. Solche Verteilungen modellieren stochastische Vor- Definition einer stetigen Zufallsvariablen
gänge, bei denen nur abzählbar viele Ergebnisse auftreten können.
In diesem Kapitel stellen wir zum einen allgemeine Betrachtungen Eine reelle Zufallsvariable X heißt (absolut) stetig (ver-
über reelle Zufallsvariablen und k-dimensionale Zufallsvektoren teilt), wenn es eine nichtnegative Borel-messbare Funkti-
an, die das bereits Gelernte vertiefen und unter einem höheren on f W R ! R mit der Eigenschaft
Gesichtspunkt wieder aufgreifen. Zum anderen werden wir uns
Z1
intensiv mit stetigen Zufallsvariablen und -vektoren befassen. Sol-
che Zufallsvariablen besitzen eine Lebesgue-Dichte, was u. a. zur f .t / dt D 1 (5.1)
Folge hat, dass sie jeden festen Wert nur mit der Wahrscheinlich- 1
keit null annehmen. Die Berechnung von Wahrscheinlichkeiten und
Verteilungskenngrößen wie Erwartungswerten, Varianzen, höheren gibt, sodass gilt:
Momenten und Quantilen erfordert Techniken der Analysis. Z
P X .B/ D P .X 2 B/ D f .t / dt ; B 2 B: (5.2)
In einem ersten Abschnitt stehen die Begriffe Verteilungsfunktion
B
und Dichte im Vordergrund. Wir werden sehen, wie sich Dichten un-
ter regulären Transformationen von Zufallsvektoren verhalten und
In diesem Fall sagt man, X habe eine (absolut) steti-
uns mit wichtigen Verteilungsfamilien befassen. Hierzu gehören die
ge Verteilung. Die Funktion f heißt Dichte (genauer:
ein- und mehrdimensionale Normalverteilung, die Gleichverteilung,
Lebesgue-Dichte) von X (bzw. von P X ).
die Gammaverteilung, die Weibull-Verteilung, die Exponentialver-
teilung, die Lognormalverteilung und die Cauchy-Verteilung. Zwi-
schen diesen Verteilungen bestehen zahlreiche Querverbindungen,
und bis auf die Gammaverteilung lassen sich alle durch einfache
Kommentar
Transformationen aus der Gleichverteilung auf dem Einheitsintervall
gewinnen. Wie schon im Fall einer diskret verteilten Zufallsvariablen
wurde auch in der obigen Definition der zugrunde liegen-
Anschließend lernen wir mit der charakteristischen Funktion ein
de Wahrscheinlichkeitsraum nicht kenntlich gemacht, weil
weiteres Beschreibungsmittel für Verteilungen kennen, das u. a.
sich die Aussage nur auf die Verteilung P X von X bezieht.
für die Charakterisierung von Verteilungen und die Herleitung von
Die Konstruktion .˝; A; P / WD .R; B; P X / und X WD id˝
Grenzwertsätzen nützlich ist. Nach einem Abschnitt über bedingte
zeigt, dass es immer einen Wahrscheinlichkeitsraum gibt, auf
Verteilungen und bedingte Dichten werden wir mit der bedingten Er-
dem X als Abbildung definiert ist. Entscheidend ist nur, dass
wartung ein zentrales Konzept der Stochastik kennenlernen. Hierauf
die Funktion f nichtnegativ und messbar ist und die Nor-
aufbauend schließt dieses Kapitel mit einem Abschnitt über Stopp-
mierungsbedingung (5.1) erfüllt, also in diesem Sinn eine
zeiten und Martingale.
Wahrscheinlichkeitsdichte ist.
Auch dieses Kapitel weist einen unterschiedlichen mathematischen Die obigen Integrale sind als Lebesgue-Integrale zu ver-
Schwierigkeitsgrad auf. Wohingegen große Teile der Abschn. 5.1– stehen, damit P X ein Wahrscheinlichkeitsmaß auf der Bo-
5.4 in einer einführenden Vorlesung in die Stochastik unverzichtbar relschen -Algebra B wird. Im Folgenden werden jedoch
sind, haben die Abschn. 5.5–5.8 einen weiterführenden Charakter. f und der Integrationsbereich B in (5.2) so beschaffen
Hier greifen wir häufiger auf Resultate der Maß- und Integrations- sein, dass bei konkreten Berechnungen auch mit dem Rie-
theorie zurück, die in Kap. 8 nachgelesen werden können. Für das mannschen Integralbegriff gearbeitet werden kann (vgl. die
gesamte Kapitel sei ein fester Wahrscheinlichkeitsraum .˝; A; P / Ausführungen in der Unter-der-Lupe-Box zum Riemann-
Kapitel 5

zugrunde gelegt, auf dem alle auftretenden Zufallsvariablen defi- und Lebesgue-Integral in Abschn. 8.5). Da sich die Dich-
niert sind. te f auf einer Lebesgue-Nullmenge abändern lässt, ohne
den Wert des Integrals in (5.2) zu beeinflussen, ist die Dich-
te einer stetigen Zufallsvariablen nur fast überall eindeutig
bestimmt. Sie kann also insbesondere an endlich vielen Stel-
5.1 Verteilungsfunktionen len beliebig modifiziert werden. Wer bereits Kenntnisse der
Maß- und Integrationstheorie besitzt, erkennt, dass die Ver-
und Dichten teilung einer stetigen Zufallsvariablen als absolut stetig bzgl.
des Borel-Lebesgue-Maßes 1 angenommen wird.
In diesem Abschnitt führen wir stetige Zufallsvariablen und Zu- Besitzt X eine Dichte, so stellt sich die Wahrscheinlichkeit
fallsvektoren sowie die Begriffe Verteilungsfunktion und Dichte P .a  X  b/ anschaulich als Fläche zwischen dem Gra-
ein. Die folgende Definition nimmt Bezug auf die am Ende von phen von f und der x-Achse über dem Intervall Œa; b dar
Abschn. 2.4 angestellten Betrachtungen. (siehe etwa Abb. 2.6). J
5.1 Verteilungsfunktionen und Dichten 127

f (t) ist für eine diskrete Zufallsvariable durch die Angabe aller xj
1 mit P .X D xj / > 0 sowie der Wahrscheinlichkeiten P .X D
xj /, j  1, und im Fall einer stetigen Zufallsvariablen durch
deren Dichte festgelegt. Das folgende Konzept fasst beide Fälle
zusammen.

t Verteilungsfunktion einer Zufallsvariablen


0 1 2

Abb. 5.1 Dichte der Dreiecksverteilung in Œ0; 2


Für eine reelle Zufallsvariable X heißt die durch

F .x/ WD P .X  x/; x 2 R;
Beispiel Die Festsetzung definierte Funktion F W R ! Œ0; 1 die Verteilungsfunk-
( tion von X .
1  jx  1j; falls 0  x  2;
f .x/ WD (5.3)
0 sonst;
Man beachte, dass auch hier nicht auf den zugrunde liegenden
definiert eine Wahrscheinlichkeitsdichte, denn f ist nicht- Wahrscheinlichkeitsraum .˝; A; P / Bezug genommen wird,
negativ
R1 und als stetige Funktion Borel-messbar. Weiter gilt weil P .X  x/ D P X ..1; x/ nur von der Verteilung von
1 f .t / dt D 1. Abb. 5.1 zeigt, dass der Graph von f eine X abhängt. Aus diesem Grund nennt man F auch die Vertei-
Dreiecksgestalt besitzt, und so heißt eine Zufallsvariable X mit lungsfunktion von P X .
der Dichte f dreiecksverteilt im Intervall Œ0; 2. J
Ist X eine diskrete Zufallsvariable, so heißt F eine diskrete
Verteilungsfunktion. Gilt P .X 2 D/ D 1 für eine abzählbare
Selbstfrage 1 Menge D  R, so besitzt F die Gestalt
Wie groß ist P .0:2 < X  0:8/, wenn X die obige Dichte X
besitzt? F .x/ D P .X D y/: (5.5)
y2DWyx

Der Wert F .x/ D P .X  x/ ergibt sich also durch Aufhäufen


Beispiel
R1 (Standardnormalverteilung)
p Die Gleichung oder Kumulieren der abzählbar vielen Einzelwahrscheinlichkei-
2
1 exp.x /dx D  (siehe z. B. [1], Abschn. 16.7) zeigt, ten P .X D y/ der zu D gehörenden y mit y  x. Aus diesem
dass die durch Grund ist häufig auch die Sprechweise kumulative Verteilungs-
 2 funktion anzutreffen. Nimmt X mit Wahrscheinlichkeit eins nur
1 x
'.x/ WD p exp  ; x 2 R; (5.4) endlich viele Werte an, so springt F an diesen Stellen und ist
2 2
zwischen den Sprungstellen konstant. Abb. 5.3 zeigt dieses Ver-
definierteR nichtnegative stetige Funktion ' (Abb. 5.2) die Be- halten anhand der Verteilungsfunktion der Augensumme beim
1
dingung 1 '.x/ dx D 1 erfüllt, also die Dichte einer stetigen zweifachen Würfelwurf, vgl. Abb. 2.4.
Zufallsvariablen ist. Eine Zufallsvariable X mit dieser Dichte Ist X eine stetige Zufallsvariable mit Dichte f , so folgt aus (5.2)
heißt standardnormalverteilt, und wir schreiben hierfür X speziell für B D .1; x die Darstellung
N.0; 1/. Die Standardnormalverteilung ist ein Spezialfall der
Zx
ausführlicher in Abschn. 5.2 behandelten allgemeinen Normal-
verteilung N.;  2 /. J F .x/ D P .X  x/ D f .t / dt ; x 2 R: (5.6)

Kapitel 5
1
Die Verteilung P X einer reellen Zufallsvariablen ist als Wahr-
scheinlichkeitsmaß eine auf der Borelschen -Algebra B defi-
nierte Funktion, deren Argumente Mengen sind. Diese Funktion F (x) = (X ≤ x)
1 • •


ϕ(x) 0.75 •


0.5 (X = 7)

0.2 0.25 •



x
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
−3 −2 −1 0 1 2 3

Abb. 5.3 Verteilungsfunktion der Augensumme beim zweifachen Wür-


Abb. 5.2 Dichte der Standardnormalverteilung felwurf
128 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

f (t) F (t) F (x)

1 1

F (x)
F (x0 ) •

x t x t
x
x0
Abb. 5.4 Dichte (links) und zugehörige Verteilungsfunktion (rechts)
einer stetigen Zufallsvariablen Abb. 5.5 Graph einer Verteilungsfunktion

Der Wert F .x/ ist also anschaulich die unter der Dichte f bis Verteilungsfunktionen legen Verteilungen fest
zur Stelle x von links erreichte Fläche (Abb. 5.4).
Angesichts der Abb. 5.3 und 5.4 ist das folgende Resultat nicht Die Verteilungsfunktion F einer Zufallsvariablen X legt die
verwunderlich (siehe auch die Definition einer maßdefinieren- Verteilung P X als Wahrscheinlichkeitsmaß auf der Borel-
den Funktion in Abschn. 8.3). schen -Algebra in eindeutiger Weise fest. Wegen F .x/ D
P X ..1; x/, x 2 R, folgt dieser Sachverhalt daraus, dass
ein Wahrscheinlichkeitsmaß auf B nach dem Eindeutigkeits-
Eigenschaften einer Verteilungsfunktion satz für Maße schon durch seine Werte auf dem Mengensystem
J D f.1; x j x 2 Rg bestimmt ist. Das nachstehende Resul-
Die Verteilungsfunktion F einer Zufallsvariablen X be- tat besagt, dass die obigen Eigenschaften von F im Hinblick auf
sitzt folgende Eigenschaften: das „Erzeugen einer Verteilung“ charakteristisch sind.
Aus x  y folgt F .x/  F .y/ (F ist monoton wach-
send),
für jedes x 2 R und jede Folge .xn / mit xn  Existenzsatz
xnC1 , n  1, und limn!1 xn D x gilt F .x/ D Zu jeder monoton wachsenden rechtsseitig stetigen Funk-
limn!1 F .xn / (F ist rechtsseitig stetig), tion F W R ! Œ0; 1 mit (5.7) gibt es eine Zufallsvariable
es gilt X mit der Verteilungsfunktion F .
lim F .x/ D 0; lim F .x/ D 1 (5.7)
x!1 x!1

(„F kommt von 0 und geht nach 1“). Beweis Nach dem Satz über maßdefinierende Funktionen in
Abschn. 8.3 gibt es genau ein Wahrscheinlichkeitsmaß QF auf
B mit der Eigenschaft
Beweis Die Monotonie von F folgt aus der Monotonie von
P X , denn x  y impliziert .1; x  .1; y. Zum Nach- QF ..a; b/ D F .b/  F .a/ für alle a; b mit a  b:
weis der rechtsseitigen Stetigkeit von F seien x 2 R beliebig
Kapitel 5

und .xn / eine beliebige Folge mit xn  xnC1 , n  1, und Die kanonische Konstruktion ˝ WD R, A WD B, P WD QF und
limn!1 xn D x. Dann wird durch An WD .1; xn , n  1, X WD idR liefert dann die Behauptung. 
eine absteigende Mengenfolge .An / mit An # A WD .1; x
definiert. Da P X stetig von oben ist, ergibt sich Es besteht also eine bijektive Zuordnung zwischen Verteilungen
reeller Zufallsvariablen (Wahrscheinlichkeitsmaßen auf B) und
F .x/ D P X .A/ D lim P X .An / D lim F .xn /: monoton wachsenden rechtsseitig stetigen Funktionen F W R !
n!1 n!1
Œ0; 1 mit (5.7). Im Folgenden werden wir uns etwas genauer mit
Die letzte Eigenschaft folgt analog unter Verwendung der Ste- Verteilungsfunktionen befassen.
tigkeit von P X . 
Die in Abb. 5.5 dargestellte Verteilungsfunktion F einer Zu-
Selbstfrage 2 fallsvariablen X besitzt an der Stelle x0 eine Sprungstelle.
Können Sie den Beweis selbst zu Ende führen? Wie der folgende Satz zeigt, ist die Sprunghöhe gleich der
Wahrscheinlichkeit P .X D x0 /, vgl. auch Abb. 5.3. Zur For-
mulierung des Satzes, dessen Beweis Gegenstand von Aufgabe
Abb. 5.5 illustriert die obigen Eigenschaften einer Verteilungs- 5.1 ist, bezeichne allgemein
funktion F . Um die rechtsseitige Stetigkeit von F an der Stelle
x0 zu kennzeichnen, ist der Punkt .x0 ; F .x0 // durch einen aus- F .x/ WD lim F .xn /
gefüllten Kreis hervorgehoben. x1 x2 :::;xn !x
5.1 Verteilungsfunktionen und Dichten 129

den linksseitigen Grenzwert von F an der Stelle x. Wegen der F (x)


Monotonie von F hängt dieser Grenzwert nicht von der speziel- 1
len Wahl einer von links gegen x konvergierenden Folge .xn /n1
mit x1  x2  : : : < x ab. 7/8

3/4

Weitere Eigenschaften von Verteilungsfunktionen 5/8

Für die Verteilungsfunktion F von X gelten: 1/2


P .a < X  b/ D F .b/  F .a/; a; b 2 R; a < b. 3/8
P .X D x/ D F .x/  F .x/, x 2 R.
1/4

1/8
Da die Verteilungsfunktion F einer Zufallsvariablen X rechts-
seitig stetig ist, liegt somit in einem Punkt x genau dann eine
Stetigkeitsstelle von F vor, wenn P .X D x/ D 0 gilt. Eine 1 2 1 2 7 8 x
0 9 9 3 3 9 9
1
Verteilungsfunktion kann höchstens abzählbar viele Unstetig-
keitsstellen besitzen (Aufgabe 5.2), und diese können sogar in Abb. 5.6 Cantorsche Verteilungsfunktion
R dicht liegen (Aufgabe 5.35 c)). Selbstverständlich ist die Ver-
teilungsfunktion einer stetigen Zufallsvariablen X stetig, denn
es ist Video 5.1 Die Cantorsche Verteilungsfunktion
Z
P .X D x/ D f .t /1fxg.t / dt D 0;
R

da der Integrand fast überall verschwindet. Wie das folgende


Beispiel zeigt, sollte man sich jedoch hüten zu glauben, je-
de stetige Verteilungsfunktion F ließe sich in der Form (5.6)
mit einer geeigneten Dichte f schreiben (siehe hierzu auch die Besitzt eine Zufallsvariable X mit Verteilungsfunktion F eine
Hintergrund-und-Ausblick-Box über absolut stetige und singu- Dichte f , so nennt man F absolut stetig und sagt auch, F habe
läre Verteilungsfunktionen). die Dichte f . Wegen der Darstellung (5.6) kann man nach dem
ersten Hauptsatz der Differenzial- und Integralrechnung an jeder
Cantorsche Verteilungsfunktion Die folgende Konstruk- Stelle t , an der die Funktion f stetig ist, die Verteilungsfunkti-
tion von Georg Ferdinand Ludwig Philipp Cantor (1845–1918) on F differenzieren und erhält die Ableitung F 0 .t / D f .t /.
zeigt, dass es stetige Verteilungsfunktionen gibt, die sich nicht Ist andererseits F eine Verteilungsfunktion, die außerhalb einer
in der Form (5.6) mit einer geeigneten Dichte schreiben lassen. endlichen – eventuell leeren – Menge M stetig differenzierbar
ist, so wird durch
Wir setzen F .x/ WD 0 für x  0 sowie F .x/ WD 1 für x  1.
Für jedes x aus dem mittleren Drittel Œ1=3; 2=3 definieren wir f .x/ WD F 0 .x/; x 2 R n M;
F .x/ WD 1=2: Aus den übrigen Dritteln Œ0; 1=3 und Œ2=3; 1
werden wieder jeweils das mittlere Drittel, also das Intervall und f .x/ WD 0, falls x 2 M , eine Dichte definiert, und es
Œ1=9; 2=9 bzw. Œ7=9; 8=9, gewählt und dort F .x/ WD 1=4 bzw. gilt dann (5.6). Unabhängig davon, ob eine Dichte existiert oder

Kapitel 5
F .x/ WD 3=4 gesetzt. In gleicher Weise verfährt man mit den nicht, ist jede Verteilungsfunktion fast überall differenzierbar
jeweils mittleren Dritteln der noch nicht erfassten vier Inter- (siehe die Hintergrund-und-Ausblick-Box über absolut stetige
valle Œ0; 1=9, Œ2=9; 1=3, Œ2=3; 7=9, Œ8=9; 1 und setzt auf dem und singuläre Verteilungsfunktionen).
j -ten dieser Intervalle F .x/ WD .2j  1/=8. Fährt man so un-
begrenzt fort, so entsteht eine stetige Funktion F , die auf jedem Sind t Stetigkeitspunkt einer Dichte f und eine kleine posi-
der offenen Intervalle .1=3; 2=3/, .1=9; 2=9/, .7=9; 8=9/; : : : dif- tive Zahl, so gilt (vgl. Abb. 5.7)
ferenzierbar ist und dort die Ableitung 0 besitzt. Da die Summe
der Längen dieser Intervalle gleich Z
t C

P .t  X  t C / D f .x/ dx f .t /
X  kC1 1  
1X 2 k
1
1 t
2k D D1
3 3 3
kD0 kD0 und somit
ist, besitzt F fast überall auf dem Intervall Œ0; 1 die Ableitung 0, 1
ist also nicht in der Form (5.6) darstellbar. f .t / P .t  X  t C /: (5.8)

Abb. 5.6 zeigt den Versuch, die auch Teufelstreppe genann-
te Cantorsche Verteilungsfunktion zu approximieren (vgl. auch Der Wert f .t / ist also approximativ gleich der Wahrschein-
[1], Abschn. 9.4 und 16.2). J lichkeit, dass X einen Wert im Intervall Œt ; t C
t  annimmt,
130 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Hintergrund und Ausblick: Absolut stetige und singuläre Verteilungsfunktionen

Nach einem berühmten Satz von Henri Lebesgue aus dem dann die fast überall existierende und ggf. auf einer Null-
Jahr 1904 ist jede Verteilungsfunktion F W R ! Œ0; 1 als menge durch F 0 .x/ WD 0 zu ergänzende Ableitung F 0 eine
monotone Funktion fast überall differenzierbar. Setzt man Dichte von F .
F 0 .x/ WD 0 für jede Stelle x, an der F nicht differenzier-
bar ist, so gilt Jede absolut stetige Verteilungsfunktion ist insbesondere ste-
tig. Dass die Umkehrung i. Allg. nicht gilt, zeigt das Beispiel
Zb der Cantorschen Verteilungsfunktion. Letztere ist singulär
in dem Sinne, dass F 0 .x/ D 0 für fast alle x gilt. Für ei-
F 0 .t / dt  F .b/  F .a/; a; b 2 R; a  b;
ne singuläre Verteilungsfunktion ist somit die linke Seite von
a (5.9) identisch gleich null, sodass man durch Integration der
Ableitung „nichts von F zurückgewinnt“. Jede diskrete Ver-
und damit auch
teilungsfunktion ist singulär. Dieser Sachverhalt erschließt
Zx sich unmittelbar, wenn die Sprungstellen von F isoliert von-
F 0 .t / dt  F .x/; x 2 R: (5.9) einanderliegen, er gilt aber auch, wenn die Sprungstellen
eine in R dichte Menge bilden. Überraschenderweise gibt
1
es streng monoton wachsende stetige Verteilungsfunktionen,
Verteilungsfunktionen, bei denen hier stets das Gleichheits- die singulär sind (s. [4], S. 427).
zeichen eintritt, sind wie folgt charakterisiert: Nach dem Lebesgueschen Zerlegungssatz besitzt jede Vertei-
Eine Verteilungsfunktion F heißt absolut stetig, wenn zu je- lungsfunktion F genau eine Darstellung der Gestalt
dem kompakten Intervall Œa; b  R und zu jedem " > 0
ein ı > 0 existiert, sodass für jedes n  1 und jede Wahl F D a1 Fd C a2 Fcs C a3 Fac
von u1 ; : : : ; un und v1 ; : : : ; vn mit a  u1 < v1  u2 <
v2  : : :  uP n < vn  b und max1j n .vj  uj /  ı die mit nichtnegativen Zahlen ai , wobei a1 C a2 C a3 D 1. Des
Ungleichung jnD1 jF .vj /  F .uj /j < " erfüllt ist. Weiteren sind Fd eine diskrete, Fcs eine stetige singuläre und
Fac eine absolut stetige Verteilungsfunktion.
Nach dem Hauptsatz der Differenzial- und Integralrechnung
für das Lebesgue-Integral ist jede Verteilungsfunktion F ab- Abschließend sei gesagt, dass F genau dann absolut stetig
solut stetig, die sich in der Form bzw. singulär ist, wenn das nach dem Existenzsatz zu F
korrespondierende Wahrscheinlichkeitsmaß F absolut ste-
Zx tig bzw. singulär bzgl. des Borel-Lebesgue-Maßes im Sinne
F .x/ D f .t / dt ; x 2 R; der Definition der absoluten Stetigkeit bzw. der Singularität
1 von Maßen ist, vgl. Abschn. 8.8. Die beiden ersten Summan-
den in obiger Darstellung bilden den singulären und a3 Fac
mit einer nichtnegativen messbaren Funktion f schreiben den absolut stetigen Anteil von F im Sinne des Satzes über
lässt. Dabei gilt F 0 .x/ D f .x/ für fast alle x. Andererseits die Lebesgue-Zerlegung in Abschn. 8.8. Weiteres zu dem in
impliziert die absolute Stetigkeit von F , dass in (5.9) für je- dieser Box angesprochenen Themenkomplex findet sich in
des x das Gleichheitszeichen eintritt. Konsequenterweise ist [10], S. 296 ff.
Kapitel 5

f (x) dividiert durch die Länge


t dieses Intervalls. Ähnliche Be-
trachtungen findet man in der Physik, wo der Begriff Massen-
f (t)
dichte als Grenzwert von Masse pro Volumeneinheit definiert
wird, siehe hierzu auch die Hintergrund-und-Ausblick-Box über
absolute Stetigkeit und Singularität von Borel-Maßen im Rk in
Abschn. 8.8.
Wir werden später noch viele wichtige stetige Verteilungen
von (eindimensionalen) Zufallsvariablen kennenlernen, möch-
ten aber an dieser Stelle zunächst den Begriff eines (absolut)
x
t t+Δ stetig verteilten Zufallsvektors einführen.

Abb. 5.7 Zum Verständnis des Dichtebegriffs


5.1 Verteilungsfunktionen und Dichten 131

f (x1 , x2 )
Definition eines stetigen Zufallsvektors
Ein k-dimensionaler Zufallsvektor X D .X1 ; : : : ; Xk /
heißt (absolut) stetig (verteilt), wenn es eine nichtnegati-
ve Borel-messbare Funktion f W Rk ! R mit
x2
Z
f .x/ dx D 1
Rk
x1

(sog. Wahrscheinlichkeitsdichte) gibt, sodass gilt:


Z Abb. 5.9 Dichte der zweidimensionalen Standardnormalverteilung als
Gebirge
P X .B/ D P .X 2 B/ D f .x/ dx; B 2 Bk : (5.10)
B
Beispiel (Standardnormalverteilung im Rk ) Der Zu-
In diesem Fall sagt man, X habe eine (absolut) steti- fallsvektor X D .X1 ; : : : ; Xk / heißt standardnormalverteilt im
ge Verteilung. Die Funktion f heißt Dichte (genauer: Rk , falls X die Dichte
Lebesgue-Dichte) von X (bzw. von P X ). 0 1
 k
1 X 2
k
1
'k .x/ WD p exp @ x A;
2 2 j D1 j
Offenbar ist diese Begriffsbildung eine direkte Verallgemeine-
rung der Definition einer stetig verteilten Zufallsvariablen. Liegt
x D .x1 ; : : : ; xk / 2 Rk , besitzt (siehe Abb. 5.9 für den Fall
obige Situation vor, so nennt man f auch eine gemeinsame
Dichte von X1 ; : : : ; Xk . Der unbestimmte Artikel eine soll ver- k D 2). Wegen
deutlichen, dass man nach allgemeinen Sätzen der Maßtheorie Y
n
f auf einer Nullmenge abändern kann, ohne obiges Integral und 'k .x/ D '.xj /; x D .x1 ; : : : ; xk /; (5.11)
damit die Verteilung von X zu beeinflussen. j D1

mit der in (5.4) definierten Funktion ' folgt


Beispiel (Gleichverteilung auf einer Menge B) Ist
B 2 Bk eine beschränkte Menge mit k .B/ > 0, also mit po- Z k Z
Y
1

sitivem Borel-Lebesgue-Maß, so heißt der Zufallsvektor X D 'k .x/ dx D '.xj / dxj D 1;


.X1 ; : : : ; Xk / gleichverteilt in B, falls X die auf B konstante Rk
j D11
Dichte
sodass 'k in der Tat eine Wahrscheinlichkeitsdichte ist. J
1
f .x/ WD k  1B .x/; x 2 Rk ;
 .B/
Integration der gemeinsamen Dichte liefert die
besitzt, und wir schreiben hierfür kurz X U.B/.
marginalen Dichten
Wichtige Spezialfälle sind hier der Einheitswürfel B D Œ0; 1k
und die Einheitskugel B D fx 2 Rk j kxk  1g, siehe Abb. 5.8 Besitzt der Zufallsvektor X D .X1 ; : : : ; Xk / die Dichte f ,

Kapitel 5
für den Fall k D 2. Die Gleichverteilung U.B/ modelliert die so erhält man die sog. marginalen Dichten der Komponenten
rein zufällige Wahl eines Punktes aus B. Der Buchstabe U weckt X1 ; : : : ; Xk von X analog zum Fall diskreter Zufallsvektoren
Assoziationen an das Wort uniform. J (vgl. Abschn. 4.1) aus f durch Integration über die nicht in-
teressierenden Variablen.

f (x1 , x2 )
f (x1 , x2 )
Marginalverteilungsbildung bei Dichten
Ist X D .X1 ; : : : ; Xk / ein stetiger Zufallsvektor mit Dichte
f , so sind X1 ; : : : ; Xk stetige Zufallsvariablen. Die mit fj
bezeichnete Dichte von Xj ergibt sich zu

1 1 Z1 Z1
x2 x2
x1 x1 fj .t / D  f .x1 ; : : : ; xj 1 ; t ; xj C1 ; : : : ; xk /
1 1  dx1 : : : dxj 1 dxj C1 : : : dxk :
Abb. 5.8 Dichte der Gleichverteilung auf dem Einheitsquadrat (links)
(5.12)
und auf dem Einheitskreis (rechts)
132 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

f (x1 , x2 ) Im Fall k D 2 schreiben wir in der Folge .X ; Y / WD .X1 ; X2 /


sowie h für die gemeinsame Dichte von X und Y und f bzw.
g für die marginale Dichte von X bzw. von Y . Damit wird
(5.13) zu
Z1
f .x/ D h.x; y/ dy: (5.14)
1
f (t,x2)
x2
Es ist auch üblich, durchgängig den Buchstaben f zu ver-
wenden und die Zufallsvariable oder den Zufallsvektor als
t
Index anzuhängen, also
x1
R Z1
Abb. 5.10 Bildung der marginalen Dichte f1 .t / D f .t ; x2 / dx2 fX .x/ D fX ;Y .x; y/ dy
von X1
1

zu schreiben. J
Beweis Um Schreibaufwand zu sparen, führen wir den Be-
weis nur für den Fall k D 2 sowie j D 1 (siehe auch Abb. 5.10).
Ist B1 2 B1 eine beliebige Borel-Menge, so ist B WD B1  R Beispiel (Marginalverteilungsbildung) Der Zufallsvek-
eine Borel-Menge in R2 . Mit (5.10) folgt tor .X ; Y / besitze eine Gleichverteilung im Bereich A WD
f.x; y/ 2 Œ0; 12 j 0  x  y  1g (Abb. 5.11 links), also
P X1 .B1 / D P .X11.B1 // D P .X11.B1 / \ X21 .R// die Dichte h.x; y/ WD 2, falls .x; y/ 2 A und h.x; y/ WD 0
sonst. Durch Marginalverteilungsbildung ergibt sich die margi-
D P X .B1  R/ nale Dichte f von X zu
Z
D f .x1 ; x2 / dx1 dx2 Z1 Z1
B
Z f .x/ D h.x; y/ dy D 2 1 dy D 2.1  x/
D 1B1 .x1 /f .x1 ; x2 / dx1 dx2 : 1 x

R2 für 0  x  1 sowie f .x/ D 0 sonst (blauer Graph in Abb. 5.11


rechts). Analog folgt
Nach dem Satz von Tonelli kann hier iteriert integriert werden,
sodass wir g.y/ D 2y; falls 0  y  1;
0 1 1
Z Z und g.y/ WD 0 sonst. Der Graph der marginalen Dichte g von
P X1 .B1 / D 1B1 .x1 / @ f .x1 ; x2 /dx2 A dx1 Y ist in Abb. 5.11 rechts orangefarben skizziert (man beachte
R 1 die gegenüber dem linken Bild andere Skalierung der vertikalen
Z Achse!). J
D f1 .x1 / dx1
B1 Beispiel Besitzt X D .X1 ; : : : ; Xk / die eben eingeführte
Standardnormalverteilung im Rk , so ist jede Komponente Xj
Kapitel 5

mit von X eine standardnormalverteilte reelle Zufallsvariable. We-


Z1 gen der Produktdarstellung (5.11) liefert ja das Integrieren von
f1 .x1 / D f .x1 ; x2 / dx2 ; x1 2 R; (5.13) 'k .x/ über alle von xj verschiedenen xi gemäß (5.12) den
Wert '.xj /. J
1

erhalten. Der Satz von Tonelli liefert auch, dass f1 eine messba-
re Funktion und (als Integral über eine nichtnegative Funktion) y
f (x) g(x)
nichtnegativ ist. Somit ist X1 eine stetige Zufallsvariable mit der 1 2
Dichte f1 . 
A

1
Kommentar
Mit dem Satz von Tonelli ergibt sich allgemeiner, dass für
jedes j 2 f1; : : : ; k  1g und jede Wahl von i1 ; : : : ; ij mit
1  i1 < : : : < ij  k der Zufallsvektor .Xi1 ; : : : ; Xij / eine 1 x 1 x
Dichte besitzt, die man durch Integration von f über alle x`
mit ` … fi1 ; : : : ; ij g erhält. Abb. 5.11 Bereich A (links) und Dichten von X bzw. Y (rechts)
5.1 Verteilungsfunktionen und Dichten 133

Achtung Sind X1 und X2 stetige reelle Zufallsvariablen auf y2 − +


einem Wahrscheinlichkeitsraum .˝; A; P /, so muss der zwei-
dimensionale Vektor .X1 ; X2 / keine Dichte besitzen. Gilt etwa
X2 .!/ D X1 .!/, ! 2 ˝, so folgt P ..X1; X2 / 2 / D 1,
wobei WD f.x; x/ j x 2 Rg. Die Diagonale ist aber eine x2
+ −
2 -Nullmenge. Würde .X1 ; X2 / eine 2 -Dichte f besitzen, so
x1 y1
müsste jedoch
Z
Abb. 5.12 P .X 2 .x; y/ als alternierende Summe F .y1 ; y2 / 
P ..X1; X2 / 2 / D f .x; y/ dxdy D 0
F .x1 ; y2 /  F .y1 ; x2 / C F .x1 ; x2 /

gelten. J y
Die Ungleichung x F  0 ist eine Konsequenz der Gleichung
y
Die Verteilungsfunktion einer Zufallsvariablen X ordnet einer x F D P .X 2 .x; y/ (Aufgabe 5.36). Im Fall k D 2 gilt
reellen Zahl x die Wahrscheinlichkeit P .X  x/ zu. Definiert (s. Abb. 5.12)
man die Kleiner-Gleich-Relation für Vektoren x D .x1 ; : : : ; xk /
und y D .y1 ; : : : ; yk / komponentenweise durch x  y, falls yx F D F .y1 ; y2 /  F .x1 ; y2 /  F .y1 ; x2 / C F .x1 ; x2 /:
xj  yj für jedes j 2 f1; : : : ; kg, so ergibt sich in direkter Mit Mitteln der Maß- und Integrationstheorie kann gezeigt wer-
Verallgemeinerung der Definition der Verteilungsfunktion einer den, dass zu jeder rechtsseitig stetigen Funktion F W Rk !
reellen Zufallsvariablen: Œ0; 1, die die verallgemeinerte Monotonieeigenschaft besitzt
und die oben angegebenen Grenzwertbeziehungen erfüllt, ge-
Verteilungsfunktion eines Zufallsvektors nau ein Wahrscheinlichkeitsmaß QF auf Bk existiert, das F als
Verteilungsfunktion hat, für das also QF ..1; x/ D F .x/,
Für einen Zufallsvektor X D .X1 ; : : : ; Xk / heißt die durch x 2 Rk , gilt (vgl. die Hintergrund-und-Ausblick-Box über maß-
definierende Funktionen auf Rk in Abschn. 8.4).
F .x/ WD P .X  x/ D P .X1  x1 ; : : : ; Xk  xk /;

x D .x1 ; : : : ; xk / 2 Rk , definierte Funktion F W Rk ! Zufallsvariablen sind unabhängig,


Œ0; 1 die Verteilungsfunktion von X oder die gemeinsa-
me Verteilungsfunktion von X1 ; : : : ; Xk . wenn die gemeinsame Dichte das Produkt
der marginalen Dichten ist
Śk
Schreiben wir kurz .1; x WD Wir wollen uns jetzt überlegen, ob es ein Kriterium für die
j D1 .1; xj , so gilt
F .x/ D P X ..1; x/. Die Verteilungsfunktion hängt also auch Unabhängigkeit von k Zufallsvariablen mit einer gemeinsamen
im Fall k  2 nur von der Verteilung von X ab. Wie im Fall Dichte gibt, das der Charakterisierung (4.3) bei diskreten Zu-
k D 1 ist F rechtsseitig stetig, d. h., es gilt fallsvariablen entspricht. Nach den Betrachtungen in Abschn.
3.3 sind k reelle Zufallsvariablen X1 ; : : : ; Xk genau dann sto-
F .x/ D lim F .x .n/ / chastisch unabhängig, wenn
n!1

.n/ .n/ .n/ .n/


für jede Folge .x / D .x1 ; : : : ; xk / mit xj # xj für Y
k
P .X1 2 B1 ; : : : ; Xk 2 Bk / D P .Xj 2 Bj / (5.15)
jedes j 2 f1; : : : ; kg, wobei x D .x1 ; : : : ; xk /. Dies liegt da-
j D1
ran, dass die Mengen .1; x .n/  eine absteigende Folge bilden,

Kapitel 5
die gegen .1; x konvergiert und P X stetig von oben ist. für beliebige Borel-Mengen B1 ; : : : ; Bk gilt. Besitzen
In gleicher Weise gilt limn!1 F .x .n/ / D 0, falls mindestens X1 ; : : : ; Xk eine gemeinsame Dichte f , so nimmt dieses Krite-
.n/
eine Komponentenfolge .xj / gegen 1 konvergiert. Konver- rium die folgende Gestalt an:
.n/
giert jede Komponentenfolge .xj / gegen unendlich, so gilt
limn!1 F .x .n/ / D 1, da P X stetig von unten ist und die Folge Stochastische Unabhängigkeit und Dichten
.1; x .n/  dann von unten gegen Rk konvergiert. Der Mono-
tonie einer Verteilungsfunktion im Fall k D 1 entspricht im Der k-dimensionale Zufallsvektor X WD .X1 ; : : : ; Xk / be-
Fall k  2 die schon bei maßdefinierenden Funktionen auf sitze die Dichte f . Bezeichnet fj die marginale Dichte
dem Rk (siehe die Hintergrund-und-Ausblick-Box über maß- von Xj , j D 1; : : : ; k, so sind X1 ; : : : ; Xk genau dann
definierende Funktionen auf Rk in Abschn. 8.4) festgestellte stochastisch unabhängig, wenn gilt:
verallgemeinerte Monotonieeigenschaft
Y
k
yx F  0 8x; y 2 Rk mit x  y: f .x/ D fj .xj /
Dabei gilt mit WD . 1 ; : : : ; k / und s. / WD 1 C : : : C k j D1
X 1 1
yx F WD .1/ks. / F .y1 1 x1 1 ; : : : ; yk k xk k /: für k -fast alle x D .x1 ; : : : ; xk / 2 Rk .
2f0;1gk
134 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Unter der Lupe: Das Bertrandsche Sehnen-Paradoxon


p
Was ist eine rein zufällige Sehne? dann länger als 3, wenn 1=2 < U < 1=2 gilt, und die
Wahrscheinlichkeit hierfür ist 1=2.
Das nachfolgende Paradoxon von Joseph Bertrand (1822–
Modell 2: Zwei Punkte auf dem Kreisrand legen eine Seh-
1900) zeigt, dass die oft vage Vorstellung vom reinen Zufall
ne fest. Wegen der Drehsymmetrie des Problems wählen wir
zu verschiedenen stochastischen Modellen und somit un-
einen festen Punkt M und modellieren den Winkel zwi-
terschiedlichen Wahrscheinlichkeiten für ein anscheinend
schen der Tangente durch M und der gesuchten Sehne als
gleiches Ereignis führen kann. Das verwirrende Objekt ist
gleichverteilt im Intervall .0; / (nachstehendes Bild links).
hier eine rein zufällige Sehne, die im Einheitskreis gezogen
Diepso erzeugte rein zufällige Sehne ist genau dann länger
wird. Mit welcher Wahrscheinlichkeit ist diese länger als eine
als 3, wenn =3 < < 2=3 gilt. Die Wahrscheinlichkeit
Seite des dem
p Kreis einbeschriebenen gleichseitigen Drei- hierfür ist 1=3.
ecks, also 3 (siehe nachstehendes Bild links)?

y
P•
M• •

Θ
• •
U x
1/2

H
Bertrandsches Paradoxon: Modelle 2 (links) und 3 (rechts)

Bertrandsches Paradoxon: Problemstellung (links) und Modell 1 Modell 3: Es sei P gleichverteilt im Einheitskreis. Ist P vom
(rechts) Mittelpunkt verschieden (dies geschieht mit Wahrscheinlich-
keit eins), so betrachten wir die Sehne, deren Mittelsenk-
Modell 1: Eine Sehne ist durch ihren Abstand vom Kreismit- rechte durch P und den Kreismittelpunkt geht (obiges Bild
telpunkt und ihre Richtung festgelegt. Da Letztere irrelevant rechts). Diepso generierte rein zufällige Sehne ist genau dann
ist, wählen wir eine Sehne parallel zur y-Achse, wobei länger als 3, wenn P in den konzentrischen Kreis mit
der Schnittpunkt U auf der x-Achse die Gleichverteilung Radius 1=2 fällt. Die Wahrscheinlichkeit hierfür ist der Flä-
U.1; 1/ besitzt (obiges Bild rechts). Da der Höhenfußpunkt chenanteil .1=2/2= D 1=4. Die unterschiedlichen Werte
H des gleichseitigen Dreiecks den Kreisradius halbiert (obi- 1=2, 1=3 und 1=4 zeigen, dass erst ein präzises stochastisches
ges Bild links), ist die so erzeugte rein zufällige Sehne genau Modell Wahrscheinlichkeitsaussagen ermöglicht!

Beweis Der Beweis ergibt sich wie folgt elegant mit Techni- hat die Dichte
ken der Maßtheorie: Wie im Kommentar nach dem allgemeinen  k  
1 X 2
k
1
Unabhängigkeitskriterium in Abschn. 3.3 dargelegt, ist (3.35) 'k .x/ D p exp  xj ;
gleichbedeutend mit (3.36). Nach Voraussetzung hat P X die k - 2 2 j D1
Kapitel 5

Dichte f . Wegen
x D .x1 ; : : : ; xk / 2 Rk , und jedes Xj ist eindimensio-
O
k k Z
Y
nal standardnormalverteilt,
p besitzt also die Dichte fj .t / D
P Xj .B1  : : :  Bk / D fj .xj / dxj exp.t 2 =2/= 2, t 2 R. Damit gilt
j D1 j D1B
j Y
k

Z 'k .x/ D fj .xj /; x D .x1 ; : : : ; xk / 2 Rk ;


Y
k
j D1
D fj .xj /dx
B1 :::Bk j D1
was zeigt, dass X1 ; : : : ; Xk stochastisch unabhängig sind. In-
teressanterweise ist letztere Eigenschaft bei rotationsinvarianter
N Q Dichte für X charakteristisch für die Normalverteilung (Aufga-
besitzt jkD1 P Xj die k -Dichte jkD1 fj .xj /. Nach dem Satz be 5.40). J
über die Eindeutigkeit der Dichte in Abschn. 8.8 sind f und
Qk k
j D1 fj .xj /  -f.ü. gleich, was zu zeigen war.  Selbstfrage 3
Besitzt der Zufallsvektor mit der Gleichverteilung auf der in
Abb. 5.11 angegebenen Menge A stochastisch unabhängige
Beispiel (Standardnormalverteilung) Ein standardnor- Komponenten?
malverteilter k-dimensionaler Zufallsvektor X D .X1 ; : : : ; Xk /
5.1 Verteilungsfunktionen und Dichten 135

Hintergrund und Ausblick: Der lineare Kongruenzgenerator

Wie simuliert man die Gleichverteilung im Einheitsintervall? Dass die Periodenlänge m vorliegt, bedeutet nur, dass alle
Zahlen j =m, 0  j < m, nach .m  1/-maligem Aufruf
Zufallsvorgänge werden häufig mit dem Computer simuliert. von (5.16) aufgetreten sind. Die obigen Bedingungen sa-
Bausteine hierfür sind gleichverteilte Pseudozufallszahlen, gen jedoch nichts über die statistische Qualität der erzeugten
die von Pseudozufallszahlengeneratoren (kurz: Zufallsgene- Zufallszahlen aus. So besitzt etwa das lineare Kongruenz-
ratoren) erzeugt werden und versuchen, die Gleichverteilung schema zj C1 D zj C 1 (mod m) maximale Periodenlänge;
U.0; 1/ sowie stochastische Unabhängigkeit nachzubilden. diese Folge wird man jedoch kaum als zufällig erzeugt
Hinter jedem Zufallsgenerator verbirgt sich ein Algorith- ansehen. Um die Aussicht auf die Vermeidung derart patho-
mus, der eine deterministische Folge x0 ; x1 ; x2 ; : : : im Inter- logischer Fälle zu vergrößern, sollte man a nicht zu klein und
vall Œ0; 1 erzeugt. Dabei sollen x0 ; x1 ; x2 ; : : : „unabhängig nicht zu groß wählen.
voneinander und gleichverteilt in Œ0; 1“ wirken. Zufalls-
generatoren versuchen, dieser Vorstellung durch Simulati- 1 1
on der diskreten Gleichverteilung auf der Menge ˝m WD
f m0 ; m1 ; m2 ; : : : ; m1
m
g mit einer großen natürlichen Zahl m
(z. B. m D 232 ) möglichst gut zu entsprechen (siehe Auf-
gabe 5.37). Der n-maligen unabhängigen rein zufälligen
Auswahl einer Zahl aus ˝m entspricht dann die Gleich-
verteilung auf dem n-fachen kartesischen Produkt ˝mn , die
ihrerseits für m ! 1 die (stetige) Gleichverteilung auf
Œ0; 1n approximiert (Aufgabe 5.38). Natürlich können die 0 0
von einem Zufallsgenerator erzeugten Zahlenreihen diese 0 1 0 1
Wünsche nur bedingt erfüllen. Dabei müssen gute Generato-
ren verschiedene Tests hinsichtlich der statistischen Qualität Von linearen Kongruenzgeneratoren erzeugte Punktepaare
der produzierten Zufallszahlen bestehen.
Eine prinzipielle Schwäche linearer Kongruenzgeneratoren
Der häufig verwendete lineare Kongruenzgenerator basiert ist deren Gitterstruktur. Diese Namensgebung bedeutet, dass
auf nichtnegativen ganzen Zahlen m (Modul), a (Faktor), b für jedes d  2 die Vektoren .xi ; xi C1 ; : : : ; xi Cd 1 /, i  0,
(Inkrement) und z0 (Anfangsglied) mit z0  m  1 und ver- auf einem Gitter im Rd liegen (Aufgabe 5.39). So fallen die
wendet das iterative Kongruenzschema 256 Pseudozufalls-Paare .x0 ; x1 /; : : : ; .x255 ; x256 / des Kon-
gruenzgenerators mit m D 256, a D 25, b D 1 und z0 D 1
zj C1  a  zj C b mod m; j  0: (5.16) auf insgesamt 16 Geraden (s. obige Abb. links).
Ein guter linearer Kongruenzgenerator sollte eine hinrei-
Durch die Normierungsvorschrift chend feine Gitterstruktur besitzen. Der Spektraltest prä-
zisiert diese Idee, indem für den Fall d D 2 in Œ0; 12
zj
xj WD ; j  0; (5.17) der breiteste Streifen zwischen irgendwelchen parallelen
m Geraden im Gitter betrachtet wird, der kein Punktepaar
.xi ; xi C1 / enthält. Je schmaler dieser Streifen, desto bes-
entsteht dann eine Folge x0 ; x1 ; : : : im Einheitsintervall. ser ist nach dem Wertmaßstab dieses Tests die statistische

Kapitel 5
Als Beispiel diene der Fall m D 100, a D 18, b D 11 und Qualität der Pseudozufalls-Paare .xi ; xi C1 /, i  0. Im Fall
z0 D 40. Hier gilt (bitte nachrechnen!) z1 D 31, z2 D 69, d D 3 bildet man analog im Einheitswürfel den größten
z3 D 53, z4 D 65, z5 D 81 und z6 D 69 D z2 . Dies be- Streifen zwischen parallelen Ebenen, der keinen der Punk-
deutet, dass der Generator schon nach zwei Schritten eine te .xi ; xi C1 ; xi C2 /, i  0, enthält. Durch geeignete Wahl
Periode der Länge vier läuft. Die wünschenswerte maximale von a wird dann versucht, die Breite dieses punktfreien
Periodenlänge m wird genau dann erreicht, wenn gilt (siehe Streifens zu minimieren. Dieser Gittereffekt wird kaum sicht-
z. B. [18]): bar, wenn bei großem Modul m relativ wenige Punktepaare
.xj ; xj C1 / geplottet werden. So sehen z. B. die ersten 250
b ist teilerfremd zu m, Paare .x0 ; x1 /; : : : ; .x249 ; x250 / des Generators mit m D 224 ,
jede Primzahl, die m teilt, teilt auch a  1, a D 54 677, b D 1, z0 D 1 „unabhängig und in Œ0; 12
ist m durch 4 teilbar, so auch a  1. gleichverteilt“ aus (obiges Bild rechts).
136 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

5.2 Transformationen c) In jedem dieser beiden Fälle besitzt Y die Dichte


von Verteilungen
f .T 1 .y//
g.y/ WD ; y 2 T .O/;
Es seien X D .X1 ; : : : ; Xk / ein k-dimensionaler Zufallsvektor jT 0 .T 1 .y//j
und T W Rk ! Rs eine messbare Abbildung, also
und g.y/ WD 0 sonst.
T .x/ DW .T1 .x/; : : : ; Ts .x//; x D .x1 ; : : : ; xk /;

mit Komponentenabbildungen Tj W Rk ! R, j D 1; : : : ; s. Beweis Ist T streng monoton wachsend, so folgt


Dabei setzen wir s  k voraus. In diesem Abschnitt gehen wir
der Frage nach, wie man die Verteilung des durch G.y/ D P .Y  y/ D P .T .X /  y/ D P .X  T 1 .y//
D F .T 1 .y//; y 2 T .O/;
Y WD T .X/; Y D .Y1 ; : : : ; Ys / D .T1 .X/; : : : ; Ts .X//;
und somit durch Differenziation (in jedem Stetigkeitspunkt der
gegebenen transformierten Zufallsvektors Y aus derjenigen von Ableitung)
X erhält. F 0 .T 1 .y// f .T 1 .y//
g.y/ D G 0 .y/ D 0 1 D 0 1 :
T .T .y// T .T .y//
Da die Verteilung von Y als Wahrscheinlichkeitsmaß auf der -
Algebra der Borel-Mengen des Rs durch Der zweite Fall ergibt sich analog. 

P .Y 2 B/ D P .X 2 T 1 .B//; B 2 Bs ; Selbstfrage 4
Können Sie den Beweis für fallendes T selbstständig zu Ende
gegeben ist, kann sich die Frage nur darauf beziehen, ob man führen?
diese Verteilung einfach beschreiben kann, etwa über die Ver-
teilungsfunktion oder eine Dichte.
Kommentar Sie sollten die Dichte g nach der in c) angege-
Wir stellen jetzt drei Methoden vor, mit denen man dieses benen Formel nicht nur durch formales Differenzieren herleiten
Problem angehen kann. Diese grundsätzlichen Vorgehenswei- können, sondern damit auch eine intuitive Vorstellung verbin-
sen können schlagwortartig als den. Nach (5.8) mit x anstelle von t gilt ja für jede Stetigkeits-
„Methode Verteilungsfunktion“, stelle x von f die Approximation
„Methode Transformationssatz (Trafosatz)“ und f .x/ P .x  X  x C /
„Methode Ergänzen, Trafosatz und Marginalverteilung“
bei kleinem positiven (siehe auch Abb. 5.7). Eine streng mo-
bezeichnet werden. noton wachsende Transformation T bildet das Intervall Œx; x C
Bei der Methode Verteilungsfunktion geht es darum, direkt aus  auf das Intervall ŒT .x/; T .x C / ab, das seinerseits mit
der Verteilungsfunktion von X diejenige von Y zu erhalten. Wir y WD T .x/ und der Differenzierbarkeitsvoraussetzung durch
haben hier bewusst keinen Fettdruck verwendet, weil diese Me- das Intervall Œy; y C T 0 .x/  approximiert wird. Aus einem
thode fast ausschließlich im Fall k D s D 1 angewendet wird. kleinen Intervall der Länge ist also eines der approximativen
Länge T 0 .x/ geworden. Wegen
P .y  Y  T 0 .x/ / P .x  X  x C /
Satz (Methode Verteilungsfunktion, k D s D 1) g.y/
Kapitel 5

T 0 .x/ T 0 .x/
Es sei X eine Zufallsvariable mit Verteilungsfunktion F f .x/ f .x/ f .T 1 .y//
und einer bis auf endlich viele Stellen stetigen Dichte f , 0 D 0 D 0 1
T .x/ T .x/ T .T .y//
wobei P .X 2 O/ D 1 für ein offenes Intervall O. Die
Restriktion der Abbildung T W R ! R auf O sei stetig „muss“ die in c) angegebene Darstellung für die Dichte von Y
differenzierbar und streng monoton mit T 0 .x/ ¤ 0; x 2 gelten. Ist T fallend, so wird aus Œx; x C  das Intervall ŒT .x C
O. Bezeichnen T 1 W T .O/ ! O die Inverse von T auf /; T .x/. Dieses wird durch das Intervall Œy C T 0 .x/ ; y mit
T .O/ und G die Verteilungsfunktion von Y WD T .X /, so der Länge jT 0 .x/j approximiert. J
gelten:
Beispiel (Lokations-Skalen-Familien) Wir betrachten für
a) Ist T streng monoton wachsend, so ist
;  2 R mit  > 0 die affine Abbildung
G.y/ D F .T 1 .y//; y 2 T .O/: T .x/ WD x C ; x 2 R: (5.18)

b) Ist T streng monoton fallend, so ist Besitzt die Zufallsvariable X die Dichte f , so ist nach Teil c)
des obigen Satzes die Dichte von Y WD X C  durch
G.y/ D 1  F .T 1 .y//; y 2 T .O/: 1 y  
g.y/ D  f ; y 2 R;
 
5.2 Transformationen von Verteilungen 137

gegeben. Die obige Zuordnung T wird auch als Lokations- f (x) F (x)
Skalen-Transformation bezeichnet, weil  eine Verschiebung 1
Wendepunkte 1

und  eine Skalenänderung bewirken. Die Bedeutung der Trans- σ 2π
formation (5.18) im Hinblick auf Anwendungen ist immens,
erlaubt sie doch, aus einer gegebenen Verteilung eine ganze
Klasse von Verteilungen zu generieren, die durch zwei Parame- 0.5
ter, nämlich  und , charakterisiert ist. Ist X0 eine Zufallsva-
riable mit Verteilungsfunktion F0 und Dichte f0 , so heißt die
Menge der Verteilungsfunktionen
n    ˇ o x
ˇ μ−σ μ μ+σ x μ
F; ./ D F0 ˇ  2 R;  > 0 (5.19)

Abb. 5.13 Dichte (links) und Verteilungsfunktion (rechts) der Normal-
die von F0 erzeugte Lokations-Skalen-Familie. Die zugehörigen
verteilung N.;  2 /
Dichten sind
n 1      ˇˇ o
f; ./ D f0 ˇ  2 R;  > 0 : Es ist üblich, die Verteilungsfunktion der Standardnormalvertei-
 
lung mit
Eine Lokations-Skalen-Familie, die von der Verteilung von X0
erzeugt wird, besteht also aus den Verteilungen aller Zufallsva- Zx  2
1 t
riablen X WD X0 C  mit  2 R und  > 0. J ˚.x/ WD p exp  dt ; x 2 R; (5.20)
2 2
1

Ist X0 standardnormalverteilt, so hat  X0 C  zu bezeichnen. Da die Funktion x 7! exp.x 2 =2/ nicht elemen-
tar integrierbar ist, gibt es für ˚ keine in geschlossener Form
die Normalverteilung N.;  2 / angebbare Stammfunktion, wenn man von einer Potenzreihe ab-
sieht (s. Aufgabe 5.15). In Tab. 5.1 sind Werte für ˚ angegeben.
Wählen wir im obigen Beispiel als erzeugende Verteilung spezi-
Wegen der Symmetrie der Standardnormalverteilungsdichte '
ell die Standardnormalverteilung N.0; 1/ mit der in (5.4) ange-
um 0 ist der Graph der Funktion ˚ punktsymmetrisch zu
gebenen Dichte ', so ergibt sich als Lokations-Skalen-Familie
.0; 1=2/ (siehe Abb. 5.14). Diese Eigenschaft spiegelt sich in
die Menge aller (eindimensionalen) Normalverteilungen im Sin-
der Gleichung
ne der folgenden Definition.
˚.x/ D 1  ˚.x/; x 2 R; (5.21)
Definition der Normalverteilung
wider. Insbesondere erhält man aus Tab. 5.1 damit auch Werte
Die Zufallsvariable X hat eine Normalverteilung mit Pa- ˚.x/ für negatives x, also z. B. ˚.1/ D 1  ˚.1/ D 1 
rametern  und  2 (kurz: X N.;  2 //, falls X die 0:8413 D 0:1587.
durch
Nach der Erzeugungsweise der Normalverteilung N.;  2 /
  aus der Standardnormalverteilung N.0; 1/ über die Lokations-
1 .x  /2
f .x/ WD p exp  ; x 2 R; Skalen-Transformation
 2 2 2

Kapitel 5
gegebene Dichte f besitzt. X0 N.0; 1/ H) X WD X0 C  N.;  2 / (5.22)

1
Kommentar Es ist allgemein üblich, den zweiten Parameter
der Normalverteilung N.;  2 / als  2 (und nicht als ) zu wäh- Φ(x)
len. Wir werden später sehen, dass  der Erwartungswert und
 2 die Varianz dieser Verteilung sind. J
0.5
Abb. 5.13 zeigt die Dichte (links) und die Verteilungsfunktion
(rechts) der Normalverteilung N.;  2 /. Eine einfache Kurven-
diskussion ergibt, dass die Dichte symmetrisch um x D  ist
und an den Stellen  C  und    Wendepunkte besitzt. x
−3 0 3

Selbstfrage 5
Warum sind an den Stellen  ˙  Wendepunkte? Abb. 5.14 Graph der Verteilungsfunktion ˚ der Standardnormalvertei-
lung N.0; 1/
138 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Tab. 5.1 Verteilungsfunktion ˚ der Standardnormalverteilung (für lässt sich die Verteilungsfunktion der Normalverteilung
x < 0 verwende man die Beziehung (5.21)) N.;  2 / mithilfe von ˚ ausdrücken, denn es ist
x ˚.x/ x ˚.x/ x ˚.x/  x  
0.00 0.5000 1.00 0.8413 2.00 0.9772 P .X  x/ D P .X0 C   x/ D P X0 
x   
0.02 0.5080 1.02 0.8461 2.02 0.9783
D˚ (5.23)
0.04 0.5160 1.04 0.8508 2.04 0.9793 
0.06 0.5239 1.06 0.8554 2.06 0.9803
(siehe (5.19)).
0.08 0.5319 1.08 0.8599 2.08 0.9812
0.10 0.5398 1.10 0.8643 2.10 0.9821 Selbstfrage 6
0.12 0.5478 1.12 0.8686 2.12 0.9830 Wie groß ist die Wahrscheinlichkeit P .2  X  5/, wenn X
0.14 0.5557 1.14 0.8729 2.14 0.9838 die Normalverteilung N.4; 4/ besitzt?
0.16 0.5636 1.16 0.8770 2.16 0.9846
0.18 0.5714 1.18 0.8810 2.18 0.9854
0.20 0.5793 1.20 0.8849 2.20 0.9861 Wir werden der Normalverteilung noch an verschiedenen Stel-
0.22 0.5871 1.22 0.8888 2.22 0.9868
len begegnen und uns jetzt einer weiteren wichtigen Lokations-
Skalen-Familie zuwenden. Starten wir hierzu im Beispiel einer
0.24 0.5948 1.24 0.8925 2.24 0.9875
allgemeinen Lokations-Skalen-Familie mit der Dichte f0 .x/ D
0.26 0.6026 1.26 0.8962 2.26 0.9881
1 für 0 < x < 1 und f0 .x/ WD 0 sonst, also mit einer auf .0; 1/
0.28 0.6103 1.28 0.8997 2.28 0.9887
gleichverteilten Zufallsvariablen X0 , und wenden für a; b 2 R
0.30 0.6179 1.30 0.9032 2.30 0.9893
mit a < b die Transformation
0.32 0.6255 1.32 0.9066 2.32 0.9898
0.34 0.6331 1.34 0.9099 2.34 0.9904 T .x/ WD a C .b  a/x; x 2 R; (5.24)
0.36 0.6406 1.36 0.9131 2.36 0.9909
an, so entsteht die Gleichverteilung auf .a; b/ im Sinne der fol-
0.38 0.6480 1.38 0.9162 2.38 0.9913
genden Definition.
0.40 0.6554 1.40 0.9192 2.40 0.9918
0.42 0.6628 1.42 0.9222 2.42 0.9922
0.44 0.6700 1.44 0.9251 2.44 0.9927 Definition der stetigen Gleichverteilung
0.46 0.6772 1.46 0.9279 2.46 0.9931
0.48 0.6844 1.48 0.9306 2.48 0.9934 Die Zufallsvariable X hat eine (stetige) Gleichverteilung
0.50 0.6915 1.50 0.9332 2.50 0.9938
auf dem Intervall .a; b/ (kurz: X U.a; b//, falls X die
Dichte
0.52 0.6985 1.52 0.9357 2.52 0.9941
0.54 0.7054 1.54 0.9382 2.54 0.9945 1
0.56 0.7123 1.56 0.9406 2.56 0.9948 f .x/ WD ; falls a < x < b;
ba
0.58 0.7190 1.58 0.9429 2.58 0.9951
0.60 0.7257 1.60 0.9452 2.60 0.9953 und f .x/ WD 0 sonst, besitzt.
0.62 0.7324 1.62 0.9474 2.62 0.9956
0.64 0.7389 1.64 0.9495 2.64 0.9959
0.66 0.7454 1.66 0.9515 2.66 0.9961 Die Dichte der Gleichverteilung U.a; b/ ist in Abb. 5.15 links
0.68 0.7517 1.68 0.9535 2.68 0.9963 skizziert. Das rechte Bild zeigt die durch F .x/ D 0, falls x  a,
0.70 0.7580 1.70 0.9554 2.70 0.9965 und F .x/ D 1, falls x  b, sowie
Kapitel 5

0.72 0.7642 1.72 0.9573 2.72 0.9967 xa


F .x/ D ; falls a < x < b; (5.25)
0.74 0.7703 1.74 0.9591 2.74 0.9969 ba
0.76 0.7764 1.76 0.9608 2.76 0.9971
0.78 0.7823 1.78 0.9625 2.78 0.9973
0.80 0.7881 1.80 0.9641 2.80 0.9974 f (x) F (x)

0.82 0.7939 1.82 0.9656 2.82 0.9976


0.84 0.7995 1.84 0.9671 2.84 0.9977 1
0.86 0.8051 1.86 0.9686 2.86 0.9979 1
b−a
0.88 0.8106 1.88 0.9699 2.88 0.9980
0.90 0.8159 1.90 0.9713 2.90 0.9981
0.92 0.8212 1.92 0.9726 2.92 0.9982
0.94 0.8264 1.94 0.9738 2.94 0.9984
a b x a b x
0.96 0.8315 1.96 0.9750 2.96 0.9985
0.98 0.8365 1.98 0.9761 2.98 0.9986
Abb. 5.15 Dichte und Verteilungsfunktion der Verteilung U.a; b/
5.2 Transformationen von Verteilungen 139

gegebene Verteilungsfunktion von X . Man beachte, dass die wenn der k-dimensionale Zufallsvektor X eine Dichte (bzgl. des
Gleichverteilung bereits in Abschn. 5.1 allgemein auf Borel- Borel-Lebesgue-Maßes k ) besitzt und die Transformation T
Mengen im Rk mit positivem, endlichen Borel-Lebesgue-Maß dimensionserhaltend ist, also den Rk in sich abbildet.
eingeführt wurde. Die Gleichverteilung U.a; b/ ist aber so wich-
tig, dass wir obige Definition gesondert aufgenommen haben.
Aufgrund der Transformation (5.24) und den Betrachtungen in Satz (Methode Transformationssatz, k D s > 1)
der Hintergrund-und-Ausblick-Box über den linearen Kongru- Es sei X ein k-dimensionaler Zufallsvektor mit einer
enzgenerator ist klar, wie wir z. B. eine Gleichverteilung auf Dichte f , die außerhalb einer offenen Menge O ver-
dem Intervall .4; 7/ simulieren können. Wir transformieren die schwinde; es gelte also fx j f .x/ > 0g  O. Weiter sei
erhaltenen, auf .0; 1/ gleichverteilten Pseudozufallszahlen xj T W Rk ! Rk eine Borel-messbare Abbildung, deren
einfach gemäß xj 7! 4 C 3xj . Restriktion auf O stetig differenzierbar sei, eine nirgends
Man beachte, dass die Verteilungsfunktion F mit Ausnahme der verschwindende Funktionaldeterminante besitze und O
Stellen x D a und x D b differenzierbar ist und dort die Glei- bijektiv auf T .O/  Rk abbilde. Dann ist die durch
chung f .x/ D F 0 .x/ erfüllt. Wie die Dichte f an den Stellen a (
f .T 1 .y//
und b definiert wird, ist unerheblich, da eine solche Festlegung j det T 0 .T 1 .y//j
; falls y 2 T .O/;
g.y/ WD
die Verteilung nicht beeinflusst. 0; falls y 2 Rk n T .O/;
Das folgende Beispiel zeigt, dass die Anwendung der Methode
Verteilungsfunktion auch dann zum Erfolg führen kann, wenn definierte Funktion g eine Dichte von Y WD T .X/.
die Transformation T nicht notwendig streng monoton ist (siehe
auch Aufgabe 5.3).
Dieser Satz findet sich als Transformationssatz für k -Dichten
in Abschn. 8.8. Er wird dort in maßtheoretischer Formulierung
Beispiel (Quadrat-Transformation) Es sei X eine Zu- bewiesen, ohne die Sprache von Zufallsvektoren zu verwen-
fallsvariable mit Verteilungsfunktion F und stückweise stetiger den. Ausgangspunkt ist der in Abschn. 22.3 von [1] behandelte
Dichte f . Wir betrachten die Transformation T W R ! R, Transformationssatz für Gebietsintegrale. Nach diesem Satz gilt
T .x/ WD x 2 , und damit die Zufallsvariable Y WD X 2 . Für die für jede offene Teilmenge M von T .O/
Verteilungsfunktion G von Y gilt wegen der Stetigkeit von F
die Beziehung G.y/ D P .Y  0/ D 0 für y  0 sowie für P .Y 2 M / D P .X 2 T 1 .M //
Z
y>0
D f .x/ dx
p p
G.y/ D P .X 2  y/ D P . y  X  y/ T 1 .M /
p p Z
D F . y/  F . y/: f .T 1 .y//
D dy:
j det T 0 .T 1 .y//j
Differenziation liefert dann für y > 0 M

  Mit Techniken der Maßtheorie folgert man, dass diese Glei-


0 p 1 p
g.y/ WD G .y/ D f . y/ p  f . y/
1
 p : chungskette dann auch für jede Borel-Menge M des Rk gilt.
2 y 2 y
Kommentar Wie im Fall k D 1 sollte man auch dieses Er-
Somit ist gebnis nicht nur formal beweisen, sondern sich klar machen,
dass die Dichte g von Y D T .X/ die im Transformationssatz
1  p p 

Kapitel 5
g.y/ D p f . y/ C f . y/ ; y > 0; (5.26) angegebene Gestalt „besitzen muss“. Wir betrachten hierzu ei-
2 y ne Stelle x, an der die Dichte f von X stetig ist. Ist Bx ein
x enthaltender Quader, so gilt bei kleinem k .Bx / (vgl. die
und g.y/ WD 0 sonst, eine Dichte von Y . J Hintergrund-und-Ausblick-Box in Abschn. 8.8)
P .X 2 Bx /
f .x/ :
k .Bx /
Unter einer regulären Transformation T
ergibt sich die Dichte g von Y D T .X / Unter der Transformation T geht Bx in T .Bx / über. Auf Bx
0
wird T durch die lineare Abbildung z 7! T .x/ z approximiert,
zu g.y/ D f .T 1 .y//=j det T 0 .T 1 .y//j und es gilt k .T .Bx // j det T 0 .x/j k .Bx /. Setzen wir y D
T .x/ und damit x D T 1 .y/, so gilt für die Dichte von Y an
Wir wollen es an dieser Stelle mit weiteren Beispielen zur Me- der Stelle y
thode Verteilungsfunktion bewenden lassen, möchten aber schon
jetzt darauf hinweisen, dass uns diese Methode im Zusammen- P .Y 2 T .Bx // P .X 2 Bx / k .Bx /
g.y/ D
hang mit wichtigen Verteilungen wie z. B. der Lognormalver- k
 .T .Bx // k .Bx / k .T .Bx //
teilung und der Weibull-Verteilung begegnen wird. Stattdessen 1 f .T 1 .y//
wenden wir uns der Methode Transformationssatz (kurz: Tra- f .x/ 0 D : J
fosatz) zu. Diese Methode kommt immer dann zur Geltung, j det T .x/j j det T 0 .T 1 .y//j
140 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

 >  1
Beispiel (Box-Muller-Methode) Formuliert man das Bei- so geht dieser Ausdruck wegen A1 D A> und
spiel zur Box-Muller-Methode in Abschn. 8.8, also den Fall p
j det Aj D det ˙ in
k D s D 2, O D .0; 1/2 , p f D 1O und T .x/ WD  
.T1 .x/; T2p
.x// mit T1 .x/ D 2 log x1 cos.2x2 / und 1 1 > 1
g.y/ D p exp  .y  / ˙ .y  /
T2 .x/ D 2 log x1 sin.2x2 /, x D .x1 ; x2 /, in die Sprache .2/k=2 det ˙ 2
von Zufallsvariablen um, so ergibt sich folgende Aussage:
über. Die Dichte und damit auch die Verteilung von Y hängen
Sind X1 ; X2 stochastisch unabhängige und je U.0; 1/-verteilte also von der Transformationsmatrix A nur über die in (5.27)
Zufallsvariablen, so sind die durch definierte Matrix ˙ ab. Offenbar ist ˙ symmetrisch und po-
p sitiv definit, da A invertierbar ist. Da es zu jeder vorgegebenen
Y1 WD 2 log X1 cos .2X2 / ; symmetrischen und positiv definiten Matrix ˙ eine invertierba-
p
Y2 WD 2 log X1 sin .2X2 / re Matrix A mit ˙ D AA> gibt (Cholesky-Zerlegung!), haben
wir gezeigt, dass die nachfolgende Definition – bei der wir den
definierten Zufallsvariablen Y1 , Y2 stochastisch unabhängig und Zufallsvektor als X und nicht als Y schreiben – widerspruchsfrei
je N.0; 1/-verteilt. Diese Erkenntnis kann verwendet werden, ist. Außerdem haben wir gesehen, wie man einen Zufallsvektor
um aus zwei Pseudozufallszahlen x1 ; x2 mit der Gleichvertei- mit dieser Verteilung mithilfe einer affinen Transformation er-
lung auf .0; 1/ zwei Pseudozufallszahlen y1 ; y2 mit einer Stan- zeugt.
dardnormalverteilung zu erzeugen. Aus letzteren erhält man
dann mit der affinen Transformation yj 7! yj C  (j D 1; 2)
zwei Pseudozufallszahlen mit der Normalverteilung N.;  2 /. Definition der k-dimensionalen Normalverteilung
J
Es seien  2 Rk und ˙ eine symmetrische
Wie im nächsten Beispiel ist es oft vorteilhaft, Vektoren des positiv-definite (k  k)-Matrix. Der Zufallsvektor
Rk und k-dimensionale Zufallsvektoren als Spaltenvektoren zu X D .X1 ; : : : ; Xk / hat eine (nichtausgeartete) k-
schreiben. Dies ist insbesondere dann der Fall, wenn Abbildun- dimensionale Normalverteilung mit Parametern 
gen durch Matrizen definiert werden. und ˙ , falls X die Dichte
 
1 1 > 1
Beispiel (affine Abbildung) Wir betrachten die affine Ab- f .x/ D p exp  .x  / ˙ .x  / ;
.2/k=2 det ˙ 2
bildung
T .x/ WD A x C ; x 2 Rk ; x 2 Rk , besitzt. In diesem Fall schreiben wir kurz
mit einer invertierbaren (k  k)-Matrix A und einem (Spalten-)
Vektor  2 Rk . Diese stetig differenzierbare Transformation X Nk .; ˙/:
bildet den Rk auf sich ab und besitzt die Funktionaldeterminan-
te det A. Ist X ein k-dimensionaler Zufallsvektor mit Dichte f ,
so hat der Zufallsvektor Y WD AX C b nach dem Transformati- Kommentar Es ist üblich, im Fall k  2 ohne Benennung
onssatz die Dichte der Dimension von einer mehrdimensionalen oder multivariaten
f .A1 .y  // Normalverteilung zu sprechen. Die mehrdimensionale Normal-
g.y/ D ; y 2 Rk : J
j det Aj verteilung ist die wichtigste multivariate Verteilung. Wir werden
im nächsten Abschnitt sehen, dass die j -te Komponente j des
Vektors  D .1 ; : : : ; k / gleich dem Erwartungswert von Xj
ist, und dass die Einträge ij der (k  k)-Matrix ˙ D .ij /
Die k-dimensionale Normalverteilung entsteht
Kapitel 5

die Kovarianzen Cov.Xi ; Xj / darstellen. Zudem wird sich aus


durch eine affine Transformation aus der dem Additionsgesetz für die Normalverteilung ergeben, dass
Standardnormalverteilung im Rk jede Komponente Xj normalverteilt ist. Abb. 5.16 zeigt die

Was ergibt sich, wenn wir die obige affine Transformation auf
einen k-dimensionalen Zufallsvektor X mit der Standardnor- f (x, y)
malverteilung im Rk anwenden? Schreiben wir den transponier-
ten Zeilenvektor eines Spaltenvektors x mit x > , so stellt sich die
Dichte von X in der Form
Y k   2   > 
1 xj 1 x x
f .x/ D p exp  D k=2
exp 
j D1
2 2 .2/ 2

dar. Nach dem obigen Beispiel besitzt der Zufallsvektor Y WD


y
AX C  die Dichte
 
1 1 1 > 1
g.y/ D exp  .A .y  // .A .y  // ; x
.2/k=2 jdet Aj 2
y 2 Rk . Setzen wir Abb. 5.16 Dichte der zweidimensionalen Normalverteilung mit 1 D
˙ WD A A> ; (5.27) 2 D 0 und 11 D 2:25, 12 D 1:2 und 22 D 1
5.2 Transformationen von Verteilungen 141

Unter der Lupe: Die Hauptkomponentendarstellung

Zur Struktur der k-dimensionalen Normalverteilung (i. Allg. schief liegende) rechtwinklige Koordinatensystem
der v1 ; : : : ; vk angetragen. Nach Erzeugung von k unabhän-
Die Dichte eines Nk .; ˙/-normalverteilten Zufallsvektors
gigen und p je N.0; 1/ verteilten Zufallsvariablen Y1 ; : : : ; Yk
X ist konstant auf den Mengen
trägt man j Yj in Richtung von vj auf (j D 1; : : : ; k)
fx 2 Rk j .x  /> ˙ 1 .x  / D cg; c > 0; (s. nachstehende Abbildung).

also auf Ellipsoiden mit Zentrum . Als symmetrische und •



positiv definite Matrix besitzt ˙ ein vollständiges Sys- λ1 Y1

λ2 Y2
tem v1 ; : : : ; vk von normierten und paarweise orthogona-
len Eigenvektoren mit zugehörigen positiven Eigenwerten v2

1 ; : : : ; k . Es gilt also μ2 •
v1

˙ vj D j vj ; j D 1; : : : ; k; (5.28)
μ1
sowie v> >
i vj D 1 für i D j und vi vj D 0 sonst. Bezeichnen
V D .v1 ; : : : ; vk / die orthonormale Matrix der Eigenvek-
toren und WD diag.1 ; : : : ; k / die Diagonalmatrix der Wegen ˙ 1 D V 1 V > folgt
Eigenwerte von ˙, so können wir die Gleichungen (5.28)  >  
in der kompakten Form .x  /> ˙ 1 .x  / D V > .x  / 1 V > .x  /
X
k
zj2
˙V DV D ;
j D1
j
> 1
schreiben. Wegen V D V ist diese Gleichung nach
Rechtsmultiplikation mit V > äquivalent zu wobei
˙ D V V >: zj D vj> .x  /; j D 1; : : : ; n:
p p
Mit 1=2 WD diag. 1 ; : : : ; k / und A WD V 1=2 , gilt Somit ist die Menge fx 2 Rk W .x  /> ˙ 1 .x  / D 1g
>
dann ˙ D A A . Sind Y1 ; : : : ; Yk stochastisch unabhän- ein Ellipsoid in Rk mit Zentrum  und Hauptachsen in Rich-
gig und je standardnormalverteilt, und setzen wir Y WD tung von vp1 ; : : : ; vk . Die Länge der Hauptachse in Richtung
.Y1 ; : : : ; Yk /> , so besitzt nach den vor der Definition der von vj ist j , 1  j  k.
k-dimensionalen Normalverteilung angestellten Betrachtun-
gen der Zufallsvektor AY C  die gleiche Verteilung wie X.
Wegen A D V 1=2 gilt also die sog. Hauptkomponentendar-

stellung
λ2

p p √
λ1
μ2 •
X V 1=2 Y C  D 1 Y1 v1 C : : : C k Yk vk C :
Diese Erzeugungsweise der Normalverteilung Nk .; ˙/
μ1
lässt sich leicht veranschaulichen: Im Punkt  2 Rk wird das

Kapitel 5
Dichte der zweidimensionalen Normalverteilung mit Parame- zeichnung verbirgt sich eine Vorgehensweise, die im Fall einer
tern 1 D 2 D 0 und 11 D 2:25, 12 D 1:2 sowie 22 D 1. Abbildung T W Rk ! Rs mit s < k, also einer dimensionsredu-
Die Höhenlinien der Dichte einer k-dimensionalen Normalver- zierenden Transformation, gewinnbringend eingesetzt werden
teilung sind Ellipsoide, deren Lage und Gestalt von  und ˙ kann.
abhängt (siehe die Unter-der-Lupe-Box über die Hauptkompo-
nentendarstellung). J Ist es nämlich möglich, die Abbildung T D .T1 ; : : : ; Ts / durch
Hinzunahme geeigneter Funktionen Tj W Rk ! R für j D
s C 1; : : : ; k so zu einer durch

Die Methode „Ergänzen, Trafosatz und e


T .x/ WD .T1 .x/; : : : ; Ts .x/; TsC1 .x/; : : : ; Tk .x//
Marginalverteilung“ funktioniert bei
dimensionsreduzierenden Transformationen definierten Abbildung T e W Rk ! Rk zu ergänzen, dass
e die Voraussetzungen des Transformationssatzes erfüllt
für T
Wir wenden uns nun der Methode Ergänzen, Trafosatz und sind, so ist man ein gutes Stück weiter. Durch Anwendung des
Marginalverteilung zu. Hinter dieser schlagwortartigen Be- Transformationssatzes erhält man ja mit X D .X1 ; : : : ; Xk /
142 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

und Z D .TsC1 .X/; : : : ; Tk .X// zunächst die Dichte e


g des k- Beispiel Es seien X1 und X2 stochastisch unabhängig und je
dimensionalen Zufallsvektors im Intervall .0; 1/ gleichverteilt. In diesem Fall besitzen X1 und
X2 die gleiche Dichte fX1 D fX2 D 1.0;1/, und die Faltungsfor-
e e.X/ DW .Y; Z/:
Y WD T mel liefert
Da der interessierende Zufallsvektor Y gerade aus den ersten s Z1
Komponenten von e Y besteht, integriert man die Dichte e
g nach fX1 CX2 .t / D 1.0;1/.s/1.0;1/.t  s/ ds:
dem Rezept zur Bildung der Marginalverteilung und erhält so- 1
mit die Dichte g von Y D T .X/ zu
Da das Produkt dieser Indikatorfunktionen genau dann von null
Z1 Z1 verschieden und damit gleich eins ist, wenn die Ungleichungen
g.y/ D  e
g .y1 ; : : : ; ys ; ysC1 ; : : : ; yk / dysC1    dyk ; 0 < s < 1 und 0 < t  s < 1 erfüllt sind, nimmt die obige
1 1 Gleichung die Gestalt

y D .y1 ; : : : ; ys / 2 Rs . Z /
min.1;t

Als Beispiel für die Methode Ergänzen, Trafosatz und Margi- fX1 CX2 .t / D 1 ds; 0 < t < 2;
nalverteilung betrachten wir die durch T .x/ WD x1 C x2 , x D max.0;t 1/
.x1 ; x2 / 2 R2 , definierte Summen-Abbildung T W R2 ! R. Um
e W R2 ! R2 zu erhalten, kann man als er- an. Außerdem ist fX1 CX2 .t / D 0, falls t  0 oder t  2. Im Fall
eine Transformation T
0 < t  1 folgt aus obiger Gleichung fX1 CX2 .t / D t , im Fall
gänzende Komponenten-Abbildung T2 W R2 ! R, T2 .x/ WD x1 ,
1 < t < 2 ergibt sich fX1 CX2 .t / D 2  t . Die Summe X1 C X2
wählen, denn dann ist
besitzt also die in Abb. 5.1 dargestellte Dreiecksverteilung auf
! ! !
1 1 x x C x dem Intervall .0; 2/. J
e.x1 ; x2 / D
T >

1
D
1 2
1 0 x2 x1 Mit der Faltungsformel erhält man das folgende wichtige Re-
sultat, dass durch Induktion auch für mehr als zwei Zufallsva-
e
eine lineare Abbildung mit invertierbarer Matrix, sodass für T riablen gültig bleibt.
die Voraussetzungen des Transformationssatzes erfüllt sind. Be-
sitzt X D .X1 ; X2 / die Dichte f , so hat Te.X/ D .X1 C
X2 ; X1 / nach dem Transformationssatz unter Beachtung von Additionsgesetz für die Normalverteilung
e0 .x/j D 1 die Dichte
j det T
Es seien X und Y unabhängige Zufallsvariablen, wobei
e e1 .y1 ; y2 // D f .y2 ; y1  y2 /:
g .y1 ; y2 / D f .T X N.;  2 / und Y N.;  2 / mit ;  2 R und  2 >
0,  2 > 0. Dann gilt
Bildet man jetzt die Marginalverteilung von X1 C X2 , integriert
man also über y2 , so ergibt sich die Dichte von X1 C X2 zu X C Y N. C ;  2 C  2 /:
Z1
g.y1 / D f .y2 ; y1  y2 / dy2 :
1 Beweis Nach (5.22) können wir ohne Beschränkung der
Allgemeinheit  D  D 0 annehmen. Setzt man in die Fal-
Für den Spezialfall, dass X1 und X2 unabhängig sind, verwen- tungsformel die Dichten von X und Y ein und zieht Konstanten
den wir eine andere Notation und schreiben die Zufallsvariable vor das Integral, so folgt
als Index an die Dichte. Aus obiger Gleichung ergibt sich
Kapitel 5

dann als „stetiges Analogon“ der diskreten Faltungsformel aus Z1 



1 1 s2 .t  s/2
Abschn. 4.1 das nachstehende Resultat. fX CY .t / D exp  C ds:
2 2 2 2
1

Die Faltungsformel für Dichten Führt man die Substitution


p
Es seien X1 und X2 stochastisch unabhängige Zufallsva- 2 C 2 t
zDs  p
riablen mit Dichten fX1 bzw. fX2 . Dann besitzt X1 C X2   2 C 2
die Dichte p
durch, so ist ds D =  2 C  2 dz, und da die geschweifte
Z1 Klammer in obigem Integral zu z 2 C t 2 =. 2 C  2 / wird, ergibt
fX1 CX2 .t / D fX1 .s/ fX2 .t  s/ ds; t 2 R: (5.29) sich nach Kürzen durch 
1   Z1
1 t2 2
fX CY .t / D p exp  2 C  2/
ez =2 dz
2
2  C  2 2.
1
Das nächste Beispiel zeigt, dass bei Anwendung der Faltungs-  
1 t2
formel die Positivitätsbereiche der beteiligten Dichten beachtet D p exp  : 
werden müssen. 2. 2 C  2 / 2. 2 C  2 /
5.2 Transformationen von Verteilungen 143

Aus diesem Additionsgesetz ergibt sich ohne formale Bildung ergänzen wir durch die Komponente x 7! x2 zu der Transfor-
der Marginalverteilung durch Integration der gemeinsamen mation Te.x/ WD .T .x/; x2 /, x 2 R2 . Diese bildet die offene
Dichte über die nicht interessierenden Koordinaten, dass die Menge O WD f.x1 ; x2 / 2 R2 j x2 ¤ 0g eineindeutig auf sich
Komponenten eines multivariat normalverteilten Zufallsvektors selbst ab, und sie besitzt die Funktionaldeterminante
eindimensional normalverteilt sind. In der Beispiel-Box über !
marginale und bedingte Verteilungen bei multivariater Normal- 1
 xx12 1
verteilung in Abschn. 5.6 werden wir allgemeiner zeigen, dass e 0
T .x1 ; x2 / D det x2 2 D ¤ 0; x 2 O:
0 1 x2
auch die gemeinsamen Verteilungen irgendwelcher Komponen-
ten von X multivariate Normalverteilungen sind.
Nach dem Transformationssatz hat Y e WD T e.X1 ; X2 / D
.T .X1 ; X2 /; X2 / auf O und damit – da 2 .N / D 0 gilt – auf
Folgerung Der Zufallsvektor X D .X1 ; : : : ; Xk / besitze
ganz R2 die Dichte e g .y1 ; y2 / D f .y1 y2 ; y2 /jy2 j: Durch Inte-
die k-dimensionale Normalverteilung Nk .; ˙/, wobei  D
gration bzgl. y2 ergibt sich die Dichte von Y D X1 =X2 zu
.1 ; : : : ; k /> , ˙ D .ij /1i ;j k . Dann gilt
Xj N.j ; jj /; j D 1; : : : ; k: J Z1
g.y/ D f .ys; s/ jsj ds (5.30)
Beweis Wir nutzen die Verteilungsgleichheit X AY C  1
mit ˙ D A A> und Y D .Y1 ; : : : ; Yk /> aus. Dabei sind R1
Y1 ; : : : ; Yk unabhängige und je N.0; 1/-normalverteilte Zufalls- und damit zu 1 fX1 .ys/fX2 .s/jsj ds, wenn X1 und X2 unab-
variablen. Mit A D .aij /1i ;j k folgt dann hängig sind und die Dichten fX1 bzw. fX2 besitzen. In gleicher
Weise können die Dichten von X1  X2 und X1  X2 erhalten
X
k
werden. Man beachte dass Teil a) leicht aus der Faltungsformel
Xj aj ` Y` C j :
folgt, denn die Dichte von X2 ist fX2 .s/ D fX2 .s/. 
`D1

Es gilt Z` WD aj ` Y` N.0; aj2` /, und die Zufallsvariablen


Z1 ; : : : ; Zk sind stochastisch unabhängig. Nach dem Additions- Beispiel (Die Cauchy-Verteilung C.0; 1/) Sind X1 und
gesetz für die Normalverteilung ergibt sich X2 stochastisch unabhängig und je N.0; 1/-normalverteilt, so er-
! gibt sich die Dichte f WD fX1 =X2 des Quotienten X1 =X2 nach
Xk
Teil c) des obigen Satzes zu
2
Xj N j ; aj ` :
`D1 Z1  
Pk 1 .t 2 C 1/s 2
>
Wegen ˙ D A A folgt jj D 2
 f .t / D exp  jsj ds
`D1 aj ` . 2 2
1
Mithilfe der Methode Ergänzen, Trafosatz und Marginalvertei- Z1  
lung ergeben sich folgende Regeln für die Dichte der Differenz, 1 .t 2 C 1/s 2
D s exp  ds
des Produktes und des Quotienten von unabhängigen Zufallsva-  2
0
riablen:  1
1 .t 2 C 1/s 2
D exp 
.1 C t 2 / 2 0
Dichte von Differenz, Produkt und Quotient 1
D ; t 2 R:
Sind X1 ; X2 unabhängige Zufallsvariablen mit den Dich- .1 C t 2 /

Kapitel 5
ten fX1 bzw. fX2 , so gelten:
R1 Der Graph von f ist symmetrisch zur Ordinate und wie die
a) fX1 X2 .t / D 1 fX1 .t C s/ fX2 .s/ ds,
R1   Dichte ' der Standardnormalverteilung glockenförmig. Die
b) fX1 X2 .t / D 1 fX1 st fX2 .s/ jsj 1
ds, Dichte f fällt aber für t ! ˙1 im Vergleich zu ' wesentlich
R1
c) fX1 =X2 .t / D 1 fX1 .t s/ fX2 .s/ jsj ds; t 2 R. langsamer ab (Abb. 5.17).

Beweis Wir zeigen exemplarisch Teil c) und nehmen zu-


nächst nur an, dass der Zufallsvektor .X1 ; X2 / eine 2 -Dichte
f .x1 ; x2 / besitze. Den Quotienten Y WD X1 =X2 definieren wir
als 0, wenn X2 D 0 gilt, was mit Wahrscheinlichkeit null pas- 0.2
siert. Um die Voraussetzungen des Transformationssatzes zu
erfüllen, setzen wir f auf der 2 -Nullmenge N WD fx WD
.x1 ; x2 / 2 R2 j x2 D 0g gleich 0. Die Abbildung −3 −2 −1 0 1 2 3 x
(
x1
; falls x2 ¤ 0;
T .x/ WD x2 Abb. 5.17 Dichte der Cauchy-Verteilung C.0; 1/ (blau) und Dichte der
0 sonst,
Standardnormalverteilung (rot)
144 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Die Verteilung mit der Dichte f heißt Cauchy-Verteilung Folgerung c) aus dem Satz über Erzeuger und Messbarkeit
C.0; 1/. Sie entsteht allgemeiner als Verteilung des Quotienten in Abschn. 8.4) ergibt sich aus der für jedes t 2 R geltenden
X1 =X2 zweier Zufallsvariablen mit einer rotationsinvarianten Ereignis-Gleichheit
gemeinsamen Dichte (Aufgabe 5.21). Dass der Quotient zwei- X n

er unabhängiger standardnormalverteilter Zufallsvariablen die fXrWn  t g D 1fXj > t g  n  r (5.31)


obige Dichte besitzt, ergibt sich auch direkt mit der Box-Muller- j D1
Methode (Aufgabe 5.22). J
zusammen mit Teil a) der oben genannten P Folgerung und der
.A; B/-Messbarkeit der Abbildung jnD1 1fXj > t g. Um
Selbstfrage 7
(5.31) einzusehen, mache man sich klar, dass für jedes ! 2
Können Sie die Verteilungsfunktion der Cauchy-Verteilung
˝ die Ungleichung XrWn .!/  t zur Aussage „mindestens
C.0; 1/ angeben?
r der Werte X1 .!/; : : : ; Xn .!/ sind kleiner oder gleich t “
und somit zu „höchstens n  r der Werte X1 .!/; : : : ; Xn .!/
sind größer als t “ äquivalent ist. (5.31) ist auch der Schlüs-
Die Verteilung einer Ordnungsstatistik hängt sel zur Bestimmung der Verteilungsfunktion von XrWn . Hier
betrachten wir den Spezialfall, dass X1 ; : : : ; Xn stochastisch
mit der Binomialverteilung zusammen unabhängig und identisch verteilt sind. J
Wir möchten diesen Abschnitt mit Ordnungsstatistiken und de-
ren Verteilungen beschließen. Ordnungsstatistiken entstehen, Verteilung der r-ten Ordnungsstatistik
wenn die Realisierungen von Zufallsvariablen nach aufsteigen-
der Größe sortiert werden. Es bezeichne hierzu To W Rn ! Rn Die Zufallsvariablen X1 ; : : : ; Xn seien unabhängig und
diejenige Abbildung, die bei Anwendung auf einen Vektor x D identisch verteilt mit Verteilungsfunktion F . Bezeichnet
.x1 ; : : : ; xn / dessen Komponenten x1 ; : : : ; xn nach aufsteigen- Gr;n die Verteilungsfunktion von XrWn , so gilt
der Größe sortiert. Für y D To .x/ D .y1 ; : : : ; yn / gilt also !
X
nr
n
y1  y2      yn , und .y1 ; : : : ; yn / ist eine i. Allg. nicht ein- Gr;n .t / D .1  F .t //j F .t /nj ; t 2 R:
deutig bestimmte Permutation von .x1 ; : : : ; xn /. Beispielweise j D0
j
ist To ..2:7; 1:3; 0; 1:3// D .1:3; 1:3; 0; 2:7/.
Besitzt X1 die 1 -Dichte f , so hat XrWn die 1 -Dichte
!
Geordnete Stichprobe, Ordnungsstatistiken
n1
gr;n .t / D n F .t /r1 .1  F .t //nr f .t /; t 2 R:
Ist X D .X1 ; : : : ; Xn / ein n-dimensionaler Zufallsvektor r 1
auf einem Wahrscheinlichkeitsraum .˝; A; P /, so heißt
der Zufallsvektor
˚ 
.X1Wn ; X2Wn ; : : : ; XnWn / WD To .X/ Beweis Da die Ereignisse Aj WD Xj > t , j D 1; : : : ; n;
stochastisch unabhängig sind und die gleiche Wahrscheinlich-
die geordnete Stichprobe von X1 ; : : : ; Xn . Die Zufallsva- keit P .Aj / D 1  F .t / besitzen, hat die Indikatorsumme
P n
riable XrWn heißt r-te Ordnungsstatistik, r D 1; : : : ; n. j D1 1fAj g die Binomialverteilung Bin.n; 1  F .t //. Wegen
Gr;n .t / D P .XrWn  t / folgt somit die erste Aussage aus
(5.31). Die zweite ergibt sich hieraus durch Differenziation der
Kommentar rechten Summe nach t , wenn man beachtet, dass von der nach
Kapitel 5

Anwendung der Produktregel auftretenden Differenz nach einer


Spezielle Ordnungsstatistiken sind das Maximum Index-Verschiebung nur ein Term übrig bleibt. 
XnWn D max.X1 ; : : : ; Xn / Man kann die Dichte von XrWn auch auf anderem Wege als
und das Minimum Grenzwert des Quotienten P .t  XrWn  t C "/=" für " # 0
herleiten (Aufgabe 5.4). Bevor wir ein Beispiel geben, sollen
X1Wn D min.X1 ; : : : ; Xn / die Spezialfälle r D n und r D 1 gesondert hervorgehoben
von X1 ; : : : ; Xn . werden.
Die Doppelindizierung mit r und n bei XrWn soll betonen,
dass es die Komponenten eines n-dimensionalen Zufallsvek- Folgerung Sind X1 ; : : : ; Xn unabhängige Zufallsvariablen
tors sind, die der Größe nach sortiert werden. Wird hierauf mit gleicher Verteilungsfunktion F , so gelten:
 
kein Wert gelegt, weil n aus dem Zusammenhang feststeht,
ist auch die Schreibweise P max Xj  t D F .t /n ; t 2 R;
j D1;:::;n
 
.X.1/ ; X.2/ ; : : : ; X.n/ /
P min Xj  t D 1  .1  F .t //n ; t 2 R:
j D1;:::;n
für die geordnete Stichprobe üblich.
Die .A; B/-Messbarkeit der Abbildung XrWn für festes r (und Eine Verallgemeinerung dieser Aussagen findet sich in Aufga-
folglich die .A; Bn /-Messbarkeit der Abbildung To .X/ nach be 5.5. J
5.3 Kenngrößen von Verteilungen 145

5
Maß-Integrals. Wer damit (noch) nicht vertraut ist, sollte in der
r=1 r=5 nachfolgenden Definition ein formales „Integral-Analogon“ von
(5.32) sehen.
4

r=2 r=4
3
r=3 Definition des Erwartungswertes (allgemeiner Fall)
2 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und X W
˝ ! R eine Zufallsvariable. Der Erwartungswert von X
1 existiert, falls gilt:
Z
0 t jX j dP < 1: (5.34)
0 0.2 0.4 0.6 0.8 1.0
˝
Abb. 5.18 Dichte grW5 der r-ten Ordnungsstatistik von 5 in .0; 1/
gleichverteilten Zufallsvariablen In diesem Fall heißt
Z
E.X / WD X dP (5.35)
Beispiel (Gleichverteilung U.0; 1/) Besitzen X1 ; : : : ; Xn
˝
die Gleichverteilung U.0; 1/, so hat die r-te Ordnungsstatistik
XrWn die Dichte der Erwartungswert von X .

grWn .t / D t k1 .1  t /nk ; 0  t  1;
.k  1/Š.n  k/Š
Die wichtigste Botschaft dieser Definition ist, dass die nachste-
und grWn .t / D 0 sonst. Abb. 5.18 zeigt die Graphen dieser Dich- henden, im Fall eines diskreten Wahrscheinlichkeitsraums for-
ten für den Fall n D 5. Es handelt sich hierbei um Spezialfälle mulierten und bewiesenen Eigenschaften der Erwartungswert-
der in Aufgabe 5.33 behandelten Betaverteilung. J bildung unverändert gültig bleiben, sind sie doch ein Spezialfall
der in Abschn. 8.5 aufgeführten Eigenschaften integrierbarer
Funktionen.
5.3 Kenngrößen von Verteilungen
In diesem Abschnitt behandeln wir die wichtigsten Kenngrößen Eigenschaften der Erwartungswertbildung
von Verteilungen. Hierzu zählen Erwartungswert und Varianz,
höhere Momente sowie Quantile. Für Zufallsvektoren kommen Es seien X und Y R-wertige Zufallsvariablen auf
die Begriffe Kovarianz, Korrelation und Kovarianzmatrix hinzu. .˝; A; P / mit existierenden Erwartungswerten und a 2
Wir beginnen mit Erwartungswerten und den davon abgeleiteten R. Dann existieren auch die Erwartungswerte von X C Y
Begriffen Varianz, Kovarianz und Korrelation, die alle bereits im und aX , und es gelten:
Kapitel über diskrete Verteilungen auftraten. a) E.aX / D aEX (Homogenität),
Sind .˝; A; P / ein diskreter Wahrscheinlichkeitsraum und X b) E.X C Y / D EX C EY (Additivität),
eine auf ˝ definierte Zufallsvariable, so wurde der Erwartungs- c) E .1A / D P .A/; A 2 A,
d) aus X  Y folgt EX  EY (Monotonie),
wert von X als X
e) jE.X /j  EjX j (Dreiecksungleichung).

Kapitel 5
E.X / WD X .!/ P .f!g/ (5.32)
!2˝0

definiert. Dabei ist ˝0 eine abzählbare Teilmenge von ˝ mit


Wer bereits Kap. 8 gelesen hat, findet in (5.35) undRobigen Ei-
P .˝0/ D 1, und die obige (im Fall j˝0 j D 1) unendliche
Reihe wird als absolut konvergent vorausgesetzt. Durch Zu-
genschaften mathematisch nichtsR Neues, ist doch X dP ein
Spezialfall des Maß-Integrals f d mit X D f und PR D .
sammenfassen nach gleichen Werten von X erhielten wir die
Für alle anderen rekapitulieren wir kurz die zum Integral X dP
Darstellungsformel X führende und in Abschn. 8.5 allgemeiner dargelegte Vorgehens-
E.X / D x P .X D x/; (5.33) weise.
x2RWP .X Dx/>0 R
Das Integral X dP wird für eine Indikatorfunktion 1A mit A 2
und die Eigenschaften der Erwartungswertbildung wie etwa Li- R Pk
A als 1A dP WD P .A/ erklärt. Ist X D j D1 aj 1fAj g (aj 
nearität und Monotonie ermöglichten oft, Erwartungswerte zu
0; Aj 2 A) eine nichtnegative Zufallsvariable, die endlich viele
bestimmen, ohne die mit (5.33) einhergehenden Berechnungen
Werte annimmt, so definiert man
durchführen zu müssen.
Z X
Die Verallgemeinerung der Definition (5.32) für beliebige R- n

wertige Zufallsvariablen auf einem beliebigen Wahrscheinlich- X dP WD aj P .Aj /: (5.36)


keitsraum ist ein Spezialfall des in Abschn. 8.5 eingeführten j D1
146 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Man setzt also das für Indikatorfunktionen eingeführte Integral


„linear fort“. Ist X eine Œ0; 1-wertige Zufallsvariable, so gibt Markov-Ungleichung
es eine Folge .Xn /n1 von nichtnegativen reellen Zufallsvaria-
blen Xn mit jeweils endlichem Wertebereich, die punktweise Für jede Zufallsvariable X W ˝ ! R und jedes " > 0 gilt
von unten gegen X konvergiert, nämlich
E jX j

P .jX j  "/  :
X
n2 n 1
j j j C1 "
Xn D 1 n X < C n  1fX  ng:
j D0
2n 2 2n
Man beachte, dass diese Ungleichung unmittelbar aus der ele-
Da Xn auf X 1 .Œj =2n ; .j C 1/=2n // den Wert j =2n mit der
mentweise auf ˝ geltenden Abschätzung
Wahrscheinlichkeit P .j =2n  X < .j C 1/=2n/ sowie den
Wert n mit der Wahrscheinlichkeit P .X  n/ annimmt, folgt jX .!/j
mit (5.36) 1fjX .!/j  "g  ; ! 2 ˝;
"
Z X
n2 n 1  
j j j C1 folgt, wenn man auf beiden Seiten den Erwartungswert bildet.
Xn dP D P X < C nP .X  n/:
j D0
2n 2n 2n Lässt man " gegen unendlich streben, so ergibt sich auch, dass
die Existenz des Erwartungswertes, also E jX j < 1, notwendi-
Man definiert dann gerweise P .jX j D 1/ D 0 nach sich zieht, was man kompakt
Z Z auch durch
E.X / WD X dP WD lim Xn dP : (5.37)
n!1
E jX j < 1 H) P .jX j < 1/ D 1
Schließlich löst man sich von der Bedingung X  0, indem eine
beliebige Zufallsvariable X gemäß X D X C X  als Differenz ausdrücken kann. Sollte eine Zufallsvariable X also auch die
ihres Positivteils X C D max.X ; 0/ und ihres Negativteils X  D Werte 1 und 1 annehmen können, so geschieht dies nur
max.X ; 0/ geschrieben wird. Wohingegen in (5.37) E.X / D mit der Wahrscheinlichkeit 0, sofern der Erwartungswert von
1 gelten kann, fordert man E.X C / < 1 und E.X  / < 1 und X existiert.
setzt (nur) dann
Wir möchten an dieser Stelle noch eine nützliche Ungleichung
Z
angeben, die nach dem Telefoningenieur und mathematischen
E.X / WD X dP WD E.X C /  E.X  /: Autodidakten Johann Ludvig Valdemar Jensen (1859–1925) be-
nannt ist und erinnern in diesem Zusammenhang an folgenden,
Natürlich muss bei diesem Aufbau beachtet werden, dass alle in [1], Abschn. 15.4 behandelten Begriff. Eine auf einem Inter-
Definitionen widerspruchsfrei sind. vall M  R definierte reelle Funktion g heißt konvex, falls für
jede Wahl von x; y 2 M und jedes  2 Œ0; 1 die Ungleichung
Kommentar
g.x C .1  /y/  g.x/ C .1  /g.y/
Die obige Vorgehensweise zeigt, dass der Erwartungswert
nicht von der genauen Gestalt des zugrunde liegenden Wahr- erfüllt ist. Steht hier für x ¤ y und  2 .0; 1/ stets „<“, so heißt
scheinlichkeitsraums .˝; A; P / abhängt, sondern nur von g strikt konvex. Aus obiger Ungleichung folgt, dass der Graph
der Verteilung P X der Zufallsvariablen X . von g oberhalb jeder Stützgeraden verläuft, die man an Punkten
Wie bereits im vorangehenden Kapitel lassen wir auch in der .x; g.x// mit x 2 M an g legen kann.
Kapitel 5

Folge häufig die Klammern bei der Erwartungswertbildung


weg, schreiben also

EX WD E.X /; Jensen-Ungleichung
Es seien M  R ein Intervall, X eine Zufallsvariable mit
wenn keine Verwechslungen zu befürchten sind. P .X 2 M / D 1 und g W M ! R eine konvexe Funktion.
Ist X eine nichtnegative Zufallsvariable, so existiert der Er- Gelten EjX j < 1 und Ejg.X /j < 1, so folgt
wartungswert von X genau dann, wenn EX < 1. Für eine
allgemeine Zufallsvariable ist demnach die Existenz des Er- Eg.X /  g.EX /:
wartungswertes von X gleichbedeutend mit dem Bestehen
der Ungleichung
Ist g strikt konvex und die Verteilung von X nicht ausge-
EjX j < 1: (5.38) artet, so ist obige Ungleichung strikt.
J
Bevor wir uns mit der konkreten Bestimmung von Erwartungs-
werten für stetige Zufallsvariablen befassen, sei ein Ergebnis Beweis Zunächst gilt EX 2 M , was im Fall M D R aus
aus Abschn. 8.6 in die Sprache von Zufallsvariablen und Wahr- EjX j < 1 und andernfalls aus der Monotonie der Erwartungs-
scheinlichkeitsmaßen umformuliert. wertbildung folgt. Nach den Vorbemerkungen liegt der Graph
5.3 Kenngrößen von Verteilungen 147

von g oberhalb der Stützgeraden an g im Punkt .EX ; g.EX //, Dabei haben wir kurz dz für die Integration bzgl. des Borel-
d. h., es gibt ein a 2 R mit Lebesgue-Maßes k geschrieben. Zusammen ergibt sich also
die erste Behauptung des Satzes. Die zweite folgt aus den je-
g.x/  a.x  EX / C g.EX /; x 2 M:
weiligen Teilen b) der oben zitierten Sätze. 
Die Monotonie der Erwartungswertbildung liefert dann
Eg.X /  E Œa.X  EX / C g.EX / Kommentar Formel (5.39) ist das „stetige Analogon“ der
Gleichung
D a  0 C g.EX / D g.EX /: X
Der Zusatz folgt aus (8.35), wenn man für das dort stehende f E g.Z/ D g.z/ P .Z D z/
die nichtnegative Funktion Y WD g.X /  a.X  EX /  g.EX / z2Rk WP .ZDz/>0

auf ˝ betrachtet. Letztere ist im Fall der strikten Konvexität von für diskret verteilte Zufallsvektoren. Für den Spezialfall einer
g bis auf die Menge f! 2 ˝ j X .!/ D EX g strikt positiv. Aus reellen Zufallsvariablen X und die Funktion g.x/ D x, x 2 R,
EY D 0 würde dann Y D 0 P -fast sicher und somit X D EX erhalten wir aus (5.39) das folgende stetige Analogon der Trans-
P -fast sicher folgen. Eine Entartung der Verteilung von X war formationsformel (5.33) für diskrete Zufallsvariablen. J
jedoch ausgeschlossen. 

Transformationsformel für den Erwartungswert


Erwartungswerte von Funktionen stetiger Ist X eine Zufallsvariable mit Dichte f , so existiert der
Zufallsvektoren erhält man durch Integration Erwartungswert von X genau dann, wenn gilt:

Diejenigen, die (noch) nicht mit der allgemeinen Maß- und In- Z1
tegrationstheorie vertraut sind, werden sich natürlich an dieser jxj f .x/ dx < 1:
Stelle fragen, wie man zum Beispiel überprüft, ob eine stetige 1
Zufallsvariable X mit Dichte f einen Erwartungswert besitzt,
und wie man diesen gegebenenfalls konkret berechnet. Wir ge- In diesem Fall gilt
ben hierzu ein allgemeines Resultat an und zeigen auch, welche
Z1
Sätze aus Kap. 8 in den Beweis eingehen.
EX D x f .x/ dx: (5.40)
1
Die allgemeine Transformationsformel (Erwartungs-
werte von Funktionen stetiger Zufallsvektoren)
Es seien Z ein k-dimensionaler Zufallsvektor mit Dich- Kommentar (5.39) und (5.40) sind „die Rezepte“ zur Be-
te f und g W Rk ! R eine messbare Funktion. Dann rechnung von Erwartungswerten, sofern keine elegantere Me-
existiert der Erwartungswert der Zufallsvariablen g.Z/ D thode zur Verfügung steht. So sollte vor deren Befolgung wie
g ı Z genau dann, wenn gilt: schon bei diskreten Zufallsvariablen mehrfach geschehen stets
Z versucht werden, strukturelle Eigenschaften der Erwartungs-
jg.z/j f .z/ dz < 1: wertbildung wie etwa die Linearität auszunutzen. Man beachte,
dass jede Zufallsvariable, die mit Wahrscheinlichkeit eins Werte
Rk in einem kompakten Intervall annimmt, einen Erwartungswert
In diesem Fall folgt besitzt, denn P .a  X  b/ D 1 zieht jX j  max.jaj; jbj/ und
damit EjX j  max.jaj; jbj/ nach sich. J
Z

Kapitel 5
E g.Z/ D g.z/ f .z/ dz: (5.39) Beispiel
Rk
Für eine Zufallsvariable X mit der Gleichverteilung U.a; b/,
also der Dichte f D .b  a/1 1Œa;b , gilt
Zb
Beweis Nach dem Transformationssatz für Integrale am Ende 1 1 x 2 ˇˇb aCb
von Abschn. 8.5 gilt EX D x dx D ˇ D :
Z Z ba ba 2 a 2
a
Ejg.Z/j D jg.Z/j dP D jg.z/j P Z .dz/: Der Erwartungswert von X ist also – kaum verwunderlich –
˝ Rk das Symmetriezentrum der Dichte f .
Da die Verteilung P Z von Z die Dichte f bzgl. k besitzt, gilt Eine Zufallsvariable mit der Cauchy-Verteilung C.0; 1/, also
nach dem Satz über den Zusammenhang zwischen - und - der Dichte f .x/ D 1=..1 C x 2 //, x 2 R, besitzt keinen
Integralen in Abschn. 8.8 Erwartungswert, da
Z Z Z1
jxj
jg.z/j P .dz/ D
Z
jg.z/j f .z/ dz: dx D 1:
1 C x2
Rk Rk 1
148 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Man beachte hierzu, dass Kommentar Der Begriff Moment stammt aus der Mechanik,
Zn wo insbesondere die Bezeichnungen Drehmoment und Träg-
x log.1 C n2 / heitsmoment geläufig sind. Nach obigen Definitionen sind also
dx D ! 1 für n ! 1: J
1 C x2 2 der Erwartungswert das erste Moment und die Varianz das zwei-
0 te zentrale Moment. Man spricht auch von den Momenten der
Verteilung von X , da Erwartungswerte einer Funktion von X
Kommentar Ist X eine Zufallsvariable mit Verteilungsfunk- bzw. einer Funktion von .X ; Y / nur von der Verteilung P X bzw.
tion F , so findet man häufig auch die Schreibweise der gemeinsamen Verteilung P .X ;Y / von X und Y abhängen.
Z1 Besitzen X eine Dichte f und .X ; Y / eine gemeinsame Dichte
Eg.X / D g.x/ dF .x/ h, so gelten nach der allgemeinen Transformationsformel (5.39)
mit den Abkürzungen  WD EX und  WD EY
1
Z
für den als existent vorausgesetzten Erwartungswert einer Funk-
tion g von X . Diese „dF -Notation“ steht synonym für das EX D k
x k f .x/ dx;
Maß-Integral Z
Z1 Z1 E.X  EX /k D .x  /k f .x/ dx;
g.x/ dF .x/ WD g.x/ P .dx/:
X
Z
1 1 V .X / D .x  /2 f .x/ dx;
Da wir nur die beiden Fälle betrachten, dass X entweder diskret
Z
oder stetig verteilt ist, gilt im ersten Fall
EjX j D
p
jxjp f .x/ dx;
Z1 X
g.x/ dF .x/ D g.xj / P .X D xj / “
1 j 1 Cov.X ; Y / D .x  /.y  / h.x; y/ dxdy:
P
(falls j 1 P .X D xj / D 1) und im zweiten
Dabei erstrecken sich alle Integrale grundsätzlich über R und
Z1 Z1 im konkreten Einzelfall über den Positivitätsbereich von f bzw.
g.x/ dF .x/ D g.x/ f .x/ dx: von h. Wir betonen an dieser Stelle ausdrücklich, dass alle im
1 1 vorigen Kapitel hergeleiteten strukturellen Eigenschaften der
Varianz- und Kovarianzbildung erhalten bleiben, weil sie auf
Dabei besitzt X die Lebesgue-Dichte f . J
den grundlegenden Eigenschaften der Erwartungswertbildung
(namentlich der Linearität) fußen. Insbesondere sei hervorgeho-
ben, dass auch die Schlussfolgerung
Momente sind Erwartungswerte von Potenzen
einer Zufallsvariablen X ; Y unabhängig H) Cov.X ; Y / D 0
Wichtige Erwartungswerte von Funktionen einer Zufallsvaria-
ganz allgemein gültig bleibt. Wegen Cov.X ; Y / D E.X Y / 
blen oder Funktionen zweier Zufallsvariablen sind mit Namen
EX EY ist diese Implikation gleichbedeutend mit der nach-
belegt, die größtenteils schon aus dem vorigen Kapitel bekannt
folgenden, bereits im vorigen Kapitel im Spezialfall diskreter
sind. Bei der folgenden Definition wird stillschweigend unter-
Zufallsvariablen formulierten Aussage, deren Beweis wichtige
stellt, dass die Zufallsvariablen X und Y auf dem gleichen
J
Kapitel 5

Techniken der Maß- und Integrationstheorie verwendet.


Wahrscheinlichkeitsraum definiert sind und alle auftretenden
Erwartungswerte existieren.

Multiplikationsregel für den Erwartungswert


Momente, Varianz, Kovarianz, Korrelation
Sind X und Y stochastisch unabhängige Zufallsvariablen
Für p 2 R mit p > 0 und k 2 N heißen mit existierenden Erwartungswerten, so existiert auch der
Erwartungswert von X Y , und es gilt
E X k das k-te Moment von X ,
E.X  E X /k das k-te zentrale Moment von X ,
E.X Y / D EX  EY :
V
p.X / D E.X  E X / die Varianz von X ,
2

V .X / die Standardabweichung von X ,


E jX jp das p-te absolute Moment von X ,
Cov.X ; Y / D EŒ.X  EX /.Y  EY / die Kovarianz
Beweis Die Unabhängigkeit von X und Y ist gleichbe-
zwischen X und Y ,
deutend damit, dass die gemeinsame Verteilung P .X ;Y / das
.X ; Y / D pCov.X ;Y / (falls V .X /V .Y / > 0) der
V .X / V .Y / Produkt P X ˝ P Y der Marginalverteilungen ist (vgl. den Kom-
Korrelationskoeffizient zwischen X und Y . mentar nach dem allgemeinen Unabhängigkeitskriterium in
Abschn. 3.3). Nach dem Transformationssatz für Integrale in
5.3 Kenngrößen von Verteilungen 149

Abschn. 8.5 und dem Satz von Tonelli gilt unter Weglassung Beispiel (Normalverteilung) Die Zufallsvariable X sei
der Integrationsgrenzen 1 und 1 N.0; 1/-normalverteilt, besitze also die Dichte
“  2
1 x
EjX Y j D jx yjP .X ;Y / .dx; dy/ '.x/ D p exp  ; x 2 R:
2 2

D jxj jyjP X ˝ P Y .dx; dy/ Für k 2 N gilt wegen der Symmetrie von ' um 0, der Substitu-
tion u D x 2 =2 und der Definition der Gammafunktion
Z  Z 
D jxj P X .dx/ jyj P Y .dy/ Z1  2
1 x
EjX j D p
k
jxjk exp  dx
2 2
D EjX j EjY j: 1
Z1  
Folglich gilt EjX Y j < 1. Wir können jetzt jeweils die Be- 2 k x2
D p x exp  dx
tragsstriche weglassen und erhalten wie behauptet E.X Y / D 2 2
EX EY .  0
Z1
2k=2
Beispiel (Gleichverteilung) Das k-te Moment einer Zu- D p u.kC1/=21 eu du

fallsvariablen X mit der Gleichverteilung U.0; 1/ ist durch 0
 
2k=2 kC1
Z1 D p  < 1:
1  2
EX k D x k dx D ; k 2 N;
kC1 Somit existiert für jedes k 2 N das k-te Moment von X . Wie-
0
derum wegen der Symmetrie von ' um 0 ergeben sich dann
gegeben. Hiermit erhält man
EX 2mC1 D 0; m 2 N0 ;
1 1 1
V .X / D EX 2  .EX /2 D  D : sowie
3 4 12
  Y
m
2m 2m C 1
Besitzt Y die Gleichverteilung U.a; b/, so gilt die Verteilungs- EX 2m
D p  D .2j  1/; m 2 N:
gleichheit Y .b  a/X C a und folglich  2 j D1

EY k D E ..b  a/X C a/k p dabei aus  .x C 1/ D
Das letzte Gleichheitszeichen folgt
2 ! 3 x .x/, x > 0, und  .1=2/ D . Insbesondere erhält man
X k
k EX D 0 und V .X / D EX 2 D 1.
D E4 .b  a/j X j akj 5
j D0
j Besitzt X die Normalverteilung N.;  2 /, so gilt X Y C 
! mit Y N.0; 1/. Nach den Rechenregeln für Erwartungswert
X k .b  a/j
k
und Varianz erhalten wir
D akj : J
j j C 1
j D0 EX D E.Y C / D  EY C  D ;
Wir benötigen in der Folge die i. Allg. aus den Analysis- V .X / D V .Y C / D  2 V .Y / D  2 :
Grundvorlesungen bekannte Gammafunktion. Diese ist für
Die Parameter  und  2 der Normalverteilung N.;  2 / sind

Kapitel 5
jedes x > 0 durch
also Erwartungswert bzw. Varianz dieser Verteilung. J
Z1
 .x/ WD t x1 et dt (5.41) In Aufgabe 4.46 haben wir gesehen, dass der Erwartungswert
einer N0 -wertigen Zufallsvariablen X in der Form
0
X
1
definiert. Die Funktion  W .0; 1/ ! R besitzt folgende Ei- EX D P .X  n/
genschaften: nD1

 .x C 1/ D x .x/, x > 0, dargestellt werden kann. Bezeichnet F die Verteilungsfunktion


 .n/ D .np 1/Š, n 2 N, von X , so gilt wegen der Ganzzahligkeit von X die Identität
 .1=2/ D . P .X  n/ D P .X > n  1/, und wir erhalten
Dabei folgt die erste Gleichung mithilfe partieller Integration,
X
1 Z 1
und die zweite ergibt sich hieraus zusammen mit  .1/ D 1. EX D .1  F .n// D .1  F .x// dx:
Die letzte
R 1 Beziehung ist äquivalent zu der Normierungsbedin- nD0 0
gung 1 '.x/ dx D 1 für die in (5.4) eingeführte Dichte '
der Standardnormalverteilung (siehe z. B. [1], Abschn. 16.6 und Dabei existiert der Erwartungswert genau dann, wenn das un-
Aufgabe 16.12). eigentliche Integral bzw. die unendliche Reihe konvergiert. Die
150 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

F (x) Sei Z D .Zi ;j /1i m;1j n ein in Form einer (m  n)-


1 dimensionalen Matrix geschriebener Zufallsvektor. Mit der
⊕ Festsetzung

E Z WD .EZi ;j /1i m;1j n

gilt dann
x
0

˙.X/ D E .X  E X/.X  E X/>
Abb. 5.19 Erwartungswert als Differenz zweier Flächeninhalte 20 1 3
X1  E X1
6B :: C 7
D E6
4@
B
:
C X1  E X1    Xk  E Xk 7 :
A 5
nachstehende Eigenschaft ist eine Verallgemeinerung dieses Re-
sultats. Der Beweis ist eine direkte Anwendung des Satzes von Xk  E Xk
Tonelli, der für alle, die bereits Kenntnisse der Maß- und Inte-
grationstheorie besitzen, als Aufgabe 5.41 formuliert ist.
Rechenregeln

Darstellungsformel für den Erwartungswert Es seien X ein k-dimensionaler Zufallsvektor, b 2 Rn und


A eine (n  k)-Matrix. Dann gelten:
Ist X eine Zufallsvariable mit Verteilungsfunktion F , so
gilt a) E.AX C b/ D A E X C b,
Z1 Z0 b) ˙.AX C b/ D A ˙.X/ A> .
EjX j < 1 () .1  F .x// dx < 1; F .x/ dx < 1:
0 1
Selbstfrage 8
In diesem Fall folgt Können Sie diese Rechenregeln beweisen?
Z1 Z0
E X D .1  F .x// dx  F .x/ dx: (5.42)
0 1 Eigenschaften der Kovarianzmatrix
Die Kovarianzmatrix ˙.X/ eines Zufallsvektors X besitzt
folgende Eigenschaften:
Die Darstellungsformel besagt, dass die Werte F .x/ der Ver-
teilungsfunktion F hinreichend schnell gegen null (für x ! a) ˙.X/ ist symmetrisch und positiv-semidefinit.
1) und eins (für x ! 1) konvergieren müssen, damit b) ˙.X/ ist genau dann singulär, wenn es ein c 2 Rk mit
der Erwartungswert existiert. Ist dies der Fall, so kann man c ¤ 0 und ein  2 R mit P .c > X D  / D 1 gibt.
den Erwartungswert als Differenz zweier Flächeninhalte deuten
(Abb. 5.19).
Im Folgenden wenden wir uns den Begriffen Erwartungswert-
Beweis Da die Kovarianzbildung Cov.; / ein symmetrischer
vektor und Kovarianzmatrix zu. In diesem Zusammenhang ist
Operator ist, ist ˙.X/ symmetrisch. Für einen beliebigen Vektor
es zweckmäßig, Vektoren grundsätzlich als Spaltenvektoren zu
c D .c1 ; : : : ; ck /> 2 Rk gilt
Kapitel 5

verstehen. Für einen Spaltenvektor x bezeichne dann x > den zu


x transponierten Zeilenvektor. In gleicher Weise sei A> die zu 0 1
einer Matrix A transponierte Matrix. Weiter setzen wir voraus, X
k X
k X
k X
k
ci cj Cov.Xi ; Xj / D Cov @ ci Xi ; cj Xj A
dass alle auftretenden Erwartungswerte existieren.
i D1 j D1 i D1 j D1
0 1
X
k
Erwartungswertvektor, Kovarianzmatrix DV@ cj Xj A D V .c > X/
Es sei X D .X1 ; : : : ; Xk /> ein k-dimensionaler Zufalls- j D1

vektor. Dann heißen  0:


E.X/ WD .EX1 ; : : : ; EXk / >
Somit ist ˙.X/ positiv-semidefinit. Nach dem Gezeigten ist
˙.X/ genau dann singulär, also nicht invertierbar, wenn ein vom
der Erwartungswertvektor und
Nullvektor verschiedenes c 2 Rk existiert, sodass V .c > X/ D 0
˙.X/ WD .Cov.Xi ; Xj //1i ;j k gilt. Letztere Eigenschaft ist äquivalent dazu, dass es ein c ¤ 0
und ein  2 R gibt, sodass gilt:
die Kovarianzmatrix von X.
P .c > X D  / D 1: 
5.3 Kenngrößen von Verteilungen 151

Die Kovarianzmatrix eines Zufallsvektors X ist also genau dann ergeben. Gilt m D k, so ist X verteilungsgleich mit AY C ,
singulär, wenn X mit Wahrscheinlichkeit 1 in eine Hyperebene wobei AA> D ˙ und Y Nk .0; Ik /. Somit folgt BX C 
H des Rk , also eine Menge der Gestalt H D fx 2 Rk j c > x D BAY C B C  mit einer regulären Matrix BA, und BX C  ist
 g mit c ¤ 0 und  2 R fällt. Diese Eigenschaft trifft etwa für (k-dimensional) normalverteilt. Im Fall m < k ergänzen wir die
einen Zufallsvektor mit einer Multinomialverteilung zu (Aufga- Matrix B durch Hinzufügen von k m Zeilen zu einer regulären
be 5.7). Matrix C . Dann ist nach dem Gezeigten C X normalverteilt, und
nach den Ausführungen in der großen Beispiel-Box in Abschn.
Das folgende Resultat zeigt, dass die Parameter  und ˙ der
5.6 hat dann auch BX als gemeinsame Verteilung von Kompo-
nichtausgearteten k-dimensionalen Normalverteilung Nk .; ˙/
nenten von C X eine (m-dimensionale) Normalverteilung. Eine
den Erwartungswertvektor bzw. die Kovarianzmatrix dieser Ver-
Addition von  ändert daran nichts. 
teilung darstellen. Aus diesem Grunde sagt man auch, ein
Zufallsvektor X habe eine nichtausgeartete k-dimensionale Nor-
malverteilung mit Erwartungswert(vektor)  und Kovarianzma-
trix ˙. Das p-Quantil teilt die Gesamtfläche unter
einer Dichte im Verhältnis p zu 1  p auf
Erwartungswert und Kovarianzmatrix von Nk .; ˙ / Wir wenden uns nun Quantilen als weiteren wichtigen Kenn-
größen von Verteilungen zu.
Für einen Zufallsvektor X Nk .; ˙/ gilt

E.X/ D ; ˙.X/ D ˙: Quantile, Quantilfunktion


Es seien X eine Zufallsvariable mit Verteilungsfunktion F
und p eine Zahl mit 0 < p < 1. Dann heißt
Beweis Wir verwenden die Verteilungsgleichheit X AY C
, wobei ˙ D A A> und Y D .Y1 ; : : : ; Yk /> mit unabhängi- F 1 .p/ WD inffx 2 R j F .x/  pg (5.43)
gen und je N.0; 1/-verteilten Zufallsvariablen Y1 ; : : : ; Yk , vgl.
die vor der Definition der k-dimensionalen Normalverteilung das p-Quantil von F (bzw. von P X ).
angestellten Überlegungen. Wegen E.Y/ D 0 und ˙.Y/ D Ik
(k-reihige Einheitsmatrix) folgt die Behauptung aus den obigen Die durch (5.43) definierte Funktion F 1 W .0; 1/ ! R
Rechenregeln, da heißt Quantilfunktion zu F.

E.X/ D E.AY C / D A E.Y/ C ;


Wegen limx!1 F .x/ D 1 und limx!1 F .x/ D 0 ist
˙.X/ D A˙.Y/A> D A A> D ˙:  die Quantilfunktion wohldefiniert. Da eine Verteilungsfunkti-
on Konstanzbereiche haben kann und somit nicht injektiv sein
Wir wissen, dass ganz allgemein stochastisch unabhängige Zu- muss, darf man der Quantilfunktion nicht unbedingt die Rol-
fallsvariablen unkorreliert sind, also die Kovarianz 0 besitzen. le einer Umkehrfunktion zuschreiben, obwohl die Schreibweise
Insbesondere ist dann die Kovarianzmatrix ˙ eines Zufalls- F 1 Assoziationen an die Umkehrfunktion weckt. Da F rechts-
vektors X D .X1 ; : : : ; Xk /> Nk .; ˙/ mit unabhängigen seitig stetig ist, gilt die Äquivalenz
Komponenten eine Diagonalmatrix. Aufgabe 5.26 zeigt, dass
man in diesem Fall auch umgekehrt schließen kann: Gilt X F .x/  p () x  F 1 .p/; 0 < p < 1; x 2 R: (5.44)

Kapitel 5
Nk .; ˙/, und ist ˙ eine Diagonalmatrix, so sind X1 ; : : : ; Xk
stochastisch unabhängig. Für die k-dimensionale Normalvertei- Selbstfrage 9
lung gilt zudem noch folgendes wichtiges Reproduktionsgesetz: Bei welcher der Richtungen „)“ und „(“ geht die rechtssei-
tige Stetigkeit von F ein?

Reproduktionsgesetz für die Normalverteilung


Im Folgenden schreiben wir auch
Es seien X Nk .; ˙/, B 2 Rmk eine Matrix mit
m  k und rg.B/ D m sowie  2 Rm . Dann gilt Qp WD Qp .F / WD F 1 .p/

BX C  Nm .B C ; B˙B > /: für das p-Quantil zu F . Abb. 5.20 veranschaulicht diese Be-
griffsbildung.
In dem in Abb. 5.20 für p D p3 skizzierten „Normalfall“, dass
Beweis Es ist nur zu zeigen, dass BX C  normalverteilt ist, F an der Stelle Qp eine positive Ableitung hat, gilt
da sich die Parameter aus den Rechenregeln
P .X  Qp / D F .Qp / D p;
E.BX C / D BE.X/ C ; ˙.BX C / D B ˙.X/ B >
P .X  Qp / D 1  F .Qp / D 1  p:
152 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

F (x) Tab. 5.2 Quantile der Standardnormalverteilung

1 p 0.75 0.9 0.95 0.975 0.99 0.995


˚ 1 .p/ 0.667 1.282 1.645 1.960 2.326 2.576
p3

p2 Für den Spezialfall X0 N.0; 1/, also F0 D ˚, sind in Tab. 5.2
wichtige Quantile tabelliert. J
p1

Selbstfrage 10
x Welchen Quartilsabstand besitzt die Normalverteilung
Qp1 Qp2 Qp3
N.;  2 /?
Abb. 5.20 Zur Definition des p-Quantils

f (x) Man beachte, dass der Median einer Verteilung im Gegensatz


zum Erwartungswert immer existiert. Wohingegen der Erwar-
tungswert einer Zufallsvariablen X die mittlere quadratische
Fläche = p
Abweichung
E.X  c/2
als Funktion von c 2 R minimiert, löst der Median Q1=2 von X
das Problem, die mittlere absolute Abweichung
EjX  cj
in Abhängigkeit von c zu minimieren (Aufgabe 5.47).
Qp x
Im Allgemeinen sind Median (als „Hälftigkeitswert“) und Er-
wartungswert als Schwerpunkt einer Verteilung verschieden. Es
Abb. 5.21 p-Quantil als „Flächen-Teiler“ gibt jedoch eine einfache hinreichende Bedingung dafür, wann
beide Werte zusammenfallen. Man nennt eine Zufallsvariable X
symmetrisch verteilt um einen Wert a, falls X  a und .X  a/
Ist X stetig mit der Dichte f , so teilt Qp die Gesamtfläche 1
dieselbe Verteilung besitzen, falls also gilt:
unter dem Graphen von f in einen Anteil p links und einen
Anteil 1  p rechts von Qp auf (Abb. 5.21). X  a a  X: (5.46)
Gewisse Quantile sind mit speziellen Namen belegt. So wird In diesem Fall sagt man auch, die Verteilung von X sei symme-
das 0:5-Quantil als Median oder Zentralwert bezeichnet, und trisch um a, und nennt a das Symmetriezentrum der Verteilung.
Q0:25 sowie Q0:75 heißen unteres Quartil bzw. oberes Quar- Besitzt X eine Dichte f , so ist X symmetrisch verteilt um a,
til von F . Der Median halbiert somit die Fläche unter einer falls f .a C t / D f .a  t /, t 2 R, gilt.
Dichte f , und das untere (obere) Quartil spaltet ein Viertel der
gesamten Fläche von links (rechts) kommend ab. Die Differenz Selbstfrage 11
Q0:75  Q0:25 heißt Quartilsabstand. Das Quantil Qk0:2 heißt Können Sie diese Aussage beweisen?
k-tes Quintil (k D 1; 2; 3; 4) und das Quantil Qk0:1 k-tes Dezil
(k D 1; 2; : : : ; 9).
Kapitel 5

Beispiele für symmetrische Verteilungen sind die Binomial-


Beispiel (Lokations-Skalen-Familien) Wir betrachten ei- verteilung Bin.n; 1=2/, die Gleichverteilung U.a; b/ und die
ne Zufallsvariable X0 mit stetiger, auf fx j 0 < F0 .x/ < 1g Normalverteilung N.;  2 / mit den jeweiligen Symmetriezen-
streng monoton wachsender Verteilungsfunktion F0 sowie die tren n=2, .a C b/=2 und . Wie das folgende Resultat zeigt,
von F0 erzeugte Lokations-Skalen-Familie fallen unter schwachen Voraussetzungen bei symmetrischen
n    ˇ o Verteilungen Median und Erwartungswert (falls existent) zu-
ˇ
F; ./ D F0 ˇ  2 R;  > 0 : sammen.

Da X0 die Verteilungsfunktion F0 und X WD X0 C  die Ver-
teilungsfunktion Erwartungswert und Median bei symmetrischen Vertei-
x   lungen
F; .x/ D P .X  x/ D F0 Die Zufallsvariable X mit stetiger Verteilungsfunktion F

sei symmetrisch verteilt um a. Dann gelten:
besitzt, hängt das p-Quantil Qp .F / mit dem p-Quantil von F0
über die Beziehung a) EX D a (falls EjX j < 1),
b) F .a/ D 12 ,
Qp .F / D  C  Qp .F0 / (5.45) c) Q1=2 D a, falls jfx 2 R j F .x/ D 1=2gj D 1.
zusammen.
5.3 Kenngrößen von Verteilungen 153

Beweis Aus (5.46) folgt y

EX  a D E.X  a/ D E.a  X / D a  EX β

und damit a). Wegen P .X D a/ D 0 liefert (5.46) ferner Θ

P .X  a/ D P .X  a  0/ D P .a  X  0/ D P .X  a/
D 1  P .X  a/;
x
α X
also b). Behauptung c) folgt unmittelbar aus b). 
Abb. 5.23 Erzeugungsweise der Cauchy-Verteilung
Ein prominentes Beispiel einer symmetrischen Verteilung,
die keinen Erwartungswert besitzt, ist die Cauchy-Verteilung
C.˛; ˇ/. Sie entsteht aus der bereits bekannten Cauchy- rein zufällig Partikel in Richtung der x-Achse aus. Dabei sei der
Verteilung C.0; 1/ durch die Lokations-Skalen-Transformation von der Geraden y D ˇ gegen den Uhrzeigersinn aus gemes-
sene Winkel , unter dem das Teilchen die Quelle verlässt, auf
X0 C.0; 1/ H) ˇX0 C ˛ C.˛; ˇ/: dem Intervall .0; / gleichverteilt. Der zufällige Ankunftspunkt
X des Teilchens auf der x-Achse besitzt dann die Verteilung
C.˛; ˇ/ (Aufgabe 5.27).
Definition der Cauchy-Verteilung
Die Zufallsvariable X hat eine Cauchy-Verteilung mit Satz über die Quantiltransformation
Parametern ˛ und ˇ (˛ 2 R; ˇ > 0), kurz: X C.˛; ˇ/,
falls X die Dichte Es seien F W R ! Œ0; 1 eine Verteilungsfunktion und U
eine Zufallsvariable mit U U.0; 1/. Dann besitzt die
ˇ Zufallsvariable
f .x/ D ; x 2 R;
.ˇ 2 C .x  ˛/2 /
X WD F 1 .U /
besitzt.
(sog. Quantiltransformation) die Verteilungsfunktion F .

Wie man unmittelbar durch Differenziation bestätigt, ist die Ver-


teilungsfunktion der Cauchy-Verteilung C.˛; ˇ/ durch
Beweis Aufgrund der Äquivalenz (5.44) gilt für jedes x 2 R
 
1 1 x˛
F .x/ D C arctan ; x 2 R; (5.47) P .X  x/ D P .F 1 .U /  x/ D P .U  F .x//:
2  ˇ
Wegen der Gleichverteilung von U ist die rechts stehende Wahr-
gegeben.
scheinlichkeit gleich F .x/, was zu zeigen war. 
Die Cauchy-Verteilung ist symmetrisch um den Median a
(Abb. 5.22), und es gilt 2ˇ D Q3=4  Q1=4 . Der Skalenpara- Kann die Quantilfunktion F 1 leicht in geschlossener Form
meter ˇ ist also die Hälfte des Quartilsabstandes Q3=4  Q1=4 angegeben werden, so liefert die Quantiltransformation eine

Kapitel 5
(Aufgabe 5.28). einfache Möglichkeit, aus einer auf .0; 1/ gleichverteilten Pseu-
dozufallszahl eine Pseudozufallszahl zu der Verteilungsfunktion
Eine physikalische Erzeugungsweise der Verteilung C.˛; ˇ/ F zu erzeugen. Dieser Sachverhalt trifft zwar nicht für die Nor-
zeigt Abb. 5.23. Eine im Punkt .˛; ˇ/ angebrachte Quelle sendet malverteilung, wohl aber etwa für die Cauchy-Verteilung zu.

f (x) Beispiel (Cauchy-Verteilung) Eine Zufallsvariable mit der


1
Cauchy-Verteilung C.˛; ˇ/ hat die in (5.47) angegebene Vertei-
βπ lungsfunktion F . Diese ist auf R streng monoton wachsend und
stetig, und sie besitzt die (mit der Quantilfunktion zusammen-
fallende) Umkehrfunktion
 
1
F 1 .p/ D ˇ tan  p  C ˛; 0 < p < 1:
2
x Aus einer Pseudozufallszahl x mit der Gleichverteilung auf
α
.0; 1/ erhält man also mit F 1 .x/ eine Pseudozufallszahl nach
Abb. 5.22 Dichte der Cauchy-Verteilung C.˛; ˇ/ der Cauchy-Verteilung C.˛; ˇ/. J
154 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Wohingegen die Quantiltransformation U 7! X WD F 1 .U / In diesem Abschnitt lernen wir weitere grundlegende stetige
aus einer Zufallsvariablen U U.0; 1/ eine Zufallsvariable X Verteilungen und deren Eigenschaften sowie Erzeugungsweisen
mit der Verteilungsfunktion F erzeugt, geht bei der nachste- und Querverbindungen zwischen ihnen kennen. Wir beginnen
hend erklärten Wahrscheinlichkeitsintegral-Transformation eine mit der Exponentialverteilung.
Zufallsvariable mit einer stetigen Verteilungsfunktion in eine
Zufallsvariable mit der Gleichverteilung U.0; 1/ über.
Definition der Exponentialverteilung
Video 5.2 Quantil- und Wahrscheinlichkeitsintegral-Transfor-
Die Zufallsvariable X hat eine Exponentialverteilung
mation
mit Parameter  > 0, kurz: X Exp./, falls X die
Dichte

f .x/ D ex ; x  0;

und f .x/ D 0 sonst, besitzt.

Wahrscheinlichkeitsintegral-Transformation
Offenbar wird durch diese Festsetzung in der Tat eine Wahr-
Es sei X eine Zufallsvariable mit stetiger Verteilungs-
R 1definiert, denn f ist bis auf die Stelle 0
scheinlichkeitsdichte
funktion F . Dann besitzt die durch die sog. Wahrschein- stetig, und es gilt 1 f .x/ dx D 1. Der Graph von f ist in
lichkeitsintegral-Transformation X 7! F .X / erklärte Abb. 5.24 dargestellt.
Zufallsvariable
Die Verteilungsfunktion der Verteilung Exp./ ist durch
U WD F .X / D F ı X (
1  exp.x/; falls x  0;
F .x/ D (5.48)
die Gleichverteilung U.0; 1/. 0 sonst;

gegeben. Der Graph von F ist in Abb. 5.25 skizziert.

Beweis Es sei p mit 0 < p < 1 beliebig. Wegen der Äquiva- Aus der Verteilungsfunktion ergibt sich unmittelbar, dass der
lenz (5.44) und der Stetigkeit von F gilt Parameter  die Rolle eines Skalenparameters spielt. Genauer
gilt
P .U < p/ D P .F .X / < p/ D P .X < F 1 .p// 1
X Exp.1/ H) X Exp./I (5.49)
D P .X  F 1 .p// D F .F 1 .p// D p: 
Hiermit ergibt sich jede Exponentialverteilung lässt sich also aus der Exponenti-
alverteilung Exp.1/ durch eine Multiplikation erzeugen. Die
   
1 1
P .U  p/ D lim P U < p C D lim p C D p;
n!1 n n!1 n
f (x)
was zu zeigen war.  λ

Selbstfrage 12
Kapitel 5

Warum ist die Stetigkeit von F für obigen Sachverhalt auch not-
wendig?

5.4 Wichtige stetige Verteilungen Abb. 5.24 Dichte der Exponentialverteilung Exp./

F (x)
Wir haben bereits mit der Gleichverteilung U.a; b/, der Nor-
malverteilung N.;  2 / und der Cauchy-Verteilung C.˛; ˇ/
1
drei wichtige Verteilungen kennengelernt. Diese Verteilungen
sind jeweils Mitglieder von Lokations-Skalen-Familien, die
durch die Gleichverteilung U.0; 1/, die Standardnormalvertei-
lung N.0; 1/ und die Cauchy-Verteilung C.0; 1/ erzeugt werden,
denn es gelten
X U.0; 1/ H) a C .b  a/X U.a; b/, x
X N.0; 1/ H)  C X N.;  2 /,
X C.0; 1/ H) ˛ C ˇX C.˛; ˇ/. Abb. 5.25 Verteilungsfunktion der Exponentialverteilung Exp./
5.4 Wichtige stetige Verteilungen 155

einfache Gestalt der Verteilungsfunktion ermöglicht auch pro- f (x)


blemlos deren Invertierung: Die zugehörige Quantilfunktion ist
• α = 1/2
1 •α=1
F 1 .p/ D  log.1  p/; 0 < p < 1;
 •α=2
•α=4
und wir erhalten mithilfe der Quantiltransformation den Zusam-
menhang

1
U U.0; 1/ H)  log.1  U / Exp./:

Aus der Dichte erhält man Erwartungswert und Varianz der Ex-
x
ponentialverteilung mithilfe direkter Integration zu

Z1 Abb. 5.26 Weibull-Dichten für verschiedene Werte von ˛


1
EX D xe x
dx D ;

0 Offenbar ist die Exponentialverteilung Exp./ ein Spezialfall
2 1 1 der Weibull-Verteilung, denn es gilt Exp./ D Wei.1; /. Die
V .X / D E.X /  .EX / D 2  2 D 2 :
2 2
   Weibull-Verteilung ist aber auch für allgemeines ˛ unmittelbar
durch den Zusammenhang
Selbstfrage 13
Welchen Median besitzt die Exponentialverteilung? Y Exp./ H) X WD Y 1=˛ Wei.˛; /; (5.52)

mit der Exponentialverteilung verknüpft, denn es ist für x > 0


Die Exponentialverteilung ist ein grundlegendes Modell zur
Beschreibung der zufälligen Lebensdauer von Maschinen oder F .x/ WD P .X  x/ D P .Y 1=˛  x/ D P .Y  x ˛ /
Bauteilen, wenn Alterungserscheinungen vernachlässigbar sind.
D 1  exp .x ˛ / ; (5.53)
In der Physik findet sie z. B. bei der Modellierung der zufälligen
Zeitspannen zwischen radioaktiven Zerfällen Verwendung. Der
und durch Differenziation (Kettenregel!) ergibt sich die Dichte
Grund hierfür ist die Eigenschaft der Gedächtnislosigkeit, die
der Weibull-Verteilung zu (5.51). Wegen
wir schon in ähnlicher Form bei der geometrischen Verteilung
kennengelernt haben. Im Fall X Exp./ gilt nämlich für be-  1=˛
liebige positive reelle Zahlen t und h die Gleichung 1
X Wei.˛; 1/ H) X Wei.˛; / (5.54)

P .X  t C hjX  t / D P .X  h/: (5.50)
(Übungsaufgabe 5.29) bewirkt der Parameter  wie schon bei
Selbstfrage 14 der Exponentialverteilung nur eine Skalenänderung. Die Ge-
Können Sie diese Gleichung beweisen? stalt der Dichte von X wird somit maßgeblich durch den sog.
Formparameter ˛ beeinflusst. Abb. 5.26 zeigt Dichten von
Weibull-Verteilungen für  D 1 und verschiedene Werte von ˛.
Als zweite Verteilungsfamilie betrachten wir die nach dem Die Momente der Weibull-Verteilung lassen sich mithilfe der

Kapitel 5
schwedischen Ingenieur und Mathematiker Ernst Hjalmar Wa- Gammafunktion ausdrücken (Aufgabe 5.30):
loddi Weibull (1887–1979) benannten Weibull-Verteilungen. Sie
finden u. a. bei der Modellierung von Niederschlagsmengen,
Windgeschwindigkeiten und zufälligen Lebensdauern in der Satz Es sei X Wei.; ˛/. Dann gilt
Qualitätssicherung Verwendung.  
 1 C ˛k
EX D k
; k 2 N:
k=˛
Definition der Weibull-Verteilung
Insbesondere folgt
Eine positive Zufallsvariable X hat eine Weibull-
Verteilung mit Parametern ˛ > 0 und  > 0, falls X  
1 1
die Dichte EX D  1C ;
1=˛ ˛
    !
f .x/ D ˛  x ˛1 exp .x ˛ / ; x > 0; (5.51) 1 2 1 2
V .X / D  1C   1C : J
2=˛ ˛ ˛
und f .x/ D 0 sonst, besitzt, und wir schreiben hierfür
kurz X Wei.˛; /. Abschließend erinnern wir daran, dass uns die Weibull-
Verteilung Wei.2; 1=2/ in Aufgabe 2.36 als Grenzverteilung der
156 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Zeit bis zur ersten Kollision in einem Fächer-Modell mit n Fä- Wie bei der Normalverteilung gibt es auch bei der Gammaver-
chern begegnet ist. Bezeichnet Xn die Anzahl der rein zufällig teilung  .˛; / zumindest für allgemeines ˛ keinen geschlosse-
und unabhängig voneinander platzierten Teilchen, bis zum ers- nen Ausdruck für die Verteilungsfunktion und die Quantile. Für
ten Mal ein Teilchen in ein bereits besetztes Fach gelangt, so die Momente gilt das folgende Resultat:
gilt
    Satz Die Zufallsvariable X besitze die Gammaverteilung
Xn 1
lim P p t D 1  exp  t 2 ; t > 0:  .˛; /. Dann gilt
n!1 n 2
 .k C ˛/
Die rechte Seite ist die Verteilungsfunktion der Weibull- EX k D ; k 2 N: (5.57)
Verteilung Wei.2; 1=2/. k  .˛/

Auch die im Folgenden betrachtete Gammaverteilung ist eine Insbesondere folgt


weitere Verallgemeinerung der Exponentialverteilung. Sie tritt
˛ ˛
u. a. bei der Modellierung von Bedien- und Reparaturzeiten in EX D ; V .X / D : J
Warteschlangen auf. Im Versicherungswesen dient sie zur Be-  2
schreibung kleiner bis mittlerer Schäden.
Selbstfrage 15
Können Sie (5.57) beweisen?
Definition der Gammaverteilung
Die Zufallsvariable X hat eine Gammaverteilung mit Pa-
rametern ˛ > 0 und  > 0, kurz: X  .˛; /, wenn X Für die Gammaverteilung gilt das folgende Additionsgesetz,
die Dichte dessen Beweis als Abfallprodukt eine wichtige Integral-Identität
liefert.

f .x/ D x ˛1 ex ; falls x>0 (5.55)
 .˛/
Additionsgesetz für die Gammaverteilung
und f .x/ D 0 sonst, besitzt.
Sind X und Y unabhängige Zufallsvariablen mit den
Gammaverteilungen  .˛; / bzw.  .ˇ; /, so gilt:

Mithilfe des Satzes „Methode Verteilungsfunktion“ in Abschn. X C Y  .˛ C ˇ; /:


5.2 erschließt sich unmittelbar die Implikation

1
X  .˛; 1/ H) X  .˛; /: (5.56)
 Beweis Setzt man die durch (5.55) gegebenen Dichten fX
und fY von X bzw. Y in die Faltungsformel (5.29) ein, so folgt
Wohingegen der Parameter ˛ die Gestalt der Dichte wesentlich wegen fX .s/ D 0 für s  0 sowie fY .t  s/ D 0 für s  t
beeinflusst, bewirkt  wie bei der Exponentialverteilung also
nur eine Skalenänderung. Abb. 5.27 zeigt Dichten der Gamma- Zt
verteilung für  D 1 und verschiedene Werte von ˛. fX CY .t / D fX .s/ fY .t  s/ ds
Kapitel 5

f (x)
Zt
˛ ˇ t
• α = 1/2 D e s ˛1 .t  s/ˇ1 ds:
 .˛/  .ˇ/
•α=1 0

•α=2 Die Substitution s D t u liefert dann


•α=3
Z1
•α=4 ˛Cˇ
fX CY .t / D u˛1 .1  u/ˇ1 du t ˛Cˇ1 et
 .˛/  .ˇ/
0

für t > 0 und fX CY .t / D 0 für t  0. Da der rechts stehende


Ausdruck eine Dichte ist und die Verteilung  .˛ C ˇ; / die
Dichte
x

˛Cˇ
Abb. 5.27 Dichten der Gammaverteilung mit  D 1 für verschiedene g.t / D t ˛Cˇ1 exp.t /; t > 0;
Werte von ˛  .˛ C ˇ/
5.4 Wichtige stetige Verteilungen 157
R1
besitzt, liefert die Normierungsbedingung 1 D g.t /dt D Kommentar Nach obigem Resultat ist die Chi-Quadrat-
R1 0
Verteilung mit k Freiheitsgraden nichts anderes als die Gamma-
0 fX CY .t /dt die Beziehung
verteilung  .˛; / mit ˛ D k=2 und  D 1=2. Konsequenter-
Z1 weise folgt aus dem Additionsgesetz für die Gammaverteilung
 .˛/  .ˇ/
u˛1 .1  u/ˇ1 du D ; (5.58) das
 .˛ C ˇ/
0

woraus die Behauptung folgt.  Additionsgesetz für die 2 -Verteilung

Kommentar Das in (5.58) stehende Integral Sind X und Y unabhängige Zufallsvariablen mit den Chi-
Quadrat-Verteilungen X 2k und Y 2` , so folgt X C
Z1 Y 2kC` .
B.˛; ˇ/ WD u˛1 .1  u/ˇ1 du (5.59)
0

heißt (als Funktion von ˛ > 0 und ˇ > 0 betrachtet) Eulersche Dieses Resultat ergibt sich auch sofort aufgrund der Erzeu-
Betafunktion. Gleichung (5.58) zeigt, dass diese nach Leon- gungsweise der Chi-Quadrat-Verteilung. J
hard Euler (1707–1783) benannte Funktion über die Beziehung
Als weitere Verteilung stellen wir die Lognormalverteilung vor.
 .˛/  .ˇ/ Sie dient u. a. zur Modellierung von Aktienkursen im sog.
B.˛; ˇ/ D ; ˛; ˇ > 0: (5.60)
 .˛ C ˇ/ Black-Scholes-Modell der Finanzmathematik.
mit der in (5.41) definierten Gammafunktion zusammenhängt.
J
Definition der Lognormalverteilung
Die nachfolgende Chi-Quadrat-Verteilung ist insbesondere in
Die positive Zufallsvariable X besitzt eine Lognormal-
der Statistik wichtig. Sie lässt sich wie folgt direkt aus der Nor-
verteilung mit Parametern  und  2 ( 2 R;  > 0),
malverteilung ableiten.
kurz: X LN.;  2 /, falls gilt:

Definition der Chi-Quadrat-Verteilung log X N.;  2 /:

Die Zufallsvariablen Y1 ; : : : ; Yk seien stochastisch un-


abhängig und je N.0; 1/-normalverteilt. Dann heißt die
Verteilung der Quadratsumme Eine Zufallsvariable ist also lognormalverteilt, wenn ihr Lo-
garithmus normalverteilt ist. Diese Definition, bei der die
X WD Y12 C Y22 C : : : C Yk2 Erzeugungsweise aus der Normalverteilung (beachte: Y
N.;  2 / H) exp.Y / LN.;  2 /) und nicht die Dichte
Chi-Quadrat-Verteilung mit k Freiheitsgraden, und im Vordergrund steht, liefert ein begriffliches Verständnis die-
wir schreiben hierfür kurz X 2k . ser Verteilung. Die Dichte von X können wir uns sofort über
die Verteilungsfunktion herleiten:
Für x > 0 ist
Wir können an dieser Stelle sofort Erwartungswert und Vari-

Kapitel 5
anz von X angeben, ohne die genaue Gestalt der Verteilung F .x/ WD P .X  x/ D P .log X  log x/
wie Verteilungsfunktion und Dichte zu kennen. Wegen EY12 D  
log x  
V .Y1 / D 1 und D˚

V .Y12 / D EY14  .EY12 /2 D 3  1 D 2
die Verteilungsfunktion von X , und offenbar ist F .x/ D 0 für
folgt wegen der Additivität von Erwartungswert- und Varianz- x  0. Hiermit erhält man durch Differenziation (Kettenregel!)
bildung EX D k und V .X / D 2k. das folgende Resultat:
Mithilfe der Faltungsformel (Aufgabe 5.31) erhält man durch
Induktion über k das folgende Resultat:
Satz (über die Dichte der Lognormalverteilung) Eine
Zufallsvariable X mit der Lognormalverteilung LN.;  2 / be-
Satz (über die Dichte der k2 -Verteilung) Eine Zufalls-
sitzt die Dichte
variable X mit der 2k -Verteilung besitzt die Dichte
 
1 1 .log x  /2
f .x/ D
k x
x 2 1 e 2 ; x > 0; f .x/ D p  exp  ; x > 0;
2k=2  .k=2/ x 2 2 2

und f .x/ D 0 sonst. J und f .x/ D 0 sonst. J


158 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Hintergrund und Ausblick: Der Poisson-Prozess

Unabhängige und identisch exponentialverteilte „Zeit- a) Es gilt P .N0 D 0/ D 1.


Lücken“ modellieren zeitlich spontane Phänomene b) Für jedes n 2 N und jede Wahl von t0 ; : : : ; tn 2 R
mit 0 D t0 < t1 < : : : < tn sind die Zufallsvariablen
Es sei X1 ; X2 ; : : : eine Folge unabhängiger und je Exp./- N t  N t 1 , 1  j  n, stochastisch unabhängig.
verteilter Zufallsvariablen. Wir stellen uns vor, dass X1 eine c) Fürj jede jWahl von t und s mit 0  s < t gilt N t  Ns
vom Zeitpunkt 0 aus gerechnete Zeitspanne bis zum ersten Po..t  s//.
Klick eines Geiger-Zählers beschreibe. Die Zufallsvariable
X2 modelliere dann die „zeitliche Lücke“ bis zum nächs- Offenbar ist mit der konkreten Konstruktion (5.61) Bedin-
ten Zählerklick. Allgemein beschreibe die Summe Sn WD gung a) erfüllt. Dass b) und c) gelten, kann wie folgt gezeigt
X1 C : : : C Xn die von 0 an gerechnete Zeit bis zum n-ten werden (wobei wir uns auf den Fall n D 2 beschränken):
Klick. Wegen Xj  .1; / hat Sn nach dem Additionsge- Sind s; t > 0 mit s < t und k; ` 2 N0 , so ist die Gleichung
setz für die Gammaverteilung die Verteilung  .n; /, also
die Dichte P .Ns D k; N t  Ns D `/ (5.62)

n .s/k .t s/ ..t  s//`


fn .t / WD t n1 et D es e
.n  1/Š kŠ `Š
nachzuweisen. Summiert man hier über k, so folgt unmittel-
für t > 0 und fn .t / WD 0 sonst. bar, dass N t  Ns die geforderte Poisson-Verteilung besitzt.
Welche Verteilung besitzt die mit Um (5.62) zu zeigen, startet man mit der für `  1 gültigen
Identität
N t WD supfk 2 N0 j Sk  t g (5.61)
P .Ns D k; N t  Ns D `/
bezeichnete Anzahl der Klicks bis zum Zeitpunkt t 2 D P .Sk  s < SkC1  SkC`  t < SkC`C1 /
Œ0; 1/? Dabei haben wir S0 WD 0 gesetzt. Wegen fN t D
0g D fX1 > t g gilt zunächst (der Fall ` D 0 folgt analog). Rechts steht die Wahrschein-
lichkeit eines Ereignisses, das durch die Zufallsvariablen
P .N t D 0/ D et : X1 ; : : : ; XkC`C1 beschrieben ist. Diese besitzen die gemein-
same Dichte kC`C1 exp.kC`C1 .x//. Dabei wurde x D
Ist k  1, so folgt .x1 ; : : : ; xj CkC1 / und allgemein m .x/ WD x1 C : : : C xm
gesetzt. Die rechts stehende Wahrscheinlichkeit stellt sich
fN t D kg D fSk  t ; SkC1 > t g damit als Integral
D fSk  t ; Sk C XkC1 > t g: Z1 Z1
 dx1 : : : dxkC`C1 kC`C1 ekC`C1 .x/
Da die Zufallsvariablen Sk .D X1 C : : : C Xk / und XkC1 un-
abhängig sind, ergibt sich mit dem Satz von Fubini 0 0  1fk .x/s<kC1 .x/kC` .x/t <kC`C1 .x/g

Zt dar. Dieses lässt sich durch iterierte Integration von innen


Kapitel 5

P .N t D k/ D P .XkC1 > t  x/ fk .x/ dx nach außen und geeignete Substitutionen berechnen, wobei
sich die rechte Seite von (5.62) ergibt.
0
Zt Nt
n
D e.t x/ x k1 ex dx
.k  1/Š 8 •
0 •
7
.t /k 6 •
D et : •
kŠ 5
4 •
Die Zufallsvariable N t besitzt also die Poisson-Verteilung 3 •
Po.t /. 2 •
1 •
Die Familie .N t / t 0 N0 -wertiger Zufallsvariablen heißt
Poisson-Prozess mit Intensität . Sie besitzt folgende cha- 0 S1 S2 S3 S4 S5 S6 S7 S8 t
rakteristische Eigenschaften (die üblicherweise zur Definiti-
on eines Poisson-Prozesses dienen): Realisierung eines Poisson-Prozesses
5.5 Charakteristische Funktionen (Fourier-Transformation) 159

Übersicht: Stetige Verteilungen

Verteilung Dichte Bereich Erwartungswert Varianz


1 aCb .b  a/2
U.a; b/ a<x<b
ba 2 12
1 1
Exp./  exp.x/ x>0
 2
 
1 .x  /2
N.;  2 / p exp  2
x2R  2
 2 2
˛ ˛1 ˛ ˛
 .˛; / x exp.x/ x>0
 .˛/  2
   
 .1 C 1=˛/  1 C ˛2   2 1 C ˛1
Wei.˛; / ˛x ˛1 exp .x ˛ / x>0
1=˛ 2=˛
   
1 .log x  /2 2 2
LN.;  2 / p exp  x>0 exp  C e2C .exp. 2 /  1/
 x 2 2 2 2
ˇ
C.˛; ˇ/ x2R existiert nicht existiert nicht
.ˇ 2 C .x  ˛/2 /
 
1 1
Nk .; ˙ / p exp  .x  /> ˙ 1 .x  / x 2 Rk  ˙ (Kovarianzmatrix)
.2/k=2 det ˙ 2

Die in Abb. 5.28 skizzierte Dichte der Lognormalverteilung ist


rechtsschief, d. h., sie steigt schnell an und fällt dann nach Er- Satz über Eigenschaften der Lognormalverteilung
reichen des Maximums langsamer wieder ab. Besitzt die Dichte
f einer Zufallsvariablen X ein eindeutiges Maximum, so be- Die Zufallsvariable X besitze die Lognormalverteilung
zeichnet man den Abszissenwert, für den dieses Maximum LN.;  2 /. Dann gelten:
angenommen wird, als Modalwert von f (von X ) und schreibt a) Mod.X / D exp.   2 /,
hierfür Mod.X /. Das nachstehende Resultat, dessen Beweis Ge-
b) Q1=2 D exp./,
genstand von Aufgabe 5.32 ist, rechtfertigt die in Abb. 5.28
dargestellte Reihenfolge zwischen Modalwert, Median und Er- c) E X D exp. C  2 =2/,
wartungswert der Lognormalverteilung. d) V .X / D exp.2 C  2 /.exp. 2 /  1/.

f (x)
Die behandelten stetigen Verteilungen sind tabellarisch in der

Kapitel 5
Übersicht dargestellt.

5.5 Charakteristische Funktionen


(Fourier-Transformation)
Charakteristische Funktionen sind ein wichtiges Hilfsmittel der
analytischen Wahrscheinlichkeitstheorie, insbesondere bei der
x
Charakterisierung von Verteilungen und der Herleitung von
Median
Grenzwertsätzen. In diesem Abschnitt stellen wir die wich-
Modalwert Erwartungswert tigsten Eigenschaften charakteristischer Funktionen vor und
beginnen dabei mit einem kleinen Exkurs über komplexwerti-
Abb. 5.28 Dichte der Lognormalverteilung ge Zufallsvariablen.
160 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Ist .˝; A; P / ein im Folgenden fest gewählter Wahrscheinlich- Besitzt X eine Dichte f , so berechnet sich 'X gemäß
keitsraum, und sind U , V reelle Zufallsvariablen auf ˝, so ist
Z WD U C iV eine C-wertige Zufallsvariable auf ˝. Hierbei ist Z1
C mit der -Algebra B.C/ WD ffu C iv j .u; v/ 2 Bg W B 2 B2 g 'X .t / D eitx f .x/ dx
versehen. Das Symbol i bezeichne die imaginäre Einheit in C; 1
es gilt also i2 D 1. Ist Z D U C iV eine komplexwer- Z1 Z1
tige Zufallsvariable mit Realteil U D Re Z und Imaginärteil D cos.tx/f .x/ dx C i sin.tx/f .x/ dx:
V D Im Z, so definieren wir
1 1

EZ WD EU C i EV ; Ist X diskret verteilt mit P .X 2 fx1 ; x2 ; : : :g/ D 1, so gilt


X
falls EU und EV und damit EjZj existieren. Die Rechenregeln 'X .t / D eitxk P .X D xk /
für Erwartungswerte bleiben auch für Zufallsvariablen mit Wer- k
X X
ten in C gültig. Zusätzlich gilt D cos.txk /P .X D xk / C i sin.txk /P .X D xk /:
k k
jEZj  EjZj: (5.63)

Zum Nachweis von (5.63) betrachten wir die Polarkoordinaten- Beispiel


Darstellung EZ D rei# mit r D jEZj und # D arg EZ. Wegen Eine Zufallsvariable X mit der Binomialverteilung Bin.n; p/
Re.ei# Z/  jZj folgt besitzt die charakteristische Funktion
   n
jEZj D r D E ei# Z 'X .t / D 1  p C peit ;
 
D E Re.ei# Z/  EjZj: denn es ist
!
  Xn
n k
Selbstfrage 16 E e itX
D p .1  p/nk eit k
Warum gilt E.cZ/ D c EZ für c 2 C? k
kD0
!
Xn
n  it k
D pe .1  p/nk ;
k
kD0
Definition der charakteristischen Funktion
sodass die binomische Formel die Behauptung liefert.
Es sei X eine reelle Zufallsvariable mit Verteilung P X und Im Fall X N.0; 1/ der Standardnormalverteilung gilt
Verteilungsfunktion F . Dann heißt die durch
 2
  t
'X .t / WD E eitX 'X .t / D exp  : (5.64)
2
Z1
D eitx P X .dx/ Zum Nachweis sei f .x/ WD .2/1=2 exp. 12 x 2 /, x 2 R,
gesetzt. Wegen f .x/ D f .x/ und f 0 .x/ D xf .x/ folgt
1
Z1
definierte Funktion 'X W R ! C die charakteristische 'X .t / D cos.tx/ f .x/ dx:
Funktion von X.
Kapitel 5

1

Mit dem Satz über die Ableitung eines Parameterintegrals am


Ende von Abschn. 8.6 und partieller Integration ergibt sich
Kommentar
Z1
Als Erwartungswert einer Funktion von X hängt 'X nicht
von der konkreten Gestalt des zugrunde liegenden Wahr- 'X0 .t / D sin.tx/  .x f .x// dx
scheinlichkeitsraums ab. Aus diesem Grund nennt man 'X 1
auch die charakteristische Funktion der Verteilung P X von Z1
X oder auch die charakteristische Funktion von F . Synonym D t cos.tx/ f .x/ dx
hierfür ist auch die Bezeichnung Fourier-Transformierte 1
(von X , von P X , von F ) gebräuchlich, wofür der Mathemati-
D t 'X .t /:
ker Jean-Baptiste-Joseph de Fourier (1768–1830) Pate steht.
Man beachte, dass 'X .t / wegen jeitX j  1 wohldefiniert ist. Die einzige Lösung dieser Differenzialgleichung mit der An-
Für eine N0 -wertige Zufallsvariable X haben wir in Abschn. fangsbedingung 'X .0/ D 1 ist 'X .t / D exp.t 2 =2/.
4.6 die erzeugende Funktion von X durch E.s X /, jsj  1, de- Besitzt X die Poisson-Verteilung Po./, so gilt
finiert. Für solche Zufallsvariablen wird also bei der Bildung
der charakteristischen Funktion formal s durch eit ersetzt. J 'X .t / D exp..eit  1//: J
5.5 Charakteristische Funktionen (Fourier-Transformation) 161

Selbstfrage 17 Im

Können Sie die charakteristische Funktion der Poisson-


Verteilung Po./ herleiten?

Die nachstehenden Eigenschaften folgen direkt aus der Defini- 0.5


tion. Dabei bezeichne wie üblich z D u  iv die zu z D u C iv
(u; v 2 R) konjugiert komplexe Zahl.

0.5 Re
Elementare Eigenschaften von 'X
Für die charakteristische Funktion 'X einer Zufallsvaria-
blen X gelten:
a) 'X .0/ D 1, j'X .t /j  1, t 2 R,
b) 'X ist gleichmäßig stetig,
c) 'X .t / D 'X .t /, t 2 R,
d) 'aX Cb .t / D eit b  'X .at /, a; b; t 2 R.
Abb. 5.29 Charakteristische Funktionen der Poisson-Verteilungen
Po./ mit  D 1 (blau),  D 5 (rot) und  D 10 (grün)
Beweis a) folgt unmittelbar aus der Definition von 'X und
(5.63). Zum Nachweis von b) schreiben wir im Folgenden ab-
kürzend ' D 'X . Mit (5.63) ergibt sich mit P .X 2 fa C hm j m 2 Zg D 1/ (Aufgabe 5.53). Für die
Poisson-Verteilung ist diese Eigenschaft mit a D 0 und h D 1
ˇ  ˇ erfüllt.
j'.t C h/  '.t /j D ˇE ei.t Ch/X  eitX ˇ
Die folgenden Ergebnisse zeigen, dass die Existenz von Mo-
D jE.eitX .eihX  1//j
menten von X mit Glattheitseigenschaften von 'X verknüpft ist.
 EjeihX  1j:

Nach dem Satz über die Stetigkeit eines Parameterintegrals am Charakteristische Funktionen und Momente
Ende von Abschn. 8.6 gilt limh!0 EjeihX  1j D 0. Zusammen Gilt EjX jk < 1 für ein k  1, so ist 'X k mal stetig
mit der obigen Ungleichungskette folgt die gleichmäßige Ste- differenzierbar, und es gilt für r D 1; : : : ; k
tigkeit von '. Der Nachweis von c) und d) ist Gegenstand von
Aufgabe 5.50.  Z1
.r/ dr 'X
'X .t / D .t / D .ix/r eitx P X .dx/; t 2 R;
dt r
Beispiel (Normalverteilung N.;  2 /) Wegen X0 1
N.0; 1/ H) X WD X0 C  N.;  2 / ist die charakteristi-
insbesondere also
sche Funktion der Normalverteilung N.;  2 / nach Eigenschaft
d) mit a D  und b D  und 'X0 .t / D exp.t 2 =2/ durch .r/
'X .0/ D ir EX r ; r D 1; : : : ; k: (5.66)
 

Kapitel 5
 2t 2 Mit der Abkürzung x ^ y WD min.x; y/ gilt weiter für
'X .t / D exp it  ; t 2 R; (5.65)
2 jedes t 2 R
ˇ ˇ  
gegeben. J ˇ Xk
.it /r ˇ 2jtX jk jtX jkC1
ˇ rˇ
ˇ X
' .t /  EX ˇ  E ^
ˇ rŠ ˇ kŠ .k C 1/Š
rD0
Nach Eigenschaft a) liegen die Werte der charakteristischen
(5.67)
Funktion im abgeschlossenen Einheitskreis der komplexen Zah-
lenebene. Dass im Fall einer standardnormalverteilten Zufalls-
variablen X nur reelle Werte auftreten, liegt daran, dass die
Verteilung von X symmetrisch zu null ist (siehe Aufgabe 5.8). Beweis Mit ' WD 'X gilt für h 2 R mit h ¤ 0
Allgemein ist das Bild f'X .t / j t 2 Rg eine Kurve im Einheits- Z  ihx 
'.t C h/  '.t / e 1
kreis. Da die Funktion t 7! eit 2-periodisch ist, besitzen auch D eitx P X .dx/:
die charakteristischen Funktionen der Binomialverteilung und h h
der Poisson-Verteilung diese Periode. Abb. 5.29 zeigt die Kur- Wegen
ven t 7! 'X .t /, 0  t  2 für die Poisson-Verteilungen Po./ ˇ ihx ˇ
ˇe  1ˇ eihx  1
mit  D 1 (blau),  D 5 (rot) und  D 10 (grün). Gilt allge- ˇ ˇ
ˇ h ˇ  jxj und lim
h
D ix
mein j'X .2=h/j D 1 für ein h > 0, so existiert ein a 2 R h!0
162 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

liefert der Satz von der Ableitung eines Parameterintegrals am Beweis Es sei o.B.d.A. n D 2 und abkürzend X D X1 , Y D
Ende von Abschn. 8.6 die Existenz der Ableitung ' 0 von ' und X2 gesetzt. Da sich die Multiplikationsformel für Erwartungs-
die Identität werte unabhängiger reeller Zufallsvariablen durch Zerlegung in
Z Real- und Imaginärteil unmittelbar auf C-wertige Zufallsvaria-
' 0 .t / D ix eitx P X .dx/; t 2 R: blen überträgt und mit X und Y auch eitX und eit Y unabhängig
sind, folgt
Die Darstellung für ' .r/ .t / ergibt sich jetzt durch Induktion über  
r, 1  r  k. Zum Nachweis der Abschätzung (5.67) verwen- 'X CY .t / D E eit .X CY /
den wir, dass für den Restterm  
D E eitX eit Y
   
Xk
.ix/r D E eitX E eit Y
Rk .x/ WD eix  ; x 2 R; k 2 N0 ;
rD0
rŠ D 'X .t / 'Y .t /: 

der Exponentialreihe die Ungleichung


Selbstfrage 18
2jxjk jxjkC1
jRk .x/j  ^ ; x 2 R; k 2 N0 ; (5.68) Können Sie die Formel E.W Z/ D EW EZ für unabhängi-
kŠ .k C 1/Š ge C-wertige Zufallsvariablen aus der Multiplikationsformel für
gilt. Der Beweis von (5.68) erfolgt durch Induktion über k. Of- Erwartungswerte reeller Zufallsvariablen herleiten?
fenbar ist
Zx
R0 .x/ D e  1 D ieiy dy:
ix
Aus der charakteristischen Funktion erhält man
0
die Verteilungsfunktion
Aus diesen beiden Gleichungen ergibt sich
jR0 .x/j  2 und jR0 .x/j  jxj; Die nächsten Resultate rechtfertigen die Namensgebung charak-
teristische Funktion. Sie zeigen, dass die Kenntnis von 'X zur
womit der Induktionsanfang gezeigt ist. Wegen Bestimmung der Verteilung von X ausreicht.
Zx
RkC1 .x/ D i Rk .y/ dy
Satz über Umkehrformeln
0
Es sei X eine Zufallsvariable mit Verteilungsfunktion F
folgt für jedes k  0
und charakteristischer Funktion '. Dann gelten:
Zx
2jyjk 2jxjkC1 a) Sind a; b 2 R mit a < b, so gilt
jRkC1 .x/j  dy  ;
kŠ .k C 1/Š
0 ZT
Zx 1 eit a  eit b
jyj kC1
jxj kC2 lim  '.t / dt
T !1 2 it
jRkC1 .x/j  dy  T
.k C 1/Š .k C 2/Š
0 1 1
D P .X D a/ C P .a < X < b/ C P .X D b/
Kapitel 5

und damit der Induktionsschluss. Abschätzung (5.67) erhält 2 2


man jetzt durch Ersetzen von x durch X in (5.68) und Bildung
(Umkehrformel für die Verteilungsfunktion).
des Erwartungswertes. 
b) Ist
Das folgende Resultat zeigt, dass sich charakteristische Funktio-
Z1
nen – ebenso wie erzeugende Funktionen N0 -wertiger Zufalls-
variablen – multiplikativ gegenüber der Addition unabhängiger j'.t /j dt < 1; (5.69)
Zufallsvariablen verhalten. 1

so besitzt X eine stetige beschränkte 1 -Dichte f , die


Die Multiplikationsformel für charakteristische Funk- durch
tionen
Z1
Für unabhängige Zufallsvariablen X1 ; : : : ; Xn gilt 1
f .x/ D eitx '.t / dt (5.70)
2
Y
n
1
'X1 C:::CXn .t / D 'Xj .t /; t 2 R:
j D1 gegeben ist (Umkehrformel für Dichten).
5.5 Charakteristische Funktionen (Fourier-Transformation) 163
R
1 1
Beweis a) Es sei für T > 0 b) Die durch f .x/ WD .2/ 1 eitx '.t / dt definierte Funk-
tion f W R ! C ist wegen
ZT
1 eit a  eit b
I .T / WD '.t / dt Z1
2 it 1
T jf .x/j  j'.t /j dt < 1
2 1 3 2
ZT it a Z 1
1 e  eit b 4
D eitx P X .dx/5 dt
2 it beschränkt. Weiter gilt
T 1

gesetzt. Wegen Z1
1
ˇ ˇ jf .x/  f .y/j  jeitx  eity j j'.t /j dt ;
ˇ it a ˇ ˇ Zb ˇ 2
ˇe e it b ˇ ˇ ˇ
ˇ ˇ D ˇ eit  d  ˇ  b  a 1
ˇ ˇ ˇ ˇ
it ˇ ˇ
a sodass der Satz von der dominierten Konvergenz die Stetigkeit
liefert der Satz von Fubini von f liefert. Für a; b 2 R mit a < b gilt mit dem Satz von
2 3 Fubini
Z1 ZT it .xa/ it .xb/
4 1 e  e
I .T / D dt 5 P X .dx/: Zb Zb Z1
2 it 1
1 T f .x/ dx D eitx '.t / dt dx
2
a a 1
Setzen wir
Z1 Zb
ZT 1
sin x D '.t / eitx dx dt
S.T / WD dx; T  0; 2
x 1 a
0
ZT
so folgt wegen 1 eit a  eit b
D lim '.t / dt ;
T !1 2 it
ZT T
sin t #
dt D sgn.#/S.T j#j/; T  0; # 2 R;
t sodass die Reellwertigkeit von f aus Teil a) folgt. Des Weiteren
0
ergibt sich die Stetigkeit von f sowie P X D f 1 . 
und Symmetrieüberlegungen
Z1 ZT Der Grenzwert in Teil a) des Satzes über Umkehrformeln ist
1 sin.t .x  a//  sin.t .x  b// gleich der Differenz F .b/  F .a/, wenn a und b Stetigkeits-
I .T / D dt P X .dx/
 t stellen von F sind. Da F durch die Werte F .a/ in allen
1 0
Stetigkeitsstellen eindeutig bestimmt ist, folgt aus der Gleich-
Z1 heit zweier charakteristischer Funktionen, dass die zugehörigen
D g.x; T / P X .dx/; Verteilungen identisch sind. In diesem Sinn charakterisiert 'X
1 die Verteilung von X . Wir halten dieses Ergebnis wie folgt fest:
wobei
sgn.x  a/S.T jx  aj/  sgn.x  b/ S.T jx  bj/
g.x; T / WD : Eindeutigkeitssatz für charakteristische Funktionen

Kapitel 5

Die Funktion g.x; T / ist beschränkt, und nach (8.76) gilt Sind X und Y Zufallsvariablen, so gilt:
8
ˆ P X D P Y () 'X .t / D 'Y .t /; t 2 R:
<0; falls x < a oder x > b;
a;b .x/ WD lim g.x; T / D 1=2; falls x D a oder x D b;
T !1 :̂1; falls a < x < b:
Der Zusammenhang zwischen der Existenz von Momenten von
Der Satz von der dominierten Konvergenz ergibt jetzt X und Differenzierbarkeitseigenschaften von 'X zeigt, dass das
Z1 Verhalten einer Verteilung „in den Flanken“ mit „Glattheitsei-
lim I .T / D a;b .x/ P
X
.dx/ genschaften“ der charakteristischen Funktion verknüpft ist. Wie
T !1 die gerade bewiesene Umkehrformel b) zeigt, hängt andererseits
1
das Verhalten der charakteristischen Funktion für jt j ! 1 mit
1 X 1
D P .fag/ C P X ..a; b// C P X .fbg/; „Glattheitseigenschaften“ der Verteilungsfunktion zusammen.
2 2 Diesbzgl. soll noch eine später benötigte Ungleichung bewiesen
was zu zeigen war. werden.
164 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Hintergrund und Ausblick: Charakteristische Funktionen von Zufallsvektoren

Auch für Zufallsvektoren lassen sich charakteristische Funk- Um die nichttriviale Richtung „(“ zu zeigen, beachte man
tionen definieren. Aus einem Eindeutigkeitssatz ergibt sich die Gültigkeit der Gleichungskette
der Satz von Radon-Herglotz-Cramér-Wold, wonach eine  > 
multivariate Verteilung durch die Verteilungen aller eindi- 'X .a/ D E eia X
mensionalen Projektionen festgelegt ist. Dieser Sachverhalt
bildet u. a. den Ausgangspunkt der Computertomographie. D 'a> X .1/ D 'a> Y .1/
 > 
Für einen k-dimensionalen Zufallsvektor X D .X1 ; : : : ; Xk /> D E eia Y D 'Y .a/; a 2 Rk :
heißt die durch
  Nach dem Eindeutigkeitssatz (5.71) folgt X Y.
'X .t / WD E exp.it > X/
Mithilfe dieses Satzes kann man die multivariate Normalver-
definierte Abbildung 'X W Rk ! C die charakteristische teilung auf anderem Weg und allgemeiner einführen: Fasst
Funktion von X. man eine Zufallsvariable, die einen Wert mit Wahrscheinlich-
keit 1 annimmt, also die Varianz 0 besitzt, als (ausgeartete)
Wie im Fall k D 1 gelten auch hier Normalverteilung auf, so definiert man:
'X .0/ D 1; j'X .t /j  1,
'X ist gleichmäßig stetig,
'X .t / D 'X .t /, Definition der allgemeinen k-dimensionalen Nor-
malverteilung
und direkt aus der Definition folgt das Verhalten
Der Zufallsvektor X D .X1 ; : : : ; Xk /> besitzt eine k-
>  
'AXCb .t / D eit b 'X A> t dimensionale Normalverteilung, falls gilt:

unter einer affinen Transformation x 7! Ax C b mit einer X


k

(n  k)-Matrix A und b 2 Rn . c> X D cj Xj ist normalverteilt 8c 2 Rk :


j D1
In Verallgemeinerung der Umkehrformel für die Verteilungs-
funktion gilt für jeden kompakten Quader B D Œa1 ; b1  
: : :  Œak ; bk   Rk mit der Eigenschaft, dass für jedes
j D 1; : : : ; k die Punkte aj und bj Stetigkeitsstellen der Ver- Aus dieser Definition folgt unmittelbar, dass jede s-Auswahl
teilungsfunktion von Xj sind, .Xi1 ; : : : ; Xis /> mit 1  i1 < : : : < is  k eine
s-dimensionale Normalverteilung besitzt und insbesondere
Z Yk jedes Xj normalverteilt ist. Außerdem existieren der Erwar-
1 eit a  eit b
P X .B/ D lim 'X .t / dt : tungswertvektor EX und die Kovarianzmatrix ˙.X/ von X.
T !1 .2/k D1
it Wegen
CT

E.c > X/ D c > EX; V .c > X/ D c > ˙.X/c; c 2 Rk ;


Dabei ist CT D ŒT ; T k und dt D dt1    dtk .
Da die Menge dieser Quader B die Voraussetzungen des folgt mit dem Satz von Radon-Herglotz-Cramér-Wold, dass
Kapitel 5

Eindeutigkeitssatzes für Maße erfüllt, gilt auch für k- die Verteilung von X durch  WD EX und ˙ WD
dimensionale Zufallsvektoren X und Y der Eindeutigkeits- ˙.X/ eindeutig festgelegt ist. Man sagt, X besitze eine k-
satz dimensionale Normalverteilung mit Erwartungswert  und
Kovarianzmatrix ˙ und schreibt hierfür X Nk .; ˙/.
X Y () 'X .t / D 'Y .t /; t 2 Rk : (5.71)
Die charakteristische Funktion 'X von X ist durch
Daran knüpft nahtlos ein bedeutendes Resultat der Mathema-  
tiker Johann Karl August Radon (1887–1956), Gustav Her- t > ˙t
>
'X .t / D exp i t  ; t 2 Rk ;
glotz (1881–1953), Harald Cramér (1893–1985) und Herman 2
Ole Andreas Wold (1908–1992) an.
gegeben. Diese Darstellung folgt aus der Verteilungsgleich-
heit t > X N.t > ; t > ˙t/ sowie (5.65). Die Existenz
Satz von Radon-Herglotz-Cramér-Wold
der Verteilung Nk .; ˙/ erhält man jetzt auch für nicht
unbedingt invertierbares ˙ aus der Cholesky-Zerlegung
Sind X und Y k-dimensionale Zufallsvektoren, so gilt ˙ D A A> und dem Ansatz X WD AY C  und Y D
X Y () a> X a> Y 8a 2 Rk : .Y1 ; : : : ; Yk /> mit unabhängigen, je N.0; 1/-verteilten Zu-
fallsvariablen Y1 ; : : : ; Yk .
5.6 Bedingte Verteilungen 165

zu einem sinnvollen stochastischen Modell führen. Durch Inte-


Wahrscheinlichkeits-Ungleichung für charakteristische gration über die möglichen Realisierungen z 2 Œ0; 1 von Z, die
Funktionen nach der Gleichverteilungs-Dichte auftreten, müsste sich dann
die Verteilung von X zu
Es sei X eine Zufallsvariable mit charakteristischer Funk-
tion '. Dann gilt für jede positive reelle Zahl a: Z1
  Za P .X D k/ D P .X D kjZ D z/ dz
1 7
P jX j   .1  Re '.t // dt : (5.72) 0
a a ! Z1
0
n
D z k .1  z/nk dz
k
0
Beweis Wegen u1 sin u  sin 1 für juj  1 und 1  sin 1  !
1 n kŠ.n  k/Š
7
folgt D
k .n C 1/Š
Za Z Za
1 1 1
.1  Re '.t // dt D .1  cos.tx// dt P X .dx/ D ; k D 0; 1; : : : ; n;
a a nC1
0 0
Z   ergeben. Die Verteilung von X sollte also die Gleichverteilung
sin.ax/
D 1 P X .dx/ auf den Werten 0; 1; : : : ; n sein. J
ax
Z  
sin.ax/
 1 P X .dx/ Selbstfrage 19
ax Warum gilt das vorletzte Gleichheitszeichen?
fjxj1=ag
Z
 .1  sin 1/ 1 P X .dx/
Dass wir auch in allgemeineren Situationen so vorgehen kön-
fjxj1=ag nen, zeigen die nachfolgenden Betrachtungen. Für diese ver-
 
1 1 wenden wir zunächst nicht die Sprache und Terminologie von
 P jX j  :  Zufallsvariablen oder Zufallsvektoren.
7 a

5.6 Bedingte Verteilungen Die Kopplung P1 ˝ P1;2 verknüpft


eine Startverteilung P1 mit einer
In Abschn. 3.1 haben wir mithilfe von Startverteilungen und Übergangswahrscheinlichkeit P1;2
Übergangswahrscheinlichkeiten mehrstufige stochastische Vor-
gänge modelliert. Wir lösen uns jetzt von den dort zugrunde Es seien ˝1 und ˝2 beliebige nichtleere Mengen, die mit -
gelegten abzählbaren Grundräumen und betrachten zur Einstim- Algebren Aj  P .˝j /, j D 1; 2, versehen seien. Wie früher
mung folgendes instruktive Beispiel. stehe ˝j für die Menge der möglichen Ergebnisse der j -ten Stu-
fe eines zweistufigen stochastischen Vorgangs. Weiter sei P1 ein
Beispiel (Bernoulli-Kette mit rein zufälliger Treffer- Wahrscheinlichkeitsmaß auf A1 , das als Startverteilung für die
wahrscheinlichkeit) In einem ersten Teilexperiment werde erste Stufe dieses Vorgangs diene.

Kapitel 5
die Realisierung z einer Zufallsvariablen Z mit der Gleich-
verteilung U.0; 1/ beobachtet. Danach führt man als zweites
Teilexperiment n-mal in unabhängiger Folge ein Bernoulli- Definition einer Übergangswahrscheinlichkeit
Experiment mit Trefferwahrscheinlichkeit z durch. Die Zufalls-
variable X beschreibe die Anzahl der dabei erzielten Treffer. In obiger Situation heißt eine Abbildung
Welche Verteilung besitzt X ?
P1;2 W ˝1  A2 ! R
Aufgrund der Rahmenbedingungen dieses zweistufigen stochas-
tischen Vorgangs hat X unter der Bedingung Z D z die
Binomialverteilung Bin.n; z/. Man beachte jedoch, dass wegen Übergangswahrscheinlichkeit von .˝1 ; A1 / nach
P .Z D z/ D 0 für jedes z die bedingte Wahrscheinlichkeit .˝2 ; A2 /, falls gilt:
P .X D kjZ D z/ nicht definiert ist. Trotzdem sollte die Fest- Für jedes !1 2 ˝1 ist P1;2 .!1 ; / W A2 ! R ein Wahr-
legung scheinlichkeitsmaß auf A2 ,
! Für jedes A2 2 A2 ist P1;2 .; A2 / W ˝1 ! R eine
n k
P .X D kjZ D z/ WD z .1  z/nk ; k D 0; 1; : : : ; n; .A1 ; B1 /-messbare Abbildung.
k
166 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Kommentar Diese Definition ist offenbar eine direkte Ver- zweimaliger Anwendung des Satzes von der monotonen Kon-
allgemeinerung von (3.2). Die Forderung nach der Messbarkeit vergenz
der Abbildung P1;2 .; A2 / W ˝1 ! R für festes A2 2 A2 ist
! Z 2Z 3
im diskreten Fall entbehrlich, da dann als -Algebra A1 die X
1
Potenzmenge P .˝1 / zugrunde liegt. Wie wir gleich sehen wer- P An D 4 1P An .!1 ; !2 / P1;2 .!1 ; d!2 /5 P1 .d!1 /
den, wird die Messbarkeit jedoch jetzt benötigt, wenn man die nD1 ˝1 ˝2
Startverteilung P1 und die Übergangswahrscheinlichkeit P1;2 zu 2 3
Z 1 Z
X
einem Wahrscheinlichkeitsmaß P auf der Produkt--Algebra 4
D 1An .!1 ; !2 /P1;2.!1 ; d!2 /5 P1 .d!1 /
A1 ˝ A2 über ˝1  ˝2 koppelt. J
˝1 nD1 ˝
2
2 3
1 Z
X Z
Existenz und Eindeutigkeit der Kopplung D 4 1An .!1 ; !2 / P1;2 .!1 ; d!2 /5 P1 .d!1 /
nD1 ˝
Es seien .˝1 ; A1 ; P1 / ein Wahrscheinlichkeitsraum, 1 ˝2
.˝2 ; A2 / ein Messraum und P1;2 eine Übergangswahr- X
1

scheinlichkeit wie oben. Dann wird durch D P .An /:


2 3 nD1
Z Z
P .A/ WD 4 1A .!1 ; !2 /P1;2 .!1 ; d!2 /5 P1 .d!1 / Also ist P -additiv. Nach dem Eindeutigkeitssatz für Maße ist
P durch (5.74) eindeutig bestimmt. 
˝1 ˝2
(5.73)

ein Wahrscheinlichkeitsmaß P auf A WD A1 ˝ A2 defi- Die Verteilung eines Zufallsvektors .Z; X/ ist
niert. Es heißt Kopplung von P1 und P1;2 und wird mit durch P Z und die bedingte Verteilung PZX von X
P1 ˝ P1;2 bezeichnet. P ist das einzige Wahrscheinlich- bei gegebenem Z festgelegt
keitsmaß auf A mit der Eigenschaft
Z Kommentar Die obige Vorgehensweise bedeutet für den
P .A1  A2 / D P1;2.!1 ; A2 / P1 .d!1 / (5.74) Spezialfall .˝1 ; A1 / D .Rk ; Bk /, .˝2 ; A2 / D .Rn ; Bn /, dass
A1 wir ein Wahrscheinlichkeitsmaß auf der -Algebra BkCn kon-
struieren können, indem wir ein Wahrscheinlichkeitsmaß P1 auf
für jede Wahl von A1 2 A1 und A2 2 A2 . Bk angeben und dann für jedes z 2 Rk ein Wahrscheinlich-
keitsmaß P1;2 .z; / auf Bn spezifizieren. Dabei muss nur die
Abbildung Rk 3 z 7! P1;2 .z; C / für jedes C 2 Bn messbar
sein.
Beweis Ist allgemein f W ˝1  ˝2 ! R eine nichtnega-
tive A-messbare Funktion, so ist (vgl. die Ausführungen vor Man beachte, dass wir mit der kanonischen Konstruktion Z WD
dem Satz von Tonelli in Abschn. 8.9) die Abbildung !2 7! idRk und X WD idRn die Kopplung P als gemeinsame Verteilung
f .!1 ; !2 / für jedes feste !1 2 ˝1 A2 -messbar und somit das zweier Zufallsvektoren Z und X ansehen können; es gilt also
innere Integral in (5.73) wohldefiniert. Zum Nachweis der Aus- P D P .Z;X/. Weiter ist P1 D P Z die (marginale) Verteilung von
sage Z, denn nach (5.74) gilt wegen P1;2.z; Rn / D 1 für jede Menge
B 2 Bk
Z
Kapitel 5

!1 7! f .!1 ; !2 /P1;2.!1 ; d!2 / ist A1 -messbar (5.75) P Z .B/ D P .Z;X/.B  Rn / D P .B  Rn /


Z
˝2
D P1;2 .z; Rn / P1 .dz/
überlege man sich unter Verwendung der Messbarkeitseigen- B
schaft von P1;2 .; A2 / bei festem A2 , dass das Mengensystem D P1 .B/:
D WD fA 2 A j (5.75) gilt für f D 1A g ein Dynkin-System
ist, welches das \-stabile Erzeugendensystem fA1  A2 W A1 2 Die Übergangswahrscheinlichkeit P1;2 wird in diesem Fall als
A1 ; A2 2 A2 g von A enthält. Da für ein \-stabiles Mengen- bedingte Verteilung von X bei gegebenem Z bezeichnet und
system die erzeugte -Algebra gleich dem erzeugten Dynkin- mit dem Symbol
System ist, folgt dann D D A, und die noch vorzunehmende
Erweiterung von Indikatorfunktionen auf nichtnegative messba- PZX WD P1;2
re Funktionen geschieht durch algebraische Induktion. Somit ist
P wohldefiniert und offenbar nichtnegativ. Mit (5.74) gilt wei- beschrieben. Hiermit besteht also die „Kopplungs-Gleichung“
ter P .˝1  ˝2 / D 1. Ist .An / P eine Folge paarweise
P1 disjunkter
Mengen aus A, so folgt aus 1f 1 An g D 1fA n g unter
P .Z;X/ D P Z ˝ PZX : (5.76)
nD1 nD1
5.6 Bedingte Verteilungen 167

Das Wahrscheinlichkeitsmaß P1;2 .z; / heißt bedingte Vertei-


lung von X unter der Bedingung Z D z, und man schreibt
hierfür

PZDz
X
WD P1;2.z; /:

Gleichung (5.74) nimmt dann die Gestalt

P .Z;X/.B  C / D P .Z 2 B; X 2 C /
Z x
−4 −3 −2 −1 0 1 2 3 4
D PZDzX
.C / P Z .dz/; (5.77)
B
Abb. 5.30 Dichten f1 (blau) und f2 (rot) der Normalverteilungen
N.2; 1/ bzw. N.2; 1=2/ und Mischungsdichte 0:7f1 C 0:3f2 (orange)
B 2 B ; C 2 B , an. Setzt man speziell B D R , so ergibt sich
k n k

die Verteilung von X zu


Z Q.C /, z 2 Rn n M , zu setzen. Eine solche elementare beding-
P .C / D
X
PZDz
X
.C / P Z .dz/: (5.78) te Verteilung haben wir in Abschn. 4.5 für den Fall betrachtet,
Rn
dass auch X diskret verteilt ist. Dort ergab sich u. a., dass die
Binomialverteilung Bin.k; p/ mit p D =. C / als bedingte
Es ist üblich, auch Verteilung von X unter der Bedingung X C Y D k entsteht,
wenn X und Y unabhängig sind und die Poisson-Verteilungen
P .X 2 C jZ D z/ WD PZDz
X
.C / X Po./, Y Po./ besitzen.

zu schreiben, obwohl im Fall P .Z D z/ D 0 keine elementare Nimmt Z (ausschließlich) die Werte z1 ; : : : ; zs mit positiven
bedingte Wahrscheinlichkeit im Sinne von P .AjB/ D P .A \ Wahrscheinlichkeiten an, und besitzt der Zufallsvektor X unter
B/=P .B/ für P .B/ > 0 vorliegt. Gleichung (5.78) geht dann in der Bedingung Z D zj die Lebesgue-Dichte fj , j 2 f1; : : : ; sg,
so gilt
Z
Z
P .X 2 C / D P .X 2 C jZ D z/ P Z .dz/ (5.79)
P .X 2 C jZ D zj / D fj .x/ dx:
Rn
C
über. Da bzgl. der Verteilung von Z integriert wird, kann
der Integrand P .X 2 C jZ D z/ als Funktion von z nach Mit der Abkürzung pj WD P .Z D zj / erhalten wir dann
den in Abschn. 8.6 angestellten Überlegungen auf einer P Z - Z
Nullmenge modifiziert werden, ohne den Wert (D P .X 2 C /) P .X 2 C / D f .x/ dx;
des Integrals zu ändern.
C
Man beachte, dass wir im einführenden Beispiel zu diesem Ab-
schnitt die Verteilung von X nach Gleichung (5.79) hergeleitet wobei
haben. In der Situation des Beispiels ist C D fkg, und die Inte-
gration P Z .dz/ bedeutet dz. J f .x/ WD p1 f1 .x/ C : : : C ps fs .x/; x 2 Rn ;

gesetzt ist. Die Dichte von X ist also eine Konvexkombina-

Kapitel 5
Beispiel (Spezialfall: Z ist diskret verteilt) Ist in der obi- tion der Dichten f1 ; : : : ; fs . Man spricht in diesem Fall auch
gen Situation Z ein diskreter Zufallsvektor, so kann man für von einer diskreten Mischung endlich vieler stetiger Verteilun-
jedes z 2 M WD fz 2 Rn j P .Z D z/ > 0g und jedes C 2 Bk gen und nennt f eine Mischungsdichte. Es kommt für diese
die elementare bedingte Wahrscheinlichkeit Bildung offenbar nicht auf die Werte z1 ; : : : ; zs an, sondern
nur auf die Wahrscheinlichkeiten p1 ; : : : ; ps . Mischungsvertei-
P .X 2 C ; Z D z/
PZDz
X
.C / WD P .X 2 C jZ D z/ D lungen treten etwa dann auf, wenn sich eine Population aus
P .Z D z/ Teilpopulationen zusammensetzt und ein Merkmal, das durch
eine Zufallsvariable X modelliert wird, in der j -ten Teilpo-
bilden. Nach der Formel von der totalen Wahrscheinlichkeit gilt
pulation eine Dichte fj besitzt, j D 1; : : : ; s. Tritt bei rein
dann
zufälliger Auswahl eines Elementes der Population mit der
X
P .X 2 C / D P .X 2 C jZ D z/ P .Z D z/; Wahrscheinlichkeit pj ein Element der j -ten Teilpopulation auf,
z2M
so hat X die Mischungsdichte p1 f1 C : : : C ps fs . Abb. 5.30
zeigt zwei Normalverteilungsdichten und eine daraus gebildete
was Gleichung (5.79) entspricht. In diesem Fall ist es irrele- Mischungsdichte. J
vant, wie wir den Integranden in (5.79) auf der Menge Rn n M
definieren. Eine Möglichkeit wäre, ein beliebiges Wahrschein- Ein Spezialfall dieses Beispiels entsteht für eine Indikatorvaria-
lichkeitsmaß Q auf Bk zu wählen und P .X 2 C jZ D z/ WD ble Z D 1A mit A 2 A und P .A/ > 0. In diesem Fall heißt das
168 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

durch an. Schreiben wir M WD fz 2 Rn j g.z/ > 0g für den Positi-


vitätsbereich der Dichte g, so ist es offenbar unerheblich, wie
PAX .C / WD P .X 2 C j1A D 1/ D P .X 2 C jA/; C 2 Bn ; der Integrand P .X 2 C jZ D z/ als Funktion von z auf der
P Z -Nullmenge Rn n M definiert ist. Auch hier könnten wir
definierte Wahrscheinlichkeitsmaß PAX die bedingte Verteilung ein beliebiges Wahrscheinlichkeitsmaß Q auf Bk wählen und
von X unter (der Bedingung) A. P .X 2 C jZ D z/ WD Q.C /, z 2 Rn n M , setzen.
Man beachte, dass das einführende Beispiel zu diesem Ab-
schnitt einen Spezialfall dieses Beispiels darstellt. Aufgabe 5.34
Beispiel Es sei X U.B/ für eine beschränkte Borel-Menge
behandelt den Fall, dass Z eine Gamma-Verteilung besitzt und
B  Rn mit 0 < n .B/. Der Zufallsvektor X besitze also eine
die Zufallsvariable X bei gegebenem Z D z, z > 0, eine
Gleichverteilung auf B. Ist B0 2 Bn mit B0  B und n .B0 / >
Poisson-Verteilung Po.z/ hat. J
0, so gilt für jede Borel-Menge C 2 Bn

P .X 2 C ; X 2 B0 / Wir haben gesehen, dass man die gemeinsame Verteilung P .Z;X/


P .X 2 C jX 2 B0 / D eines Zufallsvektors .Z; X/ festlegen kann, indem man die Ver-
P .X 2 B0 / teilung P Z von Z und die bedingte Verteilung PZX von X bei
n .C \B0 /
n .B/
gegebenem Z spezifiziert. Dabei können Z und X Zufallsvek-
D n .B0 / toren beliebiger Dimensionen sein. Um gekehrt gilt, dass man
n .B/ eine gegebene gemeinsame Verteilung P .Z;X/ in die Marginal-
n
 .C \ B0 / verteilung P Z von Z und eine bedingte Verteilung PZX von X bei
D : gegebenem Z „zerlegen kann“, sodass die Kopplungsgleichung
n .B0 /
(5.76) erfüllt ist. Wir möchten diese nicht triviale Fragestellung
Die bedingte Verteilung von X unter der Bedingung X 2 B0 ist nicht im allgemeinsten Rahmen behandeln, sondern betrachten
also die Gleichverteilung auf B0 , d. h., es gilt die beiden Spezialfälle, dass .Z; X/ diskret verteilt ist oder ei-
ne Lebesgue-Dichte besitzt. Im ersten Fall ist die Existenz einer
PX2B
X
WD PfX2B
X
D U.B0 /: Zerlegung P .Z;X/ D P Z ˝ PZX schnell gezeigt, gilt doch
0 0g

P .Z D z; X D x/ D P .Z D z/  P .X D xjZ D z/
Als Konsequenz dieser Überlegungen bietet sich die folgen-
de Möglichkeit an, mithilfe von Pseudozufallszahlen, die im für jedes z 2 Rk mit P .Z D z/ > 0.
Intervall .0; 1/ gleichverteilt sind, Realisierungen eines Zufalls-
vektors X mit einer Gleichverteilung in einer eventuell recht Sind Z und X stetige Zufallsvektoren auf einem allgemeinen
komplizierten Borel-Menge B0 zu erhalten. GiltŚ B0  B für Wahrscheinlichkeitsraum, die die Dichten fZ bzw. fX und die
n gemeinsame Dichte fZ;X besitzen, so ist eine Bildung wie oben
einen achsenparallelen Quader der Gestalt B D j D1 Œaj ; bj ,
so erzeuge solange unabhängige und je in B gleichverteilte Zu- nicht möglich, da P .Z D z/ D 0 für jedes z 2 Rk gilt. In
fallsvektoren X1 ; X2 ; : : :, bis die Bedingung Xj 2 B0 erfüllt ist. diesem Fall erhält man wie folgt eine bedingte Verteilung von X
Im letzteren Fall liegt ein Zufallsvektor mit der Gleichvertei- unter der Bedingung Z:
lung U.B0 / vor. Eine Realisierung eines in B gleichverteilten
Zufallsvektors Y erzeugt man mithilfe von n unabhängigen und
je in .0; 1/ gleichverteilten Zufallsvariablen U1 ; : : : ; Un , indem Bedingte Dichte
man U ej WD aj C Uj .bj  aj /, 1  j  n, sowie X WD
Es seien Z und X k- bzw. n-dimensionale Zufallsvekto-
e1; : : : ; U
.U e n / setzt. Realisierungen der Uj gewinnt man mithilfe ren auf einem Wahrscheinlichkeitsraum .˝; A; P /. Der
J
Kapitel 5

von gleichverteilten Pseudozufallszahlen. Zufallsvektor .Z; X/ besitze die gemeinsame Dichte fZ;X .
Weiter seien fZ die marginale Dichte von Z und z 2 Rk
Selbstfrage 20 mit fZ .z/ > 0. Dann heißt die durch
Wie würden Sie die Gleichverteilung im Kreis K WD f.x; y/ 2
R2 j x 2 C y 2  1g simulieren? fZ;X .z; x/
f .xjz/ WD
fZ .z/

Wir betrachten jetzt den wichtigen Spezialfall, dass der Zufalls- definierte Funktion f .jz/ W Rn ! R die bedingte Dichte
vektor Z in (5.79) eine Lebesgue-Dichte besitzt. von X unter der Bedingung Z D z.

Beispiel (Spezialfall: Z ist stetig verteilt) Ist Z ein steti- Die Namensgebung bedingte Dichte wird dadurch gerechtfer-
ger Zufallsvektor mit Lebesgue-Dichte g, so nimmt Gleichung tigt, dass f .jz/ für festes z eine nichtnegative und nach Sätzen
(5.79) die spezielle Gestalt der Maßtheorie messbare Funktion ist, für die
Z Z
P .X 2 C / D P .X 2 C jZ D z/ g.z/ dz (5.80) f .xjz/ dx D 1
Rn Rn
5.6 Bedingte Verteilungen 169

gilt. Die bedingte Verteilung PZDz


X
von X bei gegebenem Z D Beweis Nach (5.73) gilt die Behauptung für Indikatorfunk-
z ist die Verteilung mit der Dichte f .jz/, d. h., es gilt für jede tionen und folglich mittels algebraischer Induktion auch für
Borel-Menge C  Rn nichtnegative messbare Funktionen. Ist f P1 ˝P1;2-integrierbar,
Z so ergibt sich mit Folgerung b) aus der Markov-Ungleichung in
PZDz .C / D P .X 2 C jZ D z/ D f .xjz/ dx:
X Abschn. 8.6, dass für P1 -fast alle !1 2 ˝1 der auf der rechten
Seite von (5.81) in Klammern stehende Integrand endlich und
C
somit f .!1 ; / bzgl. P1;2 .!1 ; /-integrierbar ist. Also ist die Ab-
Damit auch für den mit Wahrscheinlichkeit null eintretenden bildung
Fall fZ .z/ D 0 eine bedingte Verteilung von X unter der Be- Z
dingung Z D z definiert ist, wählen wir eine beliebige Dichte !1 7! f .!1 ; !2 / P1;2.!1 ; d!2 /
g0 auf Rn und treffen für solche z die Festsetzung f .xjz/ WD ˝2
g0 .x/, x 2 Rn . Wie man direkt überprüft, gilt dann Gleichung
(5.77). P1 -fast sicher definiert, und die Zerlegung f D f C  f  liefert
die Behauptung. 
Selbstfrage 21
Können Sie Gleichung (5.77) nachrechnen? Spezialisiert man dieses Ergebnis auf die Situation zu Beginn
des Kommentars nach dem Satz über die Existenz und Eindeu-
tigkeit der Kopplung zu Beginn dieses Abschnitts, so ergibt sich:
Beispiel Der Zufallsvektor .X ; Y / besitze eine Gleichvertei-
lung im Bereich A WD f.x; y/ 2 Œ0; 12 j 0  x  y  1g
Iterierte Erwartungswertbildung
(Abb. 5.11 links), also die Dichte h.x; y/ WD 2, falls .x; y/ 2 A
und h.x; y/ WD 0 sonst. Die marginale Dichte f von X ist durch Es seien Z und X ein k- bzw. n-dimensionaler Zufallsvek-
f .x/ D 2.1  x/ für 0  x  1 sowie f .x/ D 0 sonst, ge- tor auf einem Wahrscheinlichkeitsraum .˝; A; P /. Weiter
geben (blauer Graph in Abb. 5.11 rechts). Für 0  x < 1 gilt sei f W RkCn ! R eine messbare Funktion derart, dass
f .x/ > 0, und wir erhalten die bedingte Dichte von Y unter der Ejf .Z; X/j < 1. Dann gilt
Bedingung X D x zu Z
h.x; y/ 2 1 Ef .Z; X/ D E Œf .Z; X/jZ D z P Z .dz/:
f .yjx/ D D D
f .x/ 2.1  x/ 1x Rk

für x  y  1 und f .yjx/ D 0 sonst. Die bedingte Verteilung Hierbei ist


von Y unter der Bedingung X D x ist also die Gleichverteilung Z
U.x; 1/. EŒf .Z; X/jZ D z WD X
f .z; x/PZDz .dx/
In gleicher Weise ist die bedingte Verteilung von X unter der Rn
Bedingung Y D y, 0 < y  1, die Gleichverteilung auf dem
Intervall .0; y/. J der sog. bedingte Erwartungswert von f .Z; X/ unter
der Bedingung Z D z.
Sind .Z; X/ ein (k C n)-dimensionaler Zufallsvektor wie im
Kommentar nach dem Satz über die Existenz und Eindeutigkeit
der Kopplung und f W RkCn ! R eine messbare Funktion, so Im Fall n D 1 ist X eine reelle Zufallsvariable, sodass Kenngrö-
kann man den Erwartungswert Ef .Z; X/ – sofern dieser exis- ßen der bedingten Verteilung von X unter der Bedingung Z D z
tiert – iteriert berechnen. Die maßtheoretische Grundlage hierfür bestimmt werden können. Für den Spezialfall f .x; z/ D x er-

Kapitel 5
ist der nachfolgende Satz von Fubini für Übergangswahrschein- gibt sich dann aus obigem Resultat:
lichkeiten.
Bedingter Erwartungswert
Satz von Fubini für P1 ˝ P1;2 Es seien X eine Zufallsvariable Z ein k-dimensionaler Zu-
Ist in der Situation des Satzes über die Existenz und Ein- fallsvektor. Falls EjX j < 1, so gilt
deutigkeit der Kopplung f W ˝1  ˝2 ! R eine A1 ˝ Z
A2 -messbare nichtnegative oder P1 ˝ P1;2 -integrierbare E.X / D E.X jZ D z/ P Z .dz/: (5.82)
Funktion, so gilt Rk
Z
Dabei ist
f dP1 ˝ P1;2 (5.81) Z
˝1 ˝2 E.X jZ D z/ WD x PZDz
X
.dx/ (5.83)
2 3
Z Z R
D 4 f .!1 ; !2 /P1;2.!1 ; d!2 /5 P1 .d!1 /: der bedingte Erwartungswert von X unter der Bedin-
˝1 ˝2 gung Z D z.
170 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Beispiel: Marginale und bedingte Verteilungen bei multivariater Normalverteilung

Es seien X ein k- und Y ein `-dimensionaler Zufallsvektor. an. Somit folgt h.x; y/ D u.x; y/v.y/, wobei
Der .k C `/-dimensionale Zufallsvektor .X; Y/ besitze eine
 
nichtausgeartete Normalverteilung. Welche bedingte Vertei- 1 .x  /> .A1 /1 .x  /
lung besitzt X unter der Bedingung Y D y? u.x; y/ D exp  ;
.2/k=2jA1 j1=2 2
 
Problemanalyse und Strategie Wir notieren X und Y als 1 .y  /> S.y  /
v.y/ D exp  :
Spaltenvektoren und treffen die Annahme .2/`=2j˙j1=2 jAj1=2 2
! ! ! !
X  ˙11 ˙12 Da u.; y/ die Dichte der Normalverteilung Nk .; A1 / dar-
NkC` ; ˙ ; wobei ˙ D :
Y  ˙21 ˙22 stellt und sich die marginale
R Dichte g von Y durch Integra-
tion gemäß g.y/ D h.x; y/dx ergibt sowie v.y/ nicht von
Hierbei bezeichnen ˙11 und ˙22 die k-reihigen bzw. `- x abhängt, gilt g.y/ D v.y/, y 2 R` , d. h., v ist die margina-
reihigen Kovarianzmatrizen von X bzw. Y, ˙12 die (k  le Dichte von Y.
`)-Matrix der „Kreuz-Kovarianzen“ Cov.Xi ; Yj / (1  i 
k; 1  j  `) und ˙21 deren Transponierte sowie Aus (5.87) und (5.86) erhält man ˙22 S D S˙22 D I` und
X1 ; : : : ; Xk bzw. Y1 ; : : : ; Y` die Komponenten von X bzw. Y. 1
somit S D ˙22 R Y N` .; ˙22 /, denn die
. Hiermit folgt
Weiter seien h die gemeinsame Dichte von X und Y sowie f Normierungsbedingung 1 D g.y/ dy liefert ohne Matri-
und g die marginalen Dichten von X bzw. Y. Wir bestimmen zenrechnung die Identität j˙j1=2 jAj1=2 D j˙22 j1=2 .
zunächst g und dann die bedingte Dichte von X unter der
Bedingung Y D y als Quotienten h.x; y/=g.y/. Man beachte, dass wir in Verallgemeinerung der Folge-
rung aus dem Additionsgesetz für die Normalverteilung in
Lösung Schreiben wir kurz Abschn. 5.2 gezeigt haben, dass auch die gemeinsame Vertei-
! lung irgendwelcher Komponenten eines multivariat normal-
  x verteilten Zufallsvektors eine multivariate Normalverteilung
Q.x; y/ WD .x  /> .y  / >
˙ 1
y ist.

und setzen allgemein jDj WD detD für eine quadratische Die Darstellung h.x; y/ D u.x; y/g.y/ liefert auch, dass
Matrix D, so gilt nach Definition einer multivariaten Nor- u.x; y/ D h.x; y/=g.y/ die bedingte Dichte von X unter
malverteilung der Bedingung Y D y ist. Aus der Gestalt von u.x; y/ ist
  klar, dass die bedingte Verteilung von X unter der Bedingung
1 Q.x; y/
h.x; y/ D exp  : Y D y die Normalverteilung Nk .  A1 B.y  /; A1 / ist.
.2/.kC`/=2j˙j1=2 2
Um die Matrizen A1 B und A1 in Abhängigkeit von ˙ij
Partitioniert man die Inverse ˙ 1 von ˙ gemäß (i; j 2 f1; 2g) auszudrücken, verwenden wir Gleichung
!1 ! (5.86), wonach B > D ˙22 1
˙21 A gilt. Setzt man diesen
˙11 ˙12 A B >
Ausdruck für B in (5.84) ein, so ergibt sich A D .˙11 
DW ;
˙21 ˙22 B> C 1
˙12 ˙22 ˙21 /1 und somit

so liefern die Bedingungen ˙˙ 1 D ˙ 1 ˙ D IkC` die


Kapitel 5

A1 D ˙11  ˙12 ˙22


1
˙21 :
Gleichungen
˙11 A C ˙12 B > D Ik ; (5.84) Zusammen mit (5.85) und (5.87) ergibt sich weiter
˙11 B C ˙12 C D 0; (5.85)
A1 B D .˙11  ˙12 ˙22
1
˙21 /B
˙21 A C ˙22 B > D 0; (5.86) 1
D ˙12 .C C ˙22 .I`  ˙22 C //
˙21 B C ˙22 C D I` : (5.87)
1
D ˙12 ˙22 :
Mit den Abkürzungen
1
 WD   A1 B.y  /; Mit ˙22:1 WD ˙11  ˙12 ˙22 ˙21 gilt also
S WD C  B > A1 B
PYDy
X 1
D Nk . C ˙12 ˙22 .y  /; ˙22:1 /: (5.88)
nimmt dann die quadratische Form Q die Gestalt
In der numerischen Mathematik nennt man die Matrix ˙22:1
Q.x; y/ D .x  /> A.x  / C .y  /> S.y  / das Schur-Komplement von ˙11 in ˙.
5.7 Bedingte Erwartungen 171

Der bedingte Erwartungswert E.X jZ D z/ ist also nichts an- 5.7 Bedingte Erwartungen
deres als der Erwartungswert der bedingten Verteilung von X
unter der Bedingung Z D z. Besitzt X unter der Bedingung In Abschn. 4.5 hatten wir für eine auf einem diskreten Wahr-
Z D z die bedingte Dichte f .jz/, so gilt scheinlichkeitsraum definierte Zufallsvariable mit EjX j < 1
Z und ein Ereignis A mit P .A/ > 0 den bedingten Erwartungs-
E.X jZ D z/ D x f .xjz/ dx: wert
R 1 X
E.X jA/ WD X .!/ P .f!g/
P .A/ !2A\˝
Man beachte auch, dass Gleichung (5.82) eine Verallgemeine- 0

rung von (4.46) darstellt. von X unter der Bedingung A definiert. Dabei ist ˝0 eine ab-
zählbare Teilmenge der potenziell überabzählbaren Menge ˝
Beispiel (Bivariate Normalverteilung) Der Zufallsvektor mit P .˝0/ D 1.
.X ; Y / besitze die nichtausgeartete bivariate Normalverteilung Ist Z ein k-dimensionaler Zufallsvektor auf ˝, der (nur) die
! !! Werte z1 ; z2 ; : : : mit positiven Wahrscheinlichkeiten annimmt,
  2  so lieferte die durch h.z/ WD E.X jZ D zj /, falls z 2
N2 ; ;
  2 fz1 ; z2 ; : : :g, und h.z/ WD 0, sonst, definierte Funktion h W Rk !
R im Fall E.X 2 / < 1 die Bestapproximation von X durch
wobei  D EX ,  D EY ,  2 D V .X /,  2 D V .Y /, D Z im quadratischen Mittel, und die durch E.X jZ/ WD h ı Z
.X ; Y /. definierte Zufallsvariable wurde bedingte Erwartung von Z bei
gegebenem Z genannt, siehe Abschn. 4.5.
Es liegt somit ein Spezialfall der allgemeinen Situation der gro-
ßen Beispiel-Box über marginale und bedingte Veteilungen bei
multivariater Normalverteilung mit k D ` D 1 und
E.X jG/ ist G-messbar und liefert gleiche
2 2
˙11 D . /; ˙22 D . /; ˙12 D . / Integrale wie X über die Mengen aus G
1
vor. Wegen ˙22 D  2 ist nach (5.88) die bedingte Verteilung In diesem Abschnitt knüpfen wir an die damaligen Betrach-
von X unter der Bedingung Y D y die Normalverteilung tungen an, legen aber jetzt einen beliebigen Wahrscheinlich-
keitsraum .˝; A; P / zugrunde. Weiter seien X eine reelle
   Zufallsvariable auf ˝ mit EjX j < 1 und G  A eine belie-
N  C .y  /;  2 .1  2 / :
 bige Sub--Algebra von A. Nehmen wir an, wir könnten (nur)
das Eintreten oder Nichteintreten der Ereignisse A aus G be-
Folglich gilt obachten. Gibt es unter dieser Bedingung eine Zufallsvariable,
 die messbar bzgl. G ist und eine möglichst gute Approxima-
E.X jY D y/ D  C .y  /I tion von X darstellt? Natürlich müssen wir spezifizieren, was

unter dem Wort „Approximation“ zu verstehen ist, denn wir
der bedingte Erwartungswert ist also eine affine Funktion von haben nicht E.X 2 / < 1 vorausgesetzt, was z. B. eine Approxi-
y. mation im quadratischen Mittel ermöglichen würde. Bevor wir
diese Spezifizierung vornehmen und einen entsprechenden Satz
Nach dem Satz über das Optimierungsproblem mina;b E.Y a formulieren, sei gesagt, dass im Fall des eingangs erwähnten
bX /2 in Abschn. 4.4 (unter Vertauschung der Rollen von X und k-dimensionalen Zufallsvektors Z die Sub--Algebra G gleich
Y ) wird die mittlere quadratische Abweichung E.X  a  bY /2

Kapitel 5
der von Z erzeugten -Algebra .Z/ D Z 1 .Bk / ist. Wir wer-
für die Wahl den auf diesen Punkt noch später zurückkommen.
Cov.X ; Y / 
bD D ;
V .Y /  Satz (Kolmogorov, 1933)

a D E.X /  bE.Y / D    Es seien X 2 L1 .˝; A; P / und G  A eine Sub--

Algebra von A. Dann existiert eine Zufallsvariable Y 2
minimal. Die sog. bedingte Erwartung L1 .˝; A; P / mit folgenden Eigenschaften:
 a) Y ist G -messbar.
E.X jY / D  C .Y  /
 b) Es gilt
Z Z
(vgl. Abschn. 5.7) liefert also eine Bestapproximation von X im
quadratischen Mittel durch eine affine Funktion von Y . Nach Y dP D X dP ; A 2 A: (5.89)
dem Satz über die bedingte Erwartung als Orthogonalprojektion A A
im nächsten Abschnitt ist diese Approximation sogar bestmög-
lich innerhalb der größeren Klasse aller messbaren Funktionen Die Zufallsvariable Y ist P -f.s. eindeutig bestimmt.
h.Y / von Y mit Eh.Y /2 < 1. J
172 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Beweis Wir überlegen uns zunächst die P -fast sichere Ein-


deutigkeit von Y und nehmen hierzu an, Y e wäre eine weitere Definition der bedingten Erwartung
R
Zufallsvariable mit obigen Eigenschaften. Dann gälte A .Y 
e/dP D 0 für jedes A 2 G . Wegen fY > Y eg 2 G und In obiger Situation heißt jede Zufallsvariable Y mit a) und
Y
e e b) bedingte Erwartung von X gegeben G (bzw. unter
fY < Y g 2 G (Y und Y sind G -messbar!) folgt
der Bedingung G), und man schreibt hierfür
Z Z
e
EjY  Y j D e
.Y  Y /dP  e/dP D 0
.Y  Y E.X jG / WD Y :
fY >e
Yg fY <e
Yg

e P -f.s.
und somit Y D Y Achtung Wir haben gesehen, dass die Zufallsvariable Y
Um die Existenz von Y zu zeigen, machen wir o.B.d.A. die An- nur P -f.s. eindeutig bestimmt ist. Insofern ist E.X jG / streng
nahme X  0. Durch genommen eine (nach obigem Satz nichtleere) Menge von
Z Zufallsvariablen, wobei je zwei Elemente dieser Menge mit
.A/ WD X dP ; A 2 G; Wahrscheinlichkeit eins übereinstimmen. So gesehen ist al-
so E.X jG / ein Element des Banach-Raumes L1 .˝; G ; P / der
A
Äquivalenzklassen P -fast sicher gleicher Zufallsvariablen, vgl.
wird ein Maß  auf G definiert, das als Maß mit der Dichte den Kommentar am Ende von Abschn. 8.7. In dieser Sichtweise
X bzgl. der Restriktion PjG von P auf G absolut stetig bzgl. nennt man jedes Element der Menge E.X jG / eine Version der
PjG ist. Der Satz von Radon-Nikodým zeigt, dass  eine mit bedingten Erwartung. Wir folgen aber dem allgemeinen Brauch,
Y bezeichnete Dichte bzgl. PjG besitzt. Nach Definition der jede Zufallsvariable Y mit den Eigenschaften a) und b) als be-
Radon-Nikodým-Dichte ist Y G -messbar, und es gilt dingte Erwartung von X gegeben G zu bezeichnen. Wichtig ist,
Z Z dass alle Gleichungen zwischen bedingten Erwartungen, wenn
.A/ D Y dPjG D Y dP ; A 2 G ; letztere als Zufallsvariablen angesehen werden, jeweils nur P -
fast sicher gelten. J
A A

was zu zeigen war.  Beispiel

Selbstfrage 22 Es gilt E.X jA/ D X .


Es gilt E.X jf;; ˝g/ D E.X /.
Warum kann in obigem Beweis o.B.d.A. X  0 angenommen
Es seiPJ  N0 eine mindestens zweielementige Menge und
werden?
˝ D j 2J Aj eine Zerlegung von ˝ in paarweise disjunkte
Mengen aus A sowie G WD .fAj j j 2 J g/ die von diesen
Kommentar Mengen erzeugte -Algebra. Es gilt (vgl. das Beispiel am
Ende von Abschn. 2.1)
Der obige Beweis trägt wenig zum Verständnis der Zufalls- X ˇ

ˇ
variablen Y bei; nicht nur aus diesem Grund werden wir spä- GD Aj ˇI  J : (5.90)
ter noch einen zweiten Beweis führen. Wichtig ist zunächst, j 2I
dass Sie sich die beiden an Y gestellten Bedingungen deut-
Mit J  WD fj 2 J j P .Aj / > 0g gilt dann
lich vor Augen führen. Die Forderung der G -Messbarkeit ist Z
umso schwerer zu erfüllen, je kleiner G als Sub--Algebra X 1
E.X jG / D 1fAj g  X dP : (5.91)
von A ist. Im Extremfall G D f;; ˝g sind nur konstante P .Aj /
Kapitel 5

j 2J 
Abbildungen G -messbar. Forderung b) der Gleichheit der In- Aj
tegrale von X und Y über jede Menge aus G reduziert sich In der Tat ist die mit Y abgekürzte rechte Seite als Abbil-
aber dann auf nur zwei Gleichungen, nämlich eine für A D ; dung auf ˝ konstant auf jeder der Mengen Aj , j 2 J , und
und eine zweite für A D ˝. Die zweite Gleichung ist nur damit G -messbar. Um Bedingung (5.89) nachzuprüfen, be-
erfüllt, wenn Y W E.X / gesetzt wird, und die erste gilt achten wir zunächst, dass für jedes i 2 J mit P .Ai / > 0 die
trivialerweise. Der andere Extremfall G D A ist ebenfalls Gleichheit Z Z
schnell abgehandelt: Hier kann man Y WD X setzen, denn X
Y dP D X dP (5.92)
ist ja dann G -messbar.
Durch die Bedingung a) der G -Messbarkeit ist die Zufallsva- Ai Ai

riable Y prinzipiell „einfacher“ als X . Die Forderung b) der besteht, denn für das Integral von Y über Ai liefert nur der
Gleichheit von Integralen präzisiert die oben noch vage ge- Summand mit j D i in (5.91) den Beitrag
haltene Formulierung, dass Y eine „Approximation von X “ Z Z Z
1
sein sollte. X dP  1 dP D X dP :
Bedingung (5.89) wird in der Folge auch oft in der Form P .Ai /
Ai Ai Ai

E.Y 1A / D E.X 1A/; A 2 G; Sollte J n J ¤ ; gelten, also ein i mit P .Ai / D 0 exis-


tieren, so gilt ebenfalls (5.92) mit dem Integralwert 0, denn


geschrieben. J Y verschwindet nach Konstruktion auf der P -Nullmenge Ai .
5.7 Bedingte Erwartungen 173

Da nach (5.90) jede Menge A aus G eine endliche oder ab- Gilt E.X 2 / < 1, so ist E.X jG/
zählbar unendliche Vereinigung von Mengen Ai mit (5.92)
ist, folgt (5.89). J
eine Orthogonalprojektion

Selbstfrage 23 Eine wichtige Eigenschaft bedingter Erwartungen im Falle qua-


dratisch integrierbarer Zufallsvariablen ist folgendes Resultat
P gilt für jedes i 2 J “, wenn die
Warum folgt (5.89) aus „(5.92)
über die Best-Approximation im quadratischen Mittel, vgl. den
Menge A die Gestalt A D i 2I Ai besitzt und I unendlich ist?
Satz über den bedingten Erwartungswert als beste Vorhersage
im quadratischen Mittel in Abschn. 4.5.
Man beachte, dass das letzte Beispiel den eingang geschilderten
und in Abschn. 4.5 behandelten Fall umfasst, dass die -Algebra
G
Pvon einem Zufallsvektor Z mit P .Z D zj / > 0, j 2 N, und
1 Bedingte Erwartung als Orthogonalprojektion
j D1 P .Z D zj / D 1 erzeugt wird. P
Wir müssen nur Aj WD
fZ D zj g, j  1, und A0 WD ˝ n . j 1 Aj / setzen. Dann ist Für X 2 L2 .˝; A; P / ist E.X jG / die Orthogonalpro-
(mit J WD N0 ) .Z/ gleich der in (5.90) stehenden -Algebra, jektion von X auf den Teilraum L2 .˝; G ; P / bzgl. des
und es gilt (positiv-semidefiniten) Skalarproduktes
X1 Z
1
E.X j.Z// D 1fAj g  X dP hU ; V i WD E.U V /
j D1
P .Z D zj /
fZDzj g

X
1 auf L2 .˝; A; P /. Mit kU k2 WD hU ; U i gelten
D 1fAj g  E.X jZ D zj / n o
j D1 kX  E.X jG /k2 D inf kX  W k2 j W 2 L2 .˝; G ; P /
D h.Z/
mit der in (4.44) angegebenen Funktion h. Dass im Fall G D sowie hX  E.X jG /; W i D 0, W 2 L2 .˝; G ; P /.
.Z/ (unter viel allgemeineren Bedingungen an Z) die bedingte
Erwartung eine Funktion von Z ist, ist ein wichtiger Sach-
verhalt, der aus dem am Ende dieses Abschnittes vorgestellten
Faktorisierungslemma folgt. Beweis
˚ Es seien L2 .G /  WD L2 .˝; G ; P / sowie WD
inf kX  W k W W 2 L2 .G / . Nach Definition von existiert
Abb. 5.31 illustriert die Situation des letzten Beispiels anhand
des Spezialfalls ˝ D .0; 1, A D B \ ˝ und der Gleich- eine Folge .Yn / aus L2 .G / mit limn!1 kX  Yn k D . Wegen
verteilung P auf ˝ sowie X D id˝ . Dabei wählen wir als
Sub--Algebra G das System G D .A1 ; A2 ; A3 ; A4 / mit Aj D kX  Ym k2 C kX  Yn k2
 2 1
..j  1/=4; j =4, j D 1; 2; 3; 4. Hier gelten  1 
Z D 2X  .Ym C Yn / C kYm  Yn k2
1 2j  1 2 2
X dP D ; j D 1; 2; 3; 4; 1
P .Aj / 8 2
 2 C kYm  Yn k 2
Aj 2
sowie
X 4
2j  1 ist .Yn / eine Cauchy-Folge in L2 .G /. Nach dem Satz von Riesz-
E.X jG / D 1fAj g: Fischer in Abschn. 8.7 ist der Raum L2 .G / vollständig, und
8
j D1 somit existiert ein Y aus L2 .G / mit limn!1 kYn  Y k D 0. Die

Kapitel 5
Minkowski-Ungleichung kX  Y k  kX  Yn k C kYn  Y k lie-
X(ω) (X|G)(ω)
fert beim Grenzübergang n ! 1 die Gleichheit kX  Y k D .
Wegen Y 2 L2 .G / ist Y nach Definition G -messbar, sodass
1
nur noch (5.89) zu zeigen ist. Hierzu beachten wir, dass mit
• W 2 L2 .G / und t 2 R auch Y C tW 2 L2 .G / gilt, was
3/4 kX  Y  tW k2  kX  Y k2 und folglich
•  
2t E W .X  Y / C t 2 kW k2  0 .t 2 R; W 2 L2 .G //
1/2


impliziert. Da t beliebig ist, ergibt sich
1/4
 
• E W .X  Y / D 0; W 2 L2 .G /; (5.93)
0 ( ]( ]( ]( ]
A1 A2 A3 A4 ω insbesondere also E .1A .X  Y // D 0, A 2 G . 
0 1 1 3 1
4 2 4

Abb. 5.31 Bedingte Erwartung am Beispiel ˝ D .0; 1, X D id˝ und Die nachstehenden Eigenschaften sind grundlegend im Umgang
der Gleichverteilung sowie G D  .A1 ; A2 ; A3 ; A4 / mit bedingten Erwartungen.
174 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Wählt
R man speziell Y R D 1B mit B 2 G , so geht (5.95) in
Eigenschaften bedingter Erwartungen A\B EŒX j G  dP D A\B X dP über. Wegen A \ B 2 G gilt
dann (5.95) nach Definition von E.X jG /. Der Rest der Behaup-
Seien .˝; A; P / ein Wahrscheinlichkeitsraum, G  A ei- tung folgt jetzt mit algebraischer Induktion. Für den Nachweis
ne Sub--Algebra von A und X ; Y 2 L1 .˝; A; P /. Dann von g) beachten wir zunächst, dass die Konstante E.X / G -
gelten (bei b)-h) jeweils P -f.s.): messbar ist. Zu zeigen bleibt
a) E .E.X jG // D E.X /.
EŒE.X jG /1A D EŒE.X /1A ; A 2 G:
b) Ist X G -messbar, so gilt E.X jG / D X .
c) E.aX C bY jG / D aE.X jG / C bE.Y jG /, a; b 2 R. Für beliebiges A 2 G sind nach Voraussetzung X und 1A
d) Falls X  Y P -f.s.,ˇsofolgt E.X jG /  E.Y jG /. unabhängige Zufallsvariablen. Nach Definition der bedingten
e) jE.X jG /j  E jX jˇG . Erwartung und mit der Multiplikationsformel für Erwartungs-
f) Es gelte EjX Y j < 1, und Y sei G -messbar. Dann folgt werte wird dann die linke Seite zu E.X 1A / D E.X /E.1A/, was
mit der rechten Seite übereinstimmt. Um das erste Gleichheits-
E .X Y jG / D Y E.X jG /: (5.94) zeichen in h) zu zeigen, sei A 2 F (und damit auch A 2 G ). Es
g) Sind .X / und G unabhängig, so gilt folgt
Z Z Z
ˇ
E.X jG / D E.X /: ˇ
E EŒX jG  F dP D EŒX jG  dP D X dP
A A A
h) Ist F  G eine weitere -Algebra, so gilt Z
ˇ ˇ D EŒX jF  dP :
E E.X jG /ˇF D E.X jF / D E E.X jF /ˇG :
A

Das zweite Gleichheitszeichen in h) gilt, weil E.X jF / G -


Kommentar Eigenschaft a) bedeutet, dass man E.X / durch messbar ist. 
iterierte Erwartungswertbildung berechnen kann, vgl. Abschn.
4.5. Die Eigenschaften c), d) und e) besagen, dass die Bil- Wir haben ohne Rückgriff auf den Satz von Radon-Nikodým
dung bedingter Erwartungen linear und monoton ist, und dass die Existenz der bedingten Erwartung E.X jG / nachgewiesen,
die Dreiecksungleichung gilt. Eigenschaft f) wird häufig ange- wenn X quadratisch integrierbar ist, also E.X 2 / < 1 gilt. Zu-
wandt. Sie bedeutet salopp formuliert, dass man G -messbare sammen mit der Monotonieeigenschaft d) kann man jetzt auch
Faktoren bei der Bildung der bedingten Erwartung gegeben G die Existenz von E.X jG / zeigen, wenn nur EjX j < 1 gilt.
„wie Konstanten behandeln und nach vorne ziehen kann“. Ei- Hierzu nehmen wir o.B.d.A. X  0 an (sonst: X D X C  X  ).
genschaft f) besagt, dass „eine von X unabhängige -Algebra Die Beweisidee besteht darin, Xn WD min.X ; n/ zu setzen. Es
beim Bedingen gestrichen werden kann“. Eigenschaft h) wird gelten Xn " X für n ! 1. Wegen E.Xn2 / < 1 gibt es nach
üblicherweise Turmeigenschaft genannt. J dem Satz über die bedingte Erwartung als Orthogonalprojektion
eine Zufallvariable Yn WD E.Xn jG /, n  1. Wegen Xn  XnC1
Beweis a) folgt aus (5.89) mit A WD ˝, und b) ergibt sich folgt mit der Monotonie der bedingten Erwartung Yn  YnC1
nach Definition der bedingten Erwartung. Zum Nachweis von c) P -f.s., n  1. Es gibt dann eine Menge ˝0 2 G mit P .˝0/ D 1,
beachten wir, dass die rechte Seite G -messbar ist, und für A 2 G sodass Y .!/ WD limn!1 Yn .!/, ! 2 ˝0 , existiert. Setzen wir
gilt mit der Abkürzung EG X WD E.X jG /, EG Y WD E.Y jG / Y .!/ WD 0, falls ˝ n ˝0 , so ist Y G -messbar, und es gilt für
EŒ1A .aEG X C bEG Y / D aE.1A EG X / C bE.1A EG Y / jedes A 2 G
Z h  i
Kapitel 5

D aE.1A X / C bE.1A Y /
Y dP D E Y 1A D E lim Yn 1A
D EŒ1A .aX C bY /: n!1
A
Dabei wurde beim zweiten Gleichheitszeichen die Definition h i

der bedingten Erwartung verwendet. Um d) zu zeigen, setzen D E lim .Yn 1A / D lim E Yn 1A
n!1 n!1
wir A WD fE.X jG / > E.Y jG /g. Es gilt A 2 G , und wegen
D lim E Xn 1A
X  Y P -f.s. folgt weiter n!1
h  i
0  EŒ1A .Y  X / D EŒ1A .E.Y jG /  E.X jG //: D E lim Xn 1A
n!1
Z
Da der Integrand E.Y jG /E.X jG / auf A strikt negativ ist, folgt
P .A/ D 0. Der Nachweis von e) ist Gegenstand von Aufgabe D E X 1A D X dP :
5.55. Für den Beweis von f) kann o.B.d.A. X  0 und Y  0 A
angenommen werden (sonst jeweils Zerlegung in Positiv- und
Somit folgt Y D E.X jG /.
Negativteil!). Die rechte Seite von (5.94) ist G -messbar. Zu zei-
gen ist Selbstfrage 24
Z Z
Y E.X jG / dP D X Y dP 8A 2 G : (5.95) Warum gelten in der obigen Gleichungskette das vierte, fünfte
und sechste Gleichheitszeichen?
A A
5.7 Bedingte Erwartungen 175

Z
(Ω, Z −1 (A )) (Ω , A )
Jensen-Ungleichung für bedingte Erwartungen
h
Seien g W R ! R eine konvexe Funktion und X 2 Y
L1 .˝; A; P / mit Ejg.X /j < 1. Ist G  A eine Sub-
-Algebra von A, so gilt ( , B)

 
E g.X /jG  g EŒX jG  P -f.s. Abb. 5.32 Zum Faktorisierunglemma

veranschaulicht. Der Beweis der Richtung „a) H) b)“ er-


Beweis Für x 2 R sei D C g.x/ die maximale Tangentenstei- folgt mithilfe algebraischer Induktion. Da wir eine Zerlegung
gung von g an der Stelle x, also der maximale Wert t mit in Positiv- und Negativteil vornehmen können, sei o.B.d.A.
P
Y  0 vorausgesetzt. Ist Y D jkD1 ˛j 1fAj g mit ˛j 2 R0 ,
g.y/  t .y  x/ C g.x/; y 2 R:
Aj D Z 1 .Aj0 /, Aj0 2 A0 , eine Elementarfunktion, so gilt mit
P
Die Abbildung R 3 x 7! D C g.x/ ist monoton wachsend, also h WD jkD1 ˛j 1fAj0 g die Beziehung Y D h ı Z. Ist Y  0, so
messbar. Damit ist D C g.EŒX jG / eine G -messbare Zufallsva- gilt Yn " Y mit Elementarfunktionen Yn und Yn D hn ı Z
riable. Es folgt (elementweise auf ˝) mit .A0 ; B/-messbaren Funktionen hn W ˝ 0 ! R. Dann ist
Y D h ı Z mit h D supn1 hn . 
g.X /  D C g.EŒX jG / .X  EŒX jG / C g.EŒX jG /
Gilt in der Situation des Satzes von Kolmogorov G D
und somit – wenn wir kurz EG X WD EŒX jG  setzen – Z 1 .A0 / D .Z/ für eine (A; A0 )-messbare Abbildung Z W
˝ ! ˝ 0 , so gibt es nach dem Faktorisierungslemma eine
EŒg.X /jG   EŒD C g.EG X /.X  EG X / C g.EG X /jG  (A0 ; B)-messbare Abbildung h W ˝ 0 ! R mit E.X j.Z// D
h ı Z.
D EŒD C g.EG X /.X  EG X /jG  C EŒg.EG X /jG 
D D C g.EG X /EŒX  EG X jG  C EŒg.EG X /jG 
D g.EŒX jG /: Faktorisierung der bedingten Erwartung
In obiger Situation heißt
Dabei wurde die Monotonie der bedingten Erwartung sowie
beim ersten Gleichheitszeichen deren Linearität verwendet. Das EŒX jZ WD EŒX j.Z/ D h ı Z
zweite Gleichheitszeichen folgt aus Eigenschaft f) der bedingten
Erwartung.  bedingte Erwartung von X gegeben Z (oder unter der
Bedingung Z ). Die Funktion h W ˝ 0 ! R heißt (eine)
Selbstfrage 25 Faktorisierung von EŒX jZ .
Warum gilt das letzte Gleichheitszeichen? Für z 2 ˝ 0 heißt

E.X jZ D z/ WD h.z/

Im Fall G D  .Z / ist E.X jG/ eine messbare (ein) bedingter Erwartungswert von X unter der Be-
Funktion von Z dingung Z D z.

Kapitel 5
Wir werden jetzt sehen, dass im Fall G D .Z/ für ei-
ne abstrakt-wertige Zufallsvariable Z die bedingte Erwartung Wegen .Z/ D Z 1 .A0 / gilt für jedes A0 2 A0
E.X jG / eine messbare Funktion von Z ist. Der Grund hierfür Z Z Z
ist das folgende Resultat. h dP Z D h ı Z dP D EŒX j.Z/ dP
A0 Z 1 .A0 / Z 1 .A0 /

Faktorisierungslemma und damit


Z Z
0 0
Seien ˝ ¤ ;, .˝ ; A / ein messbarer Raum sowie Z W h dP Z D X dP ; A0 2 A0 : (5.96)
˝ ! ˝ 0 , Y W ˝ ! R Abbildungen. Dann sind folgende A0 Z 1 .A0 /
Aussagen äquivalent:
Die sog. charakteristischen Gleichungen (5.96) legen die Funk-
a) Y ist .Z 1 .A0 /; B/-messbar. tion h P Z -fast sicher fest. Ist nämlich g W ˝ 0 ! R eine weitere
b) Es gibt eine .A0 ; B/-messbare Funktion h W ˝ 0 ! R Faktorisierung, so folgt durch zweifache Anwendung von Auf-
mit Y D h ı Z. gabe 8.42 Z Z
g dP Z D h dP Z
A0 A0
Beweis Die Implikation „b) H) a)“ gilt, da die Verkettung
messbarer Funktionen messbar ist. Die Situation ist in Abb. 5.32 für jedes A 2 A und damit g D h P Z -f.s.
0 0
176 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Dass die obige Definition von E.X jZ D z/ mit der in (5.83) In der Folge schreiben wir kurz .Xn / D .Xn /n0 .
gegebenen kompatibel ist, sieht man wie folgt ein: Ist Z wie in
(5.83) ein k-dimensionaler Zufallsvektor, und setzen wir Kommentar
Z
g.z/ WD x PZDz X
.dx/; Interpretiert man 0; 1; 2; : : : als Zeitpunkte, zu denen
R
man das Eintreten oder Nichteintreten der Ereignisse aus
F0 ; F1 ; F2 ; : : : beobachten kann, so spiegelt eine Filtration
z 2 Rk , für den Erwartungswert von X unter der bedingten als aufsteigende Folge von -Algebren den zeitlichen Verlauf
Verteilung PZDz
X
, so gilt mit T WD X  .1B ı Z/ für jedes B 2 Bk des mit der Inklusion FnC1
Fn verbundenen Informations-
Z Z
gewinns wider. Diese Vorstellung wird noch konkreter, wenn
X dP D T .Z; X / dP man die zu einer Folge .Xn / von Zufallsvariablen gehörende
Z1 .B/ ˝ natürliche Filtration F X betrachtet. Zu FnX gehören alle Er-
Z eignisse in A, die sich durch X0 ; : : : ; Xn beschreiben lassen.
D T .z; x/ P .Z;X /.dz; dx/ Offenbar ist die Folge .Xn / an F X adaptiert.
BR Der Begriff Stoppzeit hat einen Bezug zu Glücksspielen.
Z Die intuitive Vorstellung ist hier, ein Spiel zu einem zufalls-
D x  1B .z/ P .Z;X /.dz; dx/ abhängigen Zeitpunkt zu beenden. Bedingung (5.97) stellt
BR dann sicher, dass zum Stoppen kein Wissen aus der Zukunft
Z Z  verwendet wird, sondern nur die bis zum Zeitpunkt n vor-
D x PZDz
X
.dx/ P Z .dz/ handene Information einfließt.
B R Aus (5.97) folgt f D kg 2 Fk  Fn für jedes k  n und
Z somit
D g dP Z :
[
n
B f  ng D f D kg 2 Fn :
Diese Gleichungskette zeigt, dass die Funktion g in der Tat die kD0
charakteristischen Gleichungen (5.96) erfüllt.
Umgekehrt ergibt sich aus f  ng für jedes n  0 die Be-
ziehung f D ng D f  ng n f  n  1g 2 Fn . Somit ist
5.8 Stoppzeiten und Martingale (5.97) zu

In diesem Abschnitt lernen wir Stoppzeiten und Martingale f  ng 2 Fn für jedes n  0


kennen. Martingale bilden eine grundlegende Klasse stochas-
tischer Prozesse mit mannigfachen Anwendungen. Sie dienen äquivalent. Hieraus erhält man leicht (Aufgabe 5.56), dass
u. a. als Modelle für faire Spiele. Mit dem Begriff einer Stopp- mit Stoppzeiten  und  bzgl. einer Filtration F auch
zeit verbindet man wohl am ehesten die Vorstellung, einen max.; /, min.; / und  C  Stoppzeiten bzgl. F sind.
stochastischen Vorgang zu einem zufallsabhängigen Zeitpunkt Falls nur endlich viele Zufallsvariablen X0 ; : : : ; Xm vor-
zu beenden. Im Folgenden seien .˝; A; P / ein Wahrscheinlich- liegen, besteht auch die Filtration nur aus endlich vielen
keitsraum und .˝ 0 ; A0 / ein Messraum. -Algebren F0  : : :  Fm  A. Dann ist eine Stoppzeit
eine Abbildung  W ˝ ! f0; 1; : : : ; mg mit f  ng 2 Fn
für 0  n  m. J
Definition (Filtration, Stoppzeit, Adaptiertheit)
Kapitel 5

Eine Folge F WD .Fn /n0 von Sub--Algebren von A Beispiel


heißt Filtration, falls gilt: Fn  FnC1  A, n  0. a) Die wichtigsten Stoppzeiten sind sog. Ersteintrittszeiten.
Eine Abbildung  W ˝ ! N0 [ f1g heißt Stoppzeit bzgl. Sind .Xn / eine Folge .˝ 0 ; A0 /-wertiger Zufallsvariablen und
der Filtration F, falls gilt: A0 2 A0 , so ist (mit der Konvention inf ; WD 1) die Erstein-
trittszeit
f D ng 2 Fn für jedes n  0: (5.97)
Gilt P . < 1/ D 1, so heißt  endlich.  WD inffn  0 W Xn 2 A0 g

Eine Folge .Xn /n0 von Zufallsvariablen Xn W ˝ ! ˝ 0 in die Menge A0 eine Stoppzeit bzgl. der natürlichen Filtrati-
heißt (an F) adaptiert, falls für jedes n  0 die Zufalls- on F X , denn es gilt für jedes n  0
variable Xn (Fn ; A0 )-messbar ist.
Die zu einer Folge .Xn /n0 wie oben assoziierte Filtration \
n1
f D ng D fXn 2 A0 g \ fXj … A0 g 2 .X0 ; : : : ; Xn /:
F X D .FnX /n0 mit
j D0
FnX WD .X0 ; X1 ; : : : ; Xn /
b) Eine triviale Stoppzeit ist die feste Stoppzeit .!/ WD c, ! 2
heißt natürliche Filtration von .Xn /n0 . ˝, für ein vorgegebenes c 2 N0 , denn es gilt f D ng D ˝
oder f D ng D ;, je nachdem, ob n D c oder n ¤ c ist.
5.8 Stoppzeiten und Martingale 177

Beispiel: Geschicktes Stoppen unter widrigen Umständen

Eine Urne enthalte fünf Kugeln, von denen drei die Zahl 1 Wert 0 stoppen, da ein weiterer Zug bei noch zwei ausste-
und zwei die Zahl 1 tragen. Man zieht rein zufällig ohne Zu- henden Kugeln mit der Aufschrift 1 ungünstig wäre. Sollte
rücklegen Kugeln aus dieser Urne. Hierbei darf man jederzeit auch die zweite Kugel den Wert 1 tragen, ziehen wir auf je-
stoppen. Die Summe der erhaltenen Werte ist der Gewinn. den Fall noch zweimal (mit der Aussicht auf den Wert 0 beim
Gibt es eine Stoppregel (Stoppzeit), sodass der erwartete Ge- Stoppen nach vier Zügen). Nur wenn bei diesen beiden Zü-
winn positiv ist? gen die letzte Kugel mit der Aufschrift 1 dabei ist, ziehen
wir noch die letzte Kugel, die ja dann mit einer 1 beschriftet
Problemanalyse und Strategie Um diese Frage zu beant- ist. Diese Überlegungen münden in die folgende Stoppzeit
worten, stellen wir zunächst ein geeignetes Modell auf. (bzgl. der natürlichen Filtration):
Hierzu setzen wir
Wir setzen
n ˇX5 o 8
ˇ
˝ WD ! WD .a1 ; : : : ; a5 / 2 f1; 1g5 ˇ 1faj D 1g D 2 ; ˆ
ˆ 1; falls X1 .!/ D 1;
ˆ
ˆ
j D1 ˆ
ˆ 2; falls X1 .!/ D 1; X2 .!/ D 1;
ˆ
ˆ
<4; falls X1 .!/ D X2 .!/ D 1;
betrachten also als Grundraum die zehnelementige Menge .!/ WD
aller 5-Tupel mit genau 2 Einsen und 3 „Minus-Einsen“. ˆ
ˆ X3 .!/ D X4 .!/ D 1;
ˆ
ˆ
Weiter setzen wir Xj .!/ WD aj , j D 1; : : : ; 5. In diesem ˆ
ˆ falls X1 .!/ D X2 .!/ D 1;
ˆ5;
Modell beschreibt also Xj die Zahl auf der im j -ten Zug ge- :̂ X3 .!/X4.!/ D 1:
zogenen Kugel. Als Wahrscheinlichkeitsmaß P wählen wir
die Gleichverteilung auf ˝. Pn
Mit Sn WD j D1 Xj ist die gestoppte Summe S der Gewinn.
Lösung Man beachte, dass wir mindestens eine Kugel zie- Es gilt
hen und somit die Realisierung von X1 beobachten müssen.
Sollte X1 D 1 gelten, würden wir sofort stoppen, denn unter E .S / D 1  P .S D 1/ C .1/  P .S D 1/
den übrigen Kugeln befinden sich ja dann noch drei mit der 2 3 2 2 1
Aufschrift 1 und nur eine Kugel, die die Zahl 1 trägt. Im D1    D :
5 5 4 3 5
Fall X1 D 1 sollten wir eine weitere Kugel ziehen, denn
das Resultat 1 stellt sich ja auch ein, wenn wir alle Kugeln Der Erwartungswert des Gewinns ist also bei dieser Stopp-
ziehen. Sollte dann X2 D 1 gelten, so würden wir mit dem zeit in der Tat positiv.

c) In der Situation von a) ist die Letzteintrittszeit Kommentar Bitte überlegen Sie sich (Aufgabe 5.57), dass
A in der Tat eine Sub--Algebra von A ist. Die -Algebra
 WD supfn  0 j Xn 2 A0 g A wird manchmal auch -Algebra der Ereignisse bis zur Zeit 
genannt. Sie besteht aus allen Ereignissen, deren Eintreten oder
mit der zusätzlichen Festsetzung sup ; WD 0 i. Allg. (z. B. bei Nichteintreten bis zum zufallsabhängigen Stoppzeitpunkt  be-
unabhängigen Zufallsvariablen) keine Stoppzeit, denn es gilt obachtet werden kann. Im Fall einer festen Stoppzeit   c für
c 2 N0 gilt A D Fc , da f  ng D ˝, falls n  c, und

Kapitel 5
\
1
f D ng D fXn 2 Ag \ fXk … Ag: J f  ng D ;, falls n < c. J
kDnC1
Beispiel Es sei .Xn / eine Folge reeller Zufallsvariablen mit
Selbstfrage 26 der natürlichen Filtration Fn D .X0 ; : : : ; Xn /. Für eine reelle
Ist mit  auch  2 eine Stoppzeit? Zahl a sei  WD inffn  0 j Xn  ag die Ersteintrittszeit in das
Intervall Œa; 1/. Weiter seien
˚ 
A WD supfXk j k  0g > a  1 ;
˚ 
Definition ( -Algebra der -Vergangenheit) B WD supfXk j k  0g > a C 1 :
Ist  eine Stoppzeit bzgl. einer Filtration F WD .Fn /n0 , Es gilt f  ng  A und somit A \ f  ng D f  ng 2 Fn ,
so heißt das Mengensystem n  0, also A 2 A . Jedoch gilt i. Allg. B … A , da zur Zeit
 nicht klar ist, ob die Folge .Xn / irgendwann auch den Wert
A WD fA 2 A W A \ f  ng 2 Fn 8 n  0g (5.98) a C 1 überschreiten wird. J
 -Algebra der -Vergangenheit. Will man eine Folge .Xn / von Zufallsvariablen zu einem zu-
fälligen Zeitpunkt  stoppen, so interessiert der Wert, den die
178 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Folge zu diesem zufälligen Zeitpunkt annimmt. Man muss also Kommentar


in geeigneter Weise eine Zufallsvariable X auf ˝ definieren.
a) Interpretiert man Xn als Kapital einer Person nach dem n-
Da  als Stoppzeit den Wert 1 annehmen kann und eine Zu-
ten Spiel einer Serie von Glücksspielen (X0 ist dann das
fallsvariable X1 nicht definiert ist, muss gefordert werden, dass
Anfangskapital), so besagt die Martingaleigenschaft (5.101),
P . D 1/ D 0 gilt, also  eine endliche Stoppzeit ist. Man
dass das Spiel in dem Sinne fair ist, dass das erwartete Kapi-
setzt dann für ! 2 ˝
tal nach dem nächsten Spiel gleich dem Kapital vor diesem
X .!/ WD X .!/ .!/; falls .!/ < 1; Spiel ist. In dieser Interpretation modellieren also Submar-
und X .!/ WD 0, sonst. Der zweite, zu einer willkürlichen Fest- tingale bzw. Supermartingale die Kapitalstände bei Spielen,
setzung führende Fall tritt dann nur mit der Wahrscheinlichkeit die wegen (5.102) bzw. (5.103) prinzipiell vorteilhaft bzw.
null ein. unvorteilhaft sind. Ein Supermartingal ist also – und das ist
eine gute Eselsbrücke, um sich die Richtung der Ungleichung
Bzgl. der Definition und Messbarkeit der Abbildung X W ˝ ! zu merken – für die spielende Person gar nicht super!
R gibt der nachstehende Satz Auskunft. b) Der Begriff Martingal wurde von Jean Ville in [23], S. 73,
für ein Glücksspielsystem verwendet. Die sog. Martingale ist
Satz Sei  eine endliche Stoppzeit bzgl. einer Filtration F und eine seit dem 18. Jahrhundert bekannte Strategie im Glücks-
.Xn / ein Folge reeller adaptierter Zufallsvariablen. Dann ist die spiel, bei der nach einem verlorenen Spiel im einfachsten
oben definierte Abbildung X A -messbar. J Fall der Einsatz verdoppelt wird (frz. martingale à la mise),
sodass im hypothetischen Fall unbeschränkten Vermögens,
Beweis Es sei B eine beliebige Borel-Menge. Wegen unendlicher Zeit sowie keinerlei Beschränkung für die Hö-
[
n he des Einsatzes ein „fast sicherer Gewinn einträte“.
fX 2 Bg \ f  ng D .fXk 2 Bg \ f D kg/ 2 Fn c) Die Folge .Xn / ist genau dann ein Submartingal, wenn die
kD0 Folge .Xn / ein Supermartingal ist und genau dann ein Mar-
für jedes n  0 gilt nach Definition von A die Beziehung tingal, wenn sie sowohl ein Sub- als auch ein Supermartingal
fX 2 Bg 2 A .  bildet.
d) Ist .Xn / ein Submartingal bzgl. F, so gilt für jede Wahl von
m und n mit m > n  0
Martingale modellieren „im Mittel“ faire E.Xm jFn /  Xn P -f.s.
Spiele, Supermartingale „im Mittel“ unfaire
(Aufgabe 5.58). Diese Ungleichung kehrt sich für Supermar-
tingale um. Für ein Martingal .Xn / folgt hieraus insbesondere
Definition (Sub- bzw. Supermartingal, Martingal)
Es seien F D .Fn /n0 eine Filtration und .Xn /n0 eine E.Xn / D E.X0 / für jedes n  1: (5.105)
adaptierte Folge integrierbarer Zufallsvariablen. Die Folge
.Xn / heißt (bzgl. F) ein Martingale sind also „im Mittel konstant“. Weiß man schon,
dass .Xn / ein Sub- oder Supermartingal ist, so folgt aus
a) Submartingal, falls für jedes n  0 gilt: (5.105) sogar die Martingaleigenschaft (Aufgabe 5.59). J
E.XnC1 jFn /  Xn P -f.s.; (5.99)
Beispiel
b) Supermartingal, falls für jedes n  0 gilt: Es seien Y1 ; Y2 ; : : : unabhängige integrierbare Zufallsvaria-
Kapitel 5

E.XnC1 jFn /  Xn P -f.s.; (5.100) blen auf ˝. Setzen wir X0 WD 0,

X
n
c) Martingal, falls für jedes n  0 gilt: Xn WD Yj ; n  1;
j D0
E.XnC1 jFn / D Xn P -f.s. (5.101)
so gilt mit den Eigenschaften b), c) und g) bedingter Erwar-
tungen aus Abschn. 5.7 (jeweils P -fast sicher)
Kommentar Im Spezialfall FnX D .X0 ; : : : ; Xn / der natür-
lichen Filtration lassen wir den erklärenden Zusatz „bzgl. F“ E.XnC1 jX0 ; : : : ; Xn / D E.YnC1 C Xn jX0 ; : : : ; Xn /
weg und sprechen kurz von einem Submartingal (bzw. Super- D E.YnC1 jX0 ; : : : ; Xn / C Xn
martingal bzw. Martingal). Die Ungleichungen (5.99) – (5.101)
D E.YnC1 / C Xn :
nehmen dann die Form
E.XnC1 jX0 ; : : : ; Xn /  Xn P -f.s.; (5.102) Partialsummen unabhängiger integrierbarer Zufallsvariablen
E.XnC1 jX0 ; : : : ; Xn /  Xn P -f.s.; (5.103) bilden also genau dann ein Martingal, wenn jeder Sum-
mand Yn den Erwartungswert null besitzt. Ein Submartingal
E.XnC1 jX0 ; : : : ; Xn / D Xn P -f.s. (5.104)
bzw. Supermartingal ergibt sich genau dann, wenn stets
an. J E.Yn /  0 bzw. E.Yn /  0 gilt.
5.8 Stoppzeiten und Martingale 179

Es seien Z1 ; Z2 : : : unabhängige nichtnegative Zufallsvaria- Eine prävisible Folge transformiert ein


blen mit E.Zj / D 1 für jedes j  1. Setzen wir X0 WD 1,
Martingal in ein Martingal
Xn WD Z1  : : :  Zn ; n  1;
Um eine derartige, auch Spielsystem genannte Einsatzstrategie
mathematisch zu fassen, ist zu beachten, dass der mit Cn be-
so gilt für jedes n  0 (stets P -fast sicher)
zeichnete zufallsabhängige Einsatz in der n-ten Spielrunde eine
E.XnC1 jX0 ; : : : ; Xn / D E.ZnC1 Xn jX0 ; : : : ; Xn / Zufallsvariable ist, deren Realisierungen nur von den in den ver-
gangenen Spielrunden gewonnenen Informationen abhängen.
D Xn  E.ZnC1 jX0 ; : : : ; Xn / Diese Überlegungen führen zu folgender Begriffsbildung:
D Xn  E.ZnC1 /
D Xn :
Definition einer prävisiblen Folge
Dabei wurde beim zweiten bzw. dritten Gleichheitszeichen Eine Folge .Cn /n0 von Zufallsvariablen auf ˝ heißt
Eigenschaft f) bzw. g) der bedingten Erwartung verwen- prävisibel bzgl. einer Filtration F D .Fn /n0 , falls C0
det. Produkte nichtnegativer unabhängiger Zufallsvariablen konstant ist und für jedes n  1 gilt:
mit gleichem Erwartungswert 1 bilden somit ein Martin-
gal. Die obige Gleichungskette zeigt, dass die Voraussetzung Cn ist Fn1 -messbar:
E.Zj /  1 für jedes j zu einem Supermartingal führt. J
Ein weiteres Beispiel für ein Martingal bildet das nach dem
amerikanischen Mathematiker Joseph Leo Doob (1910–2004)
benannte Doobsche Martingal. Wir formulieren dieses Resultat
als eigenständigen Satz. Beispiel Sei  W ˝ ! N0 [ f1g eine Stoppzeit bzgl. der
Filtration F. Setzen wir Vn WD 1f  ng, n  0, so ist die Folge
.Vn /n0 prävisibel bzgl. F, denn es gelten V0 D 1 und
Satz über das Doobsche Martingal
f  ng D f  n  1gc 2 Fn1 ; n  1: J
Es seien X eine integrierbare Zufallsvariable und F D
.Fn /n0 eine Filtration. Dann ist
Das nachstehende Resultat besagt, dass jede adaptierte Folge
von Zufallsvariablen mit existierenden Erwartungswerten addi-
Xn WD E.X jFn /; n  0;
tiv in ein Martingal und eine prävisible Folge zerlegt werden
kann.
ein Martingal, das sog. Doobsche Martingal.

Die Doob-Zerlegung
Beweis Wegen EjX j < 1 ist auch Xn integrierbar. Nach Es seien .˝; A; P / ein W-Raum, F WD .Fn /n0 eine
Definition von E.X jFn / ist Xn Fn -messbar, und somit ist die Filtration und .Xn /n0 eine an F adaptierte Folge von P -
Folge .Xn / adaptiert. Mit der Turmeigenschaft h) für bedingte integrierbaren Zufallsvariablen auf ˝. Dann existiert eine
Erwartungen in Abschn. 5.7 folgt eindeutig bestimmte Zerlegung der Gestalt
ˇ
E.XnC1 jFn / D E E.X jFnC1 /ˇFn D E.X jFn/ D Xn : X n D Mn C V n ; n  0:

Kapitel 5
Dabei gilt jedes Gleichheitszeichen P -fast sicher. 
Hierbei ist .Mn / ein Martingal, und die Folge .Vn / ist
prävisibel mit V0 D 0. .Xn / ist genau dann ein Submar-
Es sei .Xn / ein Martingal bzgl. einer Filtration F. Interpretiert
tingal, wenn .Vn /n0 P -f.s. monoton wächst.
man X0 als Anfangskapital und Xn  Xn1 als Gewinn oder
(bei einem negativen Wert) Verlust in einem n-ten Spiel pro
eingesetztem Euro (wobei das Spiel auch eine risikobehaftete
Finanzinvestition sein könnte), so liefert die Martingaleigen- Beweis Die Existenz einer Darstellung wie oben ist schnell
schaft (5.101) die Gleichung gezeigt. Setzt man

E.Xn  Xn1 jFn1 / D 0 P -f.s. X


n
 
Mn WD X0 C Xk  E Xk jFk1 ;
Das Spiel ist somit zumindest „im Mittel fair“. Es erhebt sich kD1
die natürliche Frage, ob man durch geschickten, vom Zeitpunkt X
n
 
n  1 abhängenden Kapitaleinsatz das Spiel für sich selbst vor- Vn WD E Xk jFk1  Xk1 ;
teilhaft machen kann. kD1
180 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

so gilt Xn D Mn C Vn , und .Vn / ist prävisibel mit V0 D 0. Des Gilt Cn  0 für jedes n, so bleibt die Aussage gültig, wenn man
Weiteren ist die Folge .Mn / wegen jeweils „Martingal“ durch „Submartingal“ bzw. jeweils durch
h i „Supermartingal“ ersetzt. J
ˇ ˇ
E Mn  Mn1 ˇFn1 D E Xn  E Xn jFn1 ˇFn1 D 0
Beweis Die Folge C X ist adaptiert, und wegen (5.107)
ein Martingal. Um die Eindeutigkeit der Zerlegung zu zeigen, ist .C X /n für jedes n integrierbar. Aufgrund der Fn1 -
nehmen wir Xn D Mn CVn D Mn0 CVn0 mit Martingalen Mn ; Mn0 Messbarkeit von Cn folgt mit Eigenschaft f) der bedingten
und prävisiblen Folgen Vn und Vn0 sowie V0 D V00 D 0 an. Erwartung in Abschn. 5.7
Wegen Mn  Mn0 D Vn0  Vn ist dann .Mn  Mn0 / ein prävisibles
Martingal. Nach Aufgabe 5.63 gilt Mn  Mn0 D M0  M00 D 0. EŒ.C X /n  .C X /n1 jFn1  D EŒCn .Xn  Xn1 /jFn1 
D Cn EŒXn  Xn1 jFn1 
Die Folge .Xn / ist genau dann ein Submartingal, wenn für jedes
n gilt: D 0:

Xn  E.XnC1 jFn / D E.MnC1 jFn / C E.VnC1 jFn / P -f.s. Für ein Sub- bzw. Supermartingal ist das letzte „D“ durch „“
bzw. durch „“ zu ersetzen. 
Wegen E.MnC1 jFn / D Mn P -f.s. und E.VnC1 jFn / D VnC1 P -
f.s. ist die obige Ungleichung wegen Xn D Mn C Vn zu Xn  Selbstfrage 27
Xn CVn1 Vn P -f.s. und somit zu Vn  VnC1 P -f.s. äquivalent. Warum ist die Folge C X adaptiert?


Sind F D .Fn /n0 eine Filtration und .Xn /n0 eine an F adap- Kommentar Eine hinreichende Bedingung für (5.107) ist die
tierte Folge von Zufallsvariablen auf ˝, so beschreibt (mit der gleichmäßige Beschränktheit der Folge .Cn /. In einer Spiel-
Interpretation von Ck als Spieleinsatz beim k-ten Spiel und Xk situation ist Letztere durch Höchsteinsätze gewährleistet. Man
als Kapital eines Spielers nach dem k-ten Spiel) die Zufallsva- beachte, dass die Tansformation X 7! C X auch dann Sinn
riable macht, wenn X D .Xn /n0 nicht unbedingt ein Martingal dar-
stellt, sondern nur eine bzgl. F adaptierte Folge ist. Ist C D .Cn /
X
n
prävisibel, und ist die Bedingung (5.107) erfüllt, so nennt man
Yn WD Ck .Xk  Xk1 / (5.106) den Übergang von X zu C X auch (diskretes) stochastisches
kD1 Integral von C bzgl. X . J
den (Gesamt)-Gewinn nach dem n-ten Spiel.
Gestoppte Martingale bleiben Martingale,
Definition (Spielsystem, Martingaltransformation) und im Mittel ändert sich nichts
Ist in obiger Situation die Folge .Cn /n0 prävisibel bzgl. Der obige Satz besagt, dass es unmöglich ist, durch geschickte
F, so heißt .Cn /n0 ein Spielsystem für .Xn /. Man Wahl des Einsatzes aus einem fairen Spiel ein vorteilhaftes Spiel
schreibt die Gleichungen (5.106) in der Kurzform zu machen. Die nächsten Resultate zeigen, dass diesbzgl. auch
keine noch so geschickte Stoppstrategie hilft. Die erste Aussage
Y WD C X ; Yn WD .C X /n : besagt, dass gestoppte Martingale Martingale bleiben. Zu ihrer
Formulierung verwenden wir die Notation
Kapitel 5

Der Übergang von X D .Xn / zu C X heißt Martingal-


transformation von X durch C . x ^ n WD min.x; n/; x 2 R; und 1 ^ n WD n:

Die Begriffsbildung Martingaltransformation wird durch nach- Satz (gestoppte Martingale bleiben Martingale)
stehendes Resultat verständlich. Seien .Xn /n0 ein Martingal bzgl. .Fn / und  eine Stopp-
zeit. Sei .X ^n /n0 definiert durch
Satz (mit X D .Xn / ist auch C  X ein Martingal) Es
seien X D .Xn /n0 ein Martingal bzgl. .Fn /n0 und C D X ^n .!/ WD X .!/^n .!/; ! 2 ˝:
.Cn /n0 prävisibel bzgl. .Fn /. Gilt
Dann ist auch die gestoppte Folge .X ^n /n0 ein Martin-
Cn .Xn  Xn1 / 2 L1 .˝; A; P /; n  1; (5.107) gal. Eine entsprechende Aussage gilt für Submartingale
und Supermartingale.
so ist C X ein Martingal.
5.8 Stoppzeiten und Martingale 181

Beweis Betrachte das Spielsystem Cn WD 1f  ng, n  1. In einem zweiten Beweisschritt setzen wir  ^ k WD min.; k/
Es gilt f  ng 2 Fn1 , und somit ist Cn Fn1 -messbar. Nach und approximieren E.X / durch E.X ^k /. Es gilt
Definition von Ck gilt
jE.X /  E.X ^k /j  EjX  X ^k j
X
n
ˇ X1 ˇ
Yn WD Ck .Xk  Xk1 / D X ^n  X0 : ˇ ˇ
kD1
D Eˇ 1f  ng.Xn  Xn1 /ˇ
nDkC1
Nach obigem Satz über die Martingaltransformation ist .Yn /n0  X
1 
ein Martingal. Damit ist auch .X ^n /n0 ein Martingal, denn es E 1f  ng jXn  Xn1 j
gilt nDkC1

E X ^.nC1/ jFn D E YnC1 C X0 jFn X
1

D E .1f  ngjXn  Xn1 j/


D E YnC1 jFn C E X0 jFn nDkC1
D Yn C X0 D X ^n :  X
1
c P .  n/:
nDkC1
Das nächste Resultat präzisiert die saloppe Formulierung, dass
sich bei einem gestoppten Martingal „im Mittel nichts ändert“. Dabei wurde beim letzten Gleichheitszeichen der Satz von der
monotonen Konvergenz benutzt. Wegen E./ < 1 konver-
giert die erhaltene Schranke für k ! 1 gegen null, und es
Satz (Optionales Stoppen, Doob)
folgt E.X / D limk!1 E.X ^k /. Zu guter Letzt zeigen wir
Seien .Xn /n0 ein Martingal und  eine Stoppzeit bzgl. E.X ^k / D E.X0 /, womit der Beweis abgeschlossen wäre.
der natürlichen Filtration .X0 ; : : : ; Xn /, n  0, mit Hierzu gehen wir von
E./ < 1. Es gebe ein c 2 .0; 1/ mit
X
k
ˇ 1f  ng.Xn  Xn1 /
E 1f  ng  jXn  Xn1 jˇX0 ; : : : ; Xn1 X ^k D X0 C
nD1
 c 1f  ng P -f.s.; n  1: (5.108)
und der daraus resultierenden Gleichung
Dann folgt E.X / D E.X0 /.
X
k
E.X ^k / D E.X0 / C E Œ1f  ng.Xn  Xn1 /
nD1
Beweis Wir zeigen zunächst, dass der Erwartungswert von
 existiert. Hierzu gehen wir von der für jedes ! 2 ˝ mit aus. Wegen f  ng D f  n  1gc 2 .X0 ; : : : ; Xn1 /
.!/ < 1 (und damit wegen E./ < 1 P -fast sicher) gel- folgt durch Bedingen des rechts stehenden Erwartungswertes
tenden Identität nach X0 ; : : : ; Xn1 mit Eigenschaft f) der bedingte Erwartung
X
1 in Abschn. 5.7
X .!/ D X0 .!/ C 1f.!/  ng.Xn .!/  Xn1 .!// h ˇ i
ˇ
nD1 E 1f  ng.Xn  Xn1 /ˇX0 ; : : : ; Xn1
aus. Man beachte, dass die Summe bei n D .!/ abbricht und D 1f  ngEŒXn  Xn1 jX0 ; : : : ; Xn1 : (5.109)
ein Teleskopeffekt vorliegt. Hiermit folgt
!

Kapitel 5
Wegen der Martingaleigenschaft verschwindet der letzte be-
X1
EjX j  EjX0 j C E 1f  ngjXn  Xn1 j dingte Erwartungswert, und wir erhalten wie behauptet
nD1
E.X ^k / D E.X0 /. 
X
1

D EjX0 j C E 1f  ngjXn  Xn1 j : Folgerung Für Sub- bzw. Supermartingale gilt unter den Vor-
nD1 aussetzungen des obigen Satzes
Rechnet man den rechts stehenden Erwartungswert iteriert
E.X /  E.X0 / bzw. E.X /  E.X0 /: J
durch Bedingen nach X0 ; : : : ; Xn1 aus, so liefert die Unglei-
chung (5.108)
Beweis Die Martingaleigenschaft wurde erst bei der Behand-
X
1
lung des bedingten Erwartungswertes in (5.109) verwendet. Für
EjX j  EjX0 j C E.c1f  ng/
ein Submartingal ist dieser bedingte Erwartungswert nichtnega-
nD1
tiv, für ein Supermartingal kleiner oder gleich null. Hieraus folgt
 EjX0 j C c E./ < 1: die Behauptung. 
182 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Beispiel: Der Satz von Doob über optionales Stoppen und das Spieler-Ruin-Problem

Zwei Spieler A und B mit einem Anfangskapital von a Sk ; : : : ; Smk  S.m1/k sämtlich kleiner als k sein müssen. Es
bzw. b Euro spielen wiederholt ein Spiel, bei dem A mit gilt also
Wahrscheinlichkeit p und B mit Wahrscheinlichkeit 1  p
gewinnt, wobei jeweils ein Euro seinen Besitzer wechselt. \
m
˚ 
f  mk C 1g  Sj k  S.j 1/k < k
Wie groß ist die Wahrscheinlichkeit, dass Spieler B bei die-
j D1
sem Spiel bankrott geht? Der Satz von Doob gestattet eine
elegante Lösung dieses schon in einer Unter-der-Lupe-Box und damit wegen der stochastischen Unabhängigkeit dieser
in Abschn. 3.5 vorgestellten Spieler-Ruin-Problems. Zuwächse (Blockungslemma!) und deren identischer Vertei-
lung
Problemanalyse und Strategie Um den Satz von Doob
˚ m
anwenden zu können, formulieren wir das Spieler-Ruin- P .  mk C 1/  P .Sk < k/ D .1  p k /m :
Problem hier wie folgt: Seien X1 ; X2 ; : : : unabhängige und
identisch verteilte Zufallsvariablen auf einem Wahrschein- Zu n 2 N gibt es ein m mit mk C 1  n  .m C 1/k, was
lichkeitsraum .˝; A; P / mit P .X1 D 1/ D p D 1  q D m  n=k  1 zur Folge hat. Also erhalten wir
1  P .X1 D 1/, wobei 0 < p < 1. Hier stehe fXi D 1g  n
bzw. fXi D 1g für das Ereignis, dass Spieler A in der i- P .  n/  P .  mk C 1/  .1  p k /m  1  p k k 1
ten Spielrunde einen Euro von Spieler B gewinnt oder einen  1 h  1=k in
Euro an Spieler B verliert. Setzen wir S0 WD 0 sowie Sn WD  1  pk 1  pk :
X1 C: : :CXn , n  1, so gibt – solange a C1  Sn  b 1 P1
gilt – die Zufallsvariable Sn den Zuwachs (in Euro) des Ka- Wegen nD1 P .  n/ < 1 gilt E./ < 1.
pitals von Spieler A nach dem n-ten Spiel („zur Zeit n“) an. Sei nun zunächst p ¤ q, also p ¤ 1=2. Es gilt
Lösung Die Zeit bis zum Ruin eines der beiden Spieler ist   X1    1  1
q q q
durch E D pC q D 1:
p p p
˚ 
 WD inf n  1 j Sn 2 fa; bg Setzen wir M0 WD 1 und
gegeben. Die nachstehende Abbildung zeigt einen möglichen n  Xj
Y  Sn
q q
Spielverlauf als Polygonzug für den Fall a D 3 und b D 4. Mn WD D ; n  1;
Hier ist Spieler B nach 8 Spielrunden bankrott. j D1
p p

Sn so ist .Mn / als Produkt unabhängiger Zufallsvariablen mit


B ist bankrott Erwartungswert 1 ein Martingal. Der Satz von Doob liefert
b • nun
•  S 
• •
q
1 D E.M0 / D E.M / D E
1 • • p
•  a  b
1• n q q
P .S D a/ C P .S D b/:
Kapitel 5

D
τ =8 p p
−a Wegen P .S D a/ D 1  P .S D b/ folgt dann mithilfe
direkter Rechnung
Wegen  a
1  pq
\
n1
P .S D b/ D  aCb :
f D ng D fa C 1  Sj  b  1g \ fSn 2 fa; bgg 1  pq
j D1

2 .X1 ; : : : ; Xn / Im Fall p D 1=2 ist .Sn / ein Martingal, und der Satz von
Doob ergibt
ist  eine Stoppzeit bzgl. der natürlichen Filtration. Gesucht
ist die Ruinwahrscheinlichkeit P .S D b/ von Spieler B. Um 0 D E.S0 / D E.S / D bP .S D b/  aP .S D a/
den Satz von Doob anwenden zu können, muss E./ < 1
gelten. Diese Bedingung ist relativ schnell nachgewiesen: und somit das ebenfalls schon aus Abschn. 3.5 (Unter-
Setzen wir k WD aCb, so folgt für gegebenes m  1 aus dem der-Lupe-Box zum Spieler-Ruin-Problem) bekannte Resultat
Ereignis f  mk C 1g, dass die Zuwächse Sk  S0 ; S2k  P .S D b/ D a=.a C b/.
5.8 Stoppzeiten und Martingale 183

Wir haben schon mehrfach randomisierte Summen, also Sum- gilt .X1 ; : : : ; Xn / D .S1 ; : : : ; Sn /. Somit ist N auch eine
men von Zufallsvariablen mit einer zufälligen Anzahl von Stoppzeit bzgl. ..S1 ; : : : ; Sn /n1 /. Mit den Eigenschaften f)
Summanden, kennengelernt (etwa im Zusammenhang mit der und g) bedingter Erwartungen in Abschn. 5.7 gilt weiter (P -f.s.)
Augensumme bei zufälliger Wurfanzahl in Abschn. 4.5). Das ˇ
nachstehende, aus dem Satz von Doob über optionales Stoppen E 1fN  ngjSn  Sn1 jˇS1 ; : : : ; Sn1
ˇ
folgende und auf Abraham Wald (1902–1950) zurückgehende D E 1fN  ngjXn jˇS1 ; : : : ; Sn1
Resultat zeigt, dass das Ergebnis von Aufgabe 4.44 a) auch un-
ter gegenüber dort modifizierten Voraussetzungen gültig ist. D EjX1 j  1fN  ng:

Der Satz von Doob über optionales Stoppen liefert nun 0 D


Die Waldsche Gleichung E.S1 / D E.SN / D E.N / E.X1/. 

Seien X1 ; X2 ; : : : unabhängige und identisch verteilte Zu- Selbstfrage 28


fallsvariablen mit EjX1 j < 1 und N eine Stoppzeit bzgl. Warum kann man o.B.d.A. E.X1 / D 0 annehmen?
der zu X1 ; X2 ; : : : gehörenden natürlichen Filtration mit
E.N / < 1. Dann gilt:
0 1 Ein instruktives Beispiel für die Nichtgültigkeit der Waldschen
X
N Gleichung bildet eine Folge X1 ; X2 ; : : : von unabhängigen Zu-
E@ Xj A D E.X1 / E.N /: fallsvariablen mit P .Xj D 1/ D P .Xj D 1/ D 1=2, j  1
j D1 mit der Stoppzeit N WD inffn  1 j Sn D 1g. Hierbei ist Sn WD
X1 C : : : C Xn gesetzt. Die Stoppzeit N modelliert anschau-
lich die Anzahl der Versuche, bis in einer Bernoulli-Kette mit
Trefferwahrscheinlichkeit 1=2 erstmals mehr Treffer als Nieten
Beweis WirPmachen o.B.d.A. die Annahme EX1 D 0 und aufgetreten sind. Es lässt sich zeigen (siehe z. B. [15], S. 66),
setzen Sn WD jnD1 Xj . Als Folge von Partialsummen unabhän- dass N eine endliche Stoppzeit ist, dass also P .N < 1/ D 1
giger Zufallsvariablen mit Erwartungswert null ist .Sn /n1 ein gilt. Nach Konstruktion gilt E.SN / D 1. Wegen E.X1 / D 0 ist
Martingal bzgl. ..S1 ; : : : ; Sn //n1. Wegen die Waldsche Gleichung nicht erfüllt. Der Grund hierfür ist die
überraschende Identität E.N / D 1. Man wartet also im Mit-
.X1 ; X2 ; : : : ; Xn / D .S1 ; S2  S1 ; : : : ; Sn  Sn1 /; tel unendlich lange, bis zum ersten Mal mehr Treffer als Nieten
.S1 ; S2 ; : : : ; Sn / D .X1 ; X1 C X2 ; : : : ; X1 C : : : C Xn / aufgetreten sind!

Kapitel 5
184 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Zusammenfassung

Die Verteilung einer Zufallsvariablen X ist durch die Vertei- diese Größen sind auf dem Erwartungswertbegriff aufgebaut,
lungsfunktion (engl.: distribution function) F .x/ D P .X  der für Zufallsvariablen auf einem allgemeinen Wahrscheinlich-
R
x/; x 2 R; von X festgelegt. F ist monoton wachsend sowie keitstraum in der Maßtheorie als Integral EX D X dP über
rechtsseitig stetig, und es gelten F .x/ ! 0 bei x ! 1 und dem Grundraum ˝ eingeführt wird. Dabei setzt man EjX j < 1
F .x/ ! 1 bei x ! 1. Umgekehrt existiert zu jeder Funktion voraus. Ist X eine Funktion g eines k-dimensionalen Zufalls-
F W R ! Œ0; 1 mit diesen Eigenschaften eine Zufallsvariable vektors Z, der eine Dichte f (bzgl. des Borel-Lebesgue-Maßes)
X mit der Verteilungsfunktion F . Ist X diskret verteilt, gilt also besitzt, so kann man Eg.Z/ über
P .X 2 D/ D 1 für eine Z
Pabzählbare Menge D  R, so nimmt
F die Gestalt F .x/ D t 2DWt x P .X D t / an. Eine Zufallsva- Eg.Z/ D g.x/ f .x/ dx
riable X heißt (absolut) stetig (verteilt) (X has an (absolutely) Rk
continuous distribution), wenn es eine nichtnegative messbare R
Funktion f mit R EX D xf .x/ dx, wenn X
berechnen. Insbesondere ist also
Z eine Dichte f besitzt, für die jxjf .x/ dx < 1 gilt. Für ei-
P .X 2 B/ D P X .B/ D f .x/ dx; B 2 B; (5.110) nen Zufallsvektor definiert man den Erwartungswertvektor als
Vektor der Erwartungswerte der einzelnen Komponenten und
B die Kovarianzmatrix als Matrix, deren Einträge die Kovarian-
zen zwischen den Komponenten sind. Eine Kovarianzmatrix ist
R x (density) von X bzw. von P . In
X
gibt. Man nennt f die Dichte
diesem Fall gilt F .x/ D 1 f .t / dt , x 2 R. symmetrisch und positiv semidefinit, und sie ist genau dann sin-
gulär, wenn mit Wahrscheinlichkeit eins eine lineare Beziehung
Die obige Definition überträgt sich unmittelbar auf einen k- zwischen den Komponenten des Zufallsvektors besteht.
dimensionalen Zufallsvektor X D .X1 ; : : : ; Xk /, wenn man in
(5.110) X durch X und B durch Bk ersetzt. Die Dichte f heißt Zu einer Verteilungsfunktion F (einer Zufallsvariablen X ) ist
dann auch gemeinsame Dichte (joint density) von X1 ; : : : ; Xk . die Quantilfunktion (quantile function) F 1 W .0; 1/ ! R
Aus f erhält man die marginalen Dichten der Xj durch In- durch F 1 .p/ WD inffx 2 R j F .x/  pg definiert. Der
tegration. Stetige Zufallsvariablen sind unabhängig, wenn die Wert F 1 .p/ heißt p-Quantil (p-quantile) von F bzw. von P X .
gemeinsame Dichte das Produkt der marginalen Dichten ist. Die Wichtige Quantile sind der Median (median) für p D 1=2 und
Dichte der Summe zweier unabhängiger Zufallsvariablen X und das untere (lower) bzw. obere Quartil (upper quartile), die
Y gewinnt man über die Faltungsformel (convolution formula) sich für p D 1=4 bzw. p D 3=4 ergeben. Für eine symme-
trische Verteilung (symmetric distribution) sind unter schwa-
Z1 chen Voraussetzungen Median und Erwartungswert gleich. Ist
fX CY .t / D fX .s/fY .t  s/ ds: U eine Zufallsvariable mit der Gleichverteilung U.0; 1/, so
1 liefert die Quantiltransformation (quantile transformation)
X WD F 1 .U / eine Zufallsvariable X mit Verteilungsfunkti-
Sind X ein k-dimensionaler Zufallsvektor mit Dichte f und T W on F . Besitzt X eine stetige Verteilungsfunktion, so ergibt die
Rk ! Rs eine Borel-messbare Abbildung, so hat der Zufalls- Wahrscheinlichkeitsintegral-Transformation (probability in-
vektor Y WD T .X/ unter gewissen Voraussetzungen ebenfalls tegral transform) U WD F .X / eine Zufallsvariable mit der
eine Dichte. Gilt im Fall k D s P .X 2 O/ D 1 für eine Verteilung U.0; 1/.
Kapitel 5

offene Menge O, und ist die Restriktion von T auf O ste-


tig differenzierbar und injektiv mit nirgends verschwindender Eine grundlegende stetige Verteilung ist die Gleichverteilung
Funktionaldeterminante, so ist (uniform distribution) U.a; b/ auf dem Intervall .a; b/. Sie er-
gibt sich durch die Lokations-Skalen-Transformation x 7! a C
f .T 1 .y// .b  a/x aus der Gleichverteilung U.0; 1/. Letztere Verteilung
g.y/ D ; y 2 T .O/;
j det T 0 .T 1 .y//j wird durch Pseudozufallszahlengeneratoren im Computer si-
muliert. Die Normalverteilung (normal distribution) N.;  2 /
und g.y/ D 0 sonst, eine Dichte von Y. Wichtige Transforma-
entsteht aus der Standardnormalverteilung N.0; 1/ mit der Dich-
tionen x 7! T .x/ sind affine Transformationen der Gestalt y D
te '.x/ D .2/1=2 exp.x 2 =2/ durch die Transformation
Ax C  mit einer invertierbaren Matrix A und  2 Rk . Hiermit
x 7! x C . In gleicher Weise ergibt sich die Cauchy-
ergibt sich etwa aus einem Vektor X D .X1 ; : : : ; Xk /> mit un-
Verteilung (Cauchy distribution) C.˛; ˇ/ aus der Cauchy-
abhängigen und je N.0; 1/-verteilten Komponenten ein Zufalls-
Verteilung C.0; 1/ mit der Dichte f .x/ D 1=..1 C x 2 // durch
vektor mit der k-dimensionalen Normalverteilung Nk .; ˙/,
die Transformation x 7! ˇx C ˛. Die Cauchy-Verteilung be-
wobei ˙ D AA> .
sitzt keinen Erwartungswert; hier ist das Symmetriezentrum ˛
Wichtige Kenngrößen von Verteilungen sind Erwartungs- der Dichte als Median zu interpretieren. Die gedächtnislose Ex-
wert (expectation), Varianz (variance) und höhere Momente ponentialverteilung Exp./ (exponential distribution) besitzt
(moments) sowie bei Zufallsvektoren Erwartungswertvektor die für x > 0 positive Dichte  exp.x/. Durch die Po-
(mean vector) und Kovarianzmatrix (covariance matrix). Alle tenztransformation x 7! x 1=˛ , x > 0, erhält man hieraus die
Zusammenfassung 185

allgemeinere Klasse der Weibull-Verteilungen (Weibull distri- PZX W Rk  Bn ist eine Übergangswahrscheinlichkeit von
butions) Wei.˛; / mit der Verteilungsfunktion F .x/ D 1  .Rk ; Bk / nach .Rn ; Bn /, und man schreibt PZDz
X
./ D PZX .z; /.
exp.x ˛ /, x > 0. Die Gammaverteilung (Gamma distribu- Besitzt .Z; X/ eine Dichte fZ;X , und ist fZ die marginale
tion)  .˛; / besitzt die für x > 0 positive Dichte f .x/ D Dichte von Z, so erhält man aus der gemeinsamen Dichte
˛ x ˛1 ex = .˛/. Sie enthält für ˛ D k=2 und  D 1=2 als über die bedingte Dichte (conditional density) f .xjz/ WD
Spezialfall die Chi-Quadrat-Verteilung (Chi square distributi- fZ;X .x; z/=fZ .z/ von X unter der Bedingung Z D z die be-
on) mit k Freiheitsgraden. Letztere ist die Verteilung der Summe dingte Verteilung von X bei gegebenem Z D z.
von k Quadraten unabhängiger und je N.0; 1/-verteilter Zufalls-
variablen. Die Lognormalverteilung (lognormal distribution) Sind X eine Zufallsvariable mit EjX j < 1 und G eine Sub-
LN.;  2 / ist die Verteilung von eX , wobei X N.;  2 /-verteilt -Algebra von A, so heißt jede G -messbare Zufallsvariable Y
ist. Für die Normalverteilung und die Gammaverteilung gelten mit E.Y 1A / D E.X 1A /, A 2 G , bedingte Erwartung von
Additionsgesetze (convolution theorems), die mit der Faltungs- X unter der Bedingung G (conditional expectation), und man
formel (convolution formula) hergeleitet werden können. schreibt Y DW E.X jG /. Die Existenz von Y folgt aus dem Satz
von Radon-Nikodým, und Y ist P -f.s. eindeutig bestimmt. Im
Die charakteristische Funktion (characteristic function) 'X Fall E.X 2 / < 1 ist E.X jG / die Orthogonalprojektion von X
einer Zufallsvariablen X ist durch 'X .t / D E .exp.itX //, auf den Teilraum L2 .˝; G ; P / bzgl. des (positiv-semidefiniten)
t 2 R, definiert. Dabei wird der komplexwertige Erwartungs- Skalarproduktes hU ; V i D E.U V /. Auch bedingte Erwartun-
wert durch Zerlegung in Real- und Imaginärteil eingeführt. Die gen sind linear und monoton, und bzgl. G messbare Faktoren
Funktion 'X ist gleichmäßig stetig, und sie gestattet im Fall können wie Konstanten vor den bedingten Erwartungswert ge-
EjX jk < 1 eine Taylorentwicklung bis zur Ordnung k um 0, zogen werden. Ist G D .Z/ für eine Zufallsvariabe Z, so ist
.r/
wobei 'X .0/ D ir EX r , r D 1; : : : ; k. Sind X und Y unabhän- E.X jG / nach dem Faktorisierungslemma eine messbare Funk-
gig, so gilt 'X CY D 'X 'Y . Über Umkehrformeln (inversion tion von Z.
formulae) lässt sich aus 'X die Verteilung zurückgewinnen. Es
gilt also der Eindeutigkeitssatz (uniqueness theorem) X Eine aufsteigende Folge F WD .Fn /n0 von Sub--Algebren
Y () 'X D 'Y . Für den Fall, dass j'X j integrierbar ist, besitzt von A heißt Filtration (filtration). Eine Abbildung  W ˝ !
X die stetige, beschränkte Dichte N0 [ f1g heißt Stoppzeit (stopping time) bzgl. F, falls f D
ng 2 Fn für jedes n  0. Gilt P . < 1/ D 1, so heißt 
Z1 endlich (finite). Zufallsvariablen X0 ; X1 ; : : : heißen (an F) ad-
1
f .x/ D eitx 'X .t / dt ; x 2 R: aptiert (adapted to F), falls Xn (Fn ; A0 )-messbar ist, n  0.
2
1 Die zu einer Folge .Xn / assoziierte Filtration F X D .FnX / mit
FnX WD .X0 ; X1 ; : : : ; Xn / heißt natürliche Filtration (na-
Sind .˝1 ; A1 ; P1 / ein Wahrscheinlichkeitsraum, .˝2 ; A2 / ein
tural filtration). Sind  eine endliche Stoppzeit bzgl. F und
Messraum und P1;2 W ˝1  A2 ! R eine Funktion (sog. Über-
X0 :X1 ; : : : eine an F adaptierte Folge reeller Zufallsvariablen,
gangswahrscheinlichkeit) (transition probability) derart, dass
so ist die durch X .!/ WD X .!/ .!/, falls .!/ < 1, und
P1;2 .!1 ; / ein Wahrscheinlichkeitsmaß auf A2 und P1;2 .; A2 /
X .!/ WD 0, sonst, definierte Abbildung X messbar bzgl. der
eine messbare Funktion ist (!1 2 ˝1 ; A2 2 A2 ), so wird durch
2 3 sog.  -Algebra der -Vergangenheit, die durch A WD fA 2
Z Z A W A \ f  ng 2 Fn 8 n  0g definiert ist. Sind X0 ; X1 ; : : :
P .A/ WD 4 1A .!1 ; !2 /P1;2 .!1 ; d!2 /5 P1 .d!1 / integrierbar, so heißt die Folge .Xn / (bzgl. F) ein Martingal
˝1 ˝2
(martingale), falls für jedes n  0 gilt: E.XnC1 jFn / D Xn P -
f.s. Für Super- bzw. Submartingale steht hier stets „“ bzw.
ein Wahrscheinlichkeitsmaß P DW P1 ˝ P1;2 (sog. Kopplung „“.
von P1 und P1;2 ) auf der Produkt--Algebra A1 ˝ A2 definiert,
das durch seine Werte auf Rechteckmengen A1  A2 2 A1  A2 Eine Folge C0 ; C1 ; : : : von Zufallsvariablen heißt prävisibel

Kapitel 5
eindeutig bestimmt ist. (previsible) bzgl. F, falls C0 konstant und für jedes n  1 die
Zufallsvariable Cn Fn1 -messbar ist. Sind .Cn / prävisibel und
In der Sprache von Zufallsvektoren bedeutet dieses Resultat,
dass man die Verteilung eines (k C n)-dimensionalen Zufalls- P EjCn .Xn  Xn1 /j < 1,
.Xn / ein Martingal, so ist im Fall
n  1, auch die durch Yn WD nkD1 Ck .Xk  Xk1 / definier-
vektors .Z; X/ durch die Verteilung P Z von Z und die bedingte te Folge .Yn / ein Martingal. Mit einer Stoppzeit  und einem
Verteilung (conditional distribution) PZX von X bei gegebenem Martingal .Xn / bzgl. F ist auch die gestoppte Folge .X ^n / ein
Z gemäß P .Z;X/ D P Z ˝ PZX koppeln kann. Es gilt dann Martingal bzgl. F. Gilt E./ < 1, so gilt unter einer Zusatz-
Z bedingung E.X / D E.X0 / (Satz von Doob über optionales
P .Z 2 B; X 2 C / D PZDz X
.C / P Z .dz/; B 2 Bk ; C 2 Bn : Stoppen).
B
186 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen 5.8 Es sei X eine Zufallsvariable mit charakteristi-


scher Funktion 'X . Zeigen Sie:
5.1 Es sei F die Verteilungsfunktion einer Zufallsva-
riablen X . Zeigen Sie. X X () 'X .t / 2 R 8 t 2 R:
a) P .a < X  b/ D F .b/  F .a/, a; b 2 R, a < b.
b) P .X D x/ D F .x/  F .x/, x 2 R. Rechenaufgaben

5.2 Zeigen Sie, dass eine Verteilungsfunktion höchs- 5.9


tens abzählbar unendlich viele Unstetigkeitsstellen besitzen
kann. a) Zeigen Sie, dass die Festsetzung

1
5.3 Die Zufallsvariable X besitze eine Gleichvertei- F .x/ WD 1  ; x  0;
lung in .0; 2/. Welche Verteilung besitzt Y WD sin X ? 1Cx

und F .x/ WD 0 sonst, eine Verteilungsfunktion definiert.


5.4 Leiten Sie die im Satz über die Verteilung der b) Es sei X eine Zufallsvariable mit Verteilungsfunktion F . Be-
r-ten Ordnungsstatistik am Ende von Abschn. 5.2 angegebene stimmen Sie P .X  10/ und P .5  X  8/.
Dichte gr;n der r-ten Ordnungsstatistik XrWn über die Beziehung c) Besitzt X eine Dichte?

P .t  XrWn  t C "/
lim D gr;n .t / 5.10 Der Zufallsvektor .X ; Y / besitze eine Gleichver-
"!0 "
teilung im Einheitskreis B WD f.x; y/ W x 2 C y 2  1g. Welche
für jede Stetigkeitsstelle t der Dichte f von X1 her. marginalen Dichten haben X und Y ? Sind X und Y stochastisch
unabhängig?
5.5 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas-
Kapitel 5

tisch unabhängig. Die Verteilungsfunktion von Xj sei mit Fj 5.11 Die Zufallsvariable X habe die stetige Vertei-
bezeichnet, j D 1; : : : ; n. Zeigen Sie: lungsfunktion F . Welche Verteilungsfunktion besitzen die Zu-
  Q fallsvariablen
a) P maxj D1;:::;n Xj  t D jnD1 Fj .t /, t 2 R,
  Qn
b) P minj D1;:::;n Xj  t D 1  j D1 .1  Fj .t //, t 2 R. a) X 4 ,
b) jX j,
5.6 Es sei X eine Zufallsvariable mit nichtausgearte- c) X ?
ter Verteilung. Zeigen Sie:
  5.12 Wie ist die Zahl a zu wählen, damit die durch
a) E X1 > E1X , f .x/ WD a exp.jxj/, x 2 R, definierte Funktion eine Dich-
b) E.log
 X / < log.EX /, te wird? Wie lautet die zugehörige Verteilungsfunktion?
c) E eX > eEX .
Dabei mögen alle auftretenden Erwartungswerte existieren, und 5.13 Der Messfehler einer Waage kann aufgrund von
für a) und b) sei P .X > 0/ D 1 vorausgesetzt. Erfahrungswerten als approximativ normalverteilt mit Parame-
tern  D 0 (entspricht optimaler Justierung) und  2 D 0:2025
5.7 Der Zufallsvektor X D .X1 ; : : : ; Xs / sei multino- mg2 angenommen werden. Wie groß ist die Wahrscheinlichkeit,
mialverteilt mit Parametern n und p1 ; : : : ; ps . Zeigen Sie, dass dass eine Messung um weniger als 0:45 mg (weniger als 0:9 mg)
die Kovarianzmatrix von X singulär ist. vom wahren Wert abweicht?
Aufgaben 187

5.14 Die Zufallsvariable X sei N.;  2 /-verteilt. Wie 5.20 In der kinetischen Gastheorie werden die Kompo-
groß ist die Wahrscheinlichkeit, dass X vom Erwartungswert nenten Vj des Geschwindigkeitsvektors V D .V1 ; V2 ; V3 / eines
 betragsmäßig um höchstens das k-Fache der Standardabwei- einzelnen Moleküls mit Masse m als stochastisch unabhängige
chung  abweicht, k 2 f1; 2; 3g? und je N.0; kT =m/-verteilte Zufallsvariablen betrachtet. Hier-
q
bei bezeichnen k die Boltzmann-Konstante und T die absolute
5.15 Zeigen Sie, dass die Verteilungsfunktion ˚ der Temperatur. Zeigen Sie, dass Y WD V1 C V22 C V32 die Dichte
2

Standardnormalverteilung die Darstellung


r  
2  m 3=2 2 m y2
1 1 X
1 k 2kC1
.1/ x g.y/ D y exp  1.0;1/.y/
˚.x/ D Cp ; x > 0;  kT 2k T
2 2 2k kŠ.2k C 1/
kD0
besitzt (sog. Maxwellsche Geschwindigkeitsverteilung).
besitzt.
5.21 Die gemeinsame Dichte f der Zufallsvariablen X
5.16 Es sei F0 .x/ WD .1 C exp.x//1 , x 2 R. und Y habe die Gestalt f .x; y/ D .x 2 Cy 2 / mit einer Funkti-
on W R0 ! R0 . Zeigen Sie: Der Quotient X =Y besitzt die
a) Zeigen Sie: F0 ist eine Verteilungsfunktion, und es gilt Cauchy-Verteilung C.0; 1/, also die Dichte
F0 .x/ D 1  F0 .x/ für x 2 R.
b) Skizzieren Sie die Dichte von F0 . Die von F0 erzeug- 1
te Lokations-Skalen-Familie heißt Familie der logistischen g.t / D ; t 2 R:
.1 C t 2 /
Verteilungen. Eine Zufallsvariable X mit der Verteilungs-
funktion
5.22 Zeigen Sie unter Verwendung der Box-Muller-
h  x  a i1 x  a Methode (s. Abschn. 5.2), dass der Quotient zweier unab-
F .x/ D 1 C exp  D F0
  hängiger standardnormalverteilter Zufallsvariablen die Cauchy-
Verteilung C.0; 1/ besitzt.
heißt logistisch verteilt mit Parametern a und ,  > 0, kurz:
X L.a; /. 5.23 Es seien X1 und X2 unabhängige und je N.0; 1/-
c) Zeigen Sie: Ist F wie oben und f D F 0 die Dichte von F , verteilte Zufallsvariablen: Zeigen Sie:
so gilt
 
X1 X2 1
1 q N 0; :
f .x/ D F .x/.1  F .x//: 4
 X12 C X22

Die Verteilungsfunktion F genügt also einer logistischen Dif-


ferenzialgleichung. 5.24 Welche Verteilung besitzt der Quotient X =Y ,
wenn X und Y stochastisch unabhängig und je im Intervall
.0; a/ gleichverteilt sind?
5.17 Die Zufallsvariable X habe die Gleichverteilung
U.0; 1/. Welche Verteilung besitzt Y WD 4X .1  X /?
5.25 Der Zufallsvektor .X ; Y / besitze die Dichte h WD
2 1A , wobei A WD f.x; y/ 2 R2 j 0  x  y  1g. Zeigen Sie:
5.18 Die Zufallsvariablen X1 , X2 besitzen die gemein-
same Dichte a) E X D 13 , E Y D 23 ,

Kapitel 5
p   b) V .X / D V .Y / D 181
,
2 3 2 3 2 1 1
f .x1 ; x2 / D exp  x1  x1 x2  x2 ; .x1 ; x2 / 2 R : c) Cov.X ; Y / D 36 , .X ; Y / D 2 .
2
 2 2

a) Bestimmen Sie die Dichten der Marginalverteilungen von X1 5.26 Der Zufallsvektor .X1 ; : : : ; Xk / besitze eine
und X2 . Sind X1 ; X2 stochastisch unabhängig? nichtausgeartete Normalverteilung Nk .I ˙/. Zeigen Sie: Ist ˙
b) Welche gemeinsame Dichte besitzen Y1 WD X1 C X2 und eine Diagonalmatrix, so sind X1 ; : : : ; Xk stochastisch unabhän-
Y2 WD X1  X2 ? Sind Y1 und Y2 unabhängig? gig.

5.19 Die Zufallsvariablen X ; Y seien unabhängig und 5.27 Zeigen Sie, dass in der Situation von Abb. 5.23
je Exp./-verteilt, wobei  > 0. Zeigen Sie: Der Quotient X =Y der zufällige Ankunftspunkt X auf der x-Achse die Cauchy-
besitzt die Verteilungsfunktion Verteilung C.˛; ˇ/ besitzt.

t 5.28 Es sei X C.˛; ˇ/. Zeigen Sie:


G.t / D ; t > 0;
1Ct
a) Q1=2 D ˛,
und G.t / D 0 sonst. b) 2ˇ D Q3=4  Q1=4 .
188 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

5.29 Die Zufallsvariable X besitze die Weibull- Beweisaufgaben


Verteilung Wei.˛; 1/. Zeigen Sie: Es gilt
 1=˛ 5.35 Es seien F ; G W R ! Œ0; 1 Verteilungsfunktio-
1 nen. Zeigen Sie:
X Wei.˛; /:

a) Stimmen F und G auf einer in R dichten Menge (deren Ab-
schluss also ganz R ist) überein, so gilt F D G.
5.30 Die Zufallsvariable X besitzt die Weibull-
b) Die Menge
Verteilung Wei.˛; /. Zeigen Sie:
 .1C k /
a) EX k D k=˛˛ , k 2 N. W .F / WD fx 2 R j F .x C "/  F .x  "/ > 0 8 " > 0g
b) Q1=2 < E X .
der Wachstumspunkte von F ist nichtleer und abgeschlossen.
c) Es gibt eine diskrete Verteilungsfunktion F mit der Eigen-
5.31 Zeigen Sie, dass eine 2k -verteilte Zufallsvariable
schaft W .F / D R.
X die Dichte
1 k x 5.36 Sei F die Verteilungsfunktion eines k-
fk .x/ WD x 2 1 e 2 ; x>0
2k=2  .k=2/ dimensionalen Zufallsvektors X D .X1 ; : : : ; Xk /. Zeigen Sie:
Für x D .x1 ; : : : ; xk /; y D .y1 ; : : : ; yk / 2 Rk mit x  y gilt
und fk .x/ WD 0 sonst besitzt.
yx F D P .X 2 .x; y/;
5.32 Die Zufallsvariable X besitze die Lognormalver-
teilung LN.;  2 /. Zeigen Sie: wobei
2 X
a) Mod.X / D exp.   /, yx F WD
1 1
.1/ks. / F .y1 1 x1
1 k
; : : : ; yk k xk /
b) Q1=2 D exp./,
2f0;1gk
c) E X D exp. C  2 =2/,
d) V .X / D exp.2 C  2 /.exp. 2 /  1/.
und D . 1 ; : : : ; k /; s. / D 1 C : : : C k .
5.33 Die Zufallsvariable X hat eine Betaverteilung mit
Parametern ˛ > 0 und ˇ > 0, falls X die Dichte 5.37 Für eine natürliche Zahl m sei Pm die Gleichver-
teilung auf der Menge ˝m WD f0; 1=m; : : : ; .m  1/=mg. Zeigen
1 Sie: Ist Œu; v, 0  u < v  1, ein beliebiges Teilintervall von
f .x/ WD x ˛1 .1  x/ˇ1 für 0 < x < 1 Œ0; 1, so gilt
B.˛; ˇ/

und f .x/ WD 0 sonst besitzt, und wir schreiben hierfür kurz 1


jPm .fa 2 ˝m W u  a  vg/  .v  u/j  : (5.111)
X BE.˛; ˇ/. Dabei ist m

 .˛/ .ˇ/ 5.38 Es seien r1 ; : : : ; rn ; s1 ; : : : ; sn 2 Œ0; 1 mit jrj 


B.˛; ˇ/ WD
 .˛ C ˇ/ sj j  ", j D 1; : : : ; n, für ein " > 0.

die in (5.59) eingeführte Eulersche Betafunktion. Zeigen Sie: a) Zeigen Sie:


Q ˇ ˇ
Kapitel 5

a) EX k D jk1 ˛Cj ˇ n ˇ
D0 ˛CˇCj , k 2 N, ˇY Y n
ˇ
˛ˇ ˇ r  s ˇ  n ": (5.112)
b) EX D ˛Cˇ˛
, V .X / D .˛CˇC1/.˛Cˇ/ 2. ˇ j j ˇ
ˇj D1 j D1 ˇ
c) Sind V und W stochastisch unabhängige Zufallsvariablen,
wobei V  .˛; / und W  .ˇ; /, so gilt
b) Es seien Pmn die Gleichverteilung auf ˝mn (vgl. Aufgabe 5.37)
V sowie uj ; vj 2 Œ0; 1 mit uj < vj für j D 1; : : : ; n. Weiter sei
BE.˛; ˇ/: A WD f.a1 ; : : : ; an / 2 ˝mn W uj  aj  vj für j D 1; : : : ; ng.
V CW
Zeigen Sie mithilfe von (5.112):
5.34 Die Zufallsvariable Z besitze eine Gamma- ˇ ˇ
ˇ Y ˇ
Verteilung  .r; ˇ/, wobei r 2 N. Die bedingte Verteilung der ˇ n n
ˇ n
ˇP .A/  .v  u ˇ
j ˇ
/ :
Zufallsvariablen X unter der Bedingung Z D z, z > 0, sei die ˇ m j
m
ˇ j D1 ˇ
Poisson-Verteilung Po.z/. Welche Verteilung hat X ?
Aufgaben 189

5.39 Es sei zj C1  azj C b (mod m) das iterative li- 5.45 Die Zufallsvariablen X1 ; X2 ; : : : seien identisch
neare Kongruenzschema des linearen Kongruenzgenerators mit verteilt, wobei EjX1 j < 1. Zeigen Sie:
Startwert z0 , Modul m, Faktor a und Inkrement b (siehe die  
1
Hintergrund-und-Ausblick-Box über den linearen Kongruenz- lim E max jXj j D 0:
n!1 n j D1;:::;n
generator in Abschn. 5.2). Weiter seien d 2 N mit d  2 und
5.46 Es sei .X1 ; X2 / ein zweidimensionaler Zufalls-
Zi WD .zi ; zi C1 ; : : : ; zi Cd 1 /> ; 0  i < m:
vektor mit 0 < V .X1 / < 1, 0 < V .X2 / < 1. Zeigen Sie:
Mit WD .X1; X2 / gilt für jedes " > 0:
Dabei bezeichne u> den zu einem Zeilenvektor u transponierten 0 1 p
[2 q

Spaltenvektor. Zeigen Sie: 1 C 1  2


P@ jXj  EXj j  " V .Xj / A  :
a) Zi  Z0  .zi  z0 /.1 a a2    ad 1 /> (mod m), i  0. j D1
"2
b) Bezeichnet G die Menge der ganzzahligen Linearkombina-
tionen der d Vektoren 5.47 Es sei X eine Zufallsvariable mit EjX j < 1. Zei-
0 1 0 1 0 1 gen Sie: Ist a0 2 R mit
1 0 0
B a C BmC B0C 1
P .X  a0 /  ; P .X  a0 /  ;
1
B C B C B C
B : C; B : C;  ; B : C; 2 2
B : C B:C B:C
@ : A @:A @:A so folgt EjX  a0 j D mina2R EjX  aj. Insbesondere gilt also
d 1
a 0 m EjX  Q1=2 j D min EjX  aj:
a2R
so gilt Zi  Z0 2 G für jedes i.
5.48 Die Zufallsvariable X sei symmetrisch verteilt
und besitze die stetige, auf fx j 0 < F .x/ < 1g streng mono-
5.40 Die Zufallsvariablen X1 ; : : : ; Xk , k  2, sei- tone Verteilungsfunktion F . Weiter gelte EX 2 < 1. Zeigen
en stochastisch unabhängig mit gleicher, überall positiver
Q Sie: p
differenzierbarer Dichte f . Dabei hänge jkD1 f .xj / von Q3=4  Q1=4  8V .X /:
.x1 ; : : : ; xk / 2 Rk nur über x12 C : : : C xk2 ab. Zeigen Sie: Es
gibt ein  > 0 mit 5.49 Es gelte X Nk .; ˙/. Zeigen Sie, dass die qua-
  dratische Form .X/> ˙ 1 .X/ eine 2k -Verteilung besitzt.
1 x2
f .x/ D p exp  2 ; x 2 R:
 2 2 5.50 Zeigen Sie: Für die charakteristische Funktion 'X
einer Zufallsvariablen X gelten:
5.41 Leiten Sie die Darstellungsformel a) 'X .t / D 'X .t /, t 2 R,
b) 'aX Cb .t / D eit b 'X .at /, a; b; t 2 R.
Z1 Z0
E.X / D .1  F .x// dx  F .x/ dx 5.51 Es sei X eine Zufallsvariable mit charakteristi-
scher Funktion ' und Dichte
R f . Weiter sei ' reell und nicht-
0 1
negativ, und es gelte c WD '.t / dt < 1. Zeigen Sie:
für den Erwartungswert (vgl. Abschn. 5.3) her. a) Es gilt c > 0, sodass durch g.x/ WD '.x/=c, x 2 R, eine
Dichte g definiert wird.

Kapitel 5
5.42 Es seien X eine Zufallsvariable und p eine positi- b) Ist Y eine Zufallsvariable mit Dichte g, so besitzt Y die cha-
ve reelle Zahl. Man prüfe, ob die folgenden Aussagen äquivalent rakteristische Funktion
sind: 2
.t / D f .t /; t 2 R:
a) EjX p c
P1 j < 1, 
b) nD1 P jX j > n1=p < 1. 5.52
a) Es seien X und Y unabhängige und je Exp.1/-verteilte Zu-
5.43
fallsvariablen. Bestimmen Sie Dichte und charakteristische
a) Es sei X eine Zufallsvariable mit EjX jp < 1 für ein p > 0. Funktion von Z WD X  Y .
Zeigen Sie: Es gilt EjX jq < 1 für jedes q 2 .0; p/. b) Zeigen Sie: Eine Zufallsvariable mit der Cauchy-Verteilung
b) Geben Sie ein Beispiel für eine Zufallsvariable X mit C.0; 1/ besitzt die charakteristische Funktion .t / D
EjX j D 1 und EjX jp < 1 für jedes p mit 0 < p < 1 exp.jt j/, t 2 R.
an. c) Es seien X1 ; : : : ; Xn unabhängig und identisch verteilt mit
Cauchy-Verteilung C.˛; ˇ/. Dann gilt:
5.44 Es sei X eine Zufallsvariable mit EX 4 < 1 und 1 X
n

EX D 0, EX 2 D 1 D EX 3 . Zeigen Sie: EX 4  2. Wann tritt Xj C.˛; ˇ/:


n j D1
hier Gleichheit ein?
190 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

5.53 Es sei h eine positive reelle Zahl. Die Zufallsvaria- 5.60 Es seien .Xn /n0 und .Yn /n0 Submartingale bzgl.
ble X besitzt eine Gitterverteilung mit Spanne h, falls ein a 2 R der gleichen Filtration F D .Fn /n0 . Zeigen Sie, dass auch
existiert, sodass P X .fa C hm j m 2 Zg/ D 1 gilt. (Beispiele für .max.Xn ; Yn //n0 ein Submartingal bzgl. F ist.
a D 0; h D 1: Binomialverteilung, Poissonverteilung). Bewei-
sen Sie die Äquivalenz der folgenden Aussagen: 5.61 Es seien  und  Stoppzeiten bzgl. einer Filtra-
X tion F D .Fn /n0 mit der Eigenschaft   . Zeigen Sie,
a)  ˇ eine Gitterverteilung mit Spanne h.
ˇ besitzt
b) ˇ'X 2 ˇ D 1. dass für die zugehörigen -Algebren A und A der - bzw.
h
c) j'X .t /j ist periodisch mit Periode 2 . -Vergangenheit die Inklusion A  A besteht.
h

5.54 Es sei X eine Zufallsvariable mit charakteristi- 5.62 Es sei .Xn /n0 ein Martingal bzgl. einer Filtration
scher Funktion '. Zeigen Sie: Es gilt F mit E.Xn2 / < 1 für jedes n  0. Zeigen Sie:

ZT a) .Xn / besitzt orthogonale Zuwächse, d. h., es gilt


1
lim eit a '.t / dt D P .X D a/; a 2 R: E .Xm  Xm1 / .X`  X`1 / D 0 8 `; m  1; ` ¤ m:
T !1 2T
T
Pn  2
b) Es gilt V .Xn / D V .X0 / C j D1 E Xj  Xj 1 :
5.55 Beweisen Sie die Dreiecksungleichung
jE.X jG /j  E.jX jjG / für bedingte Erwartungen.
5.63 Zeigen Sie: Ist .Xn /n0 sowohl pävisibel als auch
5.56 Zeigen Sie, dass mit Stoppzeiten  und  bzgl. ei- ein Martingal bzgl. einer Filtration, so gilt für jedes n  1: Xn D
ner Filtration F auch max.; /, min.; / und  C Stoppzeiten X0 P -fast sicher.
bzgl. F sind.
5.64 Es sei A eine K-elementige Menge, wobei K  2.
5.57 Zeigen Sie, dass die in Abschn. 5.8 definierte - Ein Element a 2 A heißt Fixpunkt einer Permutation von A ,
Algebra der -Vergangenheit in der Tat eine -Algebra ist. wenn es auf sich selbst abgebildet wird. Wir starten mit einer
rein zufälligen Permutation P 1 von A. Sollte P 1 weniger als K
5.58 Es sei .Xn /n0 ein Submartingal bzgl. einer Fil- Fixpunkte ergeben, so unterwerfen wir in einer zweiten Runde
tration F D .Fn /n0 . Zeigen Sie: Für jede Wahl von m und n die „Nicht-Fixpunkte von A“ einer rein zufälligen Permutation
mit m > n  0 gilt P 2. Die evtl. vorhandenen „Nicht-Fixpunkte“ dieser Permutati-
on unterwerfen wir einer dritten rein zufälligen Permutation P 3
E.Xm jFn /  Xn P -f.s. usw. Die Zufallsvariable  bezeichne die zufällige Anzahl der
Runden, bis jedes Element von A als Fixpunkt aufgetreten ist.
5.59 Es sei .Xn /n0 ein Submartingal oder Supermar- Zeigen Sie:
tingal. Zeigen Sie:
a) E./ D K.
.Xn / ist ein Martingal () E.Xn / D E.X0 / 8 n  1: b) V ./ D K.
Kapitel 5
Antworten zu den Selbstfragen 191

Antworten zu den Selbstfragen

Antwort 1 Es gilt Antwort 7 Die allgemeine Stammfunktion von 1=..1 C x 2 //


ist  1 arctan.x/ C c, c 2 R. Wegen
Z0:8 Z0:8
 
P .0:2 < X  0:8/ D f .x/ dx D x dx lim arctan.x/ D ; lim arctan.x/ D 
x!1 2 x!1 2
0:2 0:2
x 2 ˇˇ0:8 muss c D 1=2 gesetzt werden, damit die dritte Eigenschaft (5.7)
D ˇ D 0:3: einer Verteilungsfunktion erfüllt ist. Die Verteilungsfunktion F
2 0:2
der Verteilung C.0; 1/ ist somit
Wegen P .X D a/ D 0 für jedes feste a 2 R gilt auch P .0:2 
X  0:8/ D 0:3. 1 1
F .x/ D C arctan.x/; x 2 R:
2 
Antwort 2 Ist .xn / eine beliebige Folge mit xn  xnC1 , n  1,
und limn!1 xn D 1, so gilt .1; xn  # ;. Da P X stetig Antwort 8 Sei A D .aij /1i n;1j k und b D .b1 ; : : : ; bn />
von oben ist, folgt die erste Limesaussage wegen P X .;/ D 0. P
sowie Yi D jkD1 aij Xj C bi die i-te Komponente von Y D
Ist .xn / eine beliebige Folge mit xn  xnC1 , n  1, und
limn!1 xn D 1, so gilt .1; xn  " R. Die zweite Grenz- .Y1 ; : : : ; Yn /> . Dann ist wegen der Linearität der Erwartungs-
wertaussage ergibt sich dann aus P X .R/ D 1 und der Tatsache, wertbildung
dass P X stetig von unten ist.
X
k
EYi D aij EXj C bi ; i D 1; : : : ; n;
Antwort 3 Nein, denn es ist P .X  0:5; Y  0:5/ D 0, aber
j D1
P .X  0:5/ > 0 und P .Y  0:5/ > 0.
was gleichbedeutend mit a) ist. Da die Kovarianzbildung biline-
Antwort 4 Ist T streng monoton fallend, so ergibt sich ar ist und allgemein Cov.U Ca; V Cb/ D Cov.U ; V / gilt, folgt
weiter für jede Wahl von i; j 2 f1; : : : ; ng
G.y/ D P .T .X /  y/ D P .X  T 1 .y//
!
D 1  F .T 1 .y//: X
k X
k
Cov.Yi ; Yj / D Cov ai ` X` C bi ; aj m Xm C bj
Dabei gilt das letzte Gleichheitszeichen wegen P .X D `D1 mD1

T 1 .y/ D 0/, denn F is stetig. Ableiten liefert für jeden Ste- X


k X
k
tigkeitspunkt von g D ai ` aj m Cov.X` ; Xm /;
`D1 mD1
F 0 .T 1 .y// f .T 1 .y//
g.y/ D G 0 .y/ D  D : was zu b) äquivalent ist.
T 0 .T 1 .y// jT 0 .T 1 .y//j
Antwort 9 Bei der Richtung (, denn x  F 1 .p/ impliziert

Kapitel 5
Antwort 5 Ein Wendepunkt an einer Stelle x liegt vor, wenn F .x/  F .F 1 .p//, und wegen der rechtsseitigen Stetigkeit
f 00 .x/ D 0 gilt. Mit der Ketten- und Produktregel ergibt sich von F gilt F .F 1 .p//  p.

.x  /2   2 Antwort 10 Nach (5.45) und Tab. 5.2 ist das obere Quartil
f 00 .x/ D f .x/  durch
4

und somit f 00 .x/ D 0 () .x  /2 D  2 , also x D  ˙ . Q3=4 .F / D  C 0:667 

Antwort 6 Mit  D 4 und  2 D 4 gilt nach (5.23) gegeben. Wegen ˚ 1 .0:25/ D ˚ 1 .0:75/ D 0:667 ist der
Quartilsabstand Q3=4 .F /  Q1=4 .F / gleich 1:334.
 
x4
P .X  x/ D ˚ Antwort 11 Bezeichnet F die Verteilungsfunktion von X , so
2
ist wegen der Stetigkeit von F Aussage (5.46) gleichbedeutend
und damit wegen P .a  X  b/ D P .a < X  b/ mit

P .2  X  5/ D ˚.0:5/  ˚.1/ D ˚.:5/  .1  ˚.1// F .a C t / D P .X  a  t /


0:6915 C 0:8413  1 D 0:5328: D P .a  X  t / D 1  F .a  t /; t 2 R:
192 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch

Nun ist mit geeigneten Substitutionen und unter der Vorausset- Antwort 17 Im Fall X Po./ gilt
zung f .a C t / D f .a  t /
  X 1
k it k X1
1  it k k
ZaCt Zt E eitX D e e D e e
kŠ kŠ
kD0 kD0
F .a C t / D f .x/ dx D f .a C u/ du  
1 1
D e exp eit D exp..eit  1//:
Zt Zat
D f .a  u/ du D  f .x/ dx Antwort 18 Es seien W D U C iV , Z D X C iY die
1 1 Zerlegungen von W und Z in Real- und Imaginärteil. Es gilt
Z1 W Z D UX  V Y C i.U Y C V X /. Hier sind wegen der Un-
D f .x/ dx D 1  F .a  t /: abhängigkeit von W und Z auf der rechten Seite die Faktoren
jedes auftretenden Paars von Zufallsvariablen stochastisch un-
at
abhängig. Die bekannte Multiplikationsformel liefert somit
Antwort 12 Andernfalls gäbe es mindestens ein x0 mit F .x0 / E.W Z/ D EU EX  EV EY C i.EU EY C EV EX /:
F .x0 / > 0. Damit wäre P .F .X / 2 .F .x0 /; F .x0 /// D 0,
also U D F .X / nicht gleichverteilt auf .0; 1/. Die rechte Seite ist gleich EW EZ.

Antwort 13 Es ist Antwort 19 R 1 Nach Definition der Betafunktion in (5.59) sowie


    (5.60) gilt 0 z k .1z/nk dz D  .kC1/ .nkC1/= .nC2/,
1 1 1 1 log 2 0:6931 woraus die Behauptung folgt.
F D  log D :
2  2  
Antwort 20 Wiederhole folgenden Algorithmus, bis die Bedin-
Der Median ist also kleiner als der Erwartungswert. gung eu21 C e
u22  1 erfüllt ist: Erzeuge in Œ0; 1 gleichverteilte
Pseudozufallszahlen u1 ; u2 . Setze eu1 WD 1 C 2u1 , e u2 WD
Antwort 14 Es gilt 1 C 2u2 . Falls eu21 C e
u22  1, so ist .eu1 ;e
u2 / ein Pseudozu-
P .X  t C h; X  t / fallspunkt mit Gleichverteilung in K.
P .X  t C hjX  t / D
P .X  t / Antwort 21 Für beliebige Mengen B 2 Bk ; C 2 Bn gilt
P .X  t C h/ 1  F .t C h/ 2 3
D D Z Z
P .X  t / 1  F .t /
P .Z;X/.B  C / D 4 fZ;X .z; x/ dx 5 dz:
exp..t C h//
D D eh D P .X  h/: B C
exp.t /
Nach Definition von f .xjz/ und der obigen Zusatzvereinbarung
Antwort 15 Mit der Substitution y D  x folgt gilt dann fZ;X .z; x/ D f .xjz/fZ.z/ für jede Wahl von x und z,
und wir erhalten
Z1 Z1 2 3
˛ Z Z
E Xk D x k f .x/ dx D x kC˛1 ex dx
 .˛/ P .Z;X/.B  C / D 4 f .xjz/ dx 5 fZ .z/ dz
0 0
B C
Z1 Z
1  .k C ˛/
D k y kC˛1 ey dy D k : D PZDz
X
.C /fZ .z/ dz
Kapitel 5

  .˛/   .˛/
0 B
Z
D PZDz
X
.C /P Z.dz/;
Antwort 16 Wir zerlegen Z D U C iV und c D a C i b jeweils
in Real- und Imaginärteil. Dann gilt B

was zu zeigen war.


cZ D .a C i b/.U C iV / D .aU  bV / C i .aV C bU /:

Nach Definition des Integrals einer komplexwertigen Zufallsva- Antwort 22 Hat man die Existenz von Y im Fall X  0
riablen folgt gezeigt, so liefert die Zerlegung X D X C  X  in Positiv-
und
R R G -messbare
Negativteil
C
R Y1 und Y2 mit
RZufallsvariablen
E.cZ/ D E .aU  bV / C iE .aV C bU / A Y1 dP D A X dP und A Y2 dP D A X dP für jedes
A 2 G . Dann leistet Y WD Y1  Y2 das Verlangte.
D aEU  bEV C i .aEV C bEU /
D .a C ib/ .EU C iEV / Antwort 23 Ist .In / eine aufsteigende Folge endlicher Teil-
D c EZ: mengen von I mit In " I , so gilt Y 1fIn g ! Y 1fI g (element-
weise auf ˝). Weiter gilt jY 1fIn gj  jY j, und die Behauptung
Dabei existieren wegen EjZj < 1 alle auftretenden Erwar- folgt aufgrund der Additivität des Integrals mit dem Satz von
tungswerte. der dominierten Konvergenz.
Antworten zu den Selbstfragen 193

Antwort 24 Das vierte und sechste Gleichheitszeichen folgen


aus dem Satz von der monotonen Konvergenz von Beppo Levi,
und das fünfte gilt aufgrund der Definition der bedingten Erwar-
tung.

Antwort 25 Da EG X G -messbar ist, gilt


ˇ
E X  EG X ˇG D EG X  EG X D 0
ˇ
sowie E g.EG X /ˇG D g.EŒX jG /.

Antwort 26 Ja, denn  2 ist (N0p[ f1g)-wertig, und es gilt für


jedes n  0 f 2  ng D f  b ncg 2 Fbpnc  Fn .

Antwort 27 Nach Definition gilt

X
n
.C X /n D Ck .Xk  Xk1 /:
kD1

Der k-te Summand ist Fk -messbar und wegen k  n auch Fn -


messbar. Damit ist .C X /n Fn -messbar.

Antwort 28 Ist  WD E.X1 /, so haben wir unter der o.B.d.A.-


Annahme
0 1
XN
E @ .Xj  /A D E.X1  /E.N /
j D1

bewiesen. Hier verschwindet


 die rechte Seite, und die linke ist
PN
gleich E X
j D1 j  E.N /.

Kapitel 5
Konvergenzbegriffe und
Grenzwertsätze – Stochastik 6
für große Stichproben
Wie stehen die Begriffe fast
sichere Konvergenz,
stochastische Konvergenz,
Konvergenz im p -ten
Mittel und
Verteilungskonvergenz
zueinander?
Was besagt das starke
Gesetz großer Zahlen?
Was besagt der
Stetigkeitssatz von
Lévy-Cramér?
Warum ist der Zentrale
Grenzwertsatz von
Lindeberg-Feller zentral ?

6.1 Konvergenz fast sicher, stochastisch und im p-ten Mittel . . . . . . . . 196


6.2 Das starke Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . . . 200
6.3 Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.4 Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 228
Kapitel 6

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 195
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_6
196 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

In diesem Kapitel lernen wir mit der fast sicheren Konvergenz, Selbstfrage 1
der stochastischen Konvergenz, der Konvergenz im p-ten Mittel Ist der Grenzwert einer fast sicher konvergenten Folge mit
und der Verteilungskonvergenz die wichtigsten Konvergenzbegrif- Wahrscheinlichkeit eins eindeutig bestimmt?
fe der Stochastik kennen. Hauptergebnisse sind das starke Gesetz
großer Zahlen von Kolmogorov und die Zentralen Grenzwertsätze
von Lindeberg-Lévy und Lindeberg-Feller. Diese Resultate zählen zu Wie wir sehen werden, ist der obige Konvergenzbegriff recht
den Glanzlichtern der klassischen Wahrscheinlichkeitstheorie, und einschneidend, und die fast sichere Konvergenz einer Folge von
sie sind bei der Untersuchung statistischer Verfahren für große Zufallsvariablen kann oft nur mit einigem technischen Aufwand
Stichproben unverzichtbar. Wir haben beim Beweis des Zentralen nachgewiesen werden. Eine handliche notwendige und hinrei-
Grenzwertsatzes von Lindeberg-Lévy bewusst auf charakteristische chende Bedingung für die fast sichere Konvergenz liefert der
Funktionen verzichtet und einen relativ elementaren Zugang von nachstehende Satz.
Stein gewählt. Damit wird dieser Satz auch für Leserinnen und Le-
ser zugänglich, die mit charakteristischen Funktionen nicht vertraut
sind. Bei allen Betrachtungen sei im Folgenden ein fester Wahr- Charakterisierung der fast sicheren Konvergenz
scheinlichkeitsraum .˝; A; P / zugrunde gelegt. Wir erinnern an Die folgenden Aussagen sind äquivalent:
dieser Stelle an die bequeme Notation, bei Ereignissen, die mithilfe
f.s.
von Zufallsvariablen geschrieben werden, die hierdurch gegebenen a) Xn ! X ,  
Elemente ! 2 ˝ zu unterdrücken. So ist etwa für reelle Zufallsva- b) limn!1 P supkn jXk  X j > " D 0 8" > 0.
riablen X ; X1 ; X2 ; : : : und k 2 N sowie " > 0
n o n o
sup jXn  X j > " WD ! 2 ˝ j sup jXn .!/  X .!/j > " :
nk nk Beweis Die nachfolgende Beweisführung macht starken Ge-
brauch von der am Ende des Kapitelvorworts in Erinnerung
gerufenen Konvention, durch Zufallsvariablen definierte Ereig-
nisse in kompakter Form ohne „! 2 ˝ j “ zu schreiben.
6.1 Konvergenz fast sicher,
stochastisch und im p-ten Mittel Um „a) ) b)“ zu zeigen, seien " > 0 beliebig sowie An WD
fsupkn jXk  X j > "g, C WD flimn!1 Xn D X g und Bn WD
C \ An gesetzt. Nach Voraussetzung gilt dann P .C / D 1, und
In der Analysis lernt man zu Beginn des Studiums die punkt- zu zeigen ist limn!1 P .An / D 0. Die Definition des Supre-
weise und die gleichmäßige Konvergenz von Funktionenfolgen
kennen. In der Stochastik ist bereits die punktweise Konver- T Bn
BnC1 , n  1, und die Definition von C und
mums liefert
An ergibt 1 nD1 Bn D ;. Da P stetig von oben ist und wegen
genz zu stark, da Mengen, die die Wahrscheinlichkeit null P .C / D 1 die Gleichheit P .An / D P .Bn/ besteht, folgt wie
besitzen, irrelevant sind. Nach diesen Vorbemerkungen drängt behauptet
sich der folgende Konvergenzbegriff für reelle Zufallsvariablen
X ; X1 ; X2 ; : : : auf einem Wahrscheinlichkeitsraum .˝; A; P / 0 D lim P .Bn / D lim P .An /:
n!1 n!1
nahezu auf.
Für die Umkehrung „b) ) a)“ seien An und C wie oben sowie
D" WD flim supn!1 jXn  X j > "g. Nach Definition des Li-
Definition der fast sicheren Konvergenz mes superior erhalten wir D"  An für jedes n  1 und somit
P .D" / D 0, da nach Voraussetzung P .An / gegen null konver-
Die Folge .Xn /n1 konvergiert (P -)fast sicher gegen X , giert. Weiter gilt
wenn
[1

n o C Dc
lim sup jXn  X j >
1
P ! 2 ˝ j lim Xn .!/ D X .!/ D 1 (6.1) n!1 k
n!1 kD1

f.s.
und somit wegen der -Subadditivität von P
gilt, und wir schreiben hierfür Xn ! X .
X
1
0  P .C c /  P .D1=k / D 0; also P .C / D 1: 
kD1

Fast sichere Konvergenz bedeutet punktweise Mithilfe des Lemmas von Borel-Cantelli in Abschn. 3.4 erhält
man folgende hinreichende Bedingung für fast sichere Konver-
Konvergenz fast überall
Kapitel 6

genz.
Nennen wir eine Menge ˝0 2 A eine Eins-Menge, wenn
f.s.
P .˝0/ D 1 gilt, so besagt Xn ! X , dass die Folge .Xn / Reihenkriterium für fast sichere Konvergenz
auf einer Eins-Menge punktweise gegen X konvergiert. Fast P1
Gilt nD1 P .jXn  X j > "/ < 1 für jedes " > 0, so
sichere Konvergenz bedeutet also „fast überall punktweise Kon- f.s.
vergenz“. Dass die in (6.1) stehende Menge zur -Algebra A folgt Xn ! X .
gehört, zeigt Übungsaufgabe 6.1.
6.1 Konvergenz fast sicher, stochastisch und im p-ten Mittel 197

Beweis Aus der Konvergenz obiger Reihe ergibt sich mit dem Aus der Teilmengenbeziehung
Lemma von Borel-Cantelli sowie nach Definition des Limes Su- ( )
perior einer Mengenfolge fjXn  X j > "g  sup jXk  X j > " ; " > 0;
!
\1 [1 kn
P fjXk  X j > "g D 0 8" > 0: (6.2)
erhalten wir zusammen mit der Charakterisierung der fast siche-
nD1 kDn
ren Konvergenz:
Wegen
( )
[
1
fjXk  X j > "g D sup jXk  X j > " Satz über fast sichere und stochastische Konvergenz
kDn kn
f.s. P
und der Tatsache, dass diese Mengen absteigende Folgen bil- Aus Xn ! X folgt Xn 
! X.
den, ist die linke Seite von (6.2) gleich limn!1 P .fsupkn jXk 
X j > "g/. Die Charakterisierung der fast sicheren Konvergenz
liefert somit die Behauptung.  Die Umkehrung dieser Aussage gilt in einem diskreten Wahr-
scheinlichkeitsraum (Aufgabe 6.3). Wie das folgende Beispiel
Video 6.1 Fast sichere und stochastische Konvergenz zeigt, ist jedoch die fast sichere Konvergenz i. Allg. stärker als
die stochastische Konvergenz.

Beispiel Seien ˝ WD Œ0; 1, A WD ˝ \ B und P WD 1˝


die Gleichverteilung auf ˝. Jede natürliche Zahl n besitzt eine
eindeutige Darstellung der Form n D 2k C j mit k 2 N0 und
0  j < 2k . Somit wird durch
(
Stochastische Konvergenz ist schwächer 1; falls j 2k  !  .j C 1/2k ;
Xn .!/ WD
als fast sichere Konvergenz 0 sonst;
Auch der nachfolgende Konvergenzbegriff besitzt für die Sto- eine Folge .Xn / von Zufallsvariablen auf ˝ definiert. Setzen wir
chastik grundlegende Bedeutung. P
X W 0, so gilt Xn 
! X , denn für jedes " mit 0 < " < 1 ist
P .jXn  X j > "/ D P .Xn D 1/ D 2k ;
Definition der stochastischen Konvergenz
Die Folge .Xn /n1 konvergiert stochastisch gegen X , falls 2k  n < 2kC1 . Andererseits gilt für jedes ! 2 ˝
falls gilt: 0 D lim inf Xn .!/ < lim sup Xn .!/ D 1:
n!1 n!1
lim P .jXn  X j > "/ D 0 8" > 0: (6.3)
n!1 Die Folge .Xn .!// konvergiert also für kein ! und ist damit erst
recht nicht fast sicher konvergent. Abb. 6.1 zeigt die Graphen
P
In diesem Fall schreiben wir kurz Xn 
! X. von X1 ; : : : ; X6 . J

Stochastische Konvergenz von Xn gegen X besagt also, dass X1 (ω) X2 (ω) X3 (ω)
für jedes (noch so kleine) " > 0 das Wahrscheinlichkeitsmaß
derjenigen ! 2 ˝, für die Xn .!/ außerhalb des "-Schlauchs
um X .!/ liegt, für n ! 1 gegen null konvergiert.
Anstelle von stochastischer Konvergenz oder auch P -stochasti-
scher Konvergenz findet man häufig die synonyme Bezeichnung
Konvergenz in Wahrscheinlichkeit. Gilt P .X D a/ D 1 für ein 1 ω 1 ω 1 ω
a 2 R, ist also P X D ıa die Einpunktverteilung (Dirac-Maß) im
P P X4 (ω) X5 (ω) X6 (ω)
Punkt a, so schreibt man anstelle von Xn 
! X auch Xn 
! a.
P
Im Fall Xn =an 
! 0 für eine Zahlenfolge .an / mit an ¤ 0,
Kapitel 6

n  1, ist auch in Analogie zur Landauschen o-Notation für


konvergente Zahlenfolgen die stochastische oP -Notation
Xn P
Xn D oP .an / W() 
!0 (6.4)
an 1 ω 1 ω 1 ω

üblich. Speziell ist also Xn D oP .1/ gleichbedeutend mit


P
Abb. 6.1 Eine Folge .Xn /, die stochastisch, aber nicht fast sicher kon-
Xn 
! 0. vergiert (sie konvergiert in keinem Punkt!)
198 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Der springende Punkt an obigem Beispiel für eine stochastisch, Selbstfrage 2


aber nicht fast sicher konvergente Folge ist, dass auf der einen Wie könnte ein Beweis dieser Aussage aussehen?
Seite die Ausnahmemengen An WD f! j jXn .!/  X .!/j > "g
mit wachsendem n immer kleiner werden und ihre Wahrschein-
lichkeit gegen null strebt. Andererseits überdecken für jedes Die beiden bislang vorgestellten Konvergenzbegriffe für Fol-
k D 0; 1; 2; : : : die Mengen An mit n D 2k ; 2k C1; : : : ; 2kC1 1 gen reeller Zufallsvariablen lassen sich direkt auf Folgen
ganz ˝, weshalb keine punktweise Konvergenz vorliegt. Natür- k-dimensionaler Zufallsvektoren verallgemeinern. Hierzu be-
lich gibt es Teilfolgen wie z. B. .X2k /k0 , die fast sicher gegen zeichne k  k1 die durch
X  0 konvergieren. Das folgende Resultat charakterisiert die
stochastische Konvergenz mithilfe der fast sicheren Konvergenz kxk1 WD max.jx1 j; : : : ; jxk j/; x WD .x1 ; x2 ; : : : ; xk / 2 Rk
von Teilfolgen.
definierte Maximum-Norm im Rk .
Teilfolgenkriterium für stochastische Konvergenz
Folgende Aussagen sind äquivalent: Fast sichere und stochastische Konvergenz im Rk

a) Xn 
P
! X. Es seien X; X1 ; X2 ; : : : Rk -wertige Zufallsvektoren auf
b) Jede Teilfolge .Xnk /k1 von .Xn /n1 besitzt eine wei- einem Wahrscheinlichkeitsraum .˝; A; P /. Die Folge
f.s. .Xn /n1 konvergiert
tere Teilfolge .Xn0k /k1 mit Xn0k ! X .
f.s.
a) fast sicher gegen X (in Zeichen: Xn ! X), falls
 
Beweis Wir zeigen zunächst die Gültigkeit der Implikation P f! 2 ˝ W lim Xn .!/ D X.!/g D 1;
n!1
„a) ) b)“ und starten hierzu mit einer beliebigen Teilfol-
ge .Xnk /k1 von .Xn /. Da für jedes feste k 2 N die Folge P
P .jXn  X j > 1=k/ gegen 0 konvergiert, gibt es eine Teilfolge b) stochastisch gegen X (kurz: Xn 
! X), falls
.Xn0k /k1 mit
lim P .kXn  Xk1 > "/ D 0 8" > 0:
  n!1
1 1
P jXn0k  X j >  2; k  1:
k k
Wählen wir zu vorgegebenem " > 0 die natürliche Zahl k so Im Rk gibt es neben der Maximum-Norm noch viele weitere
groß, dass die Ungleichung k 1 < " erfüllt ist, so folgt Normen wie z. B. die Summenbetragsnorm kxk1 WD jx1 jC: : :C
! jxk j oder die euklidische Norm. Da je zwei Normen k  k und
X1
k  k auf dem Rk in dem Sinne äquivalent sind, dass es positive
P sup jXn0r  X j > "  P .jXn0r  X j > "/ Konstanten ˛ und ˇ mit
rk rDk
X
1  
1 k  k  ˛  k  k ; k  k  ˇ  k  k
 P jXn0r  X j >
r
rDk
gibt (siehe z. B. [1], Abschn. 19.3), könnten wir in der Definiti-
X
1
1 on der stochastischen Konvergenz anstelle der Maximum-Norm
 : auch jede andere Norm wählen.
r2
rDk
P1 2
Bekanntlich ist die Konvergenz von Folgen im Rk zur Konver-
Wegen limk!1 rDk r D 0 liefert das Kriterium für fast si- genz jeder der k Koordinatenfolgen äquivalent. Ein analoges
f.s.
chere Konvergenz Xn0k ! X . Resultat gilt sowohl für die fast sichere als auch für die stochas-
tische Konvergenz von Zufallsvektoren im Rk . Versuchen Sie
Für die Beweisrichtung „b) ) a)“ seien " > 0 beliebig und kurz
sich einmal selbst an einem Beweis (siehe Aufgabe 6.21)!
an WD P .jXn  X j > "/ gesetzt. Zu zeigen ist die Konvergenz
an ! 0. Nach Voraussetzung gibt es zu jeder Teilfolge .ank /k1
von .an / eine weitere Teilfolge .an0k /k1 mit Xn0k ! X , al-
f.s. Satz (Äquivalenz zu komponentenweiser Konver-
genz) Es seien X D .X .1/ ; : : : ; X .k/ / und Xn D
P .1/ .k/
so auch Xn0k 
! X und somit limk!1 an0k D 0. Hieraus folgt
Kapitel 6

.Xn ; : : : ; Xn /, n  1, k-dimensionale Zufallsvektoren auf


limn!1 an D 0.  einem Wahrscheinlichkeitsraum .˝; A; P /. Dann gelten:
f.s. .j / f.s.
Aus diesem Teilfolgenkriterium ergibt sich unmittelbar, dass a) Xn  ! X () Xn ! X .j / , j D 1; : : : ; k,
auch der stochastische Limes P -fast sicher eindeutig ist, d. h., P .j / P
es gilt: b) Xn ! X () Xn  ! X .j / , j D 1; : : : ; k. J

P P Aus dem obigen Satz und dem Teilfolgenkriterium für stochas-


Aus Xn ! X und Xn  ! Y folgt X D Y P -f.s. tische Konvergenz ergeben sich nachstehende Rechenregeln.
6.1 Konvergenz fast sicher, stochastisch und im p-ten Mittel 199

quadratischen Mittel üblich. Man beachte, dass die Konvergenz


Rechenregeln für stochastische Konvergenz im p-ten Mittel nichts anderes ist als die im Kapitel über Maß-
und Integrationstheorie behandelte Konvergenz im p-ten Mit-
Es seien X; X1 ; X2 ; : : : k-dimensionale Zufallsvektoren tel. Dort wird u. a. gezeigt, dass der Raum Lp vollständig ist,
P
auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn 
! also jede Cauchy-Folge in Lp einen Grenzwert im Raum Lp
X. Dann gelten: besitzt. Weiter gilt im Fall p  1 für X ; Y 2 Lp die Minkowski-
P
Ungleichung
! h.X/ für jede stetige Funktion h W Rk ! Rs .
a) h.Xn / 
b) Sind A; A1 ; A2 ; : : : reelle (m  k)-Matrizen mit der Ei- .EjX C Y jp /1=p  .EjX jp /1=p C .EjY jp /1=p : J
P
genschaft limn!1 An D A, so folgt An Xn  ! A X.
Hierbei wurden Xn und X als Spaltenvektoren aufge-
Aus der Konvergenz im p-ten Mittel
fasst.
folgt die stochastische Konvergenz
Dass die Konvergenz im p-ten Mittel die stochastische Konver-
Beweis a) Wir benutzen das Teilfolgenkriterium für stochas- genz nach sich zieht, folgt aus der nachstehenden, nach dem
tische Konvergenz. Es sei .Xn` /`1 eine beliebige Teilfolge von russischen Mathematiker Andrej Andrejewitsch Markov (1856–
.Xn /n1 . Nach besagtem Kriterium existiert eine weitere Teil- 1922) benannten Ungleichung.
f.s.
folge .Xn0` /`1 mit Xn0` ! X, also lim`!1 Xn0` .!/ D X.!/ für
jedes ! aus einer Eins-Menge ˝0 . Aufgrund der Stetigkeit von h
folgt lim`!1 h.Xn0` .!// D h.X.!//, ! 2 ˝0 , sodass das Teil- Allgemeine Markov-Ungleichung
folgenkriterium die Behauptung a) liefert. Der Nachweis von b) Es seien .˝; A; P / ein Wahrscheinlichkeitsraum sowie
erfolgt analog (s. Aufgabe 6.4).  g W Œ0; 1/ ! R eine monoton wachsende Funktion mit
g.t / > 0 für jedes t > 0. Für jede Zufallsvariable X auf
Sind also .Xn / und .Yn / Folgen reeller Zufallsvariablen auf ˝ und jedes " > 0 gilt dann
P P
.˝; A; P / mit Xn 
! X und Yn 
! Y , so ergibt sich aus a)
insbesondere Eg.jX j/
P .jX j  "/  :
g."/
P
Xn ˙ Yn 
! X ˙Y;
P
Xn Yn 
! XY ; Beweis Aufgrund der Voraussetzung über g gilt
sin Xn P sin X
e cos Yn 
!e cos Y g.jX .!/j/
1fjX .!/j  "g  ; ! 2 ˝:
g."/
usw.
Bildet man auf beiden Seiten den Erwartungswert, so folgt die
Im Gegensatz zur fast sicheren und zur stochastischen Konver-
Behauptung. 
genz erfordert der nachstehende Konvergenzbegriff für Folgen
von Zufallsvariablen eine Integrierbarkeitsvoraussetzung. Selbstfrage 3
Können Sie aus obiger Ungleichung die Tschebyschow-
Ungleichung herleiten?
Definition der Konvergenz im p-ten Mittel
Es seien p 2 .0; 1/ eine positive reelle Zahl und
Wählt man speziell die Funktion g.t / WD t p , t  0, so ergibt
sich für Zufallsvariablen Xn und X aus Lp die Ungleichung
Lp D Lp .˝; A; P / WD fX W ˝ ! R j EjX jp < 1g
EjXn  X jp
der Vektorraum aller reellen Zufallsvariablen auf ˝ P .jXn  X j  "/  ;
"p
mit existierendem p-ten absoluten Moment. Sind
und man erhält das folgende Resultat.
X ; X1 ; X2 ; : : : in Lp , und gilt

lim EjXn  X jp D 0; Satz über Konvergenz im p-ten Mittel und stochastische


n!1
Konvergenz
Kapitel 6

so heißt die Folge .Xn /n1 im p-ten Mittel gegen X kon- Lp P


Lp Aus Xn ! X folgt Xn  ! X . Die Umkehrung dieser
vergent, und wir schreiben hierfür Xn ! X .
Aussage gilt i. Allg. nicht.

Kommentar Im Fall p D 1 spricht man kurz von Konver- Dass aus der stochastischen Konvergenz i. Allg. nicht die Kon-
genz im Mittel, für p D 2 ist die Sprechweise Konvergenz im vergenz im p-ten Mittel folgt, zeigt das nachstehende Beispiel.
200 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

p p p p
Beispiel Es seien ˝ WD Œ0; 1, A WD ˝ \ B, P WD 1˝ sowie so gilt E n D E n 1fAn g C E n 1fBn g C E n 1fCn g. Hier ist
X W 0 sowie Xn definiert durch der erste Summand auf der rechten Seite höchstens gleich " und
( der dritte wegen t p  t s für t  1 kleiner oder gleich E sn . Der
n1=p ; falls 0  !  1=n; zweite Summand ist wegen
Xn .!/ WD
0 sonst:
1fBn g
pn 1fBn g D sn sp
P
n
Dann gilt Xn ! X , denn es ist P .jXn  X j > "/ D P .Xn D
n1=p / D 1=n ! 0. Andererseits gilt EjXn  X jp D n  1=n D 1 höchstens gleich E sn =".sp/=p , sodass wir
für jedes n, was zeigt, dass keine Konvergenz im p-ten Mittel
vorliegt. J E pn  " C E sn =".sp/=p C E sn
p
Zwischen der fast sicheren Konvergenz und der Konvergenz und somit lim supn!1 E n  " erhalten. Da " beliebig war,
im p-ten Mittel besteht ohne zusätzliche Voraussetzungen kei- folgt die Behauptung. 
nerlei Hierarchie. So konvergiert die Folge .Xn / im obigen
Beispiel fast sicher gegen X , es liegt aber keine Konvergenz
im p-ten Mittel vor. Auf der anderen Seite konvergiert die Fol- 6.2 Das starke Gesetz großer Zahlen
ge .Xn / aus dem Beispiel zu Abb. 6.1 im p-ten Mittel gegen
X  0, aber nicht fast sicher. Das nachstehende Resultat gibt In diesem Abschnitt betrachten wir eine Folge X1 ; X2 ; : : : sto-
eine hinreichende Bedingung an, unter der aus der fast sicheren chastisch unabhängiger identisch verteilter reeller Zufallsvaria-
Konvergenz die Konvergenz im p-ten Mittel folgt. blen (kurz: u.i.v.-Folge) auf einem Wahrscheinlichkeitsraum
.˝; A; P /. Existiert das zweite Moment von X1 , gilt also
f.s.
EX12 < 1, so existieren auch der mit  WD E.X1 / bezeich-
Satz Es gelte Xn ! X . Gibt es eine nichtnegative Zufallsva- nete Erwartungswert von X1 sowie die Varianz  2 WD V .X1 /,
riable Y 2 Lp (also E.Y p / < 1) mit der Eigenschaft jXn j  Y und es gilt das schwache Gesetz großer Zahlen
P -fast sicher für jedes n  1, so folgt
1X
n
P
Lp Xj 
! ;
Xn ! X : J n j D1

Beweis Es sei Zn WD jXn  X jp . Wegen jXn j  Y P -f.s. P4.2. Die Folge .X n / der arithmetischen Mittel
vgl. Abschn.
f.s. X n WD n1 jnD1 Xj konvergiert also für n ! 1 stochastisch
für jedes n und Xn ! X folgt jX j  Y P -f.s., und somit gilt
f.s. gegen den Erwartungswert der zugrunde liegenden Verteilung.
jZn j  .2Y /p P -f.s., n  1. Wegen Zn ! 0 liefert der Satz
von der dominierten Konvergenz wie behauptet E.Zn / ! 0. 
Arithmetische Mittel von u.i.v.-Folgen aus L 1
Kommentar Aus der stochastischen Konvergenz folgt die konvergieren fast sicher
Konvergenz im Mittel, wenn die Folge .Xn / gleichgradig in-
tegrierbar ist, also der Bedingung Die obige Aussage lässt nur die Interpretation zu, dass es zu
jedem vorgegebenen " > 0 und jedem ı > 0 ein von " und
lim sup E ŒjXn j1fjXnj  ag D 0 (6.5) ı abhängendes n0 gibt, sodass für jedes (einzelne) feste n mit
a!1 n1
n  n0 die Ungleichung
genügt. Wir werden im Folgenden nicht auf diese Begriffs-  
P jX n  j > "  ı
bildung eingehen, sondern verweisen hier auf weiterführende
Literatur. Abschließend zeigen wir noch, dass die Konvergenz erfüllt ist.SWollen wir erreichen, dass sogar die unendliche Ver-
im p-ten Mittel eine umso stärkere Eigenschaft darstellt, je grö- einigung 1 nDn0 fjX n  j > "g eine Wahrscheinlichkeit besitzt,
ßer p ist (siehe hierzu auch Aufgabe 8.43). J die höchstens gleich ı ist, so müssen wir die fast sichere Kon-
vergenz
Satz Es seien X ; X1 ; X2 ; : : : Zufallsvariablen auf .˝; A; P /
1X
n
sowie 0 < p  s < 1. Dann gilt: f.s.
Xj ! 
Kapitel 6

n j D1
Ls Lp
Xn ! X H) Xn ! X : J
nachweisen, denn diese ist nach der Charakterisierung der fast
sicheren Konvergenz in Abschn. 6.1 gleichbedeutend mit
Beweis Es seien n WD jXn  X j sowie " > 0 beliebig.
Setzen wir !
[
1
lim P jX n  j > " D 0 für jedes " > 0:
An D f n  "1=p g; Bn D f"1=p < n < 1g; Cn D f1  n g; n!1
kDn
6.2 Das starke Gesetz großer Zahlen 201

In dieser Hinsicht bildet das folgende Resultat ein Hauptergeb- zweiten Schritt die Zufallsvariable Xn in der Höhe n und set-
nis der klassischen Wahrscheinlichkeitstheorie. zen

Yn WD Xn 1fXn  ng
Starkes Gesetz großer Zahlen von Kolmogorov
sowie Tn WD Y1 C Y2 C : : : C Yn , n  1.
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum .˝; A; P /. Dann sind Wir behaupten, dass
folgende Aussagen äquivalent:
Sn Tn f.s.
P f.s.  ! 0 (6.8)
a) n1 jnD1 Xj ! X für eine Zufallsvariable X . n n
b) EjX1j < 1 . gilt und somit „nur“
In diesem Fall gilt X D EX1 P -fast sicher und somit
Tn f.s.
! EX1 (6.9)
1 X
n
f.s.
n
Xj ! EX1 :
n j D1 zu zeigen ist. Der Beweis von (6.8) ist schnell erbracht: Wegen
der identischen Verteilung der Xj und der Darstellungsformel
(5.42) für den Erwartungswert gilt

Beweis Wir beweisen zunächst die Implikation „a) ) b)“. X


1 X
1

Schreiben wir Sn WD X1 C : : : C Xn für die n-te Partialsumme P .Xn ¤ Yn / D P .Xn > n/


nD1 nD1
der Folge X1 ; X2 ; : : :, so gilt
X1

Xn Sn n  1 Sn1 D P .X1 > n/


D   : (6.6) nD1
n n n n1
1 Zn
X
Gibt es also eine Zufallsvariable X , gegen die Sn =n fast sicher  P .X1 > t / dt
konvergiert, so gilt auf einer Eins-Menge ˝0 die punktweise nD1n1
Konvergenz Sn .!/=n ! X .!/, ! 2 ˝0 , und nach (6.6) folgt Z1
f.s.
limn!1 Xn .!/=n D 0, ! 2 ˝0 , also Xn =n ! 0. Von den D P .X1 > t / dt
durch An WD fjXn j  ng, n  1, definierten Ereignissen können
0
somit nur mit Wahrscheinlichkeit null unendlich viele eintre-
ten, es gilt also P .lim supn!1 An / D 0. Da die Zufallsvariablen D EX1 < 1
X1 ; X2 ; : : : identisch verteilt sind, gilt P .An / D P .jX1j  n/.
und somit P .lim supn!1 fXn ¤ Yn g/ D 0 nach dem Borel-
Teil b) des Lemmas von Borel-Cantelli liefert somit
Cantelli-Lemma. Komplementbildung ergibt dann
X
1 !
P .jX1j  n/ < 1: (6.7) [1 \
1
P fXk D Yk g D 1:
nD1
nD1 kDn

Wegen
Zu jedem ! aus einer Eins-Menge ˝0 gibt es also ein (von !
Z1 Zn abhängendes) n0 mit Xk .!/ D Yk .!/ für jedes k  n0 . Für
X
1
jedes solche ! gilt demnach für jedes n  n0
P .jX1j > t / dt D P .jX1j  t / dt
ˇ ˇ
0 nD1n1
ˇ Sn .!/ Tn .!/ ˇ 1 Xn0
ˇ ˇ
X1
ˇ n  n ˇ n jXj .!/  Yj .!/j:
 P .jX1j  n/ j D1
nD0
Da die rechte Seite gegen null konvergiert, folgt (6.8).
ergibt sich b) aus (6.7) und der Darstellungsformel (5.42) für
Um (6.9) nachzuweisen, untersuchen wir zunächst Tn =n entlang
den Erwartungswert.
der für ein beliebiges ˛ > 1 durch
Kapitel 6

Den Beweis der Richtung „b) ) a)“ unterteilen wir der Über-  ˘
sichtlichkeit halber in mehrere Schritte. Zunächst zeigt eine kn WD ˛ n D maxf` 2 N j `  ˛g; n  1;
Zerlegung in Positiv- und Negativteil, dass ohne Beschränkung
der Allgemeinheit Xn  0 angenommen werden kann (Übungs- definierten Teilfolge. Wir behaupten die Gültigkeit von
aufgabe 6.6). Um Zufallsvariablen mit existierenden Varianzen
zu erhalten, die (hoffentlich) eine ausreichend gute Approxi- Tkn f.s.
! EX1 (6.10)
mation der Ausgangsfolge .Xn / bilden, stutzen wir in einem kn
202 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

und weisen diese Konvergenz nach, indem wir Hieraus folgt die Abschätzung

Tkn ETkn f.s. X1


1
kn

kn
! 0 (6.11) X12 1fX1  kn g  M X1
k
nD1 n
und
und somit (6.13). Nach dem Reihenkriterium für fast sichere
ETkn Konvergenz gilt also (6.11) und somit auch (6.10), da (6.12) be-
lim D EX1 (6.12) reits gezeigt wurde. Da die schon bewiesene Beziehung (6.8)
n!1 kn
auch entlang der Teilfolge kn gilt, wissen wir bereits, dass die
zeigen. Wegen der gleichen Verteilung aller Xj gilt EYn D Konvergenz
E.X1 1fX1  ng/ und somit nach dem Satz von der mono-
tonen Konvergenz EYn ! EX1 . Da mit einer konvergenten Skn f.s.
! EX1
Zahlenfolge auch die Folge der arithmetischen Mittel gegen den kn
gleichen Grenzwert konvergiert, folgt (6.12). Um (6.11) zu zei-
f.s.
gen, setzen wir für beliebiges " > 0 besteht. Die eigentliche Behauptung Sn =n ! EX1 erhält man
ˇ ˇ
hieraus wie folgt durch eine geeignete Interpolation: Ist j  1
ˇ1 ˇ
Bn ."/ WD ˇˇ .Tkn  ETkn /ˇˇ > " mit kn < j  knC1 , so ergibt sich wegen Xn  0 die Unglei-
kn chungskette

und behaupten Skn Sk Sj Sk Sk


 n   nC1  nC1
knC1 j j j kn
X
1
P .Bn ."// < 1: (6.13) und somit
nD1
Skn kn Sj Sk knC1
Hierzu nutzen wir aus, dass Yn als beschränkte Zufallsva-   nC1 :
kn knC1 j knC1 kn
riable ein endliches zweites Moment besitzt. Aufgrund der
Tschebyschow-Ungleichung, der Unabhängigkeit der Folge f.s. f.s.
Wegen kn1 Skn ! EX1 , knC1
1
SknC1 ! EX1 und
Y1 ; Y2 ; : : :, der allgemeinen Ungleichung V .Z/  EZ 2 und der
identischen Verteilung der Xj folgt dann kn 1 knC1
lim D ; lim D˛
X
1 X
1 n!1 knC1 ˛ n!1 kn
1 1
P .Bn ."//  V .Tkn /
"2 kn2 folgt also P .˝.˛// D 1, wobei
nD1 nD1

1 X 1 X
1 kn EX1 Sn Sn
 EY 2 ˝.˛/ WD  lim inf  lim sup  ˛ EX1 :
"2 nD1 kn2 j D1 j ˛ n!1 n n!1 n
T 1  
1 X 1 X
1 kn Setzen wir schließlich ˝  WD rD1 ˝ 1 C r
1
, so gilt
D EŒX12 1fX1  j g P .˝ / D 1 und
"2 nD1 kn2 j D1
Sn .!/
1 X 1 D EX1
1
lim 8! 2 ˝  ;
 EŒX12 1fX1  kn g n!1 n
"2 nD1 kn
" # f.s.
also Sn =n ! EX1 . 
1 X1
1
D 2 E X1 2
1fX1  kn g :
" k
nD1 n Selbstfrage 4
Nach Aufgabe 5.52 besitzt das arithmetische Mittel von un-
Dabei haben wir beim letzten Ungleichheitszeichen den Sach- abhängigen Zufallsvariablen mit gleicher Cauchy-Verteilung
verhalt j  kn und beim letzten Gleichheitszeichen den Satz C.˛; ˇ/ die gleiche Verteilung wie jeder Summand. Warum
von der monotonen Konvergenz verwendet. Um den Nachweis widerspricht dieses Ergebnis nicht dem starken Gesetz großer
von (6.13) abzuschließen, setzen wir M WD 2˛=.˛  1/ sowie Zahlen?
für festes x > 0 n0 WD minfn  1 j kn  xg. Die Ungleichung
Kapitel 6

y  2 byc für y  1 ergibt


Kommentar Der obige Beweis lässt sich wesentlich verkür-
X1
1 X1
1 X1
1
1fx  kn g D 2 zen, wenn zusätzliche Bedingungen an die u.i.v.-Folge .Xn /
k k ˛ n
nD1 n nDn n nDn
0 0
gestellt werden. So liefert z. B. die nachfolgende, auf Kolmogo-
2 M rov zurückgehende und eine Verschärfung der Tschebyschow-
D  1
  : Ungleichung darstellende Maximal-Ungleichung u. a. ein star-
n
˛ 1 ˛
0 x kes Gesetz großer Zahlen in der eben betrachteten Situation,
6.2 Das starke Gesetz großer Zahlen 203

Beispiel: Monte-Carlo-Integration

Selbst hochdimensionale Integrale können mithilfe von 0.88081, 0.88006, 0.88120, 0.87852, 0.87832 und 0.88132.
Pseudozufallszahlen beliebig genau bestimmt werden. In jedem dieser Fälle ist die betragsmäßige Abweichung vom
Rb wahren Wert höchstens gleich 0:002.
Es gibt verschiedene Methoden, um ein Integral
Pn a f .x/ dx R
durch eine geeignete Linearkombination j D0 aj f .xj / der Gilt B f 2 .x/ dx < 1, so können wir die Varianz der in
Funktionswerte von f in gewissen Stützstellen xj zu ap- (6.14) definierten Größe In angeben und eine Fehlerabschät-
proximieren. Bei den Newton-Cotes-Formeln liegen diese zung durchführen: Es ist dann
Stützstellen äquidistant, bei den Gauß-Quadraturformeln bil-  
den sie Nullstellen orthogonaler Polynome. Die Theorie f2 WD V .jBjf .U1 // D jBj2 Ef 2 .U1 /  .Ef .U1 //2
beschränkt sich fast ausschließlich auf den eindimensiona- 0 0 12 1
len Fall; numerische Quadratur in mehreren Dimensionen ist Z Z
B 1 1 @ C
ein weitestgehend offenes Forschungsgebiet. D jBj2 @ f 2 .x/ dx  f .x/ dx A A
jBj jBj2
Was passiert, wenn wir die Wahl der Stützstellen Meister B B
Zufall überlassen? Hierzu seien B eine beschränkte Borel-
Menge im Rk mit 0 < jBj WD k .B/ und f eine auf B und somit V .In / D f2 =n. Die Varianz des Schätzers In
definierte messbare, Lebesgue-integrierbare und nicht fast für I konvergiert also invers proportional mit der Anzahl
überall konstante Funktion, die nicht notwendig stetig sein der Stützstellen gegen null, und diese Geschwindigkeit hängt
muss. Ist U ein Zufallsvektor mit der Gleichverteilung U.B/ nicht von der Dimension k des Problems ab! Eine Aussage
auf B, so existiert der Erwartungswert
R der Zufallsvariablen über den zufälligen Schätzfehler In  I macht der Zentrale
f .U/, und es gilt Ef .U/ D B f .x/ jBj 1
dx D jBjI
, wobei Grenzwertsatz von Lindeberg-Lévy. Wenden wir diesen auf
R
I WD B f .x/ dx. die u.i.v.-Folge Xj WD jBjf .Uj /, j  1, an, so folgt
Ist .Un /n1 eine u.i.v.-Folge k-dimensionaler Zufallsvek- Pn P
toren mit U1 U.B/, so ist .f .Un //n1 eine u.i.v.- j D1 Xj  nEX1 jBj jnD1 f .Uj /  nI
p D p
Folge von Zufallsvariablen mit Erwartungswert Ef .U1 / D n V .X1 / n jBj2 V .f .U1 //
I =jBj. Nach dem starken Gesetz großer Zahlen gilt dann p
P f.s.
n .In  I / D
n1 jnD1 f .Uj / ! I =jBj und somit D 
! N.0; 1/
f

1X
n
f.s. für n ! 1.
In WD jBj  f .Uj / ! I : (6.14)
n j D1
Wählt man zu einem kleinen ˛ 2 .0; 1/ die Zahl h D h˛
durch h˛ D ˚ 1 .1  ˛=2/, so ergibt sich
Wählt man also die Stützstellen aus dem Integrationsbereich
B rein zufällig und unabhängig voneinander, so ist die Zu-  
h˛ f
fallsvariable In , deren Realisierungen man durch Simulation P jIn  I j  p !1˛
n
erhält, ein sinnvoller Schätzer für I . Realisierungen der Uj
gewinnt man mithilfe von Pseudozufallszahlen wie im Bei- und somit
spiel nach Abb. 5.30 beschrieben.
 
Als Zahlenbeispiel betrachten wir den Bereich B WD Œ0; 13 h˛ f h˛ f
lim P In  p  I  In C p D 1  ˛:
und die Funktion f .x1 ; x2 ; x3 / WD sin.x1 C x2 C x3 /. In die- n!1 n n
sem Fall berechnet sich das Integral
Für ˛ D 0:05 ist h˛ D 1:96, und so enthält für großes n ein
Z1 Z1 Z 1 zufälliges Intervall mit Mittelpunkt In (dem mit Pseudozu-p
I WD sin.x1 C x2 C x3 / dx1 dx2 dx3 fallszahlen simulierten Wert) und Intervallbreite 3:92f = n
0 0 0
die unbekannte Zahl I mit großer Wahrscheinlichkeit 0:95.
Dass f nicht bekannt ist, bereitet kein großes Problem,
zu I D cos.3/C3 cos.1/3 cos.2/1 D 0:879354 : : : Zehn da es durch ein von U1 ; : : : ; Un abhängendes n ersetzt
Simulationen mit jeweils n D 10 000 Pseudozufallspunk- werden kann, ohne obige Grenzwertaussage zu ändern (Auf-
Kapitel 6

ten ergaben die Werte 0.87911, 0.87772, 0.88080, 0.87891, gabe 6.13).
204 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

wenn zusätzlich EX12 < 1 vorausgesetzt wird. Man beachte, Mithilfe der Kolmogorov-Ungleichung ergibt sich mit dem
dass in der Kolmogorov-Ungleichung nur die Unabhängigkeit, Kolmogorov-Kriterium eine hinreichende Bedingung für ein
aber nicht die identische Verteilung der Zufallsvariablen vor- starkes Gesetz großer Zahlen für nicht notwendig identisch
ausgesetzt ist. Zudem erinnern wir an die Definition Sk WD verteilte Zufallsvariablen mit existierender Varianz. Zur Vor-
Pk
j D1 Xj . J bereitung dieses Resultats stellen wir zwei Hilfssätze aus der
Analysis voran. Das erste ist nach Ernesto Cesàro (1859–1906),
das zweite nach Leopold Kronecker (1823–1891) benannt.
Kolmogorov-Ungleichung
Es seien X1 ; : : : ; Xn unabhängige Zufallsvariablen mit Das Lemma von Cesàro
EXj2 < 1, j D 1; : : : ; n. Dann gilt:
Sind .bn / eine Folge reeller Zahlen mit bn ! b 2 R für
  n ! 1 und .an / eine monoton wachsende Folge positiver
1
P max jSk j  "  2 V .Sn /; " > 0; reeller Zahlen mit limn!1 an D 1 (kurz: an " 1), so
1kn "
gilt mit der Festsetzung a0 WD b0 WD 0:
Pk
wobei Sk D j D1 .Xj  EXj /, k D 1; : : : ; n.
1 X
n
lim .aj  aj 1 /bj 1 D b:
n!1 an
j D1

Beweis Da sich die Aussage auf die zentrierten Zufallsvaria-


blen Xj  EXj bezieht, kann o.B.d.A. EXj D 0, j D 1; : : : ; n,
gesetzt werden. Bezeichnet Beweis Zu jedem " > 0 gibt es ein k D k."/ mit

Ak WD f! 2 ˝ j jSk .!/j  "; jSj .!/j < " für j D 1; : : : ; k  1g b  "  bn  b C " für jedes n  k: (6.15)
P n
Setzen wir cn WD an1 j D1 .aj  aj 1 /bj 1 , so folgt für n > k
P „erstmals zum Zeitpunkt k“ jSk .!/j  " gilt,
das Ereignis, dass
so folgt wegen nkD1 Ak  ˝
1 X
k
an  ak
V .Sn / D ESn2 cn  .aj  aj 1 /bj 1 C .b C "/
an j D1 an
Xn

 E Sn2 1fAk g und somit lim supn!1 cn  b C ": Da " beliebig war, erhalten
kD1 wir lim supn!1 cn  b. Verwendet man die erste Ungleichung
Xn
in (6.15), so ergibt sich völlig analog die noch fehlende Abschät-
D E .Sk C .Sn  Sk //2 1fAk g zung lim infn!1 cn  b. 
kD1
X
n
Man beachte, dass sich für an D n das einfach zu merkende, als
 E .Sk2 C 2Sk .Sn  Sk //1fAk g Grenzwertsatz von Cauchy bekannte Resultat ergibt, dass mit
kD1 einer Folge auch die Folge der arithmetischen Mittel gegen den
Xn
X
n gleichen Grenzwert konvergiert.
D E Sk2 1fAk g C 2 E ŒSk .Sn  Sk /1fAk g :
kD1 kD1
Das Lemma von Kronecker
Nach Definition von Ak gilt E Sk2 1fAk g  "2 P .Ak /. Da die
Zufallsvariablen 1fAk gSk und Sn  Sk nur von X1 ; : : : ; Xk bzw. Es seien .xn / eine reelle Folge und .an / eine Folge positi-
nur von XkC1 ; : : : ; Xn abhängen, sind sie nach dem Blockungs- ver Zahlen mit an " 1. Dann gilt:
lemma stochastisch unabhängig, was
X
1
xn 1 X
n
Ist konvergent, so folgt lim xj D 0:
E ŒSk .Sn  Sk /1fAk g D E.Sk 1fAk g/ E.Sn  Sk / an n!1 an
nD1 j D1
D E.Sk 1fAk g/  0 D 0

zur Folge hat. Zusammen mit der Gleichung P


!   Beweis Sei bn WD jnD1 xj =aj für n  1 und b0 WD 0. Nach
Xn
Voraussetzung gibt es ein b 2 R mit bn ! b für n ! 1.
Kapitel 6

P Ak D P max jSk j  "


1kn Wegen bn  bn1 D xn =an folgt
kD1
X
n X
n X
n
folgt dann die Behauptung.  xj D aj .bj  bj 1 / D an bn  .aj  aj 1 /bj 1 :
j D1 j D1 j D1
Selbstfrage 5
Dividiert man jetzt durch an und beachtet Cesàros Lemma, so
Warum gilt die letzte Gleichung?
ergibt sich die Behauptung. 
6.2 Das starke Gesetz großer Zahlen 205

Beispiel: Normale Zahlen

In fast jeder reellen Zahl tritt jeder vorgegebene Ziffernblock mit der Wahrscheinlichkeit 1=10 geschieht. Die dj sind also
beliebiger Länge unter den Nachkommastellen asymptotisch identisch verteilt mit (6.16). Da für ein beliebiges k  2 und
mit gleicher relativer Häufigkeit auf. jede beliebige Wahl von m1 ; : : : ; mk 2 f0; 1; : : : ; 9g das Er-
eignis fd1 D m1 ; : : : ; dk D mk g genau dann eintritt, wenn
Eine reelle Zahl heißt normal (zur Basis 10), wenn in ih-
U in ein Intervall der Länge 10k fällt, gilt
rer Dezimalentwicklung unter den Nachkommastellen für
jedes k  1 jeder mögliche k-stellige Ziffernblock mit glei-
cher asymptotischer relativer Häufigkeit auftritt. In diesem Y
k
P .d1 D m1 ; : : : ; dk D mk / D P .dj D mj /;
Sinn kann offenbar keine rationale Zahl normal sein, da ihre
j D1
Dezimalentwicklung stets periodisch wird. Da es für die Nor-
malität einer Zahl nur auf die Nachkommastellen ankommt und somit sind d1 ; d2 ; : : : stochastisch unabhängig.
und insbesondere natürliche Zahlen nicht normal sind, fragen
wir, ob es normale Zahlen im Einheitsintervall ˝ WD .0; 1/ Setzen wir jetzt für festes m 2 f0; 1 : : : ; 9g Xj WD 1fdj D
gibt. mg, so ist .Xn /n1 eine u.i.v.-Folge mit EX1 D P .X1 D
1
m/ D 10 . Nach dem starken Gesetz großer Zahlen von Kol-
Um die eingangs gegebene verbale Beschreibung zu präzisie-
mogorov folgt somit für n ! 1
ren, halten wir zunächst fest, dass jede reelle Zahl ! 2 .0; 1/
genau eine nicht in einer unendlichen Folge von Neunen en-
1X 1X
n n
f.s. 1
dende Dezimalentwicklung Xj D 1fdj D mg ! :
n j D1 n j D1 10
X
1
dj .!/
!D D 0:d1 .!/d2.!/ : : :
10j Fast jede Zahl aus .0; 1/ besitzt also die Eigenschaft, dass je-
j D1
de Ziffer in der Folge der Nachkommastellen asymptotisch
mit dj .!/ 2 f0; 1; : : : ; 9g für jedes j besitzt. Die Ziffer mit gleicher relativer Häufigkeit auftritt.
dj .!/ steht dabei für die j -te Nachkommastelle von !. So Ist nun .i1 ; : : : ; ik / 2 f0; 1; : : : ; 9gk ein beliebiger Ziffern-
1
gilt z. B. 11 D 0:090909 : : : block, so setzen wir für `  1
Ein k-stelliger Ziffernblock ist durch ein k-tupel
Y` WD 1fd` D i1 ; : : : ; d`Ck1 D ik g:
.i1 ; : : : ; ik / 2 f0; 1; : : : ; 9gk definiert. Eine Zahl ! 2 .0; 1/
ist genau dann normal, wenn für jedes k  1 und für jedes
der 10k möglichen Tupel .i1 ; : : : ; ik / gilt: Dann sind Y1 ; Y2 ; : : : identisch verteilte Zufallsvariablen mit
EY1 D P .X` D i1 ; : : : ; X`Ck1 D ik / D 10k . Darüber hi-
naus sind für jede Wahl von `; n 2 N die Zufallsvariablen Y`
1 X
n
1
lim 1fd` .!/ D i1 ; : : : ; d`Ck1 .!/ D ik g D k : und Yn stochastisch unabhängig, falls jn  `j  k C 1 gilt,
n!1 n 10
`D1 weil Y` und Yn dann von disjunkten Blöcken der unabhängi-
gen dj gebildet werden. Nach Aufgabe 6.25 gilt
Wir fassen d1 ; d2 ; : : : als Zufallsvariablen auf dem Grund-
1X 1X
n n
raum ˝ mit der Spur--Algebra A D B \ ˝ auf und legen f.s. 1
Y` D 1fd` D i1 ; : : : ; d`Ck1 D ik g ! k
als Wahrscheinlichkeitsmaß P die Gleichverteilung 1j˝ auf n n 10
`D1 `D1
˝ zugrunde. Den Schlüssel für eine auf Émile Borel (1909)
zurückgehende Aussage über normale Zahlen in .0; 1/ und für n ! 1. Dieses als Borels Satz über normale Zahlen
damit allgemeiner über normale Zahlen in R bildet die Beob- bekannte Resultat zeigt, dass nicht normale Zahlen eine Null-
achtung, dass .dj /j 1 eine Folge stochastisch unabhängiger menge bilden. Es ist jedoch bis heute ein ungelöstes Problem,
und identisch verteilter Zufallsvariablen ist, wobei ob konkrete Zahlen wie  oder die Eulersche Zahl e normal
sind.
1
P .dj D m/ D ; m D 0; 1; : : : ; 9; (6.16) Man mache sich klar, dass wir anstelle der Dezimaldar-
10
stellung auch die Dualentwicklung oder eine allgemeine g-
gilt. Gilt U U.0; 1/, so tritt das Ereignis fdj D mg genau adische Entwicklung (mit entsprechender Definition einer
Kapitel 6

dann ein, wenn U in eine Vereinigung von 10j 1 paarweise normalen Zahl) hätten wählen können und sinngemäß zum
disjunkten Intervallen der jeweiligen Länge 10j fällt, was gleichen Ergebnis gelangt wären.
206 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Hintergrund und Ausblick: Das Gesetz vom iterierten Logarithmus

Das Fluktuationsverhalten von Partialsummen unabhängiger setzen und die Definition des Limes superior einer Mengen-
identisch verteilter Zufallsvariablen mit endlichem zweiten folge (vgl. Abschn. 3.4) beachten:
Moment ist genauestens bekannt.
!!
Es sei .Xn / eine Folge stochastisch unabhängiger und iden- \
1 [
1
P A1=k n B1=k D 1:
tisch verteilter Zufallsvariablen mit EX1 D 0 und V .X1 / D
kD1 kD1
1. Nach dem starken Gesetz großer Zahlen gilt dann mit
an WD n für die Folge .Sn / der Partialsummen Sn D X1 C
Dass eine solche Folge .n / existiert, hat für den Fall
: : : C Xn
P .X1 D 1/ D P .X1 D 1/ D 1=2 zuerst der russische
Sn Mathematiker Alexander Chintschin (1894–1959) bewiesen.
lim D 0 P -fast sicher: (6.17) Die Gestalt dieser Folge gibt dem folgenden Resultat dessen
n!1 an
Namen, siehe z. B. [4], S. 149.
Wir können hier die normierende Folge .an / sogar deutlich
verkleinern, ohne an der Grenzwertaussage etwas zu ändern.
Wählen wir zum Beispiel an WD n1=2C" für ein " > 0, so folgt Das Gesetz vom iterierten Logarithmus
aus der Konvergenz
In der obigen Situation gilt
X1
1 X1
1
D <1  
a 2 n1C2" Sn
nD1 n nD1 P lim sup p D 1 D 1;
n!1 2n log log n
und dem Kolmogorov-Kriterium, dass (6.17) auch für diese  
p Sn
Wahl von an gilt. Der Versuch, " D 0 und somit an D n P lim inf p D 1 D 1:
n!1 2n log log n
zu setzen,
p würde jedoch scheitern. Wir werden sehen, dass
Sn = n in Verteilung gegen eine Standardnormalverteilung
konvergieren würde.
Eine natürliche Frage betrifft das fast sichere Fluktuations- Die nachstehende
p Abbildung zeigtp
Graphen der Funktionen
verhalten von .Sn /n1 . Gibt es eine monoton wachsende n 7! 2n log log n und n 7!  2n log log n zusammen
Folge .n / positiver Zahlen, sodass für jedes feste positive mit zwei mithilfe von Pseudozufallszahlen erzeugten Fol-
" Folgendes gilt: gen .Sn / der Länge n D 2 500, denen jeweils das Modell
P .X1 D 1/ D P .X1 D 1/ D 1=2 zugrunde lag.
 
Sn
P  1 C " für unendlich viele n D 0;
n √
  ± 2n log log n
Sn 50
P  1  " für unendlich viele n D 1‹
n
25
Da der Durchschnitt von abzählbar vielen Eins-Mengen
ebenfalls eine Eins-Menge ist und die Vereinigung von ab-
zählbar vielen Mengen der Wahrscheinlichkeit 0 ebenfalls 0
500 2500 n
die Wahrscheinlichkeit 0 besitzt, folgt aus obigen Wahr-
scheinlichkeitsaussagen, wenn wir − 25

Sn Sn
A" WD lim sup  1 C " ; B" WD lim sup 1" − 50
n!1 n n!1 n
Kapitel 6
6.3 Verteilungskonvergenz 207

6.3 Verteilungskonvergenz
Kolmogorov-Kriterium
Es sei .Xn /n1 eine unabhängige Folge von Zufallsvaria- Wir wissen bereits, dass eine Folge von Zufallsvariablen fast
blen mit EXn2 < 1, n  1. Gilt für eine Folge .an / sicher, stochastisch oder auch im p-ten Mittel konvergieren
positiver reeller Zahlen mit an " 1 kann. In diesem Abschnitt lernen wir mit der Verteilungs-
konvergenz einen weiteren Konvergenzbegriff für Folgen von
X
1
V .Xn / Zufallsvariablen kennen, dem sowohl in theoretischer Hinsicht
< 1; als auch im Hinblick auf statistische Anwendungen eine zen-
an2
nD1 trale Rolle zukommt. Für die weiteren Betrachtungen seien
Pn X ; X1 ; X2 ; : : : reelle Zufallsvariablen auf einem Wahrschein-
f.s.
so folgt 1
an j D1 .Xj  EXj / ! 0. lichkeitsraum .˝; A; P / mit zugehörigen Verteilungsfunktio-
nen

F .x/ WD P .X  x/; Fn .x/ WD P .Xn  x/; n  1; x 2 R:


Beweis Wir setzen
Xj  EXj Für eine Funktion G W Rk ! Rs stehe allgemein
Yj WD ; j  1;
aj C .G/ WD fx 2 Rk j G stetig an der Stelle xg
sowie Sn WD Y1 C : : : C Yn für n  1 und S0 WD 0. Wegen
EYj D 0 können wir die Kolmogorov-Ungleichung für festes für die Menge der Stetigkeitsstellen von G.
k; m mit m > k auf YkC1 ; : : : ; Ym anwenden. Es folgt
 
1 X
m
Definition der Verteilungskonvergenz
P max jSn  Sk j  "  2 V .Yn /
knm " Die Folge .Xn /n1 konvergiert nach Verteilung gegen
nDkC1
X , falls
und deshalb für m ! 1
!
1 X
1
lim Fn .x/ D F .x/ 8x 2 C .F /; (6.18)
P sup jSn  Sk j  "  V .Yn /: n!1
nk "2
nDkC1
D
P1 und wir schreiben hierfür kurz Xn 
! X.
Nach Voraussetzung gilt nD1 V .Yn / < 1, und somit folgt
P Die Verteilung von X heißt Grenzverteilung oder auch
supnk jSn  Sk j ! 0 für k ! 1. Nach dem Teilfolgenkri-
terium für stochastische Konvergenz gibt es eine Teilfolge .kj / asymptotische Verteilung von .Xn /.
mit
lim sup jSn  Skj j ! 0 P -fast sicher:
j !1 nk
j
Kommentar Offenbar macht (6.18) nur eine Aussage über
die Verteilungen P Xn und P X : es wird die Konvergenz
Da das Supremum monoton in k fällt, gilt die fast sichere Kon- limn!1 P Xn .B/ D P X .B/ für gewisse Borel-Mengen B, näm-
vergenz für die gesamte Folge. Damit ist .Sn / P -fast sicher eine lich jede Menge B der Gestalt B D .1; x mit x 2 C .F /,
Cauchy-Folge, und somit konvergiert die Reihe gefordert. Die Zufallsvariablen Xn und X könnten jedoch hier-
X
1 für auf völlig unterschiedlichen Wahrscheinlichkeitsräumen de-
Xn .!/  EXn
finiert sein. Aus diesem Grund schreibt man im Falle von (6.18)
nD1
an auch oft
für jedes ! aus einer Eins-Menge ˝0 gegen einen endlichen D D D
Fn 
!F bzw. P Xn 
! PX ! PX
bzw. Xn 
Grenzwert. Aus dem Lemma von Kronecker folgt dann unmit-
telbar die Behauptung. 
und sagt, dass die Folge .P Xn / schwach gegen P X konvergiert.
P1 2 Dabei ist insbesondere die letztere etwas „hybrid“ anmuten-
Da die Reihe nD1 n (mit dem Grenzwert  2 =6) konvergent D
ist, ergibt sich aus dem Kolmogorov-Kriterium das folgende Re- de Schreibweise häufig anzutreffen. Die erste Notation Fn 
!
sultat. F verdeutlicht, dass (6.18) eine rein analytische Definition
ist, nämlich punktweise Konvergenz von Funktionen in jeder
Stetigkeitsstelle der Grenzfunktion. Der für die Verteilungs-
Kapitel 6

Folgerung Es sei .Xn / eine Folge unabhängiger Zufallsva-


riablen mit gleichmäßig beschränkten Varianzen. Es gebe also konvergenz gewählte Buchstabe D soll auf die entsprechende
ein c < 1 mit V .Xn /  c für jedes n  1. Dann gilt das starke englische Bezeichnung convergence in distribution hinweisen.
Gesetz großer Zahlen J

1 X
n
Das nachstehende Beispiel zeigt, dass es wenig Sinn machen
lim .Xj  EXj / D 0 P -fast sicher. J würde, die Konvergenz der Folge .Fn / auch in Punkten zu for-
n!1 n
j D1
dern, in denen die Grenzfunktion F unstetig ist.
208 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Fn (x) Gn (x) exp(−(x + e−x ))


1 • •

.3

◦ ◦ .2
x x
1/n −1/n

.1
Abb. 6.2 Graphen der Funktionen Fn (links) und Gn (rechts)

x
Beispiel Wir betrachten Folgen .Xn / und .Yn / mit P .Xn D −3 −2 −1 0 1 2 3 4 5
1=n/ D P .Yn D 1=n/ D 1, n  1. Die Zufallsvariablen Xn
und Yn besitzen also Einpunktverteilungen in 1=n bzw. 1=n. Abb. 6.3 Dichte der Gumbelschen Extremwertverteilung
Wegen limn!1 1=n D limn!1 1=n D 0 sollten sowohl Xn
als auch Yn in Verteilung gegen eine Zufallsvariable X konver-
gieren, die eine Einpunktverteilung in 0 besitzt. Nun hat Xn die und somit für genügend großes n
Verteilungsfunktion  
 n ex n
( Fn .x/ D 1  e.xClog n/ D 1  :
0; falls x < 1=n; n
Fn .x/ D
1 sonst; Es folgt
und Yn die Verteilungsfunktion lim Fn .x/ D G.x/; x 2 R;
n!1
(
0; falls x < 1=n; wobei G die durch G.x/ WD exp. exp.x// definierte Ver-
Gn .x/ D teilungsfunktion der sog. Extremwertverteilung von Gumbel
1 sonst
bezeichnet. Es gilt also
(s. Abb. 6.2), und es gilt D
( max Yj  log n 
! Z;
j D1;:::;n
0; falls x < 0;
lim Fn .x/ D lim Gn .x/ D
n!1 n!1 1; falls x > 0; wobei Z die Verteilungsfunktion G besitzt. Die Dichte g der
nach dem Mathematiker Emil Julius Gumbel (1891–1966) be-
aber 0 D limn!1 Fn .0/ ¤ limn!1 Gn .0/ D 1. Eine Zufalls- nannten Verteilung mit der Verteilungsfunktion G ist in Abb. 6.3
variable X mit P .X D 0/ D 1 besitzt die Verteilungsfunktion skizziert. J
F .x/ D 0, falls x < 0, und F .x/ D 1 sonst. Da die Konver-
genz in (6.18) nur in den Stetigkeitsstellen der Grenzfunktion Wohingegen der Grenzwert einer fast sicher konvergenten Fol-
D D ge von Zufallsvariablen P -fast sicher eindeutig ist und Gleiches
gefordert wird, gilt also Xn 
! X und Yn 
! X , wie es sein
für die stochastische Konvergenz und die Konvergenz im p-ten
sollte. J
Mittel gilt, kann bei einer nach Verteilung konvergenten Folge
Im nächsten Beispiel tritt eine Grenzverteilung auf, die in der nur geschlossen werden, dass die Grenzverteilung eindeutig be-
Extremwertstochastik eine bedeutende Rolle spielt. stimmt ist. Es gilt also
D D
Xn  ! Y H) P X D P Y :
! X und Xn 
Beispiel Die Zufallsvariablen Y1 ; Y2 ; : : : seien stochastisch
unabhängig und je exponentialverteilt mit Parameter 1, besitzen Bezeichnen nämlich F bzw. G die Verteilungsfunktionen von
also die Verteilungsfunktion X bzw. Y , so zieht die gemachte Voraussetzung die Gleichheit
( F .x/ D G.x/ 8x 2 C .F / \ C .G/ nach sich. Aufgrund der
1  exp.t /; falls t  0; rechtsseitigen Stetigkeit von F und G und der Abzählbarkeit
P .Y1  t / D
0 sonst : der Menge aller Unstetigkeitsstellen von F oder G gilt dann
F D G und somit P X D P Y .
Wir betrachten die Zufallsvariablen
Kapitel 6

Xn WD max Yj  log n; n  1: Verteilungskonvergenz ist schwächer


j D1;:::;n
als stochastische Konvergenz
Für die Verteilungsfunktion Fn von Xn gilt
  Das folgende Resultat besagt, dass die Verteilungskonvergenz
Fn .x/ D P .Xn  x/ D P max Yj  x C log n unter den behandelten Konvergenzbegriffen für Folgen von Zu-
j D1;:::;n
fallsvariablen der schwächste ist. Abb. 6.4 zeigt die behandelten
D P .Y1  x C log n/n Konvergenzbegriffe in deren Hierarchie.
6.3 Verteilungskonvergenz 209

f.s. Lp
Xn −→ X Xn −→ X Satz von Pólya
Ist die Grenzverteilungsfunktion F einer verteilungskon-
D
vergenten Folge Xn  ! X von Zufallsvariablen Xn mit
Verteilungsfunktionen Fn stetig, so gilt
Xn −→ X
lim sup jFn .x/  F .x/j D 0:
n!1 x2R

D Oft lässt sich eine komplizierte Folge .Zn / von Zufallsvariablen


Xn −→ X
entweder additiv gemäß Zn D Xn C Yn oder multiplikativ in
der Form Zn D Xn Yn zerlegen. Dabei konvergiert Xn nach
Abb. 6.4 Konvergenzbegriffe für Zufallsvariablen in ihrer Hierarchie Verteilung und Yn stochastisch gegen eine Konstante a. Das
folgende, nach dem russischen Mathematiker Jewgeni Jewgen-
jewitsch Sluzki (1880–1948) benannte Resultat zeigt, dass dann
auch Zn verteilungskonvergent ist und dass die Grenzverteilung
Satz über Verteilungskonvergenz und stochastische von Xn um a zu verschieben bzw. mit a zu multiplizieren ist.
Konvergenz
P D
Aus Xn ! X folgt Xn  ! X . Die Umkehrung gilt, falls Lemma von Sluzki
X eine Einpunktverteilung besitzt.
Es seien X ; X1 ; X2 ; : : : I Y1 ; Y2 ; : : : Zufallsvariablen auf
D
einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn 
!X
P
Beweis Im Folgenden seien Fn und F die Verteilungsfunk- ! a für ein a 2 R. Dann gelten:
und Yn 
tionen von Xn bzw. von X . Für " > 0 liefert die Dreiecksunglei- D
chung die für jedes x 2 R geltende Inklusion fX  x  "g  a) Xn C Yn 
! X C a,
D
fXn  xg [ fjXn  X j  "g. Diese zieht ihrerseits die Un- b) Xn Yn 
! a X.
gleichung F .x  "/  Fn .x/ C P .jXn  X j  "/ und somit
F .x  "/  lim infn!1 Fn .x/ nach sich. Völlig analog ergibt
sich lim supn!1 Fn .x/  F .x C "/. Lässt man nun " gegen
null streben, so folgt limn!1 Fn .x/ D F .x/ 8x 2 C .F /, also Beweis a) Für jedes " > 0 und jedes t 2 R gilt
D
Xn 
! X. P .Xn C Yn  t / D P .Xn C Yn  t ; jYn  aj > "/
Gilt P .X D a/ D 1 für ein a 2 R, so folgt für jedes " > 0 C P .Xn C Yn  t ; jYn  aj  "/
 P .jYn  aj > "/ C P .Xn  t  a C "/
P .jXn  X j  "/ D P .jXn  aj  "/
D P .Xn  a  "/ C P .Xn  a C "/ P
 ! a im Fall t  a C " 2 C .F /
und somit wegen Yn 
"
 Fn .a  "/ C 1  Fn a C :
2 lim sup P .Xn C Yn  t /  F .t  a C "/: (6.19)
n!1
D
Falls Xn ! X , so folgt wegen a  " 2 C .F / und a C "=2 2
C .F / sowie F .a  "/ D 0 und F .a C "=2/ D 1 die Konvergenz Dabei bezeichnet F die Verteilungsfunktion von X . Wegen
P P .X C a  t / D F .t  a/ ist t genau dann Stetigkeitsstelle
P .jXn  X j  "/ ! 0 und somit Xn 
! X.  der Verteilungsfunktion von X C a, wenn t  a 2 C .F / gilt.
Für eine solche Stetigkeitsstelle erhalten wir aus (6.19), wenn
Selbstfrage 6 " D "k eine Nullfolge mit der Eigenschaft t  a C "k 2 C .F /,
Warum gelten a  " 2 C .F / und a C "=2 2 C .F /? k  1, durchläuft, die Ungleichung

lim sup P .Xn C Yn  t /  P .X C a  t /:


Das folgende Resultat besagt, dass im Falle von Verteilungskon- n!1
Kapitel 6

vergenz nicht nur punktweise, sondern sogar gleichmäßige Kon-


Völlig analog ergibt sich für t  a 2 C .F /
vergenz von Fn gegen F vorliegt, wenn die Verteilungsfunktion
F stetig ist. Der Beweis ist dem Leser als Übungsaufgabe 6.34 lim inf P .Xn C Yn  t /  P .X C a  t /
überlassen. n!1
210 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

und somit limn!1 P .Xn C Yn  t / D P .X C a  t / für eine einfache analytische Überlegung (Aufgabe 6.35) zeigt, dass
t  a 2 C .F /, was zu zeigen war. Der Nachweis von b) ist eine aus der Konvergenz Fn .x/ ! F .x/ 8x 2 C .F / die Konver-
Übungsaufgabe.  genz Fn1 .p/ ! F 1 .p/ in jeder Stetigkeitsstelle p von F 1
folgt. Es gilt also
Achtung Die Rechenregeln
lim Yn .p/ D Y .p/ 8p 2 C .F 1 /:
n!1
f.s. f.s. f.s.
Xn ! X ; Yn ! Y H) Xn C Yn ! X C Y ;
P P P
Da F 1 als monotone Funktion höchstens abzählbar viele Un-
Xn 
! X ; Yn 
! Y H) Xn C Yn 
!X CY stetigkeitsstellen besitzt, folgt (6.21). 
gelten nicht ohne Weiteres auch für die Verteilungskonvergenz.
Als Gegenbeispiel betrachten wir eine Zufallsvariable X
N.0; 1/ und setzen Xn WD Yn WD X für n  1 sowie Y WD X .
Verteilungskonvergenz vererbt sich
D D unter stetigen Abbildungen
Dann gelten Xn 
! X und wegen Y N.0; 1/ auch Yn 
! Y.
D
Es gilt aber Xn C Yn D 2Xn D 2X und somit Xn C Yn  ! Die Nützlichkeit des Satzes von Skorokhod zeigt sich beim
N.0; 4/ 2X . Wegen X CY  0 konvergiert also Xn CYn nicht Nachweis des folgenden wichtigen Resultats.
D
in Verteilung gegen X C Y . Gilt jedoch allgemein .Xn ; Yn / 
!
.X ; Y / im Sinne der in der Hintergrund-und-Ausblick-Box über
Veteilungskonvergenz und den zentralen Grenzwertsatz im Rk Abbildungssatz
in Abschn. 6.4 definierten Verteilungskonvergenz von Zufalls- Es seien X ; X1 ; X2 ; : : : Zufallsvariablen auf einem Wahr-
D
vektoren, so folgt Xn CYn 
! X CY nach dem dort formulierten scheinlichkeitsraum .˝; A; P / und h W R ! R eine
Abbildungssatz. J messbare Funktion, die P X -fast überall stetig ist, also
P X .C .h// D 1 erfüllt. Dann gilt:
Obwohl Verteilungskonvergenz mit fast sicherer Konvergenz
D D
auf den ersten Blick wenig gemeinsam hat, besteht ein direkter Xn 
! X H) h.Xn / 
! h.X /:
Zusammenhang zwischen beiden Begriffen, wie das folgende,
auf den ukrainischen Mathematiker Anatolie Wladimirowitsch
Skorokhod (1930–2011) zurückgehende Resultat besagt.
Beweis Es seien . e̋ ; A e; e
P / und Yn ; Y wie im Beweis des
Satzes von Skorokhod. Nach diesem Satz existiert eine Men-
Satz von Skorokhod ge e̋ 0 2 A e mit e P . e̋ 0 / D 1 und limn!1 Yn .t / D Y .t /,
Es seien X ; X1 ; X2 ; : : : reelle Zufallsvariablen auf t 2 0 . Wegen 1 D P X .C .h// D e
e̋ P Y .C .h// gilt e
P . e̋ 1 / D
D 1, wobei e̋ 1 WD e̋ 0 \ Y 1 .C .h//. Für jedes t 2 e̋ 1 gilt
.˝; A; P / mit Xn  ! X . Dann existieren auf einem limn!1 h.Yn .t // D h.Y .t // und somit h.Yn / ! h.Y / P e-fast
geeigneten Wahrscheinlichkeitsraum . e̋ ; A e; e
P / Zufalls- sicher. Da aus der fast sicheren Konvergenz die Verteilungskon-
variablen Y ; Y1 ; Y2 ; : : : mit vergenz folgt (s. Abb. 6.4), erhalten wir
e
PY D PX; e
P Yn D P Xn ; n  1; (6.20) D
e !e
P h.Yn /  P h.Y / ;
D
also insbesondere Yn 
! Y , und was wegen e eh.Y / D P h.X / äquivalent zu
P h.Yn / D P h.Xn / und P
D
lim Yn D Y e
P -fast sicher: (6.21) h.Xn / 
! h.X / ist. 
n!1
Selbstfrage 7
e
Warum gilt P h.Yn /
DP h.Xn /
?
Beweis Es seien F ; F1 ; F2 ; : : : die Verteilungsfunktionen von
X ; X1 ; X2 ; : : : Wir setzen
e; e Achtung Gilt EjXn j < 1 und EjX j < 1, so folgt aus
. e̋ ; A P / WD ..0; 1/; B \ .0; 1/; 1 j.0;1//; D D
Xn  ! X i. Allg. nicht EXn ! EX . Obwohl mit Xn  ! X
Kapitel 6

1
wobei  j.0;1/ das auf das Intervall .0; 1/ eingeschränkte Borel- die Konvergenz Eh.Xn / ! Eh.X / für alle stetigen beschränk-
Lebesgue-Maß bezeichnet, sowie ten Funktionen h verknüpft ist, trifft dieser Sachverhalt für die
Funktion h.x/ D x zumindest ohne zusätzliche Voraussetzun-
Y .p/ WD F 1 .p/; Yn .p/ WD Fn1 .p/; n  1; p 2 e̋ : gen nicht zu. Ein instruktives Beispiel sind Zufallsvariablen
X ; X1 ; X2 : : : mit identischer Normalverteilung N.0; 1/, für die
Dabei ist allgemein G 1 die in (5.43) definierte Quantilfunktion D
zu einer Verteilungsfunktion G. Nach dem Satz über die Quan- ! X (und auch EXn ! EX ) gilt. Addieren
trivialerweise Xn 
P
tiltransformation am Ende von Abschn. 5.3 gilt dann (6.20), und wir zu Xn eine Zufallsvariable Yn mit Yn 
! 0, so gilt nach dem
6.3 Verteilungskonvergenz 211

D 11(−∞,x] (t) hε (t)


Lemma von Sluzki Xn C Yn  ! X ; an der Verteilungskonver-
genz hat sich also nichts geändert. Wählen wir nun Yn spezieller,
indem wir P .Yn D n2 / D 1=n und P .Yn D 0/ D 1  1=n set-
zen, so gilt EYn D n ! 1 und somit
D
Xn C Yn 
! X N.0; 1/; E.Xn C Yn / D n ! 1: x−ε x
t
x−ε x
t

Eine hinreichende Bedingung für die Gültigkeit der Implikation


D Abb. 6.5 Die Funktion h" approximiert Indikatorfunktionen
Xn ! X H) EXn ! EX ist die in (6.5) formulierte gleich-
gradige Integrierbarkeit der Folge .Xn /. J
Konvergenz wie behauptet
Wir werden jetzt weitere Kriterien für Verteilungskonvergenz
kennenlernen. Diese sind zum einen wichtig für die Herlei- ZK Z0
tung der Zentralen Grenzwertsätze, zum anderen geben Sie EYn D .1  Gn .x// dx  Gn .x/ dx
einen Hinweis darauf, wie das Konzept der Verteilungskon- 0 K
vergenz für Zufallsvariablen mit allgemeineren Wertebereichen ZK Z0
aussehen könnte. Ausgangspunkt ist die Feststellung, dass die
! .1  G.x// dx  G.x/ dx
Wahrscheinlichkeit P .A/ eines Ereignisses A gleich dem Er-
wartungswert E1A der Indikatorfunktion von A ist. Folglich ist 0 K
D D EY :
die Definition der Verteilungskonvergenz Xn 
! X in (6.18)
gleichbedeutend mit Da die Implikation „b) ) c)“ wegen Cb;1  Cb trivialer-
weise gilt, bleibt nur noch „c) ) a)“ zu zeigen. Seien hierzu
lim Eh.Xn / D Eh.X / 8h 2 H ; F ; F1 ; F2 ; : : : die Verteilungsfunktionen von X ; X1 ; X2 ; : : :, x
n!1
eine beliebige Stetigkeitsstelle von F und " > 0 beliebig. Wir
wobei H die Menge aller Indikatorfunktionen approximieren die Indikatorfunktion 1.1;x durch eine Funkti-
on h" aus Cb;1 , indem wir h" .t / WD 1, falls t  x  ", sowie
h D 1.1;x W R ! R
h" .t / WD 0, falls t  x, setzen und im Intervall Œx  "; x linear
mit x 2 C .F / bezeichnet. Das folgende Resultat zeigt, dass interpolieren (Abb. 6.5 rechts).
die Menge H durch andere Funktionenklassen ersetzt werden Dann gilt 1.1;x"  h"  1.1;x (s. Abb. 6.5 links), und
kann. Hierzu schreiben wir kurz die Monotonie des Erwartungswertes sowie Voraussetzung c)
liefern
Cb WD fh W R ! R j h stetig und beschränktg;
ˇ
Fn .x/ D E1.1;x.Xn /  Eh" .Xn /
ˇ
Cb;1 WD h 2 Cb ˇ lim h.x/ existiert : ! Eh" .X /  E1.1;x".X /
x!˙1
D F .x  "/
Man mache sich klar, dass die Funktionen aus Cb;1 wegen
der Existenz der Grenzwerte limx!1 h.x/ und limx!1 h.x/ und somit lim infn!1 Fn .x/  F .x  "/. Lässt man " gegen
gleichmäßig stetig sind. null streben, so folgt wegen x 2 C .F / die Ungleichung
lim inf Fn .x/  F .x/:
n!1

Kriterien für Verteilungskonvergenz Völlig analog zeigt man lim supn!1 Fn .x/  F .x/, indem
man zu " > 0 eine Funktion g" aus Cb;1 mit der Eigenschaft
Die folgenden Aussagen sind äquivalent: 1.1;x  g"  1.1;xC" wählt. 
D
a) Xn ! X, Wir werden jetzt mit dem Konzept der Straffheit eine notwen-
b) limn!1 Eh.Xn / D Eh.X / 8h 2 Cb , dige Bedingung für Verteilungskonvergenz kennenlernen und
c) limn!1 Eh.Xn / D Eh.X / 8h 2 Cb;1 . beginnen hierzu mit einem auf Eduard Helly (1884–1943) zu-
rückgehenden Resultat.

Beweis Wir zeigen zunächst die Implikation „a ) b)“. Es Auswahlsatz von Helly
Kapitel 6

sei h 2 Cb beliebig. Wir setzen K WD supx2R jh.x/j sowie


Yn WD h.Xn /, n  1, und Y WD h.X /. Die Verteilungsfunk- Zu jeder Folge .Fn /n1 von Verteilungsfunktionen gibt
tionen von Yn und Y seien mit Gn bzw. G bezeichnet. Nach es eine Teilfolge .Fnk /k1 und eine monoton wachsende,
dem Abbildungssatz zieht Xn 
D
! X die Verteilungskonvergenz rechtsseitig stetige Funktion F W R ! Œ0; 1 mit
D
Yn ! Y und somit insbesondere Gn ! G 1 -fast überall nach lim Fnk .x/ D F .x/ 8 x 2 C .F /: (6.22)
sich. Wegen jYn j  K und jY j  K liefern die Darstellungsfor- k!1
mel für den Erwartungswert und der Satz von der dominierten
212 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Übersicht: Konvergenzbegriffe in der Analysis, der Maßtheorie und der Stochastik

Auf dieser Seite haben wir die wichtigsten Konvergenzbe- Maßtheorie keine Rolle spielen. Die Konvergenz dem Maße
griffe für Funktionenfolgen in der Analysis, der Maßtheorie nach wird in Kap. 8 nicht behandelt. Sie besagt, dass für jedes
und der Stochastik zusammengestellt. Als gemeinsamer De- (noch so kleine) " > 0 das Maß der Menge aller !, für die
finitionsbereich der betrachteten reellwertigen Funktionen fn .!/ außerhalb des "-Schlauchs um f .!/ liegt, gegen null
sei eine nichtleere Menge ˝ zugrunde gelegt. konvergiert. Wir nehmen die Konvergenz dem Maße nach
hier auf, weil sie im Spezialfall eines Wahrscheinlichkeits-
maßes auf die stochastische Konvergenz führt. Für die Kon-
Konvergenzbegriffe der Analysis vergenz im p-ten Mittel wird natürlich vorausgesetzt, dass
Punktweise Konvergenz: die Funktionen fn und f p-fach integrierbar sind. Die Kon-
vergenz im p-ten Mittel ist vielleicht schon aus dem ersten
fn ! f W() lim fn .!/ D f .!/ 8! 2 ˝: Studienjahr für den Spezialfall des Lebesgue-Integrals auf
n!1
einem kompakten Intervall ˝ bekannt, siehe z. B. Abschn.
Gleichmäßige Konvergenz: 19.6 in [1]. Sie wird dort üblicherweise „Konvergenz bzgl.
der Lp -Norm“ genannt, weil die Menge der Äquivalenzklas-
fn H) f W() lim sup jfn .!/  f .!/j D 0:
n!1 !2˝ sen -fast überall gleicher Funktionen im Fall p  1 einen
R 1=p
Banach-Raum bzgl. der Norm kgkp WD jgjp d bildet
(s. den Kommentar am Ende von Abschn. 8.7). Das Beispiel
Das Beispiel ˝ D Œ0; 1, fn .!/ D ! n , f .!/ D 0 für zu Abb. 6.1 zeigt, dass eine dem Maße nach oder im p-ten
0  ! < 1 und f .1/ D 1 zeigt, dass die punktweise Mittel konvergente Folge in keinem einzigen Punkt konver-
Konvergenz der schwächere dieser Begriffe ist. Man beach- gieren muss.
te, dass der Wertebereich der Funktionen fn und f deutlich
In der Stochastik legt man einen Wahrscheinlichkeitsraum
allgemeiner sein kann, um punktweise und gleichmäßige
.˝; A; P / zugrunde und verwendet für die dann Zufalls-
Konvergenz von fn gegen f definieren zu können. Ist dieser
variablen genannten Funktionen auf ˝ die Bezeichnungen
Wertebereiche etwa ein metrischer Raum mit Metrik d , so
Xn WD fn und X WD f .
bedeutet punktweise Konvergenz von fn gegen f die Kon-
vergenz d .fn .!/; f .!// ! 0 für n ! 1 für jedes feste
! 2 ˝, und gleichmäßige Konvergenz von fn gegen f ist
gegeben durch limn!1 sup!2˝ d .fn .!/; f .!// D 0. Konvergenzbegriffe der Stochastik

Eine Modifikation der punktweisen Konvergenz sowie zwei P -fast sichere Konvergenz:
deutlich andere Konvergenzbegriffe ergeben sich, wenn die f.s.
Menge ˝ mit einer -Algebra A  P .˝/ versehen ist Xn ! X W() P .f! j lim Xn .!/ D X .!/g/ D 1:
n!1
und ein Maß  auf A zugrunde liegt. Man betrachtet dann
messbare Funktionen, was im Hinblick auf eine tragfähige Stochastische Konvergenz:
Theorie und Anwendungen jedoch keinerlei Einschränkung P
bedeutet. ! X W() lim P .jXn  X j > "/ D 0 8" > 0:
Xn 
n!1

Konvergenz im p-ten Mittel:


Konvergenzbegriffe der Maßtheorie Lp
Xn ! X W() lim EjXn  X jp D 0:
Konvergenz -fast überall: n!1

fn ! f -f.ü. W() 9N 2 A W .N / D 0 und Verteilungskonvergenz:


lim fn .!/ D f .!/ 8! 2 ˝ n N : D
n!1 Xn 
! X W() lim Fn .x/ D F .x/
n!1
Konvergenz dem Maße nach: für jede Stetigkeitsstelle x von F :

fn !
 f W() lim .ffn  f j > "g/ D 0 8" > 0:
n!1
Kapitel 6

Konvergenz im p-ten Mittel, 0 < p < 1: Die ersten drei Konvergenzbegriffe sind die entsprechen-
Z den Konvergenzbegriffe der Maßtheorie, spezialisiert auf
Lp den Fall eines Wahrscheinlichkeitsmaßes. Die Verteilungs-
fn ! f W() lim jfn  f jp d D 0:
n!1 konvergenz verwendet die Verteilungsfunktionen Fn .x/ D
˝ P .Xn  x/ und F .x/ D P .X  x/ von Xn bzw. X . Sie ist
äquivalent zur Konvergenz
Die Konvergenz -fast überall ist die natürliche Ab- lim Eh.Xn / D Eh.X /
n!1
schwächung der punktweisen Konvergenz (überall), da -
Nullmengen, also Mengen N 2 A mit .N / D 0, in der für jede stetige beschränkte Funktion h W R ! R.
6.3 Verteilungskonvergenz 213

Beweis Es sei Q WD fr1 ; r2 ; : : :g die Menge der rationalen sich in Aufgabe 6.9, dass jede endliche Menge Q von Wahr-
Zahlen. Wegen 0  Fn .r1 /  1, n  1, gibt es nach dem Satz scheinlichkeitsmaßen straff ist.
von Bolzano-Weierstraß (vgl. [1], Abschn. 8.3) eine Teilfolge
.Fn1;j /j 1 von .Fn /, für die der Grenzwert Beispiel Es seien X1 ; X2 ; : : : Zufallsvariablen mit existieren-
den Erwartungswerten, für die die Folge .EjXn j/n1 beschränkt
G.r1 / WD lim Fn1;j .r1 / ist. Gilt etwa EjXn j  M < 1 für jedes n, so ergibt sich mit
j !1
der Markov-Ungleichung für jedes c > 0
existiert. Da die Folge .Fn1;j .r2 //, j  1, beschränkt ist, lie-
fert der gleiche Satz eine mit .Fn2;j / bezeichnete Teilfolge von EjXn j M
P .jXnj > c/   :
.Fn1;j /j 1 , für die der Grenzwert c c

G.r2 / WD lim Fn2;j .r2 / Legen wir somit zu vorgegebenem " > 0 die Zahl c durch c WD
j !1 M " fest und setzen K WD Œc; c, so folgt

existiert. Fahren wir so fort, so ist .Fnj /j 1 mit nj WD nj ;j , P Xn .K/ D P .jXnj  c/ D 1  P .jXnj > c/  1  "
j  1, eine Teilfolge von .Fn /, sodass der Grenzwert
für jedes n  1. Die Menge fP Xn j n  1g ist somit straff. J
G.r/ WD lim Fnj .r/
j !1
Beispiel Die Zufallsvariable Xn sei Exp.n /-verteilt, n  1.
für jede rationale Zahl r existiert. Setzen wir Wegen EXn D EjXn j D 1=n ist die Menge fP Xn j n  1g
straff, wenn die Folge .1=n /n1 beschränkt ist. Dies ist genau
F .x/ WD inffG.r/ j r 2 Q; r > xg; x 2 R;
dann der Fall, wenn es ein a > 0 mit n  1=a, n  1, gibt. Die-
se Bedingung ist aber auch notwendig für die Straffheit. Würde
so ist F W R ! Œ0; 1 eine wohldefinierte monoton wachsende
es nämlich eine Teilfolge .nk /k1 mit nk ! 0 für k ! 1
Funktion. Zu jedem x 2 R und jedem " > 0 gibt es ein r 2 Q
geben, so würde für jede (noch so große) Zahl L > 0
mit x < r und G.r/ < F .x/ C ". Für jedes y 2 R mit x  y <
r gilt dann F .y/  G.r/ < F .x/ C ". Somit ist F rechtsseitig
P .Xnk > L/ D exp.nk L/ ! 1
stetig. Ist F an der Stelle x stetig, so wählen wir zu beliebigem
" > 0 ein y < x mit F .x/  " < F .y/ und dann r; s 2 Q mit für k ! 1 gelten. Folglich kann es keine kompakte Menge
y < r < x < s und G.s/ < F .x/ C ". Wegen F .x/  " < K geben, für die zu vorgegebenem " > 0 für jedes n  1 die
G.r/  G.s/ < F .x/ C " und Fn .r/  Fn .x/  Fn .s/, n  1, Ungleichung P .Xn 2 K/  1  " erfüllt ist. J
folgt dann

F .x/  "  lim inf Fnk .x/  lim sup Fnk .x/  F .x/ C ";
k!1 k!1 Straffheit und relative Kompaktheit
also limk!1 Fnk .x/ D F .x/, da " > 0 beliebig war. 
sind äquivalent

Das Beispiel der Folge .Fn / mit Fn .x/ D 1Œn;1/.x/ zeigt, dass
Straffheitskriterium
die Funktion F im Auswahlsatz von Helly keine Verteilungs-
funktion sein muss. In diesem Fall „wandert die bei Fn im Punkt Für eine Menge Q von Wahrscheinlichkeitsmaßen auf B
n konzentrierte Wahrscheinlichkeitsmasse nach unendlich ab“, sind folgende Aussagen äquivalent:
und für die Grenzfunktion F gilt F  0. Es stellt sich somit in
a) Q ist straff.
natürlicher Weise die Frage nach einer Bedingung an die Folge
b) Zu jeder Folge .Qn /n1 aus Q existieren eine Teilfolge
.Fn /, die garantiert, dass die Funktion im Satz von Helly eine
.Qnk /k1 und ein Wahrscheinlichkeitsmaß Q (welches
Verteilungsfunktion ist, also auch die Bedingungen F .x/ ! 1
nicht notwendig zu Q gehören muss!) mit
für x ! 1 und F .x/ ! 0 für x ! 1 erfüllt.
D
Qnk 
!Q für k ! 1: (6.23)
Definition der Straffheit
Eine Menge Q von Wahrscheinlichkeitsmaßen auf der -
Algebra B heißt straff, falls es zu jedem " > 0 eine Beweis a) ) b): Es sei Fn die Verteilungsfunktion von Qn ,
Kapitel 6

kompakte Menge K  R gibt, sodass gilt: also Fn .x/ D Qn ..1; x/, n  1; x 2 R. Nach dem Aus-
wahlsatz von Helly existieren eine Teilfolge .Fnk /k1 und eine
Q.K/  1  " 8 Q 2 Q: monoton wachsende, rechtsseitig stetige Funktion F mit (6.22).
Da Q straff ist, gibt es zu beliebig vorgegebenem " > 0 reelle
Zahlen a; b mit a < b und
Diese Definition verhindert gerade, dass etwa wie im obigen
Beispiel Masse nach unendlich abwandert. Bitte überlegen Sie Qn ..a; b/ D Fn .b/  Fn .a/  1  " 8 n  1:
214 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Sind a0 ; b 0 2 C .F / mit a0 < a, b 0 > b, so folgt Beweis a) ergibt sich unmittelbar aus der Implikation b) ) a)
des Straffheitskriteriums. Um b) zu zeigen, nehmen wir an, die
1  "  Qnk ..a; b/ Folge .Xn / würde nicht nach Verteilung gegen Q konvergieren.
 Qnk ..a0 ; b 0 / Bezeichnen Fn die Verteilungsfunktion von Xn und F die Ver-
teilungsfunktion von Q, so gäbe es dann eine Stetigkeitsstelle
D Fnk .b 0 /  Fnk .a0 /
x von F und ein " > 0, sodass für eine geeignete Teilfolge
! F .b 0 /  F .a0 / für k ! 1: .Fnk /k1 von .Fn /
Also gilt limx!1 F .x/ D 1; limx!1 F .x/ D 0, und somit ist jFnk .x/  F .x/j > "; k  1; (6.25)
F eine Verteilungsfunktion. Wählen wir Q als das zu F gehö-
rende Wahrscheinlichkeitsmaß, so gilt (6.23). gelten würde. Da nach Voraussetzung die Menge fP Xn j n  1g
und damit auch die Teilmenge fP Xnk j k  1g straff ist, gibt es
b) ) a): Angenommen, Q sei nicht straff. Dann gibt es ein nach dem Straffheitskriterium eine Teilfolge .Xn0k / von .Xnk /,
" > 0 und eine Folge .Qn /n1 aus Q mit Qn .Œn; n/ < 1  ", die nach Voraussetzung nach Verteilung gegen Q konvergieren
n  1. Nach Voraussetzung existieren eine Teilfolge .Qnk /k1 müsste. Insbesondere müsste also Fn0k .x/ ! F .x/ für k ! 1
und ein Wahrscheinlichkeitsmaß Q mit (6.23). Wir wählen Ste- gelten, was jedoch (6.25) widerspricht. 
tigkeitsstellen a; b der Verteilungsfunktion von Q so, dass gilt:
" Kommentar Die Straffheit einer Menge fP Xn j n  1g von
Q..a; b/  1  : (6.24) Verteilungen von Zufallsvariablen wird als Straffheit der Folge
2
.Xn /n1 bezeichnet. Synonym hierfür ist auch die Sprechweise
Für hinreichend großes k gilt .a; b  Œnk ; nk  und somit die Folge .Xn /n1 ist stochastisch beschränkt. In Anlehnung an
die in der Analysis gebräuchliche Landau-Notation an D O.1/
1  " > Qnk .Œnk ; nk / für eine beschränkte Zahlenfolge .an / motiviert diese Sprech-
 Qnk ..a; b/ weise die Schreibweise
! Q..a; b/ für k ! 1; Xn D OP .1/ (für n ! 1/

was jedoch im Widerspruch zu (6.24) steht.  für die Straffheit von .Xn /n1 (vgl. die oP -Notation (6.4)). All-
gemeiner definiert man für eine Zahlenfolge .an / mit an ¤ 0,
Selbstfrage 8 n  1, die stochastische Beschränktheit der Folge .Xn =an /n1
Warum können wir Stetigkeitsstellen a und b der Verteilungs- durch
funktion von Q mit (6.24) wählen? Xn
Xn D OP .an / W() D OP .1/:
an
Wir können somit die im letzten Beispiel gefundene Charakteri-
Kommentar Die im obigen Straffheitskriterium in b) for-
sierung einer Folge .Xn / mit Xn Exp.n / wie folgt kompakt
mulierte Eigenschaft der Menge Q heißt relative Kompaktheit
formulieren:
von Q. Das Straffheitskriterium besagt also, dass Straffheit und
relative Kompaktheit äquivalent zueinander sind. Man beach- Xn D OP .1/ () inf n > 0: J
te die Analogie zum Begriff der relativen Kompaktheit einer n2N

Teilmenge M eines normierten Raumes oder allgemeiner eines


Der folgende, auf Paul Lévy (1886–1971) und Harald Cramér
metrischen Raumes. Eine solche Menge M heißt relativ kom-
(1893–1985) zurückgehende Satz ist ein grundlegendes Kriteri-
pakt, wenn jede Folge aus M eine konvergente Teilfolge besitzt,
um für Verteilungskonvergenz.
deren Grenzwert nicht notwendig in M liegen muss. J

Aus dem Straffheitskriterium können wir zwei wichtige Stetigkeitssatz von Lévy–Cramér
Schlussfolgerungen ziehen.
Es sei .Xn /n1 eine Folge von Zufallsvariablen mit zuge-
hörigen Verteilungsfunktionen Fn und charakteristischen
Satz über Straffheit und Verteilungskonvergenz Funktionen 'n . Dann sind folgende Aussagen äquivalent:
D D
a) Die Verteilungskonvergenz Xn  ! X hat die Straff- a) Es gibt eine Verteilungsfunktion F mit Fn 
! F.
heit der Menge fP Xn j n  1g zur Folge. Straffheit ist b) Für jedes t 2 R existiert '.t / WD limn!1 'n .t /, und
Kapitel 6

also eine notwendige Bedingung für Verteilungskon- die Funktion ' W R ! C ist stetig im Nullpunkt.
vergenz. Falls a) oder b) gilt, so ist ' die charakteristische Funktion
b) Ist fP Xn j n  1g straff und existiert ein Wahr- von F , es gilt also
scheinlichkeitsmaß Q, sodass jede schwach konvergen-
te Teilfolge .P Xnk /k1 gegen Q konvergiert, so gilt Z
D '.t / D eitx dF .x/; t 2 R:
P Xn 
! Q.
6.4 Zentrale Grenzwertsätze 215

Beweis Die Richtung a) ) b) folgt aus dem Kriterium b) für


Verteilungskonvergenz mit h.x/ D cos.tx/ und h.x/ D sin.tx/
für festes t 2 R.
n = 100
b) ) a): Mit der Wahrscheinlichkeitsungleichung (5.72) für
charakteristische Funktionen gilt für jedes a > 0
  Za
1 7
P jXn j   Œ1  Re 'n .t / dt :
a a
0

Wegen '.t / D limn!1 'n .t /, '.0/ D 1 und der Stetigkeit von −3 −2 −1 0 1 2 3


' im Nullpunkt gibt es somit zu beliebig vorgegebenem " > 0
ein a > 0, sodass gilt: Abb. 6.7 Histogramm der standardisierten Binomialverteilung
  Bin.100; 0:3/ mit Dichte ' der Standardnormalverteilung
1 1
P Xn  ;  1  "; n  1:
a a
Also ist die Folge .Xn / straff und das Straffheitskriterium Da eine Zufallsvariable Sn mit der Verteilung Bin.n; p/ die Wer-
garantiert die Existenz einer Teilfolge .Xnk /k1 sowie eines te k 2 f0; 1; : : : ; ng mit den Wahrscheinlichkeiten
Wahrscheinlichkeitsmaßes Q mit Xnk 
D
! Q für k ! 1. Sei !
n k
X eine Zufallsvariable mit Verteilung Q und Verteilungsfunk- pn;k D p .1  p/nk
tion F . Aus dem Beweisteil „a) ) b)“ folgt limk!1 'nk .t / D k
E.eitX / DW .t /, t 2 R. Wegen limk!1 'nk .t / D '.t / (t 2 R)
erhalten wir die Gleichheit D ', und somit ist ' die cha- annimmt,
p nimmt die standardisierte Zufallsvariablep Sn D .Sn 
rakteristische Funktion von X (von F ). Da (mit den gleichen np/= np.1  p/ die Werte xn;k WD .k  np/= np.1  p/
Überlegungen) jede schwach konvergente Teilfolge von .P Xn / mit k 2 f0; 1; : : : ; ng an. Dargestellt sind Rechtecke, deren
gegen Q konvergiert, folgt die Behauptung aus Teil b) des Sat- Grundseiten-Mittelpunkte auf der x-Achse die xn;k sind; die
zes über Straffheit und Verteilungskonvergenz.  Fläche des Rechtecks zu xn;k ist die Wahrscheinlichkeit pn;k .
Insofern ist die Summe der Rechteckflächen gleich eins.
Vergrößert man n und macht damit die Rechtecke schmaler,
6.4 Zentrale Grenzwertsätze so wird die Gestalt des Histogramms zunehmend symmetri-
scher (zur y-Achse). Abb. 6.7 zeigt diesen Effekt für n D 100.
Hinter der schlagwortartigen Begriffsbildung Zentraler Grenz- Zusätzlich ist noch der Graph der Dichtefunktion ' der Stan-
wertsatz verbirgt sich die auf den ersten Blick überraschend dardnormalverteilung N.0; 1/ eingezeichnet, wobei die Güte der
anmutende Tatsache, dass unter relativ allgemeinen Vorausset- Übereinstimmung zwischen Histogramm und Schaubild von '
zungen Summen vieler stochastisch unabhängiger Zufallsvaria- verblüffend ist.
blen approximativ normalverteilt sind. Dies erklärt, warum reale
Zufallsphänomene, bei denen das Resultat eines durch additi- Nach dem Additionsgesetz für die Binomialverteilung ist eine
ve Überlagerung vieler zufälliger Einflussgrößen entstandenen binomialverteilte Zufallsvariable Sn verteilungsgleich mit ei-
Prozesses beobachtet wird, häufig angenähert normalverteilt er- ner Summe von n unabhängigen identisch Bin.1; p/-verteilten
scheinen. Zufallsvariablen. Insofern kann sie wie eingangs beschrieben
als Resultat eines durch additive Überlagerung vieler zufälliger
Zur Einstimmung zeigt Abb. 6.6 ein Histogramm der standardi- Einflussgrößen entstandenen Prozesses angesehen werden. Ein
sierten Binomialverteilung Bin.n; p/ mit n D 20 und p D 0:3. erstes grundlegendes Ergebnis in diesem Zusammenhang ist das
folgende, auf den finnischen Landwirt und Mathematiker Jarl
Waldemar Lindeberg (1876–1932) und den französischen Ma-
thematiker Paul Lévy (1886–1971) zurückgehende Resultat.

n = 20
Zentraler Grenzwertsatz von Lindeberg-Lévy
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum .˝; A; P / mit endlicher,
Kapitel 6

positiver Varianz. Setzen wir  WD EX1 ,  2 WD V .X1 /,


so gilt:
0 1
−3 −2 −1 0 1 2 3 1 Xn
D
p @ Xj  n A 
! N.0; 1/: (6.26)
 n j D1
Abb. 6.6 Histogramm der standardisierten Binomialverteilung
Bin.20; 0:3/
216 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Video 6.2 Zentraler Grenzwertsatz für die Binomialverteilung an, so zeigt sich, dass die Grenzwerte limx!˙1 xg.x/ existie-
ren und somit die Funktion x ! xg.x/ gleichmäßig stetig ist.
Wegen (6.28) und der gleichmäßigen Stetigkeit von f ist dann
auch g 0 gleichmäßig stetig. Mit (6.28) folgt jetzt
 
Ef .Sn / D Eg 0 .Sn /  E Sn g.Sn /
1 X 
n

Kommentar Wir möchten dem Beweis einige Anmerkungen D Eg 0 .Sn /  p E Xj g.Sn /
n j D1
voranstellen. Schreiben wir " Pn !#
p X1 j D2 Xj
Sn WD X1 C : : : C Xn ; n  1; D Eg .Sn /  nE X1 g p C p
0 
:
n n
für die n-te Partialsumme der Folge .Xn /, so steht auf der lin-
ken Seite von (6.26) gerade die aus Sn durch Standardisierung Dabei wurde beim zweiten Gleichheitszeichen verwendet, dass
hervorgehende Zufallsvariable die Paare .Xj ; X n /, j D 1; : : : ; n, aus Symmetriegrün-
den
Pn die gleiche
p Verteilung besitzen. Setzen wir kurz Zn WD
n   X = n, so liefert eine Taylor-Entwicklung von g um die
Sn  ESn 1 X Xj   j D2 j
Sn D p D p : Stelle Zn
V .Sn / n j D1 
 
X1 X1
g p C Zn D g .Zn / C g 0 .Zn / p
Da die Zufallsvariable .Xj  /= standardisiert sind, also den n n
Erwartungswert 0 und die Varianz 1 besitzen, können wir im   
X 1 X1
Beweis o.B.d.A. den Fall  D EX1 D 0 und  2 D V .X1 / D 1 C g 0 Zn C n p  g 0 .Zn / p
n n
annehmen. J
mit einer Zufallsvariablen n , wobei j n j  1. Mit
Beweis Nach den Vorbemerkungen und Kriterium c) für Ver-  
teilungskonvergenz müssen wir für jede Funktion h 2 Cb;1 die X1
n WD g 0 Zn C n p  g 0 .Zn / (6.29)
Konvergenz n

Z1 ergibt sich wegen der Unabhängigkeit von X1 und Zn sowie den


 
lim Eh Sn D h.x/'.x/ dx Annahmen EX1 D 0 und EX12 D 1
n!1
1   
p X1
nE X1 g p C Zn
nachweisen, denn die rechte Seite ist gerade Eh.Z/, wobei Z n
standardnormalverteilt ist. Gehen wir zur Funktion p  
D nE.X1 g.Zn // C E.X12 g 0 .Zn // C E X12 n
p  
Z1 D nEX1 Eg.Zn / C EX12 Eg 0 .Zn / C E X12 n
f .x/ WD h.x/  h.x/'.x/ dx  
D Eg 0 .Zn / C E X12 n :
1
Insgesamt erhält man
über, so ist die Konvergenz
   
  X1
lim Ef Sn D 0 (6.27) Ef .Sn / D E g 0 p C Zn  g 0 .Zn /  E.X12 n /:
n!1 n
zu zeigen. Bei der im Folgenden vorgestellten, auf den US- Da g 0 gleichmäßig stetig und beschränkt ist, konvergieren beide
amerikanischen Statistiker Charles M. Stein (1920–2016) zu- Terme auf der rechten Seite gegen null, sodass (6.27) bewiesen
rückgehenden Beweismethode benötigen wir eine differenzier- ist. 
bare Funktion g W R ! R mit gleichmäßig stetiger und
beschränkter Ableitung g 0 derart, dass Selbstfrage 9
Welcher Satz garantiert, dass die beiden Terme auf der rechten
f .x/ D g 0 .x/  xg.x/ (6.28) Seite gegen null konvergieren?
Kapitel 6

gilt. Wie man unmittelbar nachrechnet, erfüllt die durch


Rx
f .y/'.y/ dy Kommentar Der obige Zentrale Grenzwertsatz besagt, dass
g.x/ WD 1 für jedes x 2 R die Konvergenz
'.x/
 
Sn  n 
definierte Funktion g die obige Differenzialgleichung. Teilt man lim P p  x D ˚.x/ (6.30)
den Nenner durch x und wendet dann die Regel von l’Hospital n!1  n
6.4 Zentrale Grenzwertsätze 217

besteht. Da die Verteilungsfunktion ˚ der Standardnormalver- ten Zufallsvariablen liegt für großes n mit der approximativen
teilung stetig ist, gilt nach dem Satz von Pólya in Abschn. 6.3, Wahrscheinlichkeit
dass selbst der betragsmäßig größte Abstand p
0.682 in den Grenzen ESn ˙ 1  pV .Sn /,
ˇ S  n  ˇ
ˇ n ˇ 0.954 in den Grenzen ESn ˙ 2  pV .Sn /,
n WD sup ˇP p  x  ˚.x/ˇ
x2R  n 0.997 in den Grenzen ESn ˙ 3  V .Sn /. J
zwischen der Verteilungsfunktion
p der standardisierten Summe
Sn D .Sn  n/=. n/ und der Funktion ˚ gegen null kon- Beispiel Ein echter Würfel wird n-mal in unabhängiger Folge
vergiert. In diesem Zusammenhang ist es naheliegend, nach der geworfen; die Zufallsvariable Xj beschreibe das Ergebnis des
Konvergenzgeschwindigkeit von n gegen null zu fragen. Dies- j -ten Wurfs, 1  j  n. Wir nehmen an, dass X1 ; : : : ; Xn
bezüglich gilt der Satz von Berry-Esseen: Falls EjX1 j3 < 1, so unabhängig und je auf f1; : : : ; 6g gleichverteilt sind. Wegen
gilt EX1 D 3:5 und V .X1 / D 35=12 2:917 (vgl. (4.17)) gilt dann
nach obigen Faustregeln für die mit Sn WD X1 C : : : C Xn be-
C ˇˇ X1   ˇˇ3 zeichnete Augensumme im Fall n D 100: Die Augensumme aus
n  p Eˇ ˇ
n  100 Würfelwürfen liegt mit der approximativen Wahrschein-
p p lichkeit
für eine Konstante C mit 0:4097 . 10 C 3/=.6 2/  p
C  0:4690    . Die Konvergenzgeschwindigkeit beim Zen- 0.682 in den Grenzen 350 ˙ 291:7, also zwischen 333 und
tralen Grenzwertsatz von Lindeberg-Lévy ist also unter der 367, p
schwachen zusätzlichenpMomentenbedingung EjX1 j3 < 1 von 0.954 in den Grenzen 350 ˙ 2  291:7, also zwischen 316
der Größenordnung 1= n. und 384, p
0.997 in den Grenzen 350 ˙ 3  291:7, also zwischen 299
Video 6.3 Zentraler Grenzwertsatz für die Binomialverteilung: und 401. J
Optimale Fehlerabschätzung Wendet man den Satz von Lindeberg-Lévy auf Indikatorvaria-
blen Xj D 1fAj g unabhängiger Ereignisse Aj mit gleicher
Wahrscheinlichkeit p 2 .0; 1/ an, so ergibt sich das folgende
klassische Resultat von Abraham de Moivre (1667–1754) und
Pierre Simon Laplace (1749–1827).

Die Botschaft des Zentralen Grenzwertsatzes von Lindeberg- Zentraler Grenzwertsatz von de Moivre-Laplace
Lévy ist salopp formuliert, dass eine Summe Sn aus vielen Es sei Sn eine Zufallsvariable mit der Binomialverteilung
unabhängigen und identisch verteilten Summanden „im Limes Bin.n; p/, wobei 0 < p < 1. Dann gilt
n ! 1 die Verteilung eines einzelnen Summanden bis auf Er-
wartungswert und Varianz vergisst“. Durch Differenzbildung in Sn  np D
p 
! N.0; 1/ für n ! 1:
(6.30) ergibt sich np.1  p/
 
Sn  n
lim P a  p  b D ˚.b/  ˚.a/ (6.31)
n!1  n
Beispiel Wir hatten in Aufgabe 4.25 die Anzahl der Sech-
für jede Wahl von a; b mit a < b. Wählt man in (6.31) speziell
sen in 6n unabhängigen Würfen eines echten Würfels betrachtet
b D k 2 N und a D b, so folgt wegen ESn D n und
und für n 2 f1; 2; 3g die Wahrscheinlichkeit bestimmt, dass in
V .Sn / D n 2 sowie ˚.k/ D 1  ˚.k/
6n Würfen mindestens n Sechsen auftreten. Diese Wahrschein-
p p lichkeiten berechneten sich zu 0:665 für n D 1, 0:618 für n D 2
lim P .ESn  k V .Sn /  Sn  ESn C k V .Sn //
n!1 und 0:597 für n D 3, Damals wurde behauptet, dass sich hier
D 2˚.k/  1: für n ! 1 der Grenzwert 1=2 ergibt. Diese Behauptung bestä-
tigt sich unmittelbar mit dem Zentralen Grenzwertsatz von de
Die Wahrscheinlichkeit, dass sich die Summe Sn von ihrem Er- Moivre-Laplace: Da die mit Sn bezeichnete Anzahl der Sechsen
wartungswert betragsmäßig um höchstens das k-Fache der Stan- in n Würfelwürfen die Verteilung Bin.n; 1=6/ besitzt, gilt
dardabweichung unterscheidet, stabilisiert sich also für n ! 1
gegen einen nur von k abhängenden Wert. Für die Fälle k D 1, Sn  n 16 D
k D 2 und k D 3 gelten mit Tab. 5.1 die Beziehungen q 
! N.0; 1/ für n ! 1
Kapitel 6

n 16 65
2˚.1/  1 0:682;
2˚.2/  1 0:954;
und somit  
S6n  n
2˚.3/  1 0:997: P .S6n  n/ D P q 0
6n 16 65
Obige Grenzwertaussage liefert somit die folgenden Faustre- 1
geln: Die Summe Sn von n unabhängigen und identisch verteil- ! 1  ˚.0/ D : J
2
218 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Wie das folgende Beispiel zeigt, sind die Voraussetzungen des wegen (6.32) die Beziehung
Satzes von Lindeberg-Lévy selbst in einfachen Situationen nicht 2 2
gegeben. n1 C : : : C nkn
D1 (6.33)
besteht.
Beispiel (Anzahl der Rekorde) Es sei ˝n die Menge der
Permutationen der Zahlen 1; : : : ; n mit der Gleichverteilung Pn
auf ˝n . Bezeichnet Zentraler Grenzwertsatz von Lindeberg-Feller
An;j WD f.a1 ; : : : ; an / 2 ˝n j aj D max.a1 ; : : : ; aj /g Ist in obiger Situation eines Dreiecksschemas die
Lindeberg-Bedingung
das Ereignis, dass an der j -ten Stelle ein Rekord auftritt, so
haben wir in Aufgabe 3.28 gesehen, dass An;1 ; : : : ; An;n stochas- X
kn h i
tisch unabhängige Ereignisse sind und die Wahrscheinlichkeiten Ln ."/ WD E Ynj2 1fjYnj j  "g ! 0 für jedes " > 0
Pn .An;j / D 1=j , j D 1; : : : ; n, besitzen. Die zufällige Anzahl j D1
Rn der Rekorde hat dann die Darstellung
erfüllt, so gilt
Rn D 1fAn;1 g C 1fAn;2 g C : : : C 1fAn;n g D
Sn 
! N.0; 1/:
als Summe von unabhängigen, aber nicht identisch verteilten
Zufallsvariablen. Man beachte, dass für jedes n ein anderer
Grundraum (mit der Potenzmenge als -Algebra) und ein ande-
res Wahrscheinlichkeitsmaß vorliegen. Wir werden sehen, dass Beweis Wir stellen zunächst eine Vorbetrachtung über kom-
mit einer Verallgemeinerung des Zentralen Grenzwertsatzes von plexe Zahlen an. Sind z1 ; : : : ; zn ; w1 ; : : : ; wn 2 C mit
Lindeberg-Lévy gezeigt werden kann, dass Rn nach Standardi- jzj j; jwj j  1 für j D 1; : : : ; n, so gilt die leicht durch Indukti-
sierung für n ! 1 asymptotisch standardnormalverteilt ist. J on einzusehende Ungleichung
ˇYn Y
n ˇ X n
ˇ ˇ
Durch dieses Beispiel motiviert betrachten wir jetzt eine im ˇ zj  wj ˇ  jzj  wj j (6.34)
Vergleich zum Satz von Lindeberg-Lévy allgemeinere Situati- j D1 j D1 j D1
on, bei der die Summanden von Sn zwar weiterhin stochastisch
unabhängig sind, aber nicht mehr die gleiche Verteilung besit- (Aufgabe 6.38). Bezeichnet 'nj die charakteristische Funktion
zen müssen. Genauer legen wir eine Dreiecksschema genannte von Xnj , so ist nach der Multiplikationsformel für charakteristi-
Qn
doppelt-indizierte Folge von Zufallsvariablen sche Funktionen die Funktion 'n D jkD1 'nj die charakteristi-

sche Funktion von Sn . Nach (5.64) und dem Stetigkeitssatz von
fXnj j n 2 N; j D 1; : : : ; kn g Lévy-Cramér ist somit die Konvergenz
zugrunde. Über diese setzen wir voraus, dass für jedes n die  2
t
n-te Zeile Xn1 ; Xn2 ; : : : ; Xnkn aus stochastisch unabhängigen lim 'n .t / D exp  ; t 2 R;
n!1 2
Zufallsvariablen besteht. Dabei könnten Xn1 ; Xn2 ; : : : ; Xnkn für
jedes n auf einem anderen Wahrscheinlichkeitsraum definiert zu zeigen. Hierzu schreiben wir wegen (6.33) exp.t 2 =2/ in der
sein. Man beachte, dass sich die bisher betrachtete Situati- Form
on dieser allgemeineren unterordnet: Von einer unendlichen
 2 Y kn
!
2 2
Folge X1 ; X2 ; : : : unabhängiger Zufallsvariablen stehen in der t nj t
n-ten Zeile des Dreiecksschemas die Zufallsvariablen Xn1 D exp  D nj .t /; nj .t / D exp  :
2 j D1
2
X1 ; : : : ; Xnn D Xn ; in diesem Fall ist also kn D n.
2
Wir nehmen weiter 0 < nj WD V .Xnj / < 1 an und setzen Da nj nach (5.65) die charakteristische Funktion einer mit
2
anj WD EXnj sowie Znj bezeichneten N.0; nj /-normalverteilten Zufallsvariablen
ist, folgt nach (6.34) und (5.67)
n2 WD n1
2 2
C : : : C nk : (6.32)
n
ˇYkn Y
kn ˇ
ˇ ˇ
Mit Sn WD Xn1 C : : : C Xnkn gilt dann ˇ 'nj .t /  nj .t /ˇ
j D1 j D1
Sn  E Sn X n k
Sn WD p D Ynj ; X
kn
V .Sn / j D1  j'nj .t /  nj .t /j
Kapitel 6

j D1
wobei kn ˇ
X 2 2ˇ kn ˇ 2 2ˇ
Xnj  anj ˇ nj t ˇ X ˇ nj t ˇ
Ynj WD ; j D 1; : : : ; kn :  ˇ'nj .t /  1 C ˇC ˇ nj .t /  1 C ˇ
n 2 2
j D1 j D1
Man beachte, dass EYnj D 0 gilt und dass mit 0 1
Xkn h i X kn h i
V .Xnj / 2
nj c@ E Ynj2 .1 ^ jYnj j/ C E Znj 2
.1 ^ jZnj j/ A :
2
nj WD V .Ynj / D D j D1 j D1
n2 n2
6.4 Zentrale Grenzwertsätze 219

Zu zeigen bleibt also, dass beide Summen innerhalb der großen an. Die Lindeberg-Bedingung Ln ."/ ! 0 für jedes " > 0
Klammer für n ! 1 gegen 0 streben. Für die erste Summe gilt garantiert, dass jeder der Summanden Xnj , 1  j  kn , nur
zu beliebigem " > 0 einen kleinen Einfluss auf die Summe Sn besitzt. Nach (6.35)
2 2
gilt ja – wenn wir nj D nj =n2 setzen –
X
kn h i
E Ynj2 .1 ^ jYnj j/ 2
maxj D1;:::;kn nj
j D1 lim D 0:
2 2
kn  h i h i
n!1 n1 C : : : C nk
X n
 E Ynj2 jYnj j1fjYnj j < "g C E Ynj2 1fjYnj j  "g
j D1
Diese sog. Feller-Bedingung besagt, dass die maximale Va-
rianz eines einzelnen Summanden Xnj im Vergleich zur
X
kn X
kn
Varianz der Summe asymptotisch verschwindet. Mit der
2
" nj C Ln ."/: Markov-Ungleichung ergibt sich hieraus die sog. asympto-
j D1 j D1
tische Vernachlässigbarkeit
Wegen (6.33) und der Lindeberg-Bedingung folgt
1  
h i lim  max P jXnj  anj j  " D 0 8" > 0
X
kn
n!1 n2 1j kn
lim sup E Ynj2 .1 ^ jYnj j/  ";
n!1
j D1 der Zufallsvariablen .Xnj  anj /=n , 1  j  kn ; n  1.
und somit konvergiert die erste Summe gegen 0. Für die zweite Setzt man die asymptotische Vernachlässigbarkeit voraus, so
Summe beachten wir, dass Znj nj Z mit Z N.0; 1/ gilt. ist die Lindeberg-Bedingung sogar notwendig für die Gültig-
Damit ergibt sich keit des Zentralen Grenzwertsatzes. J

h i X Eine einfache hinreichende Bedingung für die Gültigkeit des


X
kn kn X
kn

E Znj
2
.1 ^ jZnj j/  EjZnj j3 D E jnj Zj3 Zentralen Grenzwertsatzes geht auf den russischen Mathemati-
j D1 j D1 j D1
ker Aleksander Michailowitsch Ljapunov (1857–1918) zurück.

X
kn
D EjZj3 3
nj Satz von Ljapunov
j D1
 X
kn In der Situation des Satzes von Lindeberg-Feller existiere
 EjZj3 max nj 2
nj ein ı > 0 mit
j D1;:::;kn
j D1
  1 X
kn

lim E jXnj  anj j2Cı D 0 (6.36)
D EjZj 3
max nj : n!1 n2Cı j D1
j D1;:::;kn

Wegen (sog. Ljapunov-Bedingung).


h i
max 2
n;j  " C max E Ynj2 1fjYnj j > "g
2
Dann gilt der Zentrale Grenzwertsatz Sn 
D
! N.0; 1/.
j D1;:::;kn j D1;:::;kn

 "2 C Ln ."/; " > 0;


folgt aus der Lindeberg-Bedingung
Beweis Es sei " > 0 beliebig. Wegen
2
lim max nj D 0; (6.35)
n!1 j D1;:::;kn 1
.x  a/2 1fjx  aj > "g  jx  aj2Cı
und somit konvergiert auch die zweite Summe gegen 0.  ."/ı

für x; a 2 R und  > 0 folgt


Kommentar
1 X
kn
Der auf anderem Wege bewiesene Zentrale Grenzwert-
satz von Lindeberg-Lévy ist als Spezialfall im Satz von Ln ."/  2
E .Xnj  anj /2 1fjXnj  anj j > "n g
n j D1
Lindeberg-Feller enthalten (Übungsaufgabe 6.36).
Für die Zufallsvariablen Xn1 ; : : : ; Xnkn nimmt die im Satz 1 1 X
kn

E jXnk  ank j2Cı :
Kapitel 6

eingeführte „Lindeberg-Funktion“ Ln die Gestalt  ı 2Cı


" n j D1
1 X
kn

Ln ."/ D 2
E .Xnj  anj /2 1fjXnj  anj j > n "g Somit zieht die Ljapunov-Bedingung die Lindeberg-Bedingung
n j D1
nach sich. 
220 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Hintergrund und Ausblick: Verteilungskonvergenz und Zentraler Grenzwertsatz im Rk

Die Verteilungskonvergenz lässt sich auf Zufallsvariablen .j /


n  1. Ist jede Komponentenfolge .Xn /, 1  j  k, straff,
mit allgemeineren Wertebereichen verallgemeinern so ist also auch die Folge .Xn / straff.
Es seien X; X1 ; X2 ; : : : k-dimensionale Zufallsvektoren mit Auch im multivariaten Fall gilt ein Stetigkeitssatz für charak-
Verteilungsfunktionen F .x/ D P .X  x/, Fn .x/ D teristische Funktionen. Bezeichnen
P .Xn  x/, x 2 Rk ; n  1. Bezeichnen Ok und Ak die
Systeme der offenen bzw. abgeschlossenen Mengen des Rk ,
'n .t / D E.exp.it > Xn //; '.t / D E.exp.it > X//;
@B den Rand einer Menge B  Rk sowie Cb die Menge aller
stetigen und beschränkten Funktionen h W Rk ! R, so sind
folgende Aussagen äquivalent (sog. Portmanteau-Theorem, t 2 Rk , die charakteristischen Funktionen von Xn bzw. von
siehe z. B. [4], S. 390): X (vgl. die Hintergrund-und-Ausblick-Box über charakteris-
tische Funktionen von Zufallsvektoren in Abschn. 5.1), so
a) limn!1 Eh.Xn / D Eh.X/ 8 h 2 Cb , gilt
b) lim supn!1 P .Xn 2 A/  P .X 2 A/ 8 A 2 Ak ,
c) lim infn!1 P .Xn 2 O/  P .X 2 O/ 8 O 2 Ok , D
d) limn!1 P .Xn 2 B/ D P .X 2 B/ 8 B 2 Bk mit ! X () lim 'n .t / D '.t / 8t 2 Rk :
Xn 
n!1
P .@B/ D 0,
e) limn!1 Fn .x/ D F .x/ 8x 2 C .F /. Dabei steckt die Richtung „)“ im Kriterium a) für Vertei-
lungskonvergenz.
Liegt eine dieser Gegebenheiten vor, so sagt man, .Xn / kon-
vergiere nach Verteilung gegen X und schreibt Ein wichtiges Mittel zum Nachweis der Verteilungskonver-
D
genz ist die sog. Cramér-Wold-Technik. Nach dieser gilt die
Xn 
! X: Äquivalenz

Wie im Fall k D 1 ist dabei auch die Schreibweise D D


D Xn  ! c > X 8c 2 Rk :
! X () c > Xn 
Xn ! P X häufig anzutreffen. Man beachte, dass die Eigen-
schaft P .@B/ D 0 in d) im Fall k D 1 und B D .1; x
gerade die Stetigkeit der Verteilungsfunktion F an der Stelle Die Verteilungskonvergenz im Rk kann also mithilfe der
x bedeutet. Verteilungskonvergenz aller Linearkombinationen von Kom-
ponenten von Xn gegen die entsprechenden Linearkombina-
Der Abbildungssatz überträgt sich direkt auf diese allgemei- tionen der Komponenten von X bewiesen werden. Hiermit
nere Situation: Ist h W Rk ! Rs eine messbare Abbildung, erhält man etwa das folgende Resultat.
die P X -fast überall stetig ist, für die also P .X 2 C .h// D 1
erfüllt ist, so gilt:
Satz (Multivariater Zentraler Grenzwertsatz) Es
D D
Xn 
! X H) h.Xn / 
! h.X/: sei .Xn / eine Folge unabhängiger und identisch verteilter
k-dimensionaler Zufallsvektoren mit EkX1 k2 < 1. Be-
Auch das Konzept der Straffheit als notwendige Bedingung zeichnen  WD EX1 den Erwartungswertvektor und ˙ D
für Verteilungskonvergenz bleibt unverändert: Eine Menge ˙.X1 / die Kovarianzmatrix von X1 , so gilt
Q von Wahrscheinlichkeitsmaßen auf Bk heißt straff, falls
X 
es zu jedem " > 0 eine kompakte Menge K  Rk mit 1
n
D
Q.K/  1  " für jedes Q 2 Q gibt. Eine Folge .Xn / von p Xj  n  ! Nk .0; ˙/: J
n j D1
Zufallsvektoren heißt straff, wenn die Menge ihrer Verteilun-
.j /
gen straff ist. Bezeichnet Xn die j -te Komponente von Xn ,
so folgt aus der Ungleichung Da sich die Eigenschaften der Stetigkeit und Beschränkt-
heit für Funktionen mit allgemeineren Definitionsbereichen
" wie etwa metrischen Räumen verallgemeinern lassen, ist
P .jXn.j /j  c/  1  ; j D 1; : : : ; kI n  1;
k Eigenschaft a) der Ausgangspunkt für die Definition der
Verteilungskonvergenz für Zufallsvariablen mit Werten in
mit K D Œc; cd metrischen Räumen, siehe z. B. [5]. Ein einfaches Beispiel
Kapitel 6

\
k 
für einen solchen Raum ist die Menge CŒ0; 1 der auf dem In-
P .Xn 2 K/ D P fjXn.j / j  cg  1  "; tervall Œ0; 1 stetigen Funktionen mit der Metrik .f ; g/ WD
j D1 max0t 1 jf .t /  g.t /j.
6.4 Zentrale Grenzwertsätze 221

Hintergrund und Ausblick: Der Brown-Wiener-Prozess

Der Satz von Donsker: Ein Zentraler Grenzwertsatz für Par- Einpunktverteilung in 0 als ausgeartete Normalverteilung mit
tialsummenprozesse Varianz 0 auffassen. Mit dem multivariaten Zentralen Grenz-
wertsatz zeigt man, dass für jedes k 2 N und jede Wahl von
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf ei-
t1 ; : : : ; tk 2 Œ0; 1 mit 0  t1 < : : : < tk  1 die Folge der
nem Wahrscheinlichkeitsraum .˝; A; P / mit EX1 D 0 und
P Zufallsvektoren .Wn .t1 /; : : : ; Wn .tk // in Verteilung gegen ei-
V .X1 / D 1. Mit Sk WD jkD1 Xj , k  1, gilt nach dem ne k-dimensionale Normalverteilung mit Erwartungswert 0
Zentralen Grenzwertsatz von Lindeberg-Lévy und Kovarianzmatrix .min.ti ; tj //1i ;j k konvergiert.
1 D Nach einem berühmten Satz des US-amerikanischen Mathe-
p Sn 
! N.0; 1/ für n ! 1:
n matikers Monroe Davis Donsker (1924–1991) (siehe z. B.
[5], S. 86 ff.) konvergiert die Folge .Wn / in Verteilung gegen
Eine weitreichende Verallgemeinerung dieses Resultats er- einen stochastischen Prozess (Familie von Zufallsvariablen)
D
gibt sich, wenn wir die Zufallsvariablen W D .W .t //0t 1. Diese Verteilungskonvergenz Wn 
!W
ist definiert durch die Konvergenz
Sbnt c Xbnt cC1
Wn .t / WD p C .nt  bnt c/ p ; (6.37)
n n lim Eh.Wn / D Eh.W /
n!1
0  t  1, S0 WD 0, betrachten. Man beachte, dass wir
das Argument ! 2 ˝ in der Notation sowohl bei Sbnt c und für jede beschränkte Funktion h W C Œ0; 1 ! R, die ste-
Xbnt cC1 als auch bei Wn .t / unterdrückt haben. Die Realisie- tig bzgl. der Supremumsmetrik ist. Sie beinhaltet die oben
rungen von Wn ./ sind aufgrund des linear interpolierenden beschriebene Konvergenz der sog. endlich-dimensionalen
D
Charakters des zweiten Summanden in (6.37) stetige Funk- Verteilungen und wegen Wn .1/ 
! N.0; 1/ insbesondere den
tionen auf Œ0; 1. Zentralen Grenzwertsatz von Lindeberg-Lévy.
Die Familie Wn WD .Wn .t //0t 1 heißt n-ter Partialsum-
menprozess von .Xn /. Versieht man die Menge C Œ0; 1 mit
der von den (durch die Supremumsmetrik induzierten) offe- 1
nen Mengen erzeugten Borelschen -Algebra, so ist Wn eine
0 t
C Œ0; 1-wertige Zufallsvariable auf ˝. Nachstehende Abbil- 0.5 1.0
dung zeigt drei Realisierungen von Wn für n D 100 im Fall −1
P .X1 D ˙1/ D 1=2.
−2

2
Realisierungen von W1 000
1

0 t Der stochastische Prozess W , dessen Realisierungen steti-


0.5 1.0
−1
ge Funktionen auf Œ0; 1 sind, heißt Brown-Wiener-Prozess.
Er bildet den Ausgangspunkt für viele weitere stochastische
−2 Prozesse und ist durch folgende Eigenschaften charakteri-
siert:
Realisierungen von W100 P .W .0/ D 0/ D 1 (der Prozess startet in 0),
W besitzt unabhängige Zuwächse, d. h., für jede Wahl
Da der zweite Summand in (6.37) für n ! 1 stochastisch von k und jede Wahl von 0 D t0 < t1 < : : : < tk sind
gegen 0 konvergiert, gilt für t > 0 die Zufallsvariablen W .t1 /W .t0 /; : : : ; W .tk /W .tk1 /
stochastisch unabhängig,
p Für 0  s < t gilt W .t /  W .s/ N.0; t  s/.
bnt c Sbnt c
Wn .t / D p p C oP .1/:
n bnt c Die obige Abbildung zeigt drei Realisierungen des Partial-
Kapitel 6

summenprozesses für n D 1 000. Da bei Vergrößerung von


p D n kaum qualitative Unterschiede sichtbar werden, hat man
Wegen Sbnt c = bnt c ! N.0; 1/ (Lindeberg-Lévy) und hiermit auch eine grobe Vorstellung der (mit Wahrschein-
p p p D
bnt c= n ! t folgt Wn .t / ! N.0; t /. Diese Aussa- lichkeit eins nirgends differenzierbaren) Realisierungen des
ge gilt wegen Wn .0/ D 0 auch für t D 0, wenn wir die Brown-Wiener-Prozesses W .
222 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
Pn
Beispiel (Anzahl der Rekorde) In Fortsetzung des zweiten erhält. Schreiben wir Hn WD j D1 j 1 für die n-te harmonische
Beispiels nach dem zentralen Grenzwertsatz von de Moivre- Zahl, so ergibt sich also
Laplace sei
X
n
 4
X
n E Xnj  anj  8 Hn :
Rn D 1fAn;j g j D1
j D1
Für die Varianz n2 D V .Xn1 C : : : C Xnn / gilt
die Anzahl der Rekorde in einer rein zufälligen Permutati-
on der Zahlen 1; : : : ; n. Setzen wir Xnj WD 1fAn;j g, j D X n   X n
1 1 1
1; : : : ; n, so liegt wegen der stochastischen Unabhängigkeit von n2 D 1 D Hn  2
:
Xn1 ; : : : ; Xnn die Situation des Satzes von Lindeberg-Feller vor. j D1
j j j D1
j
Wir werden sehen, dass in diesem Fall die Ljapunov-Bedingung
(6.36) mit ı D 2 erfüllt ist, also Schätzt man Hn mithilfe geeigneter Integrale
P ab, so ergibt sich
log.n C 1/  Hn  1 C log n, und wegen jnD1 j 2  2 folgt
1 X 
n
4 für n  7
lim 4
E Xnj  anj D 0 (6.38)
n!1 n j D1
1 X 
n
4 8.1 C log n/
E Xnj  anj 
gilt. Mit anj D EXnj D 1=j folgt (6.38) leicht, indem man n4 j D1 .log.n C 1/  2/2
k
unter Verwendung von Xnj D Xnj , k 2 N,
und damit (6.38). Nach dem Zentralen Grenzwertsatz von
  Lindeberg-Feller gilt also
1 4
.Xnj  anj /4 D Xnj 
j Rn  ERn Rn  Hn D
4Xnj 6Xnj 4Xnj 1 p D q Pn 
! N.0; 1/
D Xnj  C  3 C 4 V .Rn / Hn  j D1 j 2
j j2 j j
6Xnj 1
 Xnj C 2 C für n ! 1. Mit Aufgabe 6.11 ergibt sich hieraus
j j4
Rn  log n D
abschätzt und damit wegen EXnj D 1=j p 
! N.0; 1/ für n ! 1:
log n
1 6 1 8
E.Xnj  anj /4  C 3C 4  Die Anzahl der Rekorde wächst also sehr langsam mit n. J
j j j j
Kapitel 6
Zusammenfassung 223

Zusammenfassung

Für Zufallsvariablen X ; X1 ; X2 ; : : : auf einem Wahrscheinlich- point) x von F . Ist F stetig, so liegt nach dem Satz von Pólya
keitsraum .˝; A; P / definiert man die P -fast sichere Konver- sogar gleichmäßige Konvergenz vor. Die Konvergenz Xn 
!X
D

genz (engl.: almost sure convergence) von Xn gegen X durch ist gleichbedeutend mit
n o
P ! 2 ˝ j lim Xn .!/ D X .!/ D 1 lim Eh.Xn / D Eh.X / 8h 2 Cb :
n!1 n!1

Dabei bezeichnet Cb die Menge der stetigen beschränkten reel-


f.s.
und schreibt hierfür Xn ! X für n ! 1. Bei der stochas- len Funktionen auf R. Man kann sich hier auch nur auf diejeni-
tischen Konvergenz (convergence in probability, stochastic gen Funktionen h aus Cb einschränken, bei denen die Grenzwer-
convergence) te limx!˙1 h.x/ existieren. Diese Erkenntnis führt zu einem
Beweis des Zentralen Grenzwertsatzes von Lindeberg-Lévy
P (central limit theorem of Lindeberg and Lévy) : Ist .Xn / eine
! X W() lim P .jXn  X j > "/ D 0
Xn  8" > 0
n!1 unabhängige und identisch verteilte Folge mit EX12 < 1 und
0 <  2 WD V .X1 /, so gilt mit a WD EX1 die Verteilungskonver-
wird wegen
genz
!
f.s. Sn  n a D
Xn ! X () lim P sup jXk  X j > " D 0 8" > 0 p 
! N.0; 1/ für n ! 1:
n!1 kn  n
Für Sn Bin.n; p/ und a D p,  2 D p.1  p/ ergibt sich
weniger gefordert; die stochastische Konvergenz ist also schwä- als wichtiger Spezialfall der Zentrale Grenzwertsatz von de
cher als die fast sichere Konvergenz. Nach dem Teilfolgenkri- Moivre-Laplace.
P
terium für stochastische Konvergenz gilt Xn  ! X genau dann, D
wenn es zu jeder Teilfolge .Xnk / von .Xn / eine weitere Teilfolge Notwendig für die Verteilungskonvergenz Xn  ! X ist
.Xn0k / gibt, die fast sicher gegen X konvergiert. Aus der Konver- die Straffheit (tightness) der Folge .Xn /, also der Menge
genz EjXn  X jp ! 0 im p-ten Mittel (convergence in the pth fP Xn j n 2 Ng. Allgemein heißt eine Menge Q von Wahrschein-
mean) folgt wegen der Markov-Ungleichung die stochastische lichkeitsmaßen auf B straff (tight), wenn es zu jedem " > 0
Konvergenz. eine kompakte Menge K mit Q.K/  1  " für jedes Q 2 Q
gibt. Konvergiert die Folge 'n der charakteristischen Funktio-
Nach dem starken Gesetz großer Zahlen (strong law of large nen von Xn punktweise auf R gegen eine Funktion ', die stetig
numbers) konvergiert das arithmetische Mittel X n von unab- im Nullpunkt ist, so ist die Folge .Xn / straff und es gibt eine
hängigen und identisch verteilten Zufallsvariablen X1 ; X2 ; : : : D
Zufallsvariable X mit Xn ! X (Stetigkeitssatz für charak-
genau dann P -fast sicher gegen eine Zufallsvariable X , wenn teristische Funktionen) (continuity theorem for characteristic
der Erwartungswert von X1 existiert, und in diesem Fall gilt functions) .
f.s.
X n ! EX1 . Das Kolmogorov-Kriterium
Ein Dreiecksschema (triangular array) fXnj j n 2 N; j D
X
1 1; : : : ; kn g ist eine doppelt-indizierte Folge von Zufallsvaria-
V .Xn /
<1 blen, wobei Xn1 ; : : : ; Xnn für jedes n stochastisch unabhängig
nD1
an2 sind. Setzt man 0 < nj 2
WD V .Xnj / < 1 voraus, so ist
mit n WD n1 C : : : C nkn sowie anj WD EXnj und Sn WD
2 2 2
gibt eine hinreichende Bedingung für die Konvergenz
P f.s.
Xn1 C : : : C Xnkn die sog. Lindeberg-Bedingung (Lindeberg
an1 jnD1 .Xj  EXj / ! 0 an, wenn die Xj unabhängig, condition)
aber nicht notwendig identisch verteilt sind. Das Kriterium ver-
1 X
kn
wendet die Kolmogorov-Ungleichung (Kolmogorov’s maximal
E .Xnj  anj /2 1fjXnj  anj j > n "g ! 0 8" > 0
inequality) n2 j D1
 
1 hinreichend für den Zentralen Grenzwertsatz
P max jSk j  "  2 V .Sn /; " > 0;
1kn " Sn  ESn D
p
Kapitel 6


! N.0; 1/:
für die Partialsummen Sn D X1 C : : : C Xn von unabhängigen V .Sn /
zentrierten Zufallsvariablen mit endlichen Varianzen. Letzterer folgt auch aus der Ljapunov-Bedingung (Ljapunov
D condition):
Die Verteilungskonvergenz Xn  ! X (convergence in distri-
bution) ist definiert über die punktweise Konvergenz Fn .x/ ! 1 X
kn

F .x/ der Verteilungsfunktionen Fn von Xn gegen die Vertei- Es gibt ein ı > 0 mit lim EjXnj  anj j2Cı D 0:
n!1 n2Cı j D1
lungsfunktion F von X in jeder Stetigkeitsstelle (continuity
224 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen 6.8 Für die Folge .Xn / unabhängiger Zufallsvariablen


gelte
6.1 Zeigen Sie, dass die in (6.1) stehende Menge zu
A gehört. 1
P .Xn D 1/ D P .Xn D 1/ D .1  2n /;
2
6.2 Es sei .Xn /n1 eine Folge von Zufallsvariablen 1
auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn  XnC1 , P .Xn D 2n / D P .Xn D 2n / D n1 :
P f.s.
2
n  1, und Xn 
! X . Zeigen Sie: Xn ! X .
a) Zeigen Sie, dass die Folge .Xn / nicht dem Kolmogorov-
6.3 Zeigen Sie, dass in einem diskreten Wahrschein- Kriterium genügt.
lichkeitsraum die Begriffe fast sichere Konvergenz und stochas- b) Zeigen Sie mit Aufgabe 6.26, dass für .Xn / ein starkes Gesetz
tische Konvergenz zusammenfallen. großer Zahlen gilt.

6.4 Es seien X; X1 ; X2 ; : : : (als Spaltenvektoren auf- 6.9 Zeigen Sie, dass eine endliche Menge Q von
gefasste) d -dimensionale Zufallsvektoren auf einem Wahr- Wahrscheinlichkeitsmaßen auf B1 straff ist.
P
scheinlichkeitsraum .˝; A; P / mit Xn 
! X und A; A1 ; A2 ; : : :
P
reelle .k  d /-Matrizen mit An ! A. Zeigen Sie: An Xn 
! 6.10 In einer Folge .Xn /n1 von Zufallsvariablen habe
A X. Xn die charakteristische Funktion

6.5 Es sei .Xn ; Yn /n1 eine Folge unabhängiger, iden- sin.nt /


tisch verteilter zweidimensionaler Zufallsvektoren auf einem 'n .t / WD ; t ¤ 0;
nt
Wahrscheinlichkeitsraum .˝; A; P / mit EX12 < 1, EY12 <
1, V .X1 / > 0, V .Y1 / > 0 und und 'n .0/ WD 1. Zeigen Sie, dass Xn eine Gleichverteilung in
1
Pn    .n; n/ besitzt und folgern Sie hieraus, dass die Folge .Xn /
n j D1 Xj  X n Yj  Y n nicht nach Verteilung konvergiert, obwohl die Folge .'n / punkt-
Rn WD q P  2 1 P n  2
1 n weise konvergent ist. Welche Bedingung des Stetigkeitssatzes
n j D1 Xj  X n n j D1 Yj  Y n von Lévy-Cramér ist verletzt?
der sog. empirische Korrelationskoeffizient
P von
.X1 ; Y1 /; : : : ; .Xn ; Yn /, wobei X n WD n1 jnD1 Xj , Y n WD 6.11 Es seien Y1 ; Y2 ; : : : Zufallsvariablen und .an /,
P .n / reelle Zahlenfolgen mit n > 0, n  1, und
n1 jnD1 Yj . Zeigen Sie:

f.s. Cov.X1 ; Y1 / Yn  an D
Rn ! p D %.X1 ; Y1 /: 
!Z
V .X1 /  V .Y1 / n
Kapitel 6

6.6 Zeigen Sie, dass für den Beweis des starken für eine Zufallsvariable Z. Zeigen Sie: Sind .bn / und .n / re-
Gesetzes großer Zahlen o.B.d.A. die Nichtnegativität der Zu- elle Folgen mit n > 0, n  1, und .an  bn /=n ! 0 sowie
fallsvariablen Xn angenommen werden kann. n =n ! 1, so folgt

6.7 Formulieren und beweisen Sie ein starkes Gesetz Yn  bn D



! Z:
großer Zahlen für Zufallsvektoren. n
Aufgaben 225

6.12 6.17 Da jeder Computer nur endlich viele Zahlen dar-


stellen kann, ist das Runden bei numerischen Auswertungen
a) Es seien Y ; Y1 ; Y2 ; : : : Zufallsvariablen mit Verteilungsfunk-
D
prinzipiell nicht zu vermeiden. Der Einfachheit halber werde
tionen F ; F1 ; F2 ; : : :, sodass Yn 
! Y für n ! 1. Ferner sei jede reelle Zahl auf die nächstgelegene ganze Zahl gerundet,
t eine Stetigkeitsstelle von F und .tn / eine Folge mit tn ! t wobei der begangene Fehler durch eine Zufallsvariable R mit
für n ! 1. Zeigen Sie: der Gleichverteilung U.1=2; 1=2/ beschrieben sei. Für ver-
schiedene zu addierende Zahlen seien diese Fehler stochastisch
lim Fn .tn / D F .t /: unabhängig. Addiert man 1 200 Zahlen, so könnten sich die
n!1
Rundungsfehler R1 ; : : : ; R1 200 theoretisch zu ˙600 aufsum-
b) Zeigen Sie, dass in den Zentralen Grenzwertsätzen von mieren. Zeigen Sie: Es gilt
Lindeberg-Feller und Lindeberg-Lévy jedes der „“-Zeichen 0 1
ˇ 1X
200 ˇ
durch das „<“-Zeichen ersetzt werden kann. ˇ ˇ
c) Es sei Sn Bin.n; 1=2/, n 2 N. Bestimmen Sie den Grenz- P @ˇ Rj ˇ  20A 0:9554:
j D1
wert
    
n p 1 6.18 Die Zufallsvariablen X1 ; X2 ; : : : seien stochas-
lim P Sn  n sin C1 : tisch unabhängig, wobei Xk N.0; kŠ/, k  1. Zeigen Sie:
n!1 2 n
a) Es gilt der Zentrale Grenzwertsatz.
6.13 In der Situation und mit den Bezeichnungen der b) Die Lindeberg-Bedingung ist nicht erfüllt.
Beispiel-Box zur Monte-Carlo-Integration in Abschn. 6.2 gilt
p D
6.19 In einer Bernoulli-Kette mit Trefferwahrschein-
n.In  I /=f ! N.0; 1/. Es sei
lichkeit p 2 .0; 1/ bezeichne Tn die Anzahl der Versuche, bis
  der n-te Treffer aufgetreten ist.
1X 2
n
Jn I2
Jn WD jBj  f .Uj /; n2 WD jBj2  n2 : a) Zeigen Sie:
n j D1 jBj jBj
p !
n C a n.1  p/
Zeigen Sie: lim P Tn > D 1  ˚.a/; a 2 R:
n!1 p
f.s.
a) n2 ! f2 für n ! 1.
p b) Wie groß ist ungefähr die Wahrscheinlichkeit, dass bei fort-
D
b) n.In  I /=n  ! N.0; 1/ für n ! 1. gesetztem Werfen eines echten Würfels die hundertste Sechs
nach 650 Würfen noch nicht aufgetreten ist?
6.14 Zeigen Sie:
6.20 Wir hatten in Aufgabe 4.6 gesehen, dass in ei-
Pn k
a) limn!1 kD0 en nkŠ D 12 , ner patriarchisch orientierten Gesellschaft, in der Eltern so lange
P2n n nk Kinder bekommen, bis der erste Sohn geboren wird, die Anzahl
b) limn!1 kD0 e kŠ D 1.
der Mädchen in einer aus n Familien bestehenden Gesellschaft
die negative Binomialverteilung Nb.n; 1=2/ besitzt. Zeigen Sie:
6.15 Die Zufallsvariable Sn besitze die Binomialvertei-
lung Bin.n; pn /, n  1, wobei 0 < pn < 1 und pn ! p 2 .0; 1/ a) Für jede Wahl von a; b 2 R mit a < b gilt
für n ! 1. Zeigen Sie:    
 p p  b a
lim P n C a n  Sn  b C n D ˚ p ˚ p :
n!1 2 2
Sn  npn D
p 
! N.0; 1/ für n ! 1:
npn .1  pn / b) limn!1 P .Sn  n/ D 2 .
1

Rechenaufgaben Beweisaufgaben

6.16 Der Lufthansa Airbus A380 bietet insgesamt 526 6.21 Beweisen Sie den Satz über die Äquivalenz der
Fluggästen Platz. Da Kunden manchmal ihren Flug nicht an- fast sicheren bzw. stochastischen Konvergenz von Zufallsvekto-
treten, lassen Fluggesellschaften zwecks optimaler Auslastung ren zur jeweils komponentenweisen Konvergenz in Abschn. 6.1.
Kapitel 6

Überbuchungen zu. Es sollen möglichst viele Tickets verkauft


werden, wobei jedoch die Wahrscheinlichkeit einer Überbu- 6.22 Es sei .Xn /n1 eine Folge von Zufallsvariablen
chung maximal 0.05 betragen soll. Wie viele Tickets dürfen auf einem Wahrscheinlichkeitsraum .˝; A; P /.
1 Pn
dazu maximal verkauft werden, wenn bekannt ist, dass ein Kun- f.s. f.s.
de mit Wahrscheinlichkeit 0.04 nicht zum Flug erscheint und a) Zeigen Sie: Xn ! 0 H) n j D1 Xj ! 0:
vereinfachend angenommen wird, dass das Nichterscheinen für b) Gilt diese Implikation auch, wenn fast sichere Konvergenz
verschiedene Kunden unabhängig voneinander ist? durch stochastische Konvergenz ersetzt wird?
226 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

6.23 Es sei .Xn / eine Folge unabhängiger Zufalls- 6.29 Es seien X ; X1 ; X2 ; : : : I Y1 ; Y2 ; : : : Zufallsvaria-
variablen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit D
blen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn 
!
P .Xn D 1/ D 1=n und P .Xn D 0/ D 1  1=n, n  1. Zei- P
gen Sie, dass die Folge .Xn / stochastisch, aber nicht fast sicher ! a für ein a 2 R. Zeigen Sie:
X und Yn 
gegen null konvergiert.
D
Xn Yn 
! a X:
6.24 Es sei V die Menge aller reellen Zufallsvariablen
auf einem Wahrscheinlichkeitsraum .˝; A; P / und d W V 
6.30 Es seien Xn ; Yn , n  1, Zufallsvariablen auf
V ! Œ0; 1 durch
einem Wahrscheinlichkeitsraum .˝; A; P / sowie .an /, .bn / be-
d .X ; Y / WD inff"  0 j P .jX  Y j > "/  "g schränkte Zahlenfolgen mit limn!1 an D 0. Weiter gelte Xn D
OP .1/ und Yn D OP .1/. Zeigen Sie:
definiert. Zeigen Sie: Für X ; Y ; Z; X1 ; X2 ; : : : 2 V gelten: a) Xn C Yn D OP .1/; Xn Yn D OP .1/,
a) d .X ; Y / D minf" > 0 j P .jX  Y j > "/  "g. b) Xn C bn D OP .1/; bn Xn D OP .1/,
b) d .X ; Y / D 0 () X D Y P -f.s., c) an Xn D oP .1/.
c) d .X ; Z/  d .X ; Y / C d .Y ; Z/,
P
d) limn!1 d .Xn ; X / D 0 () Xn 
! X. 6.31 Es sei Xn N.n ; n2 /, n  1. Zeigen Sie:

6.25 Xn D OP .1/ () .n / und .n2 / sind beschränkte Folgen.


a) Es sei .Xn /n1 eine Folge identisch verteilter Zufallsva-
riablen auf einem Wahrscheinlichkeitsraum .˝; A; P /. Es 6.32 Es sei .˝; A; P / WD ..0; 1/; B1 \ .0; 1/; 1j.0;1//
existiere ein k  1 so, dass Xm und Xn stochastisch unab- sowie N WDPf! 2 ˝ j 9n 2 N 9"1 ; : : : ; "n 2 f0; 1g; " D
hängig sind für jm  nj  k .m; n  1/. Zeigen Sie: 1; mit ! D jnD1 "j 2j g die Menge aller Zahlen in .0; 1/ mit
abbrechender dyadischer Entwicklung.
1 X
n
f.s.
EjX1 j < 1 H) Xj ! EX1 : a) Zeigen Sie: P .N / D 0.
n j D1 b) Jedes ! 2 ˝ n N besitzt
P eine eindeutig bestimmte dyadische
Entwicklung ! D j1D1 Xj .!/ 2j . Definieren wir zusätz-
b) Ein echter Würfel werde in unabhängiger Folge geworfen. lich Xj .!/ WD 0 für ! 2 N , j  1, so sind X1 ; X2 ; : : : f0; 1g-
Die Zufallsvariable Yj beschreibe die beim j -ten Wurf er- wertige Zufallsvariablen auf ˝. Zeigen Sie: X1 ; X2 ; : : : sind
zielte Augenzahl, j  1. Zeigen Sie: stochastisch unabhängig und je Bin.1; 1=2/-verteilt.
c) Nach Konstruktion gilt
1 X
n
f.s. 5
1fYj < Yj C1 g ! :
n j D1 12 Xn
lim Xj 2j D id˝ P -fast sicher;
n!1
j D1
6.26 Es seien .Xn /n1 und .Yn /n1 Folgen von Zufalls-
variablen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit wobei id˝ die Gleichverteilung U.0; 1/ besitzt. Die Gleich-
verteilung in .0; 1/ besitzt die charakteristische Funktion
X
1
P .Xn ¤ Yn / < 1: t 1 sin t . Zeigen Sie unter Verwendung des Stetigkeitssatzes
nD1
von Lévy-Cramér:

Pn f.s. Pn f.s. Y1  
Zeigen Sie: 1
Yj ! 0 H) 1
Xj ! 0. sin t t
n j D1 n j D1 D cos j ; t 2 R:
t j D1
2
6.27 Es sei .Xn / eine Folge unabhängiger Zufallsvaria-
blen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn 6.33 Es seien  2 R, .Zn / eine Folge von Zufallsva-
Bin.1; 1=n/, n  1. Zeigen Sie: riablen und .an / eine Folge positiver reeller Zahlen mit
1 X
n
D P
lim Xj D 1 P -fast sicher: an .Zn  / 
! N.0; 1/ und Zn 
!
Kapitel 6

n!1 log n
j D1

für n ! 1. Weiter sei g W R ! R eine stetig differenzierbare


6.28 Es sei .Xn / eine u.i.v.-Folge mit X1 U.0; 1/. Funktion mit g 0 ./ ¤ 0. Zeigen Sie:
Zeigen Sie:
  D D  
a) n 1  max1j n Xj ! Exp.1/ für n ! 1. ! N 0; .g 0 .//2 für n ! 1
an .g.Zn /  g.// 
D
b) n min1j n Xj 
! Exp.1/ für n ! 1. (sog. Fehlerfortpflanzungsgesetz).
Aufgaben 227

6.34 Es seien X ; X1 ; X2 ; : : : Zufallsvariablen mit zuge- 6.38 Es seien z1 ; : : : ; zn ; w1 ; : : : ; wn 2 C mit


hörigen Verteilungsfunktionen F ; F1 ; F2 ; : : : Zeigen Sie: Ist F jzj j; jwj j  1 für j D 1; : : : ; n. Zeigen Sie:
stetig, so gilt:
ˇYn Y
n ˇ X n
D ˇ ˇ
Xn 
! X () lim sup jFn .x/  F .x/j D 0:
n!1 x2R
ˇ zj  wj ˇ  jzj  wj j
j D1 j D1 j D1

6.35 Es seien X ; X1 ; X2 ; : : : Zufallsvariablen mit Ver-


teilungsfunktionen F ; F1 ; F2 ; : : : und zugehörigen Quantilfunk- 6.39 Es seien W1 ; W2 ; : : : ; eine u.i.v.-Folge mit EW1 D
tionen F 1 ; F11 ; F21 ; : : : Zeigen Sie: Aus Fn .x/ ! F .x/ für 0 und 0 <  2 WD V .W1 / < 1 sowie .an /P eine reelle Zahlen-
jede Stetigkeitsstelle x von F folgt Fn1 .p/ ! F 1 .p/ für jede folge mit an ¤ 0, n  1. Weiter sei Tn WD jnD1 aj Wj . Zeigen
Stetigkeitsstelle p von F 1 . Sie:
Aus
6.36 Zeigen Sie, dass aus dem Zentralen Grenzwertsatz
von Lindeberg-Feller derjenige von Lindeberg-Lévy folgt. max1j n jaj j
lim qP D0
n!1 n 2
6.37 Für eine u.i.v.-Folge .Xn / mit 0 <  2 WD V .X1 / j D1 aj
und EX1 < 1 sei
4

folgt
1 X
n
Sn2 WD .Xj  X n /2
n  1 j D1 Tn D
p 
! N.0; 1/:
P V .Tn /
die sog. Stichprobenvarianz, wobei X n WD n1 jnD1 Xj . Zei-
gen Sie:
6.40 Es sei .Xn /n1 eine
PnFolge von unabhängigen
a) Sn2 konvergiert P -fast sicher gegen  2 . Indikatorvariablen und Sn WD
P1 j D1 Xj . Zeigen Sie: Aus
b) Mit  WD EX1 und  2 WD E.X1  /4   4 > 0 gilt
nD1 V .Xn / D 1 folgt die Gültigkeit des Zentralen Grenz-
p  2  D p D
n Sn   2  ! N.0;  2 /: wertsatzes .Sn  ESn /= V .Sn / ! N.0; 1/.

Kapitel 6
228 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben

Antworten zu den Selbstfragen

f.s. f.s.
Antwort 1 Ja, denn aus Xn ! X und Xn ! Y für Zufalls- Antwort 4 Weil der Erwartungswert der Cauchy-Verteilung
variablen X und Y auf .˝; A; P / folgt wegen nicht existiert.
n o n o
lim Xn D X \ lim Xn D Y  fX D Y g Antwort 5 Die Vereinigung der paarweise disjunkten Ereignis-
n!1 n!1 se A1 ; : : : ; An ist gerade das Ereignis fmax1kn jSk j  "g.
und der Tatsache, dass der Schnitt zweier Eins-Mengen wieder
eine Eins-Menge ist, die Aussage P .X D Y / D 1, also X D Y Antwort 6 Weil die Verteilungsfunktion F der Einpunktvertei-
P -f.s. Man beachte, dass die obige Inklusion wie folgt zu lesen lung in a an der Stelle a von 0 nach 1 springt und somit für
ist: Gelten für ein ! 2 ˝ sowohl limn!1 Xn .!/ D X .!/ als x < a konstant gleich 0 und für x > a konstant gleich 1 ist.
auch limn!1 Xn .!/ D Y .!/, so folgt X .!/ D Y .!/. eYn D P Xn folgt für jede Borel-Menge B
Antwort 7 Wegen P
Antwort 2 Aus der Voraussetzung und dem Teilfolgenkriteri-
um ergibt sich, dass eine geeignete Teilfolge von .Xn / sowohl P h.Yn / .B/ D e
e P Yn .h1 .B// D P Xn .h1 .B//
fast sicher gegen X als auch fast sicher gegen Y konver- D P h.Xn / .B/:
giert. Da der fast sichere Grenzwert mit Wahrscheinlichkeit eins
eindeutig bestimmt ist, folgt die Behauptung. Eine andere Be-
weismöglichkeit besteht darin, die aus der Dreiecksungleichung Antwort 8 Weil die Menge der Stetigkeitsstellen in R dicht
folgende Abschätzung liegt.
P .jX  Y j > 2"/  P .jXn  X j > "/ C P .jXn  Y j > "/
Antwort 9 Es ist der Satz von der dominierten Konvergenz. Die
zu verwenden. Da die rechte Seite für n ! 1 gegen null kon- Folge der in (6.29) definierten Zufallsvariablen n konvergiert
vergiert, folgt P .jX  Y j > 2"/ D 0 für jedes " > 0 und somit wegen der gleichmäßigen Stetigkeit von g 0 punktweise auf ˝
ebenfalls die Behauptung. gegen null, und sie ist betragsmäßig durch die integrierbare kon-
stante Funktion 2 supx2R jg 0 .x/j nach oben beschränkt. Ebenso
Antwort 3 Letztere erhält man für die Wahl g.t / D t 2 und argumentiert man für X12 n ; hier ist die integrierbare Majorante
X  EX anstelle von X . gleich 2X12 supx2R jg 0 .x/j.
Kapitel 6
Grundlagen der
7

Kapitel 7
Mathematischen Statistik –
vom Schätzen und Testen
Welche Eigenschaften
sollte ein guter Schätzer
besitzen?
Wie unterscheiden sich
Fehler erster und zweiter
Art eines Tests?
Welches Testproblem wird
durch den
Ein-Stichproben-t -Test
behandelt?
Was besagt das Lemma
von Neyman-Pearson?
Wie erhält man
nichtparametrische
Konfidenzbereiche für
Quantile?

7.1 Einführende Betrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . 230


7.2 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.3 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.4 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson . . . . . . . . . . 271
7.6 Elemente der nichtparametrischen Statistik . . . . . . . . . . . . . . . . 276
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 298

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 229
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_7
230 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

In diesem Kapitel lernen wir die wichtigsten Grundbegriffe und Beispiel (Bernoulli-Kette, Binomialverteilung) Ein
Kapitel 7

Konzepte der Mathematischen Statistik kennen. Hierzu gehören auch als Versuch bezeichneter stochastischer Vorgang mit den
die Begriffe statistisches Modell, Verteilungsannahme, Schätzer, beiden möglichen Ausgängen Erfolg/Treffer (1) und Misserfolg/
Maximum-Likelihood-Schätzmethode, Konfidenzbereich und statis- Niete (0) werde n-mal in unabhängiger Folge unter gleichen
tischer Test. Wünschenswerte Eigenschaften von Schätzern reeller Bedingungen durchgeführt. Wir modellieren diese bekannte Si-
Parameter sind eine kleine mittlere quadratische Abweichung und tuation durch unabhängige Zufallsvariablen X1 ; : : : ; Xn mit der
damit einhergehend Erwartungstreue sowie kleine Varianz. Bei Fol- gleichen Binomialverteilung Bin.1; #/. Dabei beschreibe Xj
gen von Schätzern kommen asymptotische Erwartungstreue und den Ausgang des j -ten Versuchs. Im Gegensatz zu früher se-
Konsistenz hinzu. Die Cramér-Rao-Ungleichung zeigt, dass die Va- hen wir die Erfolgswahrscheinlichkeit # realistischerweise als
rianz eines erwartungstreuen Schätzers in einem regulären statisti- unbekannt an. Diese veränderte Sichtweise drücken wir durch
schen Modell durch die Inverse der Fisher-Information nach unten den Buchstaben #, der in der schließenden Statistik ganz all-
beschränkt ist. gemein einen unbekannten Parameter bezeichnet, anstelle des
vertrauteren p aus.
Ein Konfidenzbereich ist ein Bereichsschätzverfahren. Dieses garan-
tiert, dass – ganz gleich, welcher unbekannte Parameter zugrunde Wenn # die wahre Erfolgswahrscheinlichkeit ist, tritt ein Daten-
liegt – eine zufallsabhängige Teilmenge des Parameterraums diesen n-Tupel x D .x1 ; : : : ; xn / aus Nullen und Einsen mit der
unbekannten Parameter mit einer vorgegebenen hohen Mindest- Wahrscheinlichkeit
wahrscheinlichkeit überdeckt. Mit dem Satz von Student erhält
man Konfidenzintervalle für den Erwartungswert einer Normalver- Y
n
P# .X D x/ D # xj .1  #/1xj
teilung bei unbekannter Varianz. Asymptotische Konfidenzbereiche
j D1
für große Stichprobenumfänge ergeben sich oft mithilfe Zentraler
Grenzwertsätze. auf. Dabei haben wir X WD .X1 ; : : : ; Xn / gesetzt und die
Mit einem statistischen Test prüft man eine Hypothese über einen Abhängigkeit der Verteilung von X von # durch Indizierung
unbekannten Parameter. Grundbegriffe im Zusammenhang mit sta- gekennzeichnet. Die Anzahl S WD X1 C : : : C Xn der Erfolge
tistischen Tests sind Hypothese und Alternative, kritischer Bereich, besitzt die Binomialverteilung Bin.n; #/. Es gilt also
Testgröße, Fehler erster und zweiter Art, Gütefunktion und Test zum !
Niveau ˛. Bei Folgen von Tests treten die Konzepte asymptotisches n k
P# .S D k/ D # .1  #/nk ; k D 0; : : : ; n; (7.1)
Niveau und Konsistenz auf. Mit dem Binomialtest, dem Ein- und k
Zwei-Stichproben-t -Test, dem F -Test für den Varianzquotienten,
dem exakten Test von Fisher und dem Chi-Quadrat-Anpassungstest wenn # die wahre Erfolgswahrscheinlichkeit ist.
lernen wir wichtige Testverfahren kennen.
Der springende Punkt ist nun, dass der stochastische Vorgang
Das Lemma von Neyman-Pearson zeigt, wie man mithilfe des Likeli- (wie z. B. der Wurf einer Reißzwecke, vgl. Abb. 2.2) n-mal
hoodquotienten optimale randomisierte Tests konstruiert, wenn ein durchgeführt wurde und sich insgesamt k Treffer ergaben. Was
Zwei-Alternativ-Problem vorliegt. Hieraus ergeben sich gleichmäßig kann man mit dieser Information über das unbekannte # aus-
beste einseitige Tests bei monotonem Dichtequotienten. sagen? Wie groß ist #, wenn etwa in 100 Versuchen 38 Treffer
auftreten?
Das Kapitel schließt mit einigen Grundbegriffen, Konzepten und
Resultaten der Nichtparametrischen Statistik. Hierzu gehören die Da die in (7.1) stehende Wahrscheinlichkeit bei gegebenem n
empirische Verteilungsfunktion, der Satz von Glivenko-Cantelli, die und k 2 f0; : : : ; ng für jedes # 2 .0; 1/ strikt positiv ist, müssen
nichtparametrische Schätzung von Quantilen, der Vorzeichentest wir die entmutigende Erkenntnis ziehen, dass bei 38 Erfolgen in
für den Median sowie der Wilcoxon-Rangsummentest als nichtpa- 100 Versuchen nur die triviale Antwort „es gilt 0 < # < 1“ mit
rametrisches Analogon zum Zwei-Stichproben-t -Test. Sicherheit richtig ist! Jede genauere Aussage über # kann prin-
zipiell falsch sein. Wir müssen uns also offenbar damit abfinden,
dass beim Schließen von Daten auf eine die Daten generierende
7.1 Einführende Betrachtungen Wahrscheinlichkeitsverteilung Fehler unvermeidlich sind. An-
dererseits werden wir etwa bei k Treffern in n Versuchen Werte
Mit diesem Abschnitt steigen wir in die Mathematische Statistik für # als „glaubwürdiger“ bzw. „unglaubwürdiger“ ansehen, für
ein. Im Gegensatz zur deskriptiven Statistik, die sich insbesonde- die die Wahrscheinlichkeit in (7.1) groß bzw. klein ist. Maxi-
re mit der Aufbereitung von Daten und der Angabe statistischer miert man P# .S D k/ als Funktion von #, so ergibt sich als
Maßzahlen beschäftigt (siehe z. B. [14], Kap. 5), fasst man in der Lösung der Wert
Mathematischen Statistik vorliegende Daten x als Realisierung
einer Zufallsvariablen X auf. Dabei zeichnet man für X aufgrund k
#D ;
der Rahmenbedingungen des stochastischen Vorgangs eine ge- n
wisse Klasse von Verteilungen aus, die man für möglich ansieht.
also die relative Trefferhäufigkeit (Aufgabe 7.15).
Innerhalb dieser Klasse sucht man dann nach einer Verteilung,
die die Daten in einem zu präzisierenden Sinn möglichst gut er- Dieser prinzipielle Ansatz, bei gewonnenen Daten deren Auf-
klärt. Das prinzipielle Ziel besteht darin, über die Daten hinaus tretenswahrscheinlichkeit in Abhängigkeit verschiedener, durch
Schlussfolgerungen zu ziehen. Die damit verbundenen grund- einen Parameter beschriebener stochastischer Modelle zu maxi-
sätzlichen Probleme lassen sich am besten anhand eines einfa- mieren, heißt Maximum-Likelihood-Schätzmethode. Man zeich-
chen wegweisenden Beispiels erläutern. net dann denjenigen Wert von #, der diese Funktion maximiert,
7.1 Einführende Betrachtungen 231

als glaubwürdigsten aus und nennt ihn Maximum-Likelihood- Im Gegensatz zur Wahrscheinlichkeitstheorie besteht der spe-
zifische Aspekt der Statistik darin, dass die Verteilung P von

Kapitel 7
Schätzwert für #. Offenbar sagt jedoch dieser Schätzwert
k=n nichts über den Schätzfehler k=n  # aus, da # unbe- X als nicht vollständig bekannt angesehen wird und aufgrund
kannt ist. Um hier Erkenntnisse zu gewinnen, müssen wir die einer Realisierung x von X eine Aussage über P getroffen
Verteilung der zufälligen relativen Trefferhäufigkeit S=n als werden soll. Dabei werden bei jedem konkreten Problem ge-
Schätz-Vorschrift (kurz: Schätzer) für # studieren, denn k ist wisse Kenntnisse hinsichtlich der Rahmenbedingungen eines
ja eine Realisierung der Zufallsvariablen S. Wir werden z. B. in stochastischen Vorgangs vorhanden sein. Diese führen zu ei-
Abschn. 7.3 ein von n, S und einer gewählten Zahl ˛ 2 .0; 1/, ner Einschränkung der Menge aller möglichen Verteilungen von
aber nicht von # abhängendes zufälliges Intervall I konstruie- X und somit zur Auszeichnung einer speziellen Klasse P von
ren, das der Ungleichung überhaupt für möglich angesehenen Verteilungen von X über
.X ; B/, der sog. Verteilungsannahme. Dabei indiziert man die
P# .I 3 #/  1  ˛ für jedes # 2 Œ0; 1 Elemente P 2 P üblicherweise durch einen Parameter #. Es
gebe also eine bijektive Abbildung eines Parameterraums
genügt. Dabei wurde bewusst „I 3 #“ und nicht „# 2 I “ auf P , wobei das Bild von # unter dieser Abbildung mit P#
geschrieben, um den Gesichtspunkt hervorzuheben, dass das bezeichnet werde. Diese Betrachtungen münden in die folgende
zufällige Intervall I den unbekannten, aber nicht zufälligen Definition.
Parameter # enthält.
Nach diesen Überlegungen sollte auch klar sein, dass Fehler un-
Definition eines statistischen Modells
vermeidlich sind, wenn man aufgrund von x oder der daraus
abgeleiteten Trefferanzahl k eine Entscheidung darüber tref- Ein statistisches Modellist ein Tripel .X ; B; .P# /#2 /.
fen soll, ob # in einer vorgegebenen echten Teilmenge 0 von Dabei sind
WD .0; 1/ liegt oder nicht. Derartige Testprobleme werden in
Abschn. 7.4 behandelt. J X ¤ ; der Stichprobenraum,
B eine -Algebra über X ,
Mit diesem Hintergrund stellen wir jetzt den allgemeinen An- ¤ ; der Parameterraum,
satz der schließenden Statistik vor. Dieser Grundansatz betrach- P# ein Wahrscheinlichkeitsmaß auf B, # 2 ,
tet zufallsbehaftete Daten als Realisierung x einer Zufallsva- 3 # ! P# eine als Parametrisierung bezeichnete
riablen X . Somit ist x Funktionswert X .!/ einer auf einem injektive Abbildung.
Wahrscheinlichkeitsraum .˝; A; P / definierten Abbildung X ,
und man nennt x auch eine Stichprobe zur Zufallsvariablen X .
Der mit X bezeichnete Wertebereich von X heißt Stichproben- Kommentar Oft wird ein statistisches Modell auch statisti-
raum. Dabei ist X mit einer geeigneten -Algebra B versehen, scher Raum genannt. Offenbar unterscheidet sich ein solches
und X W ˝ ! X wird als .A; B/-messbar vorausgesetzt. Ist X Modell von einem Wahrscheinlichkeitsraum nur dadurch, dass
eine Borelsche Teilmenge eines Rn , so besteht B aus den Borel- anstelle eines Wahrscheinlichkeitsmaßes P jetzt eine ganze
schen Teilmengen von X . Familie .P# /#2 auftritt. Diese bildet den Modellrahmen für
weitere Betrachtungen. Der Statistiker nimmt an, dass eines
dieser Wahrscheinlichkeitsmaße P# die zufallsbehafteten Da-
Jedes Verfahren der Mathematischen Statistik ten x 2 X in dem Sinne „erzeugt hat“, dass x Realisierung
einer Zufallsvariablen X mit Verteilung P# ist. Da die Parame-
benutzt Wahrscheinlichkeits-Modelle trisierung 3 # ! P# injektiv ist, gibt es also genau einen
„wahren“ Parameter #, der über die Verteilung P# das Auftreten
Gilt X  Rn , so ist X D .X1 ; : : : ; Xn / ein n-dimensionaler Zu-
der möglichen Realisierungen von X „steuert“. Das Ziel besteht
fallsvektor mit Komponenten X1 ; : : : ; Xn . Sind X1 ; : : : ; Xn un-
darin, aufgrund von x eine Aussage über # zu machen. Eine sol-
abhängig und identisch verteilt, so nennt man x D .x1 ; : : : ; xn /
eine Stichprobe vom Umfang n. che Aussage kann in Form eines Schätzwertes b #.x/ 2 oder
eines Schätzbereiches C .x/  geschehen. Manchmal kann
Bei Fragestellungen der schließenden Statistik interessiert man auch ein Testproblem in Form einer Zerlegung D 0 C 1
sich für die durch P X .B/ WD P .X 1.B//, B 2 B, definierte des Parameterraums in zwei nichtleere disjunkte Teilmengen 0
Verteilung P X von X ; wie schon früher bleibt der zugrun- und 1 vorliegen, wobei entschieden werden soll, ob der wahre
de liegende Wahrscheinlichkeitsraum .˝; A; P / auch hier im Parameter in 0 oder in 1 liegt. J
Hintergrund. Wir werden oft stillschweigend die kanonische
Konstruktion Video 7.1 Statistik: Grundprobleme am Beispiel der Binomial-
verteilung
˝ WD X ; A WD B; X WD id˝

verwenden und dann vom Wahrscheinlichkeitsraum .X ; B; P X /


ausgehen, siehe auch (2.8). In diesem Fall schreiben wir für P X
häufig P und für P X .B/ auch P .X 2 B/, B 2 B.
232 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Hintergrund und Ausblick: Ein kurzer Abriss der Geschichte der Statistik

Der Ursprung der Mathematischen Statistik ist die politische um begründete Schlüsse zu ziehen, ist somit nicht die Staa-
Arithmetik tenkunde, sondern die politische Arithmetik.
Oft assoziiert man mit Statistik Tabellen und grafische Dar-
Nachdem sich im 19. Jahrhundert der Gedanke durchgesetzt
stellungen und denkt vielleicht an Arbeitslosen-, Krebs- oder
hatte, dass der Wahrscheinlichkeitsbegriff wissenschaftlich
Kriminalitätsstatistiken. Der Gebrauch des Wortes Statis-
gesicherte Erkenntnisse durch geeignetes Auswerten von Da-
tik in solchen Zusammensetzungen spiegelt einen wichtigen
ten ermöglicht, entstand ab ca. 1900 die Mathematische
Teilaspekt der Statistik in Form der amtlichen Statistik wider.
Statistik. Obgleich es bis dahin schon diverse Techniken wie
Diese reicht bis ca. 3000 v. Chr. zurück, wo sie Unterlagen
etwa die Methode der kleinsten Quadrate oder den Satz von
für die Planung des Pyramidenbaus bildete und Einwohner-
Bayes gab, existierte noch keine kohärente Theorie. Den Be-
sowie Standesregister und Grundsteuerkataster umfasste. Die
ginn einer solchen markierte ein Aufsatz von Karl Pearson
amtliche Statistik in Deutschland ist seit 1950 im Statis-
(1857–1936) im Jahr 1900, in dem der Chi-Quadrat-Test ein-
tischen Bundesamt in Wiesbaden sowie in 14 statistischen
geführt wurde. Weitere Meilensteine waren die Entdeckung
Landesämtern institutionalisiert.
der t -Verteilung durch William Sealy Gosset (1876–1937)
Der Ursprung des Wortes Statistik liegt im Staatswesen im Jahr 1908 sowie eine Arbeit von Sir Ronald Aylmer
(italienisch statista D Staatsmann). In diesem Sinn steht Sta- Fisher (1890–1962) im Jahr 1925, in der mit den Begrif-
tistik für eine Sammlung von Daten, z. B. über Bevölkerung fen Konsistenz, Suffizienz, Effizienz, Fisher-Information und
und Handel, die für einen Staatsmann von Interesse sind. Maximum-Likelihood-Schätzung die Grundlagen der Schätz-
Als Universitätsstatistik wurde die von Hermann Conring theorie gelegt wurden. Fisher war zudem der Urheber der
(1606–1681) begründete wissenschaftliche Staatskunde als statistischen Versuchsplanung und der Varianzanalyse. 1933
„Wissenschaft und Lehre von den Staatsmerkwürdigkeiten“ publizierten Jerzy Neyman (1894–1981) und Egon Sharpe
bezeichnet. Gottfried Achenwall (1719–1772) definierte Sta- Pearson (1895–1980) eine grundlegende Arbeit zum optima-
tistik im Sinne von Staatskunde. Der Gebrauch des Wortes len Testen, und 1950 wurde durch Abraham Wald (1902–
Statistik in dieser Bedeutung verschwand um 1800. 1950) eine Theorie optimaler statistischer Entscheidungen
begründet.
Einer der ersten, der sich – abgesehen von Astronomen
wie Tycho Brahe (1546–1601) und Johannes Kepler (1571–
Während lange ausschließlich spezielle parametrische Ver-
1630) – mit Fragen der Gewinnung von Erkenntnissen aus
teilungsannahmen (insbesondere die einer zugrunde liegen-
vorliegenden Daten beschäftigte und damit zusammen mit
den Normalverteilung) gemacht wurden, entstand ab ca.
(Sir) William Petty (1623–1687) in England die sog. poli-
1930 die Nichtparametrische Statistik. Seit etwa 1960 wird
tische Arithmetik etablierte, war John Graunt (1620–1674),
die Entwicklung der Statistik maßgeblich von immer schnel-
der als Begründer der Biometrie und der Bevölkerungsstatis-
leren Computern bestimmt. Waren es zunächst Fragen der
tik gilt. Petty führte statistische Methoden in die politische
Robustheit von Verfahren gegenüber Abweichungen von
Ökonomie ein. Ein weiterer Vertreter der politischen Arith-
Modellannahmen, so kam später verstärkt der Aspekt hinzu,
metik war Edmond Halley (1656–1742). Mit der Erstellung
sich weiteren Anwendungen zu öffnen und „Daten für sich
der Sterbetafeln der Stadt Breslau 1693 war er ein Pionier der
selbst sprechen zu lassen“, also explorative Datenanalyse zu
Sozialstatistik. In Deutschland wurde die politische Arith-
betreiben. Auch die Bootstrap-Verfahren, die die beobach-
metik vor allem durch Johann Peter Süßmilch (1707–1767)
teten Daten für weitere Simulationen verwenden, um etwa
vertreten.
die Verteilung einer komplizierten Teststatistik zu approxi-
Ab ca. 1800 begann man, die mit der politischen Arithmetik mieren, wären ohne leistungsfähige Computer undenkbar.
verbundene Herangehensweise, nämlich Erkenntnisgewinn Aufgrund fast explosionsartig ansteigender Speicherkapazi-
aus der Analyse von Daten zu ziehen, als Statistik zu be- täten und Rechengeschwindigkeiten ist aus der explorativen
zeichnen. Auf der britischen Insel, wo ca. 100 Jahre später Datenanalyse mittlerweile ein data mining geworden, al-
die Mathematische Statistik ihren Ausgang nahm, war Sir so eine Kunst, aus einem Berg an Daten etwas Wertvolles
John Sinclair of Ulbster (1754–1835) der erste, der in seiner zu extrahieren. Als weiterführende Literatur zur Geschich-
Abhandlung Statistical Account of Scotland drawn up from te der Statistik seien u. a. [8], [12] und [13] empfohlen.
the communications of the ministers of the different parishes Der Aufsatz [8] thematisiert die Bedeutung der Statistik im
(1791–1799) das Wort Statistik in diesem Sinn verwende- Zusammenhang mit dem von vielen Wissenschaftsorganisa-
te. Der Ursprung der Statistik als eigenständige Wissenschaft tionen getragenen Aufruf, das Jahr 2013 zum Internationalen
von der Gewinnung, Analyse und Interpretation von Daten, Jahr der Statistik zu erklären.
7.1 Einführende Betrachtungen 233

Beispiel (Bernoulli-Kette, Binomialfall) Die Situation Θ


• ϑ3

Kapitel 7
des Eingangsbeispiels zu diesem Abschnitt wird durch das sta- • ϑ1 • ϑ2
tistische Modell .X ; B; .P# /#2 / mit X WD f0; 1gn , B WD
P .X /, WD Œ0; 1 und
fϑ2 fϑ3
Y
n fϑ1
P# .X D x/ D xj
# .1  #/ 1xj

j D1

beschrieben. Im Laufe dieses Beispiels sind wir vom Zufalls-


vektor X D .X1 ; : : : ; Xn / zu der davon abgeleiteten Trefferan-
zahl S D X1 C : : : C Xn übergegangen. Will man statistische x
Entscheidungen über # auf Realisierungen von S gründen,
so liegt das statistische Modell .X ; B; .P# /#2 / mit X WD Abb. 7.1 # steuert das Auftreten von Daten (hier in Form unterschied-
f0; 1; : : : ; ng, B WD P .X /, WD Œ0; 1 und licher Dichten)

!
n k gegeben. Die Verteilung P# von X WD .X1 ; : : : ; Xn / ist festge-
P# .S D k/ D # .1  #/nk ; k D 0; : : : ; n;
k legt durch die gemeinsame Dichte

vor. J n 
Y  
1 .xj  /2
f .x; #/ D p exp 
j D1
 2 2 2
Beispiel (Qualitätskontrolle) Eine Warensendung vom 0 1
 n Xn
Umfang N enthalte # defekte und N  # intakte Einheiten, 1 1
wobei # unbekannt ist. In der statistischen Qualitätskontrolle D p exp @ 2 .xj  / A
2
 2 2 j D1
entnimmt man der Sendung eine rein zufällige Stichprobe (Teil-
menge) vom Umfang n, um hieraus den Ausschussanteil #=N
in der Sendung zu schätzen. Wir setzen Xj WD 1 bzw. Xj WD 0, von X1 ; : : : ; Xn . Hierbei ist x D .x1 ; : : : ; xn / 2 X WD Rn . J
falls das j -te entnommene Exemplar bei einer solchen Stich-
probenentnahme (Ziehen ohne Zurücklegen) defekt bzw. intakt In jedem dieser Beispiele könnte die Fragestellung darin be-
ist. Wie im vorigen Beispiel kann auch hier X D f0; 1gn ge- stehen, den unbekannten wahren Parameter # aufgrund der
wählt werden. Im Gegensatz zu oben sind X1 ; : : : ; Xn zwar je Daten x 2 X zu schätzen. Abb. 7.1 verdeutlicht im Fall X D R
binomialverteilt Xj Bin.1; #=N /, jedoch nicht mehr sto- ein schon im Eingangsbeispiel beobachtetes prinzipielles Prob-
chastisch unabhängig. Setzen wir WD f0; 1; : : : ; N g, X WD lem. In der Abbildung entsprechen verschiedenen Werten von #
.X1 ; : : : ; Xn /, so gilt mit der Abkürzung k WD x1 C : : : C xn für unterschiedliche Dichten f# ./ D f .; #/. Das Wahrscheinlich-
jedes x D .x1 ; : : : ; xn / 2 X keitsmaß P# besitzt also eine (Lebesgue-)Dichte f# .
Üblicherweise ist für ein beobachtetes x für jedes # 2 die
Y
k1
# j Y N # j
nk1
Ungleichung f# .x/ > 0 erfüllt. Bei stetigen Dichten gilt dann
P# .X D x/ D  : P# .Œx  "; x C "/ > 0, # 2 , für jedes noch so kleine " > 0,
j D0
N  j j D0 N  k  j
was bedeutet, dass für den wahren Parameter # nur die triviale
Aussage „es gilt # 2 “ mit Sicherheit richtig ist. Nicht ganz so
Dabei wurden die erste Pfadregel und die Kommutativität der extrem ist die Situation im Beispiel der statistischen Qualitäts-
Multiplikation verwendet. J kontrolle. Hat man aber etwa aus einer Sendung mit k D 10 000
Einheiten eine Stichprobe vom Umfang n D 50 entnommen und
Beispiel (Wiederholte Messung) Eine physikalische in dieser genau ein defektes Exemplar gefunden, so kann man
Größe werde n-mal unter gleichen, sich gegenseitig nicht be- mit Sicherheit nur schließen, dass die Sendung mindestens ein
einflussenden Bedingungen fehlerbehaftet gemessen. Wir mo- defektes und höchstens 9 951 defekte Exemplare enthält.
dellieren diese Situation durch unabhängige Zufallsvariablen Wie diese Beispiele zeigen, können i. Allg. Daten durch meh-
X1 ; : : : ; Xn mit gleicher Normalverteilung N.;  2 /. Dabei ste- rere Werte von # über die Verteilung P# erzeugt worden sein.
hen  für den unbekannten wahren Wert der physikalischen Es kann also nur darum gehen, Wahrscheinlichkeiten für fal-
Größe (z. B. die Zeit, die eine Kugel benötigt, eine Rampe hin- sche Aussagen über den wahren Parameter klein zu halten. Man
unterzurollen) und die Varianz  2 für die Ungenauigkeit des beachte, dass solche Wahrscheinlichkeiten wiederum vom un-
Messverfahrens. Die Realisierungen der Xj sind die Messergeb- bekannten Wert # über die Wahrscheinlichkeitsverteilung P#
nisse. abhängen.
In diesem Fall ist der Parameterraum eines statistischen Modells Da erst durch Festlegung von # in einem statistischen Modell
durch Wahrscheinlichkeitsaussagen möglich sind, wird dieser Para-
meter auch bei Erwartungswerten, Varianzen o. Ä. als Index
WD f# D .;  2 / j  2 R;  2 > 0g angebracht; man schreibt also für eine messbare reellwertige
234 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Funktion g auf dem Stichprobenraum, für die die auftretenden zwanglos durch einen endlich-dimensionalen Parameter be-
Kapitel 7

Kenngrößen existieren, schreiben lässt, ist prinzipiell näher an der Wirklichkeit, weil sie
kein enges Rahmen-Korsett spezifiziert, sondern in den getrof-
E# g.X /; V# g.X / fenen Annahmen viel schwächer bleibt. So ist etwa die Existenz
einer Dichte eine schwache Voraussetzung in einer Situation, in
für den Erwartungswert bzw. die Varianz von g.X / unter der
der eine hohe Messgenauigkeit vorliegt und gleiche Datenwer-
Verteilung P# .
te kaum vorkommen. Bei einer derartigen nichtparametrischen
In der Folge werden wir statistische Modelle betrachten, bei de- Verteilungsannahme interessiert man sich meist für eine reelle
nen wie in den obigen Beispielen entweder diskrete oder stetige Kenngröße der durch die Dichte f1 gegebenen Verteilung von
Verteilungen auftreten. Konzeptionell besteht hier kein Unter- X1 wie etwa den Erwartungswert oder den Median. Wir wer-
schied, wenn man eine diskrete Verteilung als Verteilung mit den in Abschn. 7.6 einige Methoden der Nichtparametrischen
einer Zähldichte P# .X D x/ bzgl. eines geeigneten Zähl-Maßes Statistik kennenlernen.
ansieht. Zudem behandeln wir meist statistische Modelle, bei
denen X D .X1 ; : : : ; Xn / mit unabhängigen und identisch
verteilten Zufallsvariablen X1 ; : : : ; Xn gilt. Dabei besitzt X1 7.2 Punktschätzung
entweder eine Lebesgue-Dichte f1 .t ; #/ oder eine diskrete Ver-
teilung. Im letzteren Fall setzen wir Es sei .X ; B; .P# /#2 / ein parametrisches statistisches Modell
mit  Rd . Wir stellen uns die Aufgabe, aufgrund einer Rea-
f1 .t ; #/ WD P# .X1 D t /; lisierung x 2 X der Zufallsvariablen X einen möglichst guten
verwenden also die gleiche Schreibweise. Näherungswert für # anzugeben. Da x vor Beobachtung des
Zufallsvorgangs nicht bekannt ist, muss ein Schätzverfahren je-
dem x 2 X einen mit T .x/ bezeichneten Schätzwert für #
zuordnen und somit eine auf X definierte Abbildung sein. Ei-
Es gibt parametrische und nichtparametrische ne solche bezeichnet man in der Mathematischen Statistik ganz
statistische Modelle allgemein als Stichprobenfunktion oder Statistik. Ist # wie et-
wa im Beispiel der wiederholten Messung mehrdimensional, so
Bevor wir uns Schätzproblemen zuwenden, sei noch auf eine ist häufig nur ein niederdimensionaler (meist eindimensionaler)
Grob-Klassifikation statistischer Modelle in parametrische und Aspekt von # von Belang, der durch eine Funktion  W ! R`
nichtparametrische Modelle hingewiesen. In den obigen Bei- mit `  d beschrieben ist. So interessiert im Fall der Nor-
spielen gilt stets  Rd für ein d  1. Man könnte weitere malverteilung mit # D .;  2 / häufig nur der Erwartungswert
solche Beispiele angeben, indem man – die Unabhängigkeit und  DW .#/; die unbekannte Varianz wird dann als sog. Störpa-
identische Verteilung von X1 ; : : : ; Xn unterstellt – irgendeine rameter angesehen.
andere, durch einen endlich-dimensionalen Parameter beschrie-
bene Verteilungs-Klasse für X1 wählt. Diese könnte z. B. sein:
die Poisson-Verteilungen Po.#/, # 2 WD .0; 1/, Definition eines (Punkt-)Schätzers
die Exponentialverteilungen Exp. /, # 2 WD .0; 1/, Es seien .X ; B; .P# /#2 / ein parametrisches statistisches
die Klasse der Gammaverteilungen G.˛; /, wobei # WD Modell mit  Rd und  W ! R` .
.˛; / 2 WD .0; 1/2 ,
die Klasse der Weibull-Verteilungen Wei.˛; /, wobei # WD Ein (Punkt-)Schätzer für .# / ist eine messbare Abbil-
.˛; / 2 WD .0; 1/2 . dung T W X ! R` . Für x 2 X heißt T .x/ Schätzwert
für .# / zur Beobachtung x.
In derartigen Fällen spricht man von einem parametrischen
statistischen Modell. Ein solches liegt vor, wenn der Parame-
terraum für ein d  1 Teilmenge des Rd ist; andernfalls ist
das statistische Modell nichtparametrisch. Ein solches Modell Kommentar
ergibt sich z. B., wenn man – wiederum unter Annahme der Un- Das optionale Präfix Punkt- rührt daher, dass die Schätzwerte
abhängigkeit und identischen Verteilung von X1 ; : : : ; Xn – nur T .x/ einzelne Werte und damit „Punkte“ im R` sind. Offen-
voraussetzt, dass X1 irgendeine, auf dem Bereich ff1 > 0g D bar wird bei der obigen Definition zugelassen, dass Werte
ft 2 R j f1 .t / > 0g stetige Lebesgue-Dichte f1 besitzt. Da diese T .x/ 2 R` n . / auftreten können, wenn . / echte Teil-
Dichte die Verteilung von X WD .X1 ; : : : ; Xn / über die Produkt- menge des R` ist. Ist etwa im Beispiel Bernoulli-Kette der
Dichte Parameterraum das offene Intervall .0; 1/, weil aus guten
f1 .x1 /  : : :  f1 .xn /; .x1 ; : : : ; xn / 2 Rn ; Gründen die extremen Werte # D 0 und # D 1 ausgeschlos-
sen werden können, so kann die durch
festlegt, können wir sie formal als Parameter ansehen. Der Pa-
rameterraum ist dann die Menge aller Lebesgue-Dichten f1 , 1
T .x/ WD .x1 C : : : C xn /
die auf ihrem Positivitätsbereich ff1 > 0g stetig sind. n
Eine solche nichtparametrische Verteilungsannahme, bei der definierte relative Trefferhäufigkeit als Schätzer T W X ! R
sich die Menge der für möglich erachteten Verteilungen nicht für .#/ WD # auch die Werte 0 und 1 annehmen.
7.2 Punktschätzung 235

Die obige sehr allgemein gehaltene Definition lässt offenbar 0.1 (T10 = t), 0.7 (T10 = t),
0.4 0.4

Kapitel 7
auch Schätzer für .#/ zu, die kaum sinnvoll sind. So ist es
z. B. möglich, ein festes #0 2 zu wählen und 0.3 0.3

0.2 0.2
T .x/ WD .#0 /; x 2 X;
0.1 0.1
zu setzen. Dieser Schätzer ist vollkommen daten-ignorant. t t
Eine der Aufgaben der Mathematischen Statistik besteht da- 0 0.5 1 0.5 1
0.1 (T20 = t), 0.7 (T20 = t),
rin, Kriterien für die Qualität von Schätzern zu entwickeln 0.4 0.4
und Prinzipien für die Konstruktion guter Schätzer bereit- 0.3 0.3
zustellen. Dabei ist grundsätzlich zu beachten, dass jede
0.2 0.2
Aussage über #, die sich auf zufällige Daten, nämlich ei-
ne Realisierung x der Zufallsvariablen X stützt, falsch sein 0.1 0.1
kann. Da # über die Verteilung P# von X den Zufallscharak-
t t
ter der Realisierung x 2 X „steuert“, ist ja auch der Schätzer 0 0.5 1 0 0.5 1
T für .#/ als Zufallsvariable auf X mit Werten in R` und 0.1 (T50 = t), 0.7 (T50 = t),
0.4 0.4
einer von # abhängenden Verteilung P#T auf B` anzusehen.
Wir können von einem guten Schätzer T also nur erhoffen, 0.3 0.3
dass dessen Verteilung P#T für jedes # 2 in einem zu prä- 0.2 0.2
zisierenden Sinne stark um den Wert .#/ konzentriert ist. J 0.1 0.1

t t
Beispiel (Binomialfall, relative Trefferhäufigkeit) Um 0 0.5 1 0 0.5 1
diesen letzten Punkt zu verdeutlichen, betrachten wir wieder
Abb. 7.2 Verteilungen der relativen Trefferhäufigkeit für # D 0:1 und
die Situation einer Bernoulli-Kette der Länge n mit unbe-
# D 0:7 und verschiedene Werte von n
kannter Trefferwahrscheinlichkeit #, also unabhängige und je
Bin.1; #/-verteilte Zufallsvariablen X1 ; : : : ; Xn , wobei # 2
WD Œ0; 1, und als Schätzer Tn D Tn .X1 ; : : : ; Xn / für # die Mit (7.2) und (7.3) folgt aus der Tschebyschow-Ungleichung
zufällige relative Trefferhäufigkeit
lim P# .jTn  #j > "/ D 0 8" > 0: (7.4)
n!1
1 X
n
Tn WD Xj : Diese Eigenschaft wird später Konsistenz der Schätzfolge .Tn /
n j D1 für # genannt werden. Hierbei betrachtet man .Tn / als eine
Folge von Schätzern für #, wobei unabhängige und identisch
Mit Rechenregeln für Erwartungswert und Varianz sowie Xj Bin.1; #/-verteilte Zufallsvariablen X1 ; X2 ; : : : auf einem ge-
Bin.1; #/ gelten für jedes (unbekannte) # 2 meinsamen Wahrscheinlichkeitsraum zugrunde gelegt werden.
Für jedes n ist dann Tn wie oben eine Funktion von X1 ; : : : ; Xn .
E# .Tn / D #; (7.2) J
#.1  #/
V# .Tn / D : (7.3) Wir wollen jetzt die wichtigsten wünschenswerten Eigenschaf-
n
ten für Schätzer formulieren und danach zwei grundlegende
Man beachte, dass Tn eine Zufallsvariable ist, die unter Schätzverfahren vorstellen.
dem wahren Parameter # die möglichen Werte k=n, k 2 Für die folgende Definition legen wir ein parametrisches statis-
f0; 1; : : : ; ng mit den Wahrscheinlichkeiten tisches Modell .X ; B; .P# /#2 / mit  Rd sowie eine reelle
  ! Funktion  W ! R zu Grunde. Zu schätzen sei also ein reel-
k n k
P# Tn D D # .1  #/nk ler Aspekt eines möglicherweise vektorwertigen Parameters #.
n k Wir setzen weiter stillschweigend voraus, dass alle auftretenden
Erwartungswerte existieren.
annimmt. Diese mit dem Faktor 1=n skalierte Binomialver-
teilung Bin.n; #/ ist die Verteilung des Schätzers Tn (kurz:
Schätz-Verteilung von Tn ) unter P# , siehe Abb. 7.2 für # D 0:1 Definition
und # D 0:7 sowie n 2 f10; 20; 50g.
Es sei T W X ! R ein Schätzer für .#/.
Beziehung (7.2) besagt, dass der Erwartungswert E# .Tn / als
MQAT .#/ WD E# .T  .#//2 heißt mittlere quadra-
physikalischer Schwerpunkt der Schätzverteilung von Tn gleich
tische Abweichung von T (an der Stelle # ).
# ist, und zwar unabhängig vom konkreten Wert dieses un-
T heißt erwartungstreu (für .# )), falls gilt:
bekannten Parameters. Ein solcher Schätzer wird das Attribut
erwartungstreu erhalten, s. u. Gleichung (7.3) beinhaltet den E# .T / D .#/ 8# 2 :
Stichprobenumfang n. Wie nicht anders zu erwarten, wird bei
größerem n, also immer breiterer Datenbasis, die Varianz der bT .#/ WD E# .T /  .#/ heißt Verzerrung von T (an
Schätzverteilung kleiner und damit die Schätzung genauer, vgl. der Stelle # ).
Abb. 7.2.
236 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Die mittlere quadratische Abweichung ist ein mathematisch be- schließt deshalb Schätzer wie das obige T0 aus, die eine zu star-
Kapitel 7

quemes Gütemaß für einen Schätzer, und man würde mit diesem ke Präferenz für spezielle Parameterwerte besitzen. Trotzdem
Maßstab einen Schätzer T e einem Schätzer T vorziehen, wenn sollten nicht nur erwartungstreue Schätzer in Betracht gezogen
MQAe T .#/  MQA T .#/ für jedes # 2 gelten würde, wenn werden. Es kann nämlich sein, dass für ein Schätzproblem über-
also Te gleichmäßig besser wäre als T . Unter allen denkbaren haupt kein erwartungstreuer Schätzer existiert (Aufgabe 7.37)
Schätzern für .#/ einen gleichmäßig besten finden zu wollen, oder dass ein erwartungstreuer Schätzer, von anderen Kriterien
ist aber ein hoffnungsloses Unterfangen, denn aufgrund der all- aus beurteilt, unsinnig sein kann.
gemeinen Gleichung V .Y / D E.Y 2 /  .EY /2 gilt In statistischen Modellen, bei denen Realisierungen eines Zu-
fallsvektors X D .X1 ; : : : ; Xn / mit unabhängigen und identisch
MQAT .#/ D V# .T / C bT .#/ :
2
verteilten Komponenten X1 ; : : : ; Xn beobachtet werden, liegt
es nahe, Eigenschaften von Schätzern in Abhängigkeit des
Die mittlere quadratische Abweichung setzt sich also additiv aus Stichprobenumfangs n zu studieren und hier insbesondere das
der Varianz des Schätzers und dem Quadrat seiner Verzerrung asymptotische Verhalten solcher Schätzer für n ! 1. Wir neh-
zusammen. Für den Schätzer T0  .#0 / mit einem festen Wert men hierfür an, dass für jedes n 2 N (oder zumindest für jedes
#0 2 gelten V# .T0 / D 0, bT0 .#/ D .#0 /  .#/ und somit genügend große n) die Funktion Tn W Xn ! R ein Schätzer für
.#/ sei. Hierbei ist Xn der Stichprobenraum für .X1 ; : : : ; Xn /.
MQAT0 .#/ D ..#0/  .#//2; # 2 : Man nennt dann .Tn /n1 eine Schätzfolge.

Auf Kosten der Verzerrung gibt es folglich stets (triviale) Schät-


zer mit verschwindender Varianz. Da #0 2 beliebig war Definition
und MQAT0 .#0 / D 0 gilt, müsste für einen gleichmäßig bes-
Eine Schätzfolge .Tn / für .#/ heißt
ten Schätzer T die Beziehung MQAT .#/ D 0 für jedes # 2
gelten, was nicht möglich ist. konsistent (für .#/), falls

lim P# .jTn  .#/j  "/ D 0 8" > 0 8# 2 ;


Beispiel (Binomialfall, n D 2) Die Zufallsvariablen X1 ; X2 n!1
seien unabhängig und je Bin.1; #/-verteilt. Die Schätzer T0 
0:6 DW #0 sowie T  WD X1 und T e WD .X1 C X2 /=2 für # asymptotisch erwartungstreu (für .#/), falls
besitzen die nachstehend gezeigten mittleren quadratischen Ab-
weichungen als Funktionen von #. lim E# .Tn / D .#/ 8 # 2 :
n!1

Offenbar ist der Schätzer e


T gleichmäßig besser als der nicht die
in X2 „steckende Information“ ausnutzende Schätzer T  . Der
datenignorante Schätzer T0 ist natürlich unschlagbar, wenn das Kommentar In dieser Definition wurde die Abhängigkeit
wahre # gleich #0 ist oder in unmittelbarer Nähe dazu liegt. J von P# und E# vom Stichprobenumfang n aus bezeichnungs-
technischen Gründen unterdrückt. Eine solche schwerfällige
Selbstfrage 1 Notation ist auch entbehrlich, da es einen Wahrscheinlich-
Können Sie die in Abb. 7.3 skizzierten Funktionen formal ange- keitsraum gibt, auf dem eine unendliche Folge unabhängi-
ben? ger und identisch verteilter Zufallsvariablen definiert ist, siehe
Abschn. 3.4. J

In der in Abschn. 6.1 eingeführten Terminologie bedeutet Kon-


Die Forderung der Erwartungstreue an einen Schätzer T für
sistenz einer Schätzfolge, dass für jedes # 2 die Folge .Tn /
.#/ besagt, dass für jedes # die Verteilung P#T von T un-
unter P# stochastisch gegen .#/ konvergiert. Diese Eigen-
ter # den physikalischen Schwerpunkt .#/ besitzen soll. Sie
schaft muss als Minimalforderung an eine Schätzfolge angese-
hen werden, da .#/ zumindest aus einer beliebig langen Serie
von Beobachtungsergebnissen immer genauer zu schätzen sein
0.4 MQAT0 (ϑ) sollte. Man beachte, dass nach (7.4) die relativen Trefferhäu-
MQAT ∗ (ϑ)
figkeiten bei wachsendem Stichprobenumfang eine konsistente
0.3
Schätzfolge für die unbekannte Trefferwahrscheinlichkeit in ei-
0.2 ner Bernoulli-Kette.
MQAT (ϑ)
0.1 Ganz allgemein ist eine asymptotisch erwartungstreue Schätz-
folge .Tn / für .#/ mit der Eigenschaft limn!1 V# .Tn / D 0,
ϑ0
ϑ # 2 , konsistent für .#/.
0 1

Abb. 7.3 Mittlere quadratische Abweichungen verschiedener Schätzer Selbstfrage 2


für eine Erfolgswahrscheinlichkeit Können Sie die obige Behauptung beweisen?
7.2 Punktschätzung 237

Kapitel 7
Unter der Lupe: Antworten auf heikle Fragen: Die Randomized-Response-Technik

Durch Randomisierung bleibt die Anonymität des Befragten lation rein zufällig entnommene Person Merkmalträger ist,
gewährleistet. also schon einmal Rauschgift genommen hat. Wir nehmen
X1 ; : : : ; Xn als unabhängige Zufallsvariablen an. Ist Ki das
Würden Sie die Frage „Haben Sie schon einmal Rauschgift
Ereignis, dass die (im Bild von links gesehen) i-te Karte ge-
genommen?“ ehrlich beantworten? Vermutlich nicht, und Sie
zogen wurde, so gelten P .Ki / D 1=3 .i D 1; 2; 3/ und
wären damit kaum allein. In der Tat ist bei solch heiklen Fra-
P .Xj D 1jK1/ D #, P .Xj D 1jK2/ D 1, P .Xj D 1jK3 / D
gen kaum eine offene Antwort zu erwarten. Helfen kann hier
0. Mit der Formel von der totalen Wahrscheinlichkeit folgt
die Randomized-Response-Technik, die in einfacher Form
wie folgt beschrieben werden kann: Dem Befragten werden
X
3
die drei im Bild zu sehenden Karten gezeigt. Nach gutem Mi- P# .Xj D 1/ D P# .Xi D 1jKi / P .Ki /
schen wählt er (wobei die Interviewerin nicht zusieht) eine i D1
Karte rein zufällig aus und beantwortet die darauf stehende
# C1
Frage mit Ja oder Nein. Dann mischt er die Karten, und die D :
Interviewerin wendet sich ihm wieder zu. Da eine Ja-Antwort 3
nicht ursächlich auf die heikle Frage zurückzuführen ist, ist P
Anonymität gewährleistet. Schreiben wir Rn D n1 jnD1 1fXj D 1g für den relati-
ven Anteil der Ja-Antworten unter n Befragten und setzen
b
# n WD 3Rn  1, so ergibt sich
Haben Sie Ist auf Ist auf
schon einmal dieser Karte dieser Karte E# Œb
# n  D 3E# .Rn /  1
Rauschgift eine Eins? eine Eins? D 3..# C 1/=3/  1
genommen?
1 D #:

b
# n ist also ein erwartungstreuer Schätzer für #. Es folgt
Zur Randomized-Response-Technik
V# .b
# n / D 9 V# .Rn /
Nehmen wir an, von 3 000 Befragten hätten 1 150 mit Ja 9
geantwortet. Jede Karte wurde von ca. 1 000 Befragten gezo- D V# .1fX1 D 1g/
n  
gen. Ca. 1 000 Ja-Antworten sind also auf die mittlere Karte 9 # C1 # C1
zurückzuführen, die übrigen 150 auf die linke. Da ca. 1 000- D 1
n 3 3
mal die linke Karte gezogen wurde, ist der Prozentsatz der
Merkmalträger ungefähr 15 %. 2 C #.1  #/
D :
n
Zur Modellierung setzen wir Xj WD 1 .0/, falls der j -te
Befragte mit Ja (Nein) antwortet (j D 1; : : : ; n). Weiter Die Varianz hat sich also im Vergleich zur Schätzung ohne
bezeichne # die Wahrscheinlichkeit, dass eine der Popu- Randomisierung (vgl. (7.3)) vergrößert, was zu erwarten war.

Die Maximum-Likelihood-Methode ist ein von Sir Ronald Ayl-


Maximum-Likelihood-Schätzung maximiert mer Fisher (1890–1962) eingeführtes allgemeines und sich
die Wahrscheinlichkeit(sdichte) f .x; # / intuitiv nahezu aufdrängendes Konstruktionsprinzip für Schät-
als Funktion von # zer. Die Idee besteht darin, bei vorliegenden Daten x 2 X die
Wahrscheinlichkeit bzw. Wahrscheinlichkeitsdichte f .x; #/ als
Im Fall einer Bernoulli-Kette ist die relative Trefferhäufig- Funktion von # zu betrachten und denjenigen Parameterwert
keit ein naheliegender Schätzer für eine unbekannte Treffer- # für den plausibelsten zu halten, welcher dem beobachte-
wahrscheinlichkeit. Das Problem gestaltet sich jedoch unter ten Ereignis fX D xg die größte Wahrscheinlichkeit bzw.
Umständen ungleich schwieriger, wenn nach der Angabe ei- Wahrscheinlichkeitsdichte verleiht (sog. Maximum-Likelihood-
nes „vernünftigen“ Schätzers für .#/ in einem komplizierten Schätzmethode).
statistischen Modell .X ; B; .P# /#2 / gefragt ist. Wir lernen Für die folgende Definition setzen wir ein statistisches Modell
jetzt mit der Maximum-Likelihood-Methode und der Momenten- .X ; B; .P# /#2 / mit  Rd voraus. Die Zufallsvariable X
methode zwei Schätzverfahren kennen, die unter allgemeinen (D idX ) besitze entweder für jedes # 2 eine Lebesgue-Dichte
Bedingungen zu Schätzern mit wünschenswerten Eigenschaften f .x; #/ oder für jedes # 2 eine Zähldichte f .x; #/ D
führen. P# .X D x/.
238 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Beispiel (Exponentialverteilung) Die Zufallsvariablen


Kapitel 7

Definition X1 ; : : : ; Xn seien unabhängig und je Exp.#/-verteilt, wobei # 2


WD .0; 1/ unbekannt sei. Die Lebesgue-Dichte von X1 unter
In obiger Situation heißen für x 2 X die Funktion P# ist
(
! R0 f1 .t ; #/ D # exp.#t /; falls t > 0;
Lx W
# ! Lx .#/ WD f .x; #/
und f1 .t ; #/ D 0 sonst. Wegen P# .X1 > 0/ D 1 für jedes #
wählen wir den Stichprobenraum X D fx D .x1 ; : : : ; xn / 2
Likelihood-Funktion zu x und jeder Wert b
#.x/ 2 mit Rn j x1 > 0; : : : ; xn > 0g. Für x 2 X ist dann die Likelihood-
Funktion Lx durch
Lx .b
#.x// D supfLx .#/ j # 2 g (7.5) 0 1
Yn X
n
ein Maximum-Likelihood-Schätzwert von # zu x. Eine Lx .#/ D f1 .xj ; #/ D # n exp @# xj A
messbare Abbildung b
# W X ! Rd mit (7.5) für jedes j D1 j D1
x 2 X heißt Maximum-Likelihood-Schätzer (kurz: ML-
Schätzer) für # . gegeben, und die Loglikelihood-Funktion lautet

X
n
log Lx .#/ D n log #  # xj :
Es wirkt gekünstelt, die Dichte bzw. Zähldichte f .x; #/ nur an- j D1
ders zu notieren und mit dem Etikett likelihood zu versehen. Die
Schreibweise Lx .#/ offenbart jedoch die für die Mathematische Nullsetzen der Ableitung dieser Funktion ergibt 0 D n=# 
P n
Statistik charakteristische Sichtweise, dass Daten x vorliegen j D1 xj und somit den ML-Schätzwert
und man innerhalb des gesteckten Modellrahmens nach einem
passenden, durch den Parameter # beschriebenen Modell sucht. b n 1
#.x/ D Pn D :
Was die Tragweite der ML-Schätzmethode betrifft, so existiert j D1 xj xn
in vielen statistischen Anwendungen ein eindeutig bestimm- Pn
Da die Ableitung n=#  j D1 xj
für hinreichend kleines # po-
ter ML-Schätzer b #, und er ist gewöhnlich ein „guter“ Schät-
zer für #. Häufig ist eine offene Teilmenge in Rd und sitiv ist, streng monoton fällt und für # > b #.x/ negativ wird,
f .x; #/ nach # differenzierbar, sodass man versuchen wird, liegt ein eindeutiges Maximum der Likelihood-Funktion vor.
einen ML-Schätzer durch Differenziation zu erhalten. Dabei Der ML-Schätzer b # n für den Parameter # der Exponentialver-
kann es zweckmäßig sein, statt Lx die sog. Loglikelihood- teilung ist also
Funktion log Lx zu betrachten, die wegen der Monotonie der
Logarithmus-Funktion ihr Maximum an der gleichen Stelle b n 1
# n D Pn D :
hat. Gilt nämlich X D .X1 ; : : : ; Xn / mit Zufallsvariablen j D1 Xj Xn
X1 ; : : : ; Xn , die unter P# unabhängig und identisch verteilt sind
und eine Dichte bzw. Zähldichte f1 .t ; #/, t 2 R, besitzen, so Dieser Schätzer ist nicht erwartungstreu. Die Schätzfolge
hat X die Dichte bzw. Zähldichte .b
# n /n1 ist asymptotisch erwartungstreu und konsistent für #,
vgl. Aufgabe 7.21. J
Y
n
f .x; #/ D f1 .xj ; #/; x D .x1 ; : : : ; xn / 2 Rn :
Im folgenden Beispiel kann man den ML-Schätzer nicht mit
j D1
Mitteln der Analysis erhalten, da der Parameterraum D N
eine diskrete Menge ist.
Somit ergibt sich für jedes x 2 Rn mit f .x; #/ > 0

X
n Beispiel (Das Taxi-Problem) In einer Urne befinden sich
log f .x; #/ D log f1 .xj ; #/: # gleichartige, von 1 bis # nummerierte Kugeln. Dabei sei
j D1 # 2 WD N unbekannt. Es werden rein zufällig und unabhän-
gig voneinander n Kugeln mit Zurücklegen gezogen. Bezeichnet
Differenziation nach #, also Bildung des Gradienten im Fall Xj die Nummer der j -ten gezogenen Kugel, so sind die Zu-
d > 1, liefert die sog. Loglikelihood-Gleichungen fallsvariablen X1 ; : : : ; Xn unabhängig und je gleichverteilt auf
f1; 2; : : : ; #g. Setzen wir X WD .X1 ; : : : ; Xn /, so liegt ein statis-
d
log f .x; #/ D 0 tisches Modell mit X D N n vor. Wegen P# .Xj D xj / D 1=#
d# für xj 2 f1; : : : ; #g und P# .Xj D xj / D 0 für xj > # gilt für
x D .x1 ; : : : ; xn / 2 X
als notwendige Bedingung für das Vorliegen eines Maximums.
( n
Diese Gleichung sind nur in den wenigsten Fällen explizit lös- 1
; falls max1j n xj  #;
bar, sodass numerische Verfahren eingesetzt werden müssen, Lx .#/ D P# .X D x/ D #
0 sonst.
siehe Aufgabe 7.25.
7.2 Punktschätzung 239
P
Offenbar wird Lx maximal, wenn b # n .x/ WD max1j n xj ge- x n D n1 jnD1 xj . Einsetzen von x n für  in Lx und Ma-

Kapitel 7
setzt wird. Der ML-Schätzer b
# n ist also ximierung des entstehenden Ausdrucks bzgl.  2 liefert nach
Logarithmieren und Bildung der Ableitung nach  2 mittels di-
P  2
b
# n WD max Xj : rekter Rechnung die Lösung  2 D n1 jnD1 xj  x n . J
1j n

Dieser unterschätzt den wahren Wert # systematisch und ist so- Achtung In der Literatur findet sich oft die Sprechweise „die
mit nicht erwartungstreu, denn für #  2 gilt ML-Schätzer für  und  2 der Normalverteilung sind

X
#  
1X
n
E# .b
# n/ D k P# max Xj D k b
n D X n ; bn2 D .Xj  X n /2 “:
1j n n j D1
kD1

X
#  
<# P# max Xj D k Wir schließen uns hier an, obwohl wir im Fall eines vektorwer-
1j n
kD1 tigen Parameters keine ML-Schätzung für einen reellwertigen
D #: Aspekt .#/ wie z. B. .#/ D  vorgenommen, sondern nur b n
und bn2 als Komponenten des ML-Schätzers b
# n für # D .;  2 /
Die Schätzfolge .b # n / ist jedoch asymptotisch erwartungstreu identifiziert haben.
und konsistent für #, s. Aufgabe 7.17. Ein erwartungstreuer Natürlich bietet sich ganz allgemein der aus einem ML-Schätzer
Schätzer für # ist b
# W X ! für # abgeleitete Schätzer

Tn .x/ D
b
# n .x/nC1  .b
b
# n .x/  1/nC1
# n .x/n  .b
# n .x/  1/n
; b
.#/ WD .b
#/;

vgl. Aufgabe 7.17. Dieser ist jedoch insofern unsinnig, als für .#/ an, wenn ein statistisches Modell .X ; B; .P# /#2 / mit
er nicht ganzzahlige Werte annimmt. So gilt etwa Tn .x/ D  Rd vorliegt und .#/ zu schätzen ist, wobei  W ! R` .
J
109:458 : : : für das Zahlenbeispiel n D 10, b
# n .x/ D 100.
Die hier beschriebene Situation ist als Taxi-Problem bekannt, Die folgenden Eigenschaften der ML-Schätzer für  und  2
wenn # als die unbekannte Anzahl von Taxis in einer großen und hier insbesondere die Unabhängigkeit von b n und bn2 sind
Stadt angesehen wird. Die Zufallsvariable Xj kann dann als grundlegend für statistische Verfahren, die als Verteilungsan-
Nummer des j -ten zufällig an einem Beobachter vorbeifahren- nahme eine Normalverteilung unterstellen.
den Taxis gedeutet werden. J

Beispiel (Normalverteilung) Es seien X1 ; : : : ; Xn un- n und bn2


Satz über Verteilungseigenschaften von b
abhängige Zufallsvariablen mit gleicher Normalverteilung
N.;  2 /, # WD .;  2 / sei unbekannt.
 Dann gilt: Der ML- Die Zufallsvariablen X1 ; : : : ; Xn seien unabhängig und je
b
Schätzer für .;  / ist # n WD b
2 b n und bn2 durch
n ; n , wobei b
2 N.;  2 /-normalverteilt. Dann sind

1X 1X
n n
1X 1 X bn2 D
n n
2 b
n D X n D Xj ; .Xj  X n /2
b
n WD X n WD Xj ; bn2 WD Xj  X n n j D1 n j D1
n j D1 n j D1
stochastisch unabhängig, und es gelten
gegeben sind.
 
Zum Nachweis dieser Behauptung betrachten wir die 2 n b2
X n N ; ;  2n1 : (7.6)
Likelihood-Funktion zu x D .x1 ; : : : ; xn /, also n 2 n
 
  Yn
1 .xj  /2
Lx ;  2 D p exp 
j D1
 2 2 2
0 1 Beweis Es sei Zj WD Xj   .j D 1; : : : ; n/ sowie Z WD
 n X n .Z1 ; : : : ; Zn /> . Wegen Zj N.0;  2 / und der Unabhängigkeit
 
1 1
D p exp @ 2 .xj  /2 A : von Z1 ; : : : ; Zn besitzt Z die Normalverteilung Nn 0;  2 In .
 2 2 j D1 Dabei bezeichnen 0 den Nullvektor in Rn und In die n-reihige
Einheitsmatrix. Es sei H D .hij /1i ;j n eine beliebige or-
Hier ist es bequem, die Maximierung in zwei Schritten durch- thogonale .n  n/-Matrix mit hnj D n1=2 , 1  j  n.
zuführen, und zwar zunächst bzgl.  bei festem  2 und danach Setzen wir Y WD .Y1 ; : : : ; Yn /> WD H Z, so hat Y wegen
bzgl.P 2 . Die erste Aufgabe führt auf die Minimierung der Sum- H H > D In nach dem Reproduktionsgesetz  für die
 Normal-
me jnD1 .xj  /2 bzgl. . Diese Aufgabe besitzt die Lösung verteilung in Abschn. 5.3 die Verteilung Nn 0;  2 In , und nach
240 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Aufgabe 5.26 sind Y1 ; : : : ; Yn stochastisch unabhängig. Die Or- Ist .Yn /n1 eine Folge unabhängiger und identisch verteilter
Kapitel 7

thogonalität von H und hnj  n1=2 liefern Zufallsvariablen auf einem Wahrscheinlichkeitsraum .˝; A; P /
mit existierendem Erwartungswert  WD E Y1 , so gilt nach die-
Y12 C    C Yn2 D Z12 C    C Zn2 ; sem Gesetz
1 X
n
p   1X
n
Yn D p Zj D n X n   lim Yj D  P -fast sicher:
n j D1 n!1 n
j D1
Pn
und folglich mit der Abkürzung Z n WD n1 j D1 Zj Die Folge der auch als Stichprobenmittel
P bezeichneten arithme-
tischen Mittel Y n D n1 jnD1 Yj konvergiert also P -f.s. und
X
n
 2 X
n
 2 X
n
2
damit auch stochastisch gegen den Erwartungswert der zugrun-
Xj  X n D Zj  Z n D Zj2  nZ n de liegenden Verteilung.
j D1 j D1 j D1
Ist nun X1 ; X2 ; : : : ; eine Folge unabhängiger und identisch ver-
X
n X
n1
teilter Zufallsvariablen mit EjX1 jd < 1 für ein d 2 N, existiert
D Yj2  Yn2 D Yj2 : also das d -te Moment von X1 , so konvergiert nach obigem Ge-
j D1 j D1 setz für jedes k 2 f1; : : : ; d g die Folge

Da bn2 und X n nur von Y1 ; : : : ; Yn1 bzw. Yn abhängen, sind sie 1X k


n

nach dem Blockungslemma stochastisch unabhängig. Die erste b


k;n WD X ; n  1;
n j D1 j
Aussage in (7.6) ergibt sich aus dem Additionsgesetz für die
Normalverteilung und dem oben zitierten Reproduktionsgesetz. der sog. k-ten Stichprobenmomente mit Wahrscheinlichkeit eins
Wegen (und damit auch stochastisch) für n ! 1 gegen das k-te Mo-
n1   ment k WD EX1k von X1 .
1 X 2 X
n
n b2 Yj 2
 D Xj  X n D
2 n  2 j D1 j D1
 Selbstfrage 3
Warum gilt im Fall d  2 die Konvergenz auch für k < d ?
mit  1 Yj N.0; 1/ folgt die zweite Aussage in (7.6) nach
Definition der 2n1 -Verteilung in Abschn. 5.4. 
Lässt sich also in einem statistischen Modell der unbekann-
te Parameter-Vektor # D .#1 ; : : : ; #d / durch die Momente
Da die 2n1 -Verteilung
den Erwartungswert n  1 besitzt, folgt 1 ; : : : ; d , ausdrücken, gibt es somit (auf einer geeigneten
aus der obigen Verteilungsaussage, dass b2 kein erwartungstreu-
n Teilmenge des Rd definierte) Funktionen h1 ; : : : ; hd mit
er Schätzer für  2 ist; es gilt
#1 D h1 .1 ; : : : ; d /;
  n1 2
E# bn2 D  : #2 D h2 .1 ; : : : ; d /;
n
::
:
Teilt man die Summe der Abweichungsquadrate .Xj  X n /2
nicht durch n, sondern durch n  1, so ergibt sich die sog. Stich- #d D hd .1 ; : : : ; d /;
probenvarianz
so ist der Momentenschätzer e # n für # durch e
#n WD
e e
.# 1;n ; : : : ; # d ;n / mit
1 X
n
Sn2 WD .Xj  X n /2 :
n  1 j D1 e 1;n ; : : : ; b
# k;n WD hk .b d ;n /

Diese ist ganz allgemein ein erwartungstreuer Schätzer für die definiert. Man ersetzt folglich zur Schätzung von #k D
unbekannte Varianz einer Verteilung, wenn X1 ; : : : ; Xn stochas- hk .1 ; : : : ; d / die j durch die entsprechenden Stichproben-
tisch unabhängige Zufallsvariablen mit dieser Verteilung sind momente b j ;n .
(Aufgabe 7.22).
Beispiel (Gammaverteilung) Die Zufallsvariablen
X1 ; : : : ; Xn seien unabhängig und je  .˛; /-verteilt, vgl.
Die Momentenmethode verwendet (5.55). Der Parameter # WD .˛; / 2 WD .0; 1/2 sei un-
Stichprobenmomente zur Schätzung bekannt. Nach (5.57) gilt
von Funktionen von Momenten  .˛ C 1/ ˛
1 D EX1 D D ;
 .˛/ 
Wir möchten jetzt mit der Momentenmethode ein zweites
 .˛ C 2/ ˛.˛ C 1/
Schätzprinzip vorstellen. Dieses ist unmittelbar einsichtig, wenn 2 D EX1 D 2
2
D ;
man an das starke Gesetz großer Zahlen von Kolmogorov denkt.   .˛/ 2
7.2 Punktschätzung 241

sodass mit #1 WD ˛ und #2 WD 

Kapitel 7
Definition eines regulären statistischen Modells
21 1
#1 D h1 .1 ; 2 / D ; #2 D h2 .1 ; 2 / D Ein statistisches Modell .X ; B; .P# /#2 / mit  R
2  21 2  21 heißt regulär, falls gilt:

folgt. Mit a) ist ein offenes Intervall.


b) Die Dichte f ist auf X  strikt positiv und für je-
des x 2 X nach # stetig differenzierbar. Insbesondere
1X 1X 2
n n
b
1;n D X n D Xj ; b
2;n D Xn2 WD X existiert dann die sog. Scorefunktion
n j D1 n j D1 j
d
d f .x; #/
U# .x/ WD log f .x; #/ D d# :
ergibt sich somit der Momentenschätzer e
# n D .#e1n ; #e2n / für # d# f .x; #/
zu
c) Für jedes # 2 gilt die Vertauschungsrelation
2
Xn Xn Z Z
#e1n D 2
; #e2n D 2
: d d
Xn2  Xn Xn2  X n f .x; #/ dx D f .x; #/ dx: (7.7)
d# d#

Im Gegensatz hierzu ist der ML-Schätzer für # nicht in explizi- d) Für jedes # 2 gilt
ter Form angebbar (Aufgabe 7.25). J
0 < If .#/ WD V# .U# / < 1: (7.8)
In manchen Fällen stimmen Momentenschätzer und ML-
Schätzer überein. So ist im Fall der Normalverteilung der Die Zahl If .#/ heißt Fisher-Information von f
ML-Schätzer b n D X n auch der Momentenschätzer für . Glei- bzgl. # .
ches trifft wegen

1X 1X 2
n n
Selbstfrage 4
bn2 D
2
.Xj  X n /2 D X  Xn Können Sie (unter den bislang aufgetretenen) ein nicht reguläres
n j D1 n j D1 j
statistisches Modell identifizieren?

für den ML-Schätzer für  2 zu. Auch im Fall der Exponential-


verteilung ist wegen E# X1 D 1=# der ML-Schätzer Kommentar Die Vertauschungsrelation (7.7) ist trivialer-
weise erfüllt, wenn eine diskrete Verteilungsfamilie vorliegt
b n 1 und X endlich ist. Andernfalls liefert der Satz über die Ablei-
# n D Pn D
j D1 Xj Xn tung eines Parameterintegrals in Abschn. 8.6 mit (8.37) eine
hinreichende
R Bedingung. Da die rechte Seite von (7.7) wegen
gleich dem Momentenschätzer für #. f .x; #/ dx D 1 verschwindet, ergibt sich
Z d
f.x; #/
E# .U# / D d#
f .x; #/ dx D 0
Die Fisher-Information ist die Varianz f .x; #/
der Scorefunktion und somit If .#/ D E# .U#2 /. J

Wir werden jetzt u. a. sehen, dass die Varianz eines erwartungs-


Beispiel (Bernoulli-Kette) Wir betrachten wie zu Be-
treuen Schätzers unter bestimmten Regularitätsvoraussetzungen
ginn dieses Abschnittes das statistische Modell .X ; B; .P# /#2 /
eine gewisse untere Schranke nicht unterschreiten kann. Hiermit
mit X WD f0; 1gn , B WD P .X /, WD .0; 1/ und
lässt sich manchmal zeigen, dass ein erwartungstreuer Schätzer
X D .X1 ; : : : ; Xn / WD idX mit unabhängigen und identisch
unter dem Kriterium der Varianz gleichmäßig bester Schät-
Bin.1; #/-verteilten Zufallsvariablen X1 ; : : : ; Xn . Es ist also
zer ist. Bei der folgenden Definition sei an die Schreibweise
f .x; #/ sowohl für eine Lebesgue-Dichte als auch für eine Y
n
Wahrscheinlichkeitsfunktion (Zähldichte) erinnert. Im letzteren P# .X D x/ D f .x; #/ D # xj .1  #/1xj :
Fall ist ein auftretendes Integral – das sich stets über den Stich- j D1
probenraum X erstreckt – durch eine entsprechende Summe zu
ersetzen. Ableitungen nach # werden mit dem gewöhnlichen Dieses Modell ist regulär, denn die Eigenschaften a) und b) sind
Differenziations-Zeichen d=d# geschrieben. wegen der Wahl von erfüllt, und c) gilt offensichtlich. Der
242 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Hintergrund und Ausblick: asymptotische Verteilung von ML-Schätzern


p
Unter Regularitätsvoraussetzungen ist der mit n multipli- dividiert und eine Taylorentwicklung von Un um den wahren
zierte Schätzfehler b
# n  # asymptotisch normalverteilt. Wert # vornimmt. Schreiben wir die Differenziation nach #
auch mit dem Differenziations-Strich, so folgt
Es seien X1 ; X2 ; : : : unabhängige Zufallsvariablen mit glei-
cher Dichte oder Zähldichte f1 .t ; #/, t 2 X  R, # 2 , 1 p 1
wobei für f1 die Voraussetzungen a) bis d) in der Definition 0 D p Un .#/ C n.b
# n  #/ Un0 .#/ C Rn .#/; (7.12)
n n
eines regulären statistischen Modells erfüllt sind. Insbeson-
dere gilt also (7.14). Der ML-Schätzer b # n für # genügt dann P#
der Loglikelihood-Gleichung wobei b
# n ! # und geeignete Annahmen an f1 garantieren,
P#
dass Rn .#/ ! 0 gilt. Wegen
0 D Un .b
# n /: (7.9)
1 X d2
n
1 0
Dabei ist Un .#/ D log f1 .Xj ; #/
n n j D1 d# 2
X n
d
Un .#/ WD log f1 .Xj ; #/
j D1
d# gilt nach dem starken Gesetz großer Zahlen
 
eine Summe unabhängiger identisch verteilter Zufallsvaria- 1 0 d2
lim U .#/ D E# log f1 .X1 ; #/ P# -f.s.
blen mit Erwartungswert 0 und Varianz If1 .#/. Nach dem n!1 n n d# 2
Zentralen Grenzwertsatz von Lindeberg-Lévy gilt also für je-
des # 2 Da die rechte Seite gleich
1 D#   Z
p Un .#/ ! N 0; If1 .#/ für n ! 1: (7.10) f100 .t ; #/f1 .t ; #/  f10 .t ; #/2
n f1 .t ; #/dt
f1 .t ; #/2
X
Dabei haben wir # als Index an das Symbol für Vertei- Z Z  2
lungskonvergenz geschrieben und werden Gleiches auch bei d
D f100 .t ; #/dt  log f1 .t ; #/ f1 .t ; #/dt
der stochastischen Konvergenz tun. Wir nehmen an, dass d#
X X
P#
b
# n ! # gilt, dass also die Folge der ML-Schätzer kon- D 0  If1 .#/
sistent für # ist. Unter gewissen weiteren Voraussetzungen
an f1 ist dann die Folge .b# n / asymptotisch normalverteilt. ist, erhält man aus (7.12) die Darstellung
Genauer gilt
  p 1 1
p   D 1 n.b
# n  #/ D en .#/
p Un .#/ C R
n b
#
# n  # ! N 0; ; # 2 ; (7.11) If1 .#/ n
If1 .#/
P#
siehe z. B. [11]. Man gelangt relativ schnell zu diesem Ergeb- en .#/ ! 0. Die Asymptotik (7.11) folgt nun aus (7.10)
mit R
p
nis, wenn man beide Seiten der Gleichung (7.9) durch n und dem Lemma von Sluzki.

Nachweis von d) ergibt sich mit ist, folgt mit (7.8)


n
X
n
  If .#/ D V# .U# .X // D ; (7.13)
log f .X ; #/ D Xj log # C .1  Xj / log.1  #/ ; #.1  #/
j D1 sodass auch d) erfüllt ist. J
X n  
d Xj 1  Xj
U# .X / D log f .X ; #/ D 
d# # 1# Kommentar Warum heißt If .#/ Fisher-Information? Die
j D1
Ableitung
X n
Xj  #
D : ˇ d
f .x; #/ ˇˇ
#.1  #/ d ˇ
j D1 log f .x; #/ˇ D d# ˇ
d# #D#0 f .x; #/ #D#0

Wegen Xj Bin.1; #/ gilt V# .Xj / D #.1  #/. Da die Vari- kann als lokale Änderungsrate der Dichte f .x; #/ an der Stel-
anzbildung bei Summen unabhängiger Zufallsvariablen additiv le # D #0 , bezogen auf den Wert f .x; #0 /, angesehen werden.
7.2 Punktschätzung 243

Quadrieren wir diese lokale Änderungsrate und integrieren bzgl. Selbstfrage 5

Kapitel 7
der Dichte f .; #0 /, so ergibt sich If .#0 / als gemittelte Ver- Warum gilt die Gleichung (7.15)?
sion dieser Rate. Ist If .#0 / groß, so ändert sich die Verteilung
schnell, wenn wir von #0 zu Parameterwerten in der Nähe von
#0 übergehen. Wir sollten also in der Lage sein, den Parameter- Aus der Cauchy-Schwarz-Ungleichung erhält man unmittelbar
wert #0 gut zu schätzen. Ist umgekehrt If .#0 / klein, so wäre die die folgende, auf Harald Cramér (1893–1985) und Radhakrish-
Verteilung P#0 auch zu Verteilungen P# ähnlich, bei denen sich na Rao (*1920) zurückgehende Ungleichung.
# deutlicher von #0 unterscheidet. Es wäre dann schwieriger,
#0 zu schätzen. Wäre sogar If .#0 / D 0 für jedes # in einem
Cramér-Rao-Ungleichung
Teilintervall 0 von , so gälte
  Es seien .X ; B; .P# /#2 / ein reguläres statistisches Mo-
d dell und T W X ! R ein Schätzer für # mit E# jT j < 1,
P# log f .X ; #/ D 0 D 1; # 2 0 ;
d# # 2 , und
Z
da die Varianz von U# genau dann verschwindet, wenn U# mit d d
Wahrscheinlichkeit eins nur den Wert E# .U# / D 0 annimmt. E# T D T .x/ f .x; #/ dx: (7.16)
d# d#
Somit wäre die Dichte bzw. Zähldichte f .x; #/ für (fast) alle
x 2 X auf 0 konstant und keine Beobachtung könnte die Para- Dann folgt
2
meterwerte aus 0 unterscheiden. d
E .T /
d# #
V# .T /  ; # 2 : (7.17)
Ein weiteres Merkmal der Fisher-Information ist deren Additi- If .#/
vität im Fall unabhängiger Zufallsvariablen. Hierzu betrachten
wir ein statistisches Modell mit X D .X1 ; : : : ; Xn /, wobei die
Zufallsvariablen X1 ; : : : ; Xn unter P# unabhängig und identisch
verteilt sind. Besitzt X1 die Dichte oder Zähldichte f1 .t ; #/, Beweis Es sei o.B.d.A. V# .T / < 1. Die Cauchy-Schwarz-
t 2 X1  R, und sind die obigen Regularitätsvoraussetzungen Ungleichung und (7.8) liefern
a) bis d) für f1 erfüllt, gilt also insbesondere Cov# .U# ; T /2  V# .U# / V# .T / D If .#/ V# .T /:
Z  2 Wegen E# .U# / D 0 folgt
d
0 < If1 .#/ WD log f1 .t ; #/ f1 .t ; #/dt < 1 (7.14) Cov# .U# ; T / D E# .U# T /
d#
X1 Z  
d
D T .x/ log f .x; #/ f .x; #/ dx
für jedes # 2 , so gelten a) bis d) auch für die Dichte d#
Z
d
Y
n D T .x/ f .x; #/ dx
f .x; #/ WD f1 .xj ; #/; x D .x1 ; : : : ; xn / d#
j D1 d
D E# .T /: 
d#
von X D .X1 ; : : : ; Xn / auf X  , wobei X D X1  : : : 
X1 (n Faktoren). Wegen der Unabhängigkeit und identischen Kommentar Bedingung (7.16) ist eine Regularitätsbedin-
Verteilung von X1 ; : : : ; Xn folgt gung an den Schätzer T , die wie (7.7) eine Vertauschbarkeit
  von Differenziation und Integration bedeutet und bei endlichem
d
If .#/ D V# .U# / D V# log f .X ; #/ X trivialerweise erfüllt ist. Ist unter obigen Voraussetzungen
d# der Schätzer T erwartungstreu für #, so geht die Cramér-Rao-
0 1
X n
d Ungleichung in
D V# @ log f1 .Xj ; #/A 1
d# V# .T /  ; # 2 ;
j D1 If .#/
X
n  
d über. Je größer die Fisher-Information, desto kleiner kann al-
D V# log f1 .Xj ; #/ so die Varianz eines erwartungstreuen Schätzers werden. Liegen
j D1
d#
  wie in den in der Gleichung (7.15) resultierenden Ausführungen
d zur Additivität der Fisher-Information unabhängige und iden-
D n V# log f1 .X1 ; #/
d# tisch verteilte Zufallsvariablen X1 ; : : : ; Xn mit gleicher Dichte
oder Zähldichte f1 .t ; #/ vor, so gilt mit der in (7.14) einge-
und somit führten „Fisher-Information für eine Beobachtung“ If1 .#/ und
(7.15) für jeden auf X1 ; : : : ; Xn basierenden erwartungstreuen
If .#/ D n If1 .#/: (7.15) Schätzer Tn
1
Die Fisher-Information nimmt also proportional zur Anzahl n V# .Tn /  ; # 2 :
der Beobachtungen zu. Dieses Phänomen haben wir schon in nIf1 .#/
Gleichung (7.13) im Spezialfall einer Bernoulli-Kette der Länge Dabei haben wir den Stichprobenumfang n als Index an T
n kennengelernt. J kenntlich gemacht.
244 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Unter der Lupe: Wann tritt in der Cramér-Rao-Ungleichung das Gleichheitszeichen ein?

Nur für einparametrige Exponentialfamilien kann die untere aus Stetigkeitsgründen bei der folgenden Aussage auf ratio-
Schranke angenommen werden. nale # 2 beschränken kann:
Schreiben wir kurz .#/ WD E# .T /, so folgt mit a.#/ WD  ˇ T .x/  .#/

ˇ
0 .#/=If .#/ sowie If .#/ D V# .U# / und der im Be-  x 2 Xˇ ¤ U# .x/ für ein # 2 D 0:
a.#/
weis der Cramér-Rao-Ungleichung eingesehenen Gleichheit
Cov# .U# ; T / D 0 .#/ Für -fast alle x 2 X gilt also
0  V# .T  a.#/U# / D V# .T / C a.#/2V# .U# / d 1 .#/
log f .x; #/ D T .x/  :
 2a.#/Cov# .T ; U# / d# a.#/ a.#/
0 .#/2
D V# .T /  : Durch unbestimmte Integration über # folgt jetzt, dass für
If .#/ -fast alle x die Dichte f .x; #/ die Gestalt
Diese Abschätzung bestätigt nicht nur die Cramér-Rao-
f .x; #/ D b.#/ h.x/ eQ.#/T .x/ (7.18)
Ungleichung, sondern zeigt auch, dass in (7.17) genau dann
Gleichheit eintritt, wenn für jedes # 2 die Varianz
besitzen muss. Hier sind h W X ! .0; 1/ eine messbare
V# .T  a.#/U# / verschwindet, wenn also die Zufallsvaria-
Funktion, Q W R! R eine Stammfunktion von 1=a.#/ und
ble T  a.#/U# P# -fast sicher gleich ihrem Erwartungswert
b.#/ eine durch f .x; #/ dx D 1 bestimmte Normierungs-
.#/ ist oder gleichbedeutend
funktion.
P# .T  .#/ ¤ a.#/U# / D 0 ; # 2 ; Man nennt eine Verteilungsfamilie .P# /#2 auf .X ; B/ ein-
parametrige Exponentialfamilie bezüglich T , falls  R
gilt. Weil P# eine strikt positive Dichte f .; #/ bzgl. des mit ein offenes Intervall ist und die Dichte oder Zähldichte von
 bezeichneten Borel-Lebesgue-Maßes oder Zählmaßes auf P# auf X durch (7.18) gegeben ist. Dabei setzt man die Funk-
X besitzt, folgt somit tion Q als stetig differenzierbar mit Q0 .#/ ¤ 0; # 2 ,
voraus. Die untere Schranke in der Cramér-Rao-Ungleichung
.fx 2 X j T .x/  .#/ ¤ a.#/U# .x/g/ D 0: kann also nur angenommen werden, wenn die zugrunde lie-
gende Verteilungsdichte eine ganz spezielle Struktur besitzt.
Da diese Aussage für jedes # 2 gilt, ergibt sich unter Be- Einfache Beispiele einparametriger Exponentialfamilien sind
achtung der Tatsache, dass die abzählbare Vereinigung von die Binomialverteilung, die Poisson-Verteilung und die Ex-
-Nullmengen ebenfalls eine -Nullmenge ist und man sich ponentialverteilung (Aufgabe 7.26).

Ein erwartungstreuer Schätzer T für # heißt Cramér-Rao- nachgewiesen. Da die relative Trefferhäufigkeit Tn D X n D
P
effizient, falls n1 jnD1 Xj ein erwartungstreuer Schätzer für # ist und die
1 Varianz
V# .T / D ; # 2 ;
If .#/
#.1  #/ 1
gilt, falls also in der Cramér-Rao-Ungleichung das Gleichheits- V# .Tn / D D
zeichen eintritt. J n If .#/

Beispiel (Relative Trefferhäufigkeit) In der Standard- besitzt, nimmt dieser Schätzer für jedes # 2 .0; 1/ die
situation einer Bernoulli-Kette der Länge n haben wir die Cramér-Rao-Schranke 1=If .#/ an und ist somit in obigem Sinn
Fisher-Information If .#/ zu Cramér-Rao-effizient, also gleichmäßig bester erwartungstreuer
Schätzer. Letztere Aussage gilt auch, wenn wir den Parameter-
n raum um die extremen Werte 0 und 1 erweitern, denn es gilt
If .#/ D ; 0 < # < 1;
#.1  #/ V0 .Tn / D V1 .Tn / D 0. J
7.2 Punktschätzung 245

Kapitel 7
Hintergrund und Ausblick: Bayes-Schätzung

Wie lässt sich bei Schätzproblemen Vorwissen über Parame- der A-posteriori-Verteilung von G bei gegebenem X D x
ter nutzen? die gesuchte Bayes-Schätzung.
Wir betrachten ein statistisches Modell .X ; B; .P# /#2 /, Besitzt X bei gegebenem G D  # die Binomialverteilung
wobei der Einfachheit halber  R ein Intervall sei. Im Un- Bin.n; #/, gilt also f .xj#/ D xn # x .1  #/nx für x D
terschied zum bisherigen Ansatz, durch geeignete Wahl eines 0; : : : ; n, und legt man für G die Beta-Dichte
erwartungstreuen Schätzers T für # die mittlere quadratische
Abweichung E# .T  #/2 gleichmäßig in # minimieren zu # ˛1 .1  #/ˇ1
wollen, verfolgen Bayes-Verfahren ein anderes Ziel. Sie be- .#/ D ˛;ˇ .#/ D ; 0 < # < 1;
B.˛; ˇ/
trachten den Parameter # als zufallsabhängig und legen für #
eine sog. A-priori-Verteilung auf den Borelschen Teilmengen zugrunde, s. nachfolgende Abbildung und Aufgabe 5.33, so
von zugrunde. Wir nehmen an, dass diese Verteilung durch ergibt sich mit (7.20) die A-posteriori-Dichte von G unter
eine Lebesgue-Dichte  über gegeben ist. Durch geeigne- X D x zu
te Wahl von T soll dann das als Bayes-Risiko von T bzgl.  # xC˛1 .1  #/nxCˇ1
g.#jx/ D :
bezeichnete Integral B.x C ˛; n  x C ˇ/
Z
R.; T / WD E# .T  #/2 .#/ d# (7.19) γα,β (ϑ)
α = 1, β = 5 α = 5, β = 1
minimiert werden. Ein Schätzer T  W X ! mit
R.; T  / D inffR.; T / j T W X ! Schätzer für #g α = 2, β = 4 α = 4, β = 2
α=β=3
heißt Bayes-Schätzer für # zur A-priori-Verteilung  .
Um einen solchen Schätzer zu bestimmen, sehen wir die
Dichte (bzw. Zähldichte) f .x; #/ von X (WD idX ) als be-
dingte Dichte f .xj#/ WD f .x; #/ unter der Bedingung an,
ϑ
dass die Zufallsvariable G WD id mit der Dichte  die Rea- 0 0.2 0.4 0.6 0.8 1.0
lisierung # ergeben hat, und verwenden die Notation f .xj#/
anstelle von f .x; #/. In dieser Deutung ist dann das Produkt Die A-posteriori-Verteilung von G unter X D x ist also die
.#/f .xj#/ die gemeinsame Dichte von G und X . Weiter Betaverteilung B.x C ˛; n  x C ˇ/. Der Erwartungswert
ist Z dieser Verteilung ist nach Aufgabe 5.33 b) gleich
m.x/ WD .#/f .xj#/ d#; x 2 X ; Z1
 xC˛
T .x/ WD # g.#jx/ d# D :
die marginale Dichte (bzw. Zähldichte) von X und in Analo- nC˛Cˇ
0
gie zur Bayes-Formel
.#/f .xj#/ Dieser Bayes-Schätzer ist verschieden vom ML-Schätzer
g.#jx/ WD R (7.20) b
.t /f .xjt / dt #.x/ D x=n. So ergibt sich etwa bei x D 38 Treffern
die sog. A-posteriori-Dichte von G bei gegebenem X D x. in n D 100 unabhängigen Versuchen mit gleicher unbe-
Diese Dichte kann als Update von  aufgrund der Stichprobe kannter Trefferwahrscheinlichkeit unter der Betaverteilung
x 2 X angesehen werden. mit ˛ D 1 und ˇ D 5 als A-priori-Verteilung der Bayes-
Schätzwert 39=106 0:368. Gewichtet man hingegen große
Ersetzen
R wir in (7.19) E# .T  #/2 durch das Integral Werte von # stärker und wählt als A-priori-Verteilung die
X
.T .x/  #/2 f .xj#/ dx (bei einer Zähldichte steht hier ei- Betaverteilung B.5; 1/, so ist der Bayes-Schätzwert gleich
ne Summe) und vertauschen unter Verwendung des Satzes 32=106 0:406. Schreiben wir
von Tonelli die Integrationsreihenfolge, so ergibt sich wegen
.#/f .xj#/ D g.#jx/m.x/ die Darstellung Xn C ˛
2 3 Tn WD
Z Z nC˛Cˇ
R.; T / D 4 .#  T .x// g.#jx/ d# 5 m.x/ dx:
2
mit Xn Bin.n; #/ unter G D # für den auf dem Stichpro-
X benumfang n basierenden Bayes-Schätzer, so gelten
Hieran liest man die Gestalt eines Bayes-Schätzers ab: Man
muss für jedes x 2 X den Schätzwert T  .x/ so wählen, dass n# C ˛
E# .Tn / D ! #;
das in eckigen Klammern stehende Integral minimal wird. nC˛Cˇ
Da Letzteres gleich EŒ.G  T .x//2 jX D x ist, liefert der n#.1  #/
bedingte Erwartungswert V# .Tn / D ! 0:
Z .n C ˛ C ˇ/2
T  .x/ WD E.GjX D x/ D # g.#jx/ d# Die Folge der Bayes-Schätzer ist somit für n ! 1 asymp-
totisch erwartungstreu und konsistent für #.
246 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

7.3 Konfidenzbereiche Nicht # variiert zufällig, sondern x und damit C .x/. Wird
Kapitel 7

z. B. das konkrete Schätz-Intervall Œ0:31; 0:64 für die Tref-


Es seien .X ; B; .P# /#2 / mit  Rd ein statistisches Modell ferwahrscheinlichkeit # aufgrund einer beobachteten Tref-
und  W ! R` . Ein Punktschätzer T W X ! R` für .#/ feranzahl in einer Bernoulli-Kette angegeben, so ist nicht
liefert bei Vorliegen von Daten x 2 X einen konkreten Schätz- etwa die Wahrscheinlichkeit mindestens 1  ˛, dass dieses
wert T .x/ für .#/. Da dieser Schätzwert nichts über die Größe Intervall den Parameter # enthält. Für ein festes Intervall I
des Schätzfehlers T .x/  .#/ aussagt, liegt es nahe, die Punkt- gilt entweder # 2 I oder # … I , aber f# 2 Œ0; 1 j # 2 I g ist
schätzung T .x/ mit einer Genauigkeitsangabe zu versehen. Ist kein „Ereignis“, dem wir eine Wahrscheinlichkeit zugeord-
 reellwertig, gilt also ` D 1, so könnte diese Angabe in Form net haben. Die Aussage über das Niveau 1  ˛ ist vielmehr
eines Intervalls C .x/ D ŒT .x/"1.x/; T .x/C"2 .x/ geschehen. eine Aussage über die gesamte Familie fC .x/ j x 2 X g, d. h.
Im Folgenden beschäftigen wir uns mit dem Wahrheitsanspruch über das Bereichsschätzverfahren als Abbildung auf X .
eines Statistikers, der behauptet, die Menge C .x/ enthalte die Wenn wir wiederholt (unter gleichen sich gegenseitig nicht
unbekannte Größe .#/. beeinflussenden Bedingungen) ein Bereichsschätzverfahren
C W X ! P .R` / für .#/ zum Niveau 1  ˛ durchführen, so
werden – was auch immer der wahre unbekannte Parameter
Definition eines Konfidenzbereichs # 2 ist – die zufälligen Mengen C .X / auf die Dauer in
ca. .1  ˛/  100% aller Fälle .#/ enthalten (Gesetz großer
Es sei ˛ 2 .0; 1/. In der obigen Situation heißt eine Abbil- Zahlen!). Das bedeutet jedoch nicht, dass in .1  ˛/  100%
dung aller Fälle, bei denen die Beobachtung zur konkreten Menge
B  R` führt, nun auch die Aussage .#/ 2 B zutrifft.
C W X ! P .R` / Der Konfidenzbereich C .x/ WD . / 8x 2 X erfüllt
zwar trivialerweise Bedingung (7.21), ist aber völlig nutz-
Konfidenzbereich für .# / zur Konfidenzwahrschein- los. Wünschenswert wären natürlich bei Einhaltung eines
lichkeit 1  ˛ oder kurz (1  ˛)-Konfidenzbereich, falls vorgegebenen Niveaus 1  ˛ möglichst „kleine“ Konfidenz-
gilt: bereiche, also im Fall ` D 1 „kurze“ Konfidenzintervalle. J
P# .fx 2 X j C .x/ 3 .#/g/  1  ˛ 8# 2 : (7.21)
Das Konfidenzbereichs-Rezept: Bilde für jedes
Synonym hierfür sind auch die Begriffe Vertrauensbereich und # 2 eine hochwahrscheinliche Menge
Vertrauenswahrscheinlichkeit üblich. Ist im Fall ` D 1 die A.# /  X und löse x 2 A.# / nach # auf
Menge C .x/ für jedes x 2 X ein Intervall, so spricht man
von einem Konfidenzintervall oder Vertrauensintervall. Die Wir stellen jetzt ein allgemeines Konstruktionsprinzip für Kon-
Menge C .x/  R` heißt konkreter Schätzbereich zu x 2 X fidenzbereiche vor. Dabei sei # mit # 2  Rd der
für .#/. Ein Konfidenzbereich wird in Abgrenzung zur Punkt- interessierende Parameter(vektor). Prinzipiell führt ein Konfi-
schätzung auch Bereichsschätzer genannt, da die Schätzwerte denzbereich für # unmittelbar zu einem Konfidenzbereich für
C .x/ Teilmengen (Bereiche) des R` sind. Weil wir nur mit klei- .#/, denn aus dem Ereignis fC .X / 3 #g folgt das Ereig-
ner Wahrscheinlichkeit in unserem Vertrauen enttäuscht werden nis f.C .X // 3 .#/g. Wir werden zudem nur im Fall der
wollen, ist in der obigen Definition ˛ eine kleine Zahl. Übliche Normalverteilung Konfidenzbereiche für Komponenten eines
Werte sind ˛ D 0:05 oder ˛ D 0:01. Es ist dann gängige Praxis, vektorwertigen Parameters behandeln.
von einem 95 %- bzw. 99 %-Konfidenzbereich zu sprechen. Die Angabe der Abbildung C W X ! P .Rd / ist gleichbedeu-
tend mit der Angabe der Menge
Video 7.2 Konfidenzbereich für das p der Binomialverteilung I
e
C WD f.x; #/ 2 X  j # 2 C .x/g

und daher auch mit der Angabe aller „Schnitt-Mengen“

A.#/ D fx 2 X j .x; #/ 2 e
C g; # 2 :

Kommentar A.#/ enthält die Stichprobenwerte x, in deren Konfidenzbe-


Setzen wir wie üblich X WD idX , so beschreibt für ein # 2 reich # enthalten ist. Zeichnen wir etwa zur Veranschaulichung
die (als messbar vorausgesetzte) Menge und X als Intervalle, so kann sich die in Abb. 7.4 skizzier-
te Situation ergeben. Hier sind C .x/ der Schnitt durch eC bei
fC .X / 3 .#/g D fx 2 X j C .x/ 3 .#/g Festhalten der x-Koordinate und A.#/ der Schnitt durch e C bei
festgehaltener #-Koordinate.
das Ereignis „.#/ wird vom zufallsabhängigen Bereich
C .X / überdeckt“. Man beachte, dass C .X / eine Zufallsva- Aufgrund der Äquivalenz
riable auf X ist, deren Realisierungen Teilmengen des R`
sind. x 2 A.#/ () # 2 C .x/ 8.x; #/ 2 X 
7.3 Konfidenzbereiche 247

X 1/2 (X = j)

Kapitel 7

0.15
x

0.1

W’ ≤ α/2 W’ ≤ α/2
0.05

A(ϑ)
0 5 15 20 j
A(1/2)

Abb. 7.5 Zur Konstruktion der Mengen A.#/

Θ
ϑ C(x) mit a.#/; A.#/ 2 X , also „Intervalle in X “ sind. Durch die aus
(7.22) resultierende Forderung
Abb. 7.4 Allgemeines Konstruktionsprinzip für Konfidenzbereiche !
X
A.#/
n j
# .1  #/nj  1  ˛ 8# 2
j
j Da.#/
ist (7.21) gleichbedeutend mit
sind a.#/ und A.#/ nicht eindeutig bestimmt. Eine praktikable
P# .A.#//  1  ˛ 8# 2 : (7.22) Möglichkeit ergibt sich, wenn
8 ˇ k1 ! 9
Wir müssen also nur für jedes # 2 eine Menge A.#/  X < ˇX n =
ˇ ˛
mit (7.22) angeben. Um e C und damit auch die Mengen C .x/, a.#/ D max k 2 X ˇ # j .1  #/nj  ; (7.24)
x 2 X , „klein“ zu machen, wird man die Mengen A.#/, # 2 , : ˇ j 2;
j D0
so wählen, dass sie im Fall eines endlichen Stichprobenraums 8 ˇ n ! 9
< ˇ X n ˛=
X möglichst wenige Punkte enthalten oder – für den Fall, dass ˇ
A.#/ D min k 2 X ˇ # j .1  #/nj 
X ein Intervall ist – möglichst kurze Teilintervalle von X sind. : ˇ j 2;
j DkC1
Damit wir trotzdem (7.22) erfüllen können, ist es plausibel, die
Menge A.#/ so zu wählen, dass sie diejenigen Stichproben- (7.25)
werte x enthält, für welche die Dichte oder Zähldichte f .x; #/
und
besonders groß ist.
A.#/ WD fx 2 X W a.#/  x  A.#/g (7.26)
Video 7.3 Konfidenzbereich für das p der Binomialvertei-
lung II gesetzt wird. Nach Definition gilt dann offenbar (7.22). Diese
Konstruktion bedeutet anschaulich, dass man für jedes # beim
Stabdiagramm der Binomialverteilung Bin.n; #/ auf beiden
Flanken eine Wahrscheinlichkeitsmasse von jeweils höchstens
˛=2 abzweigt. Die übrig bleibenden Werte j mit a.#/  j 
A.#/ haben dann unter P# zusammen eine Wahrscheinlichkeit
von mindestens 1  ˛. Sie bilden die Teilmenge A.#/ von X ,
vgl. Abb. 7.5. In der Abbildung ist n D 20, # D 1=2, ˛ D 0:1,
sowie a.#/ D 6, A.#/ D 14.
Beispiel (Binomialverteilung, zweiseitige Konfidenzin-
tervalle) Die Zufallsvariable X besitze eine Binomialvertei- Um die in (7.26) stehende Ungleichungskette nach # aufzulö-
lung Bin.n; #/, wobei # 2 D Œ0; 1 unbekannt sei. Hier ist sen, setzen wir C .x/ WD .`.x/; L.x//, wobei
X D f0; 1; : : : ; ng. Durch Betrachten der Quotienten
`.x/ WD inff# 2 jA.#/ D xg; (7.27)
P# .X D k/ .n  k C 1/# L.x/ WD supf# 2 ja.#/ D xg: (7.28)
D .k D 1; : : : ; n; # ¤ 1/
P# .X D k  1/ k.1  #/
Mithilfe von Übungsaufgabe 7.38 ergibt sich dann
folgt, dass die nach obigem Rezept zu konstruierenden Mengen
A.#/ vom Typ
# 2 C .x/ () x 2 A.#/ 8.x; #/ 2 X  ; (7.29)

und folglich ist die Abbildung C W X ! P . / ein Konfidenz-


fx 2 X j a.#/  x  A.#/g (7.23) bereich für # zum Niveau 1  ˛.
248 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

20 0.8 n = 50

0.6

x
0.4

10 0.2

0
5
5 10 15 20 25 30

1 Abb. 7.7 Konkrete Konfidenzintervalle für # (1  ˛ D 0:95)


0 (x) L(x) 1

Wie nicht anders zu erwarten, werden die Konfidenzinterval-


Abb. 7.6 Konfidenzgrenzen für den Parameter # der Binomialvertei- le bei gleicher beobachteter relativer Trefferhäufigkeit kürzer,
lung (n D 20, ˛ D 0:05)
wenn der Stichprobenumfang n zunimmt. So führt der Wert
x=n D 0:4 im Fall n D 20 zum Intervall Œ0:191; 0:639, im Fall
Die Funktionen ` und L sind für den Fall n D 20 und ˛ D 0:05 n D 50 jedoch zum deutlich kürzeren Intervall Œ0:264; 0:548.
in Abb. 7.6 skizziert. Abb. 7.7 zeigt die schon im Kommentar zur Definition ei-
nes Konfidenzbereichs angesprochene Fluktuation der konkre-
Die sog. Konfidenzgrenzen `.x/ und L.x/ können für n 2
ten Konfidenzintervalle bei wiederholter Bildung unter glei-
f20; 30; 40; 50g und ˛ D 0:05 der Tab. 7.1 entnommen oder mit-
chen, unabhängigen Bedingungen. Zur Erzeugung von Abb. 7.7
hilfe von Aufgabe 7.39 numerisch berechnet werden. Für das in
wurde 30-mal eine Bernoulli-Kette der Länge n D 50 mit
Abb. 7.6 dargestellte Zahlenbeispiel mit n D 20, ˛ D 0:05 und
Trefferwahrscheinlichkeit # D 0:35 mithilfe von Pseudo-Zu-
x D 14 gilt `.x/ D 0:457, L.x/ D 0:881.
fallszahlen simuliert und jedes Mal gemäß Tab. 7.1 das konkrete
Vertrauensintervall für # berechnet. Aufgrund der gewählten
Tab. 7.1 Binomialverteilung: Konfidenzgrenzen für # (˛ D 0:05) Konfidenzwahrscheinlichkeit von 0.95 sollten nur etwa ein bis
zwei der 30 Intervalle den wahren Wert (D 0:35) nicht enthal-
x n D 20 n D 30 n D 40 n D 50 ten. Dies trifft im vorliegenden Fall für genau ein Intervall zu. J
`.x/ L.x/ `.x/ L.x/ `.x/ L.x/ `.x/ L.x/
0 0.000 0.168 0.000 0.116 0.000 0.088 0.000 0.071
Beispiel (Binomialverteilung, einseitiger Konfidenzbe-
1 0.001 0.249 0.001 0.172 0.001 0.132 0.001 0.106
reich) Häufig – z. B. wenn ein „Treffer“ den Ausfall eines
2 0.012 0.317 0.008 0.221 0.006 0.169 0.005 0.137
technischen Gerätes bedeutet – interessieren nur obere Konfi-
3 0.032 0.379 0.021 0.265 0.016 0.204 0.013 0.165 denzschranken für die unbekannte Wahrscheinlichkeit # in einer
4 0.057 0.437 0.038 0.307 0.028 0.237 0.022 0.192 Bernoulli-Kette. Hier empfiehlt es sich, die Menge A.#/ im
5 0.087 0.491 0.056 0.347 0.042 0.268 0.033 0.218 Unterschied zu (7.23) einseitig in der Form
6 0.119 0.543 0.077 0.386 0.057 0.298 0.045 0.243
7 0.154 0.592 0.099 0.423 0.073 0.328 0.058 0.267 A.#/ WD fx 2 X j a.#/  xg
8 0.191 0.639 0.123 0.459 0.091 0.356 0.072 0.291 mit 8 9
ˇ k1 !
9 0.231 0.685 0.147 0.494 0.108 0.385 0.086 0.314 < ˇX n =
ˇ
10 0.272 0.728 0.173 0.528 0.127 0.412 0.100 0.337 a.#/ WD max k 2 X ˇ # j .1  #/nj  ˛
: ˇ j ;
11 0.315 0.769 0.199 0.561 0.146 0.439 0.115 0.360 j D0
12 0.361 0.809 0.227 0.594 0.166 0.465 0.131 0.382
anzusetzen. Man beachte, dass im Vergleich zu (7.24) ˛=2 durch
13 0.408 0.846 0.255 0.626 0.186 0.491 0.146 0.403
˛ ersetzt worden ist. Diese Festlegung bewirkt, dass die durch
14 0.457 0.881 0.283 0.657 0.206 0.517 0.162 0.425
15 0.509 0.913 0.313 0.687 0.227 0.542 0.179 0.446 C .x/ WD Œ0; e
e L.x//; e
L.x/ WD supf# 2 j a.#/ D xg
16 0.563 0.943 0.343 0.717 0.249 0.567 0.195 0.467
17 0.621 0.968 0.374 0.745 0.270 0.591 0.212 0.488
definierte Abbildung e C W X ! P . / wegen x 2 A.#/ ()
# 2 e C .x/ ein einseitiger Konfidenzbereich (nach oben) für
18 0.683 0.988 0.406 0.773 0.293 0.615 0.229 0.508
# zum Niveau 1  ˛ ist. e L.x/ ergibt sich für jedes x 2
19 0.751 0.999 0.439 0.801 0.315 0.639 0.247 0.528
f0; 1; : : : ; n  1g als Lösung # der Gleichung
20 0.832 1.000 0.472 0.827 0.338 0.662 0.264 0.548 !
21 0.506 0.853 0.361 0.685 0.282 0.568 X x
n j
22 0.541 0.877 0.385 0.707 0.300 0.587 # .1  #/nj D ˛:
j D0
j
23 0.577 0.901 0.409 0.730 0.318 0.607
24 0.614 0.923 0.433 0.751 0.337 0.626 Speziell gilt also
25 0.653 0.944 0.458 0.773 0.355 0.645 e
L.0/ D 1  ˛ 1=n : (7.30)
7.3 Konfidenzbereiche 249

und somit

Kapitel 7
20  
˚ 1 .1  ˛2 / ˚ 1 .1  ˛2 /
P X n  p    Xn C p D 1  ˛:
n n
Folglich ist
"    #
10 ˚ 1 1  ˛2 ˚ 1 1  ˛2
Xn  p ; Xn C p
n n
5 ein (1  ˛)-Konfidenzintervall für , dies jedoch nur unter der
x meist unrealistischen Annahme,  2 sei bekannt.
1
An dieser Stelle kommt William Sealy Gosset (1876–1937)
0 1 ins Spiel, der unter dem Pseudonym Student veröffentlichte,
L(x)
weil ihm sein Arbeitsvertrag bei der Dubliner Brauerei Arthur
Abb. 7.8 Obere Konfidenzgrenzen für den Parameter # der Binomial- Guinness & Son jegliches Publizieren verbot. Gosset ersetzte
verteilung (n D 20, ˛ D 0:05) zunächst das unbekannte  im Nenner von (7.31) durch einen
auf X1 ; : : : ; Xn basierenden Schätzer, nämlich die Stichproben-
standardabweichung
Analog zu Abb. 7.6 zeigt Abb. 7.8 für den Fall n D 20 und
v
˛ D 0:05 die (blau eingezeichneten) konkreten einseitigen u
u 1 X n
Konfidenzintervalle Œ0; e
L.x//. Zusätzlich wurden aus Abb. 7.6 Sn WD t .Xj  X n /2 ; (7.32)
die orangefarbenen zweiseitigen Intervalle .`.x/; L.x// über- n  1 j D1
nommen. Nach Konstruktion gilt für jedes x mit x  19 die
p
Ungleichung e L.x/ < L.x/. Wie nicht anders zu erwarten, sind also durch Sn2 . Hierdurch ist das unbekannte  formal ver-
also unter Aufgabe jeglicher Absicherung nach unten die ein- schwunden, es ist jedoch eine neue Zufallsvariable entstanden,
seitigen oberen Konfidenzschranken kleiner als die jeweiligen deren Verteilung möglicherweise von  2 abhängt. Die große
oberen Konfidenzgrenzen eines zweiseitigen Konfidenzinter- Leistung von Gosset bestand darin, diese Verteilung herzuleiten
valls. Der hiermit verbundene Genauigkeitsgewinn hinsichtlich und als nicht von  2 abhängig zu identifizieren. Wir definieren
einer Abschätzung von # nach oben wirkt sich umso stärker aus, zunächst diese Verteilung und stellen dann das zentrale Resultat
je kleiner x ist. So gilt für den eingezeichneten Fall x D 3 von Gosset vor.
e
L.3/ D 0:344. Im Unterschied dazu ist das zweiseitige kon-
krete Konfidenzintervall gleich Œ0:032; 0:379. Auf Kosten einer
fehlenden unteren Konfidenzschranke für # liegt die einseitige Definition der tk -Verteilung
obere Konfidenzschranke um knapp 10 % unter der entsprechen-
den oberen Grenze eines zweiseitigen Konfidenzintervalls. J Es seien N0 ; N1 ; : : : ; Nk unabhängige und je N.0; 1/-
normalverteilte Zufallsvariablen. Dann heißt die Vertei-
lung des Quotienten
Unter Normalverteilung erhält man einen N0
Konfidenzbereich für  durch studentisieren Y WD q P (7.33)
1 k 2
k j D1 Nj
Wir stellen jetzt Konfidenzbereiche für die Parameter der
Normalverteilung vor. Dabei legen wir ein statistisches Mo- (Studentsche) t-Verteilung mit k Freiheitsgraden oder
dell zu Grunde, bei dem die beobachtbaren Zufallsvariablen kurz tk -Verteilung, und wir schreiben hierfür Y tk .
X1 ; : : : ; Xn unabhängig und je N.;  2 /-verteilt sind. Von be-
sonderer Bedeutung ist in dieser Situation ein Konfidenzbereich
für . Um die damit verbundenen Probleme zu verdeutlichen,
2 Kommentar Da Zähler und Nenner in der Definition von Y
nehmen wir zunächst an, die Varianz P  sei bekannt. Mithilfe nach dem Blockungslemma stochastisch unabhängig sind und
des Stichprobenmittels X n D n1 jnD1 Xj und der Zufallsva-
die im Nenner stehende Quadratsumme eine 2k -Verteilung be-
riablen p  
sitzt, kann man die tk -Verteilung auch wie folgt definieren: Sind
n Xn  
U WD (7.31) N ; Zk unabhängige Zufallsvariablen, wobei N N.0; 1/ und

Zk 2k , so gilt definitionsgemäß
lässt sich dann unmittelbar ein Konfidenzintervall für  ange-
ben: Da U die Verteilung N.0; 1/ besitzt, gilt für ˛ 2 .0; 1/ und N
2R q tk : (7.34)
  ˛    ˛ 
1
Z
k k
P jU j  ˚ 1 1  D 2˚ ˚ 1 1  1
2 2 Mit Teil c) des Satzes über die Dichte von Differenz, Pro-
D1˛ dukt und Quotient zweier unabhängiger Zufallsvariablen in
250 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

fk (x) Tab. 7.2 p-Quantile tkIp der t -Verteilung mit k Freiheitsgraden. In der
Kapitel 7

k = 1: Zeile zu k D 1 stehen die Quantile ˚ 1 .p/ der N.0; 1/-Verteilung


p
k = 3: k 0.900 0.950 0.975 0.990 0.995 0.999
1 3.078 6.314 12.706 31.820 63.657 318.309
k = 11: 2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.214
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
x 7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
Abb. 7.9 Dichten der tk -Verteilung für k D 1, k D 3 und k D 11
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
Abschn. 5.2 ergibt sich die Dichte der tk -Verteilung zu 11 1.363 1.796 2.201 2.718 3.106 4.025
   12 1.356 1.782 2.179 2.681 3.055 3.930
.kC1/=2
1  kC1 t2 13 1.350 1.771 2.160 2.650 3.012 3.852
fk .t / D p  
2
1C ; (7.35) 14 1.345 1.761 2.145 2.625 2.977 3.787
k  k2 k
15 1.341 1.753 2.131 2.602 2.947 3.733
t 2 R (Aufgabe 7.27 a)). 16 1.337 1.746 2.120 2.584 2.921 3.686
Abb. 7.9 zeigt Graphen der Dichten von tk -Verteilungen für ver- 17 1.333 1.740 2.110 2.567 2.898 3.646
schiedene Werte von k. Die Dichten sind symmetrisch zu 0 18 1.330 1.734 2.101 2.552 2.878 3.610
und fallen für t ! ˙1 langsamer ab als die Dichte der Nor- 19 1.328 1.729 2.093 2.539 2.861 3.579
malverteilung N.0; 1/, die sich im Limes für k ! 1 ergibt. 20 1.325 1.725 2.086 2.528 2.845 3.552
Für k D 1 entsteht die in Abschn. 5.2 eingeführte Cauchy- 22 1.321 1.717 2.074 2.508 2.819 3.505
Verteilung C.0; 1/. J 24 1.318 1.711 2.064 2.492 2.797 3.467
26 1.315 1.706 2.056 2.479 2.779 3.435
Tab. 7.2 gibt für verschiedene Werte von p und k das mit tkIp 28 1.313 1.701 2.048 2.467 2.763 3.408
bezeichnete p-Quantil der tk -Verteilung an. Aus Symmetrie- 30 1.310 1.697 2.042 2.457 2.750 3.385
gründen gilt tkI1p D tkIp , sodass sich zum Beispiel t7I0:05 D 50 1.299 1.676 2.009 2.403 2.678 3.261
1:895 ergibt. 100 1.290 1.660 1.984 2.364 2.626 3.174
1 1.282 1.645 1.960 2.326 2.576 3.090

Satz von Student (1908)


Kommentar Der Geniestreich von Student bestand also in
Es seien X1 ; : : : ; Xn stochastisch unabhängige und je der Entdeckung der nur vom Stichprobenumfang n abhängen-
N.;P 2 /-verteilte Zufallsvariablen. Bezeichnen X n D p
den tn1 -Verteilung als Verteilung von n.X n  /=Sn . Wegen
n1 jnD1 Xj den Stichprobenmittelwert und Sn2 D der Bedeutung dieses Resultates auch in anderen Zusammen-
P
.n  1/1 jnD1 .Xj  X n /2 die Stichprobenvarianz von hängen wird die Ersetzung von  durch Sn im Nenner von (7.31)
X1 ; : : : ; Xn , so gilt auch Studentisierung genannt. Man beachte, dass sich  in der
p   Beweisführung des obigen Satzes im Bruch U =V einfach her-
n Xn   auskürzt!
tn1 :
Sn
Die Bedeutung des Satzes von Student liegt u. a. darin, dass sich
unmittelbar die folgenden Konfidenzbereiche für  bei unbe-
kanntem  2 ergeben. J
Beweis Nach dem Satz über Verteilungseigenschaften für die
2
ML-Schätzer der ParameterP  und  der Normalverteilung in
Abschn. 7.2 sind X n und jnD1 .Xj  X n /2 und somit auch die Konfidenzbereiche für  bei Normalverteilung
Zufallsvariablen
r Es liege die Situation des Satzes von Student vor. Dann ist
p  
n Xn   1 2 jedes der folgenden Intervalle ein Konfidenzintervall für 
U WD ; V WD S zur Konfidenzwahrscheinlichkeit 1  ˛:
 2 n
S t S t
unabhängig. Weiter gelten U a) X n  n n1I1˛=2
p ; X n C n n1I1˛=2
p ,
p N.0; 1/ und (nach oben zitier-  n
Sn tn1I1˛
n
tem Satz, insbes. (7.6)) V Z=.n  1/, wobei Z 2n1 . b)  1; X n C pn ,
Nach Definition der tn1 -Verteilung folgt Sn tn1I1˛ 
c) X n  pn ; 1 .
p
n.X n / p  
U n Xn   Dabei ist allgemein tkIp das p-Quantil der tk -Verteilung.
D q  D tn1 
V 1
S2 Sn
2 n
7.3 Konfidenzbereiche 251

Selbstfrage 6 μ0 Xn

Kapitel 7
Können Sie exemplarisch das Intervall in b) herleiten?

Das zweiseitige Konfidenzintervall in a) ist vom Typ „X n ˙ Xn


Faktor  Sn “. Dabei hängt der Faktor über das (1˛=2)-Quantil
der tn1 -Verteilung von der gewählten Vertrauenswahrschein- Abb. 7.10 Ein- und zweiseitiger Konfidenzbereich für  (schematisch)
lichkeit 1  ˛ und vom Stichprobenumfang n ab. Letzterer
wirkt sich über die Wurzel im Nenner insbesondere auf die
Breite des Intervalls aus. Der Einfluss von n sowohl über eine 2n1 -Verteilung. Hieraus gewinnt man sofort die folgen-
tn1I1˛=2 als auch über Sn auf die Intervallbreite ist demge- den Konfidenzbereiche für  2 (die durch Ziehen der Wurzel der
genüber geringer, da Sn für n ! 1 stochastisch gegen die Intervallgrenzen zu Konfidenzbereichen für  führen).
Standardabweichung  konvergiert und sich tn1I1˛=2 immer
mehr dem (1  ˛=2)-Quantil der Standardnormalverteilung an-
nähert. Wegen der Wurzel im Nenner ist auch offensichtlich, Konfidenzbereiche für  2 bei Normalverteilung
dass man den Stichprobenumfang in etwa vervierfachen muss,
um ein halb so langes Konfidenzintervall zu erhalten. Dass Es liege die Situation des Satzes von Student vor. Dann ist
aber auch die gewählte Vertrauenswahrscheinlichkeit eine Rolle jedes der folgenden Intervalle ein Konfidenzintervall für
für die Breite des Konfidenzintervalls spielt, sieht man anhand  2 zur Konfidenzwahrscheinlichkeit 1  ˛:

der Werte von Tab. 7.2. So gilt etwa im Fall n D 11, also .n1/Sn2 .n1/Sn2
n  1 D 10 Freiheitsgraden t10I0:95 D 1:812 und t10I0:995 D a) 2 ; 2 ,
3:169. Ein 99 %-Konfidenzintervall ist also wegen der höhe-  n1I1˛=2 n1I˛=2
.n1/S 2
ren Vertrauenswahrscheinlichkeit etwa 1.75-mal so lang wie ein b) 0; 2 n ,
n1I˛
90 %-Konfidenzintervall.
Dabei ist allgemein 2kIp das p-Quantil der 2k -Verteilung.
Die einseitigen Intervalle b) oder c) wählt man, wenn aufgrund
der Aufgabenstellung nur nach einer oberen oder unteren Kon-
fidenzschranke für  gefragt ist.
Selbstfrage 7
Wie ergibt sich das Intervall in a)?
Beispiel Kann die Füllmenge einer Flaschenabfüllmaschine
als angenähert N.;  2 /-normalverteilt angesehen werden, so
kommt es für eine Verbraucherorganisation nur darauf an, dass Tab. 7.3 gibt für ausgewählte Werte von k und p das p-Quantil
eine behauptete Nennfüllmenge 0 mit großer Sicherheit nicht 2kIp der Chi-Quadrat-Verteilung mit k Freiheitsgraden an.
unterschritten wird. Sie würde aufgrund einer Stichprobe von n
abgefüllten Flaschen den in c) angegebenen Konfidenzbereich Ist also etwa aus n D 10 wiederholten Messungen unter glei-
für  wählen. Ist dann der Sollwert 0 höchstens gleich dem chen unabhängigen Bedingungen eine Stichprobenvarianz von
p 1.27 festgestellt worden, so ist eine obere 95 %-Konfidenzgren-
festgestellten Wert von X n  Sn tn1I1˛ = n, so würde die Or-
ganisation bei kleinem ˛ zufrieden sein, da sie ja dann großes ze für die unbekannte Varianz  2 nach Tab. 7.3 durch
Vertrauen darin setzt, dass das in c) angegebene Intervall das un- 9  1:27
bekannte  enthält (was dann mindestens gleich 0 wäre). Eine 3:43
Absicherung nach oben ist der Organisation egal, da Verbrau- 3:33
cher ja nicht abgeneigt sein dürften, für das gleiche Geld „im gegeben, und ein konkretes zweiseitiges 95 %-
Mittel mehr zu erhalten“. Der Produzent hat hier natürlich eine Konfidenzintervall hat die Gestalt
entgegengesetzte Perspektive. 
9  1:27 9  1:27
Man beachte, dass wegen tn1I1˛ < tn1I1˛=2 der linke End- ; Œ0:60; 4:23:
19:02 2:70
punkt des zweiseitigen Konfidenzintervalls in a) kleiner als der
linke Endpunkt des Intervalls in c) ist. Liegt 0 zwischen die- Man beachte jedoch, dass wir bei diesen Berechnungen unter-
sen Endpunkten, so kann man sich beim einseitigen Intervall stellt haben, dass die Messwerte Realisierungen von normalver-
ziemlich sicher sein, dass  mindestens gleich 0 ist, beim ein- teilten Zufallsvariablen sind.
seitigen Intervall jedoch nicht. Diese Situation ist schematisch
in Abb. 7.10 skizziert. J
Auch für die Differenz der Erwartungswerte
Nach dem Satz über die Eigenschaften der ML-Schätzer unter
Normalverteilungsannahme in Abschn. 7.3 besitzt in der Situa- zweier Normalverteilungen erhält man einen
tion des Satzes von Student die Zufallsvariable Konfidenzbereich mittels Studentisierung
n1 2 Wir betrachten jetzt mit dem Zwei-Stichproben-Problem (bei
Sn
2 unabhängigen Stichproben) eine praktisch höchst bedeutsame
252 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Tab. 7.3 p-Quantile 2kIp der 2 -Verteilung mit k Freiheitsgraden unabhängige Komponenten besitzt, aber (möglicherweise) nur
Kapitel 7

jeweils die ersten m und die letzten n Komponenten identisch


p
verteilt sind. Da drei unbekannte Parameter auftreten, nimmt der
k 0.025 0.050 0.100 0.900 0.950 0.975
Parameterraum die Gestalt
1 0.00098 0.0039 0.02 2.71 3.84 5.02
2 0.05 0.10 0.21 4.61 5.99 7.38
WD f# D .; ;  2 / j ;  2 R;  2 > 0g D R  R  R>0
3 0.22 0.35 0.58 6.25 7.81 9.35
4 0.48 0.71 1.06 7.78 9.49 11.14
an. Die gemeinsame, von # abhängende Dichte aller Zufallsva-
5 0.83 1.15 1.61 9.24 11.07 12.83
riablen ist dann
6 1.24 1.64 2.20 10.64 12.59 14.45
7 1.69 2.17 2.83 12.02 14.07 16.01  k
1
8 2.18 2.73 3.49 13.36 15.51 17.53 f .xI #/ D p
 2
9 2.70 3.33 4.17 14.68 16.92 19.02 2 0 13
10 3.25 3.94 4.87 15.99 18.31 20.48 1 X m X n

11 3.82 4.57 5.58 17.28 19.68 21.92  exp 4 2 @ .xi  / C


2
.yj  / A5
2
2 i D1 j D1
12 4.40 5.23 6.30 18.55 21.03 23.34
13 5.01 5.89 7.04 19.81 22.36 24.74
14 5.63 6.57 7.79 21.06 23.68 26.12 (x D .x1 ; : : : ; xm ; y1 ; : : : ; yn / 2 RmCn , k WD m C n).
15 6.26 7.26 8.55 22.31 25.00 27.49
In dieser Situation wird meist ein (im nächsten Abschnitt be-
20 9.59 10.85 12.44 28.41 31.41 34.17
handelter) Zwei-Stichproben-t -Test durchgeführt. Wir werden
25 13.12 14.61 16.47 34.38 37.65 40.65
jetzt darlegen, dass die oben im kursiv gesetzten Halbsatz auf-
30 16.79 18.49 20.60 40.26 43.77 46.98 geworfene Frage auch mit einem Konfidenzintervall für die
40 24.43 26.51 29.05 51.81 55.76 59.34 Differenz    gelöst werden kann. Für einen allgemeinen
50 32.36 34.76 37.69 63.17 67.50 71.42 Zusammenhang zwischen Konfidenzbereichen und Tests siehe
60 40.48 43.19 46.46 74.40 79.08 83.30 Aufgabe 7.6.
80 57.15 60.39 64.28 96.58 101.88 106.63
100 74.22 77.93 82.36 118.50 124.34 129.56 Ein solches Konfidenzintervall ergibt sich durch folgende Über-
legung:
P Für die einzelnen1 Stichprobenmittelwerte
Pn X m WD
m1 m i D1 Xi und Y n WD n j D1 Yj gelten

Situation der statistischen Datenanalyse. Diese tritt immer dann    


auf, wenn unter sonst gleichen Bedingungen eine sog. Versuchs- 2 2
Xm N ; ; Y n N ; : (7.36)
gruppe von m Untersuchungseinheiten wie z. B. Pflanzen oder m n
Personen eine bestimmten Behandlung (z. B. Düngung oder Ga-
be eines Medikaments) erfährt, wobei zum Vergleich in einer Da nach dem Blockungslemma X m und Y n stochastisch un-
sog. Kontrollgruppe mit n Einheiten keine Behandlung erfolgt. abhängig sind, ergibt sich mit dem Additionsgesetz für die
Bei Pflanzen würde man also nicht düngen, und die Perso- Normalverteilung und Standardisierung
nen erhielten anstelle eines Medikamentes ein Placebo. Sind
x1 ; : : : ; xm die gemessenen Werte eines interessierenden Merk- q  
mn
mals in der Versuchsgruppe und y1 ; : : : ; yn diejenigen in der mCn
X m  Y n  .  /
N.0; 1/: (7.37)
Kontrollgruppe, so stellt sich die Frage, ob die beobachteten 
Gruppen-Mittelwerte x m und y n signifikant voneinander abwei-
chen oder der gemessene Unterschied auch gut durch reinen Hieraus könnte man ein Konfidenzintervall für    konstru-
Zufall erklärt werden kann. Wir haben den letzten Teilsatz be- ieren, wenn  2 bekannt wäre. Da dies jedoch nicht der Fall ist,
wusst kursiv gesetzt, weil wir zur Beantwortung dieser Frage bietet es sich an, das oben im Nenner auftretende  durch ei-
gewisse Modellannahmen machen müssen. nen geeigneten Schätzer zu ersetzen, also zu „studentisieren“.
Hierzu führen wir die Zufallsvariable
Eine oft getroffene Vereinbarung ist in diesem Zusammenhang, 0 1
dass x1 ; : : : ; xm ; y1 ; : : : ; yn Realisierungen unabhängiger Zu- 1 X
m X n
fallsvariablen X1 ; : : : ; Xm ; Y1 ; : : : ; Yn sind. Dabei nimmt man
2
Sm;n WD @ .Xi  X m /2 C .Yj  Y n /2 A
m C n  2 i D1
weiter an, dass Xi N.;  2 / für i D 1; : : : ; m und Yj j D1
N.;  2 / für j D 1; : : : ; n gelten, unterstellt also insbesondere (7.38)
eine gleiche Varianz für die Beobachtungen der Behandlungs-
und der Kontrollgruppe. Die Parameter ;  und  2 seien unbe- ein. Mit (7.6) gelten dann
kannt. Es liegt somit ein statistisches Modell vor, bei dem der
beobachtbare Zufallsvektor Pm Pn
i D1 .Xi  X m /2 j D1 .Yj  Y n /2
2m1 ; 2n1 ;
2 2
X WD .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / (7.39)
7.3 Konfidenzbereiche 253

wobei diese Zufallsvariablen nach dem Blockungslemma sto- 0 Xm − Y n

Kapitel 7
chastisch unabhängig sind. Mit dem Additionsgesetz für die
Chi-Quadrat-Verteilung in Abschn. 5.4 erhält man
2
.m C n  2/Sm;n Xm − Y n
2mCn2 : (7.40)
2
Da nach dem Blockungslemma alle Zufallsvariablen in (7.36) Abb. 7.11 Ein- und zweiseitiger Konfidenzbereich für    (schema-
und (7.39) unabhängig sind und damit auch Sm;n 2
stochastisch tisch)
unabhängig von der standardnormalverteilten Zufallsvariablen
in (7.37) ist, liefern (7.40), der Satz von Student und die Er-
Wenn man ein einseitiges Konfidenzintervall wählt, sollte je-
zeugungsweise der Studentschen t -Verteilung (vgl. (7.34)) die
doch vor der Datenerhebung klar sein, um welches der Intervalle
Verteilungsaussage
in b) und c) es sich handelt. Auf keinen Fall ist es erlaubt,
q   sich nach Bestimmung beider konkreter einseitiger Intervalle
mn
mCn
X m  Y n  .  / das passendere herauszusuchen und zu behaupten, man hät-
tmCn2 : (7.41) te es mit einem Konfidenzbereichs-Verfahren erhalten, das die
Sm;n
Vertrauenswahrscheinlichkeit 1  ˛ besitzt! Bei diesem „Best-
Kürzt man die hier auftretende Zufallsvariable mit T ab, so er- of-Verfahren“ bildet man jedoch de facto den Durchschnitt der
geben die Wahrscheinlichkeitsaussagen Intervalle in b) und c). Schreiben wir kurz I für das Intervall in
  b) und J für das Intervall in c), so gilt nach (2.28)
P# jT j  tmCn2I1˛=2 D 1  ˛;
P# .I \ J 3   /  1  2˛;
P# .T  tmCn2I1˛ / D 1  ˛;
P# .T  tmCn2I1˛ / D 1  ˛: denn es ist P# .I 3   /  1  ˛ und P# .J 3   /  1  ˛.
Der Schnitt der Intervalle I und J ist also nur ein Konfidenz-
Durch Auflösen des jeweiligen Ereignisses nach    ergeben intervall zur geringeren Konfidenzwahrscheinlichkeit 1  2˛.
sich die folgenden (1  ˛)-Konfidenzbereiche für   : Möchte man also durch Schnitt-Bildung von I und J ein zwei-
seitiges .1  ˛/-Konfidenzintervall erhalten, so müssen I und
J jeweils Konfidenzintervalle zur Konfidenzwahrscheinlichkeit
Konfidenzbereiche für  
1  ˛=2 sein. Dann sind aber bei der Bildung von I und J je-
weils cm;nI˛ durch cm;nI˛=2 zu ersetzen, und man gelangt zum
Sind X1 ; : : : ; Xm ; Y1 ; : : : ; Yn unabhängige Zufallsvaria- zweiseitigen Intervall. J
blen mit Xi N.;  2 / (i D 1; : : : ; m) und Yj
N.;  2 / (j D 1; : : : ; n), so ist mit der Abkürzung
r Mit dem Zentralen Grenzwertsatz erhält man
mCn oft approximative Konfidenzintervalle bei
cm;nIp WD tmCn2I1p
mn
großem Stichprobenumfang
jedes der folgenden Intervalle ein Konfidenzbereich für
   zur Konfidenzwahrscheinlichkeit 1  ˛: Häufig lassen sich Konfidenzbereiche für große Stichprobenum-
fänge approximativ mithilfe von Grenzwertsätzen konstruieren.
a) ŒX m  Y n  cm;nI˛=2 Sm;n ; X m  Y n C cm;nI˛=2 Sm;n , Hierzu betrachten wir analog zu Schätzfolgen die Situation, dass
b) ŒX m  Y n  cm;nI˛ Sm;n ; 1/, Realisierungen eines Zufallsvektors X D .X1 ; : : : ; Xn / mit un-
c) .1; X m  Y n C cm;nI˛ Sm;n . abhängigen und identisch verteilten Komponenten X1 ; : : : ; Xn
beobachtet werden und Cn für jedes n 2 N (oder zumindest für
jedes genügend große n) eine Abbildung von Xn nach P .Rd /
ist. Dabei sei Xn der Stichprobenraum für .X1 ; : : : ; Xn /.
Kommentar Welches der obigen Intervalle in einer konkre-
ten Situation gewählt wird, hängt ganz von der Fragestellung ab.
Wegen cm;nI˛=2 > cm;nI˛ liegen die Intervalle in a) und b) wie in Definition eines asymptotischen Konfidenzbereichs
Abb. 7.11 skizziert. Sollte sich der Wert 0 wie in der Abbildung
angedeutet zwischen dem linken Endpunkt des zweiseitigen und In obiger Situation heißt die Folge .Cn / asymptotischer
Konfidenzbereich für .# / zum Niveau 1  ˛, falls gilt:
dem linken Endpunkt des nach oben unbeschränkten Intervalls
befinden, so kann man bei Verwendung des letzten Intervalls
lim inf P# .fx 2 Xn j Cn .x/ 3 .#/g/  1  ˛ 8# 2 :
ziemlich sicher sein, dass    > 0 und somit  >  gilt, beim n!1
zweiseitigen Intervall jedoch nicht. Schlägt sich eine Behand-
lung gegenüber einem Placebo prinzipiell in größeren Werten
des untersuchten Merkmals nieder, so kommt man also bei Wahl Man beachte, dass die obige Bedingung insbesondere dann er-
des nach oben unbeschränkten Konfidenzintervalls leichter zur füllt ist, wenn anstelle des Limes inferior der Limes existiert und
begründeten Antwort „es gilt  > “. für jedes # 2 gleich 1  ˛ ist.
254 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Beispiel: Zur Genauigkeit der Aussagen beim „ZDF-Politbarometer“

Was verbirgt sich hinter den „Fehlerbereichen“ der For- j D 1; : : : ; n. Obwohl das Ziehen ohne Zurücklegen erfolgt,
schungsgruppe Wahlen? arbeiten wir mit dem Modell stochastisch unabhängiger und
Auf der Website http://www.forschungsgruppe.de findet man je Bin.1; #/-verteilter Zufallsvariablen X1 ; : : : ; Xn , da N im
unter dem Punkt Zur Methodik der Politbarometer-Untersu- Vergleich zu n sehr groß ist.
chungen u. a. die Aussage
Ein approximatives 95 %-Konfidenzintervall für # aufgrund
. . . ergeben sich bei einem Stichprobenumfang von n D 1 250 der zufälligen relativen Trefferhäufigkeit Tn (Anteil der
folgende Vertrauensbereiche: Der Fehlerbereich beträgt bei ei- Partei-A-Anhänger unter den Befragten) ist nach (7.44) und
nem Parteianteil von 40 Prozent rund ˙ drei Prozentpunkte und
bei einem Parteianteil von 10 Prozent rund ˙ zwei Prozent-
(7.45)
punkte.
h 1:96 p 1:96 p i
Um diese Behauptung kritisch zu hinterfragen, legen wir ein Tn  p Tn .1  Tn /; Tn C p Tn .1  Tn / :
vereinfachendes Binomial-Urnenmodell zugrunde. Hierbei n n
stellen wir uns vor, in einer Urne sei für jeden von N Wahl-
berechtigten eine Kugel. Von diesen Kugeln seien r rote, was Die halbe Länge dieses Intervalls ist bei n D 1 250:
einer Präferenz für eine bestimmte „Partei A“ entspricht. Von (
Interesse ist der unbekannte Anteil # WD r=N der (momen- 1:96 p 0:027: : : bei Tn D 0:4
tanen) Anhänger dieser Partei. Wir stellen uns vor, aus dieser p Tn .1  Tn / D
1 250 0:017: :: bei Tn D 0:1
fiktiven Urne würde eine rein zufällige Stichprobe vom Um-
fang n gezogen und setzen
Die zu Beginn zitierte Behauptung der Forschungsgruppe
Xj WD 1fj -ter Befragter präferiert Partei Ag; Wahlen hat also ihre Berechtigung.

Beispiel (Binomialverteilung) Die Zufallsvariablen äquivalent. Dabei hängen `n und Ln von X1 ; : : : ; Xn ab. Somit
X1 ; : : : ; Xn seien unabhängig und je Bin.1;P
#/-verteilt, wo- ist die durch Cn WD Œ`n ; Ln  definierte Folge .Cn / ein asympto-
bei # 2 D .0; 1/. Setzen wir Tn WD n1 jnD1 Xj , so gilt tischer (1  ˛)-Konfidenzbereich für #, denn es gilt
nach dem Zentralen Grenzwertsatz von De Moivre-Laplace für
jedes h > 0 lim P# .`n  #  Ln / D 1  ˛ 8# 2 : (7.43)
n!1
ˇp ˇ !
ˇ n.T  #/ ˇ
ˇ n ˇ Dass obige Konfidenzgrenzen schon für n D 50 brauchbar sind,
lim P# ˇ p ˇ  h D ˚.h/  ˚.h/: (7.42)
n!1 ˇ #.1  #/ ˇ zeigt ein Vergleich mit Tab. 7.1. So liefern `n und Ln bei ei-
ner Konfidenzwahrscheinlichkeit 0:95 und k D 20 Treffern das
Wegen ˚.h/  ˚.h/ D 2˚.h/  1 ist dann mit der Wahl Intervall Œ0:276; 0:538, verglichen mit dem aus Tab. 7.1 ent-
 ˛
h˛ WD ˚ 1 1  nommenen Intervall Œ0:264; 0:548. J
2
die rechte Seite von (7.42) gleich 1  ˛, also Video 7.4 Konfidenzbereich für das p der Binomialvertei-
(ˇp ˇ ) lung III
ˇ n.T  #/ ˇ
ˇ n ˇ
An .#/ WD ˇ p ˇ  h˛
ˇ #.1  #/ ˇ

ein asymptotisch hochwahrscheinliches Ereignis. Die innerhalb


der geschweiften Klammer stehende Ungleichung ist zur qua-
dratischen Ungleichung
.n C h2˛ / # 2  .2nTn C h2˛ / # C n Tn2  0 Kommentar Die obigen Konfidenzgrenzen `n und Ln kön-
nen unter Vernachlässigung aller Terme der Ordnung O.n1 /
und somit nach Bestimmung der Nullstellen einer quadratischen
durch
Gleichung zu `n  #  Ln mit
q h˛ p
h2 h2
Tn C 2n˛  ph˛n Tn .1  Tn / C 4n˛ `n WD Tn  p Tn .1  Tn /; (7.44)
n
`n D ;
h2
1 C n˛ h˛ p
q Ln WD Tn C p Tn .1  Tn / (7.45)
h2 h2
n
Tn C 2n˛ C ph˛n Tn .1  Tn / C 4n˛
Ln D h2 ersetzt werden, ohne dass die Grenzwertaussage (7.43) mit `n
1 C n˛ und Ln anstelle von `n und Ln verletzt ist, vgl. Aufgabe 7.40. In
7.4 Statistische Tests 255

der Praxis kann man `n und Ln verwenden, falls je mindestens

Kapitel 7
50 Treffer und Nieten auftreten, was insbesondere einen Min- Asymptotisches Konfidenzintervall für einen Erwar-
deststichprobenumfang von n D 100 voraussetzt. Die obigen tungswert
Grenzen `n und Ln erlauben auch, einen solchen Mindest-
stichprobenumfang zu planen, wenn ein Konfidenzintervall eine Sind X1 ; : : : ; Xn unabhängige identisch verteilte Zufalls-
vorgegebene Höchstlänge nicht überschreiten soll (siehe Aufga- variablen mit 0 < V .X1 / < 1, so ist
be 7.30). 
˚ 1 .1  ˛=2/Sn ˚ 1 .1  ˛=2/Sn
Xn  p ; Xn C p
Die Gestalt von `n und Ln liefert die schon beim Konfidenz- n n
intervall für den Erwartungswert der Normalverteilung beob-
achtete Faustregel, dass der Stichprobenumfang n vervierfacht ein asymptotisches .1  ˛/-Konfidenzintervall für den Er-
werden muss, um ein halb so langes Konfidenzintervall zu er- wartungswert von X1 .
halten. J

Natürlich kann man auch hier einseitige Intervalle erhalten,


wenn man etwa in der obigen Grenzwertaussage die Betrags-
Der Zentrale Grenzwertsatz liefert striche weglässt und ˚ 1 .1  ˛=2/ durch ˚ 1 .1  ˛/ ersetzt.
ein asymptotisches Konfidenzintervall Man beachte, dass das obige Intervall bis auf die Tatsache, dass
für den Erwartungswert einer Verteilung tn1I1˛=2 durch ˚ 1 .1  ˛=2/ ersetzt wurde, identisch mit dem
nach dem Satz von Student angegebenen Konfidenzbereich a)
Mithilfe des Zentralen Grenzwertsatzes von Lindeberg-Lévy für  ist. Im Unterschied zu dort machen wir hier zwar kei-
und des Lemmas von Sluzki können wir wie folgt einen ne spezielle parametrische Verteilungsannahme, dies geschieht
asymptotischen Konfidenzbereich für den Erwartungswert einer jedoch auf Kosten einer nur noch asymptotisch für n ! 1 gel-
Verteilung in einem nichtparametrischen statistischen Modell tenden Konfidenzwahrscheinlichkeit.
konstruieren: Wir nehmen an, dass X1 ; : : : ; Xn unabhängige und
identisch verteilte Zufallsvariablen sind. Die Verteilungsfunkti-
on F von X1 sei nicht bekannt; es wird nur vorausgesetzt, dass 7.4 Statistische Tests
EX12 < 1 gilt, also das zweite Moment der zugrunde liegenden
Verteilung existiert, und dass die Varianz positiv ist. Im Fol- In diesem Abschnitt führen wir in Theorie und Praxis des
genden schreiben wir die Verteilungsfunktion F als Parameter Testens statistischer Hypothesen ein. Mit der Verfügbarkeit
an Wahrscheinlichkeiten, Erwartungswerte und Varianzen. Be- zahlreicher Statistik-Softwarepakete erfolgt das Testen solcher
zeichnen  D EF .X1 / den unbekannten Erwartungswert und Hypothesen in den empirischen Wissenschaften oft nur noch
 2 D VF .X1 / die Varianz von X1 , so gilt nach dem Zentralen per Knopfdruck nach einem fast schon rituellen Schema. Sta-
Grenzwertsatz von Lindeberg-Lévy für das Stichprobenmittel tistische Tests erfreuen sich u. a. deshalb so großer Beliebtheit,
X n die Verteilungskonvergenz weil ihre Ergebnisse objektiv und exakt zu sein scheinen, alle
von ihnen Gebrauch machen und der Nachweis der statistischen
p   Signifikanz eines Resultats oft zum Erwerb eines Doktortitels
n Xn   D

! N.0; 1/ unabdingbar ist. Wir werden zunächst sehen, dass die zu testen-
 den Hypothesen nur insoweit statistisch sind, als sie sich auf den
bei n ! 1. Da nach Aufgabe 6.37 die Stichprobenvarianz Sn2 Parameter in einem statistischen Modell beziehen.
fast sicher gegen  2 und folglich die Stichprobenstandardabwei- Wir legen im Folgenden ein solches statistisches Modell
chung Sn fast sicher und somit stochastisch gegen  konvergiert, .X ; B; .P# /#2 / zugrunde. Im Unterschied zu bisherigen Über-
gilt nach dem Lemma von Sluzki legungen, bei denen der unbekannte, wahre Parameter # zu
schätzen war, liegt jetzt eine Zerlegung
p   p  
n Xn   n Xn    D
D  
! N.0; 1/; D 0 C 1
Sn  Sn
des Parameterraums in zwei nichtleere, disjunkte Teilmengen
denn der Faktor =Sn konvergiert stochastisch gegen 1. Wir er- vor. Setzen wir wie früher X WD idX , so besteht ein Testproblem
halten somit für ˛ 2 .0; 1/ und jede Verteilungsfunktion F mit darin, aufgrund einer Realisierung x von X zwischen den Mög-
EF .X12 / < 1 und 0 < VF .X1 / lichkeiten # 2 0 und # 2 1 zu entscheiden. Man kann also
einen statistischen Test als Regel auffassen, die für jedes x 2 X
ˇp  ˇ !
ˇ n X   ˇ  ˛ festlegt, ob man sich für die
ˇ n ˇ
lim PF ˇ ˇ˚ 1
1 D 1  ˛:
n!1 ˇ Sn ˇ 2 Hypothese H0 W es gilt # 2 0
oder für die
Löst man dieses asymptotisch hoch wahrscheinliche Ereignis
nach  auf, so ergibt das folgende Resultat. Alternative H1 W es gilt # 2 1
256 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

entscheidet. Die übliche, eine Asymmetrie zwischen 0 und 1 Tab. 7.4 Wirkungstabelle eines Tests
Kapitel 7

widerspiegelnde Redensart ist hier „zu testen ist die Hypothe- Entscheidung Wirklichkeit
se H0 gegen die Alternative H1 “. Häufig findet man auch die
# 2 0 # 2 1
Sprechweisen Nullhypothese für H0 und Alternativhypothese
H0 gilt richtige Entscheidung Fehler 2. Art
für H1 . Da die Entscheidungsregel nur zwei Antworten zulässt,
H1 gilt Fehler 1. Art richtige Entscheidung
ist die nachstehende formale Definition verständlich.

Beispiel (Tea tasting lady) Eine Lady trinkt ihren Tee stets
Definition eines nichtrandomisierten Tests
mit Milch. Sie behauptet, allein am Geschmack unterscheiden
Ist in obiger Situation K  X eine messbare Menge, so zu können, ob zuerst Milch oder zuerst Tee eingegossen wurde.
heißt die Indikatorfunktion 1K nichtrandomisierter Test Dabei sei sie zwar nicht unfehlbar; sie würde aber im Vergleich
(kurz: Test) zur Prüfung der Hypothese H0 gegen die zum blinden Raten öfter die richtige Eingießreihenfolge treffen.
Alternative H1 . Die Menge K heißt kritischer Bereich
des Tests. Die Abbildung 1K ist wie folgt zu interpretie- Um der Lady eine Chance zu geben, ihre Behauptung unter Be-
ren: weis zu stellen, ist folgendes Verfahren denkbar: Es werden ihr
n mal zwei Tassen Tee gereicht, von denen jeweils eine vom Typ
(
x 2 K ; also 1K .x/ D 1; so Entscheidung für H1 ; „Milch vor Tee“ und die andere vom Typ „Tee vor Milch“ ist.
Falls Die Reihenfolge beider Tassen wird durch Münzwurf festgelegt.
x … K ; also 1K .x/ D 0; so Entscheidung für H0 : Hinreichend lange Pausen zwischen den n Geschmacksproben
garantieren, dass die Lady unbeeinflusst von früheren Ent-
scheidungen urteilen kann. Aufgrund dieser Versuchsanordnung
können wir die n Geschmacksproben als Bernoulli-Kette der
Kommentar Gilt x 2 K , fällt also die Beobachtung in
Länge n mit unbekannter Trefferwahrscheinlichkeit # model-
den kritischen Bereich, so sagt man auch, die Hypothese H0
lieren, wobei die richtige Zuordnung als Treffer angesehen wird.
wird verworfen. Das Komplement X n K des kritischen Be-
Da der Fall # < 1=2 ausgeschlossen ist (der Strategie des Ra-
reichs wird Annahmebereich genannt. Gilt x 2 X n K , so sagt
tens entspricht ja schon # D 1=2), ist eine Antwort auf die Frage
man auch, die Beobachtung x steht nicht im Widerspruch zu
„gilt # D 1=2 oder # > 1=2?“ zu finden.
H0 . Das Wort Annahmebereich bezieht sich also auf Annah-
me von H0 . Man beachte, dass aufgrund der eineindeutigen Wir beschreiben diese Situation durch ein statistisches Modell
Zuordnung zwischen Ereignissen und Indikatorfunktionen ein mit X WD f0; 1gn , B WD P .X / und WD Œ1=2; 1 sowie
nichtrandomisierter Test auch mit dem (seinem) kritischen Be- X D .X1 ; : : : ; Xn /, wobei X1 ; : : : ; Xn unter P# unabhängi-
reich identifiziert werde kann. Das Attribut nichtrandomisiert ge und je Bin.1; #/-verteilte Zufallsvariablen sind. Dabei ist
deutet an, dass es auch randomisierte Tests gibt. Dies ist aus Xj WD 1 bzw. Xj WD 0 gesetzt, falls die Lady das j -te Tas-
mathematischen Optimalitätsgesichtspunkten der Fall, und wir senpaar richtig bzw. falsch zuordnet. Setzen wir 0 WD f1=2g
werden hierauf in Abschn. 7.5 eingehen. J und 1 WD .1=2; 1, so bedeutet die Hypothese H0 W # 2 0
blindes Raten, und H1 W # 2 1 besagt, dass die Lady die
Da die Beobachtung x i. Allg. von jedem # 2 über die Ver- Eingießreihenfolge mehr oder weniger gut vorhersagen kann.
teilung P# erzeugt worden sein kann, sind Fehlentscheidungen Wir schreiben in der Folge Hypothese und Alternative auch als
beim Testen unvermeidlich. H0 W # D 1=2, H1 W # > 1=2.
Um einen Test für H0 gegen H1 festzulegen, müssen wir ei-
Fehler erster und zweiter Art ne Menge K  X als kritischen Bereich auszeichnen. Hier
liegt es nahe, die Testentscheidung von einem n-Tupel x D
Es sei 1K ein nichtrandomisierter Test. Gelten # 2 0 und .x1 ; : : : ; xn / 2 X nur über dessen Einsen-Anzahl T .x/ WD
x 2 K , so liegt ein Fehler 1. Art vor. Ein Fehler 2. Art x1 C : : : C xn , also nur von der Anzahl der richtigen Tassen-
entsteht, wenn # 2 1 und x … K gelten. zuordnungen, abhängig zu machen. Da T als Abbildung auf X
die Werte 0; 1; : : : ; n annimmt und nur große Werte von T gegen
ein blindes Raten sprechen, bietet sich ein kritischer Bereich der
Man begeht also einen Fehler 1. Art (ohne dies zu wissen, Gestalt fT  cg D fx 2 X j T .x/  cg an. Man würde also
denn man kennt ja # nicht!), wenn man die Hypothese H0 die Hypothese H0 blinden Ratens zugunsten einer Attestierung
fälschlicherweise verwirft. Ein Fehler 2. Art tritt auf, wenn besonderer geschmacklicher Fähigkeiten verwerfen, wenn die
fälschlicherweise gegen H0 kein Einwand erhoben wird. Die Lady mindestens c Tassenpaare richtig zuordnet.
unterschiedlichen Möglichkeiten sind in der Wirkungstabelle
Wie sollten wir c wählen? Sprechen etwa im Fall n D 20 min-
eines Tests (Tab. 7.4) veranschaulicht. Der Ausdruck Wirklich-
destens 17 richtig zugeordnete Paare gegen H0 ? Oder hat die
keit unterstellt dabei, dass wir an die Angemessenheit des durch
Lady bei so vielen richtigen Zuordnungen nur geraten und dabei
das statistische Modell .X ; B; .P# /#2 / gesteckten Rahmens
großes Glück gehabt? Wir sehen, dass hier ein Fehler 1. Art dem
glauben.
fälschlichen Attestieren besonderer geschmacklicher Fähigkei-
Das nachfolgende klassische Beispiel diene zur Erläuterung der ten entspricht. Ein Fehler 2. Art wäre, ihr solche Fähigkeiten
bisher vorgestellten Begriffsbildungen. abzusprechen, obwohl sie (in Form von #) mehr oder weniger
7.4 Statistische Tests 257

stark vorhanden sind. Es ist klar, dass wir mit dem Wert c das g20,14 (ϑ)

Kapitel 7
Auftreten von Fehlern erster und 2. Art beeinflussen können. 1
Vergrößern wir c, so lehnen wir H0 seltener ab und begehen so-
mit seltener einen Fehler 1. Art. Hingegen nimmt die Aussicht 0.8
auf einen Fehler 2. Art zu. J

0.6
Typisch an diesem Beispiel ist, dass der kritische Bereich K 
X oft mithilfe einer messbaren Funktion T W X ! R be-
schrieben werden kann. Diese Funktion heißt Teststatistik oder 0.4
Prüfgröße. Der kritische Bereich ist dann meist von der Form
0.2
fT  cg D fx 2 X j T .x/  cg
0
oder fT  cg D fx 2 X j T .x/  cg. ϑ
0.5 0.6 0.7 0.8 0.9 1
Die Konstante c heißt kritischer Wert. Die Hypothese wird
also abgelehnt, wenn die Teststatistik mindestens oder höchs- Abb. 7.12 Gütefunktion g20;14 im Beispiel der tea tasting lady
tens gleich einem bestimmten Wert ist. Im ersten Fall liegt ein
oberer, im zweiten ein unterer Ablehnbereich vor. In beiden
Fällen nennt man den kritischen Bereich einseitig. Es kommt gleich fT20  14g. Da x1 ; : : : ; x20 unter P# Realisierungen
auch vor, dass H0 abgelehnt wird, wenn für Konstanten c1 ; c2 der unabhängigen und je Bin.1; #/-verteilten Zufallsvariablen
mit c1 < c2 mindestens eine der Ungleichungen T  c2 oder X1 ; : : : ; X20 sind und die zufällige Trefferanzahl T20 D X1 C
T  c1 zutrifft. In diesem Fall spricht man von einem zweiseiti- : : : C X20 die Verteilung Bin.20; #/ besitzt, ist die Gütefunktion
gen Ablehnbereich, da die Ablehnung sowohl für zu große als dieses Tests durch
auch für zu kleine Werte von T erfolgt. !
X
20
20 k
g20;14 .#/ WD # .1  #/20k
k
kD14
Definition der Gütefunktion eines Tests
gegeben. Hier haben wir das Zahlenpaar .20; 14/ als Index an
Die durch g geschrieben, um den kritischen Bereich, nämlich mindestens
14 Treffer in 20 Versuchen, deutlich zu machen. Abb. 7.12 zeigt
gK .#/ WD P# .X 2 K / den Graphen dieser Gütefunktion.
definierte Funktion gK W ! Œ0; 1 heißt Gütefunktion Wegen g20;14.0:5/ D 0:0576 : : : haben wir mit obigem Ver-
des Tests 1K mit kritischem Bereich K  X für H0 W # 2 fahren erreicht, dass der Lady im Falle blinden Ratens nur
0 gegen H1 W # 2 1 . mit der kleinen Wahrscheinlichkeit von ungefähr 0:058 beson-
dere geschmackliche Fähigkeiten zugesprochen werden. Wir
können diese Wahrscheinlichkeit für einen Fehler 1. Art ver-
kleinern, indem wir den Wert 14 vergrößern und z. B. erst eine
Kommentar Die Gütefunktion eines Tests ordnet jedem # 2 Entscheidung für H1 treffen, wenn mindestens 15 oder sogar
die Verwerfungswahrscheinlichkeit der Hypothese H0 unter mindestens 16 von 20 Tassen-Paaren richtig zugeordnet wer-
P# zu. Die ideale Gütefunktion eines Tests hätte die Gestalt den. So ist etwa P0:5 .T20  15/ 0:0207 und P0:5 .T20 
gK .#/ D 0 für jedes # 2 0 und gK .#/ D 1 für jedes # 2 1 . 16/ 0:0059. Die Frage, ab welcher Mindesttrefferanzahl man
Die erste Eigenschaft besagt, dass man nie einen Fehler 1. Art H0 verwerfen sollte, hängt von den Konsequenzen eines Feh-
begeht, denn dieser würde ja in einer fälschlichen Ablehnung lers 1. Art ab. Im vorliegenden Fall bestünde z. B. die Gefahr
von H0 bestehen. Gilt # 2 1 , so möchte man die (nicht gel- einer gesellschaftlichen Bloßstellung der Lady bei einem weite-
tende) Hypothese H0 ablehnen. Insofern bedeutet der Idealfall ren Geschmackstest, wenn man ihr Fähigkeiten zubilligt, die sie
gK  1 auf 1 , dass kein Fehler 2. Art begangen wird. gar nicht besitzt. Abb. 7.12 zeigt, dass aufgrund der Monotonie
der Funktion g20;14 mit einer größeren Trefferwahrscheinlich-
Man beachte, dass es zwei datenblinde triviale Tests gibt, näm-
keit # der Lady plausiblerweise auch die Wahrscheinlichkeit
lich diejenigen mit kritischen Bereichen K D ; und K D X .
wächst, mindestens 14 Treffer in 20 Versuchen zu erzielen. Ist
Der erste lehnt H0 nie ab, was einen Fehler 1. Art kategorisch
etwa # D 0:9, so gelangen wir bei obigem Verfahren mit der
ausschließt. Der zweite Test lehnt H0 immer ab, was bedeutet,
Wahrscheinlichkeit g20;14 .0:9/ D 0:997 : : : zur richtigen Ant-
dass ein Fehler 2. Art nicht auftritt. J
wort „H1 trifft zu“, entscheiden uns also nur mit der sehr kleinen
Wahrscheinlichkeit 0:002 : : : fälschlicherweise für H0 . Beträgt
Beispiel (Tea tasting lady, Fortsetzung) Reichen wir # hingegen nur 0.7, so gelangen wir mit der Wahrscheinlichkeit
der Lady n D 20 Tassenpaare und verwerfen die Hypothese 1  g20;14 .0:7/ D P0:7 .T20  13/ D 0:392 zur falschen Ent-
H0 W # D 1=2 genau dann, wenn mindestens 14 Paare rich- scheidung „H0 gilt“. Die Wahrscheinlichkeit, fälschlicherweise
tig zugeordnet werden, so ist mit T20 W f0; 1g20 ! f0; : : : ; ng, für H0 zu entscheiden, d. h. tatsächlich vorhandene geschmack-
T20 .x1 ; : : : ; x20 / D x1 C : : : C x20 , der kritische Bereich liche Fähigkeiten abzusprechen, hängt also stark davon ab, wie
258 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

schen Situation die Wahl von H0 und H1 (diese sind rein formal
Kapitel 7

1 austauschbar!) anhand sachlogischer Überlegungen erfolgen.


g40,26 (ϑ)
Um einen sinnvollen Niveau-˛-Test mit kritischem Bereich K
0.8 g20,14 (ϑ)
für H0 gegen H1 zu konstruieren liegt es nahe, K (im Fall eines
endlichen Stichprobenraums X ) aus denjenigen Stichproben-
0.6 werten in X zu bilden, die unter H0 am unwahrscheinlichsten
und somit am wenigsten glaubhaft sind. Dieser Gedanke lag be-
0.4 reits dem bei der tea tasting lady gemachten Ansatz zugrunde.
Es ist üblich, ˛ im Bereich 0:01  ˛  0:1 zu wählen. Führt
0.2 ein Niveau ˛-Test für das Testproblem H0 gegen H1 mit solch
kleinem ˛ zur Ablehnung von H0 , so erlauben die beobachteten
Daten begründete Zweifel an H0 , da sich das Testergebnis unter
0
ϑ dieser Hypothese nur mit einer Wahrscheinlichkeit von höchs-
0.5 0.6 0.7 0.8 0.9 1
tens ˛ eingestellt hätte. Hier sind auch die Sprechweisen die
Abb. 7.13 Gütefunktionen g20;14 und g40;26 Ablehnung von H0 ist signifikant zum Niveau ˛ bzw. die Daten
stehen auf dem ˛  100%-Niveau im Widerspruch zu H0 üblich.
Der Wert 1  ˛ wird häufig als die statistische Sicherheit des
groß diese Fähigkeiten in Form der Trefferwahrscheinlichkeit # Urteils „Ablehnung von H0 “ bezeichnet.
wirklich sind. Ergibt der Test hingegen das Resultat „H0 wird nicht verwor-
Um der Lady eine Chance zu geben, auch im Fall # D 0:7 fen“, so bedeutet dies nur, dass die Beobachtung x bei einer
ein Ergebnis zu erreichen, das der Hypothese des bloßen Ratens zugelassenen Wahrscheinlichkeit ˛ für einen Fehler erster Art
deutlich widerspricht, müssen wir die Anzahl n der Tassenpaa- nicht im Widerspruch zu H0 steht. Formulierungen wie „H0 ist
re vergrößern. Wählen wir etwa n D 40 Paare und lehnen H0 verifiziert“ oder „H0 ist validiert“ sind hier völlig fehl am Platze.
ab, falls mindestens k D 26 Treffer erzielt werden, so ist die Sie suggerieren, dass man im Falle des Nicht-Verwerfens von
Wahrscheinlichkeit einer fälschlichen Ablehnung von H0 we- H0 die Gültigkeit von H0 „bewiesen“ hätte, was jedoch blanker
gen P0:5 .T40  26/ D 0:0403 : : : im Vergleich zum bisherigen Unsinn ist! J
Verfahren etwas kleiner geworden.
Beispiel (Zweiseitiger Binomialtest) Sind X1 ; : : : ; Xn
Abb. 7.13 zeigt die Gütefunktionen g20;14 und g40;26 . Durch Ver- unabhängige und je Bin.1; #/-verteilte Zufallsvariablen, so
doppelung der Versuchsanzahl von 20 auf 40 hat sich offenbar prüft man bei einem einseitigen Binomialtest eine Hypothese
die Wahrscheinlichkeit für eine richtige Entscheidung im Fall der Form H0 W #  #0 (bzw. #  #0 ) gegen die einseitige Al-
# D 0:7 von 0:608 auf über 0:8 erhöht. J ternative H1 W # > #0 (bzw. # < #0 ). Dabei kann wie im Fall
der tea tasting lady die Hypothese auch aus einem Parameter-
Anhand dieses Beispiels wurde klar, dass Fehler erster und wert bestehen.
zweiter Art bei einem Test unterschiedliche Auswirkungen
haben können. Zur Konstruktion vernünftiger Tests hat sich ein- Im Gegensatz dazu spricht man von einem zweiseitigen Bino-
gebürgert, die Wahrscheinlichkeit eines Fehlers erster Art einer mialtest, wenn eine Hypothese der Form H0 W # D #0 gegen
Kontrolle zu unterwerfen. Die Konsequenzen dieses Ansatzes die zweiseitige Alternative H1 W # ¤ #0 geprüft werden soll.
werden wir gleich beleuchten. Der wichtigste Spezialfall ist hier das Testen auf Gleichwahr-
scheinlichkeit zweier sich ausschließender Ereignisse, also der
Fall #0 D 1=2.
Definition eines Tests zum Niveau ˛ Da im Vergleich zu der unter H0 W # D #0 zu erwarten-
Es sei ˛ 2 .0; 1/. Ein Test 1K für H0 W # 2 0 gegen den Trefferanzahl
P sowohl zu große als auch zu kleine Werte
H1 W # 2 1 heißt Test zum Niveau ˛ oder Niveau-˛- von jnD1 Xj für die Gültigkeit von H1 sprechen, verwendet
Test, falls gilt: man beim zweiseitigen Binomialtest einen zweiseitigen kriti-
schen Bereich, d. h. eine Teilmenge K des Stichprobenraumes
gK .#/  ˛ für jedes # 2 0 : (7.46) f0; 1; : : : ; ng der Form K D f0; 1; : : : ; `g [ fk; k C 1; : : : ; ng
mit ` < k. Die Hypothese H0 W # D #0 wird abgelehnt, wenn
höchstens ` oder mindestens k Treffer aufgetreten sind.
Im Spezialfall #0 D 1=2 hat die zufällige Trefferanzahl Sn
Kommentar Durch Beschränkung auf Niveau-˛-Tests wird unter H0 die symmetrische Binomialverteilung Bin.n; 1=2/.
erreicht, dass die Hypothese H0 im Fall ihrer Gültigkeit auf die Plausiblerweise wählt man dann auch den kritischen Bereich
Dauer (d. h. bei oftmaliger Durchführung unter unabhängigen symmetrisch zum Erwartungswert n=2 und setzt ` WD n  k.
gleichartigen Bedingungen) in höchstens ˛  100% aller Fälle Dieser Test hat die Gütefunktion
verworfen wird. Man beachte, dass bei dieser Vorgehenswei- ! !
se ein Fehler erster Art im Vergleich zum Fehler zweiter Art Xn
n j X̀ n
 nj
als schwerwiegender erachtet wird und deshalb mittels (7.46) gn;k .#/ D # .1  #/ C # j .1  #/nj ;
j j D0
j
kontrolliert werden soll. Dementsprechend muss in einer prakti- j Dk
7.4 Statistische Tests 259

gn (μ)

Kapitel 7
1
1

g20,15 (ϑ)

0.5
n = 10
n=4
n=2
α
0
ϑ α
0 0.5 1

μ0 μ
Abb. 7.14 Gütefunktion beim zweiseitigen Binomialtest

Abb. 7.15 Gütefunktion des einseitigen Gauß-Tests für verschiedene


Stichprobenumfänge
und seine Wahrscheinlichkeit für einen Fehler 1. Art ist
 n X n
!
 1 n
gn;k .1=2/ D 2  : verwendet werden. Ablehnung von H0 erfolgt hier, falls Tn 
2 j ˚ 1 .1  ˛/ gilt. Der Graph der Gütefunktion dieses Tests
j Dk
ergibt sich durch Spiegelung des in Abb. 7.15 dargestellten Gra-
Man bestimmt den kleinsten Wert k mit der Eigenschaft phen an der durch den Punkt .0 ; ˛/ verlaufenden, zur Ordinate

gn;k .1=2/  ˛, indem man beim Stabdiagramm der Verteilung parallelen Geraden. Ob die Hypothese   0 oder die Hy-
Bin.n; 1=2/ so lange von beiden Seiten her kommend Wahr- pothese   0 getestet wird, hängt ganz von der konkreten
scheinlichkeitsmasse für den kritischen Bereich auszeichnet, Fragestellung ab, siehe etwa das Beispiel zum Konsumenten-
wie jeweils der Wert ˛=2 nicht überschritten wird. Im Zahlen- und Produzenten-Risiko. J
beispiel n D 20, ˛ D 0:1 ergibt sich der Wert k D 15, vgl.
Abb. 7.5. Abb. 7.14 zeigt die Gütefunktion zu diesem Test. Beispiel (Zweiseitiger Gauß-Test) Analog zum zweisei-
Zusätzlich wurden in Abb. 7.14 zwei Niveaulinien eingezeich- tigen Binomialtest entsteht der zweiseitige Gauß-Test, wenn in
net, und zwar einmal in der Höhe ˛ D 0:1 und zum anderen in der Situation des vorigen Beispiels

der Höhe 0:0414 D g20;15 .0:5/. Obwohl die zugelassene Wahr-
H0 W  D 0 gegen H1 W  ¤ 0
scheinlichkeit für einen Fehler erster Art gleich 0:1 und dieser
Test somit ein Test zu diesem Niveau ist, ist seine tatsächliche getestet werden soll. Bei der hier vorliegenden zweiseitigen
Wahrscheinlichkeit für einen solchen Fehler viel geringer, näm- Alternative H1 möchte man sich gegenüber Werten von  absi-
lich nur 0.0414. Er ist also auch ein Test zu diesem Niveau. J chern, die größer oder kleiner als 0 sind.
Als Prüfgröße dient wie bisher die in (7.47) definierte Statistik
Beispiel (Einseitiger Gauß-Test) Es seien X1 ; : : : ; Xn Tn . Im Unterschied zum einseitigen Gauß-Test wird H0 zum
unabhängige Zufallsvariablen mit gleicher Normalverteilung Niveau ˛ genau dann abgelehnt, wenn
N.;  2 /, wobei  2 bekannt und  unbekannt sei. Weiter sei 
0 ein gegebener Wert. Der einseitige Gauß-Test prüft die Hy- ˛
jTn j  ˚ 1 1 
pothese H0 W   0 gegen die Alternative H1 W  > 0 und 2
verwendet hierfür die Teststatistik gilt. Gleichbedeutend hiermit ist das Bestehen mindestens einer
p der beiden Ungleichungen
n.X n  0 /
Tn WD : (7.47)
  ˚ 1 .1  ˛=2/  ˚ 1 .1  ˛=2/
X n  0 C p ; X n  0  p :
Lehnt man H0 genau dann ab, wenn Tn  ˚ 1 .1  ˛/ gilt n n
(zur Erinnerung: ˚ ist die Verteilungsfunktion der Normalver- Die Gütefunktion gn ./ WD P .H0 ablehnen) des zweiseitigen
teilung N.0; 1/), so besitzt dieser Test das Niveau ˛, und seine Gauß-Tests ist durch
mit gn ./ WD P .Tn  ˚ 1 .1  ˛//,  2 R, bezeichnete Güte-   p 
funktion ist durch  1 ˛ n.  0 /
gn ./ D 2  ˚ ˚ 1 C (7.49)
 p  2 
n.  0 /   p 
gn ./ D 1  ˚ ˚ 1 .1  ˛/  ; (7.48) ˛ n.  0 /
 D ˚ ˚ 1 1  
2 
 2 R, gegeben (Aufgabe 7.41). Abb. 7.15 zeigt den Graphen
gegeben (Aufgabe 7.41). Abb. 7.16 zeigt die Gestalt dieser Gü-
dieser Gütefunktion für verschiedene Werte von n.
tefunktion für verschiedene Stichprobenumfänge. Man beachte
Natürlich kann die Teststatistik Tn auch zur Prüfung der Hy- die Ähnlichkeit mit der in Abb. 7.14 dargestellten Gütefunktion
pothese H0 W   0 gegen die Alternative H1 W  < 0 des zweiseitigen Binomialtests. J
260 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen


gn (μ) Man beachte, dass hier im Unterschied zum einseitigen Gauß-
Kapitel 7

1
Test der Hypothesen- und Alternativenbereich durch 0 WD
f.;  2 / j   0 ;  2 > 0g bzw. 1 WD f.;  2 / j  > 0 ;  2 >
0g gegeben sind. Der „Stör“-Parameter  2 ist für die Fragestel-
lung nicht von Interesse.
Es liegt nahe, für das obige Testproblem die in (7.47) defi-
nierte Prüfgröße Tn des Gauß-Tests zu studentisieren und die
n=9
im Nenner auftretende Standardabweichung durch die in (7.32)
n=4
definierte Stichprobenstandardabweichung Sn zu ersetzen. Auf
n=2
diese Weise entsteht die Prüfgröße
p
α n .X n  0 /
Tn WD (7.51)
μ0 μ
Sn
des Ein-Stichproben-t -Tests. Da nur große Werte von Tn ge-
Abb. 7.16 Gütefunktion des zweiseitigen Gauß-Tests für verschiedene gen H0 sprechen, würde man die Hypothese ablehnen, wenn
Stichprobenumfänge
Tn einen noch festzulegenden kritischen Wert überschreitet. Die
Darstellung
Wie das folgende Beispiel zeigt, hängt es ganz von der Frage- p p
stellung ab, ob der Gauß-Test ein- oder zweiseitig durchgeführt n .X n  / n .  0 /
Tn D C (7.52)
wird. Sn Sn
zeigt, wie der kritische Wert gewählt werden muss, wenn der
Beispiel (Konsumenten- und Produzentenrisiko) Ei- Test ein vorgegebenes Niveau ˛ besitzen soll. Ist  D 0 , so
ne Abfüllmaschine für Milchflaschen ist so konstruiert, dass hat Tn nach dem Satz von Student eine tn1 -Verteilung. Ist  der
die zufällige Abfüllmenge X (gemessen in ml) angenähert als wahre Erwartungswert, so hat der erste Summand in (7.52) eine
N.;  2 /-verteilt angenommen werden kann. Dabei gilt  D 2. tn1 -Verteilung. Da der zweite für  < 0 negativ ist, ergibt
Mithilfe einer Stichprobe soll überprüft werden, ob die Maschi- sich für solche 
ne im Mittel mindestens 1 l einfüllt, also   1 000 ml gilt. Das !
p
Produzentenrisiko besteht darin, dass  > 1 000 ml gilt, denn n.X n  /
dann würde systematisch im Mittel mehr eingefüllt, als nötig P; 2 .Tn  tn1I1˛ /  P; 2  tn1I1˛
Sn
wäre. Im Gegensatz dazu handelt es sich beim Konsumentenrisi-
ko um die Möglichkeit, dass die Maschine zu niedrig eingestellt D ˛:
ist, also  < 1 000 ml gilt. Möchte eine Verbraucherorganisa-
tion dem Hersteller statistisch nachweisen, dass die Maschine Also gilt P# .Tn  tn1I1˛ /  ˛ für jedes # D .;  2 / 2 0 ,
zu niedrig eingestellt ist, so testet sie unter Verwendung der und somit hat der Test, der H0 genau dann ablehnt, wenn Tn 
Prüfgröße (7.47) die Hypothese H0 W   1 000 gegen die tn1;1˛ gilt, das Niveau ˛. Die Gütefunktion
Alternative H1 W  < 1 000. Lehnt der Test die Hypothese gn .#/ D P# .Tn  tn1I1˛ /; # 2 ; (7.53)
H0 zum Niveau ˛ ab, so ist man bei kleinem ˛ praktisch si-
cher, dass die Maschine zu niedrig eingestellt ist. Prüft man in dieses Tests hängt von n, 0 und # D .;  2 / nur über ı WD
dieser Situation die Hypothese H0 W  D 0 gegen die zwei- p
n.  0 /= ab und führt auf die nichtzentrale t -Verteilung,
seitige Alternative H1 W  ¤ 0 , so möchte man testen, ob siehe Übungsaufgabe 7.7.
die Maschine richtig eingestellt ist, wobei sowohl systematische
Abweichungen nach oben und nach unten entdeckt werden sol- Soll die Hypothese
len. Ein einseitiger Test sollte nur verwendet werden, wenn vor
H0 W  D 0 gegen die Alternative H1 W  ¤ 0
der Datenerhebung klar ist, ob man sich gegenüber großen oder
kleinen Werten von  im Vergleich zu 0 absichern will. An- getestet werden, so erfolgt Ablehnung von H0 genau dann,
dernfalls erschleicht man sich Signifikanz. J wenn jTn j  tn1I1˛=2 gilt. Da Tn im Fall  D 0 die tn1 -
Verteilung besitzt, hat dieser Test das Niveau ˛.

Der Ein-Stichproben-t-Test prüft Hypothesen Beispiel Nach der Fertigpackungsverordnung von 1981 dür-
über den Erwartungswert einer fen nach Gewicht oder Volumen gekennzeichnete Fertigpackun-
Normalverteilung bei unbekannter Varianz gen gleicher Nennfüllmenge nur so hergestellt werden, dass die
Füllmenge im Mittel die Nennfüllmenge nicht unterschreitet
Wir legen jetzt ein statistisches Modell mit unabhängigen und je und eine in Abhängigkeit von der Nennfüllmenge festgelegte
N.;  2 /-verteilten Zufallsvariablen zugrunde, wobei  und  2 Minusabweichung von der Nennfüllmenge nicht überschreitet.
(beide) unbekannt sind. Zu prüfen sei wieder Letztere beträgt bei einer Nennfüllmenge von einem Liter 15 ml;
sie darf nur von höchstens 2 % der Fertigpackungen überschrit-
H0 W   0 gegen H1 W  > 0 : (7.50) ten werden. Fertigpackungen müssen regelmäßig überprüft wer-
7.4 Statistische Tests 261

Kapitel 7
Unter der Lupe: Typische Fehler im Umgang mit statistischen Tests

Über Wahrscheinlichkeiten von Hypothesen, Datenschnup- H1 angenommen wurde. In der Praxis weiß man aber nicht,
pern und Signifikanzerschleichung. ob H0 oder H1 zutrifft, da man sich sonst die Testdurchfüh-
rung ersparen könnte.
Ein oft begangener Fehler im Umgang mit Tests ist der
fälschliche Rückschluss vom Testergebnis auf die „Wahr-
Es ist ferner vom Grundprinzip statistischer Tests her un-
scheinlichkeit, dass H0 bzw. H1 gilt“. Ergibt ein Niveau-
zulässig, Hypothesen, die im Rahmen eines „Schnupperns“
˛-Test die Ablehnung von H0 aufgrund von x 2 X , so ist
in Daten gewonnen wurden, anhand dieser Daten zu testen.
eine Formulierung wie „Die Wahrscheinlichkeit ist höchs-
Der Test kann dann nur dem Wunsch des Hypothesen-
tens ˛, dass aufgrund des Testergebnisses die Hypothese H0
Formulierers entsprechend antworten. Haben sich z. B. in
zutrifft“ sinnlos, da das Signifikanzniveau nicht angibt, mit
einer Bernoulli-Kette mit unbekannter Trefferwahrschein-
welcher Wahrscheinlichkeit eine aufgrund einer Beobach-
lichkeit # in 100 Versuchen 60 Treffer ergeben, so muss
tung x getroffene Entscheidung falsch ist, vgl. hierzu die
die Hypothese H0 W # D 0:6 anhand „unvoreingenom-
Übungsaufgaben 7.3, 7.4 und 7.5. Das Signifikanzniveau ˛
mener“, unter denselben Bedingungen gewonnener Daten
charakterisiert nur in dem Sinne das Testverfahren, dass bei
geprüft werden.
Unterstellung der Gültigkeit von H0 die Wahrscheinlichkeit
für eine Ablehnung von H0 höchstens ˛ ist. Problematisch im Umgang mit Tests ist auch, dass fast nur
Führt man etwa einen Test zum Niveau 0.05 unter unabhän- signifikante Ergebnisse veröffentlicht werden, da man die
gigen gleichartigen Bedingungen 1 000-mal durch, so wird anderen als uninteressant einstuft. Der damit einhergehende
sich für den Fall, dass die Hypothese H0 gilt, in etwa 50 Fäl- Verzerrungs-Effekt des Verschweigens nichtsignifikanter Er-
len ein signifikantes Ergebnis, also eine Ablehnung von H0 , gebnisse wird publication bias genannt. Auf der Jagd nach
einstellen. In jedem dieser ca. 50 Fälle wurde mit Sicherheit Signifikanz wird manchmal auch verzweifelt nach einem
eine falsche Entscheidung getroffen. Diese Sicherheit war Test gesucht, der gegebenen Daten diese höhere Weihe er-
aber nur vorhanden, weil wir a priori die Gültigkeit von H0 teilt (für kompliziertere, hier nicht behandelte Testprobleme
für alle 1 000 Testläufe unterstellt hatten! In gleicher Weise existieren häufig mehrere Tests, die jeweils zur „Aufdeckung
wird sich bei Unterstellung der Alternative H1 in 1 000 unab- bestimmter Alternativen“ besonders geeignet sind). Hat man
hängigen Testdurchführungen ein gewisser Prozentsatz von etwa nach neun vergeblichen Anläufen endlich einen solchen
signifikanten Ergebnissen, also Ablehnungen von H0 , ein- Test gefunden, so ist es ein dreistes Erschleichen von Si-
stellen. Hier hat man in jedem dieser Fälle mit Sicherheit gnifikanz, das Nichtablehnen der Hypothese durch die neun
eine richtige Entscheidung getroffen, weil die Gültigkeit von anderen Tests zu verschweigen.

Unter der Lupe: Ein- oder zweiseitiger Test?

Legt man die Richtung eines einseitigen Tests nach Erhebung der Hypothese H0 W  D 0 gegen die Alternative H1 W
der Daten fest, so täuscht man Signifikanz vor.  ¤ 0 zum gleichen Niveau ˛ und zum gleichem Stichpro-
benumfang n.
Die Abbildung zeigt die Gütefunktionen des einseitigen
Gauß-Tests der Hypothese H0 W   0 gegen die Alter- Es ist nicht verwunderlich, dass der einseitige Test Alterna-
native H1 W  > 0 (blau) und des zweiseitigen Gauß-Tests tiven  > 0 mit größerer Wahrscheinlichkeit erkennt und
somit leichter zu einem signifikanten Resultat kommt als der
zweiseitige Test, der im Hinblick auf die zweiseitige Alter-
1 native  ¤ 0 hin konzipiert wurde. Der zweiseitige Test
lehnt ja die Hypothese  D 0 „erst“ ab, wenn die Un-
gleichung jTn j  ˚ 1 .1  ˛=2/ erfüllt ist. Der einseitige
Test mit oberem Ablehnbereich kommt jedoch schon im Fall
Tn  ˚ 1 .1  ˛/ zu einer Ablehnung der Nullhypothese. In
gleicher Weise lehnt der Test mit unterem Ablehnbereich die
Hypothese  D 0 (sogar:   0 ) zugunsten der Alternati-
ve  < 0 ab, wenn Tn  ˚ 1 .1  ˛/ gilt. Wenn man also
α nach Beobachtung der Teststatistik Tn die Richtung der Al-
μ0 μ ternative festlegt und sich gegen H0 W  D 0 entscheidet,
wenn jTn j  ˚ 1 .1˛/ gilt, so hat man de facto einen zwei-
Gütefunktionen des ein- und zweiseitigen Gauß-Tests bei gleichem seitigen Test zum Niveau 2˛ durchgeführt. Das Testergebnis
Stichprobenumfang ist also in Wirklichkeit weniger signifikant.
262 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Unter der Lupe: Der p-Wert

Es liege ein statistisches Modell .X ; B; .P# /#2 / vor, wo- T .x1 ; : : : ; xn / D x1 C : : : C xn . Da P# .T  c/ nach Auf-
bei die Hypothese H0 W # 2 0 gegen die Alternative gabe 7.38 a) monoton in # wächst, wird das Supremum
H1 W # 2 1 getestet werden soll. Die Testentscheidung in (7.54) für # D #0 angenommen, und der p-Wert zu
gründe auf einer Prüfgröße T W X ! R. Dabei erfolge eine x D .x1 ; : : : ; xn / ist
Ablehnung von H0 für große Werte von T .
!
Anstatt einen Höchstwert ˛ für die Wahrscheinlichkeit eines X
n
n j
p.x/ D P#0 .T  T .x// D # .1  #0 /nj :
Fehlers erster Art festzulegen und dann den kritischen Wert j 0
j DT .x/
für T zu wählen, stellen Statistik-Programmpakete meist ei-
nen sog. p-Wert p.x/ zur Beobachtung x 2 X bereit. Hierzu
beachte man, dass bei Wahl von c als kritischem Wert Setzen wir speziell #0 D 0:5 und n D 20 sowie T .x/ D 13,
so folgt p.x/ D 0:0576, vgl. das Beispiel der tea tasting lady
˛.c/ WD sup P# .T  c/ (7.54) zu Abb. 7.13.
#2 0
Wird in obiger Situation H0 W # D 1=2 gegen H1 W # ¤ 1=2
die kleinste Zahl ˛ ist, für die dieser Test noch das Niveau ˛ getestet und die Prüfgröße T .x/ D jx1 C : : : C xn  n=2j
besitzt. gewählt, so ist der p-Wert zu x gleich
Der p-Wert p.x/ zu x 2 X ist durch ˛.T .x// definiert.  n1 !
1 X
n
n
Er liefert sofort eine Anweisung an jemanden, der einen p.x/ D P0:5 .T  T .x// D :
Test zum Niveau ˛ durchführen möchte: Ist p.x/  ˛, so 2 j
j Dn=2CT .x/
lehnt man H0 ab, andernfalls erhebt man keinen Einwand
gegen H0 .
Problematisch an der Verwendung von p-Werten ist u. a.,
Als Beispiel betrachten wir einen einseitigen Binomialtest dass sie leicht missverstanden werden. So wäre es ein gro-
der Hypothese H0 W # 2 0 WD .0; #0  gegen die ßer Irrtum zu glauben, dass etwa im Falle p.x/ D 0:017
Alternative H1 W # 2 1 WD .#0 ; 1/, der auf Realisierun- die Hypothese H0 „mit der Wahrscheinlichkeit 0:017 richtig
gen x1 ; : : : ; xn von unabhängigen und je Bin.1; #/-verteilten sei “ (s. auch die Unter-der-Lupe-Box zu typischen Fehlern
Zufallsvariablen X1 ; : : : ; Xn gründet. Die Prüfgröße T ist im Umgang mit statistischen Tests).

den. Diese Überprüfung besteht zunächst aus der Feststellung trachtet, wenn die Ungleichung
der sog. Losgröße, also der Gesamtmenge der Fertigpackungen
tn1I0:995
gleicher Nennfüllmenge, gleicher Aufmachung und gleicher x n  0 C p sn
Herstellung, die am selben Ort abgefüllt sind. n

Aus einem Los wird dann eine Zufallsstichprobe vom Umfang gilt, bedeutet die amtliche Prüfung, dass ein einseitiger t -Test
n entnommen, wobei n in Abhängigkeit von der Losgröße fest- der Hypothese H0 W   0 gegen die Alternative H1 W  > 0
gelegt ist. So gilt etwa n D 13, wenn die Losgröße zwischen zum Niveau ˛ D 0:005 durchgeführt wird. J
501 und 3 200 liegt. Die Vorschriften über die mittlere Füll-
menge sind erfüllt, wenn der festgestellte Mittelwert x n der
amtlich gemessenen Füllmengen x1 ; : : : ; xn , vermehrt um den Der Zwei-Stichproben-t-Test prüft auf
Betrag k sn , mindestens gleich der Nennfüllmenge ist. Dabei Gleichheit der Erwartungswerte von
ist sn die Stichprobenstandardabweichung, und k wird für die
Stichprobenumfänge 8, 13 und 20 (diese entsprechen Losgrö-
Normalverteilungen mit unbekannter Varianz
ßen zwischen 100 und 500, 501 bis 3 200 und größer als 3 200)
Wir nehmen jetzt an, dass X1 ; : : : ; Xm und Y1 ; : : : ; Yn unab-
zu k D 1:237, k D 0:847 und k D 0:640 festgelegt. Ein Ver-
hängige Zufallsvariablen mit den Normalverteilungen Xi
gleich mit Tab. 7.2 zeigt, dass k durch
N.;  2 /, i D 1; : : : ; m, und Yj N.;  2 /, j D 1; : : : ; n, sind.
Die Parameter ;  und  2 sind unbekannt. In dieser Situation
tn1I0:995 prüft der Zwei-Stichproben-t -Test die Hypothese H0 W   
k WD p
n gegen die Alternative H1 W  >  (einseitiger Test) bzw.
H0 W  D  gegen H1 W  ¤  (zweiseitiger Test). Die Prüf-
gegeben ist. Schreiben wir 0 für die Nennfüllmenge und  größe ist
für die mittlere Füllmenge, so zeigt die beschriebene Vorge- q
hensweise, dass die zufallsbehaftete Füllmenge als N.;  2 /- mn
.X m  Y n /
mCn
normalverteilt betrachtet wird, wobei  2 unbekannt ist. Da man Tm;n D
die Vorschriften über die mittlere Füllmenge  als erfüllt be- Sm;n
7.4 Statistische Tests 263

2
mit Sm;n wie in (7.38). Nach (7.41) hat Tm;n im Fall  D  Bei verbundenen Stichproben wird die gleiche

Kapitel 7
(unabhängig von  2 ) eine tmCn2 -Verteilung. Größe zweimal gemessen
Hiermit ist klar, dass der zweiseitige Zwei-Stichproben-t -Test
H0 W  D  genau dann zum Niveau ˛ ablehnt, wenn Im Unterschied zu unabhängigen Stichproben treten in den An-
wendungen häufig verbundene oder gepaarte Stichproben auf.
jTm;n j  tmCn2I1˛=2 Dies ist immer dann der Fall, wenn für jede Beobachtungsein-
heit die gleiche Zielgröße zweimal gemessen wird, und zwar
gilt. Andernfalls besteht kein Einwand gegen H0 . in verschiedenen „Zuständen“ dieser Einheit. Beispiele hierfür
sind der Blutdruck (Zielgröße) einer Person (Beobachtungsein-
Der einseitige Zwei-Stichproben-t -Test lehnt H0 W    zu-
heit) vor und nach Einnahme eines Medikaments (Zustand 1
gunsten von H1 W  >  ab, wenn Tm;n  tmCn2I1˛ gilt.
bzw. 2) oder der Bremsweg (Zielgröße) eines Testfahrzeugs
Analog testet man H0 W    gegen H1 W  < . Dieser Test
(Beobachtungseinheit), das mit zwei Reifensätzen unterschied-
ist ein Test zum Niveau ˛, denn wegen
licher Profilsorten (Zustand 1 bzw. Zustand 2) bestückt wird.
p mn
mCn .X m Y n .// Modellieren Xj bzw. Yj die zufallsbehafteten Zielgrößen-Werte


Tm;n D Sm;n
der j -ten Beobachtungseinheit im Zustand 1 bzw. Zustand 2, so
 können zwar die Paare .Xj ; Yj /, j D 1; : : : ; n als unabhängige
identisch verteilte bivariate Zufallsvektoren angesehen werden.
mit Für jedes j sind Xj und Yj jedoch nicht stochastisch unabhän-
r gig, da sie sich auf dieselbe Beobachtungseinheit beziehen.
mn 
ıD 
mCn  In diesem Fall betrachtet man die stochastisch unabhängigen
und identisch verteilten Differenzen Zj WD Xj  Yj , j D
wächst seine Gütefunktion streng monoton in ı. Nach Aufga- 1; : : : ; n, der Zielgröße in den beiden Zuständen. Haben die un-
be 7.7 hat Tm;n unter P# , # D .; ;  2 /, eine nichtzentrale terschiedlichen Zustände keinen systematischen Effekt auf die
tmCn2 -Verteilung mit Nichtzentralitätsparameter ı. Zielgröße, so sollte die Verteilung von Z1 symmetrisch um 0
sein. Nimmt man spezieller an, dass Z1 N.;  2 / gilt, wo-
Beispiel In einem Werk werden Widerstände in zwei unter- bei  und  2 unbekannt sind, so testet der t -Test für verbundene
schiedlichen Fertigungslinien produziert. Es soll geprüft wer- Stichproben die Hypothese H0 W   0 gegen die Alternative
den, ob die in jeder der Linien hergestellten Widerstände im H1 W  > 0 (einseitiger Test) bzw. die Hypothese H0 W  D 0
P
Mittel den gleichen Wert (gemessen in Ohm) besitzen. Dabei gegen H1 W  ¤ 0 (zweiseitiger Test). Mit Z n D n1 jnD1 Zj
wird unterstellt, dass die zufallsbehafteten Widerstandswerte als ist die Prüfgröße
Realisierungen unabhängiger normalverteilter Zufallsvariablen p
mit gleicher unbekannter Varianz, aber möglicherweise unter- n Zn
Tn WD q P
schiedlichen (und ebenfalls unbekannten) Erwartungswerten  .n  1/1 jnD1 .Zj  Z n /2
bzw.  für Fertigungslinie 1 bzw. 2 angesehen werden können.
Bei der Messung der Widerstandswerte einer aus der Ferti- die gleiche wie in (7.51), nur mit dem Unterschied, dass das dor-
gungslinie 1 entnommenen Stichprobe x1 ; : : : ; xm vom Umfang tige Xj durch Zj ersetzt wird. Gilt  D 0, so hat Tn nach dem
m D 15 ergaben sich Stichprobenmittelwert und Stichproben- Satz von Student eine tn1 -Verteilung. Die Hypothese H0 wird
P zum Niveau ˛ abgelehnt, falls Tn  tn1I1˛ gilt, andernfalls
varianz zu x 15 D 151:1 bzw. 15 2
i D1 .xi  x 15 / =.15  1/ D 2:56.
Die entsprechenden, aus einer Stichprobe vom Umfang n D 11 erhebt man keinen Einwand gegen H0 . Beim zweiseitigen Test
aus der Fertigungslinie 2 erhaltenen Werte waren y 11 D 152:8 erfolgt Ablehnung von H0 zum Niveau ˛ genau dann, wenn
P jTn j  tn1I1˛=2 gilt (siehe hierzu Aufgabe 7.33).
und j11D1 .yj  y 11 /2 =.11  1/ D 2:27.
Da die Hypothese H0 W  D  gegen H1 W  ¤  getestet wer-
den soll, verwenden wir den zweiseitigen Zwei-Stichproben- Der F-Test für den Varianzquotienten prüft auf
t -Test. Aus den obigen Stichprobenvarianzen ergibt sich die Gleichheit der Varianzen bei unabhängigen
2
Realisierung von Sm;n (mit m D 15, n D 11) zu
normalverteilten Stichproben
2 1
s15;11 D  .14  2:56 C 10  2:27/ D 2:44: In Verallgemeinerung der beim Zwei-Stichproben-t -Test ge-
15 C 11  2
machten Annahmen setzen wir jetzt voraus, dass X1 ; : : : ; Xm ;
Folglich nimmt die Prüfgröße T15;11 den Wert Y1 ; : : : ; Yn unabhängige Zufallsvariablen mit den Normalver-
r teilungen N.;  2 / für i D 1; : : : ; m und N.;  2 / für j D
15  11 151:1  152:8 1; : : : ; n sind. Dabei sind ; ;  2 und  2 unbekannt. Die Va-
T15;11 D  p D 2:74 rianzen der Beobachtungen in der Behandlungs- und der Kon-
15 C 11 2:44
trollgruppe können also verschieden sein. Will man in dieser
an. Zum üblichen Signifikanzniveau ˛ D 0:05 ergibt sich aus Situation die Hypothese
Tab. 7.2 der kritische Wert zu t24I0:975 D 2:064. Wegen jT15;11j 
2:064 wird die Hypothese abgelehnt. J H0 W  2 D  2
264 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Tab. 7.5 p-Quantile Fr;sIp der Fr;s -Verteilung für p D 0:95


Kapitel 7

r
s 1 2 3 4 5 6 7 8 9
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07

gegen die (zweiseitige) Alternative H1 W  2 ¤  2 testen, so (1890–1962) zurückgehende Fr;s -Verteilung ist also die Ver-
2 2 teilung zweier unabhängiger reduziert Chi-Quadrat-verteilter
Pm  und  2durch
bietet sich an, die unbekannten Varianzen
1
die Stichprobenvarianzen .m  1/ i D1 .Xi  X m / und Zufallsvariablen mit r bzw. s Freiheitsgraden. Die Dichte der
P
.n  1/1 jnD1 .Yj  Y n /2 zu schätzen und als Prüfgröße den Fr;s -Verteilung ist nach Aufgabe 7.43 durch
sog. Varianzquotienten  r r=2
Pm s
t r=21
1
i D1 .Xi  X m /
2 fr;s .t / WD r s
 .rCs/=2 (7.56)
Qm;n WD m1
Pn (7.55) B ;
2 2
1 C rs t
1 2
n1 j D1 .Yj  Y n /
für t > 0 und fr;s .t / WD 0 sonst, gegeben. Tab. 7.5 gibt für aus-
zu verwenden. Bei Gültigkeit der Hypothese kann man hier ge- gewählte Werte von r und s das mit Fr;sIp bezeichnete p-Quantil
danklich Zähler und Nenner durch die dann gleiche Varianz  2 der Fr;s -Verteilung für p D 0:95 an. Aufgrund der Erzeugungs-
dividieren und erhält, dass Qm;n die nachstehend definierte Ver- weise der Fr;s -Verteilung gilt
teilung mit r WD m  1 und s WD n  1 besitzt.
1
Fr;sIp D (7.57)
Fs;rI1p
Definition der Fr;s -Verteilung
Sind R und S unabhängige Zufallsvariablen mit R 2r (Aufgabe 7.8), sodass mithilfe von Tab. 7.5 für gewisse Werte
und S 2s , so heißt die Verteilung des Quotienten von r und s auch 5 %-Quantile bestimmt werden können. So
gilt z. B. F8;9I0:05 D 1=F9;8I0:95 D 1=3:39 D 0:295. J
1
r
R
Q WD 1
Der F -Test für den Varianzquotienten lehnt die Hypothese H0 W
s
S  2 D  2 zum Niveau ˛ genau dann ab, wenn

(Fishersche) F-Verteilung mit r Zähler- und s Nenner- Qm;n  Fm1;n1I˛=2 oder Qm;n  Fm1;n1I1˛=2
Freiheitsgraden, und wir schreiben hierfür
gilt. Im Fall m D 9 und n D 10 würde man also H0 zum Ni-
Q Fr;s : veau ˛ D 0:1 verwerfen, wenn Q9;10  F8;9W0:95 D 3:23 oder
Q9;10  F8;9W0:05 D 1=F9;8W0:95 D 1=3:39 D 0:295 gilt. Bei solch
kleinen Stichprobenumfängen können sich also die Schätzwerte
Selbstfrage 8 für  2 und  2 um den Faktor 3 unterscheiden, ohne dass dieser
Sehen Sie, dass Qm;n unter H0 Fm1;n1 -verteilt ist? Unterschied zum Niveau ˛ D 0:1 signifikant wäre.
Analog zu früher lehnt man die Hypothese H0 W  2   2 ge-
gen die einseitige Alternative H1 W  2 >  2 zum Niveau ˛
Kommentar Dividiert man eine Chi-Quadrat-verteilte Zu- ab, wenn Qm;n  Fm1;n1I1˛ gilt. Da die Gütefunktion die-
fallsvariable durch die Anzahl der Freiheitsgrade, so entsteht ei- ses Tests streng monoton in  2 = 2 wächst, besitzt dieser Test
ne sog. reduzierte Chi-Quadrat-Verteilung. Die auf R. A. Fisher das Niveau ˛ (Aufgabe 7.8).
7.4 Statistische Tests 265

Der exakte Test von Fisher prüft auf Gleichheit konkreten Wert von p) mindestens s Treffer in der X -Stichprobe

Kapitel 7
zu beobachten, ist
zweier Wahrscheinlichkeiten m n 
Xk
j kj
Wir betrachten jetzt ein Zwei-Stichproben-Problem mit unab- mCn :
hängigen Zufallsvariablen X1 ; : : : ; Xm ; Y1 ; : : : ; Yn , wobei Xi j Ds k
Bin.1; p/ für i D 1; : : : ; m und Yj Bin.1; q/ für j D
Ist dieser Wert höchstens ˛, so wird H0 zum Niveau ˛ abge-
1; : : : ; n. Als Anwendungsszenarium können m C n Perso-
nen dienen, von denen m nach einer neuen und n nach einer lehnt. Gilt in Wahrheit p < q, so wäre diese Wahrscheinlichkeit
herkömmlichen (alten) Methode behandelt werden. Das Be- im Vergleich zum Fall p D q noch kleiner. Formal ist also der
kritische Bereich dieses Tests durch
handlungsergebnis schlage sich in den Möglichkeiten Erfolg
(1) und Misserfolg (0) nieder, sodass p und q die unbekann- n ˇXk o
ˇ
ten Erfolgswahrscheinlichkeiten für die neue bzw. alte Methode K WD .x1 ; : : : ; xm ; y1 ; : : : ; yn / 2 X ˇ hm;n;k .j /  ˛
sind. Der Parameterraum eines statistischen Modells mit X WD j Ds
f0; 1gmCn ist dann Pm Pn
mit k D i D1 xi C j D1 yj und s D x1 C : : : C xm gegeben.
WD f# WD .p; q/ j 0 < p; q < 1g D .0; 1/2 ; Beim zweiseitigen Test H0 W p D q gegen H1 W p ¤ q würde
man analog zum zweiseitigen Binomialtest ebenfalls mit der hy-
und es gilt für .x1 ; : : : ; xm ; y1 ; : : : ; yn / 2 X pergeometrischen Verteilung (7.58) arbeiten, aber von jedem der
beiden Enden ausgehend jeweils die Wahrscheinlichkeitsmasse
P# .X1 D x1 ; : : : ; Xm D xm ; Y1 D y1 ; : : : ; Yn D yn / ˛=2 wegnehmen.
D p s .1  p/ms q t .1  q/nt :
Beispiel Als Zahlenbeispiel für diesen Test betrachten wir
Dabei sind s D x1 C : : : C xm und t D y1 C : : : C yn die
den Fall m D 12 und n D 10. Es mögen sich insgesamt k D 9
jeweiligen Anzahlen der Erfolge in den beiden Stichproben. In
Heilerfolge (Treffer) ergeben haben, von denen s D 7 auf die
dieser Situation testet man üblicherweise die Hypothese
nach der neuen und nur zwei auf die nach der alten Methode
H0 W p  q behandelten Patienten fallen.

gegen die Alternative H1 W p > q (einseitiger Test) oder die Hy- Erfolg Misserfolg Gesamt
pothese H0 W p D q gegen die Alternative H1 W p ¤ q (zwei- neu 7 5 12
seitiger Test). Offenbar entspricht H0 der Teilmenge 0 WD alt 2 8 10
f.p; q/ 2 j p  qg von . Da die relativen Trefferhäufigkei- Gesamt 9 13 22
ten s=m und t =n Schätzwerte für die Wahrscheinlichkeiten p
bzw. q darstellen, erscheint es plausibel, H0 abzulehnen, wenn Da die neue Methode von vorneherein nicht schlechter als die
s=m im Vergleich zu t =n „zu groß ist“. Da sich „zu groß“ nur alte erachtet wird, untersuchen wir (unter p D q) die bedingte
auf die Verteilung
P der zufälligen relativen
P Trefferhäufigkeiten Wahrscheinlichkeit, bei insgesamt k D 12 Heilerfolgen min-
X m WD m1 jmD1 Xj und Y n WD n1 jnD1 Yj unter H0 bezie- destens 7 davon unter den nach der neuen Methode behandelten
hen kann und diese Verteilung selbst für diejenigen .p; q/ 2 0 Patienten anzutreffen. Diese ist
mit p D q, also „auf der Grenze zwischen Hypothese und Al- 12 10 
ternative“, vom unbekannten p abhängt, ist zunächst nicht klar, X9
j 9j
wie eine Teststatistik und ein zugehöriger kritischer Wert ausse- 22 0:073
j D7 9
hen könnten.
An dieser Stelle kommt eine Idee von R. A. Fisher ins Spiel. und somit nicht klein genug, um die Hypothese H0 W p  q auf
p D dem 5 %-Niveau zu verwerfen, wohl aber auf dem 10 %-Niveau.
Stellen wir uns vor, esPgälte
m Pnq, und wir hätten insge- Hätten wir 8 Heilerfolge nach der neuen und nur einen nach der
samt k WD s C t D i D1 xi C j D1 yj Treffer beobachtet.
Schreiben wir S WD X1 C : : : C Xm und T WD Y1 C : : : C Yn alten beobachtet, so hätte sich der p-Wert
für die zufälligen Trefferzahlen aus beiden Stichproben, so ist 12 10 
X9
j 9j
nach Aufgabe 4.11 die bedingte Verteilung von S unter der 22 0:014
Bedingung S C T D k durch die nicht von p abhängende hy- j D8 9
pergeometrische Verteilung Hyp.k; m; n/ gegeben. Es gilt also
für alle infrage kommenden j und eine Ablehnung von H0 zum Niveau 0:05 ergeben. J
m n 
j kj
P .S D j jS C T D k/ D mCn DW hm;n;k .j /: (7.58) Konsistenz ist eine wünschenswerte Eigenschaft
k
einer Testfolge
Der sog. exakte Test von Fisher beurteilt die Signifikanz einer
Realisierung s von S nach dieser Verteilung, also bedingt nach Ganz analog zur Vorgehensweise bei Punktschätzern und Kon-
der beobachteten Gesamttrefferzahl k D s Ct . Die Wahrschein- fidenzbereichen möchten wir jetzt asymptotische Eigenschaften
lichkeit, unter dieser Bedingung und p D q (unabhängig vom von Tests definieren und untersuchen. Hierzu betrachten wir
266 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

der Einfachheit halber eine Folge unabhängiger und identisch denen das statistische Modell nichtparametrisch ist, nicht immer
Kapitel 7

verteilter Zufallsvariablen X1 ; X2 ; : : :, deren Verteilung von ei- gegeben. Zumindest sollte man sich stets überlegen, welche al-
nem Parameter # 2 abhängt. Zu testen sei die Hypothese ternativen Verteilungen asymptotisch für n ! 1 mit immer
H0 W # 2 0 gegen die Alternative H1 W # 2 1 . Dabei sind größerer Sicherheit erkannt werden können. J
0 , 1 disjunkte nichtleere Mengen, deren Vereinigung ist.
Der Stichprobenraum für .X1 ; : : : ; Xn / sei mit Xn bezeichnet. Beispiel (Asymptotischer einseitiger Binomialtest) Es
Ein auf X1 ; : : : ; Xn basierender Test für H0 gegen H1 ist eine seien X1 ; : : : ; Xn ; : : : unabhängige und je Bin.1; #/-verteilte
mit Zufallsvariablen, wobei # 2 WD .0; 1/. Zu testen sei die Hy-
'n WD 1fKn g pothese H0 W #  #0 gegen die Alternative H1 W # > #0 ;
es gilt also 0 D .0; #0  und 1 D .#0 ; 1/. Dabei ist #0 ein
abgekürzte Indikatorfunktion eines kritischen Bereichs Kn 
Wert, der vor Beobachtung von X1 ; : : : ; Xn festgelegt wird. Wir
Xn . Gilt 'n .x/ D 1 für x 2 Xn , so wird H0 aufgrund der Rea-
möchten eine Testfolge .'n / konstruieren, die asymptotisch ein
lisierung x von .X1 ; : : : ; Xn / abgelehnt, andernfalls erhebt man
vorgegebenes Niveau ˛ besitzt und konsistent für H0 gegen H1
keinen Einwand gegen H0 . Im Allgemeinen wird 'n D 1fTn 
ist. Setzen wir
cn g mit einer Prüfgröße Tn W Xn ! R und einem kritischen p
Wert cn gelten. cn WD n#0 C n#0 .1  #0 /  ˚ 1 .1  ˛/ (7.59)
Wir werden bei Wahrscheinlichkeitsbetrachtungen stets P# und für .x1 ; : : : ; xn / 2 Xn WD f0; 1gn
schreiben, also eine Abhängigkeit der gemeinsamen Verteilung X
n

von X1 ; : : : ; Xn unter # vom Stichprobenumfang n unterdrü-


'n .x1 ; : : : ; xn / WD 1 xj  cn ;
cken. Wie schon früher erwähnt, ist eine solche aufwändigere
j D1
Schreibweise auch entbehrlich, weil X1 ; X2 ; : : : als unendliche
Folge von Koordinatenprojektionen auf einem gemeinsamen so gilt mit dem Zentralen Grenzwertsatz von De Moivre-
Wahrscheinlichkeitsraum definiert werden kann, dessen Grund- Laplace
X 
raum der Folgenraum RN ist. n
lim g'n .#0 / D lim P#0 Xj  cn
Liegt diese Situation vor, so spricht man bei .'n /n1 von einer n!1 n!1
j D1
Testfolge. Der Stichprobenumfang n muss dabei nicht unbe-  Pn 
dingt ab n D 1 laufen. Es reicht, wenn 'n für genügend großes j D1 Xj  n#0
D lim P#0 p 1
 ˚ .1  ˛/
n definiert ist. n!1 n#0 .1  #0 /
Man beachte, dass die Gütefunktion von 'n durch D 1  ˚.˚ 1 .1  ˛// D ˛:

g'n .#/ WD E# 'n D P# ..X1 ; : : : ; Xn / 2 Kn / ; # 2 ; Da nach Aufgabe 7.38 a) die Funktion G'n streng monoton
wächst, hat die Testfolge .'n / asymptotisch das Niveau ˛.
gegeben ist. Um die Konsistenz von .'n / nachzuweisen, sei #1 mit #0 <
#1 < 1 beliebig gewählt. Weiter sei " > 0 mit " < #1  #0 .
Aufgrund des schwachen Gesetzes großer Zahlen gilt
Asymptotisches Niveau, Konsistenz
ˇ X ˇ 
ˇ1 n ˇ
Eine Testfolge .'n / für H0 W # 2 0 gegen H1 W # 2 1 ˇ
P #1 ˇ ˇ
Xj  #1 ˇ < " ! 1 für n ! 1: (7.60)
n j D1
hat asymptotisch das Niveau ˛, ˛ 2 .0; 1/, falls gilt:
Wird n so groß gewählt, dass die Ungleichung
lim sup g'n .#/  ˛ 8# 2 0 ; p
n!1 n.#1  #0  "/
an WD p  ˚ 1 .1  ˛/
heißt konsistent für H0 gegen H1 , falls gilt: #0 .1  #0 /

lim g'n .#/ D 1 8# 2 1 : erfüllt ist, so folgen die Ereignis-Inklusionen


n!1 ˇ X ˇ
Pn

ˇ1 n ˇ j D1 Xj  n#0
ˇ X  # ˇ < "  p  a
ˇn j 1ˇ n
j D1 n#0 .1  #0 /
Kommentar Die erste Forderung besagt, dass die Wahr- Pn

j D1 Xj  n#0
scheinlichkeit für einen Fehler erster Art – unabhängig vom  p 1
 ˚ .1  ˛/
konkreten Parameterwert # 2 0 – asymptotisch für n ! 1 n#0 .1  #0 /
höchstens gleich einem vorgegebenen Wert ˛ ist. Die zwei- X n

te Eigenschaft der Konsistenz betrifft den Fehler zweiter Art. D Xj  cn


Liegt ein # 2 1 und somit die Alternative H1 zu H0 vor, j D1
so möchte man bei wachsendem Stichprobenumfang mit einer und somit wegen (7.60) die Konsistenzeigenschaft
für n ! 1 gegen null konvergierenden Wahrscheinlichkeit
X n 
einen Fehler zweiter Art begehen. Diese Eigenschaft ist selbst-
verständlich wünschenswert, jedoch vor allem in Situationen, in lim g'n .#1 / D lim P#1 Xj  cn D 1: J
n!1 n!1
j D1
7.4 Statistische Tests 267

Man beachte, dass wir die Abhängigkeit der Gütefunktion vom Der Chi-Quadrat-Anpassungstest prüft

Kapitel 7
Stichprobenumfang n schon im Fall der tea tasting lady anhand
die Verträglichkeit von relativen Häufigkeiten
von Abb. 7.13 und im Fall des ein- und zweiseitigen Gauß-Tests
mit den Abb. 7.15 und 7.16 veranschaulicht haben. Die Gestalt mit hypothetischen Wahrscheinlichkeiten
der Gütefunktionen (7.48) und (7.49) des ein- bzw. zweiseitigen
Gauß-Tests zeigt, dass diese Verfahren, jeweils als Testfolgen Wir lernen jetzt mit dem von Karl Pearson (1857–1938) entwi-
betrachtet, konsistent sind. In diesem Fall kann man sogar mit ckelten Chi-Quadrat-Anpassungstest (im Folgenden kurz Chi-
elementaren Mitteln beweisen, dass die Wahrscheinlichkeit für Quadrat-Test genannt) eines der ältesten Testverfahren der
einen Fehler 2. Art exponentiell schnell gegen null konvergiert Statistik kennen. In seiner einfachsten Form prüft dieser Test
(Aufgabe 7.42). die Güte der Anpassung von relativen Häufigkeiten an hypo-
thetische Wahrscheinlichkeiten in einem multinomialen Ver-
Selbstfrage 9 suchsschema. Hierzu betrachten wir n unabhängige gleichartige
Versuche (Experimente) mit jeweils s möglichen Ausgängen
Können Sie die Konsistenz des ein- und zweiseitigen Gauß-
1; 2; : : : ; s, die wir wie früher Treffer 1. Art, : : : ,Treffer s-ter
Tests zeigen?
Art nennen. Beispiele sind der Würfelwurf mit den Ergebnissen
1 bis 6 (s D 6/ oder ein Keimungsversuch bei Samen mit den
Ausgängen normaler Keimling, anormaler Keimling und fauler
Beispiel (Planung des Stichprobenumfangs) Wir wol-
Keimling (s D 3).
len jetzt in der Situation des vorigen Beispiels eine Näherungs-
formel für den nötigen Mindeststichprobenumfang n angeben, Bezeichnet pj die Wahrscheinlichkeit für einen Treffer j -
um einen vorgegebenen Wert #1 , #1 > #0 , mit einer ebenfalls ter Art, so hat der Zufallsvektor X WD .X1 ; : : : ; Xs /
vorgegebenen Wahrscheinlichkeit ˇ, wobei ˛ < ˇ < 1, zu „er- der Trefferanzahlen nach (4.31) die Multinomialverteilung
kennen“. Die Forderung Mult.nI p1 ; : : : ; ps /. Der Wertebereich für X ist die Menge
0 1
Xn Xn WD fk D .k1 ; : : : ; ks / 2 N0s j k1 C : : : C ks D ng
ˇ D P #1 @ Xj  cn A
Š

j D1
aller möglichen Vektoren von Trefferanzahlen. Wir nehmen an,
dass p1 ; : : : ; ps unbekannt sind und legen als Parameterraum
mit cn wie in (7.59) geht für eines statistischen Modells die Menge
P p die standardisierte Zufallsvariable
Sn WD . jnD1 Xj  n#1 /= n#1 .1  #1 / in 8 9
< ˇ X
s =
p ! ˇ
p WD # WD .p1 ; : : : ; ps /ˇp1 > 0; : : : ; ps > 0; pj D 1
Š n.#0  #1 / C #0 .1  #0 /˚ 1 .1  ˛/ : ;
ˇ D P#1 Sn  
p j D1
#1 .1  #1 /
zugrunde. Zu testen sei die Hypothese
über. Durch Approximation mit der Standardnormalverteilung
(obwohl der Ausdruck rechts vom Größer-Zeichen von n ab- H0 W # D #0 D .1 ; : : : ; s /
hängt) ergibt sich
gegen die Alternative H1 W # ¤ #0 . Dabei ist #0 ein Vektor mit
s !
#0 .1  #0 / p #0  #1 vorgegebenen Wahrscheinlichkeiten. Im Fall s D 6 und 1 D
1
ˇ 1  ˚ ˚ .1  ˛/ C np ; : : : D 6 D 1=6 geht es also etwa darum, einen Würfel auf
#1 .1  #1 / #1 .1  #1 / Echtheit zu prüfen. Im Folgenden schreiben wir kurz
also nŠ Y s
k
" s #2 mn .k/ WD  j; k 2 Xn ;
k1 Š  : : :  ks Š j D1 j
#1 .1  #1 / #0 .1  #0 /
n ˚ 1 .1  ˇ/  ˚ 1 .1  ˛/ :
.#0  #1 /2 #1 .1  #1 / für die Wahrscheinlichkeit P#0 .X D k/.
Als Zahlenbeispiel diene der Fall #0 D 1=2, #1 D 0:6, ˛ D 0:1 Um einen Test für H0 gegen H1 zu konstruieren liegt es nahe,
und ˇ D 0:9. Mit ˚ 1 .0:1/ D ˚ 1 .0:9/ D 1:282 liefert die diejenigen k in einen kritischen Bereich K  Xn aufzu-
obige Approximation hier den Näherungswert n 161, wobei nehmen, die unter H0 am unwahrscheinlichsten sind, also die
auf die nächstkleinere ganze Zahl gerundet wurde. Der mithil- kleinsten Werte für mn .k/ liefern. Als Zahlenbeispiel betrach-
fe des Computer-Algebra-Systems MAPLE berechnete exakte ten wir den Fall n D 4, s D 3 und 1 D 2 D 1=4,
Wert von n beträgt 163. 3 D 1=2. Hier besteht der Stichprobenraum X4 aus 15 Tripeln,
die zusammen mit ihren nach aufsteigender Größe sortierten
Im Eingangsbeispiel der tea tasting lady sollten also der Lady
H0 -Wahrscheinlichkeiten in Tab. 7.6 aufgelistet sind (die Be-
ca. 160 Tassenpaare gereicht werden, damit bei einer zugelas-
deutung der letzten Spalte wird später erklärt).
senen Wahrscheinlichkeit von 0:1 für einen Fehler erster Art
die Wahrscheinlichkeit 0.9 beträgt, dass der Test besondere Nehmen wir die obersten 5 Tripel in Tab. 7.6 in den kritischen
geschmackliche Fähigkeiten entdeckt, wenn ihre Erfolgswahr- Bereich auf, setzen wir also
scheinlichkeit, die richtige Eingießreihenfolge zu treffen, in
Wirklichkeit 0:6 ist. J K WD f.k1 ; k2 ; k3 / 2 X4 j k3 D 0g ;
268 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Tab. 7.6 Der Größe nach sortierte H0 -Wahrscheinlichkeiten im Fall und die Ungleichungen log t  t  1 und log t  1  1=t , t > 0,
Kapitel 7

n D 4, s D 3, 1 D 2 D 1=4, 3 D 1=2 liefern nach direkter Rechnung



Q3 kj
.k1 ; k2 ; k3 / k1 Šk2 Šk3 Š j D1 j m4 .k/ 24 .k/ zk C .k; /
L .k C 1/  L .k/ D  p C ;
.4; 0; 0/ 1 1=256 1=256 12  
.0; 4; 0/ 1 1=256 1=256 12
.3; 1; 0/ 4 1=256 4=256 6 wobei jC .k; /j für die betrachteten zk beschränkt bleibt. Sum-
.1; 3; 0/ 4 1=256 4=256 6 miert man obige Differenzen überpk von k D k0 WD bc bis
.2; 2; 0/ 6 1=256 6=256 4 k D k0 C m  1, wobei jmj  C , so ergibt sich unter Aus-
.3; 0; 1/ 4 1=128 8=256 5.5 nutzung eines Teleskopeffektes
.0; 3; 1/ 4 1=128 8=256 5.5  
m2 1
.0; 0; 4/ 1 1=16 16=256 4 L .k0 C m/  L .k0 / D  CO p :
.2; 1; 1/ 12 1=128 24=256 1.5 2 
.1; 2; 1/ 12 1=128 24=256 1.5 Nach Exponentiation erhält man dann mit einer Normierungs-
.2; 0; 2/ 6 1=64 24=256 2 konstanten K
.0; 2; 2/ 6 1=64 24=256 2
   
.0; 1; 3/ 4 1=32 32=256 1.5 .k  /2 1
p .k/ D K exp  1CO p (7.63)
.1; 0; 3/ 4 1=32 32=256 1.5 2 
.1; 1; 2/ 12 1=64 48=256 0 p
für  ! 1. Da sich K nach Aufgabe 7.45 zu 1= 2 be-
stimmen lässt, folgt (7.62).
so gilt P#0 .X 2 K / D .1 C 1 C 4 C 4 C 6/=256 D 0:0625.
Folglich besitzt dieser Test das Niveau ˛ D 0:0625. Setzt man in (7.61) für die Poisson-Wahrscheinlichkeiten die für
n ! 1 asymptotisch äquivalenten Ausdrücke
Prinzipiell ist diese Vorgehensweise auch für größere Werte von  
kj
n und s möglich. Der damit verbundene Rechenaufwand steigt nj .nj / 1 .kj  nj /2
jedoch mit wachsendem n und s so rapide an, dass ein praktika- e p exp 
kj Š 2nj 2nj
bleres Verfahren gefunden werden muss.
und
Ausgangspunkt hierfür ist die Darstellung
  nn 1
Qs .nj
k
/j
en p
nj nŠ 2n
j D1 e kj Š
mn .k/ D nn
(7.61) ein, so ergibt sich für n ! 1 und beliebiges C > 0
en nŠ
ˇ ˇ
ˇ mn .k/ ˇ
von mn .k/ mithilfe von Poisson-Wahrscheinlichkeiten lim sup ˇ  1ˇˇ D 0:
n!1 k2I .C / ˇ fn .k/
n

k
p .k/ WD e : Dabei wurde

p
In .C / WD f.k1 ; : : : ; ks / j jkj  nj j  C n; 1  j  sg
Letztere kann man für beliebiges C > 0 für  ! 1 gleichmä-
p
ßig für alle k mit k 2 I .; C / WD f` 2 N0 j j`  j  C g und
approximieren. Genauer gilt mit 0
s  2 1
 X
2 1 1 kj  nj
1 .k  / fn .k/ WD q Q exp @ A
g .k/ WD p exp  .2n/s1 js D1 j 2 j D1 nj
2 2

die Grenzwertaussage gesetzt. Da somit bei großem n kleine Werte von mn .k/ großen
ˇ ˇ Werten der hier auftretenden Summe
ˇ p .k/ ˇ
lim sup ˇ  1ˇˇ D 0: (7.62) X s  2
!1 k2I .;C / ˇ g .k/ 2 kj  nj
n .k1 ; : : : ; ks / WD (7.64)
nj
p j D1
Diese ergibt sich, wenn man zk WD .k  /=  setzt und nur
Werte k 2 I .; C / und damit nur zk mit jzk j  C betrachtet. entsprechen, ist es sinnvoll, den kritischen Bereich K durch
Für L .k/ WD log p .k/ gilt dann 8 9
< ˇ s   =
  ˇ X kj  nj 2
zk 1 K WD k 2 Xn ˇˇ c
L .k C 1/  L .k/ D  log 1 C p C ; : nj ;
  j D1
7.4 Statistische Tests 269

Kapitel 7
Hintergrund und Ausblick: Das lineare statistische Modell

Regressions- und Varianzanalyse: Zwei Anwendungsfelder englischsprachigen Literatur mit ANOVA (analysis of var-
der Statistik iance) abgekürzten Varianzanalyse. Bei diesem Verfahren,
das zunächst in der landwirtschaftlichen Versuchstechnik
In der experimentellen Forschung untersucht man oft den
angewandt wurde, studiert man Mittelwerts-Einflüsse ei-
Einfluss quantitativer Größen auf eine Zielgröße. So ist et-
ner oder mehrerer qualitativer Größen, die auch Faktoren
wa die Zugfestigkeit von Stahl als Zielgröße u. a. abhängig
genannt werden, auf eine quantitative Zielgröße. Je nach
vom Eisen- und Kohlenstoffanteil und der Wärmebehand-
Anzahl dieser Faktoren spricht man von einer einfachen,
lung. Ein Regressionsmodell beschreibt einen funktionalen
zweifachen ... Varianzanalyse. Bei der einfachen Varianzana-
Zusammenhang zwischen den auch Regressoren genannten
lyse werden die verschiedenen Werte des Faktors auch Stufen
Einflussgrößen und der Zielgröße. Mit einer Regressionsana-
genannt und als Gruppen interpretiert. Gibt es k Gruppen,
lyse möchte man dann die Effekte der Regressoren auf die
und stehen für die i-te Gruppe ni Beobachtungen zur Verfü-
Zielgröße bestimmen und zukünftige Beobachtungen vorher-
gung, so formuliert man das Modell
sagen.
Da Messfehler und unbekannte weitere Einflüsse bei Ver- Yij D i C "ij ; i D 1 : : : ; k; j D 1; : : : ; ni : (7.67)
suchswiederholungen unterschiedliche Resultate zeigen, tritt
ein im Modell als additiv angenommener Zufallsfehler auf. Hierbei sind die "ij unabhängige Zufallsvariablen mit
Bei Vorliegen von m Einflussgrößen hat das allgemeine li- E"ij D 0 und gleicher, unbekannter Varianz  2 , und i ist
neare Regressionsmodell die Gestalt der unbekannte Erwartungswert von Yij .
Pk >
Mit s WD k, n WD i D1 ni , # WD .1 ; : : : ; k / ord-
Yi D ˇ0 C ˇ1 f1 .x .i / / C : : : C ˇp fp .x .i / / C "i ; (7.65)
net sich (7.67) dem linearen Modell (7.66) unter, wenn
i D 1; : : : ; n. Dabei stehen i für die Nummer des Versuchs, wir Y DW .Y11 ; : : : ; Y1n1 ; : : : ; Yk1 ; : : : ; Yknk /> und " DW
Yi für eine Zufallsvariable, die das Ergebnis für die Zielgröße ."11 ; : : : ; "1n1 ; : : : ; "k1 ; : : : ; "knk /> setzen und die ersten n1
im i-ten Versuch modelliert, und Zeilen der Matrix D gleich dem ersten Einheitsvektor im Rs ,
die nächsten n2 Zeilen gleich dem zweiten Einheitsvektor im
.i /
x .i / WD .x1 ; : : : ; xm
.i /
/; i D 1; : : : ; n; Rs wählen usw.

die für den i-ten Versuch ausgewählte Kombination der Da nach (7.66) E.Y / D D# in dem von den Spaltenvektoren
m Einflussgrößen. f1 ; : : : ; fp sind bekannte reelle Funk- von D aufgespannten Untervektorraum V des Rn liegt, löst
tionen mit i. Allg. unterschiedlichen Definitionsbereichen, man zur Schätzung von # die Aufgabe
und ˇ0 ; ˇ1 ; : : : ; ˇp sind unbekannte Parameter. Ein wichtiger
kY  D#k2 D minŠ;
Spezialfall von (7.65) ist das Modell Yi D ˇ0 C ˇ1 xi C "i #
der einfachen linearen Regression.
fällt also Lot von Y auf V (s. Abbildung). Das zum Lotfuß-
Mit Y WD .Y1 ; : : : ; Yn /> , s WD p C 1, D WD .dij / 2 Rns , punkt gehörende eindeutig bestimmte b # D .D > D/1 D > Y
wobei di 1 WD 1 und dij WD fj 1 .x .i / / für 1  i  n und heißt Kleinste-Quadrate-Schätzer für #.
2  j  s sowie # WD .ˇ0 ; : : : ; ˇp /> und " WD ."1 ; : : : ; "n />
ist (7.65) ein Spezialfall des folgenden linearen statistischen
Modells.
Y − Dϑ
Y
Definition eines linearen statistischen Modells •

Die Gleichung Dϑ
Y D D# C " (7.66) 0 V
heißt lineares statistisches Modell. Hierbei sind
Orthogonale Projektion von Y auf den Unterraum V
Y ein n-dimensionaler Zufallsvektor,
D 2 Rns eine Matrix mit n > s und rg.D/ D s, Ein erwartungstreuer Schätzer für  2 ist
# 2 Rs ein unbekannter Parametervektor,
" ein n-dimensionaler Zufallsvektor mit E."/ D 0 1
b2 D kY  Db
#k2 :
und E.""> / D  2 In , wobei  2 > 0 unbekannt ist. ns
Gilt speziell " Nn .0;  2 In / (sog. lineares Gauß-Modell),
Das lineare statistische Modell enthält als Spezialfall auch so sind b # und b2 stochastisch unabhängig, wobei b #
das Modell der von R. A. Fisher begründeten und in der Ns .#;  2 .D > D/1 /, .n  s/b2 = 2 2ns .
270 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

festzulegen, d. h., die Hypothese H0 für große Werte von wobei die .s  1/  .s  1/-Matrix A die Einträge
Kapitel 7

2n .k1 ; : : : ; ks / abzulehnen. Dabei ist der kritische Wert c aus


der vorgegebenen Wahrscheinlichkeit ˛ für einen Fehler 1. Art ıij 1
aij D C ; 1  i; j  s  1;
zu bestimmen. Man beachte, dass die Korrespondenz zwischen j s
kleinen Werten von mn .k/ und großen Werten von 2n .k/ schon
für den Fall n D 4 in den beiden letzten Spalten von Tab. 7.6 besitzt. Wie man direkt verifiziert, gilt A D ˙ 1 , wobei
deutlich sichtbar ist. ˙ D .ij / mit ij D ıij i  i j
Die durch (7.64) definierte Funktion 2n W Xn ! R heißt 2 -
Testgröße. Sie misst die Stärke der Abweichung zwischen den nach Aufgabe 4.33 die Kovarianzmatrix eines .s  1/-
Trefferanzahlen kj und den unter H0 zu erwartenden Anzahlen dimensionalen Zufallsvektors Y ist, dessen Verteilung mit der
nj in einer ganz bestimmten Weise. Verteilung der ersten s  1 Komponenten eines Zufallsvek-
tors mit der Multinomialverteilung Mult.1I 1 ; : : : ; s1 ; s /
Um den kritischen Wert c festzulegen, müssen wir die Vertei- übereinstimmt. Da .X1 ; : : : ; Xs1 /> nach Erzeugungsweise der
lung der Zufallsvariablen Multinomialverteilung wie die Summe von n unabhängigen und
s  2 identisch verteilten Kopien von Y verteilt ist und E.Y / D
X Xj  nj .1 ; : : : ; s1 /> gilt, ergibt sich mithilfe des multivariaten Zen-
Tn WD (7.68)
nj tralen Grenzwertsatzes (siehe die Hintergrund-und-Ausblick-
j D1
Box über Verteilungskonvergenz und den zentralen Grenzwert-
unter H0 kennen. Dies sieht hoffnungslos aus, da diese Ver- satz im Rk in Abschn. 6.4)
teilung in komplizierter Weise von n und insbesondere von D
#0 D .1 ; : : : ; s / abhängt. Interessanterweise gilt jedoch we- Un 
! Z;
gen Xj Bin.n; j / die Beziehung E#0 .Xj nj /2 D nj .1
j / und somit für jedes n und jedes #0 wobei Z Ns1 .0; ˙/. Mit dem Abbildungssatz in der eben
genannten Box folgt dann
X
s
D
E#0 .Tn / D .1  j / D s  1: Tn D Un> AUn 
! Z > AZ D Z > ˙ 1 Z:
j D1
Nach Aufgabe 7.46 gilt Z > ˙ 1 Z 2s1 . 
Das folgende Resultat besagt, dass Tn unter H0 für n ! 1 eine
Grenzverteilung besitzt, die nicht von #0 abhängt. Da wir nach diesem Satz die Limesverteilung der Chi-Quadrat-
Testgröße bei Gültigkeit der Hypothese kennen, können wir eine
Testfolge konstruieren, die asymptotisch ein vorgegebenes Ni-
Satz über die asymptotische H0 -Verteilung von Tn veau ˛ 2 .0; 1/ besitzt.
Für die in (7.68) definierte Chi-Quadrat-Testgröße Tn gilt
bei Gültigkeit der Hypothese H0
Satz über den Chi-Quadrat-Test
D#
0 Die durch
Tn ! 2s1 bei n ! 1:
8 9
<X s
.kj  nj /2 =
'n .k/ WD 1 2
 s1I1˛ ;
: nj ;
Beweis Wir setzen j D1

Xj  nj k 2 Xn , definierte Testfolge .'n / besitzt für das Testpro-


Un;j WD p ; j D 1; : : : ; s
n blem H0 W # D #0 gegen H1 W # ¤ #0 asymptotisch das
Ps Niveau ˛, und sie ist konsistent.
sowie Un WD .Un;1 ; : : : ; Un;s1 /> . Wegen Xj D n gilt
P j D1
dann js D1 Un;j D 0, und hiermit folgt

X
s 2 Beweis Bezeichnet Fs1 die Verteilungsfunktion einer 2s1 -
Un;j
Tn D verteilten Zufallsvariablen, so gilt wegen der Verteilungskonver-
j D1
j genz von Tn unter H0
!2  
X
s1 2
Un;j 1 X
s1 g'n .#0 / D P#0 Tn  2s1I1˛
D C  Un;  
j s ! 1  Fs1 2s1I1˛
j D1 D1

Xs1   D 1  .1  ˛/
ıij 1
D C Un;i Un;j D ˛;
i ;j D1
j s
was die erste Behauptung beweist. Der Nachweis der Konsistenz
D Un> AUn ; ist Gegenstand von Aufgabe 7.47. 
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 271

Kapitel 7
Unter der Lupe: Der Chi-Quadrat-Test als Monte-Carlo-Test

Wie schätzt man den p-Wert bei kleinem Stichprobenum- Treffer j -ter Art ergibt .j D 1; : : : ; s/. Die so simulierten
fang? Trefferanzahlen seien mit k1;m ; k2;m ; : : : ; ks;m bezeichnet.
Es gibt viele Untersuchungen darüber, ab welchem Stichpro- 2) Mithilfe von k1;m ; : : : ; ks;m berechnet man den Wert
benumfang n die Verteilung von Tn unter H0 gut durch eine
X s  2
2s1 -Verteilung approximiert wird und somit die Einhal- 2 kj ;m  nj
tung eines angestrebten Niveaus ˛ durch Wahl des kritischen n;m WD :
j D1
nj
Wertes als .1  ˛/-Quantil dieser Verteilung für praktische
Zwecke hinreichend genau ist. Die übliche Empfehlung hier-
2 2
zu ist, dass n die Ungleichung n min .1 ; : : : ; s /  5 3) Gilt n;m  n .k/, so wird Z um eins erhöht.
erfüllen sollte.
Nach den M Durchläufen ist dann die relative Häufigkeit
Um den 2 -Test auch im Fall n min .1 ; : : : ; s / < 5 durch- Z=M ein Schätzwert für den p-Wert p.k/ D P#0 .Tn 
führen zu können, bietet sich neben der Methode, die H0 - 2n .k//. Bei einer zugelassenen Wahrscheinlichkeit ˛ für ei-
Verteilung von Tn analog zum Vorgehen in Tab. 7.6 exakt zu nen Fehler erster Art lehnt man die Hypothese H0 ab, falls
bestimmen, die Möglichkeit an, den Wert 2n .k/ zu berech- Z=M  ˛ gilt, andernfalls nicht.
nen und anschließend den p-Wert p.k/ D P#0 .Tn  2n .k//
zu schätzen. Bei diesem sog. Monte-Carlo-Test geht man wie Als Beispiel betrachten wir einen Test auf Echtheit eines
folgt vor: Würfels, d. h. den Fall s D 6 und 1 D : : : D 6 D 1=6.
Anhand von 24 Würfen dieses Würfels haben sich der Vek-
Man wählt eine große Zahl M , z. B. M D 10 000, und setzt tor k D .4; 3; 3; 4; 7; 3/ von Trefferanzahlen und somit der
einen Zähler Z auf den Anfangswert 0. Dann führt man für Wert 2 .k/ D 3 ergeben. Bei M D 10 000 Simulationen
24
einen Laufindex m D 1; 2; : : : ; M M -mal hintereinander der 2 -Testgröße trat in Z D 7 413 Fällen ein Wert von min-
folgenden Algorithmus durch: destens 3 auf. Der geschätzte p-Wert Z=M D 0:7413 ist
1) Mithilfe von Pseudozufallszahlen wird n-mal ein Expe- so groß, dass gegen die Echtheit des Würfels kein Einwand
riment simuliert, das mit Wahrscheinlichkeit j einen besteht.

Kommentar Der 2 -Test ist weit verbreitet. So wird er etwa besteht. Da die Daten nahezu perfekt mit der Theorie in Ein-
von Finanzämtern routinemäßig bei der Kontrolle von bargeld- klang stehen, ist hier bisweilen der Verdacht geäußert worden,
intensiven Betrieben eingesetzt. Dabei geht man u. a. davon Mendel habe seine Zahlen manipuliert. Den erst im Jahr 1900
aus, dass bei Erlösen im mindestens dreistelligen Bereich die publizierten Chi-Quadrat-Test konnte er jedoch nicht kennen.
letzte Vorkommastelle auf den möglichen Ziffern 0; 1; : : : ; 9 J
approximativ gleichverteilt ist. Werden Zahlen systematisch
manipuliert oder erfunden, um die Steuerlast zu drücken, so
treten solche Veränderungen insbesondere in dieser Stelle auf, 7.5 Optimalitätsfragen: Das Lemma
was durch einen 2 -Test entdeckt werden kann. Signifikante von Neyman-Pearson
Abweichungen von der Gleichverteilung, die nicht vom Finanz-
beamten erklärt werden können, führen dann oftmals zu einem Die im vorigen Abschnitt vorgestellten Testverfahren wurden
Erklärungsbedarf beim Betrieb. J rein heuristisch motiviert. In diesem Abschnitt formulieren wir
Optimalitätsgesichtspunkte für Tests und beweisen u. a., dass
Beispiel (Mendels Erbsen) Der Ordenspriester und Natur- der einseitige Binomialtest und der einseitige Gauß-Test in ei-
forscher Gregor Mendel (1822–1884) publizierte 1865 verschie- nem zu definierenden Sinn gleichmäßig beste Tests sind. Im
dene Ergebnisse im Zusammenhang mit seiner Vererbungslehre. Hinblick auf optimale Tests bei Problemen im Zusammenhang
So beobachtete er in einem Experiment Form (rund, kantig) und mit diskreten Verteilungen muss der bisherige Testbegriff erwei-
Farbe (gelb, grün) von gezüchteten Erbsen. Nach seiner Theorie tert werden.
sollten sich die Wahrscheinlichkeiten für die Merkmalausprä-
gungen (r, ge), (r, gr), (k, ge) und (k, gr) verhalten wie 9:3:3:1.
Er zählte unter n D 556 Erbsen 315-mal (r, ge), 108-mal (r, gr),
Randomisierte Tests schöpfen bei diskreten
101-mal (k, ge) und 32-mal (k, gr). Verteilungen ein gegebenes Niveau voll aus
Wird die Theorie durch diese Daten gestützt? Hierzu führen
wir einen Chi-Quadrat-Test mit s D 4, 1 D 9=16, 2 D Definition eines randomisierten Tests
3=16 D 3 , 4 D 1=16 und n D 556, k1 D 315, k2 D 108,
k3 D 101 und k4 D 32 durch. Eine direkte Rechnung ergibt, Jede (messbare) Funktion ' W X ! Œ0; 1 heißt rando-
dass die Chi-Quadrat-Testgröße (7.64) den Wert 0:470 annimmt. misierter Test für das Testproblem H0 W # 2 0 gegen
Ein Vergleich mit dem 0:95-Quantil 7:81 der 23 -Verteilung (vgl. H1 W # 2 1 .
Tab. 7.3) zeigt, dass keinerlei Einwand gegen Mendels Theorie
272 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

Kommentar Der Wert '.x/ ist als bedingte Wahrscheinlich-


Kapitel 7

keit zu verstehen, die Hypothese H0 abzulehnen, wenn X D x 1


beobachtet wurde. Im Fall '.x/ D 1 bzw. '.x/ D 0 lehnt
man also H0 ab bzw. erhebt keinen Einwand gegen H0 . Auf 0.8
diese Fälle beschränkt sich ein nichtrandomisierter Test der Ge-
stalt ' D 1K mit einem kritischen Bereich K  X . Gilt 0 < 0.6
'.x/ < 1, so erfolgt ein Testentscheid mithilfe eines Pseudozu-
fallszahlengenerators, der eine im Intervall .0; 1/ gleichverteilte
Pseudozufallszahl u erzeugt. Gilt u  '.x/ – was mit Wahr- 0.4

scheinlichkeit '.x/ geschieht – so verwirft man H0 , andernfalls


nicht. 0.2

Randomisierte Tests treten auf, um bei Testproblemen mit α

diskreten Verteilungen ein zugelassenes Testniveau voll auszu- 0


ϑ
schöpfen. Sie besitzen dann oft die Gestalt 0.5 0.6 0.7 0.8 0.9 1
8
ˆ
<1; falls T .x/ > c; Abb. 7.17 Gütefunktionen der Tests 1fT > 13g (blau) und 1fT >
'.x/ D ; falls T .x/ D c; (7.69) 13g C  1fT D 13g (rot)
:̂0; falls T .x/ < c:

Dabei sind T W X ! R eine Teststatistik,  2 Œ0; 1 eine Abb. 7.17 zeigt die Gütefunktionen des nichtrandomisierten
Randomisierungswahrscheinlichkeit und c ein kritischer Wert. Tests 1fT > 13g (blau) und des randomisierten Tests 1fT >
Man randomisiert also nur dann, wenn das Testergebnis ge- 13g C  1fT D 13g (rot). Da man beim randomisierten Test
wissermaßen auf der Kippe steht. Die Gütefunktion g' eines für jedes # > 1=2 mit einer kleineren Wahrscheinlichkeit
randomisierten Tests ist einen Fehler zweiter Art begeht, ist dieser Test bei Einhal-
tung eines vorgegebenen Höchstwerts von ˛.D 0:1/ für die
g' .#/ D E# '; # 2 ; Wahrscheinlichkeit eines Fehlers erster Art im Vergleich zum
R nichtrandomisierten Test gleichmäßig besser. J
es gilt also g' .#/ D X '.x/f .x; #/ dx, wenn X unter P# eine
Dichte f .x; #/ besitzt. Im Fall einer Zähldichte ist das Integral
durch eine Summe zu ersetzen. Hat ' wie in (7.69) die Gestalt Im Folgenden bezeichne
' D 1fT >cg C  1fT Dcg , so folgt ( )
ˇ
ˇ
g' .#/ D P# .T > c/ C  P# .T D c/; # 2 : J ˚˛ WD ' W X ! Œ0; 1ˇ sup g' .#/  ˛
#2 0

Beispiel (Tea tasting lady, Fortsetzung) Reichen wir der die Menge aller randomisierten Tests zum Niveau ˛ für das Test-
tea tasting lady n D 20 Tassenpaare und lehnen die Hypothese problem H0 W # 2 0 gegen H1 W # 2 1 .
H0 W # D 1=2 blinden Ratens ab, falls sie mindestens 14 Tref-
fer erzielt, also die richtige Eingießreihenfolge trifft, so ist die
Wahrscheinlichkeit für einen Fehler erster Art bei diesem Ver- Unverfälschter Test, gleichmäßig bester Test
fahren gleich
 20 X 20
! Ein Test ' 2 ˚˛ heißt
1 20
P1=2 .T  14/ D D 0:0577: unverfälscht (zum Niveau ˛), falls gilt:
20 j D14
j

Dabei ist T die binomialverteilte zufällige Trefferzahl. g' .#/  ˛ für jedes # 2 1 ;

Wollen wir einen Test konstruieren, dessen Wahrscheinlichkeit gleichmäßig bester Test (zum Niveau ˛), falls für je-
für einen Fehler erster Art gleich 0:1 ist, so bietet sich an, H0 den anderen Test 2 ˚˛ gilt:
auch noch bei 13 Treffern zu verwerfen. Die Wahrscheinlichkeit
für einen Fehler erster Art wäre dann aber mit P1=2 .T  13/ D g' .#/  g .#/ für jedes # 2 1 :
0:1316 zu groß. Hier kommt der Randomisierungsgedanke ins
Spiel: Lehnen wir H0 im Fall T  14 und mit der Wahrschein-
lichkeit  im Fall T D 13 ab, so ist die Wahrscheinlichkeit für
einen Fehler erster Art bei diesem Verfahren gleich Kommentar Die Unverfälschtheit eines Tests ist eine selbst-
verständliche Eigenschaft, denn man möchte sich zumindest
P1=2 .T  14/ C  P1=2.T D 13/ D 0:0577 C   0:0739: nicht mit einer kleineren Wahrscheinlichkeit für die Alternati-
Soll sich der Wert 0:1 ergeben, so berechnet sich  zu ve entscheiden, wenn diese vorliegt, als wenn in Wahrheit H0
gilt. Der Verlauf der Gütefunktion des Tests in Abb. 7.14 zeigt,
0:1  0:0577
D D 0:5724; dass dieser Test nicht unverfälscht zum Niveau ˛ ist, denn seine
0:0739 Gütefunktion nimmt in der Nähe von 0 D f0:5g Werte kleiner
und es entsteht der Test (7.69) mit c D 13 und  D 0:5724. als ˛ an.
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 273

Ein gleichmäßig bester Test wird in der englischsprachigen Lite- woraus ˛  P0 . > c/  P0 . D c/ folgt. Wir unterscheiden
die Fälle P0 . D c/ D 0 und P0 . D c/ > 0. Im ersten gilt

Kapitel 7
ratur als uniformly most powerful bezeichnet und mit UMP-Test
abgekürzt, was auch wir tun werden. Ein UMP-Test existiert nur P0 . > c/ D ˛, und somit ist ' D 1f >cg ein NP-Test mit
in seltenen Fällen. Oft muss man sich auf unverfälschte Tests E0 ' D ˛. Im zweiten Fall gilt
beschränken, um einen solchen Test zu erhalten. Letzterer wird
dann UMPU-Test genannt (von uniformly most powerful un- ˛  P0 . > c/
 WD 2 Œ0; 1:
biased). J P0 . D c/
Folglich ist der in (7.69) gegebene Test (mit anstelle von T )
ein NP-Test mit E0 ' D P0 . > c/ C  P0 . D c/ D ˛.
Beim Zwei-Alternativ-Problem sind Hypothese
b) Es seien ' ein NP-Test wie in (7.70) mit E0 ' D ˛ und 2
und Alternative einfach ˚˛ ein beliebiger Test zum Niveau ˛. Dann gilt
Z
Um einen UMP-Test zu konstruieren beginnen wir mit der
besonders einfachen Situation, dass in einem statistischen Mo- E1 '  E1 D .'.x/  .x//f1 .x/ dx:
dell .X ; B; .P# /#2 / der Parameterraum D f#0 ; #1 g eine X
zweielementige Menge ist und man sich zwischen den beiden
Dabei ist im diskreten Fall das Integral durch eine Summe zu
Möglichkeiten H0 W # D #0 und H1 W # D #1 zu entschei-
ersetzen. Gilt '.x/ > .x/, so folgt '.x/ > 0 und damit ins-
den hat. Hypothese und Alternative sind somit einfach in dem
besondere .x/  c, also f1 .x/  cf0 .x/. Ist andererseits
Sinne, dass 0 D f#0 g und 1 D f#1 g einelementige Mengen
'.x/ < .x/, so folgt '.x/ < 1 und somit .x/  c, also
sind (sog. Zwei-Alternativ-Problem). Wir setzen voraus, dass
auch f1 .x/  cf0 .x/. Insgesamt erhält man die Ungleichung
die beobachtbare Zufallsvariable (oder Zufallsvektor) X D idX
.'.x/  .x//.f1 .x/  cf0 .x//  0; x 2 X : Integriert (bzw.
sowohl unter P0 WD P#0 als auch unter P1 WD P#1 entweder ei-
summiert) man hier über x, so ergibt sich unter Weglassung des
ne Lebesgue- oder eine Zähldichte besitzt, die mit f0 bzw. f1
Arguments x bei Funktionen sowie des Integrations- bzw. Sum-
bezeichnet sei.
mationsbereichs X
Nach dem Maximum-Likelihood-Schätzprinzip liegt es nahe, Z Z Z Z 
bei vorliegenden Daten x 2 X die beiden Dichte-Werte f1 .x/ 'f1 dx  f1 dx  c 'f0 dx  f0 dx :
und f0 .x/ miteinander zu vergleichen und H0 abzulehnen, wenn
f1 .x/ wesentlich größer als f0 .x/ ist. Hierzu betrachtet man den R R
Wegen ˛ D 'f0 dx D E0 ' und f0 dx D E0R  ˛ ist
sog. Likelihoodquotienten
( R rechte Seite nichtnegativ, und es folgt E1 ' D 'f1 dx 
die
f1 .x/ f1 dx D E1 , was zu zeigen war. 
; falls f0 .x/ > 0;
.x/ WD f0 .x/
1; falls f0 .x/ D 0: Bezeichnen
Nach den Statistikern Jerzy Neyman (1894–1981) und Egon ˛.'/ WD E0 '; ˇ.'/ WD 1  E1 '
Sharpe Pearson (1895–1980) heißt ein Test ' für dieses Testpro-
blem Neyman-Pearson-Test (kurz: NP-Test), falls es ein c 2 R, die Wahrscheinlichkeiten für einen Fehler erster bzw. zweiter
c  0, gibt, sodass ' die Gestalt Art eines Tests ' im Zwei-Alternativ-Problem, so nennt man
( die Menge R aller möglichen „Fehlerwahrscheinlichkeitspunk-
1; falls .x/ > c; te“ .˛.'/; ˇ.'// von Tests ' W X ! Œ0; 1 die Risikomenge
'.x/ D (7.70) des Testproblems. Diese Menge enthält die Punkte .0; 1/ und
0; falls .x/ < c;
.1; 0/, und sie ist punktsymmetrisch zu .1=2; 1=2/ sowie kon-
vex (Aufgabe 7.48). Die typische Gestalt einer Risikomenge ist
besitzt. Dabei wird zunächst nichts für den Fall .x/ D c
in Abb. 7.18 skizziert.
festgelegt. Die Prüfgröße eines NP-Tests ist also der Likelihood-
quotient, und c ist ein kritischer Wert, der durch die Forderung Das Lemma von Neyman-Pearson besagt, dass die Fehlerwahr-
an das Testniveau bestimmt wird. scheinlichkeitspunkte der NP-Tests auf dem „linken unteren
Rand“ @.R \ f.x; y/ 2 R2 j x C y  1g/ der Risikomenge
R liegen.
Lemma von Neyman-Pearson (1932)
a) In obiger Situation existiert zu jedem ˛ 2 .0; 1/ ein Kommentar Ist X eine endliche Menge, so bedeutet die
NP-Test ' mit E0 ' D ˛. Konstruktion eines besten Tests, die Zielfunktion (Güte)
b) Jeder NP-Test ' mit E0 ' D ˛ ist ein bester Test zum X
Niveau ˛, d. h., für jeden anderen Test mit E0  ˛ g' .#1 / D '.x/ f1 .x/
gilt E1 '  E1 . x2X

unter den Nebenbedingungen 0  '.x/  1, x 2 X , und


X
Beweis a) Nach Definition von gilt P0 . < 1/ D 1, und g' .#0 / D '.x/ f0 .x/  ˛ (7.71)
so existiert ein c mit P0 .  c/  ˛ und P0 . > c/  ˛, x2X
274 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

β(ϕ) wobei cQ WD .log c  log /= log gesetzt ist. Dies Pbedeutet, dass
Kapitel 7

1 jeder NP-Test ' wegen der Ganzzahligkeit von jnD1 xj die Ge-
stalt (7.69) mit c 2 f0; 1; : : : ; ng besitzt. Hierbei bestimmen sich
c und  aus einer vorgegebenen Wahrscheinlichkeit ˛ 2 .0; 1/
für einen Fehler erster Art zu

c D min f 2 f0; 1; : : : ; ng j P#0 .Sn > /  ˛g ;


R
˛  P#0 .Sn > k/
D : J
P#0 .Sn D k/

0
Bei monotonem Dichtequotienten erhält man
0 1 α(ϕ) gleichmäßig beste einseitige Tests
Abb. 7.18 Risikomenge eines Zwei-Alternativ-Problems Die Tatsache, dass der eben konstruierte Test ' nicht von #1
abhängt, macht ihn zu einem UMP-Test für das Testproblem
H0 W #  #0 gegen H1 W # > #0 . In der Tat: Zunächst ist '
(Niveau-Einhaltung) zu maximieren. Diese Fragestellung ist ein ein Test zum Niveau ˛ für H0 W #  #0 , denn seine Gütefunkti-
lineares Optimierungsproblem, dessen Lösung sich durch fol- on ist wegen
gende heuristische Überlegung erahnen lässt: Wir betrachten
f0 .x/ als Kosten (Preis), mit denen wir durch die Festlegung g' .#/ D P# .Sn > c/ C  P# .Sn D c/
'.x/ WD 1 den Stichprobenwert x und somit dessen Güte-
Beitrag (Leistung) f1 .x/ „kaufen“ können. Wegen (7.71) liegt D  P# .Sn  c/ C .1   /P# .Sn  c C 1/
es nahe, das verfügbare Gesamt-Budget ˛ so auszugeben, dass
– solange die Mittel reichen – diejenigen x mit dem größten und Aufgabe 7.38 a) monoton wachsend. Sind nun 2 ˘˛
Leistungs-Preis-Verhältnis f1 .x/=f0.x/ „gekauft“ werden. Die- ein beliebiger konkurrierender Niveau-˛-Test und #1 > #0 be-
se Kosten/Nutzen-Rechnung führt unmittelbar zum Ansatz von liebig, so gilt wegen E#0  E#0 ' D ˛ nach Teil b) des
Neyman und Pearson. J Neyman-Pearson-Lemmas E#1 '  E#1 , da ' NP-Test für das
Zwei-Alternativ-Problem H0 W # D #0 gegen H1 W # D #1 ist.
Da #1 beliebig war, ist der ein vorgegebenes Testniveau ˛ voll
Beispiel Es sei X D .X1 ; : : : ; Xn /, wobei X1 ; : : : ; Xn unab- ausschöpfende einseitige Binomialtest gleichmäßig bester Test
hängig und je Bin.1; #/-verteilt sind. Wir testen (zunächst) die zum Niveau ˛.
einfache Hypothese H0 W # D #0 gegen H1 W # D #1 , wobei
0 < #0 < P #1 < 1. Mit X D f0; 1gn , x D .x1 ; : : : ; xn / 2 X Entscheidend an dieser Argumentation war, dass der Likeli-
sowie t D jnD1 xj gilt hoodquotient f1 .x/=f0 .x/ eine streng monoton wachsende
Funktion von x1 C: : :Cxn ist. Um ein allgemeineres Resultat zu
fj .x/ D P#j .X D x/ D #jt .1  #j /nt formulieren, legen wir ein statistisches Modell .X ; B; .P# /#2 /
mit X  Rn und  R zugrunde. Wir nehmen weiter an, dass
und somit P# eine Lebesgue-Dichte oder Zähldichte f .; #/ besitzt, und
 t   dass f W X  ! R strikt positiv ist. Weiter sei T W X ! R
f1 .x/ #1 1  #1 nt
D eine Statistik.
f0 .x/ #0 1  #0
  
#1 .1  #0 / t 1  #1 n
D :
#0 .1  #1 / 1  #0 Verteilungen mit monotonem Dichtequotienten
Mit den Abkürzungen In obiger Situation heißt .P# /#2 Verteilungsklasse mit
 n monotonem Dichtequotienten in T , wenn es zu belie-
#1 .1  #0 / 1  #1 bigen #0 ; #1 2 mit #0 < #1 eine streng monoton
WD .> 1/;  WD
#0 .1  #1 / 1  #0 wachsende Funktion g#0 ;#1 .t / gibt, sodass gilt:
ergibt sich für jede positive Zahl c die Äquivalenzkette f .x; #1 /
8 9 8 9 D g#0 ;#1 .T .x//; x 2 X:
ˆ
< >>
= < >>
ˆ = f .x; #0 /
f1 .x/
D c () t log C log  D log c
f0 .x/ :̂ > :̂ <>
<; ;
8 9 Beispiel (Einparametrige Exponentialfamilie) Besitzt
<>>
ˆ =
Xn
f .x; #/ wie in (7.18) die Gestalt
() t D xj D c; Q
:̂ < >
;
j D1 f .x; #/ D b.#/ h.x/ eQ.#/T .x/
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 275

mit einer streng monoton wachsenden Funktion Q, so liegt eine ja auch ein Niveau-˛-Test für H00 gegen H1 , und im Vergleich
mit diesem Test gilt E# '  E# für jedes # > #0 . Um diesen

Kapitel 7
Verteilungsklasse mit monotonem Dichtequotienten in T vor,
denn es gilt für #0 ; #1 2 mit #0 < #1 Nachweis zu führen, sei #  2 mit #  < #0 beliebig. Zu
zeigen ist die Ungleichung ˛  WD E#  '  ˛. Aufgrund der
f .x; #1 / b.#1/ .Q.#1 /Q.#0 //T .x/ strikten Monotonie des Dichtequotienten ist ' NP-Test für H0 W
D e :
f .x; #0 / b.#0/ # D #  gegen H0 W # D #0 zum Niveau ˛  . Da der Test
e
'  ˛  ebenfalls ein Test zum Niveau ˛  für H0 gegen H0 ist,
Beispiele hierfür sind die Binomialverteilungen Bin.n; #/, 0 < folgt nach dem Neyman-Pearson-Lemma ˛   E#0 ' D ˛. 
# < 1, die Exponentialverteilungen Exp.#/, 0 < # < 1, die
Poisson-Verteilungen Po.#/, 0 < # < 1 (vgl. Aufgabe 7.26) Kommentar Mit diesem Ergebnis folgt u. a., dass der einsei-
und die Normalverteilungen N.#;  2 /, # 2 R, bei festem  2 . tige Gauß-Test UMP-Test für das Testproblem H W   
0 0
J gegen H W  >  ist. Man beachte, dass die oben angestellten
1 0
Überlegungen auch für Testprobleme der Gestalt H0 W #  #0
Selbstfrage 10 gegen H1 W # < #0 gültig bleiben. Man muss nur # durch #
Warum sind die Dichten der Normalverteilungen N.#;  2 /, und T durch T ersetzen, was dazu führt, dass sich beim Test
# 2 R, von obiger Gestalt? ' in (7.72) das Größer- und das Kleiner-Zeichen vertauschen.
Für zweiseitige Testprobleme der Gestalt H0 W # D #0 ge-
gen H1 W # ¤ #0 wie beim zweiseitigen Binomial- und beim
zweiseitigen Gauß-Test kann es i. Allg. keinen UMP-Test zum
Satz (UMP-Tests bei monotonem Dichtequotienten)
Niveau ˛ 2 .0; 1/ geben. Ein solcher Test ' wäre ja UMP-
Es seien .P# /#2 eine Verteilungsklasse mit monotonem Test für jedes der Testprobleme H0 gegen H1> W # > #0
Dichtequotienten in T und #0 2 . Dann existiert zu und H0 gegen H1< W # < #0 , und für seine Gütefunkti-
jedem ˛ 2 .0; 1/ ein UMP-Test zum Niveau ˛ für das on würde dann sowohl g' .#/ < ˛ für # < #0 als auch
Testproblem H0 W #  #0 gegen H1 W # > #0 . Dieser Test g' .#/ > ˛ für # < #0 gelten (wir haben diese strikte Unglei-
besitzt die Gestalt chung beim Binomial- und beim Gauß-Test eingesehen, sie gilt
8 aber auch allgemeiner). Beschränkt man sich bei zweiseitigen
ˆ
<1; falls T .x/ > c; Testproblemen auf unverfälschte Tests, so lassen sich etwa in
'.x/ D ; falls T .x/ D c; (7.72) einparametrigen Exponentialfamilien gleichmäßig beste unver-
:̂0; falls T .x/ < c: fälschte (UMPU-)Tests konstruieren. Diese sind dann von der
Gestalt
8
Dabei sind c und  2 Œ0; 1 festgelegt durch ˆ
< 1 ; falls T .x/ < c1 oder T .x/ > c2 ;
'.x/ D j ; falls T .x/ D cj ; j D 1; 2;
E#0 ' D P#0 .T > c/ C  P#0 .T D c/ D ˛: (7.73) :̂ 0 ; falls c < T .x/ < c ;
1 2

wobei c1 ; c2 ; 1 und 2 durch die Forderungen g' .#0 / D ˛


Beweis Wir betrachten zunächst für beliebiges #1 2 mit und g'0 .#0 / D 0 bestimmt sind, siehe z. B. [16], Kap. 19.
#0 < #1 das Zwei-Alternativ-Problem H00 W # D #0 gegen H10 W Mit größerem Aufwand lässt sich auch zeigen, dass der Ein-
# D #1 . Hierzu gibt es einen (besten) NP-Test ' mit E#0 ' D ˛, Stichproben-t -Test ein UMPU-Test ist, siehe z. B. [21], Kap. 6.
nämlich J
8
ˆ
<1; falls .x/ > c  ;
'.x/ D  ; falls .x/ D c  ;
 Verallgemeinerte Likelihoodquotienten-Tests –
:̂0; falls .x/ < c  ein genereller Ansatz bei Testproblemen
in parametrischen Modellen
mit dem Likelihoodquotienten .x/ D f .x; #1 /=f .x; #0 / und
c   0 sowie   2 Œ0; 1, die sich aus der Forderung Zum Schluss dieses Abschnittes möchten wir noch einen allge-
meinen Ansatz zur Konstruktion von Tests vorstellen, dem sich
E#0 ' D P#0 . > c  / C   P#0 . D c  / D ˛ viele der in der Praxis auftretenden Tests unterordnen. Wir neh-
men hierzu ein statistisches Modell .X ; B; .P# /#2 / an, bei dem
bestimmen. Wegen der vorausgesetzten strengen Monotonie von der beobachtbare Zufallsvektor X (D idX ) unter P# eine Dichte
.x/ in T .x/ ist dieser Test aber zu (7.72) und (7.73) äqui- (oder Zähldichte) f .x; #/ besitze. Möchte man in dieser Situa-
valent. Da c und  unabhängig von #1 sind, ist ' nach dem tion die Hypothese
Neyman-Pearson-Lemma gleichmäßig bester Test zum Niveau
˛ für H00 W # D #0 gegen H1 W # > #0 . H0 W # 2 0

Wir müssen nur noch nachweisen, dass ' ein Test zum Niveau gegen die Alternative H1 W # … 0 testen, so liegt es nahe,
˛ für H0 gegen H1 ist, denn jeder beliebige solche Test ist # nach der Maximum-Likelihood-Methode zu schätzen, wobei
276 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

man einmal nur Argumente # der Likelihood-Funktion in 0 Dabei sind e# n der ML-Schätzer für # unter H0 W # 2 0 und
Kapitel 7

zulässt, und zum anderen eine uneingeschränkte ML-Schätzung b


# n der (uneingeschränkte) ML-Schätzer für #. In diesem Fall
vornimmt. Auf diese Weise entsteht der sog. verallgemeinerte verwendet man eine streng monoton fallende Transformation
Likelihoodquotient von Qn , nämlich die sog. Loglikelihoodquotienten-Statistik
sup#2 0 f .x; #/ X f1 .Xj ; b
n
Q.x/ WD : (7.74) # n/
sup#2 f .x; #/ Mn WD 2 log Qn D 2 log :
e
f1 .Xj ; # n /
j D1
Dieser nimmt nach Konstruktion nur Werte kleiner oder gleich
eins an. Liegt der wahre Parameter # in 0 , so würde man Ablehnung von H0 erfolgt hier für große Werte von Mn .
erwarten, dass sich Zähler und Nenner nicht wesentlich unter- Der Hintergrund für diese auf den ersten Blick überraschend
scheiden. Im Fall # 2 n 0 muss man jedoch davon ausgehen, anmutende Transformation ist, dass unter gewissen Regulari-
dass der Zähler deutlich kleiner als der Nenner ausfällt. Die- tätsvoraussetzungen die Statistik Mn für jedes # 2 0 (also
se Überlegungen lassen Tests als sinnvoll erscheinen, die H0 bei Gültigkeit der Hypothese) asymptotisch für n ! 1 eine
für kleine Werte von Q.x/ verwerfen. Solche Tests heißen Chi-Quadrat-Verteilung besitzt. Die Anzahl k der Freiheitsgrade
verallgemeinerte Likelihoodquotiententests oder kurz (verallge- dieser Verteilung richtet sich dabei nach den Dimensionen der
meinerte) LQ-Tests. Parameterbereiche und 0 . Sind eine offene Teilmenge des
Rs und 0 das Bild g.U / einer offenen Teilmenge U des R` ,
Beispiel (Ein-Stichproben-t-Teststatistik) Wir betrach- 1  ` < s, unter einer regulären injektiven Abbildung g, so gilt
ten das Modell der wiederholten Messung unter Normalvertei- k D s `. Ist 0 D f#0 g für ein #0 2 , so gilt k D s. Letzterer
lungsannahme, also X D .X1 ; : : : ; Xn / mit unabhängigen und Fall lässt sich für s D 1 noch mit den Ausführungen zur Asym-
je N.;  2 /-verteilten Zufallsvariablen X1 ; : : : ; Xn . In diesem ptotik der ML-Schätzung in der Hintergrund-und-Ausblick-Box
Fall gilt D f# D .;  2 / j  2 R;  2 > 0g und in Abschn. 7.2 abhandeln. Im Fall 0 D f#0 g gilt
0 1 Y
 n X n
n
f1 .Xj ; #0 /
1 1 Qn D
f .x; #/ D p exp @ 2 .xj  /2 A : f1 .Xj ; b
# n/
 2 2 j D1 j D1

und damit
Soll die Hypothese H0 W  D 0 gegen  ¤ 0 getestet wer-
den, so ist 0 D f.;  2 / 2 j  D 0 g. Die ML-Schätzer n 
X 
für  und  2 wurden in Abschn. 7.2 zu bn D X n und bn2 D Mn D 2 log f1 .Xj ; b
# n /  log f1 .Xj ; #0 / :
P n   2 j D1
n1 j D1 Xj  X n hergeleitet. Die ML-Schätzaufgabe im
Zähler von (7.74) führt auf das Problem, in der obigen Dichte
Nimmt man hier unter Annahme der stochastischen Konver-
 D 0 einzusetzen und bzgl.  2 zu maximieren. Als Lösung
P  2 genz von b # n gegen #0 unter P#0 eine Taylorentwicklung von
ergibt sich en2 WD n1 jnD1 Xj  0 , und somit erhält man log f1 .Xj ; #/ um # D #0 vor, so lässt sich (siehe die
Hintergrund-und-Ausblick-Box über die asymptotische Vertei-
f .X ; 0 ; en2 / lung von ML-Schätzern in Abschn. 7.2) die Darstellung
Q.X / D :
 ; b2 /
f .X ; b n n p p 2
Mn D I1 .#0 / n.b
# n  #0 / C Rn
Eine direkte Rechnung (siehe Aufgabe 7.10) ergibt
  zeigen, wobei Rn unter P#0 stochastisch gegen null konvergiert.
.n  1/ Q.X /2=n  1 D Tn2 ; p p
Da I1 .#0 / n.b # n  #0 / nach Verteilung unter P#0 gegen ei-
p ne standardnormalverteilte Zufallsvariable N konvergiert (vgl.
wobei Tn D n.X n  0 /=Sn die Prüfgröße des Ein-
Stichproben-t -Tests ist, s. (7.51). Da kleinen Werten von Q.X / (7.11)), konvergiert Mn nach Verteilung gegen N 2 , und es gilt
große Werte von jTn j entsprechen, führt der verallgemeinerte N 2 21 .
LQ-Test in diesem Fall zum zweiseitigen t -Test. J

Sind X1 ; : : : ; Xn unter P# stochastisch unabhängig mit gleicher 7.6 Elemente der


Dichte (oder Zähldichte) f1 .t ; #/, so besitzt die LQ-Statistik die
Gestalt
nichtparametrischen Statistik
Q
sup#2 0 jnD1 f1 .Xj ; #/ Allen bisher betrachteten statistischen Verfahren lag die Annah-
Qn WD Qn me zugrunde, dass die Verteilung der auftretenden Zufallsvaria-
sup#2 j D1 f1 .Xj ; #/
blen bis auf endlich viele reelle Parameter bekannt ist. Es wurde
Y f1 .Xj ; e
n
# n/ also eine spezielle parametrische Verteilungsannahme wie et-
D : wa die einer Normalverteilung unterstellt. Im Gegensatz dazu
f1 .Xj ; b
j D1 # n/
gehen nichtparametrische statistische Verfahren von wesentlich
7.6 Elemente der nichtparametrischen Statistik 277

schwächeren und damit oft realitätsnäheren Voraussetzungen F8ω (x)

Kapitel 7
aus. Wir möchten zum Abschluss einige elementare Konzep-
1 •
te und Verfahren der nichtparametrischen Statistik vorstellen.

Hierzu gehören die empirische Verteilungsfunktion als Schätzer
einer unbekannten Verteilungsfunktion, Konfidenzbereichsver-

fahren für Quantile, der Vorzeichentest für den Median sowie •
0.5
als nichtparametrisches Analogon zum Zwei-Stichproben-t - •
Test der Wilcoxon-Rangsummentest. •

x
Die empirische Verteilungsfunktion Fn x6 x2 x7 x5 x1 x3
x8
x4

konvergiert P -fast sicher gleichmäßig gegen F


Abb. 7.19 Realisierung einer empirischen Verteilungsfunktion
Wir wenden uns zunächst Ein-Stichproben-Problemen zu und
nehmen für die weiteren Betrachtungen an, dass vorliegende
Daten x1 ; : : : ; xn als Realisierungen stochastisch unabhängiger (1875–1966) zurückgehende, oft als Zentralsatz der Statistik be-
und identisch verteilter Zufallsvariablen X1 ; : : : ; Xn angesehen zeichnete Resultat besagt, dass Fn sogar mit Wahrscheinlichkeit
werden können. Dabei sei die durch F .x/ WD P .X1  x/, eins gleichmäßig gegen F konvergiert. J
x 2 R, gegebene Verteilungsfunktion F von X1 unbekannt. Da
sich der relative Anteil aller Xj , die kleiner oder gleich x sind,
als Schätzer für die Wahrscheinlichkeit F .x/ D P .X1  x/ ge- Satz von Glivenko-Cantelli (1933)
radezu aufdrängt, ist die folgende Begriffsbildung naheliegend. Unter den gemachten Annahmen gilt
ˇ ˇ
lim sup ˇFn .x/  F .x/ˇ D 0 P -fast sicher:
n!1 x2R
Definition der empirischen Verteilungsfunktion
In obiger Situation heißt für jedes n  1 die durch
Den Beweis dieses Satzes findet man in einer eigenen Unter-
1X
n
Fn .x/ WD 1fXj  xg der-Lupe-Box. Wir merken an dieser Stelle an, dass aufgrund
n j D1 der rechtsseitigen Stetigkeit von Fn und F
ˇ ˇ ˇ ˇ
sup ˇFn .x/  F .x/ˇ D sup ˇFn .x/  F .x/ˇ
definierte Funktion Fn W R ! Œ0; 1 die empirische Ver- x2R x2Q
teilungsfunktion von X1 ; : : : ; Xn . ˇ ˇ
gilt und somit supx2R ˇFn .x/  F .x/ˇ als Supremum abzählbar
vieler messbarer Funktionen messbar und somit eine Zufallsva-
riable ist.
Kommentar Für festes x ist die empirische Verteilungsfunk-
tion eine Zufallsvariable auf ˝. Im Folgenden heben wir deren
Argument ! durch die Notation
Der Kolmogorov-Smirnov-Anpassungstest prüft
1 X
n H0 W F D F0 , wobei F0 stetig ist
Fn! .x/ WD 1fXj .!/  xg; ! 2 ˝; (7.75)
n j D1
Der Satz von Glivenko-Cantelli legt nahe, die empirische Ver-
teilungsfunktion für Schätz- und Testprobleme zu verwenden.
hervor. Für festes ! 2 ˝ ist Fn! ./ die sog. Realisierung von Fn Wir setzen hierzu die zugrunde liegende Verteilungsfunkti-
zu x1 WD X1 .!/; : : : ; xn WD Xn .!/. Diese Realisierung besitzt on F als stetig voraus (was insbesondere gilt, wenn F eine
die Eigenschaften einer diskreten Verteilungsfunktion, denn sie Lebesgue-Dichte besitzt). Die Stetigkeit garantiert, dass gleiche
ist rechtsseitig stetig und hat Sprünge an den Stellen x1 ; : : : ; xn . Realisierungen unter X1 ; X2 ; : : : nur mit der Wahrscheinlichkeit
Dabei ist die Höhe des Sprunges in xi gleich der Anzahl der mit null auftreten, denn dann gilt
xi übereinstimmenden xj , dividiert durch n (Abb. 7.19). 0 1
[
Um asymptotische Eigenschaften eines noch zu definieren- P@ fXi D Xj gA D 0
den Schätzers für F zu formulieren, setzen wir voraus, dass 1i <j <1
X1 ; X2 ; : : : eine Folge unabhängiger und identisch verteilter Zu-
fallsvariablen auf einem Wahrscheinlichkeitsraum .˝; A; P / (Aufgabe 7.49). Es folgt, dass die am Ende von Abschn. 5.2
ist. Nach dem starken Gesetz großer Zahlen von Kolmogorov eingeführten Ordnungsstatistiken X1Wn ; : : : ; XnWn von X1 ; : : : Xn
konvergiert dann für festes x 2 R die Folge Fn .x/, n  1, mit Wahrscheinlichkeit eins strikt aufsteigen, d. h., es gilt
P -fast sicher gegen F .x/. Das folgende, auf Waleri Iwano-
witsch Glivenko (1897–1940) und Francesco Paolo Cantelli P .X1Wn < X2Wn < : : : < XnWn / D 1:
278 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Unter der Lupe: Der Beweis des Satzes von Glivenko-Cantelli

Hier spielen das starke Gesetz großer Zahlen und Monoto- Sei hierzu x 2 R beliebig gewählt. Falls xm;k1  x < xm;k
niebetrachtungen zusammen. für ein k 2 f2; : : : ; m  1g, so liefern (7.78), die Monotonie
von Fn! und F und die Definition von Dm;n !
Wir müssen zeigen, dass es eine Menge ˝0 2 A mit
P .˝0/ D 1 gibt, sodass mit der Notation (7.75)
Fn! .x/  Fn! .xm;k /  F .xm;k / C Dm;n
!

lim sup jFn! .x/  F .x/j D 0 8! 2 ˝0 1


n!1 x2R !
 F .xm;k1 / C C Dm;n
m
gilt. Hierzu wenden wir das starke Gesetz großer Zahlen auf 1 !
 F .x/ C C Dm;n :
die Folgen .1.1;x.Xj // und .1.1;x/.Xj //, j  1, an und m
erhalten damit zu jedem x 2 R Mengen Ax ; Bx 2 A mit
P .Ax / D P .Bx / D 1 und Analog gilt Fn! .x/  F .x/  1 !
 Dm;n , also zusammen
m

lim Fn! .x/ D F .x/; ! 2 Ax ; (7.76)


n!1 1
jFn! .x/  F .x/j  !
C Dm;n : (7.81)
lim F ! .x/ D F .x/ D P .X1 < x/; ! 2 Bx : (7.77) m
n!1 n

Dabei sei allgemein H .x/ WD limy%x H .y/ gesetzt. Falls x < xm;1 (der Fall x  xm;m1 wird entsprechend be-
handelt), so folgt
Um Dn! WD supx2R jFn! .x/  F .x/j abzuschätzen, setzen
wir xm;k WD F 1 .k=m/ (m  2, 1  k  m  1) mit
Fn! .x/  F .x/  Fn! .x/  Fn! .xm;1 /
der Quantilfunktion F 1 von F , vgl. (5.43). Kombiniert man
die Ungleichungen F .F 1 .p//  p  F .F 1 .p// für ! 1 !
 F .xm;1 / C Dm;n  C Dm;n
p D k=m und p D .k  1/=m, so folgt m

1 und unter Beachtung von (7.79)


F .xm;k /  F .xm;k1 /  : (7.78)
m
1
Außerdem gilt F .x/  Fn! .x/  F .xm;1 /  !
C Dm;n :
m
1 1
F .xm;1 /  ; F .xm;m1 /  1  : (7.79) Folglich gilt (7.81) für jedes x 2 R und damit (7.80). Setzen
m m
wir
Wir behaupten nun die Gültigkeit der Ungleichung
\ \
1 m1
1 ˝0 WD .Axm;k \ Bxm;k /
Dn!  !
C Dm;n ; m  2; n  1; ! 2 ˝; (7.80)
m mD2 kD1

wobei
mit Ax aus (7.76) und Bx aus (7.77), so liegt ˝0 in A, und
n
! es gilt P .˝0/ D 1, denn ˝0 ist abzählbarer Durchschnitt
Dm;n WD max jFn! .xm;k /  F .xm;k /j; !
von Eins-Mengen. Ist ! 2 ˝0 , so folgt limn!1 Dm;n D 0
o
für jedes m  2 und somit wegen (7.80) lim supn!1 Dn! 
jFn! .xm;k /  F .xm;k /j j 1  k  m  1 : 1
m
; m  2, also auch limn!1 Dn! D 0, was zu zeigen war.

Wegen die Darstellung


8   
ˆ k1 k
<0; falls x < X1Wn ; Fn D max max F .XkWn /  ;  F .XkWn /
Fn .x/ D kn ; falls XkWn  x < XkC1Wn und k 2 f1; : : : ; n  1g;
1kn n n
:̂1; falls X  x (7.82)
nWn
besitzt. Nach dem Satz über die Wahrscheinlichkeitsintegral-
ergibt sich, dass die im Satz von Glivenko-Cantelli auftretende Transformation am Ende von Abschn. 5.3 sind die Zufalls-
Zufallsvariable variablen U1 WD F .X1 /; : : : ; Un WD F .Xn / unabhängig
ˇ ˇ und je gleichverteilt U.0; 1/. Wegen der Monotonie von F
Fn WD sup ˇFn .x/  F .x/ˇ besitzt dann der Zufallsvektor .F .X1Wn /; : : : ; F .XnWn // die
x2R gleiche Verteilung wie der Vektor .U1Wn ; : : : ; UnWn / der Ord-
7.6 Elemente der nichtparametrischen Statistik 279

nungsstatistiken von U1 ; : : : ; Un . Da Fn eine Funktion von Darstellung (7.82) mit F WD F0 dient der konkreten Berechnung

Kapitel 7
.F .X1Wn /; : : : ; F .XnWn // ist, haben wir folgendes Resultat erhal- der Testgröße, wenn Daten x1 ; : : : ; xn als Realisierungen von
ten: X1 ; : : : ; Xn vorliegen.

Satz über die Verteilungsfreiheit von F


n
Beispiel Die Werte

Sind X1 ; : : : ; Xn stochastisch unabhängig mit stetiger Ver- 0:038 0:080 0:104 0:106 0:137
teilungsfunktion F , so hängt die Verteilung von 0:179 0:202 0:225 0:230 0:237
ˇ ˇ
Fn D sup ˇFn .x/  F .x/ˇ 0:266 0:322 0:457 0:510 0:556
x2R
0:605 0:676 0:677 0:695 0:779
nicht von F ab. 0:782 0:787 0:835 0:854 0:983

wurden mit dem linearen Kongruenzgenerator der freien


Man kann also zur Bestimmung der Verteilung von Fn den Spe- Statistik-Programmiersprache R erhalten. Unterstellt man, dass
zialfall X1 U.0; 1/ annehmen. Bitte überlegen Sie sich selbst, diese Werte als geordnete Stichprobe von Realisierungen unab-
welche Verteilung F1 besitzt (Aufgabe 7.11). hängiger und identisch verteilter Zufallsvariablen in Œ0; 1 mit
Obiges Resultat führt unmittelbar zu einem Anpassungstest, der stetiger Verteilungsfunktion angesehen werden können, so lie-
die Hypothese fert die Kolmogorov-Smirnov-Testgröße d .Fn; F0 / mit F0 .t / D
H0 W F D F0 t , 0  t  1, bei Anwendung auf diese Daten den Wert 0:174.
Ein Vergleich mit dem kritischen Wert 0.264 in Tab. 7.7 zeigt,
gegen die Alternative H1 W F ¤ F0 prüft. Dabei ist F0 ei- dass die Hypothese einer Gleichverteilung auf Œ0; 1 bei einer
ne gegebene stetige Verteilungsfunktion. Als Prüfgröße dient zugelassenen Wahrscheinlichkeit von 0.05 für einen Fehler ers-
der sog. nach Andrej Nikolajewitsch Kolmogorov (1903–1987) ter Art nicht verworfen werden kann. J
und Nikolai Wassiljewitsch Smirnov (1900–1966) benannte
Kolmogorov-Smirnov-Abstand
ˇ ˇ Kommentar Wir haben bereits mit dem Chi-Quadrat-Test
d .Fn ; F0 / WD F0 D sup ˇFn .x/  F0 .x/ˇ
n
x2R
einen Anpassungstest kennengelernt. Da jener Test die Güte
der Anpassung von beobachteten Häufigkeiten an theoretische
zwischen Fn und F0 . Wahrscheinlichkeiten in einem multinomialen Versuchsschema
Der sog. Kolmogorov-Smirnov-Anpassungstest lehnt die Hypo- testet, kann er unmittelbar angewendet werden, wenn die zu-
these H0 für große Werte von d .Fn ; F0 / ab. Nach dem Satz grunde liegende Verteilungsfunktion F diskret ist und endliche
über die Verteilungsfreiheit von Fn hängt die Verteilung von viele bekannte Sprungstellen x1 ; : : : ; xs aufweist. Dann liegt
d .Fn ; F0 / unter H0 nicht von F0 ab. Ablehnung von H0 erfolgt, nämlich die Situation des multinomialen Versuchsschemas mit
wenn d .Fn ; F0 / > cnI˛ gilt. Dabei ist cnI˛ das .1  ˛/-Quantil pj WD F .xj /  F .xj /, j D 1; : : : ; s, vor. Die hypotheti-
der H0 -Verteilung von d .Fn; F0 /. Tab. 7.7 gibt diese Werte für sche Verteilungsfunktion F0 hat dann an den gleichen Stellen
˛ D 0:05 und verschiedene Werte von n an. Sprünge mit den als Hypothese angenommenen Höhen j WD
Für größere Werte von n kann als approximativer kritischer Wert F0 .xj /  F0 .xj /, j D 1; : : : ; s.

1:36 Ist F0 stetig, so ist der Chi-Quadrat-Test prinzipiell auch an-


cn;0:05 WD p (7.83) wendbar. Man muss dann aber (mit einer gewissen Willkür
n
behaftet) die obige Situation herstellen, indem man zunächst ein
gesetzt s  2 wählt und dann R in s  2 paarweise disjunkte Interval-
p werden. Diese Empfehlung gründet auf den Sachverhalt,
dass n d .Fn ; F0 / unter H0 eine Grenzverteilung besitzt (siehe le I1 WD .1; x1 , I2 WD .x1 ; x2 ; : : : ; Is1 WD .xs2 ; xs1 ,
die Hintergund-und-Ausblick-Box zum empirischen Standard- Is WD .xs1 ; 1/ Paufteilt und für die Testentscheidung die An-
Prozess und zur Brownschen Brücke). zahlen Nj WD niD1 1fXi 2 Ij g für j D 1; : : : ; s heranzieht.
Der Zufallsvektor .N1 ; : : : ; Ns / hat die Multinomialverteilung
Mult.nI p1 ; : : : ; ps /, wobei pj D P .Xi 2 Ij /, also p1 D
Tab. 7.7 Kritische Werte für d .Fn ; F0 /, ˛ D 0:05 F .x1 /, p2 D F .x2 /F .x1 / usw. Man beachte, dass beim Über-
n cnI˛ n cnI˛ gang von X1 ; : : : ; Xn zu den Anzahlen N1 ; : : : ; Ns prinzipiell
4 0.624 14 0.349 Information verloren geht. J
5 0.563 15 0.338
6 0.519 16 0.327
7 0.483 17 0.318 Quantile kann man nichtparametrisch mithilfe
8 0.454 18 0.309 von Ordnungsstatistiken schätzen
9 0.430 19 0.301
10 0.409 20 0.294 Wir haben zu gegebenem p mit 0 < p < 1 das p-Quantil einer
11 0.391 25 0.264 Verteilungsfunktion F durch
12 0.375 30 0.242
13 0.361 35 0.224 Qp .F / D inffx 2 R j F .x/  pg
280 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Hintergrund und Ausblick: Empirischer Standard-Prozess und Brownsche Brücke

Die Kolmogorov-Verteilung ist die Verteilung der Supre- Aus dem multivariaten Zentralen Grenzwertsatz folgt, dass
mumsnorm der Brownschen Brücke. für beliebiges k 2 N und beliebige Wahl von t1 ; : : : ; tk 2
Œ0; 1 mit 0  t1 < t2 < : : : < tk  1 die Verteilungskonver-
Sind X1 ; X2 ; : : : ; unabhängige Zufallsvariablen auf einem
genz
Wahrscheinlichkeitsraum .˝; A; P / mit der Gleichvertei-
lung U.0; 1/, so beschreibt D
p .Bn .t1 ; /; : : : ; Bn .tk //> 
! Nk .0; ˙/ (7.84)
Bn .t / WD n .Fn .t /  t / ; 0  t  1;
p besteht. Dabei sind die Einträge der Kovarianzmatrix ˙
die mit n multiplizierte Differenz zwischen der empiri- durch i ;j D min.ti ; tj /  ti tj gegeben.
schen Verteilungsfunktion Fn von X1 ; : : : ; Xn und der Ver-
teilungsfunktion F .t / D t , 0  t  1, von X1 . Versieht man den Raum DŒ0; 1 mit einer geeigneten -
Algebra, so wird Bn ./ eine DŒ0; 1-wertige Zufallsvariable
Durch .Bn .t //0t 1 wird eine empirischer Standard-Prozess auf ˝, und es lässt sich dann über (7.84) hinaus
genannte Familie von Zufallsvariablen auf ˝ definiert.
Möchte man wie bei Fn das Argument ! der Xj und damit D
auch von Bn .t / betonen, so schreibt man Bn ./ 
! B./ bei n ! 1
p  
Bn! .t / WD n Fn! .t /  t ; 0  t  1: (im Sinne von Eh.Bn / ! Eh.B/ für jede stetige beschränk-
te Funktion h W DŒ0; 1 ! R) nachweisen, siehe z. B.
Für festes ! ist Œ0; 1 3 t ! Bn! .t / eine rechtsseitig stetige [5], S. 149–151. Dabei ist B./ die sog. Brownsche Brücke.
reelle Funktion auf Œ0; 1 mit linksseitigen Grenzwerten an Diese hängt mit dem Brown-Wiener-Prozess W ./ über die
allen Stellen t 2 .0; 1. Die Menge dieser Funktionen wird Beziehung B.t / D W .t /  tW .1/ zusammen. Mit einer
als Càdlàg-Raum DŒ0; 1 bezeichnet (von französisch conti- Verallgemeinerung des in Abschn. 6.3 vorgestellten Abbil-
nue à droite, limites à gauche). dungssatzes überträgt sich die obige Verteilungskonvergenz
Die nachstehende Abbildung zeigt eine Realisierung von auf die Supremumsnorm, d. h., es gilt
B25 , wobei die Realisierungen von X1 ; : : : ; X25 mithilfe ei- p D
nes Zufallszahlengenerators erzeugt wurden. sup jBn .t /j D n sup jFn .t /  t j 
! sup jB.t /j:
0t 1 0t 1 0t 1

B25 (t)
Die Verteilung von sup0t 1 jB.t /j heißt Kolmogorov-
Verteilung. Ihre Verteilungsfunktion ist für x > 0 durch

0.5 X
1
 
K.x/ WD 1  2 .1/j 1 exp 2j 2 x 2 (7.85)
j D1
0 t
1 und K.x/ WD 0 für x  0 gegeben. Es gilt K.1:36/ D 0:95,
was die Empfehlung (7.83) erklärt.

definiert, vgl. (5.43). Sind X1 ; : : : ; Xn unabhängige Zufallsva- Offenbar gilt


riablen mit gleicher Verteilungsfunktion F , so liegt es nach dem (
Satz von Glivenko-Cantelli nahe, als Schätzer für Qp .F / die XnpWn ; falls np 2 N;
Größe Qp .Fn / zu verwenden. Qn;p D
XbnpC1cWn sonst;

Definition des empirischen p-Quantils sodass das empirische p-Quantil eine Ordnungsstatistik von
X1 ; : : : ; Xn ist.
Sind X1 ; : : : ; Xn unabhängige, identisch verteilte Zufalls-
variablen mit empirischer Verteilungsfunktion Fn sowie
p 2 .0; 1/, so heißt Selbstfrage 11
Warum gilt die obige Darstellung?
Qn;p WD Qp .Fn / WD Fn1 .p/ D inffx 2 R j Fn .x/  pg

empirisches p-Quantil von X1 ; : : : ; Xn . Im Spezialfall p D 1=2 nennt man Qn;1=2 den empirischen Me-
dian von X1 ; : : : ; Xn . In diesem Fall ist es üblich, bei geradem
7.6 Elemente der nichtparametrischen Statistik 281

n, also n D 2m für m 2 N, die modifizierte Größe b) Es sei .rn / eine Folge natürlicher Zahlen mit 1  rn  n,

Kapitel 7
n  1, sowie
1
.XmWn C XmC1Wn / ; (7.86) rn p
2 D p C ın ; wobei nın ! 0:
n
also das arithmetische Mittel der beiden „innersten Ordnungs-
statistiken“, als empirischen Median zu bezeichnen. Durch diese Wir zeigen
Modifikation wird der empirische Median zu einem erwartungs-  
p   D p.1  p/
treuen Schätzer für den Median, wenn die Verteilung von X1 n Xrn Wn  Qp ! N 0; 0 : (7.87)
symmetrisch ist (Aufgabe 7.12). F .Qp /2

Natürlich stellt sich die Frage, welche Eigenschaften Qn;p als Hieraus folgt die Behauptung. Um (7.87) nachzuweisen, sei u 2
Schätzer für Qp WD Qp .F / besitzt. Das nachstehende Resul- R beliebig. Bezeichnet ˚ die Verteilungsfunktion der Standard-
tat besagt, dass unter schwachen Voraussetzungen an das lokale Normalverteilung, so ist offenbar
Verhalten von F im Punkt Qp die Schätzfolge .Qn;p / (stark) !
p und dass der Schätzfehler Qn;p  Qp nach
konsistent für Qp ist, p  uF 0 .Qp /
Multiplikation mit n für n ! 1 asymptotisch normalverteilt lim P n.Xrn Wn  Qp /  u D ˚ p
n!1 p.1  p/
ist.
P ˚ 
zu zeigen. Mit Yn WD jnD1 1 Xj  Qp C pun gilt aufgrund
Konsistenz und asymptotische Verteilung von Qn;p des mithilfe von (5.31) gegebenen Zusammenhangs zwischen
Ordnungsstatistiken und der Binomialverteilung
Die Verteilungsfunktion F sei an der Stelle Qp differen-  
zierbar, wobei F 0 .Qp / > 0. Dann gelten: p  u
P n.Xrn Wn  Qp /  u D P Xrn Wn  Qp C p
a) limn!1 Qn;p D Qp P -fast sicher, n
p   D  p.1p/  D P .Yn  rn /
b) n Qn;p  Qp  ! N 0; .F 0 .Qp //2 . !
Yn  npn
DP p  tn ;
npn .1  pn /

Beweis a) Es sei " > 0 beliebig. Wegen der Differenzierbar- p


wobei Yn Bin.n; pn /, pn D F .Qp C u= n/ und
keit von F an der Stelle Qp mit positiver Ableitung finden wir
ein ı > 0 mit p p
np C nın  npn n.pn  p/ C nın
tn D p D p :
F .Qp  "/ < p  ı; F .Qp C "/ > p C ı: npn .1  pn / pn .1  pn /

Wegen der Differenzierbarkeitsvoraussetzung gilt


Gilt dann für die empirische Verteilungsfunktion Fn
p p  p 
n .pn  p/ D n F .Qp C u= n/  F .Qp / ! uF 0 .Qp /
sup jFn .x/  F .x/j < ı;
x2R p
und somit (da nın ! 0)
so folgt jFn1 .p/  F 1 .p/j  ", also jQn;p  Qp j  ". Der
Satz von Glivenko-Cantelli liefert eine Menge ˝0 2 A mit uF 0 .Qp /
lim tn D  p :
n!1 p.1  p/
lim sup jFn! .x/  F .x/j D 0 8! 2 ˝0 p
n!1 x2R
Nach Aufgabe 6.15 ist .Yn  npn /= npn .1  pn / asymptotisch
N.0; 1/-verteilt, und mit Aufgabe 6.12 folgt dann
(vgl. die Notation (7.75) und den Beweis des Satzes von
Glivenko-Cantelli). Zu beliebigem ! 2 ˝0 existiert ein n0 D ! !
Yn  npn uF 0 .Qp /
n0 .!; ı/ mit lim P p  tn D 1  ˚  p
n!1 npn .1  pn / p.1  p/
sup jFn! .x/  F .x/j < ı 8n  n0 : !
0
uF .Qp /
x2R
D˚ p ;
p.1  p/
Mit Qn;p .!/ WD .Fn! /1 .p/ folgt dann nach den obigen Über-
legungen jQn;p .!/  Qp j  " und somit was zu zeigen war. 

lim sup jQn;p .!/  Qp j  ";


n!1 Kommentar Nach Teil b)pdes Satzes hängt die Varianz
der Limesverteilung des mit n multiplizierten Schätzfehlers
also auch limn!1 Qn;p .!/ D Qp ; was zu zeigen war. Qn;p  Qp von der zugrunde liegenden Verteilung nur über
282 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

die Ableitung F 0 .Qp / ab. Je größer diese ist, desto stärker ist Tab. 7.8 ŒX.r/ ; X.nrC1/  ist ein 95 %-Konfidenzintervall für Q1=2
Kapitel 7

der Zuwachs von F in einer kleinen Umgebung des p-Quantils n 6 7 8 9 10 11 12 13 14 15


Qp , und desto größer ist nach dem Satz von Glivenko-Cantelli r 1 1 1 2 2 2 3 3 3 4
auch der Zuwachs der empirischen Verteilungsfunktion Fn in
dieser Umgebung. Vereinfacht gesprochen sind bei großer Ab- n 16 17 18 19 20 21 22 23 24 25
leitung F 0 .Qp / viele „Daten“ (Realisierungen von X1 ; : : : ; Xn ) r 4 5 5 5 6 6 6 7 7 8
in der Nähe von Qp zu erwarten, wodurch die Schätzung von
Qp durch Qn;p genauer wird, siehe auch die Unter-der-Lupe- n 26 27 28 29 30 31 32 33 34 35
Box „Arithmetisches Mittel oder Median?“ J r 7 7 8 8 9 9 10 10 11 11

n 36 37 38 39 40 41 42 43 44 45
r 12 12 12 13 13 14 14 15 15 15
Mithilfe von Ordnungsstatistiken ergibt sich
ein Konfidenzintervall für den Median
Das zufällige Intervall ŒX.r/ ; X.s/ / enthält also den unbekannten
Wir greifen jetzt einen wichtigen Spezialfall der Quantils- Median mit einer von F unabhängigen, sich aus der Binomi-
schätzung, nämlich die Schätzung des Medians, wieder auf alverteilung Bin.n; 1=2/ ergebenden Wahrscheinlichkeit. Setzt
und nehmen hierfür an, dass die Verteilungsfunktion F ste- man speziell s D n  r C 1 und beachtet die Gleichung
tig ist. In Ergänzung zu einer reinen (Punkt-)Schätzung von P .X.s/ D Q1=2 / D 0, so folgt wegen der Symmetrie der Vertei-
Q1=2 D Q1=2 .F / durch den empirischen Median Qn;1=2 (oder lung Bin.n; 1=2/
bei geradem n dessen modifizierte Form (7.86)) soll jetzt ein
! 
Konfidenzbereich für Q1=2 angegeben werden.   Xr1
n 1 n
P X.r/  Q1=2  X.nrC1/ D 1  2 : (7.90)
Man beachte, dass obige Annahmen wesentlich schwächer als j 2
j D0
die spezielle Normalverteilungsannahme Xj N.;  2 / sind.
Unter letzterer hatten wir in Abschn. 7.3 einen Konfidenzbe- Selbstfrage 12
reich für  D Q1=2 mithilfe des Satzes von Student konstruiert.
Warum gilt P .X.s/ D Q1=2 / D 0?
Bezeichnet
Fc WD fF W R ! Œ0; 1 j F stetige Verteilungsfunktiong
Wählt man also r so, dass die auf der rechten Seite von (7.90)
die Menge aller stetigen Verteilungsfunktionen, so suchen wir stehende Summe höchstens gleich ˛=2 ist, so gilt (7.88) mit
jetzt zu gegebenem (kleinen) ˛ 2 .0; 1/ von X1 ; : : : ; Xn abhän- Un WD X.r/ , On WD X.nrC1/ ; das Intervall ŒX.r/ ; X.nrC1/ 
gende Zufallsvariablen Un und On mit ist also ein Konfidenzintervall zur Konfidenzwahrscheinlichkeit
  1  ˛ für den unbekannten Median einer Verteilung mit stetiger
PF Un  Q1=2 .F /  On  1  ˛ 8F 2 Fc : (7.88) Verteilungsfunktion.
Durch die Indizierung der Wahrscheinlichkeit mit der unbe- Bei gegebener Konfidenzwahrscheinlichkeit wird man den Wert
kannten Verteilungsfunktion F haben wir analog zur Schreib- r in (7.90) größtmöglich wählen, um eine möglichst genaue
weise P# betont, dass Wahrscheinlichkeiten erst nach Festle- Antwort über die Lage von Q1=2 zu erhalten. Der größte Wert
gung eines stochastischen Modells gebildet werden können. von r, sodass das Intervall ŒX.r/ ; X.nrC1/  einen .1  ˛/-
Zudem macht die Notation Q1=2 .F / die Abhängigkeit des Me- Konfidenzbereich für den Median bildet, kann für n  45
dians von F deutlich. Im Folgenden werden wir jedoch P D PF Tab. 7.8 entnommen werden. Dabei ist eine Konfidenzwahr-
und Q1=2 D Q1=2 .F / schreiben, um die Notation nicht zu über- scheinlichkeit von 0:95 zugrunde gelegt.
laden.
Asymptotische Konfidenzintervalle für Q1=2 erhält man wie
Obere und untere Konfidenzgrenzen On und Un für Q1=2 erhält folgt mithilfe des Zentralen Grenzwertsatzes von de Moivre-
man in einfacher Weise mithilfe der Ordnungsstatistiken X.1/ D Laplace.
X1Wn ; : : : ; X.n/ D XnWn . Seien hierzu r, s Zahlen mit 1  r <
s  n. Zerlegen wir das Ereignis fX.r/  Q1=2 g danach, ob
bereits X.s/  Q1=2 gilt (wegen X.r/  X.s/ ist dann erst recht Asymptotisches Konfidenzintervall für den Median
X.r/  Q1=2 ) oder aber X.r/  Q1=2 < X.s/ gilt, so ergibt sich
      Es seien X1 ; X2 ; : : : unabhängige Zufallsvariablen mit ste-
P X.r/  Q1=2 < X.s/ D P X.r/  Q1=2  P X.s/  Q1=2 : tiger Verteilungsfunktion F und ˛ 2 .0; 1/. Mit
jn p
Rechts stehen die Verteilungsfunktionen von X.r/ und X.s/ , n 1  ˛k
ausgewertet an der Stelle Q1=2 . Nach dem Satz über die Ver- rn WD  ˚ 1
2 2 2
teilung der r-ten Ordnungsstatistik am Ende von Abschn. 5.2
mit t D Q1=2 und F .t / D 1=2 folgt gilt dann
!   
  X s1
n 1 n lim P Xrn Wn  Q1=2  Xnrn Wn D 1  ˛:
P X.r/  Q1=2 < X.s/ D : (7.89) n!1
j Dr
j 2
7.6 Elemente der nichtparametrischen Statistik 283

Kapitel 7
Unter der Lupe: Arithmetisches Mittel oder empirischer Median?

Wie schätzt man das Zentrum einer symmetrischen Vertei- Man nennt den Quotienten
lung?
F2
Es sei X1 ; X2 ; : : : eine Folge unabhängiger identisch verteil- AREF .Qn;1=2 ; X n / WD 1
D 4F 0 .Q1=2 /2 F2
ter Zufallsvariablen mit unbekannter Verteilungsfunktion F . 4F 0 .Q1=2 /2
Wir setzen nur voraus, dass die Verteilung von X1 symme-
trisch um einen unbekannten Wert ist. Es gebe also ein a 2 R die asymptotische relative Effizienz (ARE) von .Qn;1=2 / bzgl.
mit der Eigenschaft .X n / (jeweils als Schätzfolgen gesehen).
X1  a a  X1 : Liegt eine Normalverteilung vor, gilt also F .x/ DW FN .x/ D
˚..x  a/=/, so folgt F2 D  2 und
Dann ist a im Falle der Existenz des Erwartungswertes gleich
x  a 1
E.X1 / und zugleich der Median von X1 . Besitzt die Vertei-
F 0 .x/ D ' ;
lung von X1 eine positive, endliche Varianz F2 , so gilt nach  
dem Zentralen Grenzwertsatz von Lindeberg-Lévy
wobei ' die Dichte der Standardnormalverteilung bezeich-
p   D   net. Es ergibt sich
n Xn  a ! N 0; F2 :
1 2 2
Nach Teil b) des Satzes über Konsistenz und asymptotische AREFN .Qn;1=2 ; X n / D 4'.0/2  D 0:6366;
Verteilung von Qn;p gilt 2 
  und somit ist das arithmetische Mittel dem empirischen Me-
p   D 1
n Qn;1=2  a ! N 0; ; dian als Schätzer für den Erwartungswert einer zugrunde
4F 0 .Q1=2 /2 liegenden Normalverteilung unter dem Gesichtspunkt der
ARE deutlich überlegen. Man beachte jedoch, dass für Ver-
wenn wir voraussetzen, dass F an der Stelle Q1=2 eine posi-
teilungen mit nicht existierender Varianz das arithmetische
tive Ableitung besitzt.
Mittel als Schätzer unbrauchbar sein kann. So besitzt nach
Wenn man bei großem Stichprobenumfang n zwischen X n Aufgabe 5.52 das arithmetische Mittel von n unabhängi-
und Qn;1=2 als Schätzer für a wählen sollte, würde man ange- gen und je Cauchy-verteilten Zufallsvariablen die gleiche
sichts obiger Verteilungskonvergenzen denjenigen Schätzer Verteilung wie X1 . Hat X1  a eine t -Verteilung mit s Frei-
wählen, für den die Varianz der Limes-Normalverteilung, al- heitsgraden, so ist die ARE von .Qn;1=2/ bzgl. .X n / für s D 3
so die sog. asymptotische Varianz, den kleineren Wert liefert. und s D 4 größer als eins (Aufgabe 7.51).

Beweis Nach (7.90) gilt mit Sn Bin.n; 1=2/ Obwohl das obige Resultat rein mathematisch gesehen ein
  Grenzwertsatz ist, stimmen die Werte für rn mit den in Tab. 7.8
P Xrn Wn  Q1=2  Xnrn Wn D 1  2P .Sn  rn  1/:
angegebenen Werten bemerkenswerterweise schon ab n D
Nun ist 32 überein. Im Fall n D 100 liefert obiges Resultat wegen
0 1 ˚ 1 .0:975/ 1:96 den Wert rn D 40 und somit die appro-
n ximativen 95 %-Konfidenzgrenzen X40W100 und X60W100 für den
B Sn  C
P .Sn  rn  1/ D P @ q 2
 tn A ; Median.
1 1
n 2 .1  2 /
Die Aufgaben 7.13 und 7.50 zeigen, dass die oben angestellten
wobei Überlegungen auch greifen, wenn man allgemeiner Konfidenz-
rn  1  n2 grenzen für das p-Quantil Qp .F / einer unbekannten stetigen
tn D q Verteilungsfunktion angeben möchte.
n 12 .1  12 /

und limn!1 tn D ˚ 1 .1  ˛=2/ nach Definition von rn . Der


Zentrale Grenzwertsatz von de Moivre-Laplace liefert .Sn  Der Vorzeichentest prüft Hypothesen
p D
n=2/= n=4  ! N.0; 1/, und mit Aufgabe 6.12 folgt über den Median einer Verteilung
    ˛ 
lim P Xrn Wn  Q1=2  Xnrn Wn D 1  2˚ ˚ 1 1  Der Ein-Stichproben-t -Test prüft Hypothesen über den Erwar-
n!1 2
tungswert einer Normalverteilung bei unbekannter Varianz. Da
D 1  ˛;
in diesem Fall Erwartungswert und Median übereinstimmen,
da ˚.x/ D 1  ˚.x/.  prüft dieser Test zugleich Hypothesen über den Median, wenn
284 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

als spezielle parametrische Verteilungsannahme eine Normal- definiert. Soll die Hypothese H0 W Q1=2 .F / D 0 gegen die
Kapitel 7

verteilung unterstellt wird. Ist eine solche Annahme zweifelhaft, zweiseitige Alternative Q1=2 .F / ¤ 0 getestet werden, so be-
so bietet sich hier mit dem Vorzeichentest eines der ältesten sitzt Vn unter H0 die Binomialverteilung Bin.n; 1=2/, und H0
statistischen Verfahren als Alternative an. Der Vorzeichentest wird genau dann zum Niveau ˛ abgelehnt, wenn Vn  k oder
wurde schon 1710 vom englischen Mathematiker, Physiker und Vn  n  k gilt. Dabei wird k wie in (7.93) gewählt, wobei nur
Mediziner John Arbuthnot (1667–1735) im Zusammenhang mit ˛ durch ˛=2 zu ersetzen ist.
der Untersuchung von Geschlechterverteilungen bei Neugebo-
renen verwendet.
Beispiel Bei 10 Dehnungsversuchen mit Nylonfäden einer
Die diesem Test zugrunde liegenden Annahmen sind denk- Produktserie ergab sich für die Kraft (in Newton), unter der die
bar schwach. So wird nur unterstellt, dass vorliegende Da- Fäden rissen, die Datenreihe
ten x1 ; : : : ; xn Realisierungen unabhängiger Zufallsvariablen
X1 ; : : : ; Xn mit gleicher unbekannter stetiger Verteilungsfunk- 81:7 81:1 80:2 81:9 79:2 81:2 79:8 81:4 79:7 82:5:
tion F sind. Der Vorzeichentest prüft dann die
Der Hersteller behauptet, dass mindestens die Hälfte der pro-
Hypothese H0 W Q1=2 .F /  0 duzierten Fäden erst oberhalb der Belastung 81.5 N reißt.
Modelliert man die obigen Werte x1 ; : : : ; x10 als Realisierun-
gegen die Alternative H1 W Q1=2 .F / > 0 : gen unabhängiger Zufallsvariablen X1 ; : : : ; X10 mit unbekann-
ter stetiger Verteilungsfunktion F , so kann die Behauptung des
Dabei ist 0 ein vorgegebener, nicht von x1 ; : : : ; xn abhängen- Herstellers als Hypothese H0 W Q1=2 .F /  81:5 formuliert
der Wert. Der Name Vorzeichentest erklärt sich aus der Gestalt werden. Der Wert der Vorzeichenstatistik in (7.91) (mit 0 WD
der Prüfgröße Vn .x1 ; : : : ; xn /, die die positiven Vorzeichen aller 81:5) ergibt sich für die obigen Daten zu V10 .x1 ; : : : ; x10 / D 3.
Differenzen xj  0 , j D 1; : : : ; n, zählt. Äquivalent hierzu ist Unter H1 W Q1=2 .F / < 81:5 ist ein vergleichsweise kleiner
die Darstellung Wert für V10 zu erwarten. Im Fall Q1=2 .F / D 81:5 besitzt V10
in (7.92) die Binomialverteilung Bin.10; 1=2/. Die Wahrschein-
X
n
lichkeit, dass eine Zufallsvariable mit dieser Verteilung einen
Vn .x1 ; : : : ; xn / D 1fxj > 0 g (7.91) Wert kleiner oder gleich 3 annimmt, beträgt
j D1
  10
1 C 10 C 10 2
C 3 176
als Indikatorsumme. Da unter H1 der Median der zugrunde lie- 10
D 0:172 :
2 1 024
genden Verteilung größer als 0 ist, ist im Vergleich zu H0
eine größere Anzahl von Beobachtungen xj mit xj > 0 Die Hypothese des Herstellers kann somit (bei Zugrundelegung
zu erwarten. Folglich lehnt man H0 für zu große Werte von üblicher Fehlerwahrscheinlichkeiten von 0.05 oder 0.1 für einen
Vn .x1 ; : : : ; xn / ab. Selbstverständlich kann man auch die Hypo- Fehler erster Art) nicht verworfen werden. J
these Q1=2 .F /  0 gegen die Alternative Q1=2 .F / < 0 oder
Q1=2 .F / D 0 gegen die Alternative Q1=2 .F / ¤ 0 testen. Im Der Vorzeichentest kann auch in der Situation verbundener
ersten Fall ist unter der Alternative ein vergleichsweise kleiner Stichproben angewendet werden. Im Gegensatz zum t -Test für
Wert für Vn .x1 ; : : : ; xn / zu vermuten, im zweiten sprechen so- verbundene Stichproben, der eine N.;  2 /-Normalverteilung
wohl zu kleine als auch zu große Werte der Prüfgröße gegen die mit unbekannten Parametern für die als unabhängig und iden-
Hypothese, sodass ein zweiseitiger Ablehnbereich angebracht tisch verteilten Differenzen Zj D Xj  Yj unterstellt, nimmt
ist. der Vorzeichentest nur an, dass die Zj symmetrisch um einen
Da die Zufallsvariable unbekannten Wert  verteilt sind und eine (unbekannte) stetige
Verteilungsfunktion besitzen. Der Vorzeichentest für verbunde-
X
n ne Stichproben prüft dann die Hypothese H0 W   0 gegen die
Vn WD Vn .X1 ; : : : ; Xn / D 1fXj > 0 g (7.92) Alternative H1 W  > 0 (einseitiger Test) bzw. die Hypothese
j D1 H0 W  D 0 gegen H1 W P ¤ 0 (zweiseitiger Test). Die Prüf-
größe ist die Anzahl Tn D jnD1 1fZj > 0g der positiven Zj .
als Summe von Indikatoren unabhängiger Ereignisse mit glei- Im Fall  D 0 besitzt Tn die Binomialverteilung Bin.n; 1=2/
cher Wahrscheinlichkeit P .X1 > 0 / D 1  F .0 / die (siehe Aufgabe 7.36).
Binomialverteilung Bin.n; 1F .0 // besitzt und unter H0 bzw.
H1 die Ungleichungen 1  F .0 /  1=2 bzw. 1  F .0 / > 1=2
gelten, führt das obige Testproblem auf einen einseitigen Bino- Im Vergleich zum Zwei-Stichproben-t-Test sind
mialtest mit oberem Ablehnbereich.
die Annahmen beim nichtparametrischen
Die Hypothese H0 wird somit genau dann zum Niveau ˛ abge- Zwei-Stichproben-Problem deutlich schwächer
lehnt, wenn Vn  k gilt. Dabei ist k durch
( ˇ ! ) Wir wenden uns jetzt Zwei-Stichproben-Problemen zu und
ˇ  r n X
n
erinnern in diesem Zusammenhang an den Zwei-Stichproben-
ˇ n
k D min r 2 f0; : : : ; ngˇ ˛ (7.93) t -Test. Diesem Test lag folgendes Modell zugrunde:
ˇ 2 j
j Dl X1 ; : : : ; Xm ; Y1 ; : : : ; Yn sind unabhängige Zufallsvariablen, und
7.6 Elemente der nichtparametrischen Statistik 285

Kapitel 7
Unter der Lupe: Wie verhält sich der Vorzeichentest unter lokalen Alternativen?

Die Güte des Vorzeichentests hängt entscheidend von der Unter Hn gilt Vn Bin.n; pn /, wobei
Ableitung F 0 .0 / ab.  
a
Sind X1 ; X2 ; : : : unabhängige Zufallsvariablen mit stetiger pn WD Pn .Xn;1 > 0 / D 1  Gn .0 / D 1  F 0  p :
Verteilungsfunktion F , so testet die Prüfgröße n

X
n Dabei haben wir Pn für die gemeinsame Verteilung von
Vn WD 1fXj > 0 g Xn;1 ; : : : ; Xn;n unter Hn geschrieben.
j D1
Ist F in 0 differenzierbar, und gilt F 0 .0 / > 0, so folgt 0 <
des Vorzeichentests die Hypothese H0 W Q1=2 .F /  0 pn < 1 für jedes hinreichend große n sowie limn!1 pn D
gegen H1 W Q1=2 .F / > 0 . Im Fall Q1=2 .F / D 0 gilt 1=2 D F .0 /. Nach Aufgabe 6.15 gilt dann
Vn Bin.n; 1=2/, und so entsteht ein Test zum asymptoti-
schen Niveau ˛, wenn Ablehnung von H0 für !
Vn  npn
p lim Pn p > t D 1  ˚.t /; t 2 R:
n n 1 n!1 npn .1  pn /
Vn > cn WD C ˚ .1  ˛/
2 2
erfolgt, denn dann gilt für n ! 1 Die Ablehnwahrscheinlichkeit von H0 unter Hn ist
0 1 !
Vn  npn
B Vn  n=2 cn  n=2 C Pn .Vn > cn / D Pn p > tn ;
P .Vn > cn / D P @ q > q A npn .1  pn /
1 1
n 2 .1  2 / n 12 .1  12 /
0 1 wobei
B Vn  n=2 C p p
D P @q > ˚ 1 .1  ˛/A cn  npn
n
C 12 ˚ 1 .1  ˛/  npn
1 1
n 2 .1  2 / tn D p D 2
p :
npn .1  pn / pn .1  pn /
! 1  ˚.˚ 1 .1  ˛// D ˛:
Der Nenner des letzten Ausdrucks konvergiert gegen 1=2,
Wie verhält sich dieser Test bei wachsendem n, wenn die und für den Zähler gilt aufgrund der Differenzierbarkeitsvor-
Hypothese nicht gilt? Hierzu betrachten wir ein Dreiecks- aussetzung an F und F .0 / D 1=2
schema fXn;1 ; : : : ; Xn;n W n  1g, wobei Xn;1 ; : : : ; Xn;n für
     
jedes n  2 unabhängig p sind und die Verteilungsfunktion p 1 p a
Gn .t / WD F .t  a= n/, t 2 R, besitzen. Dabei ist a > 0 ei- n  p n D n F 0  p  F .0 /
2 n
ne gegebene Zahl. Nehmen wir F .0 / D 1=2 an und setzen
voraus, dass F in einer Umgebung von 0 streng monoton ! aF 0 .0 /:
wächst, so gilt Gn .0 / < 1=2. Der Median von Gn ist al-
so größer als 0 . Da sich dieser Median bei wachsendem Somit folgt limn!1 tn D ˚ 1 .1  ˛/  2aF 0 .0 /, und Auf-
n von oben dem Wert 0 annähert, wird eine bessere Da- gabe 6.12 liefert
tenbasis dahingehend kompensiert, dass die Alternative zu  
H0 immer „schwerer erkennbar wird“. Wie verhält sich die lim Pn .Vn > cn / D 1  ˚ ˚ 1 .1  ˛/  2aF 0 .0 / > ˛:
n!1
Ablehnwahrscheinlichkeit von H0 des Vorzeichentests ge-
genüber einer solchen Folge sog. lokaler Alternativen Die (Limes-)Wahrscheinlichkeit, dass der Vorzeichentest die
Hypothese H0 unter der Folge .Hn / von Alternativen ab-
Hn W Xn;1 ; : : : ; Xn;n u.i.v. Gn ; n  1‹ lehnt, wächst also monoton mit F 0 .0 /.

es gilt Xi N.;  2 / für i D 1; : : : ; m und Yj N.;  2 / für variablen sind, wobei X1 ; : : : ; Xm dieselbe Verteilungsfunktion
j D 1; : : : ; n. Unter dieser speziellen Normalverteilungsannah- F und Y1 ; : : : ; Yn dieselbe Verteilungsfunktion G besitzen. Es
me mit unbekannten Parametern ;  und  2 wurde dann u. a. werde weiter angenommen, dass F und G stetig, aber ansons-
die Hypothese H0 W  D  der Gleichheit der Verteilungen von ten unbekannt sind. Zu testen ist die Hypothese H0 W F D G
X1 und Y1 gegen die Alternative H1 W  ¤  getestet. gegen eine noch zu spezifizierende Alternative (die nicht un-
bedingt H1 W F ¤ G lauten muss). Diese Situation wird als
Die obigen mathematischen Annahmen sind bequem und bis- nichtparametrisches Zwei-Stichproben-Problem bezeichnet.
weilen auch gerechtfertigt, doch es gibt viele Situationen, in
denen die nachfolgende wesentlich schwächere nichtparame- Im Kern geht es bei einem Zwei-Stichproben-Problem um die
trische Verteilungsannahme geboten erscheint. Wir unterstellen Frage nach der Signifikanz festgestellter Unterschiede in zwei
wie oben, dass X1 ; : : : ; Xm und Y1 ; : : : ; Yn unabhängige Zufalls- zufallsbehafteten Datenreihen. Ein typisches Beispiel hierfür ist
286 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

mit unabhängigen Zufallsvariablen Xj , j D 1; : : : ; m C n, die


Kapitel 7

alle die Verteilungsfunktion F besitzen. Man beachte, dass die


dem Zwei-Stichproben-t -Test zugrunde liegende Annahme ein
spezielles parametrisches Lokationsmodell mit Xi N.;  2 /
g(x) = f (x−δ)
und Yj N.;  2 /, also
x  
F .x/ D ˚ ; G.x/ D F .x  ı/


x−δ x mit ı D    ist.

Abb. 7.20 Zwei-Stichproben-Lokationsmodell. Die Graphen von f


und g gehen durch Verschiebung auseinander hervor
Die Wilcoxon-Rangsummen-Statistik ist
verteilungsfrei unter H0
ein kontrollierter klinischer Versuch, mit dessen Hilfe festge- Der im Folgenden vorgestellte, nach dem US-amerikanischen
stellt werden soll, ob eine bestimmte Behandlung gegenüber Chemiker und Statistiker Frank Wilcoxon (1892–1965) be-
einem Placebo-Präparat einen Erfolg zeigt oder nicht. Wir nannte Wilcoxon-Rangsummentest ist das nichtparametrische
unterstellen, dass die zur Entscheidungsfindung vorliegenden Analogon zum Zwei-Stichproben-t -Test. Dieses Verfahren ver-
Daten x1 ; : : : ; xm ; y1 ; : : : ; yn Realisierungen von Zufallsvaria- wendet die durch
blen mit den oben gemachten Voraussetzungen sind. Dabei
könnten y1 ; : : : ; yn die Werte von n behandelten Personen und X
m X
n
r.Xi / D 1fXj  Xi g C 1fYk  Xi g; (7.95)
x1 ; : : : ; xm die Werte einer sog. Kontrollgruppe sein, denen
j D1 kD1
lediglich ein Placebo verabreicht wurde. Sind alle m C n Da-
tenwerte unbeeinflusst voneinander sowie die Werte innerhalb X
m X
n

der beiden Stichproben jeweils unter gleichen Bedingungen ent- r.Yj / D 1fXi  Yj g C 1fYk  Yj g;
i D1 kD1
standen, so ist obiges Rahmenmodell angemessen.
Zwei-Stichproben-Tests prüfen in dieser Situation die Hypo- i D 1; : : : ; m, j D 1; : : : ; n, definierten Ränge von
these H0 W F D G. Unter H0 haben alle Zufallsvariablen X1 ; : : : ; Xm und Y1 ; : : : ; Yn in der gemeinsamen Stichprobe
X1 ; : : : ; Xm ; Y1 ; : : : ; Yn die gleiche unbekannte Verteilungs- X1 ; : : : ; Xm ; Y1 ; : : : ; Yn . Die Zufallsvariablen r.Xi / und r.Yj /
funktion, deren genaue Gestalt jedoch nicht von Interesse ist. beschreiben die Anzahl aller X1 ; : : : ; Xm ; Y1 ; : : : ; Yn , die klei-
Im oben beschriebenen Kontext eines kontrollierten klinischen ner oder gleich Xi bzw. Yj sind.
Versuchs besagt die Gültigkeit von H0 , dass das auf möglichen
Da nach Aufgabe 7.49 nur mit Wahrscheinlichkeit null gleiche
Behandlungserfolg getestete Medikament gegenüber einem Pla-
Werte unter X1 ; : : : ; Xm ; Y1 ; : : : ; Yn auftreten und unter H0 W
cebo wirkungslos ist.
F D G jede Permutation der Komponenten des Zufallsvektors
Die allgemeinste Alternative zu H0 bedeutet, dass die bei- .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / die gleiche Verteilung besitzt, hat der
den Verteilungsfunktionen verschieden sind, dass also F .x/ ¤ Zufallsvektor
G.x/ für mindestens ein x gilt. Viele Zwei-Stichproben-Prüf-
verfahren, wie z. B. der im Folgenden vorgestellte Wilcoxon- .r.X1 /; : : : ; r.Xm /; r.Y1 /; : : : ; r.Yn //
Rangsummentest, zielen jedoch nicht darauf ab, jeden mögli-
chen Unterschied zwischen F und G „aufdecken zu wollen“, der Rang-Zahlen (Ränge) unter H0 W F D G mit Wahr-
sondern sind in erster Linie daraufhin zugeschnitten, potenzi- scheinlichkeit eins eine (von F unabhängige!) Gleichverteilung
elle Lage-Unterschiede zwischen F und G aufzuspüren. Ein auf der Menge aller Permutationen der Zahlen 1; : : : ; m C
solcher Lage-Unterschied besagt, dass die Verteilungsfunktion n. Konsequenterweise hat dann jede Prüfgröße Tm;n D
G gegenüber F verschoben ist, also eine (unbekannte) Zahl ı Tm;n .X1 : : : ; Xm ; Y1 ; : : : ; Yn /, die von X1 ; : : : ; YmCn nur über
mit G.x/ D F .x  ı/, x 2 R, existiert (sog. Zwei-Stichproben- den obigen Zufallsvektor der Rang-Zahlen r.X1 /; : : : ; r.Ym /
Lokationsmodell). Besitzen F und G stetige Dichten f bzw. g, abhängt, unter H0 eine Verteilung, die nicht von der unbekann-
so gilt dann auch g.x/ D f .x  ı/, x 2 R (Abb. 7.20). ten stetigen Verteilungsfunktion F abhängt. Man sagt dann,
Im Zwei-Stichproben-Lokationsmodell gibt es eine Zahl ı, so Tm;n sei verteilungsfrei auf H0 .
dass Y1 die gleiche Verteilung wie X1 C ı besitzt, denn wegen Die Prüfgröße des Wilcoxon-Rangsummentests ist
G.x/ D F .x  ı/ gilt ja für jedes x 2 R
P .Y1  x/ D G.x/ D F .x  ı/ X
m
Wm;n D Wm;n .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / WD r.Xi /;
D P .X1  x  ı/ D P .X1 C ı  x/: i D1
Der Zufallsvektor .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / hat also die gleiche
Verteilung wie also die Summe der Ränge von X1 ; : : : ; Xm in der gemeinsamen
Stichprobe mit Y1 ; : : : ; Yn . Die dieser Bildung zugrunde liegen-
.X1 ; : : : ; Xm ; XmC1 C ı; : : : ; XmCn C ı/ (7.94) de Heuristik ist einfach: Unter H0 W F D G besitzt der Vektor
7.6 Elemente der nichtparametrischen Statistik 287

1 2 3 4 5 6 7 8 9 H0 (W8,6 = k)
• • • • • • • • •

Kapitel 7
x3 x4 y5 y3 x2 y1 x1 y4 y2
0.05
Abb. 7.21 Rangbildung in zwei Stichproben
0.04

.r.X1 /; : : : ; r.Xm // unter H0 mit Wahrscheinlichkeit eins eine 0.03


Gleichverteilung auf der Menge
0.02
f.r1 ; : : : ; rm / 2 f1; : : : ; m C ngm j ri ¤ rj 8i ¤ j g
0.01
der m-Permutationen ohne Wiederholung aus f1; : : : ; m C ng.
Die Ränge der Xi sind also eine reine Zufallsauswahl aus den k
Zahlen 1; : : : ; m C n. Anschaulich entspricht dieser Umstand 36 40 50 60 70 80 84
der Vorstellung, dass auf der Zahlengeraden aufgetragene Rea-
lisierungen x1 ; : : : ; yn von X1 ; : : : ; Yn unter H0 W F D G „gut Abb. 7.22 Stabdiagramm der H0 -Verteilung von W8;6
durchmischt“ sein sollten, siehe Abb. 7.21 im Fall m D 4 und
n D 5.
Hieraus folgt PH0 .W2;3 D j / D 1=10 für j D 3; 4; 8; 9 und
Unter Lagealternativen der Form G.x/ D F .xı/, x 2 R, soll- PH0 .W2;3 D j / D 2=10 für j D 5; 6; 7. Dabei wurde durch
ten nach (7.94) die Werte x1 ; : : : ; xm im Vergleich zu y1 ; : : : ; yn die Indizierung mit H0 betont, dass die Wahrscheinlichkeiten
nach links bzw. nach rechts tendieren, und zwar je nachdem, ob unter H0 berechnet wurden. Abb. 7.22 zeigt ein Stabdiagramm
ı größer oder kleiner als 0 ist. der H0 -Verteilung von W8;6 . Ins Auge springt nicht nur dessen
Für die in Abb. 7.21 dargestellte Situation nimmt die Statistik Symmetrie (um den Wert 60), sondern auch die glockenförmige,
W4;5 den Wert 1C2C5C7 D 15 an. Prinzipiell könnte man auch an eine Normalverteilungsdichte erinnernde Gestalt. Die wich-
die Summe der Rangzahlen von Y1 ; : : : ; Yn als Prüfgröße be- tigsten Eigenschaften der Verteilung von Wm;n unter H0 sind
trachten. Da die Summe der Ränge aller Beobachtungen gleich nachstehend zusammengefasst:
der Summe der Zahlen von 1 bis m C n und damit P vor der Da-
m
tenerhebung
Pn bekannt ist, tragen die Rangsummen i D1 r.Xi /
und j D1 r.Yj / die gleiche Information hinsichtlich einer Test- Satz über die H0 -Verteilung von Wm;n
entscheidung „Widerspruch oder kein Widerspruch zu H0 “.
Für die Wilcoxon-Rangsummenstatistik Wm;n gilt unter
Da es für die Rang-Summe Wm;n nur darauf ankommt, wel- H0 W F D G:
che Teilmenge vom Umfang m aus der Menge f1; : : : ; mC ng
a) EH0 .Wm;n / D m .mCnC1/ :
die Ränge von X1 ; : : : ; Xm bilden und unter H0 jede der mCn
m
2
m n .mCnC1/
b) VH0 .Wm;n / D .
mCn die gleiche, von F unabhängige Wahr-
möglichen Teilmengen 12
scheinlichkeit 1= m besitzt, kann man die H0 -Verteilung von c) Die H0 -Verteilung von Wm;n ist symmetrisch um
Wm;n mit rein kombinatorischen Mitteln gewinnen. EH0 .Wm;n /.
d) Für m; n ! 1 gilt
Als
5
 Beispiel betrachten wir den Fall m D 2; n D 3. Hier gibt es
2
D 10 in den Zeilen von Tab. 7.9 illustrierte Möglichkeiten, Wm;n  EH0 .Wm;n / D
2 der insgesamt 5 Plätze mit x’s (und die restlichen beiden mit p 
! N.0; 1/:
VH0 .Wm;n /
y’s) zu besetzen. Dabei sind die x’s durch Fettdruck hervorge-
hoben. Rechts in der Tabelle findet sich der jeweils resultierende Die standardisierte Zufallsvariable Wm;n ist also un-
Wert w2;3 für W2;3 .
ter H0 beim Grenzübergang m; n ! 1 asymptotisch
N.0; 1/-normalverteilt.
Tab. 7.9 Zur Bestimmung der H0 -Verteilung von W2;3
1 2 3 4 5 w2;3
x x y y y 3 Beweis Die Aussagen a) und b) folgen mit direkter Rech-
x y x y y 4 nung aus der Gleichverteilung des Vektors aller Ränge
x y y x y 5 .r.X1 /; : : : ; r.Yn // auf der Menge der Permutationen der Zah-
x y y y x 6 len 1; : : : ; m C n. Ihr Nachweis ist dem Leser als Übungsaufga-
y x x y y 5 be 7.52 überlassen. Um c) zu beweisen, setzen wir kurz Ri WD
y x y x y 6 r.Xi / für i D 1; : : : ; m. Da der Zufallsvektor .R1 ; : : : ; Rm / eine
y x y y x 7 Gleichverteilung auf der Menge
y y x x y 7
mCn
y y x y x 8 Perm .oW /
y y y x x 9 D f.r1 ; : : : ; rm / 2 f1; : : : ; m C ngm j ri ¤ rj 8i ¤ j g
288 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Hintergrund und Ausblick: Der Kolmogorov-Smirnov-Test

Ein Verfahren für das nichtparametrische Zwei-Stichproben- N. W. Smirnov (1900–1966) benannten sog. Kolmogorov-
Problem mit allgemeiner Alternative. Smirnov-Testgröße Km;n ab.
Möchte man in der Situation des nichtparametrischen Zwei- Wegen der Stetigkeit von F und G sind alle Xi ; Yj mit
Stichproben-Problems die Hypothese H0 W F D G gegen Wahrscheinlichkeit eins verschieden, und Fm bzw. Gn be-
die allgemeine Alternative H1 W F ¤ G testen, so bietet sich sitzen Sprungstellen mit Sprüngen der Höhe 1=m bzw. 1=n
an, die unbekannten stetigen Verteilungsfunktionen F und G an den Stellen X1 ; : : : ; Xm bzw. Y1 ; : : : ; Yn . Unter H0 W
durch die jeweiligen empirischen Verteilungsfunktionen F D G hängt die Verteilung von Km;n nicht von F
ab, da es für den Wert von Km;n nur auf die Ränge von
1 X 1X
m n
r.Xj /, j D 1; : : : ; m, von X1 ; : : : ; Xm in der gemeinsamen
Fm .x/ D 1fXi  xg; Gn .x/ D 1fYj  xg Stichprobe mit Y1 ; : : : ; Yn ankommt. Wie bei der Wilcoxon-
m i D1 n j D1
Rangsummenstatistik führt somit auch die Bestimmung der
H0 -Verteilung von Km;n auf ein rein kombinatorisches Prob-
zu schätzen und den Supremumsabstand
lem.
ˇ ˇ
Km;n WD sup ˇFm .x/  Gn .x/ˇ Liegen unabhängige Zufallsvariablen X1 ; X2 ; : : : und
x2R
Y1 ; Y2 ; : : : auf einem gemeinsamen Wahrscheinlichkeitsraum
zu bilden, s. nachstehende Abbildung im Fall m D n D 14. .˝; A; P / vor, so folgt aus dem Satz von Glivenko-Cantelli
unter der Hypothese H0

lim Km;n D 0 P -fast sicher:


1 • • m;n!1
• •
• •
• • Eine Vorstellung von der Größenordnung von Km;n liefert
• •
• • der Grenzwertsatz
• •
0.5 • • r 
• • mn
• •
• • lim PH0 Km;n  x D K.x/; x > 0;
• • m;n!1 mCn
• •
• •
x wobei K die in (7.85) definierte Verteilungsfunktion der
Kolmogorov-Verteilung bezeichnet. Ein einfacher Beweis
Plausiblerweise lehnt man die Hypothese H0 für gro- dieses Satzes für den Spezialfall m D n findet sich in [15],
ße Werte der nach A. N. Kolmogorov (1903–1987) und S. 157–159.

der m-Permutationen ohne Wiederholung aus f1; : : : ; m C ng Der Wilcoxon-Rangsummentest wird je nach Art der Alter-
besitzt, hat der Vektor .k C 1  R1 ; k C 1  R2 ; : : : ; k C 1  Rm / native als ein- oder zweiseitiger Test durchgeführt. Soll die
ebenfalls diese Gleichverteilung. Man beachte hierzu, dass die Hypothese H0 W F D G gegen die Lagealternative
Zuordnung .a1 ; : : : ; am / 7! .k C 1  a1 ; : : : ; k C 1  am / eine
mCn H1 W Es gibt ein ı < 0 mit G.x/ D F .x  ı/; x 2 R;
bijektive Abbildung auf Perm .oW / darstellt. Aus der Vertei-
lungsgleichheit getestet werden, so lehnt man H0 genau dann zum Niveau ˛ ab,
wenn die Ungleichung Wm;n  wm;nI˛ erfüllt ist. Dabei ist
.R1 ; : : : ; Rm / .k C 1  R1 ; : : : ; k C 1  Rm /
wm;nI˛ WD minfw W PH0 .Wm;n  w/  ˛g:
folgt dann auch die Verteilungsgleichheit
Anschaulich zweigt man also analog zum einseitigen Binomial-
X
m X
m
Wm;n D Ri .k C 1  Ri / test beim Stabdiagramm der H0 -Verteilung von Wm;n von rechts
i D1 i D1
kommend so lange Wahrscheinlichkeitsmasse für den kritischen
Bereich ab, wie die vorgegebene Höchstwahrscheinlichkeit ˛
D m.k C 1/  Wm;n
für einen Fehler erster Art nicht überschritten wird. Die kriti-
und somit schen Werte wm;nI˛ sind für verschiedene Werte von m; n und
  ˛ 2 f0:05; 0:025g in Tab. 7.10 aufgeführt (Ablesebeispiel:
m.k C 1/ m.k C 1/
Wm;n    Wm;n ; w9;7I0:05 D 93/.
2 2
Soll H0 gegen die sich gegenüber H1 durch das Vorzeichen von
was zu zeigen war. Der Nachweis von d) kann mithilfe be- ı unterscheidende Lagealternative
dingter Erwartungen und des Zentralen Grenzwertsatzes von
Lindeberg-Feller erfolgen.  H1C W Es gibt ein ı > 0 mit G.x/ D F .x  ı/; x 2 R;
7.6 Elemente der nichtparametrischen Statistik 289

Tab. 7.10 Kritische Werte wm;n;I˛ der Wilcoxon-Statistik Wm;n Tab. 7.11 Wachstum von Sojabohnen mit und ohne Düngung

Kapitel 7
˛ ˛ gedüngt 36.1 34.5 35.7 37.1 37.7 38.1 34.0 34.9
m n 0.050 0.025 m n 0.050 0.025 ungedüngt 35.5 33.9 32.0 35.4 34.3 34.7 32.3 32.4
8 3 57 58 11 4 102 104
4 63 64 5 109 112
5 68 70 6 116 119 Von 16 gleichartigen Sojapflanzen werden 8 rein zufällig ausge-
wählt und gedüngt, die übrigen Pflanzen wachsen ungedüngt.
6 74 76 7 124 127
Nach einer bestimmten Zeit wird die Höhe (in cm) aller 16
7 79 82 8 131 135 Pflanzen gemessen. Dabei ergaben sich die in Tab. 7.11 ange-
8 85 87 9 138 142 gebenen Werte.
9 3 68 70 10 145 150
Offenbar sind die gedüngten Pflanzen in der Tendenz stär-
4 75 77 11 153 157
ker gewachsen als die ungedüngten. Ist dieser Effekt jedoch
5 81 83 12 5 125 127
statistisch signifikant? Um diese Frage zu beantworten, sehen
6 87 89 6 133 136 wir die Daten als Realisierungen unabhängiger Zufallsvariablen
7 93 96 7 141 144 X1 ; : : : ; X8 ; Y1 ; : : : ; Y8 (diese modellieren die Pflanzenhöhe mit
8 99 102 8 148 152 bzw. ohne Düngung) mit stetigen Verteilungsfunktionen F
9 105 109 9 156 160 bzw. G an und testen zum Niveau ˛ D 0:05 die Hypothese
10 4 88 90 10 164 169 H0 W F D G gegen die Lagealternative H1 . Sortiert man alle
5 94 97 11 172 177 16 Werte der Größe nach, so besitzen die den gedüngten Pflan-
6 101 104
zen entsprechenden Werte die Ränge 7, 9, 12, 13, 14, 15 und 16.
12 180 185
Die Wilcoxon-Rangsummenstatistik W8;8 nimmt den Wert
7 108 111 13 5 141 144
8 115 118 6 150 153 w D 7 C 9 C 12 C 13 C 14 C 15 C 16 D 86
9 121 125 7 158 162
10 128 132 8 167 171 an. Aus Tab. 7.10 entnimmt man zu ˛ D 0:05 den kritischen
Wert 85. Wegen w  85 wird H0 verworfen. Die Daten sprechen
also auf dem 5 %-Niveau signifikant dafür, dass Düngung einen
getestet werden, so erfolgt die Ablehnung von H0 zum Niveau wachstumsfördernden Effekt besitzt. J
˛, wenn die Ungleichung
Die Normalverteilungsapproximation d) im Satz über die H0 -
Wm;n  m.m C n C 1/  wm;nI˛ Verteilung von Wm;n lässt sich für den Fall m  10, n  10
verwenden. Der einseitige Test mit oberem Ablehnbereich lehnt
erfüllt ist. Der kritische Wert ergibt sich also unter Ausnutzung dann H0 zum Niveau ˛ ab, wenn mit k WD m C n die Unglei-
der Symmetrie der H0 -Verteilung von Wm;n , indem man den zur chung
Alternative H1 korrespondierenden kritischen Wert wm;nI˛ am r
Erwartungswert der H0 -Verteilung von Wm;n spiegelt. Im Fall m .k C 1/ 1 m n .k C 1/
Wm;n  C ˚ .1  ˛/
m D 9, n D 7 und ˛ D 0:05 erhält man so den Wert 153 93 D 2 12
60. erfüllt ist. Beim einseitigen Test mit unterem Ablehnbereich er-
Ist H0 W F D G gegen die zweiseitige Lagealternative folgt ein Widerspruch zu H0 , falls
r
¤
H1 W Es gibt ein ı ¤ 0 mit G.x/ D F .x  ı/; x 2 R; m .k C 1/ 1 m n .k C 1/
Wm;n   ˚ .1  ˛/
2 12
zu testen, so wird H0 zum Niveau ˛ genau dann abgelehnt, wenn gilt. Der zweiseitige Test lehnt H0 zum Niveau ˛ ab, falls –
mindestens eine der beiden Ungleichungen jeweils nach Ersetzen von ˛ durch ˛=2 – mindestens eine dieser
beiden Ungleichungen erfüllt ist.
Wm;n  wm;nI˛=2 oder Wm;n  m.m C n C 1/  wm;nI˛=2
Die obigen Näherungen sind selbst für kleine Stichprobenum-
erfüllt ist. Im Zahlenbeispiel m D 9, n D 7 und ˛ D 0:05 erhält fänge gute Approximationen der exakten kritischen Werte. So
man aus Tab. 7.10 den Wert wm;nI˛=2 D 96. Der zweiseitige ergibt sich für den Fall m D 9, n D 8 und ˛ D 0:05 beim Test
Test lehnt also H0 zum Niveau 0:05 ab, falls W9;7  96 oder mit oberem Ablehnbereich der approximative kritische Wert zu
W9;7  57 gilt. r
9.17 C 1/ 9  7  .17 C 1/
 1:645 D 98:095 : : : ;
2 12
Beispiel In einer Studie soll untersucht werden, ob ein be-
stimmtes Düngemittel einen positiven Einfluss auf das Wachs- was nach Aufrunden auf die nächstgrößere ganze Zahl den kri-
tum von Sojabohnen besitzt. Dabei sei schon vorab bekannt, tischen Wert 99 ergibt. Dieser stimmt mit dem aus Tab. 7.10
dass das Wachstum durch die Düngung nicht verringert wird. erhaltenen Wert überein.
290 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Hintergrund und Ausblick: Wilcoxon-Rangsummenstatistik und Mann-Whitney-Statistik

Wie verhält sich der Wilcoxon-Rangsummentest bei Nicht- Letztere ist 1/2, wenn X1 und Y1 die gleiche stetige Ver-
gültigkeit der Hypothese und wie ergibt sich die asymptoti- teilungsfunktion besitzen. Unter einer Lagealternative der
sche Normalverteilung von Wm;n unter H0 ? Gestalt (7.94) gilt P .Y1  X1 / > 1=2 bzw. P .Y1  X1 / <
1=2 je nachdem, ob ı < 0 oder ı > 0 gilt. Der Schwerpunkt
Die Wilcoxon-Rangsummenstatistik Wm;n geht mit Wahr-
der Verteilung von Wm;n ist dann im Vergleich zu H0 nach
scheinlichkeit eins durch Verschiebung aus der von den US-
rechts bzw. links verschoben.
amerikanischen Statistikern Henry Berthold Mann (1905–
2000) und Donald Ransom Whitney (1915–2001) vorge- Mithilfe der Darstellung (7.97) kann man auch die asymp-
schlagenen sog. Mann-Whitney-Statistik totische Normalverteilung von Wm;n sowohl unter der Hy-
pothese H0 als auch unter Alternativen erhalten. Aus (7.97)
X
m X
n
Mm;n WD 1fYk  Xi g (7.96) folgt
i D1 kD1
m.m C 1/
hervor. Summiert man nämlich beide Seiten von (7.95) E.Wm;n / D C E.Mm;n /; V .Wm;n / D V .Mm;n /
2
über i von 1 bis m, so entsteht links die Wilcoxon-
Prüfgröße Wm;n . Da X1 ; : : : ; Xm mit Wahrscheinlichkeit und somit
einsPpaarweise
Pm verschieden sind, ist die erste Doppelsum-
me m Wm;n  E.Wm;n / Mm;n  E.Mm;n /
i D1 j D1 1fXj  Xi g rechts mit Wahrscheinlichkeit p D p :
eins gleich m.m C 1/=2, und die zweite ist definitionsgemäß V .Wm;n / V .Mm;n /
gleich Mm;n . Es besteht also (mit Wahrscheinlichkeit eins)
die Translations-Beziehung Für Mm;n lässt sich eine asymptotische Normalverteilung
herleiten, indem man Mm;n durch die Summe
m .m C 1/
Wm;n D C Mm;n : (7.97)
2 X
m X
n
cm;n WD
M E.Mm;n jXi / C E.Mm;n jYj /
Obige Darstellungen geben einen Hinweis auf das Verhal-
ten von Wm;n bei Nichtgültigkeit der Hypothese. Wegen i D1 j D1

E.1A / D P .A/ und Symmetrieargumenten folgt aus (7.96)  .m C n  1/E.Mm;n/


E.Mm;n / D m n P .Y1  X1 / und damit
bedingter Erwartungen approximiert. Mcm;n ist eine Summe
m .m C 1/
E.Wm;n / D C m n P .Y1  X1 /: unabhängiger Zufallsvariablen, auf die der Zentrale Grenz-
2 wertsatz von Lindeberg-Feller angewendet werden kann. Die
Das Verhalten von Wm;n unter Alternativen wird also maß- dahinter stehende Theorie ist die der Zwei-Stichproben-U-
geblich durch die Wahrscheinlichkeit P .Y1  X1 / bestimmt. Statistiken.
Zusammenfassung 291

Kapitel 7
Zusammenfassung

Ausgangspunkt der Mathematischen Statistik ist ein statisti- ML-Methode). Besitzt X .D idX / die Lebesgue-Dichte bzw.
sches Modell (engl.: statistical model) .X ; B; .P# /#2 /. Dabei Zähldichte f .x; #/, so heißt für festes x 2 X die durch
sind X ein Stichprobenraum (sample space), B eine -Algebra Lx .#/ D f .x; #/ definierte Funktion Lx W ! R0 die
über X und .P# /#2 eine Verteilungsannahme (model as- Likelihood-Funktion zu x (likelihood function) und jeder Wert
sumption) genannte Familie von Wahrscheinlichkeitsmaßen auf b # 2 mit Lx .b #.x// D supfLx .#/ j # 2 g Maximum-
B, die durch einen Parameter # indiziert ist. Die Menge Likelihood-Schätzwert von # zu x (maximum likelihood
heißt Parameterraum (parameter space). Die Parametrisie- estimator). Unter einer Normalverteilungsannahme ist .b n ; bn2 /
rung (parametrization) genannte Zuordnung 3 # 7! P# P P
wird als injektiv vorausgesetzt. Man nimmt an, dass für ein mit b n D X n D n1 j D1 Xj und bn2 D n1 j D1 .Xj  X n /2
n n

# 2 das Wahrscheinlichkeitsmaß P# tatsächlich zugrunde der ML-Schätzer für # WD .;  2 /. Die Zufallsvariablen X n
liegt; dieses # wird dann oft als „wahrer Parameter“ bezeichnet. und b2 sind stochastisch unabhängig, wobei X n N.;  2 =n/
n
Aufgabe der Mathematischen Statistik ist es, aus Daten x 2 X und nbn2 = 2 2n1 .
begründete Rückschlüsse über # zu ziehen. Dabei fasst man x
als Realisierung einer X -wertigen Zufallsvariablen auf. Der De- Bei einem regulären statistischen Modell (regular statistical
finitionsbereich von X bleibt im Hintergrund; man kann immer model) ist ein offenes Intervall, und die Dichte f ist auf
die kanonische Konstruktion ˝ WD X , A WD B und X WD idX X  positiv sowie für jedes x stetig nach # differenzierbar.
wählen. Eine Verteilungsannahme heißt parametrisch (para- Ferner ist die Fisher-Information (Fisher information) genann-
metric), wenn  Rd für ein d 2 N gilt, andernfalls nichtpa- ted Varianz If .#/ der Scorefunktion (score function) U# .x/ D
rametrisch (nonparametric). Eine typische Grundannahme bei d# log f .x; #/ ist für jedes # positivR und endlich. Dann gilt
Ein-Stichproben-Problemen (one-sample problem) ist, dass X für jeden Schätzer T mit d# E# T D T .x/ d# f .x; #/ dx die
d d

die Gestalt X D .X1 ; : : : ; Xn / mit unabhängigen, identisch Cramér-Rao-Ungleichung (Cramér-Rao lower bound)
verteilten (reellen) Zufallsvariablen X1 ; : : : ; Xn besitzt. Unter d 2
dieser Grundannahme liegt etwa ein parametrisches Modell vor, E .T /
d# #
V# .T /  ; # 2 :
wenn für X1 eine Normalverteilung N.;  2 / mit unbekannten If .#/
2
Parametern  und  unterstellt wird. Demgegenüber handelt
es sich um eine nichtparametrische Verteilungsannahme, wenn Sind .X ; B; .P# /#2 / mit  Rd ein statistisches Modell
man nur voraussetzt, dass X1 eine stetige Verteilungsfunktion und ˛ 2 .0; 1/, so heißt eine Abbildung C W X ! P .R` /
besitzt. Der Parameterraum ist dann die Menge aller stetigen Konfidenzbereich (confidence set) für # zur Konfidenzwahr-
Verteilungsfunktionen. scheinlichkeit (level of significance) 1  ˛, falls gilt:
In einem parametrischen statistischen Modell mit  Rd und P# .fx 2 X j C .x/ 3 #g/  1  ˛ 8# 2 :
 W ! R` heißt jede messbare Abbildung T W X ! R`
(Punkt-)Schätzer ((point) estimator) für .#/. Im Fall ` D 1 Prinzipiell ergibt sich ein Konfidenzbereich, indem man für je-
nennt man T erwartungstreu für .#/ (unbiased), falls für des # 2 eine Menge A.#/  X mit P# .A.#//  1  ˛
jedes # 2 die Gleichung E# T D .#/ erfüllt ist. Da- angibt. Mit C .x/ WD f# 2 j x 2 A.#/g, x 2 X , gilt dann x 2
bei wurde auch der Erwartungswert mit # indiziert, um dessen A.#/ , C .x/ 3 #, und so ist C ein Konfidenzbereich für #
Abhängigkeit von # anzudeuten. Gleiches geschieht mit der Va- zur Konfidenzwahrscheinlichkeit 1  ˛. Gilt X D .X1 ; : : : ; Xn /
rianz. Die Größe MQAT .#/ WD E# .T  .#//2 heißt mittlere mit unabhängigen und je N.;  2 /-normalverteilten Zufallsva-
quadratische Abweichung (mean square deviation) von T an riablen X1 ; : : : ; Xn , so ergibt sich ein Konfidenzintervall für 
der Stelle #. Es gilt MQAT .#/ D V# .T / C bT .#/2 , wobei bei (auch) unbekanntem  2 durch Studentisieren zu
bT .#/ D E# .T /  .#/ die Verzerrung (bias) von T an der 
Stelle # bezeichnet. Ist für jedes n  1 Tn W Xn ! R` ein Schät- Sn tn1I1˛=2 Sn tn1I1˛=2
Xn  p ; Xn C p :
zer für .#/, so nennt man .Tn / eine Schätzfolge (sequence of n n
estimators). Im Fall ` D 1 heißt .Tn / konsistent (consistent) für P
.#/, falls Dabei bezeichnen Sn2 D .n1/1 jnD1 .Xj X n /2 die Stichpro-
benvarianz von X1 ; : : : ; Xn und tn1I1˛=2 das .1  ˛=2/-Quantil
lim P# .jTn  .#/j  "/ D 0 8" > 0 der tn1 -Verteilung.
n!1
Bei einem statistischen Test (statistical test) ist der Parame-
gilt. Falls limn!1 E# .Tn / D .#/ für jedes # 2 erfüllt ist, so
terbereich in zwei disjunkte nichtleere Teilmengen 0 und
heißt .Tn / asymptotisch erwartungstreu (asymptotically un-
1 zerlegt. Ein nichtrandomisierter Test (nonrandomized test)
biased) für .#/.
zum Prüfen der Hypothese (hypothesis) H0 W # 2 0 gegen
Ein grundlegendes Schätzprinzip ist die Maximum- die Alternative (alternative hypothesis) H1 W # 2 1 ist eine
Likelihood-Methode (method of maximum likelihood) (kurz: Indikatorfunktion 1K eines sog. kritischen Bereichs (critical
292 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

region) K  X . Gilt x 2 K , so wird H0 aufgrund von x 2 X unter allen Tests zum Niveau ˛ für H0 gegen H1 einen Test
Kapitel 7

abgelehnt, andernfalls erhebt man keinen Einwand gegen H0 . mit kleinster Wahrscheinlichkeit für einen Fehler zweiter Art.
Ein Fehler erster Art (type I error) besteht darin, die Hypothe- Dieser basiert auf dem Likelihoodquotienten (likelihood ratio)
se H0 abzulehnen, obwohl sie in Wirklichkeit zutrifft. Bei einem .x/ WD f1 .x/=f0 .x/ und lehnt H0 für zu große Werte von
Fehler zweiter Art (type II error) erhebt man keinen Einwand .x/ ab. Besitzt die Verteilungsklasse .P# /#2 einen monoto-
gegen H0 , obwohl in Wirklichkeit # 2 1 gilt. Die Gütefunk- nen Dichtequotienten in einer Statistik T , so gibt es zu jedem
tion (power function) gK eines Tests mit kritischem Bereich K ˛ 2 .0; 1/ einen gleichmäßig besten Test zum Niveau ˛ für
ordnet jedem # 2 die Ablehnwahrscheinlichkeit P# .X 2 K / H0 W #  #0 gegen H1 W # > #0 .
der Hypothese H0 unter P# zu. Ein Test zum Niveau ˛ (level-
Sind X1 ; X2 ; : : : unabhängige Zufallsvariablen mit gleicher
˛-test) ist durch die Bedingung gK .#/  ˛, # 2 0 , definiert.
Verteilungsfunktion F , so konvergiert nach dem Satz von
Lehnt ein Niveau-˛-Test H0 ab, so sagt man, die Ablehnung von
Glivenko-Cantelli (Glivenko-Cantelli theorem) die Folge .Fn /
H0 sei signifikant zum Niveau ˛.
der empirischen Verteilungsfunktionen mit Wahrscheinlichkeit
Der kritische Bereich eines Tests ist meist durch eine Prüfgrö- einsPgleichmäßig gegen F . Dabei ist Fn durch Fn .x/ D
ße oder Testgröße T W X ! R (test statistic) in der Form n1 jnD1 1fXj  xg, x 2 R, definiert. Ist F stetig, so hängt die
K D fT  cg mit einem sog. kritischen Wert (critical value) Verteilung von d .Fn ; F / WD supx2R jFn .x/F .x/j nicht von F
c gegeben. Gilt  R, so sind Testprobleme oft von der Ge- ab. Diese Beobachtung motiviert die Prüfgröße d .Fn; F0 /, wenn
stalt H0 W #  #0 gegen H1 W # > #0 (einseitiger Test) oder die Hypothese H0 W F D F0 mit einer vollständig spezifizierten
H0 W # D #0 gegen H1 W # ¤ #0 (zweiseitiger Test). Dabei ist Verteilungsfunktion getestet werden soll.
#0 2 ein vorgegebener Wert.
Das p-Quantil Qp D Qp .F / D F 1 .p/ kann man nichtpara-
Der Ein-Stichproben-t-Test (one-sample t -test) prüft Hypo- metrisch mithilfe des empirischen p-Quantils Qn;p D Fn1 .p/
thesen der Form H0 W   0 gegen H1 W  > 0 über schätzen. Besitzt F bei Qp eine positive Ableitung, so gilt
den Erwartungswert  einer Normalverteilung bei unbekann- p D
p n.Qn;p  Qp /  ! N.0;  2 /, wobei  2 D p.1  p/=F 0 .Qp /2 .
ter Varianz. Seine Prüfgröße Tn D n.X n  0 /=Sn hat im
Ist F stetig, so ergibt sich ein Konfidenzbereich für den Median
Fall  D 0 eine tn1 -Verteilung. Der Test kann auch als
Q1=2 mithilfe der Ordnungsstatistiken X.1/; : : : ; X.n/ . Asympto-
zweiseitiger Test durchgeführt werden. In gleicher Weise prüft
tische Konfidenzintervalle für Q1=2 erhält man mit dem Zentra-
der Zwei-Stichproben-t-Test (two-sample t -test) auf Gleich-
len Grenzwertsatz von de Moivre-Laplace.
heit der Erwartungswerte von Normalverteilungen mit gleicher
unbekannter Varianz. Der Chi-Quadrat-Anpassungstest (chi Wird F als stetig vorausgesetzt, so prüft der Vorzeichentest
square goodness-of-fit test) prüft die Verträglichkeit von rela- P H0 W Q1=2  0 über den
(sign test) Hypothesen der Form
tiven Häufigkeiten mit hypothetischen Wahrscheinlichkeiten in Median. Die Prüfgröße Vn D jnD1 1fXj > 0 g zählt die An-
einem multinomialen Versuchsschema. zahl der positiven Vorzeichen unter Xj  0 , j D 1; : : : ; n. Im
Fall Q1=2 D 0 hat Vn die Verteilung Bin.n; 1=2/.
Ein randomisierter Test (randomized test) für H0 gegen H1
ist eine messbare Funktion ' W X ! Œ0; 1. Dabei ist Der Wilcoxon-Rangsummentest (Wilcoxon’s rank-sum test)
die sog. Randomisierungswahrscheinlichkeit '.x/ als beding- prüft die Hypothese H0 W F D G, wenn stochastisch unab-
te Wahrscheinlichkeit zu interpretieren, die Hypothese H0 bei hängige Zufallsvariablen X1 ; : : : ; Xm ; Y1 ; : : : ; Yn vorliegen und
vorliegenden Daten x abzulehnen. Gilt D f#0 ; #1 g (sog. X1 ; : : : ; Xm die stetige Verteilungsfunktion F und Y1 ; : : : ; Yn
Zwei-Alternativ-Problem) und besitzt X für j 2 f0; 1g un- die stetige Verteilungsfunktion G besitzen. Die Prüfgröße Wm;n
ter P#j eine Lebesgue-Dichte oder Zähldichte fj , so gibt es dieses Tests ist die Summe aller Ränge von X1 ; : : : ; Xm in der
nach dem Lemma von Neyman-Pearson zu jedem ˛ 2 .0; 1/ gemeinsamen Stichprobe mit Y1 ; : : : ; Yn .
Aufgaben 293

Kapitel 7
Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen in der Stichprobe höchstens 2.7 %.“Der Werkmeister entgegnet:


„Bislang erwiesen sich 70 % der von Ihnen beanstandeten Sen-
7.1 Konstruieren Sie in der Situation von Aufgabe dungen im Nachhinein als in Ordnung. Aller Wahrscheinlichkeit
7.24 eine obere Konfidenzschranke für # zur Konfidenzwahr- nach liegt auch in diesem Fall ein blinder Alarm vor.“ Muss min-
scheinlichkeit 1  ˛. destens eine der beiden Aussagen falsch sein?

7.2 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas- 7.6 (Zusammenhang zwischen Konfidenzbereichen


tisch unabhängig mit gleicher Poisson-Verteilung Po./, wobei und Tests) Es sei .X ; B; .P# /#2 / ein statistisches Modell.
 2 .0; 1/ unbekannt sei. Konstruieren Sie in Analogie zum Zeigen Sie:
Beispiel der Binomialverteilung am Ende von Abschn. 7.3 ei-
a) Ist C W X ! P . / ein Konfidenzbereich für # zur Konfi-
nen asymptotischen Konfidenzbereich zum Niveau 1  ˛ für
denzwahrscheinlichkeit 1  ˛, so ist für beliebiges #0 2
. Welches konkrete 95 %-Konfidenzintervall ergibt sich für
die Menge K#0 WD fx 2 X j C .x/ 63 #0 g ein kritischer Be-
die Daten des Rutherford-Geiger-Experiments (Unter-der-Lupe-
reich für einen Niveau-˛-Test der Hypothese H0 W # D #0
Box in Abschn. 4.3)?
gegen die Alternative H1 W # ¤ #0 .
b) Liegt für jedes #0 2 ein nichtrandomisierter Niveau-˛-Test
7.3 In einem Buch konnte man lesen: „Die Wahr- für H0 W # D #0 gegen H1 W # ¤ #0 vor, so lässt sich hieraus
scheinlichkeit ˛ für einen Fehler erster Art bei einem statisti- ein Konfidenzbereich zur Konfidenzwahrscheinlichkeit 1  ˛
schen Test gibt an, wie oft aus der Beantwortung der Testfrage gewinnen.
falsch auf die Nullhypothese geschlossen wird. Wird ˛ D 0:05
gewählt und die Testfrage mit ja beantwortet, dann ist die Ant-
wort ja in 5 % der Fälle falsch und mithin in 95 % der Fälle 7.7 Es seien U und V unabhängige Zufallsvariablen,
richtig.“ Wie ist Ihre Meinung hierzu? wobei U N.0; 1/ und V 2k , k 2 N. Ist ı 2 R, so heißt die
Verteilung des Quotienten
7.4 Der Leiter der Abteilung für Materialbeschaffung
U Cı
hat eine Sendung von elektronischen Schaltern mit einem Test Yk;ı WD p
zum Niveau 0.05 stichprobenartig auf Funktionsfähigkeit über- V =k
prüft. Bei der Stichprobe lag der Anteil defekter Schalter sig-
nifikant über dem vom Hersteller behaupteten Ausschussanteil. nichtzentrale t -Verteilung mit k Freiheitsgraden und Nichtzen-
Mit den Worten „Die Chance, dass eine genaue Überprüfung tralitätsparameter ı. Zeigen Sie: Für die Gütefunktion (7.53)
zeigt, dass die Sendung den Herstellerangaben entspricht, ist des einseitigen t -Tests gilt
höchstens 5 %“ empfiehlt er, die Lieferung zu reklamieren und
zurückgehen zu lassen. Ist seine Aussage richtig? gn .#/ D P .Yn1;ı > tn1I1˛ / ;
p
7.5 Der Statistiker einer Firma, die Werkstücke wobei ı D n.  0 /=:
zur Weiterverarbeitung bezieht, lehnt eine Lieferung dieser
Werkstücke mit folgender Begründung ab: „Ich habe meinen 7.8
Standard-Test zum Niveau 0.05 anhand einer zufälligen Stich-
probe durchgeführt. Diese Stichprobe enthielt einen extrem a) Zeigen Sie die Beziehung Fr;sIp D 1=Fs;rI1p für die Quantile
hohen Anteil defekter Exemplare. Wenn der Ausschussanteil der F-Verteilung.
in der Sendung wie vom Hersteller behauptet höchstens 2 % b) Weisen Sie nach, dass die Gütefunktion des einseitigen F -
beträgt, ist die Wahrscheinlichkeit für das Auftreten des festge- Tests für den Varianzquotienten eine streng monoton wach-
stellten oder eines noch größeren Anteils defekter Werkstücke senden Funktion von  2 = 2 ist.
294 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

7.9 Die Zufallsvariable X besitze eine Binomialver- 7.17 Es sei die Situation im Beispiel des Taxi-Problems
Kapitel 7

teilung Bin.3; #/, wobei # 2 WD f1=4; 3=4g. Bestimmen in Abschn. 7.2 zugrunde gelegt. Zeigen Sie:
Sie die Risikomenge des Zwei-Alternativ-Problems H0 W # D
#0 WD 1=4 gegen H1 W # D #1 WD 3=4. a) Die Folge .b # n / der ML-Schätzer ist asymptotisch erwar-
tungstreu und konsistent für #.
7.10 Leiten Sie die Beziehung b) Der durch
 
.n  1/ Q.X /2=n  1 D Tn2 b
# n .x/nC1  .b# n .x/  1/nC1
Tn .x/ D
im Beispiel der Ein-Stichproben-t -Teststatistik am Ende von b
# n .x/n  .b
# n .x/  1/n
Abschn. 7.5 her.
definierte Schätzer Tn ist erwartungstreu für #.
7.11 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
blen mit gleicher stetiger Verteilungsfunktion F und empiri- 7.18 Es seien X1 ; : : : ; Xn stochastisch unabhängige
scher Verteilungsfunktion Fn . Bestimmen Sie die Verteilung Zufallsvariablen mit gleicher Poisson-Verteilung Po.#/, # 2
von WD .0; 1/ sei unbekannt. Zeigen Sie:
ˇ ˇ P
D sup ˇFn .x/  F .x/ˇ
F
n a) Das arithmetische Mittel X D n1 n X ist der ML-
n j D1 j
x2R
Schätzer für #.
im Fall n D 1. b) Die Fisher-Information If .#/ ist
7.12 Die Zufallsvariablen X1 ; : : : ; X2n seien stochas- n
If .#/ D ; # 2 :
tisch unabhängig mit gleicher symmetrischer Verteilung. Es #
gebe also ein a 2 R mit X1  a a  X1 . Zeigen Sie: Ist
m WD n=2, so gilt (im Fall EjX1 j < 1) c) Der Schätzer X n ist Cramér-Rao-effizient.
 
XmW2n C XmC1W2n
E D a: 7.19 Ein Bernoulli-Experiment mit unbekannter Tref-
2 ferwahrscheinlichkeit # 2 .0; 1/ wird in unabhängiger Folge
durchgeführt. Beim .k C 1/-ten Mal (k 2 N0 ) sei der erste Tref-
7.13 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
fer aufgetreten.
blen mit gleicher stetiger Verteilungsfunktion. Zeigen Sie: In
Verallgemeinerung von (7.89) gilt: a) Bestimmen Sie den ML-Schätzwert b #.k/ für #.
! b
  X n js1 b) Ist der Schätzer # erwartungstreu für #?
P X.r/  Qp < X.s/ D p .1  p/nj
j
j Dr 7.20 In der Situation des Beispiels des Taxi-Problems
in Abschn. 7.2 sei
7.14 In welcher Form tritt die Verteilung einer ge-
2X
n
eigneten Wilcoxon-Rangsummenstatistik bei der Ziehung der e
# n WD Xj  1:
Lottozahlen auf? n j D1

Zeigen Sie, dass der Schätzer e


# n erwartungstreu für # ist und
Rechenaufgaben die Varianz

7.15 Es seien n 2 N und k 2 f0; : : : ; ng. Zeigen Sie, #2  1


V# .e
# n/ D
dass die durch 3n
!
n k besitzt.
h.#/ WD # .1  #/nk
k
7.21 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
definierte Funktion h W Œ0; 1 ! Œ0; 1 für # D k=n ihr Maxi-
blen mit gleicher Exponentialverteilung Exp.#/, # 2 WD
mum annimmt.
.0; 1/ sei unbekannt. Im dritten Beispiel in Abschn. 7.2 wur-
7.16 In der Situation des Beispiels der Qualitätskon- de der ML-Schätzer für # zu
trolle in Abschn. 7.1 mögen sich in einer rein zufälligen Stich- b n
probe x D .x1 ; : : : ; xn / vom Umfang n genau k D x1 C # n D Pn
j D1 Xj
: : : C xn defekte Exemplare ergeben haben. Zeigen Sie, dass
ein Maximum-Likelihood-Schätzwert für # zu x durch hergeleitet. Zeigen Sie:
8j k
< k.N C1/ ; k.N C1/
falls n … N;
b nn o a) E# .b n
# n / D n1 #, n  2.
#.x/ D
:2 k.N C1/
; k.N C1/
 1 sonst; b) V # .b# n / D n2 # 2
, n  3.
n n .n1/2 .n2/

gegeben ist. c) Die Schätzfolge .b # n / ist konsistent für #.


Aufgaben 295

7.22 Es seien X1 ; : : : ; Xn stochastisch unabhängige 7.28

Kapitel 7
identisch verteilte Zufallsvariablen mit EX12 < 1. Zeigen Sie:
a) Zeigen Sie: In der Situation des Beispiels des Taxi-Problems
Mit  2 WD V .X1 / gilt
0 1 in Abschn. 7.2 ist die durch
1 X n o
n
E@ .Xj  X n /2 A D  2 : C .x1 ; : : : ; xn / WD # 2 j #  ˛ 1=n max xj
n  1 j D1 j D1;:::;n

7.23 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas- definierte Abbildung C ein Konfidenzbereich für # zum Ni-
2
tisch unabhängig und je N.;  /-verteilt, wobei  und  2 veau 1  ˛.
unbekannt seien. Als Schätzer für  2 betrachte man b) Wie groß muss n mindestens sein, damit die größte beobach-
tete Nummer, versehen mit einem Sicherheitsaufschlag von
Xn
10 % (d. h. 1:1  maxj D1;:::;n xj ) eine obere Konfidenzschranke
2
Sn .c/ WD c .Xj  X n / ; c > 0:
für # zum Niveau 0:99 darstellt, also
j D1
 
Für welche Wahl von c wird die mittlere quadratische Abwei-
chung E.Sn .c/   2 /2 minimal? P# #  1:1  max Xj  0:99 8# 2
j D1;:::;n

7.24 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas- gilt?


tisch unabhängig und je gleichverteilt UŒ0; #, wobei # 2 WD
.0; 1/ unbekannt sei. Zeigen Sie:
7.29 Um die Übertragbarkeit der Krankheit BSE zu
a) Der ML-Schätzer für # ist b
# n WD maxj D1;:::;n Xj . erforschen, wird 275 biologisch gleichartigen Mäusen über ei-
b) Der Schätzer nen gewissen Zeitraum täglich eine bestimmte Menge Milch
nC1b von BSE-kranken Kühen verabreicht. Innerhalb dieses Zeit-
#n WD #n raums entwickelte keine dieser Mäuse irgendwelche klinischen
n
Symptome, die auf eine BSE-Erkrankung hindeuten könnten.
ist erwartungstreu für #. Bestimmen Sie V# .#n /. Es bezeichne # die Wahrscheinlichkeit, dass eine Maus der
c) Der Momentenschätzer für # ist untersuchten Art unter den obigen Versuchsbedingungen inner-
1X
n
halb des Untersuchungszeitraumes BSE-spezifische Symptome
e
# n WD 2  Xj :
n j D1 zeigt.
a) Wie lautet die obere Konfidenzschranke für # zur Garantie-
d) Welcher der Schätzer #n und e # n ist vorzuziehen, wenn als wahrscheinlichkeit 0.99?
Gütekriterium die mittlere quadratische Abweichung zugrun- b) Wie viele Mäuse müssten anstelle der 275 untersucht werden,
de gelegt wird? damit die obere Konfidenzschranke für # höchstens 104 ist?
c) Nehmen Sie vorsichtigerweise an, die obere Konfidenz-
7.25 Die Zufallsvariablen X1 ; : : : ; Xn seien unabhän- schranke aus Teil a) sei die „wahre Wahrscheinlichkeit“ #.
gig und je  .˛; /-verteilt. Der Parameter # WD .˛; / 2 Wie viele Mäuse mit BSE-Symptomen würden Sie dann un-
WD .0; 1/2 sei unbekannt. Zeigen Sie: Die Loglikelihood- ter 10 000 000 Mäusen erwarten?
Gleichungen führen auf
1X
n
b
˛n d 7.30
Xn D ; log Xj D ˛ n /  log b
log  .b n :
b
n n j D1 d˛
a) In einer repräsentativen Umfrage haben sich 25 % aller 1 250
Befragten für die Partei A ausgesprochen. Wie genau ist die-
7.26 Zeigen Sie, dass die folgenden Verteilungsklassen ser Schätzwert, wenn wir die Befragten als rein zufällige
einparametrige Exponentialfamilien bilden: Stichprobe aus einer Gesamtpopulation von vielen Millionen
a) fBin.n; #/; 0 < # < 1g, Wahlberechtigten ansehen und eine Vertrauenswahrschein-
b) fPo.#/; 0 < # < 1g, lichkeit von 0.95 zugrunde legen?
c) fExp.#/; 0 < # < 1g. b) Wie groß muss der Stichprobenumfang mindestens sein,
damit der Prozentsatz der Wähler einer Volkspartei (zu erwar-
7.27 tender Prozentsatz ca. 30 %) bis auf ˙ 1 % genau geschätzt
wird (Vertrauenswahrscheinlichkeit 0.95)?
a) Leiten Sie die in (7.35) angegebene Dichte der tk -Verteilung
her.
b) Zeigen Sie: Besitzt X eine tk -Verteilung, so existieren Erwar- 7.31 Um zu testen, ob in einem Paket, das 100 Glüh-
tungswert und Varianz von X genau dann, wenn k  2 bzw. birnen enthält, höchstens 10 defekte Birnen enthalten sind, prüft
k  3 gelten. Im Fall der Existenz folgt ein Händler jedes Mal 10 der Birnen und nimmt das Paket nur
dann an, wenn alle 10 in Ordnung sind. Beschreiben Sie die-
k ses Verhalten testtheoretisch und ermitteln Sie das Niveau des
E.X / D 0; V .X / D :
k2 Testverfahrens.
296 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen

7.32 Es sei die Situation des Beispiels „Konsumenten- 7.38 Zeigen Sie:
Kapitel 7

und Produzentenrisiko“ aus Abschn. 7.4 zugrunde gelegt. Ei-


a) Für # 2 Œ0; 1 und k 2 f1; 2; : : : ; ng gilt
ne Verbraucherorganisation möchte dem Hersteller nachweisen,
!
dass die mittlere Füllmenge  kleiner als 0 WD 1 000 ml X n
n j
ist. Hierzu wird der Produktion eine Stichprobe vom Um- # .1  #/nj
fang n entnommen. Die gemessenen Füllmengen werden als j
j Dk
Realisierungen unabhängiger und je N.; 4/ normalverteilter Z#
Zufallsvariablen angenommen. nŠ
D t k1 .1  t /nk dt :
.k  1/Š.n  k/Š
a) Warum wird als Hypothese H0 W   0 und als Alternative 0
H1 W  < 0 festgelegt?
b) Zeigen Sie: Ein Gauß-Test zum Niveau 0.01 lehnt H0 genau b) Die in (7.24), (7.25) eingeführten Funktionen a./; A./ W
dann ab, wenn daspStichprobenmittel X n die Ungleichung ! X sind (schwach) monoton wachsend, a ist rechtsseitig
X n  0  4:652= n erfüllt. und A linksseitig stetig, und es gilt a  A.
c) Die Organisation möchte erreichen, dass der Test mit Wahr- c) Es gilt die Aussage (7.29).
scheinlichkeit 0.9 zur Ablehnung von H0 führt, wenn die
mittlere Füllmenge  tatsächlich 999 ml beträgt. Zeigen Sie, 7.39 Zeigen Sie, dass für die in (7.27) und (7.28) ein-
dass hierzu der Mindeststichprobenumfang n D 53 nötig ist. geführten Funktionen `./ bzw. L./ gilt:
 1=n  1=n
a) `.0/ D 0, L.0/ D 1  ˛2 , `.n/ D ˛2 , L.n/ D 1.
7.33 Die folgenden Werte sind Reaktionszeiten (in Se- b) Für x D 1; 2; : : : ; n  1 ist
kunden) von 8 Studenten in nüchternem Zustand (x) und 30 1) `.x/ die Lösung # der Gleichung
Minuten nach dem Trinken einer Flasche Bier (y). Unter der !
Grundannahme, dass das Trinken von Bier die Reaktionszeit X n
n j ˛
prinzipiell nur verlängern kann, prüfe man, ob die beobachteten # .1  #/nj D ;
j Dx
j 2
Daten mit der Hypothese verträglich sind, dass die Reaktions-
zeit durch das Trinken einer Flasche Bier nicht beeinflusst wird.
2) L.x/ die Lösung # der Gleichung
!
i 1 2 3 4 5 6 7 8 X x
n j ˛
xi 0.45 0.34 0.72 0.60 0.38 0.52 0.44 0.54 # .1  #/nj D :
j D0
j 2
yi 0.53 0.39 0.69 0.61 0.45 0.63 0.52 0.67

7.40 Es seien X1 ; X2 ; : : : unabhängige und je


7.34 Ein möglicherweise gefälschter Würfel wird 200- Bin.1; #/-verteilte Zufallsvariablen, wobei # 2 WD .0; 1/.
mal in unabhängiger Folge geworfen, wobei sich für die ein- 1
Weiter sei h˛ WD
Pn˚ .1  ˛=2/, wobei ˛ 2 .0; 1/. Zeigen Sie:
zelnen Augenzahlen die Häufigkeiten 32, 35, 41, 38, 28, 26 1
Mit Tn WD n j D1 Xj und Wn WD Tn .1  Tn / gilt
ergaben. Ist dieses Ergebnis mit der Hypothese der Echtheit des  
Würfels verträglich, wenn eine Wahrscheinlichkeit von 0.1 für h˛ p h˛ p
lim P# Tn  p Wn  #  T n C p Wn D 1  ˛;
den Fehler erster Art toleriert wird? n!1 n n
# 2 .
7.35 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
blen mit gleicher stetiger Verteilungsfunktion. Wie groß muss n
sein, damit das Intervall ŒX.1/ ; X.n/  ein 95 %-Konfidenzintervall 7.41 Zeigen Sie, dass die Gütefunktionen des ein- bzw.
für den Median wird? zweiseitigen Gauß-Tests durch (7.48) bzw. durch (7.49) gegeben
sind.

7.36 Welches Resultat ergibt die Anwendung des Vor- 7.42 Weisen Sie für die Verteilungsfunktion ˚ und die
zeichentests für verbundene Stichproben in der Situation von Dichte ' der Normalverteilung N.0; 1/ die Ungleichung
Aufgabe 7.33?
'.x/
1  ˚.x/  ; x > 0;
x

Beweisaufgaben nach. Zeigen Sie hiermit: Für die in (7.48) gegebene Gütefunk-
tion gn ./ des einseitigen Gauß-Tests gilt für jedes  > 0 und
jedes hinreichend große n
7.37 Die Zufallsvariable X besitze eine hypergeome-
 
trische Verteilung Hyp.n; r; s/, wobei n; r 2 N bekannt sind 1 n.  0 /2
und s 2 N0 unbekannt ist. Der zu schätzende unbekannte Para- 1  gn ./  p exp  :
2e 2 2
meter sei # WD r C s 2 WD fr; r C 1; r C 2; : : :g. Zeigen Sie:
Es existiert kein erwartungstreuer Schätzer T W X ! für #. Die Wahrscheinlichkeit für einen Fehler zweiter Art konvergiert
Dabei ist X WD f0; 1; : : : ; ng der Stichprobenraum für X . also exponentiell schnell gegen null.
Aufgaben 297

7.43 Die Zufallsvariable Q habe eine Fishersche Fr;s - 7.49 Es seien X1 ; X2 ; : : : ; unabhängige Zufallsvaria-

Kapitel 7
Verteilung. Zeigen Sie: blen mit stetigen Verteilungsfunktionen F1 ; F2 ; : : : Zeigen Sie:
 [ 
a) Q besitzt die in (7.56) angegebene Dichte.
P fXi D Xj g D 0:
b) E.Q/ D s2 s
, s > 2. 1i <j <1
2s 2 .rCs2/
c) V .Q/ D r.s2/2 .s4/
, s > 4.
7.50 Es seien X1 ; X2 ; : : : unabhängige Zufallsvariablen
mit gleicher stetiger Verteilungsfunktion F . Die Ordnungssta-
7.44 Die Zufallsvariablen X1 ; X2 ; : : : ; Xn ; : : : seien tistiken von X1 ; : : : ; Xn seien mit X1Wn ; : : : ; XnWn bezeichnet.
stochastisch unabhängig und je Poisson-verteilt Po./, wobei Zeigen Sie: Ist für ˛ 2 .0; 1/ h˛ WD ˚ 1 .1  ˛=2/ gesetzt,
 2 .0; 1/ unbekannt ist. Konstruieren Sie analog zum Beispiel und sind zu p 2 .0; 1/ rn ; sn 2 N durch
des asymptotischen einseitigen Binomialtests in Abschn. 7.4 p p
eine Testfolge .'n / zum asymptotischen Niveau ˛ für das Test- rn WD bnp  h˛ np.1  p/c; sn WD bnp C h˛ np.1  p/c
problem H0 W   0 gegen H1 W  > 0 und weisen Sie
deren Konsistenz nach. Dabei ist 0 2 .0; 1/ ein vorgegebener definiert, so gilt
Wert.  
lim P Xrn Wn  Qp  Xsn Wn D 1  ˛:
n!1

7.45 Zeigen Sie, dass die Konstante K in (7.63) durch


p 7.51 Die Zufallsvariable X  a besitze für ein unbe-
K D 1= 2 gegeben ist.
kanntes a 2 R eine t -Verteilung mit s Freiheitsgraden, wobei
s  3. Die Verteilungsfunktion von X sei mit Fs bezeichnet.
7.46 Der Zufallsvektor X besitze eine nichtausgeartete Zeigen Sie:
k-dimensionale Normalverteilung Nk .; ˙/. Zeigen Sie, dass
die quadratische Form .X /> ˙ 1 .X / eine 2k -Verteilung a) Die in der Unter-der-Lupe-Box „Arithmetisches Mittel oder
besitzt. Median?“ in Abschn. 7.6 eingeführte asymptotische relative
Effizienz von Qn;1=2 bzgl. X n als Schätzer für a ist
 
7.47 Beweisen Sie die Konsistenz des Chi-Quadrat- 4 2 sC1
Tests. AREFs .Qn;1=2 ; X n / D 2
 :
.s  2/  2 s 2

7.48 Zeigen Sie, dass für die Risikomenge R aller Feh- b) Der Ausdruck in a) ist für s D 3 und s D 4 größer und für
lerwahrscheinlichkeitspunkte .˛.'/; ˇ.'// von Tests ' W X ! s  5 kleiner als 1, und im Limes für s ! 1 ergibt sich der
Œ0; 1 im Zwei-Alternativ-Problem gilt: Wert 2=.

a) R enthält die Punkte .1; 0/ und .0; 1/, 7.52 Beweisen Sie die Aussagen a) und b) des Satzes
b) R ist punktsymmetrisch zu .1=2; 1=2/, über die H0 -Verteilung der Wilcoxon-Rangsummenstatistik am
c) R ist konvex. Ende von Abschn. 7.6.
298 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7

Antworten zu den Selbstfragen

Antwort 1 Es sind MQAT0 .#/ D .#0  #/2 , MQAT  .#/ D Antwort 8 Als Funktionen von X1 ; : : : ; Xm bzw. Y1 ; : : : ; Yn
#.1  #/, MQAeT .#/ D #.1  #/=2.
sind Zähler und Nenner in (7.55) nach dem Blockungslemma
stochastisch unabhängig. Mit (7.6) ist der Zähler nach Division
Antwort 2 Es sei " > 0 beliebig. Aus limn!1 E# Tn D .#/ durch  2 verteilt wie R=.m  1/, wobei R 2m1 . Ebenso ist
für jedes # 2 und der Dreiecksungleichung der Nenner nach Division durch  2 verteilt wie S=.n  1/, wo-
jTn  .#/j  jTn  E# .Tn /j C jE# .Tn /  .#/j bei S 2n1 . Hieraus folgt die behauptete Fm1;n1 -Verteilung
von Qm;n unter H0 .
folgt, dass für hinreichend großes n die Inklusion
n "o Antwort 9 Der einseitige Gauß-Test wie im Beispiel zu
fjTn  .#/j > "g  jTn  E# .Tn /j > Abb. 7.15 kann kompakt als 'n D 1fTn  ˚ 1 .1  ˛/g mit Tn
2
bestehen muss. Die Wahrscheinlichkeit des rechts stehenden wie in (7.47) geschrieben werden. Seine Gütefunktion ist nach
Ereignisses ist unter P# nach der Tschebyschow-Ungleichung (7.48) durch
nach oben durch 4V# .Tn /="2 beschränkt. Wegen V# .Tn / ! 0  p 
n.  0 /
folgt die Behauptung. g'n ./ D 1  ˚ ˚ 1 .1  ˛/  ;

Antwort 3 Wegen jxjk  1 C jxjd für x 2 R gilt auch
EjX1 jk < 1.  2 R, gegeben. Für jedes  > 0 gilt limn!1 g'n ./ D 1,
was die Konsistenz zeigt. Betrachtet man die Gütefunktion des
Antwort 4 Im Fall des Taxi-Problems hängt die Menge zweiseitigen Gauß-Tests 'n D 1fjTn j > ˚ 1 .1  ˛=2/g zum
f.x; #/ j f .x; #/ > 0g von # ab, was in einem regulären sta- Testen von H0 W  D 0 gegen H1 W  ¤ 0 in (7.49), so
tistischen Modell nicht zulässig ist. konvergieren für  > 0 der erste Minuend gegen 1 und der
zweite gegen 0, im Fall  < 0 ist es umgekehrt. In jedem
d
Antwort 5 Schreiben wir kurz W# D d# log f1 .X1 ; #/, so ist dieser Fälle konvergiert g'n ./ gegen 1, was die Konsistenz des
diese Gleichung gleichbedeutend mit zweiseitigen Gauß-Tests nachweist.
Z  2
d
V# .W# / D log f1 .t ; #/ f1 .t ; #/ dt : Antwort 10 Die Dichte der Normalverteilung N.#;  2 / ist
d#
X1  
1 .x  #/2
Auf der rechten Seite steht hier E# .W#2 /.
Wie im Kommentar f .x; #/ D p exp 
 2 2 2
auf nach der Definition eines regulären statistischen Modells      
sieht man, dass E# .W# / D 0 gilt. Hieraus folgt die Behaup- 1 #2 x2 #
D p exp  2 exp  2 exp x ;
tung.  2 2 2 2
„ ƒ‚ … „ ƒ‚ …
DWb.#/ DWh.x/
Antwort 6 Bezeichnet In das zufällige Intervall in b), so gilt
wegen p  
n Xn   und wir können T .x/ WD x und Q.#/ WD #= 2 setzen.
In 3  () tn1I1˛ 
Sn
Antwort 11 Es ist
und dem Satz von Student sowie tn1I1˛ D tn1I˛
p   ! X
n
n Xn   Fn .x/  p () 1fXj  xg  np:
P; 2 .In 3 / D P; 2  tn1I˛ D ˛ j D1
Sn

für jede Wahl von .;  2 / 2 R  R>0 , was zu zeigen war. Äquivalent hierzu ist, dass im Fall np 2 N die Ungleichung
XnpWn  x und im Fall np … N die Ungleichung XbnpC1cWn  x
Antwort 7 Indem man die Ungleichungen in der Wahrschein- erfüllt ist. Das kleinste solche x ist im ersten Fall XnpWn und im
lichkeitsaussage zweiten gleich XbnpC1cWn .
 
.n  1/Sn2 S
P; 2 2n1I˛=2   2
n1I1˛=2 D 1  ˛ Antwort 12 Es ist fX.s/ D Q1=2 g  jnD1 fXj D Q1=2 g und
2
somit P .X.s/ D Q1=2 /  nP .X1 D Q1=2 / D 0, da F stetig
in Ungleichungen für  2 umschreibt. ist.
Grundzüge der Maß- und
Integrationstheorie – vom 8
Messen und Mitteln

Kapitel 8
Was ist der Unterschied
zwischen einem Inhalt und
einem Maß?
Was besagt der
Maß-Fortsetzungssatz?
Wie vollzieht sich der
Aufbau des Integrals?
Unter welchen
Voraussetzungen darf man
Limes- und Integralbildung
vertauschen?
Was besagt der Satz von
Fubini?

8.1 Inhaltsproblem und Maßproblem . . . . . . . . . . . . . . . . . . . . . 300


8.2 Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.3 Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
8.4 Messbare Abbildungen, Bildmaße . . . . . . . . . . . . . . . . . . . . . 318
8.5 Das Maß-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
8.6 Nullmengen, Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . 333
8.7 Lp -Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
8.8 Maße mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
8.9 Produktmaße, Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . 347
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 361

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 299
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_8
300 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Gegenstand der Maß- und Integrationstheorie sind Maßräume und


der dazugehörige Integrationsbegriff. Kenntnisse dieses Teilgebiets
der Mathematik sind unerlässlich für jede systematische Darstellung
der Stochastik und anderer mathematischer Disziplinen, insbeson-
dere der Analysis. In diesem Kapitel stellen wir die wichtigsten
Ergebnisse und Methoden aus der Maß- und Integrationstheorie
bereit. Entscheidende Resultate sind der Maß-Fortsetzungssatz so-
wie der Eindeutigkeitssatz für Maße. Eine besondere Rolle kommt
dem Borel-Lebesgue-Maß k im Rk zu. Dieses löst das Prob-
lem, einer möglichst großen Klasse von Teilmengen des Rk deren
k-dimensionales Volumen, also insbesondere im Fall k D 2 de-
Kapitel 8

ren Fläche, zuzuordnen. Charakteristisch für das Maß k ist, dass


es dem k-dimensionalen Einheitskubus den Wert 1 zuweist und
sich bei Verschiebungen von Mengen nicht ändert. Des Weiteren
kann man zu jedem Maß ein Integral definieren; als Spezialfall
entsteht hier das Lebesgue-Integral. Wichtige Resultate, die die Ver-
tauschbarkeit von Integration und der Limesbildung von Funktionen
rechtfertigen, sind die Sätze von Beppo Levi und Henri Lebesgue. Rb
Wir werden sehen, dass Mengen vom Maß Null bei der Integration Abb. 8.1 Die Fläche von A ist das Integral a .h.x/  g.x// dx
keine Rolle spielen und dass man unter schwachen Vorausset-
zungen in Verallgemeinerung des Cavalierischen Prinzips aus zwei
beliebigen Maßen ein Produktmaß konstruieren kann.

8.1 Inhaltsproblem und Maßproblem


Schon in der Schule lernt man, dass der Flächeninhalt eines
Rechtecks oder das Volumen eines Quaders gleich dem Pro- Abb. 8.2 Zum Inhaltsproblem
dukt der jeweiligen Seitenlängen ist und dass der Rauminhalt
einer Pyramide ein Drittel des Produkts aus Grundfläche und
Höhe beträgt. Bis weit in das 19. Jahrhundert hinein begnügte betonen, schreiben wir disjunkte Vereinigungen mit dem Sum-
man sich damit, Flächen- bzw. Rauminhalte von konkret gege- menzeichen, setzen also allgemein
benen Teilmengen des R2 bzw. des R3 zu bestimmen. Die dafür
verfügbaren Methoden wurden durch das Aufkommen der Ana- C D A C B W() C D A [ B und A \ B D ;;
lysis immer weiter verfeinert. So erfährt man etwa im ersten X
n [
n

Jahr eines Mathematikstudiums, dass die Fläche einer Teilmen- C D Aj W() C D Aj und Ai \ Aj D ; 8i ¤ j :
ge A des R2 , die von den Abszissenwerten a und b und den j D1 j D1
Graphen zweier über dem Intervall Œa; b stetiger Funktionen g P
und h mit g.x/  h.x/, a  x  b, eingespannt ist, gleich In gleicher Weise verwenden wir die Schreibweise j1D1 Aj
Rb
dem (Riemann- oder Lebesgue-)Integral a .h.x/  g.x// dx ist für eine abzählbar unendliche Vereinigung paarweise disjunk-
(siehe Abb. 8.1). ter Mengen.

Auch bei der in Abb. 8.2 links eingezeichneten Teilmenge A Die paarweise Disjunktheit der Rechtecke in Abb. 8.2 kann da-
des R2 ist man sich von der Anschauung her sicher, dass sie durch erreicht werden, dass jedes Rechteck kartesisches Produkt
einen bestimmten Flächeninhalt besitzt. Um diesen zu berech- .a; b  .c; d  zweier halboffener Intervalle ist und somit „nach
nen, bietet es sich an, die Menge A durch achsenparallele links unten offen wird“.
Rechtecke, deren Flächeninhalte man kennt, möglichst gut aus- Unterwirft man die Menge A einer Verschiebung oder Drehung,
zuschöpfen, um so mit der Summe der Flächeninhalte der in so sollte die resultierende Menge den gleichen Flächeninhalt
Abb. 8.2 rechts eingezeichneten Rechtecke zumindest eine un- aufweisen; der Flächeninhalt von A sollte also invariant gegen-
tere Schranke für die Fläche von A zu erhalten. Bei dieser über Bewegungen des R2 sein.
Vorgehensweise erkennt man bereits ein wichtiges Grundprin-
zip für den axiomatischen Aufbau einer Flächenmessung im Die hier aufgeworfenen Fragen gelten offenbar genauso im Hin-
R2 : Ist eine Menge B die disjunkte Vereinigung endlich vieler blick auf die Bestimmung des Rauminhalts im R3 oder das
Mengen B1 ; : : : ; Bn , so soll der Flächeninhalt von B gleich der Problem der Längenmessung im R1 . Ist ein irgendwie gearte-
Summe der Flächeninhalte von B1 ; : : : ; Bn sein. Dabei steht die tes „Gebilde“ A (im R1 , R2 oder R3 ) die disjunkte Vereinigung
Sprechweise „disjunkte Vereinigung“ hier und im Folgenden für endlich vieler „Teilgebilde“, so sollte sein „geometrischer In-
eine Vereinigung paarweise disjunkter Mengen. Um diese häu- halt“, also die Länge (im R1 ), die Fläche (im R2 ) oder das
fig vorkommende spezielle Situation auch in der Notation zu Volumen (im R3 ), gleich der Summe der geometrischen Inhalte
8.1 Inhaltsproblem und Maßproblem 301

(Längen bzw. Flächen bzw. Volumina) der einzelnen Teilgebil- Kilometern – den unserer Sonne übersteigt. Es ist verständlich,
de sein, und unterwirft man das Gebilde A einer Bewegung T , dass die Mengen C1 ; : : : ; Cn jede Vorstellungskraft sprengen.
so sollte das entstehende, zu A kongruente Gebilde T .A/ den Sie sind i. Allg. so kompliziert, dass ihre Existenz nur mit dem
gleichen geometrischen Inhalt besitzen. Dabei bezeichnen wir Auswahlaxiom der Mengenlehre gesichert werden kann.
allgemein die Menge der Bewegungen des Rk mit
Der Schlüssel für eine tragfähige Theorie der Volumenmes-
Dk WD fT W Rk ! Rk j 9U 2 Rkk ; U orthogonal sung im Rk besteht in einer auf den ersten Blick aussichtslos
scheinenden Vorgehensweise: Einer Idee des französischen Ma-
9b 2 Rk mit T .x/ D Ux C b; x 2 Rk g: thematikers Émile Borel (1871–1956) im Jahr 1894 folgend
verschärft man die obige Bedingung b), wonach der k-Inhalt
Vereinbart man noch, dass dem Einheitsintervall Œ0; 1 die Länge einer disjunkten Vereinigung zweier (und damit endlich vieler)
1, dem Einheitsquadrat Œ0; 12 die Fläche 1 und dem Ein- Mengen gleich der Summe der k-Inhalte der einzelnen Mengen

Kapitel 8
heitswürfel Œ0; 13 das Volumen 1 zukommt und unbeschränkte ist, dahingehend, dass bei der Addition der Inhalte paarweise
Mengen die Länge bzw. die Fläche bzw. das Volumen 1 erhal- disjunkter Mengen auch abzählbar unendliche und nicht nur
ten können, so stellt sich mit der Festsetzung endliche Summen zugelassen werden. Auf diese Weise entsteht
das sog. Maßproblem:
Œ0; 1 WD Œ0; 1/ [ f1g

und den Rechenregeln 1 C 1 D 1 D x C 1 D 1 C x,


Das Maßproblem
x 2 R sowie der eben getroffenen Vereinbarung die Vereini-
gung disjunkter Mengen mit dem Plus-Zeichen zu schreiben, Gibt es eine Funktion k W P .Rk / ! Œ0; 1 mit den Ei-
das Inhaltsproblem im Rk wie folgt dar: genschaften a), c) und d) wie oben sowie
P  P
1
b 0 ) k j D1 Aj D j1D1 k .Aj /;
Das Inhaltsproblem falls A1 ; A2 ; : : :  Rk paarweise disjunkt sind?
Gibt es eine Funktion k W P .R / ! Œ0; 1 mit den Ei-
k

genschaften
Eigenschaft b0 ) heißt -Additivität von k , in Verschärfung der
a) k .;/ D 0,
in b) formulierten endlichen Additivität. Ersterer kommt für
b) k .A
 C B/ D k .A/ C k .B/, die weitere Entwicklung der Maß- und Integrationstheorie eine
c) k Œ0; 1k D 1,
Schlüsselrolle zu. Man beachte, dass Bedingung b0 ) in der Tat
d) k .T .A// D k .A/, A  Rk , T 2 Dk ? eine gegenüber b) stringentere Forderung darstellt, da man in
b0 ) nur A1 WD A, A2 WD B und Aj WD ; für j  3 setzen muss,
um b) zu erhalten. Da gewisse Summanden in b0 ) gleich 1 sein
Offenbar sind diese Anforderungen an eine Funktion k , die je- können, vereinbaren wir, dass die in b0 ) auftretende Reihe den
der Teilmenge A des Rk einen k-dimensionalen geometrischen Wert 1 annimmt, falls dies für mindestens einen Summanden
Elementarinhalt (kurz: k-Inhalt) zuordnen soll, völlig natürlich. zutrifft. Andernfalls kann die unendliche Reihe reeller Zahlen
Der Knackpunkt ist, dass k auf der vollen Potenzmenge P .Rk / (mit dem Wert 1) divergieren oder konvergieren.
definiert sein soll, was beliebig abstruse Mengen einschließt.
Die nachfolgende kaum verwundernde Aussage stammt von
Nach einem Satz von Felix Hausdorff (1868–1942) aus dem dem italienischen Mathematiker Giuseppe Vitali (1875–1932).
Jahr 1914 ist das Inhaltsproblem im Fall k  3 unlösbar. Ihren Beweis führen wir im Zusammenhang mit der Existenz
Wie der polnische Mathematiker Stefan Banach (1892–1945) nicht Borelscher Mengen am Ende von Abschn. 8.4.
im Jahr 1923 zeigte, ist es für die Fälle k D 1 und k D 2 zwar
lösbar, aber nicht eindeutig.
Die Unlösbarkeit des Inhaltsproblems im Fall k  3 wird Satz von Vitali (1905)
unterstrichen durch einen Satz von Banach und Alfred Tarski
Das Maßproblem ist für kein k  1 lösbar.
(1902–1983) aus dem Jahr 1924, dessen Aussage so unglaublich
ist, dass er als Banach-Tarski-Paradoxon in die Literatur Ein-
gang fand. Dieses „Paradoxon“ besagt, dass man im Fall k  3
zu beliebigen beschränkten Mengen A; B  Rk , die jeweils in- Video 8.1 Die Unlösbarkeit des Maßproblems
n  R
k
nere Punkte besitzen, endlich viele Mengen C1 ; : : : ; CP
n
und Bewegungen T1 ; : : : ; Tn finden kann, sodass A D j D1 Cj
P
und B D jnD1 Tj .Cj / gilt. Wählt man etwa im R3 für A den
Einheitswürfel und für B eine Kugel mit Radius 106 , so kann
man nach obigem Ergebnis den Würfel in endlich viele Mengen
zerlegen und diese Teilstücke durch geeignete Bewegungen des
R3 so in paarweise disjunkte Mengen abbilden, dass deren Ver- Diese negativen Resultate und der Anschauung zuwiderlaufen-
einigung eine Kugel mit einem Radius ergibt, der – gemessen in den Phänomene machen eines deutlich: Es ist hoffnungslos, k
302 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

auf der Potenzmenge des Rk definieren und somit jeder Teil- Beispiel
menge A des Rk ein k-dimensionales Volumen k .A/ zuordnen Das System aller endlichen Teilmengen einer Menge ˝ bil-
zu wollen. Möchte man an den Forderungen a) bis d) festhal- det einen Ring. Dieser ist genau dann eine Algebra, wenn ˝
ten, so muss man sich offenbar als Definitionsbereich für k auf endlich ist.
ein gewisses, geeignetes System M  P .Rk / von Teilmen- Der kleinste über einer Menge ˝ existierende Ring besteht
gen des Rk beschränken. Ähnliche Phänomene beobachtet man nur aus f;g, die kleinste Algebra aus f;; ˝g.
in der Stochastik, wo es vielfach auch nicht möglich ist, jeder Das System aller beschränkten Teilmengen des Rk bildet ei-
Teilmenge eines Ergebnisraums eine Wahrscheinlichkeit zuzu- nen Ring.
weisen, ohne grundlegende Forderungen zu verletzen. Das System Ok der offenen Mengen im Rk ist \-stabil und
Beim Aufbau einer „axiomatischen Theorie des Messens im [-stabil, ja sogar abgeschlossen gegenüber der Vereinigung
weitesten Sinn“ hat sich herausgestellt, dass eine Einschränkung beliebig vieler Mengen, aber kein Ring, da die Differenz of-
Kapitel 8

auf den Rk unnötig ist. Der bei dem jetzt vorgestellten abstrak- fener Mengen nicht notwendig offen ist. J
ten Aufbau entstehende Mehraufwand ist gering, der Gewinn an
Sowohl für den Aufbau der Maßtheorie als auch der Stochas-
Allgemeinheit insbesondere für die Stochastik und die Funktio-
tik sind Ringe und Algebren nicht reichhaltig genug, da sie
nalanalysis beträchtlich.
nur bzgl. der Bildung endlicher Vereinigungen und Durch-
schnitte abgeschlossen sind. Das zentrale Mengensystem für die
Maßtheorie und die Stochastik ist Gegenstand der folgenden
8.2 Mengensysteme Definition.
Im Folgenden betrachten wir eine beliebige, auch Grundraum
genannte nichtleere Menge ˝ und Mengensysteme über ˝,
Definition einer  -Algebra
d. h. Teilmengen M der Potenzmenge P .˝/ von ˝. Ein sol-
ches Mengensystem M, das eine Menge von Teilmengen von ˝ Eine -Algebra über ˝ ist ein System A  P .˝/ von
darstellt, wird als Definitionsbereich einer geeigneten „Inhalts- Teilmengen von ˝ mit folgenden Eigenschaften:
funktion“ oder „Maßfunktion“ fungieren, deren Eigenschaften
; 2 A,
genauer zu spezifizieren sind. Da man mit Mengen Operationen
aus A 2 A folgt Ac D ˝ S n A 2 A,
wie etwa Durchschnitts- oder Vereinigungsbildung durchführen
aus A1 ; A2 ; : : : 2 A folgt 1nD1 An 2 A.
möchte, sollte ein für die Maßtheorie sinnvolles Mengensystem
gewisse Abgeschlossenheitseigenschaften gegenüber solchen
mengentheoretischen Verknüpfungen aufweisen.
Eine -Algebra A ist also abgeschlossen gegenüber der Bil-
Ein Mengensystem M  P .˝/ heißt durchschnittsstabil bzw. dung von Komplementen und Vereinigungen abzählbar vieler
vereinigungsstabil, falls es mit je zwei und damit je endlich (nicht notwendigerweise beliebig vieler) Mengen. Aus den bei-
vielen Mengen auch deren Durchschnitt bzw. deren Vereinigung den ersten Eigenschaften folgt ˝ D ;c 2 A. Setzt man in der
enthält, und man schreibt hierfür kurz \-stabil bzw. [-stabil. dritten Eigenschaft An WD ; für jedes n  3, so ergibt sich,
dass mit je zwei (und somit auch mit je endlich vielen) Mengen
aus A auch deren Vereinigung zu A gehört. Eine -Algebra ist
Definition eines Rings und einer Algebra
somit vereinigungsstabil und damit auch eine Algebra.
Ein Mengensystem R  P .˝/ heißt Ring, falls gilt:
Selbstfrage 1
; 2 R,
Enthält eine -AlgebraTmit Mengen A1 ; A2 ; : : : auch die Durch-
aus A; B 2 R folgt A [ B 2 R,
schnitte A1 \ A2 und 1 nD1 An ?
aus A; B 2 R folgt A n B 2 R.
Gilt zusätzlich
Kommentar Das Präfix „-“ im Wort -Algebra steht für
˝ 2 R,
die Möglichkeit, abzählbar unendlich viele Mengen bei der
so heißt R eine Algebra. Vereinigungs- und Durchschnittsbildung zuzulassen. Dabei soll
der Buchstabe  an „Summe“ erinnern. J

Wegen Beispiel
A \ B D A n .A n B/ Die kleinstmögliche -Algebra über ˝ ist A D f;; ˝g, die
größtmögliche die Potenzmenge A D P .˝/. Die erste ist
ist offenbar jeder Ring nicht nur [-stabil, sondern auch \-stabil. uninteressant, die zweite i. Allg. zu groß.
Wohingegen ein Ring abgeschlossen gegenüber der Bildung von Für jede Teilmenge A von ˝ ist das Mengensystem
Vereinigungen und Durchschnitten sowie Differenzen von Men-
gen ist, kann man wegen Ac D ˝ n A in einer Algebra auch A WD f;; A; Ac ; ˝g
unbedenklich Komplemente von Mengen bilden, ohne dieses
Mengensystem zu verlassen. eine -Algebra.
8.2 Mengensysteme 303

Es sei ˝ WD N und Ein Dynkin-System enthält die leere Menge sowie mit jeder
Menge auch deren Komplement. Vergleicht man die obigen
A0 WD fA  ˝ j A endlich oder Ac endlichg: Eigenschaften mit den definierenden Eigenschaften einer -
Algebra, so folgt unmittelbar, dass jede -Algebra auch ein
Dann ist A0 eine Algebra (sog. Algebra der endlichen Dynkin-System ist. Dass hier die Umkehrung nur unter Zu-
oder co-endlichen Mengen), aber wegen der dritten definie- satzvoraussetzungen gilt, zeigen das folgende Beispiel und das
renden Eigenschaft keine -Algebra. Als solche müsste sie anschließende Resultat.
nämlich jede Teilmenge von ˝ enthalten, also gleich P .N/
sein. Die Menge der geraden Zahlen liegt aber zum Beispiel Beispiel Es sei ˝ WD f1; 2; : : : ; 2kg, wobei k 2 N. Dann ist
nicht in A0 . das System
Ist ˝ eine beliebige nichtleere Menge, so ist das System

Kapitel 8
D WD fD  ˝ j 9m 2 f0; 1; : : : ; kg mit jDj D 2mg
A WD fA  ˝ j A abzählbar oder Ac abzählbarg
aller Teilmengen von ˝ mit einer geraden Elementanzahl ein
der sog. abzählbaren oder co-abzählbaren Mengen eine Dynkin-System, aber im Fall k  2 keine -Algebra. J
-Algebra. Dabei sind die beiden ersten definierenden Ei-
genschaften einer -Algebra klar, denn die leere Menge ist Lemma (über \-stabile Dynkin-Systeme) Es sei D 
abzählbar. Für den Nachweis der dritten Eigenschaft beach- P .˝/ ein \-stabiles Dynkin-System. Dann ist D eine -
te man: SindSalle Mengen An abzählbar, so ist auch deren
1
Algebra. J
Vereinigung
S1 nD1 c An abzählbar.
T1 c
Ist ein An0 nicht abzählbar,
so ist A
nD1 n D A
nD1 n in Acn0 enthalten und daher Beweis Wir müssen nur zeigen, dass D mit beliebigen Men-
abzählbar. Offenbar gilt A D P .˝/, falls ˝ abzählbar ist.
Sind A  P .˝/ eine -Algebra und ˝0 eine Teilmenge von S1 A1 ; A2 ; : : : aus D auch deren Vereinigung enthält. Da sich
gen
nD1 An in der Form
˝, so ist das Mengensystem
[
1 X
1
˝0 \ A WD f˝0 \ A j A 2 Ag (8.1) An D A1 C An \ Ac1 \ : : : \ Acn1 (8.2)
nD1 nD2
eine -Algebra über ˝0 . Sie heißt Spur(- -Algebra) von
als disjunkte Vereinigung darstellen lässt und jede der rechts
A in ˝0 . Gilt ˝0 2 A, so besteht ˝0 \ A aus allen zu A
stehenden Mengen wegen der vorausgesetzten \-Stabilität zu
gehörenden Teilmengen von ˝0 . J
D gehört, folgt die Behauptung nach Definition eines Dynkin-
Systems. 

Eine  -Algebra ist ein Dynkin-System, Selbstfrage 2


ein \-stabiles Dynkin-System eine  -Algebra Warum gilt die Darstellung (8.2), und warum sind die in der
Vereinigung auftretenden Mengen paarweise disjunkt?
Sowohl bei der Konstruktion von Maßfortsetzungen als auch
bei Fragen der Eindeutigkeit von Maßen und der stochasti-
schen Unabhängigkeit hat sich die folgende, auf den russischen Wie findet man geeignete -Algebren, die hinreichend reichhal-
Mathematiker Eugene Borisovich Dynkin (1924–2014) zurück- tig sind, um alle für eine vorliegende Fragestellung wichtigen
gehende Begriffsbildung als nützlich erwiesen. Teilmengen von ˝ zu enthalten? Die gleiche Frage stellt sich
auch für andere Mengensysteme wie Ringe, Algebren und
Dynkin-Systeme. Die Vorgehensweise ist ganz analog zu der-
Definition eines Dynkin-Systems jenigen in der Linearen Algebra, wenn dort der kleinste, eine
Menge von Vektoren enthaltende Unterraum gesucht wird. Für
Ein Mengensystem D  P .˝/ heißt Dynkin-System die betrachteten vier Typen von Mengensystemen gilt analog zu
über ˝, falls gilt: Unterräumen:
˝ 2 D,
aus D; E 2 D und D  E folgt E n D 2 D,
Satz über den Durchschnitt von  -Algebren
sind DP1 ; D2 ; : : : paarweise disjunkte Mengen aus D,
so gilt 1 nD1 Dn 2 D. Ist J ¤ ; eine beliebige Menge, und sind Aj , j 2 J ,
-Algebren über ˝, so ist auch deren Durchschnitt
\
Video 8.2 Dynkin-Systeme Aj WD fA  ˝ j A 2 Aj für jedes j 2 J g
j 2J

eine -Algebra über ˝. Ein analoger Sachverhalt gilt für


Ringe, Algebren und Dynkin-Systeme.
304 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Selbstfrage 3 E das System aller endlichen Teilmengen von ˝. Da E einen


T Ring bildet, der M umfasst, gilt auch .M/  E . Andererseits
Warum ist A WD j 2J Aj eine -Algebra?
muss jeder Ring über ˝, der die einelementigen Mengen ent-
hält, auch E enthalten. Folglich gilt auch .M/
E . J
Man beachte, dass die Vereinigung von -Algebren im Allge-
meinen keine -Algebra ist (Aufgabe 8.1). Selbstfrage 4
Warum gilt stets .M/  ˛.M/  .M/?

 .M/ ist die kleinste M enthaltende  -Algebra


Eine -Algebra A über ˝ kann verschiedene Erzeuger besit-
zen, d. h., es kann Mengensysteme M; N  P .˝/ geben, für
Kapitel 8

Die von einem Mengensystem erzeugte  -Algebra die M ¤ N , aber .M/ D .N / gilt. Zum Nachweis der letz-
ten Gleichung in konkreten Fällen ist folgendes Resultat – das
Ist M  P .˝/ ein beliebiges nichtleeres System von Teil-
in analoger Weise gilt, wenn man  durch ˛, oder ı ersetzt –
mengen von ˝, so setzen wir
hilfreich.
\
.M/ WD fA j A  P .˝/ -Algebra und M  Ag
Lemma (über Erzeugendensysteme) Es seien M; N 
und nennen .M/ die von M erzeugte  -Algebra. Das P .˝/ Mengensysteme. Dann gelten:
System M heißt ein Erzeugendensystem oder kurz ein
a) Aus M  N folgt .M/  .N /,
Erzeuger von .M/.
b) .M/ D ..M//,
c) aus M  .N / und N  .M/ folgt .M/ D .N /. J
Ersetzt man in der Definition von .M/ das Wort -
Algebra durch Algebra bzw. Ring bzw. Dynkin-System, Selbstfrage 5
so entstehen die von M erzeugte Algebra ˛.M/ bzw. der Können Sie diese Aussagen beweisen?
von M erzeugte Ring .M/ bzw. das von M erzeugte
Dynkin-System ı.M/.

Borel-Mengen: Die Standard- -Algebra im Rk


Da die Potenzmenge P .˝/ eine -Algebra mit der Eigen-
schaft M  P .˝/ darstellt, ist .M/ wohldefiniert und als Wenn wir im Folgenden mit dem Grundraum ˝ D Rk arbeiten
Durchschnitt von -Algebren ebenfalls eine -Algebra. Nach werden, legen wir – falls nichts anderes gesagt ist – stets eine
Konstruktion gilt zudem nach E. Borel benannte -Algebra zugrunde.
M  .M/:

Ist A  P .˝/ eine beliebige -Algebra mit M  A, so gilt Die  -Algebra der Borel-Mengen des Rk
nach Definition von .M/ als Durchschnitt aller -Algebren
Bezeichnet Ok das System der offenen Mengen des Rk , so
über ˝, die M enthalten, die Inklusion .M/  A. Die
ist die -Algebra der Borelschen Mengen des Rk durch
-Algebra .M/ ist also die eindeutig bestimmte kleinste -
Algebra über ˝, die das Mengensystem M umfasst. In gleicher
Bk WD .Ok /
Weise ist ˛.M/ die kleinste M enthaltende Algebra, .M/ der
kleinste M umfassende Ring und ı.M/ das kleinste M enthal-
tende Dynkin-System. definiert. Im Fall k D 1 schreiben wir kurz B WD B1 .

Beispiel Für eine beliebige nichtleere Menge ˝ sei


Video 8.3 Die k-dimensionale Borel--Algebra
M WD ff!g j ! 2 ˝g

das System aller einelementigen Teilmengen von ˝. Es ist

.M/ D fA  ˝ j A endlichg;
˛.M/ D fA  ˝ j A endlich oder Ac endlichg;
.M/ D fA  ˝ j A abzählbar oder Ac abzählbarg; Mithilfe des obigen Lemmas sieht man schnell ein, dass die -
ı.M/ D .M/: Algebra Bk noch viele weitere Erzeugendensysteme besitzt. Zu
diesem Zweck setzen wir für x D .x1 ; : : : ; xk / 2 Rk und y D
Der Nachweis dieser Behauptungen erfolgt immer in der glei- .y1 ; : : : ; yk / 2 Rk kurz x  y, falls für jedes j D 1; : : : ; k die
chen Weise und soll exemplarisch für .M/ geführt werden. Sei Beziehung xj  yj gilt. In gleicher Weise verwenden wir die
8.2 Mengensysteme 305
T1
so gilt .x; y D nD1T .x; wn /. Als Schnitt abzählbar vieler of-
fener Mengen gehört 1 k k
nD1 .x; wn / zu .O /, was I  .O /
k
k k k
zeigt. Um O  .I / nachzuweisen, sei O 2 O , O ¤ ;, be-
liebig. Da O nur innere Punkte besitzt, gibt es zu jedem x 2 O
eine Menge C .x/ 2 I k mit x 2 C .x/  O. Weil die abzählba-
re Menge Q in R dicht liegt, kann sogar angenommen werden,
dass C .x/ zur Menge
Abb. 8.3 Die Menge .x; y k
IQ WD f.x; y 2 I k j x; y 2 Qk g  I k
k
gehört. Da IQ abzählbar ist, ist die in der Darstellung O D
Bezeichnung x < y. Hiermit sind im Fall x < y allgemeine S
C .x/ stehende formal überabzählbare Vereinigung tat-

Kapitel 8
Intervalle der Form x2O
k
sächlich eine Vereinigung abzählbar vieler Mengen aus IQ .
.x; y/ WD fz 2 Rk j x < z < yg; k
Sie liegt also in der von IQ erzeugten -Algebra, was O  k
k
.x; y WD fz 2 Rk j x < z  yg .IQ /  .I k / zeigt und den Nachweis von (8.3) abschließt.
Der Beweis des letzten Gleichheitszeichens ist Gegenstand von
usw. definiert. Schließlich setzen wir Aufgabe 8.23. 
.1; x WD fz 2 Rk j z  xg: Da jede -Algebra ein Dynkin-System ist, umfasst die kleins-
te M enthaltende -Algebra auch das kleinste M enthaltende
Im Fall k D 1 sind .x; y/ und .x; y ein offenes bzw. halb-
offenes Intervall, und .1; x ist ein bei x beginnender und Dynkin-System; es gilt also die Relation ı.M/  .M/. Für ein
durchschnittstabiles Mengensystem tritt hier sogar das Gleich-
nach links zeigender Halbstrahl. Im R2 sind .x; y/ ein offenes
heitszeichen ein.
Rechteck und .x; y ein Rechteck, das nach rechts oben hin ab-
geschlossen und nach links unten hin offen ist (Abb. 8.3). In
diesem Fall ist .1; x eine nach rechts oben bei x begrenzte Lemma Ist M  P .˝/ ein \-stabiles Mengensystem, so gilt
„Viertel-Ebene“.
ı.M/ D .M/: J
Im Folgenden bezeichne
Ak das System aller abgeschlossenen Mengen des Rk , Beweis Es ist nur zu zeigen, dass ı.M/ \-stabil ist, denn
K k das System aller kompakten Mengen des Rk , dann ist ı.M/ eine M enthaltende -Algebra. Als solche muss
I k WD f.x; y j x; y 2 Rk ; x  yg das um die leere Menge sie auch die kleinste M enthaltende -Algebra .M/ umfassen.
erweiterte System aller halboffenen Intervalle des Rk , Zum Nachweis der Eigenschaft
J k WD f.1; x j x 2 Rk g.
A; B 2 ı.M/ H) A \ B 2 ı.M/

Satz über Erzeugendensysteme der Borel-Mengen definieren wir für beliebiges A 2 ı.M/ das Mengensystem

Es gilt DA WD fB  ˝ j B \ A 2 ı.M/g:

Bk D .Ak / D .K k / D .I k / D .J k /: Zu zeigen ist die Inklusion ı.M/  DA . Nachrechnen der de-
finierenden Eigenschaften liefert, dass DA ein Dynkin-System
ist. Ist A 2 M, so gilt aufgrund der \-Stabilität von M die Re-
lation M  DA : Da DA ein Dynkin-System ist, folgt hieraus
Beweis Da eine -Algebra mit einer Menge auch deren ı.M/  DA und somit die Implikation
Komplement enthält und die abgeschlossenen Mengen die Kom-
plemente der offenen Mengen sind und umgekehrt, gelten Ak  B 2 ı.M/; A 2 M H) B \ A 2 ı.M/:
.Ok / sowie Ok  .Ak /. Wegen Bk D .Ok / folgt somit
Bk D .Ak / aus Teil c) des obigen Lemmas. Der Nachweis Vertauscht man hier die Rollen von A und B, so wird obige Zeile
von .Ak / D .K k / ist Gegenstand von Aufgabe 8.22. Um zu M  DA für jedes A 2 ı.M/: Hieraus folgt ı.M/  DA ,
.Ok / D .I k / zu zeigen, weisen wir da DA ein Dynkin-System ist. 

I k  .Ok /; Ok  .I k /; (8.3) Selbstfrage 6


Warum ist DA ein Dynkin-System?
nach. Sei hierzu .x; y 2 I k beliebig, wobei y D .y1 ; : : : ; yk /.
Setzen wir
  Im Zusammenhang mit der im nächsten Abschnitt vorgestellten
1 1 1 Fortsetzung von Mengenfunktionen ist die folgende Begriffsbil-
wn WD y1 C ; y2 C ; : : : ; yk C ; n 2 N;
n n n dung nützlich.
306 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Hier sind die Mengen auf der rechten Seite paarweise disjunkt,
und A1 n B1 ist aufgrund der letzten Halbring-Eigenschaft ei-
ne endliche Vereinigung disjunkter Mengen aus H1 . In gleicher
Weise ist A2 n B2 eine endliche disjunkte Vereinigung von
Mengen aus H2 . Hieraus folgt die noch fehlende Halbring-
Eigenschaft für H1  H2 . 

Das nächste Ergebnis zeigt, dass man den von einem Halbring
erzeugten Ring konstruktiv angeben kann.
Kapitel 8

Satz über den von einem Halbring erzeugten Ring


Der von einem Halbring H  P .˝/ erzeugte Ring .H /
ist gleich der Menge aller endlichen Vereinigungen paar-
weise disjunkter Mengen aus H .
Abb. 8.4 Die eingeführten Mengensysteme im Überblick

Beweis Schreiben wir R für die Menge aller endlichen Ver-


Definition eines Halbrings einigungen paarweise disjunkter Mengen aus H , so ist
Ein Mengensystem H  P .˝/ heißt Halbring über ˝, .H / D R (8.4)
falls gilt:
; 2 H, zu zeigen. Da jeder H enthaltende Ring auch R umfasst, gilt
H ist \-stabil, „
“ in (8.4). Somit muss nur noch gezeigt werden, dass R ein
sind A; B 2 H , so gibt es ein k 2 N und paarweise Ring ist, da wegen H  R dann auch .H /  R gelten Pm würde.
disjunkte Mengen C1 ; : : : ; Ck aus H mit Wegen P ; 2 H gilt zunächst ; 2 R. Sind A D i D1 Ai und
B D jnD1 Bj disjunkte Vereinigungen von Mengen aus H , so
X
k P Pn
liegt A \ B D m j D1 Ai \ Bj als disjunkte Vereinigung
AnB D Cj : i D1 Pm
j D1 von
Pn Mengen aus H in R. Weiter gilt A n B D i D1 .Ai n
Bj /. Nach Aufgabe 8.32 ist für jedes i die Menge Ai n
Pn j D1
j D1 Bj disjunkte Vereinigung endlich vieler Mengen aus H .
Offenbar ist jeder Ring und somit erst recht jede Algebra oder 
-Algebra ein Halbring. Abb. 8.4 zeigt die eingeführten Men-
gensysteme in deren Hierarchie. Beispiel Der nach obigem Satz vom Halbring I k D
f.x; y j x; y 2 Rk ; x  yg erzeugte Ring
Beispiel Das System I k der halboffenen Intervalle .x; y mit
x  y ist ein Halbring über Rk . Dieser Sachverhalt ist für den 8 9
<X n ˇ =
Fall k D 1 unmittelbar einzusehen. Wegen I k D I 1      I 1 ˇ
F k WD Ij ˇn 2 N; I1 ; : : : ; In 2 I k paarweise disjunkt
(k Faktoren) folgt die Behauptung für allgemeines k aus dem : ;
j D1
nachstehenden Resultat. J
heißt Ring der k-dimensionalen Figuren. Abb. 8.5 zeigt eine
Lemma (über kartesische Produkte von Halbrin- solche Figur. J
gen) Es seien ˝1 ; : : : ; ˝k nichtleere Mengen und H1 
P .˝1 /; : : : ; Hk  P .˝k / Halbringe. Dann ist das System
H1      Hk WD fA1      Ak j Aj 2 Hj ; j D 1; : : : ; kg
ein Halbring über ˝1      ˝k . J

Beweis Es reicht, die Behauptung für k D 2 zu zeigen. Der


allgemeine Fall folgt dann induktiv. Zunächst gilt ; D ;  ; 2
H1  H2 . Sind A1  A2 und B1  B2 in H1  H2 , so ist wegen
.A1  A2 / \ .B1  B2 / D .A1 \ B1 /  .A2 \ B2 /
und der \-Stabilität von H1 und H2 auch H1  H2 \-stabil.
Weiter gilt
.A1  A2 / n .B1  B2 /
D ..A1 n B1 /  A2 / C ..A1 \ B1 /  .A2 n B2 //: Abb. 8.5 Zweidimensionale Figur
8.3 Inhalte und Maße 307

8.3 Inhalte und Maße Kommentar Man beachte, P dass bei der Additivitätseigen-
schaft gefordert wird, dass jnD1 Aj in M liegt, denn  ist ja
Im Folgenden wenden wir uns u. a. der Frage zu, für welche nur auf M definiert. Analoges gilt bei den Formulierungen der
Teilmengen des Rk ein k-dimensionaler Rauminhalt definiert -Additivität und der -Subadditivität.
werden kann, der den beim Inhalts- und Maßproblem in Abschn. Zum Nachweis der endlichen Additivität muss nur der Fall
8.1 formulierten Eigenschaften a), b0 ), c) und d) genügt. Im Hin- n D 2 betrachtet werden, wenn das Mengensystem M wie z. B.
blick auf andere Anwendungen, insbesondere in der Stochastik, ein Ring [-stabil oder – wie bei Dynkin-Systemen der Fall – zu-
führen wir den begonnenen abstrakten Aufbau weiter fort. Es ist mindest abgeschlossen gegenüber der Vereinigungsbildung von
jedoch hilfreich, bei den nachfolgenden Definitionen den oben endlich vielen paarweise disjunkten Mengen aus M ist. Ferner
angesprochenen Rauminhalt „im Hinterkopf zu haben“. Bevor ist unter den Zusatzvoraussetzungen ; 2 M und .;/ D 0 je-
wir fortfahren, sei an die in Abschn. 2.5 eingeführten Notatio- de -additive Mengenfunktion auf M auch endlich-additiv; man

Kapitel 8
nen muss die beim Nachweis der endlichen Additivität auftretenden
[
1 paarweise disjunkten Mengen A1 ; : : : ; An ja nur um Aj WD ;
An " A W() An  AnC1 ; n  1; und A D für j > n zu einer unendlichen Folge ergänzen. J
j D1

\
1
Beispiel Es seien ˝ WD N, M WD P .˝/ und
An # A W() An
AnC1 ; n  1; und A D
j D1 (
0; falls A endlich
für auf- bzw. absteigende Mengenfolgen erinnert. .A/ WD für A  ˝:
1; sonst

Dann ist  additiv, denn es gilt .A C B/ D .A/ C .B/ D 0


Ein Inhalt ist additiv, ein Prämaß  -additiv genau dann, wenn sowohl A als auch B endlich sind. Andern-
falls ist der obige Wert 0 durch 1 zu ersetzen. Wegen
Ist M  P .˝/, M ¤ ;, ein Mengensystem, so heißt jede Ab-
bildung  W M ! Œ0; 1 eine nichtnegative Mengenfunktion !
X1 X
1
(auf M). Da wir nur nichtnegative Mengenfunktionen betrach- 1 D .N/ D  fng ¤ .fng/ D 0
ten, werden wir dieses Attribut meist weglassen. nD1 nD1

ist  jedoch nicht -additiv. Setzen wir An WD f1; : : : ; ng, so


Grundlegende Eigenschaften von Mengenfunktionen gilt An " ˝ und .An / D 0, n  1. Die Mengenfunktion  ist
Eine Mengenfunktion  W M ! Œ0; 1 heißt somit -endlich, aber nicht endlich. Die Wahl An WD fng zeigt,
dass  nicht -subadditiv ist. J
(endlich-)additiv, falls für jedes n  2 und jede Wahl
P Mengen A1 ; : : : ; An aus M mit
paarweise disjunkter
der Eigenschaft jnD1 Aj 2 M gilt:
Inhalt, Prämaß, Maß und Maßraum
0 1
X n Xn Es sei H  P .˝/ ein Halbring. Eine Mengenfunktion
@ Aj A D .Aj /;  W H ! Œ0; 1 heißt Inhalt (auf H ), falls gilt:
j D1 j D1
a) .;/ D 0,
 -additiv, falls für jede Folge .An /n1 paarweise dis- b)  ist endlich-additiv.
P
junkter Mengen aus M mit der Eigenschaft j1D1 Aj 2 Ein -additiver Inhalt  auf H heißt Prämaß.
M gilt:
0 1 Ein Maß  ist ein auf einer -Algebra A über ˝ de-
X1 X1 finiertes Prämaß. In diesem Fall nennt man das Tripel
@ Aj A D .Aj /; .˝; A; / einen Maßraum. Letzterer heißt endlich bzw.
j D1 j D1  -endlich, falls  endlich bzw. -endlich ist.
 -subadditiv, S
falls für jede Folge .An /n1 von Men-
gen aus M mit j1D1 Aj 2 M gilt:
0 1 Kommentar Die Definition eines Inhalts formalisiert offen-
[1 X1 bar schon in Abschn. 8.1 diskutierte Mindestanforderungen,
 @ Aj A  .Aj /; die wir mit der anschaulichen Vorstellung des Messens verbin-
j D1 j D1 den würden: das Maß eines wie immer gearteten „Gebildes“,
das sich aus endlich vielen Teilgebilden zusammensetzt, sollte
endlich, falls .A/ < 1 für A 2 M, gleich der Summe der Maße dieser Teilgebilde sein. Die gegen-
 -endlich, falls eine aufsteigende Folge .An / aus M über der endlichen Additivität wesentlich stärkere Eigenschaft
mit An " ˝ und .An / < 1 für jedes n existiert. der -Additivität ist für eine fruchtbare Theorie unverzichtbar.
Hier kann sich ein Gebilde aus abzählbar vielen Teilgebilden
308 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

zu den bislang gemachten Konventionen die Regeln 1  1,


x < 1, x 2 R, 1  x D 1, x 2 R.

Satz über die Eigenschaften von Inhalten


Ein Inhalt  auf einem Halbring H  P .˝/ besitzt fol-
Abb. 8.6 Deutung des Maßes in (8.5) als Massenverteilung gende Eigenschaften:
a)  ist monoton, d. h., sind A; B 2 H mit A  B, so
zusammensetzen. Das Maß des Gebildes ergibt sich dann als folgt .A/  .B/.
Grenzwert der unendlichen Summe der Maße aller Teilgebil- paarweise disjunkte Mengen aus H
b) Sind A1 ; : : : ; AnP
Kapitel 8

de. Die schwache Zusatzeigenschaft der -Endlichkeit dient und A 2 H mit jnD1 Aj  A, so folgt
u. a. dazu, pathologische Mengenfunktionen, die nur die Wer-
te 0 und 1 annehmen, auszuschließen. Besitzt ein Maß  die X
n
Eigenschaft .˝/ D 1, so spricht man von einem Wahrschein- .Aj /  .A/:
lichkeitsmaß und schreibt P WD ; der Maßraum .˝; A; P / j D1
heißt dann Wahrscheinlichkeitsraum (siehe Kap. 2). J Sn
c) Sind A; A1 ; : : : ; An aus H mit A  j D1 Aj , so gilt
Beispiel
X
n
Ist A eine Menge, so bezeichnen wir mit jAj die Mächtigkeit .A/  .Aj /:
von A. Insbesondere ist dann jAj die Anzahl der Elemente j D1
einer endlichen Menge A. Ist ˝ ¤ ; eine beliebige Menge,
so wird durch die Festsetzung d)  ist -additiv ()  ist -subadditiv.
( e) Ist  ein Inhalt auf einem Ring R, so gilt für A; B 2 R
jAj; falls A endlich mit A  B und .A/ < 1
Z .A/ WD
1; sonst
.B n A/ D .B/  .A/ (Subtraktivität):
ein Maß auf P .˝/ definiert. Es heißt Zählmaß auf ˝.
f) Ist  ein endlicher Inhalt auf einem Ring R, so gilt: 
Es seien ˝ ¤ ; und A eine beliebige -Algebra über ˝.
ist genau dann -additiv und somit ein Prämaß, wenn 
Für festes ! 2 ˝ heißt das durch
in folgendem Sinn ;-stetig ist: Für jede Folge .An / von
( Mengen aus R mit An # ; gilt limn!1 .An / D 0.
1; falls ! 2 A
ı! .A/ WD A2A
0; sonst

Beweis a) Sind A; B 2 H mit A  B, so gilt nach Definiti-


definierte Maß ı! Dirac-Maß oder Einpunktverteilung in P
!. Es ist nach dem französischen Physiker und Mathematiker on eines Halbrings B D AC jkD1 Cj mit paarweise disjunkten
Paul Adrien Maurice Dirac (1902–1984) benannt. Mengen C1 ; : : : ; Ck aus H . Die Additivität und Nichtnegativi-
Sind n , n  1, Maße auf A sowie .bn /n1 eine Folge posi- tät von  liefern dann .B/  .A/.
tiver reeller Zahlen, so ist auch die durch P
b) Es gilt A D jnD1 Aj C A \ Ac1 \ : : : \ Acn . Nach Aufgabe
8.32 gibt es paarweise disjunkte Mengen C1 ; : : : ; Ck aus H mit
X
1 P P
.A/ WD bn  n .A/ (8.5) A \ Ac1 \ : : : \ Acn D jkD1 Cj ; es gilt also A D jnD1 Aj C
Pk
j D1 Cj . Dabei liegen alle rechts stehenden Mengen in H . Die
nD1
Additivität von  sowie .Cj /  0, 1  j  k, ergeben dann
definierte Mengenfunktion  ein Maß auf A. Hierbei wer- die behauptete Ungleichung.
den die naheliegenden Konventionen x  1 D 1  x D 1, S
x 2 R; x > 0 benutzt. Ist speziell n D ı!n das Dirac-Maß c) Wegen jnD1 Aj D A1 CA2 \Ac1 C: : :CAn \Ac1 \: : :\Acn1
S
im Punkt !n , so kann man sich das Maß  als Massenver- ergibt die Voraussetzung A  jnD1 Aj die Darstellung
teilung vorstellen, die in den Punkt !n die Masse bn legt
(Abb. 8.6). J A D A \ A1 C A \ A2 \ Ac1
C : : : C A \ An \ Ac1 \ : : : \ Acn1 :
Selbstfrage 7
Können Sie zeigen, dass es sich in diesen Fällen um Maße han- Aufgrund der \-Stabilität von H gehört A \ A1 zu H – und
delt? wiederum nach Aufgabe 8.32 – gilt für jedes j D 2; : : : ; n

X
mj

Die nachfolgenden Eigenschaften sind grundlegend im Umgang A \ Aj \ Ac1 \ ::: \ Ajc 1 D Cj ;m


mit Inhalten. Dabei verwenden wir für das Symbol 1 zusätzlich mD1
8.3 Inhalte und Maße 309

für ein mj 2 N und paarweise disjunkte Mengen Wir kehren nun zu unserer geometrischen Anschauung zu-
Cj ;1 ; : : : ; Cj ;mj 2 H . Zusammen mit A \ A1  A1 und rück und definieren auf dem Halbring I k D f.x; y j x D
Pmj
.x1 ; : : : ; xk /; y D .y1 ; : : : ; yk / 2 Rk ; x  yg durch
mD1 Cj ;m  Aj (j D 2; : : : ; n/ ergeben dann die Additivi-
tät von  zusammen mit b) und der in a) gezeigten Monotonie Y
n
von  die Behauptung. Ik ..x; y/ WD .yj  xj /
d) Es seien  -additiv und A1 ; A2 ; : : : eine Folge aus H mit j D1
S1 S1 P
j D1 Aj 2 H . Zu zeigen ist  j D1 Aj  j1D1 .Aj /. eine Funktion Ik W I k ! R. Die Funktion Ik heißt k-
Unter nochmaliger Verwendung von Aufgabe 8.32 gilt dimensionaler geometrischer Elementarinhalt; sie ordnet
einem achsenparallelen Quader .x; y das Produkt der Seiten-
[
1 X
1
längen als k-dimensionalen geometrischen Elementarinhalt zu.
Aj D A1 C Aj \ Ac1 \ : : : \ Ajc 1

Kapitel 8
Das folgende Resultat ist aufgrund unserer geometrischen An-
j D1 j D2
schauung nicht verwunderlich.
X
1 X
mj
D A1 C Cj ;m
j D2 mD1 Satz über den geometrischen Elementarinhalt auf Ik
mit mj 2 N und disjunkten Mengen Cj ;1 ; : : : ; Cj ;mj 2 H . Die Es existiert genau ein Inhalt Ik W F k ! R auf dem Ring
-Additivität von  ergibt F k der k-dimensionalen Figuren, der Ik fortsetzt, für den
0 1 " mj # also gilt:
[1 X
1 X  
 @ Aj A D .A1 / C  Cj ;m :
Ik .A/ D Ik .A/; A 2 Ik:
j D1 j D2 mD1
Pmj
Wegen mD1 Cj ;m  Aj folgt die Behauptung mit dem bereits
bewiesenen Teil b). Beweis In Aufgabe 8.33 wird allgemein bewiesen, dass ein
Es seien nun  -subadditivPund A1 ; A2 ; : : : paarweise dis- auf einem Halbring H definierter Inhalt eine eindeutige Fort-
junkte Mengen aus H mit j1D1 Aj 2 H . Zu zeigen ist setzung auf den erzeugten Ring .H / besitzt. Es ist also nur zu
P  P zeigen, dass Ik einen Inhalt auf dem Halbring I k darstellt, also
1
 j D1 Aj D j1D1 .Aj /. Wegen der -Subadditivität ist die Bedingung Ik .;/ D 0 erfüllt und endlich-additiv ist. We-
hierbei nur die Ungleichung
 „“ nachzuweisen. Nach Teil b) gen .x; x D ; ist nach Definition von Ik die erste Eigenschaft
P1 Pn gegeben. Zum Nachweis der Additivität von Ik stellen wir zu-
gilt  j D1 Aj  j D1 .Aj / für jedes n  1, sodass die
nächst eine Vorüberlegung an: Sind A WD .x; y 2 I k mit x < y
Behauptung für n ! 1 folgt.
und a 2 R mit xj < a < yj für ein j D 1; : : : ; k, so zerlegt die
e) folgt aus .B/ D .A/ C .B n A/ und .A/ < 1. durch
f) Es sei  -additiv. Ist dann .An / eine Folge von Mengen aus Hj .a/ WD fz D .z1 ; : : : ; zk / 2 Rk j zj D ag
R mit An # ;, so sind Bj WD Aj nPAj C1 , j  1, paarweise
disjunkte Mengen aus R mit A1 D j1D1 Bj . Wegen der End- definierte Hyperebene die Menge A in zwei disjunkte Mengen
lichkeit von  gilt .Bj / D .Aj /  .Aj C1 /, j  1, und die A1 D .x; y 0  und A2 D .x 0 ; y aus I k . Dabei gehen x 0 aus x und
-Additivität von  liefert y 0 aus y dadurch hervor, dass man jeweils die j -te Koordinate
in a ändert (Abb. 8.7 links).
X
1 X
n
.A1 / D .Bj / D lim ..Aj /  .Aj C1 // Nach Definition von Ik gilt dann Ik .A/ D Ik .A1 / C Ik .A2 /.
n!1
j D1 j D1 Induktiv ergibt sich jetzt
D .A1 /  lim .AnC1 / Ik .A/ D Ik .A1 / C : : : C Ik .An /; (8.6)
n!1

und folglich limn!1 .An / D 0. wenn eine Menge A 2 I k mithilfe endlich vieler Hyperebe-
Es sei nun  als ;-stetig angenommen. Wir betrachten eine be- nen der oben beschriebenen Art in paarweise disjunkte Mengen
liebige Folge paarweise disjunkter Mengen A1 ; A2 ; : : : aus R A1 ; : : : ; An 2 I k zerlegt wird.
P
mit der Eigenschaft A WD j1D1 Aj 2 R. Setzen wir Bn WD
Pn
j D1 Aj , n  1, so gilt Cn WD A n Bn 2 R, n  1, sowie
Cn # ;. Die ;-Stetigkeit und die endliche Additivität von 
ergeben dann
0 D lim .Cn / D lim ..A/  .Bn//
n!1 n!1
X
1
D .A/  lim .Bn / D .A/  .An /;
n!1
nD1

also die -Additivität von .  Abb. 8.7 Aufspaltung einer Menge aus I 2 durch Hyperebenenschnitte
310 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Es seien nun A1 ; : : : ; An paarweise disjunkte und ohne Be- Dass Cn ¤ ; für jedes n  1 gilt, zeigen wir durch den Nach-
Pn nichtleerek Mengen aus I mit
k
schränkung der Allgemeinheit weis der Ungleichungen
der Eigenschaft A WD A 2 I . Wir behaupten die
Pj D1 j Ik .Cn /  Ik .An /  ".1  2n /; n  1: (8.8)
Gültigkeit von Ik .A/ D jnD1 Ik .Aj /, womit Ik als endlich-
additiv nachgewiesen wäre. Hierzu sei Aj DW .uj ; vj  mit uj D n
Wegen Ik .An /  " würde dann Ik .Cn /  "=2 > 0 und so-
.uj 1 ; : : : ; uj k / und vj D .vj 1 ; : : : ; vj k /. Indem man die Menge mit die noch fehlende Aussage Cn ¤ ;, n  1, folgen. Der
A mit allen Hyperebenen Hi .uj i / und Hi .vj i / (i D 1; : : : ; k, Nachweis von (8.8) erfolgt durch Induktion über n, wobei der
j D 1; : : : ; n/ schneidet, zerfällt A in endlich viele paarwei- Induktionsanfang n D 1 wegen C1 D B1 mit (8.7) erbracht ist.
se disjunkte Mengen B1 ; : : : ; Bm 2 I k (siehe Abb. 8.7 rechts, Wir nehmen nun (8.8) für ein n an und beachten, dass wegen
im dortigen Beispiel ist n D 5 und m D 9). Jede der Mengen CnC1 D BnC1 \ Cn nach Aufgabe 8.25 die Beziehung
A1 ; : : : ; An spaltet sich in gewisse dieser B1 ; : : : ; Bm auf. Ver-
Kapitel 8

wendet man die in Gleichung (8.6) mündende Vorüberlegung Ik .CnC1 / D Ik .BnC1 / C Ik .Cn /  Ik .BnC1 [ Cn /
für A und jedes einzelne Aj , so folgt die Behauptung. 
besteht. Nach (8.7) gilt Ik .BnC1 /  Ik .AnC1 /  "=2nC1 , und
BnC1 [ Cn  AnC1 [ An D An hat Ik .BnC1 [ Cn /  Ik .An /
Im Hinblick auf die Existenz eines Maßes auf einer geeigneten
zur Folge – da  monoton ist. Zusammen mit der Induktions-
-Algebra A
F k , das den Inhalt Ik fortsetzt, ist folgender
voraussetzung folgt
Sachverhalt entscheidend:
 
" 1
Ik .CnC1 /  Ik .AnC1 /  nC1 C Ik .An /  " 1  n  Ik .An /
2 2
Satz (Borel 1894)  
1
D Ik .AnC1 /  " 1  nC1 ;
Der Inhalt Ik auf F k ist -additiv, also ein Prämaß. 2
was zu zeigen war. 

Beweis Da Ik endlich ist, müssen wir nach Eigenschaft f)


eines Inhalts nur die ;-Stetigkeit von Ik nachweisen. Sei hier- Satz über die Eigenschaften von Maßen
zu .An / eine Folge aus I k mit An # ;. Zu zeigen ist Ist .˝; A; / ein Maßraum, so besitzt  die folgenden Ei-
limn!1 Ik .An / D 0. Wir führen den Beweis durch Kontraposi- genschaften: Dabei sind A; B; A1 ; A2 ; : : : Mengen aus A.
tion, nehmen also P 
n
a)  ist endlich-additiv, d. h., es gilt  j D1 Aj D
" WD lim Ik .An / D inf Ik .An / > 0 Pn
n!1 n1 j D1 .A j / für jedes n  2 und jede Wahl paarweise
disjunkter Mengen A1 ; : : : ; An ;
T
an und zeigen 1 nD1 An ¤ ;, was ein Widerspruch zu An # ;
b)  ist monoton, d. h., es gilt A  B H) .A/  .B/,
wäre. Da An disjunkte Vereinigung endlich vieler Mengen aus c)  ist subtraktiv, d. h., es gilt A  B und .A/ <
I k ist, kann man durch eine naheliegende Verkleinerung dieser 1 H) .B n A/ D .B/  .A/,  
S1
Mengen „von links unten her“ eine Figur Bn 2 F k mit den d)  ist  -subadditiv, d. h., es gilt  j D1 Aj 
Eigenschaften P1
j D1 .Aj /,
" e)  ist stetig von unten, d. h., es gilt An " A H)
B n  An ; Ik .Bn /  Ik .An /  (8.7) .A/ D limn!1 .An /,
2n
f)  ist stetig von oben, d. h., es gilt An # A und .A1 / <
erhalten. Dabei bezeichne allgemein B die abgeschlossene Hül- 1 H) .A/ D limn!1 .An /.
le einer Menge B  Rk . Setzen wir Cn WD B1 \ : : : \ Bn ,
so ist .Cn / eine Folge aus F k mit Cn
CnC1 , n  1, und
C n  B n  An , n  1. Die Mengen C1 ; C2 ; : : : sind ab- Achtung Für die Stetigkeit von unten vereinbaren wir, dass
geschlossen und beschränkt, sodass mit .Cn / eine absteigende für eine Folge .an / mit 0  an  anC1  1, n 2 N,
Folge kompakter Mengen vorliegt. limn!1 an WD 1 gesetzt wird, falls entweder an D 1 für min-
T destens ein n gilt oder andernfalls die (dann) reelle Folge .an /
Nach dem Cantorschen Durchschnittssatz muss 1 nD1 Cn ¤ ;
gelten, falls jedes Cn nichtleer ist. Zum Beweis dieses Satzes unbeschränkt ist. J
wählen wir aus jedem Cn ein xn . Da Cn Teilmenge der be-
schränkten Menge C1 ist, ist .xn / eine beschränkte Folge in Rk , Beweis Dass die -Additivität die endliche Additivität im-
die nach dem Satz von Bolzano-Weierstraß eine konvergente pliziert, wurde schon angemerkt. Die Behauptungen b) bis d)
Teilfolge .xTn` /`1 besitzt, deren Grenzwert
T1mit x bezeichnet sei. ergeben sich aus dem Satz über die Eigenschaften von Inhalten.
Es gilt x 2 1 nD1 Cn und folglich x 2 nD1 An , denn für jedes Zum Nachweis von e) kann der Beweis von Teil a) des Satzes
feste m 2 N gibt es ein ` mit n`  m und somit xni 2 Cn`  Cm über die Stetigkeit von unten eines Wahrscheinlichkeitsmaßes
für jedes i  `. Wegen xni ! x für i ! 1 gilt x 2 Cm . Da m aus Abschn. 2.5 wörtlich übernommen werden; man muss nur
beliebig war, folgt die Behauptung. stets P durch  ersetzen.
8.3 Inhalte und Maße 311

Um f) zu zeigen, beachte man, dass aus An # A die Konvergenz .M/, und wir erhalten A D .M/  DB , also insbesondere
A1 n An " A1 n A folgt. Die bereits bewiesenen Teile e) und c) A  DMn für jedes n. Wegen A \ Mn " A, A 2 A, liefert die
liefern dann wegen .A1 / < 1 Stetigkeit von unten

.A1 /  .A/ D .A1 n A/ 1 .A/ D lim 1 .A \ Mn / D lim 2 .A \ Mn / D 2 .A/;


n!1 n!1
D lim .A1 n An /
n!1 A 2 A, was zu zeigen war. 
D lim Œ.A1 /  .An /
n!1 Video 8.4 Der Eindeutigkeitssatz für Maße
D .A1 /  lim .An /
n!1

Kapitel 8
und somit die Behauptung.

Das nachfolgende Beispiel zeigt, dass auf die Voraussetzung


.A/ < 1 in f) nicht verzichtet werden kann.
Die -Algebra Bk der Borel-Mengen im Rk besitzt u. a. den
\-stabilen Erzeuger I k . Im Hinblick auf unser eingangs for-
Beispiel Es seien ˝ WD N, A WD P .˝/, .A/ WD jAj, falls muliertes Problem, möglichst vielen Teilmengen des Rk ein
A endlich, und .A/ WD 1 sonst, sowie An WD fn; n C 1; n C k-dimensionales Volumen zuzuordnen, ergibt sich wegen der
2; : : :g. Dann gilt An # ;, aber .An / D 1 für jedes n. J Q
Endlichkeit des geometrischen Elementarinhalts jkD1 .yj  xj /
eines Quaders .x; y 2 I k und der Konvergenz .n; nk " Rk
bei n ! 1 aus dem Eindeutigkeitssatz:
Ein auf einem \-stabilen Erzeuger M von A
 -endliches Maß ist durch seine Werte auf M Folgerung Es gibt (wenn überhaupt) nur ein Maß  auf Bk
festgelegt mit

Bevor wir uns dem Problem widmen, ein auf einem Halbring H Y
k
..x; y/ D .yj  xj /; .x; y 2 I k : J
definiertes Prämaß auf die erzeugte -Algebra fortzusetzen, soll
j D1
der Frage nachgegangen werden, inwieweit eine solche Fort-
setzung, sofern sie denn existiert, eindeutig bestimmt ist. Eine
Antwort hierauf gibt der folgende Satz. Die entscheidende Idee, wie ein auf einem Halbring H defi-
niertes Prämaß  auf die erzeugte -Algebra .H / fortgesetzt
werden kann, besteht darin, in zwei Schritten vorzugehen. Da-
Eindeutigkeitssatz für Maße bei ist man zunächst ganz unbescheiden und erweitert  auf
die volle Potenzmenge von ˝. Natürlich kann man nicht hof-
Es seien ˝ ¤ ;, A eine -Algebra über ˝, M  P .˝/ fen, dass die so entstehende Mengenfunktion -additiv, also ein
ein \-stabiler Erzeuger von A und 1 sowie 2 Maße auf Maß ist, aber sie besitzt als sog. äußeres Maß gewisse wün-
A, die auf M übereinstimmen, für die also schenswerte Eigenschaften. In einem zweiten Schritt schränkt
man sich dann hinsichtlich des Definitionsbereichs wieder ein,
1 .M / D 2 .M /; M 2 M; erhält dafür aber ein Maß, das  fortsetzt. Dabei ist der Defini-
tionsbereich dieses Maßes hinreichend reichhaltig, um die von
gilt. Gibt es eine aufsteigende Folge Mn " ˝ von Mengen H erzeugte -Algebra zu umfassen.
aus M mit der Eigenschaft

1 .Mn / .D 2 .Mn // < 1; n 2 N; Definition eines äußeren Maßes

so folgt 1 D 2 . Eine Mengenfunktion  W P .˝/ ! Œ0; 1 heißt äußeres


Maß, falls gilt:
 .;/ D 0,

ausA  B folgt P .A/   .B/ (Monotonie),
Beweis Zu einer beliebigen Menge B 2 M mit 1 .B/ D S 1 1
 
2 .B/ < 1 setzen wir  j D1 Aj  j D1  .Aj / .A1 ; A2 ; : : :  ˝/
(-Subadditivität).
DB WD fA 2 A j 1 .B \ A/ D 2 .B \ A/g:

Nachrechnen der definierenden Eigenschaften zeigt, dass DB Ein äußeres Maß besitzt also die gegenüber einem Maß schwä-
ein Dynkin-System ist (Aufgabe 8.14). Wegen der Gleichheit cheren – weil aus der -Additivität folgenden – Eigenschaften
von 1 und 2 auf M und der \-Stabilität von M gilt M  der Monotonie und -Subadditivität. Dafür ist es aber auf jeder
DB und somit ı.M/  DB . Da M \-stabil ist, gilt ı.M/ D Teilmenge von ˝ definiert.
312 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

A  B jede B überdeckende Folge aus M auch A überdeckt,


also U.B/  U.A/ gilt. Zum Nachweis der -Subadditivität
von  kann o.B.d.A.  .An / < 1 für jedes n angenommen
werden. Nach Definition von  existiert dann zu beliebig vor-
gegebenem " > 0Sfür jedes n eine Folge .Bn;k /k1 von Mengen
aus M mit An  1 kD1 Bn;k und

X
1
"
.Bn;k /   .An / C ; n  1:
2n
kD1

Abb. 8.8 Eine endliche Überdeckungsfolge aus I 2 für die Menge A aus S Doppelfolge .Bn;k /n;k1 eine Überdeckungsfolge aus M
Da die
Kapitel 8

Abb. 8.2 links für 1nD1 An darstellt, ergibt sich


!
[
1 X1 X 1 X
1

 An  .Bn;k /   .An / C ":
Beispiel
nD1 nD1 kD1 nD1
Jedes Maß auf P .˝/ ist ein äußeres Maß.
Weil " > 0 beliebig war, folgt die Behauptung. 
Es sei  .A/ WD 0, falls A  ˝ abzählbar, und sonst
 .A/ WD 1. Dann ist  ein äußeres Maß. Dabei ist ˝ ¤ ; Video 8.5 Äußeres Maß
beliebig.
Es sei ˝ D Rk und  .A/ WD 0, falls A  Rk eine be-
schränkte Menge ist, sowie  .A/ WD 1 sonst. Dann ist 
kein äußeres Maß auf P .Rk /, da  nicht -subadditiv ist.
Zum Nachweis merken wir an, dass Qk DW fq1 ; q2 ; : : :g
eine abzählbare unbeschränkte Menge ist, wohingegen je-
de einelementige Menge fqj g beschränkt ist. Es folgt 1 D
P P
 .Qk / D  . j1D1 fqj g/ > 0 D j1D1  .fqj g/, was der Ein äußeres Maß ist auf der  -Algebra der
-Subadditivität widerspricht. J  -messbaren Mengen ein Maß
Die Namensgebung äußeres Maß wird durch die in der nach-
folgenden Definition beschriebene Vorgehensweise verständlich Das folgende, auf den Mathematiker und Physiker Constantin
und ist im Abb. 8.8 illustriert. Carathéodory (1873–1950) zurückgehende Lemma zeigt, dass
ein äußeres Maß nach Einschränkung auf eine geeignete -
Algebra zu einem Maß führt.
Definition des von einer Mengenfunktion induzierten
äußeren Maßes Lemma (von Carathéodory) Für ein äußeres Maß  W
P .˝/ ! Œ0; 1 bezeichne
Es seien M  P .˝/ ein Mengensystem mit ; 2 M und
 W M ! Œ0; 1 eine Mengenfunktion mit .;/ D 0. Für A. / WD fA  ˝ j  .A \ E/ C  .Ac \ E/
A  ˝ bezeichne D  .E/ 8E  ˝g
[
1
das System der sog.  -messbaren Mengen. Dann gelten:
U.A/ WD f.An /n2N j An 2 M 8n  1; A  An g
nD1
a) A. / ist eine -Algebra über ˝,
b) die Restriktion von  auf A. / ist ein Maß. J
die (unter Umständen leere) Menge alle Überdeckungs-
folgen von A durch Mengen aus M. Dann wird durch die Beweis a) Nach Konstruktion enthält A. / mit jeder Men-
Festsetzung ge auch deren Komplement, und es gilt ˝ 2 A. /. Wir
zeigen zunächst, dass A. / [-stabil (und damit wegen der
(1 )
X ˇ Komplement-Stabilität auch \-stabil) ist. Gehören A und B zu
 ˇ
 .A/ WD inf .An /ˇ.An /n2N 2 U.A/ ; A. /, gelten also
nD1
 .A \ E/ C  .Ac \ E/ D  .E/ 8E  ˝; (8.9)
falls U.A/ ¤ ;, und  .A/ WD 1 sonst, ein (durch

 .B \ E/ C  .B c \ E/ D  .E/ 8E  ˝; (8.10)
„Approximation von außen“ gewonnenes) äußeres Maß
definiert, das auch als das von  induzierte äußere Maß so ersetzen wir die beliebige Menge E in (8.10) zum einen
bezeichnet wird. durch A \ E, zum anderen durch Ac \ E und erhalten
 .A \ B \ E/ C  .A \ B c \ E/ D  .A \ E/ und
 .Ac \ B \ E/ C  .Ac \ B c \ E/ D  .Ac \ E/

Beweis Wegen ; 2 M und .;/ D 0 gilt  .;/ D 0.
Die Monotonie von  folgt aus der Tatsache, dass im Fall für alle E  ˝.
8.3 Inhalte und Maße 313

Setzt man diese Ausdrücke in (8.9) ein, so folgt Jedes Prämaß auf einem Halbring H lässt sich
 
 .E/ D  .A \ B \ E/ C  .A \ B \ E/  c auf die  -Algebra  .H / fortsetzen
C  .Ac \ B \ E/ C  .Ac \ B c \ E/ Die Definition der  -Messbarkeit einer Menge A besagt, dass
A und Ac jede Teilmenge von ˝ in zwei Teile zerlegen, auf
für jedes E  ˝ und somit – indem man hier E durch .A [ denen sich  additiv verhält. Aus diesem Grund wird das
B/ \ E ersetzt – auch System A. / häufig auch als Gesamtheit der additiven Zer-
leger zu  bezeichnet. Die Bedeutung der -Algebra A. /
 .E \ .A [ B//
zeigt sich im Beweis des nachstehenden grundlegenden Maß-
D  .A \ B \ E/ C  .A \ B c \ E/ C  .Ac \ B \ E/ Fortsetzungssatzes.
(8.11)

Kapitel 8
für jedes E  ˝. Aus den beiden letzten Gleichungen ergibt Maß-Fortsetzungssatz
sich jetzt
Es seien H  P .˝/ ein Halbring und  W H ! Œ0; 1
 ..A [ B/ \ E/ C  ..A [ B/c \ E/ D  .E/ 8E  ˝ ein Prämaß. Dann existiert mindestens ein Maß e
 auf
.H / mit
.A/ D e.A/; A 2 H:
und somit wie behauptet A [ B 2 A. /.
Ist  -endlich, so ist e
 eindeutig bestimmt.

Wir zeigen jetzt, dass A. / mit einer Folge paarweise


P1 dis-
junkter Mengen A1 ; A2 ; : : : auch deren mit A WD j D1 Aj Beweis Es seien  das von  induzierte äußere Maß und
bezeichnete Vereinigung enthält, also ein Dynkin-System ist. A. / die -Algebra der  -messbaren Mengen. Wir behaup-
Wegen der \-Stabilität
P ist dann A. / eine -Algebra. Setzen ten zunächst, dass jede Menge aus H  -messbar ist, also
wir kurz Bn WD jnD1 Aj , so folgt aus (8.11) mithilfe vollstän- H  A. / gilt. Seien hierzu A 2 H und E  ˝ beliebig.
diger Induktion über n Aufgrund der -Subadditivität von  ist nur
X
n
 .A \ E/ C  .Ac \ E/   .E/
 .Bn \ E/ D  .Aj \ E/ 8E  ˝ 8n  1:
j D1 zu zeigen, wobei o.B.d.A.  .E/ < 1 angenommen werden
kann. Nach Definition von  gibt
S es zu beliebigem " > 0 eine
Da Bn nach dem bereits Gezeigten in A. / liegt und  mo- Folge .An /n1 aus H mit E  1 nD1 An und
noton ist, ergibt sich somit
X
1
.An /   .E/ C ": (8.13)
 .E/ D  .Bn \ E/ C  .Bnc \ E/
nD1
X
n
  .Aj \ E/ C  .Ac \ E/ Da H ein Halbring ist, liegt für jedes n  1 die Menge Bn WD
j D1
A \ An in H , und zu jedem n existieren paarweise disjunkte
Mengen Cn;1 ; Cn;2 ; : : : ; Cn;mn aus H mit
für jedes n  1, also auch X
mn
An \ Ac D An n Bn D Cn;k ;
X
1
   c kD1
 .E/   .Aj \ E/ C  .A \ E/ 8E  ˝: (8.12)
j D1 also
X
mn

Die -Subadditivität von  liefert dann An D Bn C Cn;k : (8.14)
kD1
 .E/   .A \ E/ C  .Ac \ E/ 8E  ˝: S S1 Pmn
Wegen A \ E  1 c
nD1 Bn , A \ E  nD1 kD1 Cn;k er-
gibt sich unter Verwendung der Definition von  , des großen
Wegen E D A \ E C Ac \ E C ; C ; C : : : und der -
Umordnungssatzes für Reihen sowie (8.14) und der endlichen
Subadditivität von  gilt hier auch „“, also insgesamt
Additivität von 
X 1 X
1 X mn
 .A \ E/ C  .Ac \ E/ D  .E/ 8E  ˝  .A \ E/ C  .Ac \ E/  .Bn / C .Cn;k /
nD1 nD1 kD1
und somit A 2 A. /, was zu zeigen war. " #
X1 Xmn

b)
P1 Setzen wir in (8.12) speziell E D A, so folgt  .A/  D .Bn/ C .Cn;k /

Zusammen mit der -Subadditivität von  gilt
j D1  .Aj /. P nD1 kD1
also  .A/ D j1D1  .Aj /, was die -Additivität von  auf

X1

A. / zeigt. Also ist die Restriktion von  auf die -Algebra D .An /:
A. / ein Maß.  nD1
314 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Da " in (8.13) beliebig war, folgt H  A. / und – weil


A. / eine -Algebra ist – auch .H /  A. /. Es bleibt
somit nur die Gleichheit

 .A/ D .A/; A 2 H; (8.15)

zu zeigen. Dann wäre nämlich die Restriktion von  auf .H /


eine gesuchte Fortsetzung e. Da .A; ;; ;; : : :/ eine Überde-
ckungsfolge von A durch Mengen aus H ist, gilt  .A/ 
.A/, sodass nur  .A/  .A/ (A 2 H ) nachzuweisen ist. Abb. 8.9 Graph einer maßdefinierenden Funktion
Diese Ungleichung folgt aber aufgrund der -Subadditivität und
S1 aus der für eine beliebige Folge .An /n1 aus
Monotonie von
Kapitel 8

H mit A  nD1 An gültigen Ungleichungskette Zu jeder maßdefinierenden Funktion gehört


! genau ein Maß auf der Borel- -Algebra B
[
1 X1 X1
.A/ D  .A \ An /  .A \ An /  .An /:
nD1 nD1 nD1
Als weitere Anwendung des Maß-Fortsetzungssatzes betrachten
wir das Problem der Konstruktion von Maßen auf der Borel-
Die Eindeutigkeit der Fortsetzung im Falle der -Endlichkeit schen -Algebra B.
von  ergibt sich unmittelbar aus dem Eindeutigkeitssatz für
Maße. 
Definition einer maßdefinierenden Funktion
Weil der geometrische Elementarinhalt Ik ein Prämaß auf dem
Ring F k der k-dimensionalen Figuren darstellt und F k die Bo- Eine Funktion G W R ! R heißt maßdefinierende Funk-
relsche -Algebra Bk erzeugt, können wir im Hinblick auf das tion, falls gilt:
eingangs gestellte Inhalts- und Maßproblem das folgende wich- aus x  y folgt G.x/  G.y/; x; y 2 R,
tige Ergebnis festhalten: G ist rechtsseitig stetig.
Gilt zusätzlich
Existenz und Eindeutigkeit des Borel-Lebesgue-Maßes
limx!1 G.x/ D 1 und limx!1 G.x/ D 0,
Es gibt genau ein Maß k auf der Borelschen -Algebra so heißt G Verteilungsfunktion.
Bk mit der Eigenschaft

Y
k
k ..x; y/ D .yj  xj /; .x; y 2 I k : Abb. 8.9 zeigt, dass eine maßdefinierende Funktion Unstetig-
j D1 keitsstellen und auch Konstanzbereiche besitzen kann. Wegen
der (schwachen) Monotonie können Unstetigkeitsstellen nur
Dieses Maß heißt Borel-Lebesgue-Maß im Rk . Sprungstellen von G sein.
Der nachstehende Satz rechtfertigt die Begriffsbildung maßde-
finierende Funktion. Er zeigt, dass zu jeder solchen Funktion G
Durch das Borel-Lebesgue-Maß k wird in zufriedenstellender genau ein Maß auf der Borelschen -Algebra B korrespondiert,
Weise das Problem gelöst, möglichst vielen Teilmengen des Rk das jedem Intervall .x; y mit x < y den Wert G.y/  G.x/
ein k-dimensionales Volumen (k D 1: Länge, k D 2: Fläche) zuordnet. Als wichtiger Spezialfall wird sich auf anderem Wege
zuzuordnen, zumal wir im nächsten Abschnitt sehen werden, das Borel-Lebesgue-Maß auf B ergeben.
dass k bewegungsinvariant ist. Hintergrundinformationen über
k im Zusammenhang mit dem Lebesgue-Maß und dem Jordan-
Inhalt finden sich in einer Hintergrund-und-Ausblick-Box. Satz über maßdefinierende Funktionen
Ist G eine maßdefinierende Funktion, so existiert genau
Folgerung Sind A0 2 Bk eine Borel-Menge und Bk0 WD A0 \
ein Maß G auf der Borelschen -Algebra B mit
Bk  P .A0 / die in (8.1) eingeführte Spur--Algebra von Bk in
A0 , so definiert man über die Festsetzung G ..a; b/ D G.b/  G.a/ 8.a; b 2 I 1 : (8.16)
Ak 0 .B/ k
WD  .B/; B2 Bk0 ;
Dieses Maß ist -endlich. Ist G eine Verteilungsfunktion,
das Borel-Lebesgue-Maß auf Bk0 .
Man beachte, dass auf diese so ist G ein Wahrscheinlichkeitsmaß.
Weise aus .Rk ; Bk ; k / der neue Maßraum .A0 ; Bk0 ; Ak 0 / ent- Das Maß G heißt zu Ehren der Mathematiker Henri Léon
steht. Ein wichtiger Spezialfall ergibt sich, wenn k .A0 / D 1 Lebesgue (1875–1941) und Thomas Jean Stieltjes (1856–
gilt. In diesem Fall ist Ak 0 ein Wahrscheinlichkeitsmaß auf Bk0 , 1894) Lebesgue-Stieltjes-Maß zu G.
die sog. Gleichverteilung auf A0 . J
8.3 Inhalte und Maße 315

Hintergrund und Ausblick: Borel-Lebesgue-Maß, Lebesgue-Maß und Jordan-Inhalt

Das Lebesgue-Maß ist die Vervollständigung von k , der A durch


Jordan-Inhalt arbeitet mit endlichen Überdeckungen aus F k .
.A/ WD supf.B/ j B 2 A; B  Ag;
Obgleich mit dem Borel-Lebesgue-Maß k in zufrieden-
stellender Weise das Problem gelöst wird, allen praktisch so ist  ein Maß, das  fortsetzt, und der Maßraum
wichtigen Teilmengen des Rk ein k-dimensionales Volumen .˝; A ; / ist vollständig (siehe Aufgabe 8.28).
zuzuordnen, fragt man sich, ob k nicht auf eine -Algebra
Das Lebesgue-Maß k ist die Vervollständigung von k . Ei-
A
Bk fortgesetzt werden kann. Dies trifft in der Tat zu.
ne Menge A  Rk ist nach obiger Konstruktion genau dann

Kapitel 8
Bei der Fortsetzung eines Prämaßes  auf einem Halbring
Lebesgue-messbar, wenn es Borel-Mengen E und F mit
H zu einem Maß auf .H / war ja in einem ersten Schritt
E  A  F und k .F n E/ D 0 gibt. Ein Vorteil des
ein äußeres Maß  auf der Potenzmenge von ˝ konstru-
Borel-Lebesgue-Maßes gegenüber k besteht darin, dass die
iert worden. Danach wurde  auf die -Algebra A. /
-Algebra Bk „näher an der Topologie des Rk ist“, da sie
der  -messbaren Mengen eingeschränkt und erwies sich
von den offenen Mengen erzeugt wird.
dort als Maß. Im Beweis des Maß-Fortsetzungssatzes wur-
de die Beziehung .H /  A. / gezeigt. Hier erhebt Wir merken noch an, dass jede der Inklusionen Bk  Lk und
sich die natürliche Frage: Um wie viel ist A. / größer Lk  P .Rk / strikt ist.
als .H /?
Aus historischer Sicht gab es vor den bahnbrechenden Ar-
Im Fall des geometrischen Elementarinhalts  WD Ik auf beiten von Borel und Lebesgue eine Axiomatik der Volu-
F k heißt das Mengensystem A. / die -Algebra der menmessung im Rk , die sich auf den nach dem französi-
Lebesgue-messbaren Mengen im Rk . Sie wird mit Lk be- schen Mathematiker Camille Jordan (1838–1922) benannten
zeichnet. Die als k notierte Einschränkung von  auf Lk Jordan-Inhalt gründete.
heißt Lebesgue-Maß im Rk . Ist allgemein  ein Inhalt auf einem Ring R  P .˝/, so
Wegen B  L ist das Lebesgue-Maß
k k
k
eine Fortsetzung nennt man eine Menge A  ˝ Jordan-messbar, wenn es
von k auf die -Algebra Lk . Eine wichtige Eigenschaft, zu jedem " > 0 Mengen E; F aus R mit E  A  F und
die das Lebesgue-Maß gegenüber k auszeichnet, ist seine .F n E/ < " gibt. Das System R dieser Mengen ist ein
Vollständigkeit. Dabei heißt ein Maß  auf einer -Algebra Ring, der R enthält, und durch
A  P .˝/ vollständig, falls gilt: Ist A 2 A eine Menge
 .A/ WD supf.B/ j B  A; B 2 Rg
mit .A/ D 0 (eine sog. -Nullmenge), und ist B  A,
so gilt B 2 A. In diesem Fall spricht man auch von einem wird eine eindeutig bestimmte additive Fortsetzung von 
vollständigen Maßraum. In einem solchen Maßraum sind auf R definiert. Der oben genannte Jordan-Inhalt entsteht,
also Teilmengen von -Nullmengen stets messbar und damit
wenn man den Elementarinhalt Ik auf dem Ring F k der
wegen der Monotonie von  auch -Nullmengen.
k-dimensionalen Figuren betrachtet. Eine Menge A  Rk
Ist A 2 Lk eine Lebesgue-messbare Menge mit k .A/ D 0, ist Jordan-messbar, wenn sie anschaulich gesprochen „be-
und ist B  A eine beliebige Teilmenge von A, so gilt nach liebig genau zwischen zwei Figuren passt“. Insbesondere
Aufgabe 8.27 auch B 2 Lk . Das Lebesgue-Maß ist somit ist jede Jordan-messbare Teilmenge A des Rk beschränkt,
vollständig. und es gibt Borel-Mengen B und C mit B  A  C
und k .C n B/ D 0. Man beachte, dass die Menge A WD
Jeder Maßraum .˝; A; / lässt sich wie folgt vervollstän- Qk \ .0; 1k zwar Borel-, aber nicht Jordan-messbar ist. Als
digen: Das Mengensystem A WD fA  ˝ j 9E; F 2 abzählbare Menge gehört A zu Bk , die kleinste Figur, die A
A mit E  A  F und .F n E/ D 0g ist eine A enthal- enthält, ist .0; 1k , die größte in A enthaltene Figur jedoch die
tende -Algebra. Die Mengen aus A liegen also sämtlich leere Menge. An diesem Beispiel ersieht man den entschei-
zwischen zwei Mengen aus A, deren Differenz eine - denden Fortschritt, der mit dem Übergang zu -additiven
Nullmenge bildet. Definiert man eine Mengenfunktion  auf Mengenfunktionen auf -Algebren verbunden war!
316 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Beweis Durch (8.16) wird auf dem Halbring I 1 über R eine Mit Teil c) des Satzes über die Eigenschaften von Inhalten und
nichtnegative Mengenfunktion mit G .;/ D 0 (D G ..x; x/) (8.18) ergibt sich
definiert. Diese ist endlich-additiv und folglich ein Inhalt, denn
sind A1 ; : : : ; An paarweise disjunkte Mengen aus I 1 mit A WD X
m X
1
"
P n G .e
A/  G .e
An /  G .An / C ;
j D1 Aj DW .x; y 2 I , wobei x < y, so gilt nach eventueller
1
nD1 nD1
2
Umnummerierung Aj D .xj ; yj , wobei x1 D x, yn D y und
xj C1 D yj , 1  j  n  1. Ein Teleskopeffekt liefert dann wie sodass (8.17) die Behauptung liefert, da " > 0 beliebig war.
behauptet Die Eindeutigkeit von G folgt aus dem Eindeutigkeitssatz für
Maße. 
X
n
  X n
 
G Aj D G.yj /  G.xj / D G.y/  G.x/ Selbstfrage 8
Kapitel 8

j D1 j D1 Warum ist G -endlich?


0 1
X
n
D G @ Aj A :
j D1 Beispiel
Das zur maßdefinierenden Funktion G.x/ WD x, x 2 R,
Um den Maß-Fortsetzungssatz anwenden zu können, bleibt korrespondierende Lebesgue-Stieltjes-Maß G auf B ordnet
nur zu zeigen, dass G -additiv und somit ein Prämaß ist. jedem Intervall .x; y mit x < y dessen Länge y  x D
Letzteres ist wegen der Äquivalenz von -Additivität und - G.y/  G.x/ als Maß zu, stimmt also auf dem System I 1
Subadditivität eines Inhalts äquivalent zur -Subadditivität von mit dem Borel-Lebesgue-Maß 1 überein. Nach dem Ein-
G . Seien hierzu
S An D .xn ; yn , n  1, eine Folge aus I 1 mit deutigkeitssatz für Maße gilt G D 1 . Wir haben also auf
; ¤ A WD 1 1
nD1 An DW .x; y 2 I sowie " > 0 beliebig. Zu anderem Wege die Existenz des Borel-Lebesgue-Maßes im
zeigen ist R1 nachgewiesen.
Durch 8
X
1
ˆ
G .A/  G .An / C ": <0; falls x < 0
nD1
H .x/ WD x; falls 0  x  1
:̂1; falls x > 1
Die bewiesene endliche Additivität von G erlaubt aber nach
Teil c) des Satzes über die wird eine maßdefinierende Funktion H W R ! R erklärt. Es
P Eigenschaften von Inhalten nur die
Abschätzung G .e A/  m e falls alle hier auftreten-
nD1 G .An /,
gilt H ..1; n/ D H .n/  H .1/ D 0 sowie H ..n; 0/ D
S
den Mengen aus I sind und A  jmD1 e
1 e Aj gilt, also e
A im H .0/  H .n/ D 0, n  1 und somit – da H stetig von
Gegensatz zu A von endlich vielen Mengen überdeckt wird. An unten ist – H .R n .0; 1/ D 0. Das Maß H ist also ganz
dieser Stelle kommt die rechtsseitige Stetigkeit von G ins Spiel. auf dem Intervall .0; 1 konzentriert und stimmt dort mit 1
Sie garantiert die Existenz einer Zahl ı > 0 mit ı < y  x, überein: es gilt H .B/ D 1 .B/ für jede Borelsche Teilmen-
sodass ge von .0; 1.
Es sei f W R ! R eine bis auf endlich viele R 1Stellen stetige
" nichtnegative Funktion mit der Eigenschaft 1 f .t /dt D 1.
0  G ..x; x C ı/ D G.x C ı/  G.x/  :
2 Dabei kann das Integral als uneigentliches Riemann-Integral
oder als Lebesgue-Integral interpretiert werden. Dann wird
Setzen wir e
A WD .x C ı; y, so gilt folglich durch
Zx
"
G .A/  G .e
A/ C : (8.17) F .x/ WD f .t / dt ; x 2 R;
2
1
In gleicher Weise existiert zu jedem n ein ın > 0 mit eine maßdefinierende Funktion erklärt, die sogar eine Vertei-
" lungsfunktion ist. Das resultierende Lebesgue-Stieltjes-Maß
G .e
An /  G .An / C ; (8.18) F auf B ist ein Wahrscheinlichkeitsmaß. Das Maß eines In-
2nC1
tervalls .a; b/ (egal, ob offen, abgeschlossen oder halboffen)
wobei eAn WD .xn ; yn Cın  gesetzt ist. Da f.xn ; yn Cın / W n  1g ergibt sich zu
eine offene Überdeckung des kompakten Intervalls Œx C ı; y Zb
bildet, gibt es nach dem Satz von Heine-Borel eine natürliche F ..a; b// D F .Œa; b/ D F ..a; b/ D f .t / dt ;
Zahl m mit a

[
m also anschaulich als Flächeninhalt zwischen dem Graphen
e
A  Œx C ı; y  e
An : von f und der x-Achse über dem Intervall Œa; b, siehe
nD1 Abb. 2.6. J
8.3 Inhalte und Maße 317

Hintergrund und Ausblick: Maßdefinierende Funktionen auf Rk

Die Existenz und Eindeutigkeit vieler Maße auf Bk kann mit- Allgemein definiert man für eine Funktion G W Rk ! R und
hilfe maßdefinierender Funktionen gezeigt werden. a; b 2 Rk mit a  b die alternierende Summe

In Verallgemeinerung der bei maßdefinierenden Funktionen X 1 1 1 k


ba G WD .1/ks. /  G.b1 1 a1 ; : : : ; bk k ak /:
auf R angestellten Betrachtungen kann die Existenz vie-
2f0;1gk
ler Maße auf Bk mithilfe von maßdefinierenden Funktionen
G W Rk ! R bewiesen werden. Zur Motivation der Begriffs-
Dabei ist WD . 1 ; : : : ; k / und s. / WD 1 C : : : C k .
bildung rufen wir uns in Erinnerung, dass im Fall k D 1 die

Kapitel 8
Monotonie einer maßdefinierenden Funktion G W R ! R da- Offenbar gilt ba G D G.b/  G.a/ für k D 1, und im Fall
zu diente, über die Festsetzung G ..a; b/ WD G.b/  G.a/ k D 2 ist ba G die oben stehende viergliedrige alternierende
eine nichtnegative Mengenfunktion G auf I 1 zu definieren. Summe.
Im Fall k  2 benötigen wir eine Verallgemeinerung die-
Eine Funktion G W Rk ! R heißt maßdefinierende Funk-
ser Monotonieeigenschaft, um G auf dem Halbring I k aller
tion, falls gilt:
halboffenen k-dimensionalen Intervalle .a; b mit a; b 2
Rk ; a  b festzulegen. Zur Illustration betrachten wir zu- G besitzt die verallgemeinerte Monotonieeigenschaft
nächst den Fall k D 2.
ba G  0 8.a; b 2 I k ;
Nehmen wir einmal an, wir hätten bereits ein endliches Maß
 auf B2 . Sind a D .a1 ; a2 /, b D .b1 ; b2 / 2 R2 mit a  b, G ist rechtsseitig stetig, d. h., es gilt
so gilt mit der Abkürzung Sx WD .1; x
  G.x/ D lim G.xn /
n!1
.a; b D .1; b n S.a1 ;b2 / [ S.b1 ;a2 / :
für jedes x 2 Rk und jede Folge xn D .xn1 ; : : : ; xnk / mit
Schreiben wir
xnj # xj , j D 1; : : : ; k, bei n ! 1.

G.x/ WD .Sx /; x 2 Rk ; Ist G eine maßdefinierende Funktion, so definiert man

so folgt ..a; b/ D G.b/  .S.a1 ;b2 / [ S.b1 ;a2 / /. Wegen G ..a; b/ WD ba G 8.a; b 2 I k
S.a1 ;b2 / \ S.b1 ;a2 / D S.a1 ;a2 / gilt nach Teil a) des Satzes über
additive Mengenfunktionen auf einem Ring auf dem Halbring I k und weist völlig analog wie im Beweis
des Satzes über maßdefinierende Funktionen nach, dass für
.S.a1;b2 / [ S.b1 ;a2 / / D G.a1 ; b2 / C G.b1 ; a2 /  G.a1 ; a2 / G die Voraussetzungen des Maß-Fortsetzungssatzes erfüllt
sind. Es existiert somit ein (wegen der -Endlichkeit von G
auf I k eindeutig bestimmtes) Maß G auf Bk mit der Eigen-
und somit schaft G ..a; b/ D ba G 8.a; b 2 I k , das wiederum als
Lebesgue-Stieltjes-Maß zu G bezeichnet wird.
..a; b/ D G.b1 ; b2 /  G.a1 ; b2 /
Als prominentes Beispiel betrachten wir die durch
 G.b1 ; a2 / C G.a1 ; a2 /:
Y
k
Das Maß des Rechtecks .a; b ergibt sich somit wie in der G.x/ WD xj ; x D .x1 ; : : : ; xk / 2 Rk ;
nachstehenden Abb. als alternierende Summe über die Werte j D1
der Funktion G in den vier Eckpunkten des Rechtecks.
definierte stetige Funktion G W Rk ! R. Wegen

Y
k
ba G D .bj  aj /  0; .a; b 2 I k ;
j D1

ist G maßdefinierend. Da G und k auf I k übereinstimmen,


gilt nach dem Eindeutigkeitssatz für Maße G D k , sodass
auch das mehrdimensionale Borel-Lebesgue-Maß auf ande-
rem Wege hergeleitet wurde.
318 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

8.4 Messbare Abbildungen, Beweis Die Aussagen a) und c) beweist man durch direktes
Nachprüfen der definierenden Eigenschaften einer -Algebra
Bildmaße unter Verwendung des Satzes über die Operationstreue der
Urbildabbildung (siehe Aufgabe 8.29). Aussage b) ist gleich-
In diesem Abschnitt geht es um eine Begriffsbildung, die sich in bedeutend mit
ganz natürlicher Weise ergibt, wenn man Abbildungen zwischen  
Mengen betrachtet, die jeweils mit einer -Algebra versehen  f 1 .M0 / D f 1 ..M0 // : (8.19)
sind. Zunächst seien ˝ und ˝ 0 beliebige nichtleere Mengen und Nach a) ist f 1 ..M0 // eine -Algebra mit f 1 .M0 / 
f W ˝ ! ˝ 0 eine beliebige Abbildung. Die Urbildabbildung f 1 ..M0 //. Dies beweist  in (8.19). Zum Nachweis der
zu f ist definiert durch umgekehrten Richtung beachte man, dass nach c) das System
( C 0 WD fA0  ˝ 0 j f 1 .A0 / 2 .f 1 .M0 //g eine -Algebra ist.
Kapitel 8

1 P .˝ 0 / ! P .˝/ Wegen M0  C 0 folgt .M0 /  C 0 , was zu zeigen war. 


f W
A0 7! f 1 .A0 / WD f! 2 ˝ j f .!/ 2 A0 g:
Wohingegen nach a) das Urbild einer -Algebra eine -Algebra
ist, besagt Aussage c), dass diejenigen Teilmengen von ˝ 0 , de-
Sie ordnet jeder Teilmenge von ˝ 0 eine Teilmenge von ˝ zu ren Urbild in der -Algebra A liegt, selbst eine -Algebra
und darf nicht mit der bei bijektivem f vorhandenen inversen bilden. Wie das folgende Beispiel zeigt, ist das Bild f .A/ WD
Abbildung verwechselt werden. Die Urbildabbildung f 1 ist ff .A/ j A 2 Ag einer -Algebra i. Allg. keine -Algebra.
verträglich mit allen mengentheoretischen Operationen. Genau-
er gilt: Beispiel
Es seien ˝ WD N und G WD f2; 4; 6; : : :g die Menge der
geraden Zahlen sowie A WD f;; G; G c ; Ng. Die Abbil-
Satz über die Operationstreue der Urbildabbildung
dung f W N ! N sei durch f .1/ WD f .2/ WD 1 sowie
Ist J eine beliebige nichtleere Indexmenge, und sind A0 f .n/ WD n  1 für n  3 definiert. Dann gilt f .G/ D G c
sowie Aj0 , j 2 J , Teilmengen von ˝ 0 , so gelten: und f .G c / D f1g [ G. Das System A ist eine -Algebra,
T T sein Bild f .A/ D f;; N; G c ; f1g [ Gg jedoch nicht. Man
f 1 . j 2J Aj0 / D j 2J f 1 .Aj0 /, beachte, dass die Abbildung f surjektiv ist. Bei nicht surjek-
S S
f 1 . j 2J Aj0 / D j 2J f 1 .Aj0 /, tivem f ist ganz allgemein f .A/ keine -Algebra, denn es
f 1 .˝ 0 n A0 / D ˝ n f 1 .A0 /, gilt ˝ 0 … f .A/.
f 1 .˝ 0/ D ˝. Sind A eine -Algebra über ˝ und ˝0  ˝ eine Teilmen-
ge von ˝, so kann man Teil a) des obigen Lemmas auf die
Injektion i W ˝0 ! ˝, ! 7! i.!/ WD !, anwenden. Als
resultierende -Algebra i 1 .A/ D fA \ ˝0 W A 2 Ag ergibt
Das Urbild eines Durchschnittes bzw. einer Vereinigung von
sich die schon in (8.1) eingeführte Spur- -Algebra von A
Mengen ist also der Durchschnitt bzw. die Vereinigung der ein-
in ˝0 . J
zelnen Urbilder, und das Urbild des Komplements einer Menge
ist das Komplement von deren Urbild. Da wir im Folgenden Im Folgenden seien die nichtleeren Mengen ˝ und ˝ 0 jeweils
häufig die Menge aller Urbilder von gewissen Teilsystemen mit einer -Algebra versehen. Ist A  P .˝/ eine -Algebra
der Potenzmenge von ˝ 0 betrachten werden, setzen wir für ein über ˝, so nennt man das Paar .˝; A/ einen Messraum und
Mengensystem M0  P .˝ 0 / die Mengen aus A messbare Mengen.
˚ 
f 1 .M0 / WD f 1 .A0 / j A0 2 M0
Eine Abbildung ist messbar, wenn das Urbild
und nennen f 1 .M0 / das Urbild von M0 unter f . Das Urbild eines Erzeugers von A0 Teilsystem von A ist
eines Mengensystems M0 ist also die Menge der Urbilder aller
Sind .˝; A/ und .˝ 0 ; A0 / Messräume, f W ˝ ! ˝ 0 eine Ab-
zu M0 gehörenden Mengen.
bildung und  ein Maß auf A, so bietet es sich an, die Größe
einer Menge A0 2 A0 mithilfe von  dadurch zu messen, dass
Lemma (über  -Algebren und Abbildungen) Es seien man das Urbild f 1 .A0 / betrachtet und dessen Maß .f 1 .A0 //
˝, ˝ 0 ¤ ; und f W ˝ ! ˝ 0 eine Abbildung. Dann gelten: bildet. Hierfür muss aber f 1 .A0 / zum Definitionsbereich A
von  gehören. Diese Betrachtungen legen fast zwangsläufig die
a) Ist A0 eine -Algebra über ˝ 0 , so ist f 1 .A0 / eine - folgende Begriffsbildung nahe.
Algebra über ˝.
b) Wird A0 von M0  P .˝ 0 / erzeugt, so wird f 1 .A0 / von
f 1 .M0 / erzeugt. Definition der Messbarkeit
c) Ist A eine -Algebra über ˝, so ist
Sind .˝; A/ und .˝ 0 ; A0 / Messräume, so heißt eine Ab-
bildung f W ˝ ! ˝ 0 .A; A0 /-messbar, falls gilt:
Af WD fA0  ˝ 0 j f 1 .A0 / 2 Ag
f 1 .A0 /  A:
eine -Algebra über ˝ . 0
J
8.4 Messbare Abbildungen, Bildmaße 319

Die Definition der Messbarkeit einer Abbildung ist formal die Beweis Es ist nur die Implikation „(“ nachzuweisen. Die
gleiche wie diejenige der Stetigkeit einer Abbildung zwischen Voraussetzung besagt M0  Af . Da Af eine -Algebra ist,
topologischen Räumen. Sind A, A0 Topologien genannte Sys- folgt A0 D .M0 /  Af . 
teme offener Mengen auf ˝ bzw. ˝ 0 , so ist obige Definition
gerade die Definition der Stetigkeit von f , denn sie besagt, dass Folgerung
Urbilder offener Mengen offen sind.
a) Eine Abbildung f W ˝ ! R ist genau dann .A; B/-messbar,
0
Kommentar Die Forderung der .A; A /-Messbarkeit an f wenn gilt:
ist umso stärker, je feiner A0 bzw. je gröber A ist. Dabei nennen
f! 2 ˝ j f .!/  cg 2 A; c 2 R: (8.20)
wir allgemein ein Mengensystem M1 feiner bzw. gröber als ein
Mengensystem M2 , falls M1
M2 bzw. M1  M2 gilt.
b) Eine stetige Abbildung f W Rk ! Rm ist .Bk ; Bm /-messbar.

Kapitel 8
Im Fall A D P .˝/ ist jede Abbildung f W ˝ ! ˝ 0 .A; A0 /- c) Es seien fj W ˝ ! R, j D 1; : : : ; k, Abbildungen sowie
messbar. Hierbei darf A0 beliebig sein. Gleiches gilt, wenn die f D .f1 ; : : : ; fk / W ˝ ! Rk die vektorwertige Abbildung
gröbste -Algebra A0 D f;; ˝ 0 g über ˝ 0 vorliegt. Falls A D mit Komponenten f1 ; : : : ; fk . Dann gilt:
f;; ˝g und A0 D P .˝ 0 /, so sind die konstanten Abbildungen
f .!/ WD ! 0 , ! 2 ˝ (! 0 2 ˝ 0 fest), die einzigen .A; A0 /- f .A; Bk /-messbar () fj .A; B/-messbar; j D 1; : : : ; k:
messbaren Abbildungen. J
Die einfachste nichtkonstante .A; B/-messbare Abbildung ist
die Indikatorfuntion 1A W ˝ ! R einer Menge A 2 A. Diese Beweis a) Wegen .f.1; c j c 2 Rg/ D B (vgl. den Satz
nimmt auf A den Wert 1 und auf Ac den Wert 0 an. Oft wird 1A über Erzeugendensysteme der Borel-Mengen in Abschn. 8.2)
auch die charakteristische Funktion von A genannt und mit folgt die Behauptung aus obigem Satz.
A bezeichnet. Anstelle von 1A schreiben wir häufig 1fAg und
b) Die Stetigkeit von f ist gleichbedeutend mit f 1 .Om / 
nennen 1A auch kurz den Indikator von A.
Ok , denn das Urbild einer offenen Menge unter einer stetigen
Man beachte, dass nach Definition der -Algebra Af folgende Abbildung ist offen. Wegen Om  Bm und .Om / D Bm liefert
Äquivalenz gilt: der Satz über Erzeuger und Messbarkeit die Behauptung.
f ist .A; A0 /-messbar () A0  Af : J c) Zum Beweis von „)“ seien j 2 f1; : : : ; kg fest und Oj eine
beliebige offene Teilmenge von R. Dann ist die Menge O WD
Śj 1 Śk
mD1 R  Oj mDj C1 R offen in R , und es gilt fj .Oj / D
k 1
Ganz analog zu stetigen Abbildungen gilt, dass die Verkettung
messbarer Abbildungen wieder messbar ist. f 1 .O/ 2 A, sodass wegen B D .O1 / und obigem Satz die
Behauptung folgt. Zum Nachweis der Richtung „(“ beachte
Śk
man, dass das Urbild einer Menge .a; b D j D1 .aj ; bj  2
Satz über die Verkettung messbarer Abbildungen
k 1
T k 1
I die Darstellung f ..a; b/ D j D1 fj ..aj ; bj / besitzt.
Sind .˝j ; Aj /, j D 1; 2; 3, Messräume und fj W ˝j ! Wegen fj1 ..aj ; bj / 2 A (j D 1; : : : ; k) ergibt sich die Be-
˝j C1 .Aj ; Aj C1 /-messbare Abbildungen .j D 1; 2/, so
ist die zusammengesetzte Abbildung hauptung aus .I k / D Bk und dem Satz über Erzeuger und
Messbarkeit. 
(
˝1 ! ˝3
f2 ı f1 W Da wir auf dem Rk stets die Borel--Algebra Bk zugrunde le-
!1 7! f2 ı f1 .!1 / WD f2 .f1 .!1 // gen, sprechen wir im Falle einer .A; Bk /-messbaren Abbildung
kurz von einer Borel-messbaren Abbildung bzw. im Spezial-
.A1 ; A3 /-messbar. fall k D 1 von einer Borel-messbaren Funktion. Aus dem Satz
über Erzeuger und Messbarkeit ergibt sich unmittelbar:

Selbstfrage 9
Können Sie diese Aussage beweisen? Satz über Eigenschaften Borel-messbarer Funktionen
Es seien f ; g W ˝ ! R Borel-messbare Funktionen.
Das folgende wichtige Resultat besagt, dass zum Nachweis der Dann sind die folgenden Funktionen Borel-messbar:
Messbarkeit nur die Inklusion f 1 .M0 /  A für einen Erzeu-
ger M0 von A0 nachgewiesen werden muss. a) a  f C b  g, a; b 2 R,
b) f  g,
c) fg , falls g.!/ ¤ 0, ! 2 ˝,
Satz über Erzeuger und Messbarkeit d) max.f ; g/ und min.f ; g/.
Es seien .˝; A/, .˝ 0 ; A0 / Messräume, f W ˝ ! ˝ 0 eine
Abbildung und M0  A0 mit .M0 / D A0 . Dann gilt:
Beweis Nach Teil c) der obigen Folgerungen ist .f ; g/ W
f ist .A; A0 /-messbar () f 1 .M0 /  A: ˝ ! R2 eine .A; B2 /-messbare Abbildung. Verknüpft man
diese mit den Borel-messbaren – da stetigen – Abbildungen
320 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

T W R2 ! R1 , wobei T .x; y/ D ax C by bzw. T .x; y/ D Selbstfrage 10


x  y bzw. T .x; y/ D max.x; y/ bzw. T .x; y/ D min.x; y/,
Warum ist B eine -Algebra über R?
.x; y/ 2 R2 , so ergeben sich a), b) und d) aus dem Satz über
die Verkettung messbarer Abbildungen. Dieser liefert auch c),
wenn man (unter Verwendung von (8.20)) beachtet, dass die Ist .˝; A/ ein Messraum, so heißt eine Funktion f W ˝ ! R
durch T .x; y/ WD x=y, falls y ¤ 0, und T .x; y/ WD 0 sonst, messbare numerische Funktion, falls f .A; B/-messbar ist,
definierte Abbildung Borel-messbar ist.  also f 1 .B/  A gilt. Wegen B  B ist jede reellwertige
.A; B/-messbare Funktion f W ˝ ! R auch eine messbare
Insbesondere in der Integrationstheorie werden wir häufig Funk- numerische Funktion.
tionen betrachten, die Werte in der Menge
Die folgenden abkürzenden Schreibweisen sind vielleicht etwas
R WD R [ fC1; 1g DW Œ1; C1
Kapitel 8

gewöhnungsbedürftig, aber äußerst suggestiv und vor allem all-


gemein üblich. Sind f ; g W ˝ ! R numerische Funktionen, so
der (um die Symbole .C/1 und 1) erweiterten reellen setzen wir für a; b 2 R
Zahlen annehmen. Eine solche Funktion werde numerische
Funktion genannt. ff  ag WD fa  f g
Für das Rechnen mit numerischen Funktionen vereinbaren wir WD f! 2 ˝ j f .!/  ag D f 1 .Œ1; a/:
die für jedes x 2 R geltenden naheliegenden Regeln
Ganz analog sind ff < ag, ff > ag, ff  ag, ff D ag,
x C .˙1/ D .˙1/ C x D ˙1; ff ¤ ag, fa < f  bg, ff < gg, ff  gg, ff D gg,
(
˙1; falls x > 0 ff ¤ gg, ff  a; g > bg usw. definiert.
x  .˙1/ D .˙1/  x D
1; falls x < 0
Selbstfrage 11
sowie die ebenfalls selbstverständlichen Festsetzungen Können Sie ff  a; g > bg als Urbild einer Menge unter einer
geeigneten Abbildung schreiben?
.˙1/ C .˙1/ D ˙1; .˙1/  .1/ D ˙1;
.˙1/  .˙1/ D C1; .˙1/  .1/ D 1:

Ergänzt man diese auch intuitiv klaren Definitionen durch die Mit messbaren numerischen Funktionen kann
willkürlichen Festlegungen man (fast) bedenkenlos rechnen
1  1 WD 1 C 1 WD 0; 0  .˙1/ WD .˙1/  0 WD 0;

so sind Summe, Differenz und Produkt zweier Elemente aus Messbarkeitskriterien für numerische Funktionen
R erklärt. Man beachte, dass die für reelle Zahlen vertrauten Es seien .˝; A/ ein Messraum und f W ˝ ! R eine
Rechenregeln nur mit Einschränkungen für das Rechnen in R numerische Funktion. Dann sind folgende Aussagen äqui-
gelten. So sind die Addition und die Multiplikation in R zwar valent:
kommutativ, aber nicht assoziativ, und auch das Distributivge-
setz gilt nicht. Schränkt man jedoch die Addition auf .1; 1 a) f ist .A; B/-messbar,
oder Œ1; 1/ ein, so liegt Assoziativität vor. b) ff > cg 2 A 8c 2 R,
c) ff  cg 2 A 8c 2 R,
Eine Umgebung von 1 bzw. von 1 ist eine Menge A  R,
d) ff < cg 2 A 8c 2 R,
die ein Intervall der Form Œa; 1 WD Œa; 1/ [ f1g mit a 2 R
e) ff  cg 2 A 8c 2 R.
bzw. Œ1; a WD .1; a [ f1g enthält. Hiermit ist die
Konvergenz von Folgen in R festgelegt: Eine Folge .xn / mit
Gliedern aus R konvergiert gegen 1 bzw. 1, falls es zu je-
dem a 2 R ein n0 gibt, sodass xn  a bzw. xn  a für jedes Beweis „a) ) b)“ folgt wegen .c; 1 2TB, und die Implika-
n  n0 gilt. Man beachte, dass jede Folge aus R mindestens tion „b) ) c)“ ergibt sich aus ff  cg D 1 1
nD1 ff > c  n g.
einen Häufungspunkt in R besitzt, und dass der Limes superior c
Die Darstellung ff < cg D ff  cg begründet den Schluss
und der Limes inferior von .an / als größter bzw. kleinster Häu- von c) auf d), und „d) ) e)“ erhält man mit ff  cg D
T
fungspunkt in R existieren. Diese Überlegungen für Folgen in 1
nD1 ff < c C n g. Da das System fŒ1; c j c 2 Rg einen
1
R gelten sinngemäß auch für die punktweise Konvergenz von Erzeuger von B bildet (Aufgabe 8.6), folgt der verbleibende Be-
Folgen numerischer Funktionen fn W ˝ ! R. weisteil „e) ) a)“ aus dem Satz über Erzeuger und Messbarkeit.
Um von der Messbarkeit einer numerischen Funktion sprechen 
zu können, versieht man die Menge R mit der -Algebra
Wie das nächste Resultat u. a. zeigt, sind Grenzwerte punkt-
B WD fB [ E j B 2 B; E  f1; C1gg weise konvergenter messbarer numerischer Funktionen wieder
messbar, ganz im Gegensatz zu stetigen Funktionen, bei denen
der sog. in R Borelschen Mengen. ein entsprechender Sachverhalt nicht notwendigerweise gilt.
8.4 Messbare Abbildungen, Bildmaße 321

Satz über die Messbarkeit von (Lim)Sup und (Lim)Inf


Es seien f1 ; f2 ; : : : messbare numerische Funktionen auf
˝. Dann sind folgende Funktionen messbar:
a) supn1 fn ; infn1 fn
b) lim supn!1 fn (D infn1 supkn fk ), lim infn!1 fn (D
supn1 infkn fk ) Abb. 8.10 Funktion f mit Positiv- und Negativteil
Insbesondere ist limn!1 fn messbar, falls die Folge .fn /
punktweise in R konvergiert.
und der Negativteil

Kapitel 8
f  W ˝ ! R; ! 7! f  .!/ WD max.f .!/; 0/
T1
Beweis a): Wegen fsupn1 fn  cg D nD1 ffn  cg, einer numerischen Funktion f eine große Rolle (Abb. 8.10).
c 2 R, folgt die erste Behauptung aus
T dem obigen Satz, und
die zweite wegen finfn1 fn  cg D 1 nD1 ffn  cg ebenfalls.
Nach den obigen Überlegungen sind mit f auch f C und f 
Teil b) ergibt sich aus a).  messbar. Man beachte, dass sowohl f C als auch f  nichtnega-
tiv sind, und dass
Wendet man dieses Ergebnis auf die Folge f1 ; : : : ; fn ; fn ;
fn ; : : : an, so ergibt sich Folgendes. f D f C  f ; jf j D f C C f 
gelten.
Folgerung Sind f1 ; : : : ; fn messbare numerische Funktio-
nen auf ˝, so sind auch die Funktionen max.f1 ; : : : ; fn / und Für spätere Zwecke notieren wir noch:
min.f1 ; : : : ; fn / messbar. J
Lemma Sind f ; g W ˝ ! R messbare numerische Funktio-
Auch die Bildung von Linearkombinationen und Produkten nen, so gehört jede der Mengen ff < gg, ff  gg, ff D gg
messbarer Funktionen ergibt wieder eine messbare Funktion. und ff ¤ gg zu A. J

Beweis Wegen ff < gg D ff  g < 0g, ff  gg D


Satz über die Messbarkeit von Linearkombination, Pro- ff  g  0g, ff D gg D ff  gg \ fg  f g und ff ¤ gg D
dukt und Betrag ff D ggc folgt die Behauptung aus der Messbarkeit von f  g
Sind f ; g W ˝ ! R messbare numerische Funktionen und g  f . 
und a; b 2 R, so sind folgende Funktionen messbar:
Kommentar Die obigen Resultate zeigen, dass man mit
a) a  f C b  g, messbaren numerische Funktionen fast bedenkenlos rechnen
b) f  g, kann und wiederum messbare Funktionen erhält. Man beach-
c) jf j. te, dass dieser Sachverhalt für stetige Funktionen nicht gilt:
Dabei definieren wir j1j D j1j D 1. die Grenzfunktion einer punktweise konvergenten Folge steti-
ger Funktionen muss nicht stetig sein. J

Beweis Sind f und g reellwertig, so sind f Cg und f g nach  .fj I j 2 J / ist die kleinste  -Algebra,
den beiden ersten Eigenschaften Borel-messbarer Funktionen
messbar. Sind nun f und g messbare numerische Funktio- bezüglich derer alle fj messbar sind
nen, so sind die durch fn WD max.n; min.f ; n//, gn WD
Die im Folgenden beschriebene Möglichkeit, -Algebren mit-
max.n; min.g; n// definierten Funktionen fn und gn nach der
hilfe von Abbildungen zu erzeugen, hat grundlegende Bedeu-
obigen Folgerung messbar. Nach dem eben Gezeigten sind we-
tung. Gegeben seien eine nichtleere Menge ˝, eine nichtleere
gen der Reellwertigkeit von fn und gn die Funktionen fn C gn
Indexmenge J , eine Familie ..˝j ; Aj //j 2J von Messräumen
und fn  gn , n  1, messbar und somit nach dem obigen
und eine Familie .fj /j 2J von Abbildungen fj W ˝ ! ˝j .
Satz auch die Funktionen f C g D limn!1 .fn C gn / sowie
f  g D limn!1 .fn  gn /. Da die konstanten Funktionen a und b Wir stellen uns die Aufgabe, eine -Algebra A über ˝ zu kon-
für jede Wahl von a; b 2 R messbar sind, sind auch af und bg struieren, sodass für jedes j die Abbildung fj .A; Aj /-messbar
messbar und damit auch die Linearkombination af C bg. Spe- ist. Dabei soll diese -Algebra so klein wie möglich sein (man
ziell ist also f messbar und somit auch max.f ; f / D jf j. beachte, dass ohne diese zusätzliche Bedingung die triviale -
 Algebra P .˝/ das Gewünschte leistet). Damit die Abbildung
fj .A; Aj /-messbar ist, muss die gesuchte -Algebra das Men-
Beim Aufbau des Integrals spielen der Positivteil gensystem fj1 .Aj / enthalten. Da diese Messbarkeit für jedes
j gelten
S soll, muss die gesuchte -Algebra das Mengensys-
f C W ˝ ! R; ! 7! f C .!/ WD max.f .!/; 0/ tem j 2J fj1 .Aj / umfassen. Dieses Mengensystem ist jedoch
322 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

i. Allg. keine -Algebra, sodass wir zur erzeugten -Algebra sich auch klar, dass die Mengen Ak eine Zerlegung des
übergehen müssen. Die folgende Definition ist somit selbstre- Grundraums ˝ liefern: Es gilt ˝ D A1 C A2 C : : :. Die
dend. -Algebra .f / ist identisch mit der -Algebra, die vom
Mengensystem M WD fA1 ; A2 ; : : :g erzeugt wird. J

Definition der von Abbildungen erzeugten  -Algebra Als weiteres Beispiel einer durch Abbildungen erzeugten -
Algebra betrachten wir das Produkt von -Algebren.
Es seien ˝ ¤ ;, J ¤ ;, ..˝j ; Aj //j 2J eine Familie von
Messräumen und .fj /j 2J eine Familie von Abbildungen
fj W ˝ ! ˝j . Dann heißt Definition des Produkts von  -Algebren
[ 
1
Seien .˝1 ; A1 /; : : : ; .˝n ; An /, n  2, Messräume und
Kapitel 8

.fj I j 2 J / WD  fj .Aj /
j 2J ą
n
˝D ˝j
die von den Abbildungen fj (und den Messräumen j D1
.˝j ; Aj /) erzeugte  -Algebra.
D f! D .!1 ; : : : ; !n / j !j 2 ˝j für j D 1; : : : ; ng

das kartesische Produkt von ˝1 ; : : : ; ˝n . Bezeichnet j W


Nach Konstruktion ist .fj I j 2 J / die kleinste -Algebra
˝ ! ˝j die durch j .!/ WD !j definierte j -te
A über ˝, bzgl. derer jede Abbildung fk .A; Ak /-messbar
Projektion, j D 1; : : : ; n, so heißt die von den Projektio-
ist (k 2 J /. Ist J D f1; : : : ; ng, so schreibt man dafür auch
nen 1 ; : : : ; n über ˝ erzeugte -Algebra .1 ; : : : ; n /
.f1 ; : : : ; fn /.
Produkt (-Algebra) von A1 , : : : ; An . Die Notation
hierfür ist
Beispiel
Wir betrachten die Situation des zweifachen Würfelwurfs mit O
n
Aj WD A1 ˝ : : : ˝ An WD .1 ; : : : ; n /:
dem Grundraum ˝ WD f! WD .i; j / j i; j 2 f1; : : : ; 6gg.
j D1
Dabei stehen i und j anschaulich für das Ergebnis des ersten
bzw. zweiten Wurfs. Die durch f .!/ D f ..i; j // WD i C j ,
! 2 ˝, definierte Abbildung f W ˝ ! R beschreibt dann
die Augensumme aus beiden Würfen. Legen wir auf R die Kommentar Sind A1 2 A1 ; : : : ; An 2 An , so gilt
Borelsche -Algebra B zugrunde, so liegt die Situation der
obigen Definition mit J D 1 und .˝1 ; A1 / D .R; B/ vor. \
n
Nach Definition ist .f / D .f 1 .B// D f 1 .B/. j1 .Aj / D A1  : : :  An :
Dabei gilt das letzte Gleichheitszeichen, da Urbilder von j D1
-Algebren wieder -Algebren sind. Welche Mengen ge- S 
hören nun zu f 1 .B/? Da f nur Werte aus der Menge Wegen .1 ; : : : ; n / D  n
j1 .Aj / enthält die
j D1
M WD f2; 3; : : : ; 12g annimmt, ist f 1 .R n M / D ;. Für
Produkt--Algebra das System
k 2 M gilt f 1 .fkg/ D f.i; j / 2 ˝ j i C j D kg DW Ak . Da
das Urbild einer Borel-Menge B die (eventuell leere) Verei-
Hn WD fA1  : : :  An j Aj 2 Aj für j D 1; : : : ; ng
nigung über die Mengen Ak mit k 2 B ist, folgt
[ ˇ

ˇ der sog. messbaren Rechtecke. Dieses System ist nach dem


.f / D Ak ˇT  f2; 3; : : : ; 12g : Lemma am Ende von Abschn. 8.2 ein Halbring über ˝, und die
k2T
Teilmengenbeziehung
In dieser -Algebra liegt also z. B. die Teilmenge
f.1; 3/; .2; 2/; .3; 1/g von ˝, nicht aber f.1; 5/; .2; 3/g. [
n

In Verallgemeinerung des obigen Beispiels betrachten wir ei- j1 .Aj /  Hn


ne nichtleere Menge ˝ und eine Abbildung f W ˝ ! R, j D1

die abzählbar viele verschiedene Werte x1 ; x2 ; : : : annimmt. Nn


Schreiben wir Ak WD f 1 .fxk g/, k D 1; 2; : : : ; sowie liefert, dass Hn ein Erzeugendensystem für j D1 Aj darstellt
M WD fx1 ; x2 ; : : :g, so ist wegen f 1 .R n M / D ; das (siehe auch Aufgabe 8.49). J
Urbild f 1 .B/ einer Borel-Menge B gleich der (eventuell
leeren) Vereinigung derjenigen Ak mit xk 2 B. Es folgt Selbstfrage 12
[ ˇ
Sn 1
Warum gilt  . Aj /  Hn ?
ˇ j D1 j
.f / D Ak ˇT  f1; 2; : : :g :
k2T

Man beachte, dass der Wertebereich von f auch eine all- Beispiel In der Situation des zweifachen Würfelwurfs im
gemeine Menge sein kann, wenn die darauf definierte - vorigen Beispiel geben die Projektionen 1 ..i; j // D i und
Algebra alle einelementigen Mengen enthält. Man mache 2 ..i; j // D j das Ergebnis des ersten bzw. zweiten Wurfs
8.4 Messbare Abbildungen, Bildmaße 323

an. Da die Produkt--Algebra alle messbaren Rechtecke fig  Selbstfrage 13


fj g D f.i; j /g mit i; j D 1; : : : ; 6 enthält, gilt .1 ; 2 / D
Können Sie zeigen, dass f ein Maß ist?
P .˝/. J

Beispiel Es gilt Bk D B ˝    ˝ B (k Faktoren). Beispiel Es seien .˝; A/ D .˝ 0 ; A0 / D .Rk ; Bk / und  das


In der Tat: Nach Aufgabe 8.49 mit Aj D B und Mj D I 1 , Borel-Lebesgue-Maß k . Für festes b 2 Rk sei Tb W Rk ! Rk
j D 1; : : : ; k, gilt B ˝    ˝ B D .I 1  : : :  I 1 /. Wegen die durch Tb .x/ WD x C b; x 2 Rk , definierte Translation um
I 1  : : :  I 1 D I k und .I k / D Bk folgt die Behauptung. In b. Als stetige Abbildung ist Tb messbar. Die Abbildung Tb ist
gleicher Weise argumentiert man, um die Gleichheit ferner bijektiv, wobei die inverse Abbildung durch Tb gegeben
ist. Ist .x; y 2 I k beliebig, so gilt Tb1 ..x; y/ D .x  b; y  b,
BkCs D Bk ˝ Bs ; k; s 2 N und wegen k ..x  b; y  b/ D k ..x; y/ folgt, dass die Maße

Kapitel 8
k und Tb .k / auf I k übereinstimmen. Nach dem Eindeutig-
zu zeigen. J keitssatz für Maße gilt
Die Messbarkeit einer ˝-wertigen Abbildung bzgl. der - Tb .k / D k für jedes b 2 Rk ;
Algebra .fj I j 2 J / kennzeichnet das folgende Resultat.
was als Translationsinvarianz von k bezeichnet wird. J

Satz Kommentar Die Konstruktion des Bildmaßes unter messba-


ren Abbildungen ist offenbar in folgendem Sinn transitiv: Sind
Es seien .˝0 ; A0 / ein Messraum und f W ˝0 ! ˝ ei- .˝1 ; A1 /, .˝2 ; A2 / und .˝3; A3 / Messräume,  ein Maß auf
ne Abbildung, wobei die Situation der obigen Definition A1 sowie f1 W ˝1 ! ˝2 und f2 W ˝2 ! ˝3 eine .A1 ; A2 /-
zugrunde liege. Dann sind die folgenden Aussagen äqui- bzw. .A2 ; A3 /-messbare Abbildung, so kann man einerseits das
valent: Bildmaß von  unter der Verknüpfung f2 ı f1 W ˝1 ! ˝3 , also
a) f ist .A0 ; .fj I j 2 J //-messbar, das auf A3 erklärte Maß .f2 ı f1 /./ bilden, zum anderen lässt
b) fj ı f ist .A0 ; Aj /-messbar für jedes j 2 J . sich das Bild von f1 ./ als Maß auf A2 mithilfe der messba-
ren Abbildung f2 weitertransportieren zu einem Maß auf A3 ,
nämlich dem Bildmaß f2 .f1 .// von f1 ./ unter f2 . Die Tran-
sitivitätseigenschaft der Bildmaß-Konstruktion besagt, dass die
Beweis Die Implikation „a) ) b)“ folgt aus dem Satz über Gleichheit
die Verkettung messbarer Abbildungen und der Tatsache, dass
fj ..fj I j 2 J /; Aj /-messbar ist. Zum Beweis der umgekehr- .f2 ı f1 /./ D f2 .f1 .//
S
ten Richtung sei M WD j 2J fj1 .Aj / gesetzt. Zu A 2 M gibt besteht. Wegen .f2 ıf1 /1 .A3 / D f11 .f21 .A3 // für jede Men-
es dann ein j 2 J und ein Aj 2 Aj mit A D fj1 .Aj /. Wegen ge A3 2 A3 folgt in der Tat
 
f 1 .A/ D f 1 .fj1 .Aj // D .fj ı f /1 .Aj / 2 A0 .f2 ı f1 /./.A3/ D  .f2 ı f1 /1 .A3 /
 
D  f11 .f21 .A3 //
aufgrund der vorausgesetzten .A0 ; Aj /-Messbarkeit von fj ı  
f gilt f 1 .M/  A0 , sodass das Messbarkeitskriterium die D f1 ./ f21 .A3 /
Behauptung liefert.  D f2 .f1 .//.A3/;
A3 2 A3 , was zu zeigen war. J
Messbare Abbildungen transportieren Maße Das nachstehende Resultat besagt u. a., dass das Borel-
Lebesgue-Maß k durch seine Translationsinvarianz und die
Die Bedeutung messbarer Abbildungen liegt u. a. darin, dass sie
Normierungseigenschaft k ..0; 1k / D 1 eindeutig bestimmt
aus Maßen neue Maße generieren.
ist. Es dient als entscheidendes Hilfsmittel, um die wesentlich
stärkere Eigenschaft der Bewegungsinvarianz von k nachzu-
Definition des Bildmaßes weisen.

Es seien .˝; A; / ein Maßraum, .˝ 0; A0 / ein Messraum


und f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung. Satz über eine Charakterisierung von k als translati-
Dann wird durch die Festsetzung onsinvariantes Maß mit k ..0; 1k / D 1
  Es sei  ein Maß auf Bk mit
f .A0 / WD  f 1 .A0 /
 WD ..0; 1k / < 1:
ein Maß f W A0 ! Œ0; 1 auf A0 definiert. Es heißt
Bild.-Maß/ von  unter der Abbildung f und wird Ist  translationsinvariant, gilt also Tb ./ D  für jedes
auch mit f ./ oder  ı f 1 bezeichnet. b 2 Rk , so folgt  D   k .
324 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Beweis Jede Bewegung T besitzt die Gestalt T .x/ D Ux Cb


mit einer orthogonalen (k  k)-Matrix U und einem b 2 Rk .
Da k translationsinvariant ist, können wir aufgrund der Tran-
sitivität der Bildmaß-Bildung o.B.d.A. den Spezialfall b D 0
annehmen. Wir werden zeigen, dass T .k / ein translationsin-
variantes Maß ist und die Voraussetzungen des obigen Satzes
erfüllt sind. Nach diesem Satz muss dann T .k / D k für ein
 2 Œ0; 1/ gelten. Abschließend zeigen wir, dass eine Menge
S 2 Bk existiert, für die 0 < T .k /.S/ D k .S/ < 1 gilt,
sodass  D 1 sein muss.
Bezeichnet wie früher Ta W Rk ! Rk , x 7! x Ca, die Translati-
Kapitel 8

Abb. 8.11 Zerlegung von .0; 12 in kongruente Rechtecke


on um den Vektor a 2 Rk , so bedeutet die Translationsinvarianz
von T .k / gerade Ta .T .k // D T .k / für jedes a 2 Rk . Mit
Beweis Für natürliche Zahlen b1 ; : : : ; bk sei A der Quader
Śk der Abkürzung c WD T 1 .a/ gilt nun für jedes x 2 Rk
A WD j D1 .0; 1=bj  (siehe Abb. 8.11 links für den Fall k D 2
und b1 D 5, b2 D 4). Verschiebt man A in Richtung der j - Ta ı T .x/ D T .x/ C a D T .x/ C T .c/ D T .x C c/
ten Koordinatenachse wiederholt jeweils um 1=bj , so entsteht D T ı Tc .x/;
eine Zerlegung des Einheitswürfels .0; 1k in b1  : : :  bk kongru-
ente Mengen, die alle das gleiche Maß .A/ besitzen, weil sie was gleichbedeutend mit Ta ı T D T ı Tc ist. Wegen der Trans-
jeweils durch eine Translation aus A hervorgehen und  trans- lationsinvarianz von k folgt hieraus
lationsinvariant ist. Aufgrund der Additivität von  folgt
 D ..0; 1k / D b1  : : :  bk  .A/: Ta .T .k // D T .Tc .k // D T .k /; a 2 Rk :

Sind a1 ; : : : ; ak weitere natürliche Zahlen und B WD Das Maß T .k / ist somit in der Tat translationsinvariant. Set-
.0; a1 =b1       .0; ak =bk  gesetzt (siehe Abb. 8.11 rechts für zen wir kurz W WD .0; 1k und schreiben W D Œ0; 1k für die
den Fall k D 2 und a1 D b1 D 3), so folgt mit dem gleichen abgeschlossene Hülle von W , so gilt, da T 1 .W / als Bild der
Argument .B/ D a1  : : :  ak  .A/ sowie nach Definition des kompakten Menge W unter der stetigen Abbildung T 1 eben-
k -Maßes eines Quaders falls kompakt und damit insbesondere beschränkt ist,
a1 ak
.B/ D    :::  D   k .B/:
b1 bk  WD T .k /.W /  T .k /.W / D k .T 1 .W // < 1:
Bezeichnet 0 den Ursprung im Rk , so liefern also die Maße 
und k für alle Mengen .0; y 2 I k gleiche Werte, für die der Nach obigem Satz gilt also T .k / D k für ein  2 Œ0; 1/.
Vektor y lauter positive rationale Komponenten besitzt. Wie- Um den Beweis abzuschließen, betrachten wir die kompakte
derum aufgrund der Translationsinvarianz von  und k folgt Einheitskugel B WD fx 2 Rk j kxk  1g. Da mit T auch T 1
k
dann, dass  und k auf dem Mengensystem IQ D f.x; y 2 eine orthogonale Abbildung des Rk in sich ist, liefert die Inva-
I j x; y 2 Q g übereinstimmen. Dieses ist \-stabil und enthält
k k
rianz des Euklidischen Abstands unter solchen Abbildungen die
mit An WD .n; nk eine Folge An " Rk . Da wir im Beweis Gleichung T 1 .B/ D B und somit k .B/ D k .T 1 .B// D
des Satzes über Erzeugendensysteme von der Borel-Mengen in T .k /.B/ D k .B/. Hieraus folgt  D 1, denn es gilt
k
Abschn. 8.2 gesehen hatten, dass Ok  .IQ / und folglich 0 < k .B/ < 1. 
k k
B D .IQ / gilt, ergibt sich die Behauptung aus dem Eindeu-
tigkeitssatz für Maße.  Selbstfrage 14
k
Wir werden jetzt die eingangs gestellte Frage nach der Lösung Warum gilt  .B/ > 0? (Sie dürfen nicht anschaulich argumen-
des Maßproblems im Rk wieder aufgreifen und zeigen, dass das tieren!)
Borel-Lebesgue-Maß bewegungsinvariant ist, also kongruenten
Mengen das gleiche Maß zuordnet.
Folgerung (Verhalten von k unter affinen Abbildun-
gen) Zu einer invertierbaren Matrix A 2 Rkk und einem
Satz über die Bewegungsinvarianz von k
(Spalten-)Vektor a 2 Rk sei T W Rk ! Rk die durch
Das Borel-Lebesgue-Maß k ist bewegungsinvariant,
d. h., es gilt T .x/ WD Ax C a; x D .x1 ; : : : ; xk /> 2 Rk ;

T .k / D k definierte affine Abbildung. Dann gelten:


für jede Bewegung T W Rk ! Rk des Rk . a) T .k / D j det Aj1  k ,
b) k .T .B// D j det Aj  k .B/, B 2 Bk . J
8.5 Das Maß-Integral 325

Beweis a): Wegen der Translationsinvarianz von k und der Beweis Durch x y W() x  y 2 Qk , x; y 2 Rk ;
Transitivität der Bildmaßes unter Kompositionen von Abbil- entsteht eine Äquivalenzrelation „ “ auf Rk . Mithilfe des Aus-
dungen sei o.B.d.A. a D 0 gesetzt. Die Matrix AA> ist wahlaxioms wählen wir aus jeder der paarweise disjunkten
symmetrisch und positiv definit, es gilt also AA> D UD 2 U > Äquivalenzklassen ein Element aus. Da Qk in Rk dicht liegt,
mit einer orthogonalen Matrix U und einer Diagonalmatrix kann die resultierende Menge K o.B.d.A. als Teilmenge von
D WD diag.d1 ; : : : ; dk / mit strikt positiven Diagonaleinträgen. .0; 1k angenommen werden. Wir nehmen an, es gälte K 2 Bk ,
Die Matrix V WD D 1 U > A ist orthogonal, und es gilt A D und führen diese Annahme zu einem Widerspruch. Mit r CK WD
UDV . Die durch A vermittelte affine Abbildung ist somit die fr C x j x 2 Kg gilt
Hintereinanderausführung einer Bewegung, einer Streckung mit
koordinatenabhängigen Streckungsfaktoren und einer weiteren .r C K/ \ .r 0 C K/ D ; für alle r; r 0 2 Qk mit r ¤ r 0 ;
Bewegung. Da k bewegungsinvariant ist und j det U j D 1 D
denn andernfalls gäbe es x; x 0 2 K und r; r 0 2 Qk mit r ¤ r 0

Kapitel 8
j det V j gilt, können wir T .x/ D Dx D .d1 x1 ; : : : ; dk xk /> ,
x 2 Rk , annehmen. Für jeden Quader .a; b 2 I k gilt aber und r C x D r 0 C x 0 , also x  x 0 D r 0  r 2 Qk und x ¤ x 0 ,
Śk was der Wahl von K widerspräche. Da jedes y 2 Rk zu genau
D 1 ..a; b/ D j D1 .aj =dj ; bj =dj  und somit
einem x 2 K äquivalent ist, folgt
X
  Y k
1 Rk D .r C K/; (8.22)
k T 1 ..a; b/ D  .bj  aj / D j det Dj1 k ..a; b/:
d
j D1 j
r2Qk

Nach dem Eindeutigkeitssatz für Maße sind die Maße T .k / wobei r C K als Urbild von K unter Tr zu Bk gehört. Die
und j det Dj1 k gleich. -Additivität und Translationsinvarianz von k liefern
X X
b): Wenden wir Teil a) auf die Umkehrabbildung T 1 an, so 1 D k .Rk / D k .r C K/ D k .K/
folgt wegen j det A1 j D j det Aj1 die Beziehung T 1 .k / D r2Qk r2Qk
j det Aj  k und somit für jedes B 2 Bk
und somit k .K/ > 0. Wegen K  .0; 1k gilt andererseits
P
k
 .T .B// D T 1 k k
. /.B/ D j det Aj   .B/:  k
r2Qk \.0;1k .r C K/  .0; 2 und folglich, wiederum unter
Verwendung der Translationsinvarianz von k ,
X
Kommentar Bisweilen wird das k-dimensionale Volumen k .K/  k ..0; 2k / D 2k < 1;
des von k Spaltenvektoren v1 ; : : : ; vk erzeugten Parallelepipeds r2Qk \.0;1k

P D f˛1 v1 C : : : C ˛k vk j 0  ˛j  1 für j D 1; : : : ; kg also k .K/ D 0, was ein Widerspruch ist. 

als j det.v1 ; : : : ; vk /j definiert, siehe z. B. [1], Abschn. 13.4. Wie Kommentar Ersetzt man von (8.22) ausgehend in der Be-
man schnell einsieht, gilt weisführung k durch die im Maßproblem in Abschn. 8.1
auftretende Funktion k und beachtet, dass k ein bewegungs-
k .P / D j det.v1 ; : : : ; vk /j: (8.21)
invariantes Maß auf P .Rk / sein soll, so ergibt sich wie oben für
Bezeichnet A die aus den Vektoren v1 ; : : : ; vk gebildete Matrix, die Menge K einerseits k .K/ D 1, zum anderen k .K/ D 0.
so ist P D A Œ0; 1k D fAx j x 2 Œ0; 1k g das affine Bild des Die Funktion k kann somit nicht auf der vollen Potenzmenge
k-dimensionalen Einheitswürfels unter der durch A gegebenen von Rk definiert sein, was den nach dem Maßproblem formu-
linearen Abbildung. Nach Teil b) des obigen Satzes gilt dann lierten Satz von Vitali beweist. J
k .P / D det A  k .Œ0; 1k / D det A, falls A invertierbar ist,
falls also v1 ; : : : ; vk linear unabhängig sind. Andernfalls ver-
schwindet die rechte Seite von (8.21), aber auch die linke, weil 8.5 Das Maß-Integral
P dann Teilmenge einer .k  1/-dimensionalen Hyperebene ist,
die im Vorgriff auf das erste Beispiel in Abschn. 8.6 eine k - Es sei .˝; A; / ein beliebiger, im Folgenden festgehalte-
Nullmenge ist. J ner Maßraum. Wir stellen uns das Problem, einer möglichst
großen Menge
R A-messbarer numerischer Funktionen f auf
Mithilfe der Translationsinvarianz von k kann leicht die Exis- ˝ ein mit f d  bezeichnetes Integral bzgl.  zuzuordnen.
tenz nicht Borelscher Mengen nachgewiesen werden. Die Be- Im Spezialfall des Borel-Lebesgue-Maßes wird sich dabei das
weisführung liefert zugleich einen Beweis des Unmöglichkeits- Lebesgue-Integral ergeben.
satzes von Vitali in Abschn. 8.1.
Video 8.6 Aufbau des Maß-Integrals (Grundideen)

Satz über die Existenz nicht Borelscher Mengen


Es gilt Bk ¤ P .Rk /.
326 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Hintergrund und Ausblick: Hausdorff-Maße

Messen von Längen und Flächen zerfällt die Folge .Cn / in Überdeckungsfolgen
P .An / von A
und .Bn / von B, und es ergibt sich 1 
nD1 .Cn /  ı .A/ C
Es sei .˝; d / ein metrischer Raum. Eine Teilmenge A von ˝    
ı .B/, woraus ı .A C B/  ı .A/ C ı .B/ und somit für
heißt offen, wenn es zu jedem u 2 A ein " > 0 gibt, sodass
ı # 0  .A C B/   .A/ C  .B/ folgt.
fv 2 ˝ j d .u; v/ < "g  A gilt. Die vom System aller of-
fenen Mengen erzeugte -Algebra B heißt  -Algebra der Es lässt sich zeigen, dass die -Algebra A. / alle offenen
Borel-Mengen über ˝. Für nichtleere Teilmengen A und Mengen von ˝ und somit die -Algebra B der Borel-
B von ˝ nennt man d .A/ WD supfd .u; v/ j u; v 2 Ag den Mengen enthält. Nach dem Lemma von Carathéodory liefert
Kapitel 8

Durchmesser von A und dist.A; B/ WD inffd .u; v/ j u 2 die Restriktion von  auf B ein Maß auf B. Spezialisiert
A; v 2 Bg den Abstand von A und B. man nun diese Ergebnisse auf den Fall M WD fA  ˝ j
Ein äußeres Maß  W P .˝/ ! Œ0; 1 heißt metrisches d .A/ < 1g und die Mengenfunktion .A/ WD d .A/˛ ,
äußeres Maß, falls  .A C B/ D  .A/ C  .B/ für alle wobei ˛ > 0 eine feste reelle Zahl ist, so entsteht als
A; B  ˝ mit A; B ¤ ; und dist.A; B/ > 0 gilt. Restriktion von  auf die -Algebra B das mit h˛ bezeich-
nete sog. ˛-dimensionale Hausdorff-Maß. Dieses ist nach
Sind M  P .˝/ ein beliebiges Mengensystem mit ; 2 M Konstruktion invariant gegenüber Isometrien, also abstands-
und  W M ! Œ0; 1 eine beliebige Mengenfunktion mit erhaltenden Transformationen des metrischen Raums ˝ auf
.;/ D 0, so definiert man für jedes ı > 0 eine Mengen- sich.
funktion ı W P .˝/ ! Œ0; 1 durch
Im Fall ˝ D Rk und der euklidischen Metrik geht die De-
X
1 ˇ [
1 finition von h˛ zurück auf Felix Hausdorff. Dieser konnte
ˇ
ı .A/ WD inf .An /ˇA  An ; An 2 M zeigen, dass für die Fälle ˛ D 1, ˛ D 2 und ˛ D k
nD1 nD1 zumindest bei „einfachen Mengen“ A der Wert h˛ .A/ bis

auf einen von k abhängenden Faktor mit den gängigen Aus-
und d .An /  ı; n  1 : drücken für Länge, Fläche und k-dimensionalem Volumen
übereinstimmt. Ist speziell A WD f.t / j a  t  bg das Bild
Die im Zusammenhang mit dem von einer Mengenfunktion einer rektifizierbaren Kurve, also einer stetigen Abbildung
induzierten äußeren Maß angestellten Überlegungen zeigen,  W Œa; b ! Rk eines kompakten Intervalls Œa; b, deren mit
dass ı ein äußeres Maß ist. Vergrößert man den Parameter L. / bezeichnete Länge als Supremum der Längen aller 
ı in der Definition von ı , so werden prinzipiell mehr Men- einbeschriebenen Streckenzüge endlich ist, so gilt L. / D
gen aus M zur Überdeckung von A zugelassen. Die Funktion h1 .A/. Man beachte, dass im Fall ˛ D 1 die Menge A
ı 7! ı ist somit monoton fallend. Setzt man durch volldimensionale Kugeln überdeckt wird, deren Grö-
ße durch die jeweiligen Durchmesser bestimmt ist. Wie das
 .A/ WD sup ı .A/; A  ˝; Borel-Lebesgue-Maß sind auch die Hausdorff-Maße h˛ be-
ı>0 wegungsinvariant. Nach dem Satz über die Charakterisierung
von k als translationsinvariantes Maß mit k ..0; 1/k / D 1
so ist  W P .˝/ ! R eine wohldefinierte Mengenfunktion ergibt sich somit insbesondere für ˛ D k die Gleichheit
mit ı .;/ D 0, die wegen hk D k k für eine Konstante k , die sich zu k D
! 2k  .k=2 C 1/= k=2 bestimmen lässt.
[
1 X
1 X
1
ı An  ı .An /   .An / Mit dem Hausdorff-Maß h˛ ist auch ein Dimensionsbegriff
nD1 nD1 nD1 verknüpft. Sind A 2 Bk mit h˛ .A/ < 1 und ˇ > ˛,
so gilt hˇ .A/ D 0. Es existiert somit ein eindeutig be-
für jedes ı > 0 ein äußeres Maß darstellt. Die Funktion  ist stimmtes .A/  0 mit h˛ .A/ D 0 für ˛ > .A/ und
sogar ein metrisches äußeres Maß, denn sind A; B  ˝ mit h˛ .A/ D 1 für ˛ < .A/. Die Zahl .A/ heißt Hausdorff-
A ¤ ;, B ¤ ; und dist.A; B/ > 0 sowie  .A C B/ < 1 Dimension von A. Jede abzählbare Teilmenge von Rk besitzt
(sonst ist wegen der -Subadditivität von  nichts zu zei- die Hausdorff-Dimension 0, jede Menge mit nichtleerem In-
gen), so gibt es ein ı mit 0 < ı < dist.A; B/. SSind dann neren die Hausdorff-Dimension k. Die Cantor-Menge C 
Cn 2 M mit d .Cn /  ı, n  1, und A C B  1 nD1 Cn , so Œ0; 1 hat die Hausdorff-Dimension log 2= log 3.
8.5 Das Maß-Integral 327

Der Aufbau des Integrals erfolgt in 3 Schritten


Der Aufbau des Integrals erfolgt in drei Schritten:
Ausgehend von der Festsetzung
Z
1A d WD .A/; A 2 A;

für Indikatorfunktionen werden zunächst nichtnegative reell-


wertige Funktionen mit endlichem Wertebereich betrachtet.
In einem zweiten Schritt erfolgt eine Erweiterung des Inte- Abb. 8.12 Elementarfunktion als Treppenfunktion auf R
gralbegriffs auf beliebige nichtnegative Funktionen, indem

Kapitel 8
man diese durch Funktionen mit endlichem Wertebereich ap-
proximiert. Aus .Ai \ Bj / ¤ 0 folgt Ai \ Bj ¤ ; und somit wegen (8.24)
Abschließend löst man sich durch die Zerlegung f D f C  ˛i D ˇj . Es ergibt sich also wie behauptet
f  einer Funktion in Positiv- und Negativteil von der Nicht- X
m X
m X
n
negativitätsbeschränkung. ˛i .Ai / D ˛i .Ai \ Bj /
i D1 i D1 j D1
Wir betrachten zunächst die Menge
X
m X
n X
n
EC WD ff W ˝ ! R j f  0; f A-messbar; f .˝/ endlichg D ˇj .Ai \ Bj / D ˇj .Bj /: 
i D1 j D1 j D1
der sog. Elementarfunktionen auf ˝. Es ist leicht einzusehen,
dass mit f und g auch af (a 2 R0 ), f C g, fg, max.f ; g/
und min.f ; g/ Elementarfunktionen sind. Ist f eine Elementar- Definition des Integrals für Elementarfunktionen
funktion mit f .˝/ D f˛1 ; : : : ; ˛n g, so gilt
X
n Pnf eine Elementarfunktion mit Normaldarstellung f D
Ist
f D ˛j 1fAj g (8.23) j D1 ˛j 1fAj g, so heißt

j D1
Z Z X n

Pn f d WD f d WD .f / WD ˛j .Aj /
mit Aj D f 1 .f˛j g/ 2 A und ˝ D j D1 Aj . Allgemein ˝ j D1
heißt eine Darstellung der Form
P (8.23) mit paarweise disjunkten
Mengen Aj 2 A und ˝ D jnD1 Aj eine Normaldarstellung das (-)Integral von f (über ˝).
von f .
Eine Elementarfunktion kann verschiedene Normaldarstellun-
Kommentar Man beachte, dass das Integral einer Elemen-
gen besitzen. Wichtig für den Aufbau des Integrals ist jedoch die
tarfunktion den Wert 1 annehmen kann. Ist speziell ˝ D R,
folgende Aussage. Sie garantiert, dass die anschließende Defi-
A D B, und sind A1 ; : : : ; An Intervalle, so ist f eine Trep-
nition widerspruchsfrei ist.
penfunktion, die auf dem Intervall Aj den Wert ˛j annimmt
(Abb. 8.12). Ist ˛j D 0, fallsRAj unbeschränkt ist, so beschreibt
Lemma (über Normaldarstellungen) Für je zwei Nor- im Fall  D 1 das Integral f d1 anschaulich die (endliche)
maldarstellungen Fläche zwischen dem Graphen von f und der x-Achse. J
X
m X
n
f D ˛i 1fAi g D ˇj 1fBj g (8.24) Selbstfrage 15
i D1 j D1 Warum kann das Integral einer Elementarfunktion den Wert 1
annehmen?
einer Elementarfunktion f gilt
X
m X
n
˛i .Ai / D ˇj .Bj /: J Beispiel Abb. 8.13 zeigt den Graphen einer Elementarfunk-
i D1 j D1 tion im Fall ˝ D R2 , A D B2 . Hier nimmt f über fünf
aneinandergrenzende Rechtecke der Gestalt
P Pn Aj D f.x1 ; x2 / 2 R2 j aj < x1  aj C1 ; 0 < x2  bg
Beweis Wegen ˝ D m i D1 Ai D j D1 Bj erhält man auf-
grund der Additivität von  (j D 1; : : : ; 5) jeweils einen konstanten positiven Wert ˛j
an und verschwindet außerhalb der Vereinigung dieser Recht-
X
n
ecke, d. h., es gilt f .x1 ; x2 / D 0, falls .x1 ; x2 / 2 A6 WD
.Ai / D .Ai \ Bj /; S
j D1 R2 n . j5D1 Aj /. Wegen 2 .Aj / D .aj C1  aj /b gilt
X
m Z X 5
.Bj / D .Ai \ Bj /: f d2 D ˛j .aj C1  aj /b;
i D1 j D1
328 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Jede nichtnegative messbare Funktion ist


Grenzwert einer isotonen Folge aus EC
Wir erweitern jetzt das -Integral auf die mit
"
EC WD ff W ˝ ! R j f  0; f A-messbarg

bezeichnete Menge aller nichtnegativen, A-messbaren nu-


merischen Funktionen. Ansatzpunkt ist hier, dass jede solche
Funktion Grenzwert einer isotonen Folge von Elementarfunk-
tionen ist. Dabei heißt allgemein eine Folge .fn / numerischer
Kapitel 8

Funktionen auf ˝ isoton bzw. antiton, falls (punktweise auf ˝)


Abb. 8.13 Graph einer Treppenfunktion über R2
fn  fnC1 ; n2N bzw. fn  fnC1 ; n 2 N;

d. h., das Integral ist gleich dem Rauminhalt, den der Graph von gilt. Konvergiert eine isotone bzw. antitone Folge .fn / punkt-
f mit der .x1 ; x2 /-Ebene einschließt. Hierbei haben wir ange- weise in R gegen eine Funktion f , so schreiben wir hierfür kurz
nommen, dass alle ˛j paarweise verschieden sind, sodass eine
Normaldarstellung für f vorliegt. Das nächste Resultat zeigt, fn " f bzw. fn # f :
dass diese Annahme unnötig ist. J

Satz
"
Satz über die Eigenschaften des Integrals Zu jedem f 2 EC existiert eine isotone Folge .un /n1 aus
EC mit un " f .
Für f ; g 2 EC , A 2 A und ˛ 2 R0 gelten:
R
a) R 1A d D .A/,R
b) R .˛f / d D ˛ Rf d (positive
R Homogenität),
Beweis Wir zerlegen den Wertebereich Œ0; 1 von f in die
c) .f C g/ dR D f d R C g d (Additivität), Intervalle Œj =2n ; .j C 1/=2n/, 0  j  n2n  1, sowie Œn; 1
d) f  g H) f d  g d (Monotonie).
und definieren eine Funktion un , indem wir deren Funktions-
werte auf den Urbildern dieser Intervalle konstant gleich dem
dort jeweils kleinstmöglichen Wert von f setzen. Die Funktion
Beweis Die Regeln a) und b) sind unmittelbar klar. Zum un besitzt also die Darstellung
Nachweis
Pm von c) betrachten
P wir Normaldarstellungen
P f D
X
n 1

˛i 1fAi g und g D jnD1 ˇj 1fBj g. Wegen m 1fAi g D n2


j j j C1
Pni D1 i D1
un D 1 n f < C n  1ff  ng: (8.26)
j D1 1fBj g D 1 gilt 2n 2 2n
j D0

X
m X
n X
m X
n
f D ˛i 1fAi \ Bj g; g D ˇj 1fAi \ Bj g; Wegen der Messbarkeit von f liegen die hier auftretenden paar-
i D1 j D1 i D1 j D1 weise disjunkten Mengen in A; die Funktion un ist also eine
(8.25) Elementarfunktion. Nach Konstruktion ist die Folge .un / iso-
ton. Weiter gilt un " f , denn für ein ! mit f .!/ < 1 ist
Pm Pn
und wir erhalten mit f C g D i D1 j D1 .˛i C ˇj /1fAi \ Bj g jun .!/  f .!/j  1=2n für jedes n mit n > f .!/, und im Fall
eine Normaldarstellung von f C g. Es folgt f .!/ D 1 gilt un .!/ D n ! f .!/. 
Z X
m X
n
Abb. 8.14 zeigt einen Ausschnitt der Graphen einer quadrati-
.f C g/ d D .˛i C ˇj /.Ai \ Bj / schen Funktion f sowie der approximierenden Elementarfunk-
i D1 j D1 tion u2 wie in (8.26).
X
m X
n X
n X
m
D ˛i .Ai \ Bj / C ˇj .Ai \ Bj / Selbstfrage 16
i D1 j D1 j D1 i D1
Können Sie die Isotonie der Folge .un / beweisen?
X
m X
n
D ˛i .Ai / C ˇj .Bj /
i D1 j D1 Angesichts dieses Resultats bietet es sich an, das Integral über
Z Z
Rf als Grenzwert der monoton wachsenden Folge der Integrale
D f d C g d: un d zu definieren. Hierzu muss sichergestellt sein, dass die-
ser Grenzwert nicht von der speziellen Folge .un / mit un " f
d) ergibt sich aus Darstellung (8.25), denn f  g zieht ˛i  ˇj abhängt. Diesem Zweck dienen das nächste Lemma und die sich
für jedes Paar i; j mit Ai \ Bj ¤ ; nach sich.  anschließende Folgerung.
8.5 Das Maß-Integral 329

"
Aufgrund der Vorüberlegungen ist das Integral auf EC wohlde-
finiert. Da für ein u 2 EC die konstante Folge u; u; : : : isoton
gegen u konvergiert, ist der Integralbegriff für nichtnegative
messbare Funktionen zudem in der Tat eine Erweiterung des In-
tegrals für Elementarfunktionen.
Die Eigenschaften des Integrals für Elementarfunktionen gelten
"
unverändert auch für Funktionen aus EC . So erhält man etwa
die Additivität des Integrals wie folgt:
"
Sind f ; g 2 EC mit un " f , vn " g (un ; vn 2 EC ), so gilt
un C vn " f C g mit un C vn 2 EC . Es ergibt sich

Kapitel 8
Abb. 8.14 Approximation einer quadratischen Funktion f durch u2
.f C g/ D lim .un C vn /
n!1

Lemma Sind .un /n1 eine isotone Folge aus EC und v 2 EC , D lim Œ.un / C .vn /
n!1
so gilt: D lim .un / C lim .vn /
Z Z n!1 n!1

v  lim un H) v d  lim un d: J D .f / C .g/:


n!1 n!1

P Der Nachweis der Monotonie des Integrals erfolgt mithilfe des


Beweis Es seien v D jmD1 ˛j 1fAj g, wobei Aj 2 A und
˛j 2 R0 (j D 1; : : : ; m) sowie c mit 0 < c < 1 beliebig. letzten Lemmas.
Setzen wir Bn WD fun  c  vg, so folgt wegen der Ungleichung
un  c  v  1fBn g Selbstfrage 17
Z Z "
Können Sie die Monotonie des Integrals auf EC beweisen?
un d  c  v  1fBn g d; n  1: (8.27)

Die Voraussetzung v  limn!1 un liefert Bn " ˝, also auch Da die in (8.26) definierte Folge .un / isoton gegen f konver-
Aj \ Bn " Aj .j D 1; : : : ; m/ und somit giert, erhalten wir mit der Kurzschreibweise
Z X
m Xm .a  f < b/ WD .fa  f < bg/
v d D ˛j .Aj / D lim ˛j .Aj \ Bn /
n!1
j D1 j D1 (analog: .f  a/) die folgende Darstellung, die eine explizite
Z Berechnung des Integrals erlaubt.
D lim v  1fBn g d:
n!1
R R Folgerung (Berechnung des Integrals) Ist f eine nicht-
Aus (8.27) folgt limn!1 un d  c  vd und somit die Be-
negative messbare numerische Funktion auf ˝, so gilt
hauptung, da c < 1 beliebig war. 
Z n2X
n 1   
j j j C1
Folgerung Sind .un /, .vn / isotone Folgen von Elementar- f d D lim   f < C n.f  n/ :
funktionen mit limn!1 un D limn!1 vn , so gilt n!1
j D0
2n 2n 2n
Z Z J
lim un d D lim vn d: J
n!1 n!1

Beweis Die Behauptung folgt aus vk  limn!1 un und uk 


Eine messbare Funktion f ist genau dann
limn!1 vn , k  1, und dem vorigen Lemma.  integrierbar, wenn jf j integrierbar ist
Im letzten Schritt beim Aufbau des Integrals lösen wir uns nun
" von der bislang gemachten Nichtnegativitätsannahme.
Definition des Integrals auf EC
"
Es seien f 2 EC und .un / eine isotone Folge von Ele-
mentarfunktionen mit un " f . Dann heißt Definition (Integrierbarkeit und Integral)
Z Z Z Eine A-messbare numerische Funktion f W ˝ ! R heißt
f d WD f d WD .f / WD lim un d .-/integrierbar, falls gilt:
n!1
˝ Z Z
f C d < 1 und f  d < 1:
das .-/Integral von f .über ˝/.
330 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Beweis Für die Implikation „a) ) b)“ reicht es, u WD f C ,


In diesem Fall heißt v WD f  zu setzen. Um „b) ) c)“ zu zeigen, beachte man, dass
Z Z Z die Funktion u C v aufgrund der Additivität des Integrals auf
"
f d WD .f / WD f C d  f  d (8.28) EC integrierbar ist. Wegen jf j  u C v kann dann g WD u C v
gewählt werden. Die Implikation „c) ) d)“ folgt aus der Mono-
"
tonie des Integrals auf EC : Der Beweisteil „d) ) a)“ ergibt sich
das .-/Integral von f .über ˝/. C 
wegen f  jf j, f  jf j aus der Monotonie des Integrals
Alternative Schreibweisen sind "
auf EC .
Z Z Z
Der Zusatz ergibt sich wie folgt: Mit f D u  v D f C  f 
f .!/ .d!/ WD f d WD f d:
erhält man u C f  D v C f C . Die Additivität des Integrals auf
R R R R
Kapitel 8

˝ "
EC liefert u d C f  d D v d C f C d und somit
wegen (8.28) die Behauptung. 

Kommentar
Weil beide Integrale auf der rechten Seite von (8.28) als Satz über Eigenschaften integrierbarer Funktionen
endlich vorausgesetzt sind, ergibt das Integral einer integrier- Es seien f und g integrierbare numerische Funktionen auf
baren Funktion immer einen endlichen Wert. Da jedoch für ˝ und ˛ 2 R. Dann gelten:
jede reelle Zahl x die Rechenoperationen 1  x D 1 und R
x  1 D 1 definiert sind, R macht die Differenz R in (8.28) a) ˛fR und f C g sind integrierbar, wobei .˛f / d D
auch Sinn, wenn entweder f C d D 1 oder f  d D ˛
R f d (Homogenität),
R R
1 gilt. In diesem Fall heißt f quasi-integrierbar. .f C g/ d D f d C g d (Additivität),
Man beachte auch, dass die obige Definition mit dem Inte- b) max.f ; g/ und min.f
R ; g/ sind
R integrierbar,
"
gralbegriff auf EC verträglich ist: Es gilt ˇR f ˇ g folgt
c) aus R f d  g d (Monotonie),
Z d) ˇ f dˇ  jf j d (Dreiecksungleichung).
"
f 2 EC ist integrierbar () f d < 1:

Die schon bei der Definition des Integrals für Elementarfunk- Beweis a) Die erste Behauptung ergibt sich aus .˛f /C D
tionen und nichtnegative messbare Funktionen R eingeführte ˛f C und .˛f / D ˛f  für ˛  0 bzw. .˛f /C D j˛jf  und
verwendete Schreibweise .f / anstelle von f d macht .˛f / D j˛jf C für ˛  0 und der Homogenität des Integrals
eine funktionalanalytische Sichtweise des Integralbegriffs "
deutlich. Wie gleich gezeigt wird (siehe auch den Satz über auf EC . Wegen f C g D f C C g C  .f  C g  / und der In-
die Vektorraumstruktur von Lp zu Beginn von Abschn. 8.7), tegrierbarkeit von u WD f C C g C und v WD f  C g  folgt die
bildet die mit L1 bezeichnete Menge aller messbaren reellen zweite Aussage aus Teil b) des Satzes über Integrierbarkeitskri-
"
-integrierbaren Funktionen auf ˝ einen Vektorraum über terien und der Additivität des Integrals auf EC . Behauptung b)
R. Auf diesem Vektorraum ist die Zuordnung L1 3 f 7! erhält man aus Teil c) dieses Satzes, denn es gilt j max.f ; g/j 
.f / eine positive Linearform, d. h., es gelten für f ; g 2 L1 jf jCjgj und j min.f ; g/j  jf jCjgj. Um c) zu zeigen, beachte
und a; b 2 R man, dass f  g die Ungleichungen f C  g C und f   g 
nach sich zieht. Die Behauptung folgt dann wegen der Mono-
.af C bg/ D a.f / C b.g/ "
tonie des Integrals auf EC . Die verbleibende Aussage d) ergibt
sowie .f /  0, falls f  0. J sich wegen f  jf j und f  jf j aus c) mit g WD jf j. 

Nach Definition ist eine Funktion genau dann integrierbar, wenn


sowohl ihr Positivteil als auch ihr Negativteil integrierbar sind.
Der folgende Satz liefert Kriterien für die Integrierbarkeit.
Algebraische Induktion in drei Schritten ist
ein Beweisprinzip für messbare Funktionen
Satz über die Integrierbarkeitskriterien
Kommentar Wir sind beim Aufbau des abstrakten Integrals
Für eine A-messbare Funktion f W ˝ ! R sind folgende bzgl. eines allgemeinen Maßes  im Wesentlichen der Vorge-
Aussagen äquivalent: hensweise beim Aufbau des Lebesgue-Integrals (siehe z. B. [1])
a) f C und f  sind integrierbar, gefolgt. Letzteres ergibt sich, wenn der zugrunde liegende Maß-
b) es gibt integrierbare Funktionen u  0, v  0 mit f D raum gleich .Rk ; Bk ; k / ist. Ist eine Borel-messbare Funktion
u  v, f W Rk ! R integrierbar bzgl. k , so nennen wir f Lebesgue-
c) es gibt eine integrierbare Funktion g mit jf j  g, integrierbar und schreiben das k -Integral von f auch in der
d) jf j ist integrierbar. Form
R R R Z Z Z
Aus b) folgt f d D u d  v d.
f .x/ dx WD f .x/  .dx/ WD f dk :
k
8.5 Das Maß-Integral 331

Soll das Integral nur über eine Teilmenge B 2 Bk erfolgen, so In der Folge wird es oft der Fall sein, dass eine Aussage über
kann man wie zu Beginn von Abschn. 8.7 ausgeführt vorgehen eine messbare Funktion f bewiesen werden soll. In Anlehnung
und das Produkt f 1B integrieren, also an den Aufbau des Integrals geht man auch hier in drei Schritten
Z Z Z vor:
f .x/ dx WD f .x/1B .x/ dx WD f 1B dk Zunächst wird die Gültigkeit der Aussage für Elementar-
B funktionen nachgewiesen.
In einem zweiten Schritt beweist man die Aussage für
bilden. Zum anderen kann man die mit Bk bezeichnete Restrik- nichtnegatives f unter Verwendung des Satzes über die
tion von k auf die Spur B \ Bk von Bk in B betrachten und Approximation nichtnegativer messbarer Funktionen durch
die Restriktion fB von f auf B bzgl. Bk integrieren. Dass man Elementarfunktionen.
mit dieser Vorgehensweise ganz allgemein zum gleichen Ziel Schließlich nutzt man die Darstellung f D f C  f  aus,

Kapitel 8
gelangt, zeigt das folgende Resultat. J um die Aussage für allgemeines f zu beweisen.
Dieses oft algebraische Induktion genannte Beweisprinzip
Satz soll anhand zweier Beispiele vorgestellt werden. Dabei seien
" .˝; A/ ein beliebiger Messraum und f W ˝ ! R eine messba-
Es seien .˝; A; / ein Maßraum und f 2 EC . Für eine re numerische Funktion.
Menge A 2 A bezeichnen A die Restriktion von  auf
die Spur--Algebra A \ A von A in A und fA die Re-
striktion von f auf A. Dann ist fA auf A messbar bzgl. Beispiel
A \ A, und es gilt
Es seien !0 2 ˝ und ı!0 das Dirac-Maß in !0 . Dann ist f
Z Z Z genau dann ı!0 -integrierbar, falls jf .!0 /j < 1. In diesem
fA dA D f d WD f 1A d: (8.29) Fall gilt
A Z
f dı!0 D f .!0 /:

Beweis Aus Aufgabe 8.30 folgt die behauptete Messbarkeit


" Pn Beweis betrachten wir eine Elementarfunktion f D
Zum
von fA . Da das Produkt f 1A in EC liegt, gibt es eine Folge .un /
j D1 ˛j 1fAj g in Normaldarstellung. Es gilt !R0 2 Ak für
aus EC mit un " f 1A . Bezeichnet un die Restriktion von un auf genau ein k 2 f1; : : : ; ng, und somit folgt f dı!0 D
A, so ist .un / eine Folge von Elementarfunktionen auf A mit Pn "
un " fA . Nach Definition des Integrals folgt j D1 ˛j ı!0 .Aj / D ˛k D f .!0 /. Sind f 2 EC und
.un / eine Folge aus EC mit un " f , also insbesondere
Z Z Z Z
R .!0 / D limn!1 un .!0 /, so gilt nach dem bereits Gezeigten
f
f d D lim un d; fA dA D lim un dA : un dı!0 D un .!0 /, n  1. Nach Definition des Integrals
n!1 n!1
" R R
A auf EC gilt f dı!0 D limn!1 un dı!0 . Hieraus folgt
"
Wegen 0  un  f 1A gilt un D un 1A . Somit ist un von der die Behauptung für f 2 EC . Ist f eine beliebige messbare
Pn
Gestalt un D jkD1 ˛j ;n 1fAj ;n g mit ˛j ;n 2 R0 und Mengen numerische
R C Funktion, so gilt
R nach dem bereits Bewiesenen
Aj ;n 2 A \ A. Bezeichnet allgemein 1Q die auf A definierte f dı!0 D f C .!0 / und f  dı!0 D f  .!0 /. f ist ge-
Indikatorfunktion einer Menge Q  A, so ergibt sich un D nau dann integrierbar, wenn beide Integrale endlich sind, was
Pkn
j D1 ˛j ;n 1 fAj ;n g und somit
 Rmit jf .!0 /j < C1 gleichbedeutend ist. In diesem Fall gilt
f dı!0 D f .!0 /  f  .!0 / D f .!0 /, was zu zeigen
Z Z war.
un d D un dA ; n  1; Es sei .nP /n1 eine Folge von Maßen auf A und  das durch
.A/ WD j1D1 j .A/, A 2 A, definierte Maß. Für eine A-
woraus die Behauptung folgt.  messbare Funktion f W ˝ ! R gilt:

Ist f in der obigen Situation eine -integrierbare numeri- 1 Z


X
sche Funktion auf ˝, so kann man den Satz getrennt auf f C f ist -integrierbar () jf j dn < 1:
und f  anwenden und erhält ebenfalls (8.29). Liegt spezi- nD1
ell der Maßraum .B; B \ Bk ; Bk / zugrunde, so heißt für eine
.B \ Bk ; B/-messbare und Bk -integrierbare numerische Funk- Im Falle der Integrierbarkeit gilt
tion f W B ! R Z 1 Z
X
Z Z Z f d D f dn : (8.30)
f .x/ dx WD f .x/ B .dx/ WD f dBk
k
nD1
B B
Das Integral bzgl. einer Summe von Maßen ist also die Sum-
das Lebesgue-Integral von f über B. me der einzelnen Integrale.
332 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Unter der Lupe: Riemann- und Lebesgue-Integral

In der Analysis wird anstelle des Lebesgue-Integrals häu- und es gilt g  f  h. Mithilfe des Satzes von der domi-
fig das Riemann-Integral eingeführt. Wir werden sehen, dass nierten Konvergenz ergibt sich
unter allgemeinen Voraussetzungen beide Ansätze zum glei- Z Z
Śk k
chen Ergebnis führen. Sei hierzu Œa; b D j D1 Œaj ; bj  lim Un D g d ; lim On D h dk ;
n!1 n!1
mit a < b ein kompakter k-dimensionaler Quader, und sei Œa;b Œa;b
f W Œa; b ! R eine beschränkte, Borel-messbare
R Funkti-
on. Dann existiert das Lebesgue-Integral Œa;b f dk , aber sodass (8.32) die Gleichung
Rb Z
Kapitel 8

existiert auch das mit R- a f .x/ dx bezeichnete Riemann-


Integral über Œa; b, und stimmen beide überein? Bezeichnet .h  g/ dk D 0
D die Menge der Unstetigkeitsstellen von f , so kommt es Œa;b
hierfür entscheidend darauf an, ob k .D/ D 0 gilt.
nach sich zieht. Wegen h  g  0 liefert Folgerung a) aus der
Wir nehmen zunächst an, f sei Riemann-integrierbar, und Makov-Ungleichung h D g k -fast überall und somit auch
zerlegen für jedes n  1 mit der Abkürzung ıj WD bj  f D g k -fast überall (es gilt g  f  h!). Nach dem Satz
aj das Intervall Œaj ; bj  in die Intervalle Œaj ; aj C 2n ıj , über die Nullmengen-Unempfindlichkeit des Integrals ergibt
.aj C `2n ıj ; aj C .` C 1/2n ıj , ` D 1; : : : ; 2n  2, sich
und .bj  2n ıj ; bj , j 2 f1; : : : ; kg. Durch Bildung der Z Zb
kartesischen Produkte dieser Intervalle erhalten wir dann k
f d D R- f .x/ dx:
für jedes n eine mit Zn bezeichnete Zerlegung von Œa; b a
Œa;b
in 2nk paarweise disjunkte k-dimensionale Intervalle In;` ,
` D 1; : : : ; 2nk . Bezeichnet allgemein A die abgeschlosse- Schreiben wir M für die Menge der Randpunkte aller In;`
ne Hülle einer Menge A  Rk , so definieren wir mithilfe (n  1; ` 2 f1; : : : ; 2nk g), so gehört jede Unstetigkeitsstelle
von x von f entweder zu M , oder es gilt g.x/ < h.x/. Wir er-
halten also die Teilmengenbeziehung D  M [ fg < hg
un;` WD infff .x/ j x 2 I n;` g; und somit k .D/  k .M / C k .g < h/ D 0. Die
vn;` WD supff .x/ j x 2 I n;` g Riemann-Integrierbarkeit von f zieht also notwendigerwei-
se k .D/ D 0 nach sich. Setzen wir umgekehrt k .D/ D 0
die „Treppenfunktionen“ voraus, so gilt wegen fg < hg  D die Beziehung g D h
nk k -f.ü. und somit limn!1 Un D limn!1 Vn . Die Funktion f
X
2
ist also Riemann-integrierbar.
gn WD un;` 1fIn;` g;
`D1 Wir merken an dieser Stelle an, dass sich die obigen Überle-
X
2nk gungen dahingehend verallgemeinern lassen, dass der Defi-
hn WD vn;` 1fIn;` g: nitionsbereich von f eine Jordan-messbare Teilmenge des
`D1 Rk ist (siehe die Hintergrund-und-Ausblick-Box über das
Borel-Lebesgue-Maß, das Lebesgue-Maß und den Jordan-
Nach Konstruktion gilt dann für jedes n  1 Inhalt in Abschn. 8.3).
gn  gnC1 ; hnC1  hn ; gn  f  hn ; (8.31) Das klassische Beispiel einer Lebesgue-, aber nicht
Riemann-integrierbaren Funktion ist die Dirichletsche
und es sind Sprungfunktion f W Œ0; 1 ! R, die durch f .x/ WD 1, falls
Z Z
x 2 Q, und f .x/ WD 0, sonst, definiert ist. Da die Ober-
Un WD gn dk ; On WD hn dk und Untersumme von f zu jeder Zerlegung von Œ0; 1 die
Œa;b Œa;b Werte 1 bzw. 0 annehmen, ist f nicht Riemann-integrierbar.
Andererseits gilt f D 0 1 -fast überall, sodass f (mit dem
die Riemannschen Unter- bzw. Obersummen von f zur Integralwert 0) Lebesgue-integrierbar ist.
Zerlegung Zn . Aufgrund der angenommenen Riemann-
Integrierbarkeit gilt Abschließend sei betont, dass man bei der Integration über
unbeschränkte Bereiche Vorsicht walten lassen muss! Im Fall
Zb des Riemann-Integrals hat man es dann mit uneigentlichen
lim Un D R- f .x/ dx D lim On : (8.32) Integralen zu tun. Obgleich hier im Fall k  2 die Integrier-
n!1 n!1
a barkeit von jf j gefordert wird (siehe [24], S.255–256), trifft
dies im Fall k D 1 nicht zu. Ein prominentes Beispiel ist die
Wegen (8.31) existieren die (beschränkten und Borel- Funktion f .x/ D sin.x/=x für x > 0 und f .0/ WD 1. Diese
messbaren) Funktionen ist über Œ0; 1/ nicht Lebesgue-integrierbar, aber (als Inte-
g WD lim gn ; h WD lim hn ; gral von Dirichlet uneigentlich Riemann-integrierbar (siehe
n!1 n!1 das Beispiel nach dem Satz von Fubini in Abschn. 8.9),
8.6 Nullmengen, Konvergenzsätze 333
Pn
Auch hier erfolgt der Nachweis durch algebraische Indukti- Beweis a) Ist h D j D1 ˛j 1fAj0 g (Aj0 2 A0 , ˛j  0) eine
on. Machen Sie sich klar, dass die Behauptung aufgrund des Elementarfunktion auf ˝ 0 , so gilt
großen Umordnungssatzes (siehe z. B. [1], Abschn. 10.4) für Z
" X
n
Elementarfunktionen gilt. Ist f 2 EC , und ist .uk / eine iso- h df D ˛j f .Aj0 /
ton gegen f konvergierende Folge aus EC , so setzen wir für j D1
k; m  1
X
n

m Z D ˛j .f 1 .Aj0 //
X
j D1
˛k;m WD uk dj :
X
n Z
j D1
D ˛j 1ff 1 .Aj0 /g d

Kapitel 8
j D1
Wegen supk1 .supm1 ˛k;m / D supm1 .supk1 ˛k;m / gilt
Z X
n 
dann ebenfalls (8.30). Im allgemeinen Fall führe man wie-
der die Zerlegung f D f C  f  durch. J D ˛j 1ff 1 .Aj0 /g d
j D1
Z
D h ı f d:
Integration bezüglich des Zählmaßes auf N
bedeutet Summation Ist .un / eine Folge von Elementarfunktionen auf ˝ 0 mit un " h,
so ist .un ı f / eine Folge von Elementarfunktionen auf ˝ mit
un ı f " h ı f . Nach dem bereits Bewiesenen ergibt sich
P1 Beispiel speziell .˝; A/ D .N; P .N//
Wählt man im letzten
Z Z Z
und setzt  D nD1 ın , so ist  das Zählmaß auf N. Eine f f
Funktion f W N ! R ist durch die Folge .f .n//n1 ihrer Funk- h d D lim un d D lim un ı f d
n!1 n!1
tionswerte beschrieben. Es gilt: Z
D h ı f d:
X
1
f ist -integrierbar () jf .n/j < 1: R R R
b)
R Nach a) gilt hC df D hC ı f d und h df D
nD1
h ı f d. Wegen .h ı f /C D hC ı f und .h ı f / D h ı f
folgt die Behauptung. 
Im Falle der Integrierbarkeit gilt
Z X
1 Beispiel Wir betrachten den Maßraum .Rk ; Bk ; k / und den
f d D f .n/: Messraum .Rk ; Bk / sowie eine Lebesgue-integrierbare Funkti-
nD1 on f W Rk ! R. Für a 2 Rk bezeichne wie früher Ta W Rk !
Rk die durch Ta .x/ WD x C a, x 2 Rk , definierte Translation
Integration bzgl. des Zählmaßes auf N bedeutet also Summati- um a. Der Transformationssatz liefert
on. Z Z
f dTa .k / D f ı Ta dk ;
Zum Schluss dieses Abschnitts soll das Prinzip der algebrai-
Rk Rk
schen Induktion anhand des wichtigen Transformationssatzes
für Integrale demonstriert werden. was wegen der Translationsinvarianz von k die Gestalt
Z Z
f .x/ dx D f .x C a/ dx; a 2 Rk ;
Transformationssatz für Integrale
Rk Rk
0 0
Es seien .˝; A; / ein Maßraum, .˝ ; A / ein Messraum
annimmt. J
und f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung.
a) Es sei h W ˝ 0 ! R A0 -messbar, h  0. Dann gilt
Z Z 8.6 Nullmengen, Konvergenzsätze
h df D h ı f d: (8.33)
In diesem Abschnitt sei .˝; A; / ein beliebiger Maßraum. Ei-
˝0 ˝ ne Menge A 2 A heißt (-)Nullmenge, falls .A/ D 0 gilt.
Nullmengen sind aus Sicht der Maß- und Integrationstheorie
b) Es sei h W ˝ 0 ! R A0 -messbar. Dann gilt: vernachlässigbar. So werden wir gleich sehen, dass sich das In-
tegral einer Funktion nicht ändert, wenn man den Integranden
h ist f -integrierbar () h ı f ist -integrierbar. auf einer Nullmenge ändert. Man beachte, dass die Betonung
des Maßes  bei der Definition einer Nullmenge wichtig ist
In diesem Fall gilt ebenfalls (8.33). und nur weggelassen wird, wenn das zugrunde liegende Maß
unzweideutig feststeht.
334 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Beispiel
Es sei .˝; A/ D .R; B/. Dann ist die Menge A WD R n f0g
Nullmenge bzgl. des Dirac-Maßes ı0 im Nullpunkt, für das
Borel-Lebesgue-Maß 1 gilt jedoch 1 .A/ D 1.
Jede Hyperebene H des Rk ist eine k -Nullmenge, d. h., es
gilt k .H / D 0. Um diesen Sachverhalt einzusehen, kön-
nen wir wegen der Bewegungsinvarianz von k o.B.d.A.
annehmen, dass H zu einer der Koordinatenachsen des Rk
orthogonal ist. Gilt dies etwa für die j -te Koordinatenach-
se, so gibt es ein a 2 R mit H D fx D .x1 ; : : : ; xk / 2
Rk j xj D ag. Als abgeschlossene Menge liegt H in Bk . Abb. 8.15 f ¤ 0 1 -f.ü., aber f D 0 ı0 -f.ü
Kapitel 8

Zu beliebig vorgegebenem " > 0 bezeichnen un und vn


diejenigen Punkte im Rk , deren sämtliche Koordinaten mit
Ausnahme der j -ten gleich n bzw. n sind. Die j -te Koor- Das nachstehende Resultat besagt, dass das -Integral durch
dinate von un sei a  2n .2n/1k ", die von vn gleich a. Dann Änderungen des Integranden auf -Nullmengen nicht beein-
gilt flusst wird.

[
1
H  .un ; vn ; Satz über die Nullmengen-Unempfindlichkeit des Inte-
nD1 grals

und wegen k ..un ; vP k1 n


2 .2n/1k " D "=2n Es seien f und g A-messbare numerische Funktionen auf
n / D .2n/
folgt k .H /  1
 k
..u ; v /  " und somit ˝ mit f D g -fast überall. Dann gilt:
nD1 n n
k .H / D 0.
f ist -integrierbar () g ist -integrierbar:
Aus dem obigen Beispiel folgt
R R
In diesem Fall folgt f d D g d.
k ..a; b/ D k ..a; b// D k .Œa; b// D k .Œa; b/ (8.34)

für alle a; b 2 Rk mit a < b, denn die Borel-Menge


Œa; b n .a; b/ ist Teilmenge der Vereinigung von endlich vie- Beweis Wegen ff C ¤ g C g [ ff  ¤ g  g  ff ¤ gg
len Hyperebenen des oben beschriebenen Typs. J kann o.B.d.A. f  0 und g  0 angenommen werden. Sei
N WD ff ¤ gg (2 A) sowie h WD 1  1N : Für die Ele-
mentarfunktionen hn WD n  1N , n 2 N, gilt hn " h und
Das -Integral bleibt bei Änderung des .hn / D n  .N / D 0, also .h/ D 0. Wegen g  f C h und
f  g C h folgt aus der Integrierbarkeit von f die Integrier-
Integranden auf einer -Nullmenge gleich barkeit von g und umgekehrt sowie im Falle der Integrierbarkeit
die Gleichheit der Integrale. 
Ist E eine Aussage derart, dass für jedes ! 2 ˝ definiert ist, ob
E für ! zutrifft oder nicht, so sagt man, E gilt -fast überall
und schreibt hierfür kurz „E -f.ü.“, wenn es eine -Nullmenge Markov-Ungleichung
N gibt, sodass E für jedes ! in N c zutrifft.
Es sei f W ˝ ! R A-messbar und nichtnegativ. Dann
gilt für jedes t > 0: Z
Achtung Offenbar wird nicht gefordert, dass die Ausnahme- 1
menge f! 2 ˝ j E trifft nicht zu für !g in A liegt. Entschei- .ff  t g/   f d:
dend ist nur, dass diese Ausnahmemenge in einer -Nullmenge t
enthalten ist. In diesem Zusammenhang sei daran erinnert, dass
nur bei einem vollständigen Maßraum die -Algebra A mit
jeder -Nullmenge N auch sämtliche Teilmengen von N ent- Beweis Es gilt (punktweise auf ˝) 1ff  t g  t 1  f . In-
hält (siehe die Hintergrund-und-Ausblick-Box über das Borel- tegriert man beide Seiten dieser Ungleichung bzgl. , so liefert
Lebesgue-Maß, das Lebesgue-Maß und den Jordan-Inhalt in die Monotonie des Integrals die Behauptung. 
Abschn. 8.3). J
Folgerung
Beispiel Es seien f ; g W ˝ ! R. Dann gilt f D g -f.ü. a) Ist f W ˝ ! R A-messbar und nichtnegativ, so gilt:
genau dann, wenn es eine Menge N 2 A mit .N / D 0 Z
gibt, sodass f .!/ D g.!/ für jedes ! 2 N c gilt. Sind f f d D 0 () f D 0 -f.ü. (8.35)
und g A-messbar, so ist f D g -f.ü. gleichbedeutend mit
.ff ¤ gg/ D 0, denn es gilt ff ¤ gg 2 A. Im Spezialfall
b) Ist f W ˝ ! R A-messbar und -integrierbar, so gilt
.˝; A/ D .R; B/ und f .x/ D x 2 , x 2 R, sowie g  0 gilt
etwa f ¤ g 1 -f.ü., aber f D g ı0 -f.ü. (Abb. 8.15). J .fjf j D 1g/ D 0; d. h. jf j < 1 -f.ü. J
8.6 Nullmengen, Konvergenzsätze 335

Beweis a): Die Implikation „(H“ folgt aus dem Satz über Beweis Wegen der Isotonie der Folge .fn / existiert (in R)
die Nullmengen-Unempfindlichkeit des Integrals. Die Umkeh- der Grenzwert f WD limn!1 fn als messbare Funktion, und
rung ergibt sich aus der Markov-Ungleichung, indem man dort fn  f hat
t RD n1 , n 2 N, setzt. Es folgt dann .ff  n1 g/  Z Z
n f d D 0 für jedes n  1 und somit wegen ff > 0g 
S 1 1 lim fn d  f d (8.36)
nD1 ff  n g n!1

X
1
  zur Folge. Sei .un;k /k1 eine Folge von Elementarfunktionen
.ff > 0g/   ff  n1 g D 0: mit un;k "k!1 fn ; n  1. Setzen wir
nD1
vk WD max.u1;k ; u2;k ; : : : ; uk;k /; k 2 N;
b): Die Markov-Ungleichung mit t DR n, n 2 N, angewendet

Kapitel 8
auf jf j, liefert .fjf j  ng/  n1 jf j d. Wegen fjf j D so ist .vk /k1 eine isotone Folge von Elementarfunktionen mit
1g  fjf j  ng, n 2 N, folgt die Behauptung.  vk  fk , k  1, also limk!1 vk  f . Es gilt aber auch f 
limk!1 vk , denn es ist un;k  vk für n  k und somit
Beispiel Da die Menge Q der rationalen Zahlen abzählbar lim un;k D fn  lim vk ; n 2 N:
und damit eine 1 -Nullmenge ist, ist die auch als Dirichletsche k!1 k!1
Sprungfunktion bekannte Indikatorfunktion 1Q W R ! R 1 - R R R
fast überall gleich der Nullfunktion, und somit gilt Es folgt f d D limk!1 vk d  limn!1 fn d, was
zusammen mit (8.36) die Behauptung liefert. 
Z
1Q d1 D 0: Wendet man den obigen Satz auf die isotone Folge der Partial-
summen der fn an, so ergibt sich:
Im Falle des Zählmaßes  auf N und einer nichtnegativen Funk-
tion f W N ! Œ0; 1 gilt Folgerung Für jede Folge .fn /n1 nichtnegativer A-
Z messbarer numerischer Funktionen auf ˝ gilt
X
1
f d D f .n/ D 0 () f  0: Z X
1 1 Z
X
nD1 fn d D fn d: J
nD1 nD1
Hier hat also das Verschwinden des Integrals zur Folge, dass f
identisch gleich der Nullfunktion ist. J Wir wollen uns jetzt von der Isotonie der Funktionenfolge
.fn / lösen. In diesem Zusammenhang ist das folgende, auf den
französischen Mathematiker Pierre Joseph Louis Fatou (1878–
Bei monotoner oder dominierter Konvergenz 1929) zurückgehende Resultat hilfreich.
sind Limes- und Integralbildung vertauschbar
Lemma von Fatou
Der folgende, nach dem italienischen Mathematiker Beppo Levi
(1875–1961) benannte wichtige Satz besagt, dass bei isotonen Es sei .fn /n1 eine Folge nichtnegativer A-messbarer nu-
Folgen nichtnegativer Funktionen Integral- und Limes-Bildung merischer Funktionen auf ˝. Dann gilt
vertauscht werden dürfen. Z Z
lim inf fn d  lim inf fn d:
Video 8.7 Der Satz von der monotonen Konvergenz (Beppo n!1 n!1
Levi)

Beweis Sei gn WD infkn fk , n  1. Es gilt g1  g2  : : :


und lim infn!1 fn D limn!1 gn . Aus dem Satz von Beppo Le-
vi und der Ungleichung gn  fn ; n  1, folgt
Z Z Z
lim inf fn d D lim gn d  lim inf fn d: 
n!1 n!1 n!1
Satz von der monotonen Konvergenz, Beppo Levi
Ist .fn / eine isotone Folge nichtnegativer A-messbarer Video 8.8 Das Lemma von Fatou
numerischer Funktionen auf ˝, so gilt
Z Z
lim fn d D lim fn d:
n!1 n!1
336 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Das folgende Beispiel zeigt, dass die obige Ungleichung strikt


sein kann. Außerdem hilft sie, sich deren Richtung zu merken.

Beispiel Es seien .˝; A; / D .R; B; 1 / und fn D 1Œn;nC1 ,


n 2R N. Dann gilt fn .x/ ! f .x/ DR 0, x 2 R, so-
wie Rfn d1 D 1 und folglich 0 D lim inf fn d1 <
1
lim inf fn d D 1. J Abb. 8.16 Für die Folge .fn / fehlt eine integrierbare Majorante

Der nachstehende Satz von der dominierten Konvergenz (auch:


Satz von der majorisierten Konvergenz) ist ein schlagkräftiges aus. Hierzu beachte man, dass g nach der Folgerung aus der
Kapitel 8

Instrument zur Rechtfertigung der Vertauschung von Limes- Markov-Ungleichung -f.ü. endlich ist und die Menge
und Integral-Bildung im Zusammenhang mit Funktionenfolgen. [
1
N WD ff ¤ lim fn g [ fjfn j > gg [ fg D C1g
n!1
nD1
Satz von der dominierten Konvergenz, H. Lebesgue als Vereinigung abzählbar vieler Nullmengen aufgrund der -
Es seien f ; f1 ; f2 ; : : : A-messbare numerische Funktio- e WD
Subadditivität von  eine Nullmenge darstellt. Setzen wir f
nen auf ˝ mit
c e
f  1fN g; f n WD fn  1fN g; n  1; e
c
g WD g  1fN g; so gilt
c
en ! f
f e , jf
en j  e
g < 1, und nach dem bereits Gezeigten folgt
f D lim fn -f.ü. .fe/ D limn!1 .f en /. Wegen .f / D .fe/ und .f en / D
n!1
.fn / folgt die Behauptung. 
Gibt es eine -integrierbare nichtnegative numerische Video 8.9 Der Satz von der dominierten (majorisierten) Kon-
Funktion g auf ˝ mit der Majorantenbedingung vergenz
jfn j  g -f.ü.; n  1;

so ist f -integrierbar, und es gilt


Z Z
f d D lim fn d:
n!1
Kommentar Der Beweis des Satzes von der dominierten
Konvergenz schreibt die Betragsungleichung jfn j  g in die
beiden Ungleichungen 0  g C fn und 0  g  fn um und wen-
det auf jede der Funktionenfolgen .g C fn / und .g  fn / das
Beweis Wir nehmen zunächst g.!/ < 1, ! 2 ˝, sowie Lemma von Fatou an. Dass gewisse Voraussetzungen nur -fast
fn ! f und jfn j  gR für jedes n  1 an und erinnern an überall gelten, ist kein Problem, da das Integral durch Ände-
die Notation .f / D f d. Wegen fn ! f und der im rungen des Integranden auf Nullmengen nicht beeinflusst wird.
Satz formulierten Majorantenbedingung gilt jf j  g, sodass Insofern können auch die Voraussetzungen des Satzes von der
f integrierbar ist. Aus jfn j  g folgt 0  g C fn , weshalb monotonen Konvergenz abgeschwächt werden. So darf etwa die
g C fn ! g C f und das Lemma von Fatou Ungleichung fn  fnC1 auf einer Nullmenge verletzt sein.

.g C f /  lim inf .g C fn / D .g/ C lim inf .fn / Wie das nachstehende Beispiel zeigt, spielt die Existenz einer
n!1 n!1 „die Folge .fn / dominierenden Majorante“ eine entscheidende
Rolle. J
und somit .f /  lim infn!1 .fn / liefern. Andererseits folgt
aus 0  g  fn ! g  f und dem Lemma von Fatou Beispiel Es seien .˝; A; / D .R; B; 1 / und fn D 1Œn;2n ,
n 2 N. R Dann gilt fn .x/ ! 0 für jedes x 2 R, aber
.g  f /  lim inf .g  fn / D .g/  lim sup .fn / limn!1 fn d1 D 1 (siehe Abb. 8.16). Der Satz von der
n!1 n!1
dominierten Konvergenz ist nicht anwendbar, weil eine inte-
und somit lim supn!1 .fn /  .f /. Insgesamt ergibt sich grierbare Majorante g fehlt. Letztere müsste die Ungleichung
wie behauptet .f / D limn!1 .fn /. g  1Œ1;1/ erfüllen, wäre dann aber nicht 1 -integrierbar. J

Um der Tatsache Rechnung zu tragen, dass g auch den Wert 1 Der Satz von der dominierten Konvergenz garantiert, dass wie
annehmen kann und die Konvergenz von fn gegen f sowie die im folgenden Satz unter gewissen Voraussetzungen die Vertau-
Ungleichungen jfn j  g nur -fast überall gelten, nutzen wir schung von Differenziation und Integration, also die Differenti-
den Satz über die Nullmengen-Unempfindlichkeit des Integrals ation unter dem Integralzeichen, erlaubt ist.
8.7 Lp -Räume 337

8.7 L p -Räume
Satz über die Ableitung eines Parameterintegrals
Es seien .˝; A; / ein Maßraum, U eine offene Teil- In diesem Abschnitt seien .˝; A; / ein Maßraum und p eine
menge von R und f W U  ˝ ! R eine Funktion mit positive reelle Zahl. Mit der Festsetzung j1jp WD 1 betrachten
folgenden Eigenschaften: wir messbare numerische Funktionen
R f auf ˝, für die jf jp -
p
integrierbar ist, für die also jf j d < 1 gilt. Eine derartige
! 7! f .t ; !/ ist -integrierbar für jedes t 2 U , Funktion heißt
t 7! f .t ; !/ ist auf U differenzierbar für jedes ! 2 ˝;
die Ableitung werde mit @ t f .t ; !/ bezeichnet, p-fach (-)integrierbar. Im Fall p D 2 spricht man auch von
es gibt eine -integrierbare Funktion h W ˝ ! R mit quadratischer Integrierbarkeit. Für eine solche Funktion set-
zen wir
Z 1=p

Kapitel 8
j@ t f .t ; !/j  h.!/; ! 2 ˝; t 2 U : (8.37)
kf kp WD jf jp d : (8.39)
Dann ist die durch
Z
'.t / WD f .t ; !/ .d!/ (8.38) Eine messbare numerische Funktion f heißt -fast überall be-
schränkt, falls eine Zahl K mit 0  K < 1 existiert, sodass
definierte Abbildung ' W U ! R differenzierbar. Wei- .fjf j > Kg/ D 0 gilt. In diesem Fall setzen wir
ter ist für jedes t 2 U die Funktion ! 7! @ t f .t ; !/
-integrierbar, und es gilt kf k1 WD inf fK > 0 j .fjf j > Kg/ D 0g
Z
und nennen kf k1 das wesentliche Supremum von f . Man
' 0 .t / D @ t f .t ; !/ .d!/: beachte, dass die Größen kf kp und kf k1 (eventuell mit dem
Wert 1) für jede messbare numerische Funktion auf ˝ erklärt
sind.
Beweis Es seien t 2 U fest und .tn / eine Folge in U mit
tn ¤ t für jedes n sowie tn ! t . Setzen wir Beispiel Es seien .˝; A; / D .R; B; 1 / und a 2 R mit
a > 0. Dann ist die durch f .x/ WD 1=x a für x  1 und
f .tn ; !/  f .t ; !/
fn .!/ WD ; ! 2 ˝; f .x/ WD 0 sonst definierte Funktion p-fach 1 -integrierbar,
tn  t falls ap > 1. In diesem Fall ist
so gilt fn .!/ ! @ t f .t ; !/ aufgrund der Differenzierbarkeit der
0 11 =p
Funktion t ! f .t ; !/. Als punktweiser Limes Borel-messbarer Z1
1
Funktionen ist ! ! @ t f .t ; !/ Borel-messbar. Nach dem Mit- kf kp D @ dx A D .ap  1/1=p :
telwertsatz und (8.37) gilt jfn .!/j D j@ t f .sn ; !/j  h.!/ mit x ap
1
einem Zwischenpunkt sn , wobei jsn  t j  jtn  t j. Die Linea-
rität des Integrals und der Satz von der dominierten Konvergenz Die durch g.x/ WD 1, falls x 2 Q, und g.x/ WD 1 sonst de-
liefern dann finierte Funktion ist wegen 1 .jgj > 1/ D 1 .Q/ D 0 (siehe
Z Z
'.tn /  '.t / Aufgabe 8.15) 1 -fast überall beschränkt, und es gilt kgk1 D 1.
D fn d ! @ t f .t ; !/ .d!/;
tn  t J
was zu zeigen war. 
Im Folgenden bezeichnen
In gleicher Weise zeigt man die Stetigkeit von Parameterinte- ˚ ˇ 
gralen: Lp WD Lp .˝; A; / WD f W ˝ ! Rˇ kf kp < 1
˚ ˇ 
L1 WD L1 .˝; A; / WD f W ˝ ! R ˇ kf k1 < 1
Satz über die Stetigkeit eines Parameterintegrals
die Menge der p-fach integrierbaren bzw. der -fast überall
In der Situation des vorigen Satzes gelte: beschränkten reellen messbaren Funktionen auf ˝.
! 7! f .t ; !/ ist -integrierbar für jedes t 2 U ,
t 7! f .t ; !/ ist stetig für jedes ! 2 ˝, Satz über die Vektorraumstruktur von L p
es gibt eine -integrierbare Funktion h W ˝ ! R mit
jf .t ; !/j  h.!/ für jedes ! 2 ˝ und jedes t 2 U . Für jedes p mit 0 < p  1 ist die Menge Lp (mit der
Addition von Funktionen und der skalaren Multiplikation)
Dann ist die in (8.38) erklärte Funktion stetig auf U . ein Vektorraum über R.

Selbstfrage 18
Können Sie dieses Ergebnis beweisen? Beweis Offenbar gehört für jedes p 2 .0; 1 und jedes
˛ 2 R mit einer Funktion f auch die Funktion ˛f zu Lp . Des
338 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Weiteren liegt im Fall p < 1 wegen

jf C gjp  .jf j C jgj/p  .2 max.jf j; jgj//p


 2p jf jp C 2p jgjp

mit je zwei Funktionen f und g auch die Summe f C g in Lp .


Folglich ist Lp ein Vektorraum über R: Wegen

.fjf C gj > K C Lg/  .fjf j > Kg/ C .fjgj > Lg/

ist auch L1 ein Vektorraum über R. 


Kapitel 8

Selbstfrage 19
Warum gilt die letzte Ungleichung?

Abb. 8.17 Zur Hölderschen Ungleichung


Wir werden sehen, dass die Menge Lp , versehen mit der Abbil-
dung f 7! kf kp , für jedes p mit 1  p  1 (nicht aber für
p < 1!) ein halbnormierter Vektorraum ist, d. h., es gelten für Offenbar kann zum Nachweis der Hölder-Ungleichung o.B.d.A.
f ; g 2 Lp und ˛ 2 R: 0 < kf kp , kgkq < 1 angenommen werden. Nach (8.41) gilt
punktweise auf ˝
kf kp  0;
f  0 ) kf kp D 0; jf j jgj 1 jf jp 1 jgjq
 p C :
k˛ f kp D j˛j  kf kp .Homogenität/; kf kp kgkq p kf kp q kgkqq
kf C gkp  kf kp C kgkp .Dreiecksungleichung/:
Integration bzgl.  liefert
Als Vorbereitung hierfür dient die nachfolgende, auf Ludwig Ot-
1 1 1
to Hölder (1859–1937) zurückgehende Ungleichung.  kfgk1   1 C  1 D 1: 
kf kp kgkq p q

Als Spezialfall der Hölder-Ungleichung ergibt sich für p D


Hölder-Ungleichung q D 2 die nach Augustin Louis Cauchy (1789–1857) und
Es sei p 2 R mit 1 < p < 1 und q definiert durch Hermann Amandus Schwarz (1843–1921) benannte Cauchy-
1
p
C q1 D 1. Dann gilt für je zwei messbare numerische Schwarz-Ungleichung
Funktionen f und g auf ˝
Z sZ Z
Z Z 1=p Z 1=q jfgj d  2
f d g 2 d: (8.42)
p q
jfgj d  jf j d jgj d

Die Gleichung 1=p C 1=q D 1 macht auch für p D 1 und q D


oder kürzer 1 Sinn, und in der Tat (siehe Aufgabe 8.43) gilt in Ergänzung
zu (8.40) die Ungleichung
kfgk1  kf kp kgkq : (8.40)
kfgk1  kf k1 kgk1 : (8.43)

Das nachfolgende, nach Hermann Minkowski (1864–1909) be-


Beweis Wir stellen dem Beweis eine Vorbetrachtung voran: nannte wichtige Resultat besagt, dass die Zuordnung f 7!
Sind x; y 2 Œ0; 1, so gilt kf kp im Fall p  1 die Dreiecksungleichung erfüllt.

xp yq
xy  C : (8.41)
p q Minkowski-Ungleichung

Zum Beweis bemerken wir, dass (8.41) im Fall fx; yg \ Es seien f ; g messbare numerische Funktionen auf ˝.
f0; 1g ¤ ; trivialerweise erfüllt ist. Für den Fall 0 < x; y < 1 Dann gilt für jedes p mit 1  p  1:
folgt die Behauptung aus Abb. 8.17, wenn beide Seiten von
(8.41) als Flächen gedeutet werden. Beachten Sie hierzu die Be- kf C gkp  kf kp C kgkp : (8.44)
dingung 1=p C 1=q D 1.
8.7 Lp -Räume 339

Beweis Es sei zunächst p < 1 vorausgesetzt. Wegen kf C Die Räume L p .˝; A; / sind vollständig
gkp  kjf j C jgjkp kann o.B.d.A. f  0, g  0 angenommen
werden. Für p D 1 steht dann in (8.44) das Gleichheitszeichen, Nach diesen Betrachtungen drängt sich der folgende Konver-
also sei fortan p > 1. Weiter sei o.B.d.A. kf kp < 1, kgkp < genzbegriff für Funktionen im Raum Lp geradezu auf.
1 und somit kf C gkp < 1. Nun gilt mit q1 WD 1  p1 und der
Hölder-Ungleichung
Z Definition der Konvergenz im p-ten Mittel
.f C g/p d Es sei 0 < p  1. Eine Folge .fn /n1 aus Lp kon-
Z Z vergiert im p-ten Mittel gegen f 2 Lp (in Zeichen:
Lp
D f .f C g/p1 d C g.f C g/p1 d fn ! f /, falls gilt:

Kapitel 8
 kf kp k.f C g/p1 kq C kgkp k.f C g/p1 kq lim kfn  f kp D 0:
Z 1=q n!1
D .kf kp C kgkp / .f C g/.p1/q d ;
Für p D 1 bzw. p D 2 sind hierfür auch die Sprech-
weisen Konvergenz im Mittel bzw. im quadratischen Mittel
was wegen .p  1/q D p die Behauptung liefert. Der Fall p D gebräuchlich.
1 folgt aus der für jedes positive " gültigen Ungleichung

 .fjf C gj > kf k1 C kgk1 C "g/


n " o n " o
Selbstfrage 20
  jf j > kf k1 C C  jgj > kgk1 C : Ist der Grenzwert einer im p-ten Mittel konvergenten Folge -
2 2 fast überall eindeutig bestimmt?
Dabei wurde o.B.d.A. kf k1 ; kgk1 < 1 angenommen. 

Ist 0 < p  1, so gilt für messbare numerische Funktionen f Das folgende Beispiel zeigt, dass eine im p-ten Mittel kon-
und g die Ungleichung vergente Folge für den Fall p < 1 in keinem Punkt aus ˝
konvergieren muss. Dies gilt jedoch nicht im Fall p D 1. So
Z Z Z werden wir im Beweis des Satzes von Riesz-Fischer sehen, dass
jf C gjp d  jf jp d C jgjp d (8.45) kfn  f k1 ! 0 die gleichmäßige Konvergenz von fn gegen f
außerhalb einer -Nullmenge bedeutet.
(Aufgabe 8.11). Wie das folgende Beispiel zeigt, ist jedoch im
Fall 0 < p < 1 die Dreiecksungleichung (8.44) i. Allg. nicht Beispiel Sei ˝ WD Œ0; 1/, A WD ˝ \ B,  WD 1˝ , fn WD
erfüllt.
1fAn g mit An WD Œj 2k ; .j C 1/2k / für n D 2k C j , 0  j <
2k , k 2 N0 . Für jedes p 2 Œ1; 1/ gilt
Beispiel Es sei .˝; A; / D .R; B; 1 / sowie f D 1Œ0;1/ und Z Z
g D 1Œ1;2/. Dann gilt für jedes p 2 .0; 1/
fnp d D fn d D .An / D 2k
Z Z Z
jf jp d D 1 D jgjp d; jf C gjp d D 2 Lp
und somit fn ! 0. Die Folge .fn / ist also insbesondere eine
und somit im Fall p < 1 Cauchy-Folge in Lp . Offenbar konvergiert jedoch .fn .!//n1
für kein ! aus Œ0; 1/, da für jede Zweierpotenz 2k das Intervall
21=p D kf C gkp > kf kp C kgkp D 2: J Œ0; 1/ in 2k gleich lange Intervalle zerlegt wird und jedes ! 2
Œ0; 1/ in genau einem dieser Intervalle liegt. Für jedes ! gilt also
lim supn!1 fn .!/ D 1 und lim infn!1 fn .!/ D 0. J
Kommentar Aus der Minkowski-Ungleichung folgt die
schon weiter oben erwähnte Tatsache, dass die Menge Lp , ver-
sehen mit der Abbildung f 7! kf kp , für jedes p mit 1  p 
1 ein halbnormierter Vektorraum ist. Wie obiges Beispiel zeigt,
gilt dies nicht für den Fall p < 1. Für diesen Fall zeigt aber Un-
gleichung (8.45), dass die Menge Lp , versehen mit der durch
Z
dp .f ; g/ WD jf  gjp d D kf  gkpp (8.46)

definierten Abbildung dp W Lp  Lp ! R0 , einen halbme-


trischen Raum darstellt, d. h., es gelten dp .f ; f / D 0 sowie
dp .f ; g/ D dp .g; f / und die Dreiecksungleichung dp .f ; h/ 
dp .f ; g/ C dp .g; h/ (f ; g; h 2 Lp ). J Abb. 8.18 Graph der Funktionen f4 (links) und f5 (rechts)
340 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
T
Kommentar Im Allgemeinen bestehen keine Inklusionsbe- Ek 2 A mit .Ekc / D 0. Setzen wir E D 1 c
kD1 Ek \ N1
ziehungen zwischen den Räumen Lp für verschiedene Werte c
(2 A), so gilt .E / D 0 sowie .n D n` , ` ! 1/
von p; insofern sind auch die zugehörigen Konvergenzbegrif-
fe nicht vergleichbar (siehe Aufgabe 8.17). Gilt jedoch .˝/ < jf  fm j  2k 8m  nk auf E;
1, was insbesondere für Wahrscheinlichkeitsräume zutrifft, so
folgt Lp  Ls , falls 0 < s < p  1 (siehe Aufgabe 8.43). J L1
also fm ! f bei m ! 1. Insbesondere konvergiert .fn /
außerhalb einer -Nullmenge gleichmäßig gegen f . Im verblei-
Offenbar ist jede im p-ten Mittel konvergente Folge .fn / aus Lp
benden Fall p < 1 beachte man, dass nach Ungleichung (8.45)
eine Cauchy-Folge, es gilt also kfn  fm kp ! 0 für m; n ! 1. p
k  kp der Dreiecksungleichung genügt, sodass die oben für den
Der folgende berühmte Satz von Friedrich Riesz (1880–1956)
Fall p  1 gemachten Schlüsse nach Ersetzen von k  kp durch
und Ernst Fischer (1875–1955) besagt, dass auch die Umkeh- p
k  kp gültig bleiben. 
Kapitel 8

rung gilt.
Aus obigen Beweis ergibt sich unmittelbar das folgende, auf
Satz von Riesz-Fischer (1907) Hermann Weyl (1885–1955) zurückgehende Resultat.

Die Räume Lp , 0 < p  1, sind vollständig, m.a.W.: Zu


jeder Cauchy-Folge .fn / in Lp gibt es ein f 2 Lp mit Folgerung (H. Weyl (1909)) Es sei 0 < p  1. Dann gilt:
a) Zu jeder Cauchy-Folge .fn /n1 aus Lp gibt es eine Teilfolge
lim kfn  f kp D 0: .fnk /k1 und ein f 2 Lp mit fnk ! f -fast überall für
n!1
k ! 1.
b) Konvergiert die Folge .fn /n1 in Lp gegen f 2 Lp , so
existiert eine geeignete Teilfolge, die -fast überall gegen f
Beweis Es sei zunächst 1  p  1 vorausgesetzt. Da .fn / konvergiert. J
eine Cauchy-Folge ist, gibt es zu jedem k  1 ein nk 2 N mit
der Eigenschaft
Beweis Die Aussage a) ist im Beweis des Satzes von Riesz-
kfn  fm kp  2k für m; n  nk : (8.47) Fischer enthalten. Um b) zu zeigen, beachte man, dass .fn / eine
Cauchy-Folge ist. Nach dem Satz von Riesz-Fischer gibt es ein
P1 g 2 Lp mit kfn  gkp ! 0 für n ! 1 sowie eine Teilfolge
Sei gk WD fnkC1  fnk , k  1, sowie g WD kD1 jgk j. Aufgrund
von Aufgabe 8.44 gilt .fnk / mit fnk ! g -f.ü. für k ! 1. Wegen kfn  f kp ! 0
gilt f D g -fast überall und somit fnk ! f -f.ü. 
X
1
kgkp  kgk kp  1 < 1 (8.48) Man beachte, dass im Beispiel zu Abb. 8.18 jede der Teilfol-
kD1 gen .f2k Cj /k0 (j D 0; 1; : : : ; 2k  1) fast überall gegen die
Nullfunktion konvergiert, obwohl die gesamte Folge in keinem
und somit für p < 1 nach Folgerung b) aus der Markov- Punkt konvergiert.
Ungleichung und im Fall p D 1 nach Definition von k  k1
die Beziehung jgj < C1 -f.ü. Dies bedeutet, dass die Reihe
P1 P`
kD1 gk -fast überall absolut konvergiert. Wegen kD1 gk D Identifiziert man -f.ü. gleiche Funktionen,
fn`C1  fn1 konvergiert dann die Folge .fnk /k1 -fast über-
all. Es gibt also eine -Nullmenge N1 , sodass der Grenzwert so entsteht für p  1 der Banach-Raum Lp
limk!1 fnk .!/ für jedes ! 2 N1c existiert. Weiter gilt
Kommentar Da kf kp D 0 nur f D 0 -fast überall zur
jfnkC1 j D jg1 C    C gk C fn1 j  g C jfn1 j; Folge hat, ist k:kp im Fall p 2 Œ1; 1 keine Norm auf Lp . In
gleicher Weise ist für p 2 .0; 1 die in (8.46) definierte Funktion
wobei g C jfn1 j wegen (8.48) in Lp liegt. Somit ist die Menge
dp keine Metrik auf Lp , denn aus dp .f ; g/ D 0 folgt nur f D g
N2 WD fg C jfn1 j D 1g eine -Nullmenge. Setzen wir
-f.ü. Durch folgende Konstruktion kann man jedoch im Fall
p 2 Œ1; 1 einen normierten Raum und im Fall p 2 .0; 1 einen
f WD 0  1fN1 [ N2 g C lim fnk  1f.N1 [ N2 /c g;
k!1 metrischen Raum erhalten: Die Menge N0 WD ff 2 Lp j f D
0 -f.ü.g ist ein Untervektorraum von Lp . Durch Übergang zum
so ist f reell und A-messbar. Aus Aufgabe 8.45 folgt im Fall Quotientenraum
p < 1 f 2 Lp sowie limk!1 kfnk  f kp D 0, also auch
limn!1 kfn f kp D 0, da eine Cauchy-Folge mit konvergenter Lp WD Lp .˝; A; / WD Lp .˝; A; /=N0
Teilfolge konvergiert.
S identifiziert man -fast überall gleiche Funktionen, geht also
Im Fall p D 1 ergibt sich fjf j > t g  1 kD1 fjfnk j > t g
(t  0) und somit wegen kfnk k1  kgk1 C kfn1 k1 < 1, vermöge der kanonischen Abbildung
k  1, auch kf k1 < 1, also f 2 L1 . Ungleichung (8.47) für
p D 1 liefert jfn  fm j  2k für m; n  nk auf einer Menge f ! Œf  WD fg 2 Lp j g D f -f.ü.g
8.8 Maße mit Dichten 341

von Lp auf Lp von Funktionen zu Äquivalenzklassen von je- Die p-Normen


weils -fast überall gleichen Funktionen über. Für f ; g; 2 Lp X 1=p
k
gilt also Œf  D Œg () f D g -f.ü. p
kxkp D jxj j ; kxk1 D max jxj j;
Addition und skalare Multiplikation werden widerspruchsfrei j D1;:::;k
j D1
mithilfe von Vertretern der Äquivalenzklassen erklärt. Ist Œf  2
Lp die Klasse, in der f 2 Lp liegt, so hat kgkp für jedes g 2 Œf  im Rk erhält man im Fall .˝; A/ D .Nk ; P .Nk //, indem man
denselben Wert, sodass die Definitionen kŒf kp WD kf kp im das Zählmaß auf Nk WD f1; 2; : : : ; kg betrachtet. Dabei wurde
Fall p 2 Œ1; 1 und dp .Œf ; Œg/ WD dp .f ; g/ im Fall p 2 .0; 1 x D .x1 ; : : : ; xk / gesetzt. J
Sinn machen. Direktes Nachrechnen ergibt, dass im Fall p 2
Œ1; 1 die Zuordnung Œf  ! kŒf kp eine Norm und für p < 1
die Festsetzung .Œf ; Œg/ ! dp .Œf ; Œg/ eine Metrik auf Lp 8.8 Maße mit Dichten

Kapitel 8
ist. Aus dem Satz von Riesz-Fischer erhalten wir somit folgen-
den Satz. J In diesem Abschnitt sei .˝; A; / ein beliebiger Maßraum.
Bislang haben wir das Integral einer auf ˝ definierten A-
messbaren integrierbaren numerischen Funktion f stets über
Satz über die Banachraumstruktur von Lp , p  1 dem gesamten Grundraum ˝ betrachtet. Ist A 2 A eine mess-
bare Menge, so definiert man das -Integral von f über A
Für 1  p  1 ist der Raum Lp der Äquivalenzklassen
durch
-f.ü. gleicher Funktionen bzgl. k  kp ein vollständiger Z Z
normierter Raum und somit ein Banach-Raum, und für
0 < p < 1 ist das Paar .Lp ; dp / ein vollständiger me- f d WD f  1A d; (8.49)
trischer Raum. A

setzt also den Integranden außerhalb der Menge A zu null. We-


2 gen jf  1A j  jf j ist das obige Integral wohldefiniert. Ist die
Im Spezialfall p D 2 wird L mit der Festsetzung
Funktion f nichtnegativ, so muss sie nicht integrierbar sein. Als
Z
Wert des Integrals kann dann auch 1 auftreten. Wie der folgen-
hŒf ; Œgi WD fg d; f ; g 2 L2 ; de Satz zeigt, entsteht in diesem Fall durch (8.49) als Funktion
˝ der Menge A ein Maß auf A.
sogar zu einem Hilbert-Raum, denn die Abbildung h; i W L2 
L2 ! R erfüllt alle Eigenschaften eines Skalarproduktes.
Nichtnegative messbare Funktionen und Maße
Kommentar Obwohl die Elemente der Räume Lp keine
führen zu neuen Maßen
Funktionen, sondern Äquivalenzklassen von Funktionen sind,
spricht man oft von „dem Funktionenraum Lp “ und behan- Satz
delt die Elemente von Lp wie Funktionen, wobei -fast überall
gleiche Funktionen identifiziert werden müssen. Im Fall eines Für jede nichtnegative A-messbare Funktion f W ˝ ! R
Zählmaßes auf einer abzählbaren Menge ist der Übergang von wird durch
Funktionen zu Äquivalenzklassen unnötig, wie die folgenden Z
prominenten Beispiele zeigen. J .A/ WD f d; A 2 A; (8.50)
A
Beispiel Es sei .˝; A; / WD .N; P .N/; N /, wobei N
das Zählmaß auf N bezeichnet. Eine Funktion f W ˝ ! R ein Maß  auf A definiert.
ist dann durch die Folge x D .xj /j 1 mit xj WD f .j /, j  1,
gegeben. Der Raum Lp wird in diesem Fall mit
n o Beweis Offenbar ist  eine nichtnegative Mengenfunktion
`p WD x D .xj /j 1 2 RN W kxkp < 1 auf A mit .;/ D 0. Sind AP 1 ; A2 ; : : : paarweise disjunkte Men-
1
P1 aus A, und ist A WD
gen nD1 An gesetzt, so gilt f 1fAg D
bezeichnet. Dabei ist kxk1 D supj 1 jxj j und f 1fA g. Mit dem Satz von der monotonen Konvergenz
nD1 n
X
1 1=p erhalten wir
kxkp D jxj jp ; 0 < p < 1: Z X1 X1 Z
j D1 .A/ D f 1fAn g d D f 1fAn g d
nD1 nD1
Der Satz von Riesz-Fischer besagt, dass der Folgenraum .`p ; k 
X
1
kp / für jedes p mit 1  p  1 ein Banach-Raum ist. Da D .An /;
kxkp D 0 die Gleichheit xj D 0 für jedes j  1 zu Folge
nD1
hat, ist es in diesem Fall nicht nötig, zu einer Quotientenstruktur
überzugehen. was die -Additivität von  zeigt. 
342 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Das durch (8.50) definierte Maß heißt Maß mit der Dichte f sowie f .x/ WD 0, x 2 R n f0; 1; : : : ; ng, setzt, und die Poisson-
bzgl. ; es wird in der Folge mit Verteilung Po./ ergibt sich für

 DW f  k
f .k/ WD e ; k 2 N0 ;
bezeichnet. Man beachte, dass nach dem Satz über die kŠ
Nullmengen-Unempfindlichkeit des Integrals der Integrand f in und f .x/ WD 0, x 2 R n N0 . Allgemein nennt man f eine
(8.50) auf einer Nullmenge abgeändert werden kann, ohne das Zähldichte, wenn  ein Zählmaß auf einer abzählbaren Menge
Maß  zu verändern, denn f D g -f.ü. hat für jedes A 2 A ist.
f 1A D g1A -f.ü. zur Folge. Die Dichte f kann also nur -
fast überall eindeutig bestimmt sein. Wie das folgende Beispiel Ist  D 1 das Borel-Lebesgue-Maß im R1 , so erhält man für
die Wahl
Kapitel 8

zeigt, ist die Bedingung f D g -f.ü. zwar hinreichend, aber


i. Allg. nicht notwendig für f  D g. Eine notwendige Bedin-  2
gung gibt der nachfolgende Satz. 1 x
f .x/ D '.x/ D p  exp  ; x 2 R;
2 2
Beispiel Es sei ˝ eine überabzählbare Menge,
die Standardnormalverteilung; es gilt also  D N.0; 1/.
A WD fA  ˝ j A abzählbar oder Ac abzählbarg Sind .˝; A/ D .Rk ; Bk ) und  D k , so heißt f Lebesgue-
Dichte. In diesem Fall kann man den Wert der Dichte in einem
die -Algebra der abzählbaren bzw. co-abzählbaren Mengen Stetigkeitspunkt physikalisch als „lokale Masse-Dichte“ inter-
und .A/ WD 0 bzw. .A/ WD 1 je nachdem, ob A oder Ac pretieren, vgl. Abb. 5.7 im Fall k D 1. Ist nämlich x 2 Rk ein
abzählbar ist. Dann ist  ein nicht -endliches Maß auf A. Set- Punkt, in dem f stetig ist, so gibt es zu jedem " > 0 ein ı > 0,
zen wir f .!/ WD 1 und g.!/ WD 2, ! 2 ˝, so gilt wegen sodass gilt:
.A/ D 2.A/, A 2 A, die Gleichheit  D f  D g, aber
.ff ¤ gg/ D .˝/ D 1. J
jf .x/  f .y/j  "; falls kx  yk  ı:

Satz über die Eindeutigkeit der Dichte Schreiben wir B.x; r/ WD fy 2 Rk j kx  yk < rg für die Kugel
mit Mittelpunkt x und Radius r, so folgen hieraus für jedes r
Es seien f und g nichtnegative messbare numerische mit r  ı die Ungleichungen
Funktionen mit f  D g. Sind f oder g -integrierbar, R
so gilt f D g -fast überall. 1
B.x;r/ f d
f .x/  "   f .x/ C ":
k .B.x; r//
R
Beweis Da " > 0 beliebig war, ergibt sich
R R f d < 1 und f  D g. Wegen g  0
Es sei
und g d D f d ist auch g integrierbar. Sei N WD ff > R 1
gg und h WD f 1N  g1N . Die Ungleichungen f 1N  f und B.x;"/ f d
f .x/ D lim : (8.51)
g1N  g zeigen, dassR auch f 1N Rund g1N integrierbar sind. "#0 k .B.x; "//
Aus f  D g folgt f 1N d D g1N d und somit
Z Z Z Interpretieren wir mit einer Lebesgue-Dichte f eine (bei
h d D f d  g d D 0: nichtkonstantem f ) inhomogene Masseverteilung im k-
dimensionalen Raum, so können wir demnach den Wert f .x/ in
N N
einem Stetigkeitspunkt x von f als „lokale Dichte Rim Punkt x“
Wegen N D fh > 0g und h  0 liefert Folgerung a) aus der ansehen. Diese ergibt sich, wenn man die Masse B.x;"/ f dk
Markov-Ungleichung .N / D 0. Aus Symmetriegründen gilt einer Kugel um x mit Radius " durch das k-dimensionale Volu-
.fg > f g/ D 0, also insgesamt .ff ¤ gg/ D 0.  men

 k=2
Kommentar Mit der Konstruktion (8.50) besitzen wir ein k .B.x; "// D  "k
schlagkräftiges Werkzeug, um aus einem RMaß  ein neues  .1 C k=2/
Maß  zu konstruieren. Gilt insbesondere f d D 1, so ist
 ein Wahrscheinlichkeitsmaß auf A. Diese Sichtweise ist so dieser Kugel teilt und deren Radius " gegen null schrumpfen
allgemein, dass sich alle in den Kap. 4 und 5 vorgestellten Ver- lässt. Dabei gilt die Aussage (8.51) sogar k -fast überall (siehe
teilungen als Spezialfälle subsumieren lassen. Wählt man etwa die Hintergrund-und-Ausblick-Box über absolute Stetigkeit und
im Fall .˝; A/ D .R; B/ für  das Zählmaß auf N0 , so entsteht Singulariät von Borel-Maßen im Rk in Abschn. 8.8). J
die Binomialverteilung Bin.n; p/, wenn man
Da wir mithilfe von  und der Dichte f ein neues Maß  gewon-
!
n k nen haben, existiert auch ein -Integral für messbare numerische
f .k/ WD p .1  p/nk ; k D 0; 1; : : : ; n; Funktionen auf ˝. Dass wir beim Aufbau dieses Integrals vom
k
-Integral profitieren können, zeigt der folgende Satz.
8.8 Maße mit Dichten 343

Die obigen Überlegungen zeigen, dass auf jeden Fall   


Satz über den Zusammenhang zwischen - und
- gilt, wenn  eine Dichte f bzgl.  besitzt. Aufgabe 8.12 macht
Integral deutlich, dass aus    im Allgemeinen nicht die Existenz
einer Dichte von  bzgl.  folgt. Ist  jedoch -endlich, so be-
Es seien .˝; A; / ein Maßraum und  D f  das Maß
sitzt  im Fall    eine Dichte bzgl. . Wir stellen diesem
mit der Dichte f bzgl. . Dann gelten:
berühmten, auf die Mathematiker Johann Karl August Radon
" (1887–1956) und Otton Marcin Nikodým (1887–1974) zurück-
a) Ist ' 2 EC , so gilt
Z Z gehenden Resultat einen Hilfssatz voran.
' d D 'f d: (8.52)
Lemma

Kapitel 8
b) Für eine A-messbare Funktion ' W ˝ ! R gilt:
Sind  und  endliche Maße auf A mit   , also
' ist -integrierbar () 'f ist -integrierbar: .A/  .A/, A 2 A, so gibt es eine messbare Funk-
tion h W ˝ ! Œ0; 1 mit  D h.
In diesem Fall gilt auch (8.52).

Beweis Wir setzen für p 2 .0; 1/ und 2 f; g kurz


Beweis Der Beweis erfolgtP durch algebraische Induktion. Für Lp . / WD Lp .˝; A; /. Wegen    gilt L2 ./  L2 ./,
eine Elementarfunktion ' D jnD1 ˛j 1fAj g gilt und .˝/ < 1 hat nach Aufgabe 8.43 die Inklusion L2 ./ 
Z Xn Xn Z L1 ./ zur Folge. Somit liefert die Festsetzung
' d D ˛j .Aj / D ˛j f 1fAj g d Z
j D1
0
j D1
1 `.f / WD f d; f 2 L2 ./;
Z X
n ˝
D @ ˛j 1fAj gA f d
j D1 ein wohldefiniertes stetiges lineares Funktional auf L2 ./. Da
Z die Menge L2 ./ (nach Übergang zu Äquivalenzklassen -f.ü.
D 'f d: gleicher Funktionen), versehen mit dem Skalarprodukt hg; hi D
R
" ˝ gh d, einen Hilbert-Raum bildet (siehe den Satz über die
Ist ' 2 EC und un " ' mit un 2 EC , n  1, so gilt un f " 'f . Banachraumstruktur von Lp am Ende von Abschn. 8.7), gibt es
Nach dem bereits Bewiesenen und unter zweimaliger Verwen- nach dem Darstellungssatz von Riesz (siehe z. B. [6], S. 347) ein
"
dung der Definition des Integrals auf EC folgt g 2 L2 ./ mit `.f / D hf ; gi für jedes f 2 L2 ./. Setzt man
Z Z Z Z speziell f D 1A , A 2 A, so zeigt die Definition von `./, dass
' d D lim un d D lim un f d D ' f d;  D g gilt. Setzen wir M WD fg < 0g und N WD fg > 1g,
n!1 n!1
so ergibt sich aus .M /  0 bzw. .N /  .N / (jeweils unter
was a) beweist.
R UmRb) zu zeigen, beachte
R man, dass R nach a) Verwendung von Folgerung a) aus der Markov-Ungleichung in
sowohl ' C d D ' C f d als auch '  d D '  f d Abschn. 8.6 dass .M / D 0 und .N / D 0 gelten. Somit ist die
gelten, was zusammen mit der Definition der Integrierbarkeit gesuchte Funktion h durch h WD g1f.M [ N /c g gegeben. 
die Behauptung ergibt. 
Selbstfrage 21
Das Maß  in (8.50) hat folgende grundlegende Eigenschaft:
Warum ist das im obigen Beweis definierte lineare Funktional
Ist A 2 A eine -Nullmenge, so ist der Integrand f 1A
`./ stetig?
in (8.50) -fast überall gleich null. Wegen der Nullmengen-
Unempfindlichkeit des Integrals gilt dann auch .A/ D 0. Das
Maß  ist somit absolut stetig bzgl.  im Sinne der folgenden
Definition: Satz von Radon-Nikodýym (1930)
Es seien .˝; A/ ein Messraum und  sowie  Maße
Definition der absoluten Stetigkeit von Maßen auf A. Ist  -endlich, so gilt:
Es seien .˝; A/ ein Messraum und  sowie  beliebige
   ()  besitzt eine Dichte bzgl. :
Maße auf A.  heißt absolut stetig bzgl. , falls jede -
Nullmenge auch eine -Nullmenge ist, falls also gilt:
In diesem Fall ist die Dichte -fast überall eindeutig be-
8 A 2 A W .A/ D 0 H) .A/ D 0: stimmt.
In diesem Fall schreibt man kurz   . Ist  absolut
stetig bzgl. , so sagt man auch, dass  das Maß  domi-
niert. Beweis Wir beweisen die nichttriviale Richtung „)“ nur für
den (insbesondere Wahrscheinlichkeitsmaße einschließenden)
344 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Fall, dass das Maß  endlich ist und nehmen zunächst an, dass dass T .k / D jdet Aj1 k gilt, falls T eine affine Abbildung
auch  ein endliches Maß ist. Setzen wir  WD  C , so ist  der Gestalt T .x/ D Ax C a mit einer regulären Matrix A ist.
ein endliches Maß auf A, und es gelten sowohl    als auch Die konstante Dichte f D 1Rk geht also unter einer solchen
  . Nach dem Lemma (mit  D  bzw.  D ) existieren Abbildung in die konstante Dichte jdet Aj1 1Rk über. Natürlich
messbare Funktionen g; h W ˝ ! Œ0; 1 mit  DRg und  D wird man an die Abbildung T gewisse Regularitätsbedingungen
h. Für die Menge N WD fg D 0g gilt .N / D N g d D 0, stellen müssen, damit das Maß T ./ überhaupt absolut stetig
und damit folgt wegen    auch .N / D 0. Wir definieren bzgl. k ist. Ist der Wertebereich T .Rk / eine k -Nullmenge, so
jetzt eine Funktion f W ˝ ! R durch ist z. B. letztere Bedingung nur erfüllt, wenn  das Nullmaß ist,
also .B/ D 0 für jedes B 2 Bk gilt.
h.!/
f .!/ WD ; falls g.!/ > 0;
g.!/
Kapitel 8

Der Transformationssatz liefert eine k -Dichte


und f .!/ WD 0, sonst (! 2 ˝). Dann ist f nichtnegativ und
wegen der Messbarkeit von g und h sowie f D .h=g/1fN c g C von T .f k / unter regulären Transformationen
01N A-messbar. Für beliebiges A 2 A gilt
Um die obigen Fragen zu beantworten, erinnern wir an die in
Z Z
der Analysis bewiesene Transformationsformel für Gebietsin-
.A/ D .A \ N c / D h d D fg d tegrale, siehe z. B. Abschn. 22.3 von [1]. Diese setzt offene
A\N c A\N c Mengen U und V des Rk sowie eine bijektive und stetig
Z Z
differenzierbare Transformation W U ! V mit nirgends
D f d D f d verschwindender Funktionaldeterminante det 0 .x/, x 2 U , al-
A\N c A so einen C 1 -Diffeomorphismus zwischen U und V , voraus. Ist
dann h W V ! R eine nichtnegative oder integrierbare Borel-
und somit  D f . messbare Funktion, so gilt die Transformationsformel
Ist  (nur) -endlich, so gibt es nach Aufgabe 8.35 eine Borel- Z Z
messbare
R Funktion h W ˝ ! R mit 0 < h.!/, ! 2 ˝, und h.x/ dx D h. .y//  j det 0
.y/j dy: (8.53)
h d < 1. Somit ist h ein endliches Maß, das die gleichen
V U
Nullmengen wie  besitzt. Folglich gilt auch   h. Nach
dem bereits Gezeigten besitzt  eine mit f bezeichnete Dichte
Wir nehmen zunächst an, dass T W Rk ! Rk bijektiv und
bzgl. h. Es gilt also
stetig differenzierbar mit det T 0 .x/ ¤ 0, x 2 Rk , also ein C 1 -
Z Diffeomorphismus des Rk auf sich selbst ist, und betrachten
.A/ D f d.h/; A 2 A: eine beliebige nichtleere offene Menge O 2 Ok . Nach Defi-
A nition des Bildmaßes und wegen  D f k gilt
Z
Nach dem Satz über den Zusammenhang zwischen - und -  
T ./.O/ D  T 1 .O/ D f .x/ dx: (8.54)
Integral ist das Produkt f h die gesuchte Dichte. Wegen der
vorausgesetzten Endlichkeit von  folgt die Eindeutigkeit von T 1 .O/
f aus dem Satz über die Eindeutigkeit der Dichte. 
Da wir eine mit g bezeichnete k -Dichte Rvon T ./ suchen,
sollte sich die rechte Seite in der Form O g.y/ dy schrei-
Kommentar In der obigen Situation nennt man jede Dichte ben lassen. Wir müssen also das Integral über die wegen der
f von  bzgl.  auch eine Radon-Nikodým-Ableitung oder Diffeomorphismus-Eigenschaft offene Menge T 1 .O/ in ein
auch Radon-Nikodým-Dichte von  bzgl. . Da die Dichte f Integral über O transformieren. Nun ist die Restriktion der Um-
-f.ü. eindeutig bestimmt ist, spricht man auch von der Radon- kehrabbildung T 1 auf die Menge O ein C 1 -Diffeomorphismus
Nikodým-Ableitung und schreibt zwischen U WD O und V WD T 1 .O/ mit der Funktionaldeter-
minante
d
f DW .-f.ü./: J
d 1
det.T 1 /0 .y/ D ; y 2 O:
det T 0 .T 1 .y//
Wir wenden uns nun der Frage zu, wie sich Lebesgue-Dichten
unter Abbildungen verhalten. Dieses Problem ist auch in der Formel (8.53) liefert also mit dieser Wahl von U und V sowie
Stochastik von großer Bedeutung, interessiert man sich doch 1
WD TjO sowie h WD f zusammen mit (8.54) das Resultat
oft für die Verteilung eines Zufallsvektors, der durch Transfor-
mation aus einem Zufallsvektor hervorgeht, dessen Verteilung Z
1
eine Lebesgue-Dichte besitzt. Seien hierzu  D f k ein Maß T ./.O/ D f .T 1 .y//  dy: (8.55)
j det T 0 .T 1 .y//j
auf Bk mit einer Lebesgue-Dichte f und T W Rk ! Rk eine O
Borel-messbare Abbildung. Besitzt das Bildmaß T ./ auch ei-
ne Lebesgue-Dichte? Falls ja: Wie lässt sich diese mithilfe von Diese Gleichung gilt aber nicht nur für jede offene Menge, son-
f und T ausdrücken? So haben wir in Abschn. 8.4 gesehen, dern für jede Borel-Menge O 2 Bk . Hierzu beachten wir, dass
8.8 Maße mit Dichten 345

die rechte Seite von (8.55) als Funktion von O ein mit  be- Kommentar Der obige Transformationssatz besagt also,
zeichnetes Maß auf Bk mit der durch dass unter den gemachten Voraussetzungen für jede Borel-
Menge B die Gleichung
1 Z Z
g.y/ WD f .T 1 .y//  ; y 2 Rk ; (8.56)
j det T 0 .T 1 .y//j f .x/ dx D g.y/ dy
T 1 .B/ B
definierten Dichte g darstellt und die Maße T ./ und  nach
(8.55) auf dem Mengensystem Ok übereinstimmen. Nach dem 1
erfüllt ist. Dabei ist T .B/ das Urbild von B unter T , und g ist
Eindeutigkeitssatz für Maße gilt somit  D T ./. Wir haben al- wie oben definiert. Diese Gleichung geht mit h WD f , T WD 1
so mit der in (8.56) definierten Funktion eine Lebesgue-Dichte und U WD B formal in (8.53) über. J
von T ./ gefunden und somit unser eingangs gestelltes Prob-
lem für den Fall gelöst, dass T ganz Rk bijektiv auf sich

Kapitel 8
Beispiel (Box-Muller-Methode) Es seien k D 2 und
abbildet. U WD .0; 1/2 sowie f D 1U die Dichte der Gleichverteilung
Häufig liegt jedoch eine Transformation T W U ! V vor, die auf dem offenen Einheitsquadrat. Die Borel-messbare Abbil-
nur einen C 1 -Diffeomorphismus zwischen zwei offenen echten dung T W R2 ! R2 sei durch
p p 
Teilmengen U und V des Rk darstellt. Solange die Lebesgue- T .x/ WD 2 log x1 cos.2x2 /; 2 log x1 sin.2x2 / ;
Dichte f von  außerhalb von U verschwindet, also ff > 0g 
U gilt, ist das kein Problem. Man ergänzt die auf U definierte falls x D .x1 ; x2 / 2 U , und T .x/ WD 0 sonst definiert. Die
Transformation T durch eine geeignete Festsetzung auf Rk n U Restriktion von T auf U ist stetig differenzierbar, und sie bildet
(z. B. T .x/ WD 0, x 2 Rk n U ) zu einer (der Einfachheit halber U bijektiv auf die geschlitzte Ebene V WD R2 n f.y1 ; y2 / 2
ebenfalls mit T bezeichneten) auf ganz Rk definierten Borel- R2 W y1  0; y2 D 0g ab. Eine direkte Rechnung ergibt weiter
messbaren Abbildung. Wegen ff > 0g  U gilt .Rk nU / D 0 det T 0 .x/ D .2/=x1 , x 2 U , und somit det T 0 .x/ ¤ 0, x 2
und T ./.Rk n V / D .T 1 .Rk n V // D 0, sodass die Maße U . Mit y WD .y1 ; y2 / WD T .x1 ; x2 / gilt x1 D exp. 12 .y12 Cy22 //.
 bzw. T ./ auf den Mengen U bzw. V konzentriert sind. Ist Nach dem Transformationssatz ist
ˇ ˇ1 Y
dann O eine beliebige offene Teilmenge von V , so hat (8.55) un- ˇ 2 ˇ 2
1
ˇ
g.y1 ; y2 / D ˇ ˇ D p exp.yj2 =2/
verändert Gültigkeit. Mit dem Eindeutigkeitssatz für Maße gilt 1
exp. 2 .y12 C y22 // ˇ
dann (8.55) für jede Borelsche Teilmenge von V . Definiert man j D1
2
jetzt eine Funktion g.y/ auf Rk durch die Festsetzung (8.56) für .y1 ; y2 / 2 V und g.y1 ; y2 / WD 0 sonst eine 2 -Dichte von
für y 2 V und g.y/ WD 0 für y 2 Rk n V , so folgt für jede T .f 2 /. Da f.y1 ; y2 / 2 R2 W y1  0; y2 D 0g eine 2 -
Borel-Menge B 2 Bk Nullmenge ist, ist auch g.y1 ; y2 / WD '.y1 /'.y2 /, .y1 ; y2 / 2 R2 ,
eine 2 -Dichte von T .f 2 /. Dabei ist ' die in (5.4) definierte
T ./.B/ D T ./.B \ V / C T ./.B \ .Rk n V // Dichte der Standardnormalverteilung.
Z
1
D f .T 1 .y//  dy C 0 Die Abbildung T ist im Wesentlichen eine Transformation auf
j det T 0 .T 1 .y//j Polarkoordinaten. In der Stochastik dient sie einer einfachen Er-
B\V
Z zeugung von standardnormalveteilten Pseudozufallszahlen y1 ,
D g.y/ dy; y2 aus gleichverteilten Pseudozufallszahlen x1 und x2 (siehe die
B Hintergrund-und-Ausblick-Bos über den linearen Kongruenzge-
nerator in Abschn. 5.2) und wird dort auch Box-Muller-Methode
sodass g eine Lebesgue-Dichte von  darstellt. Diese Überle- genannt. J
gungen münden in den folgenden Satz.
Die Eigenschaft    besagt, dass sich das Maß  dem Maß
in dem Sinne unterordnet, dass die -Nullmengen auf jeden Fall
auch -Nullmengen sind. Eine andere Beziehung, in der zwei Ma-
Transformationssatz für k -Dichten ße zueinander stehen können, ist die gegenseitige Singularität.
Es sei  D f k ein Maß auf Bk . Die Dichte f ver-
schwinde außerhalb einer offenen Menge U ; es gelte
also ff > 0g  U . Weiter sei T W Rk ! Rk eine Gegenseitig singuläre Maße leben
Borel-messbare Abbildung, deren Restriktion auf U stetig auf disjunkten Mengen
differenzierbar sei, eine nirgends verschwindende Funk-
tionaldeterminante besitze und U bijektiv auf eine Menge
V  Rk abbilde. Dann ist die durch Definition der gegenseitigen Singularität von Maßen
( Zwei Maße  und  auf einer -Algebra A  P .˝/ hei-
f .T 1 .y//
; falls y 2 V ; ßen (gegenseitig) singulär (in Zeichen : ?/, falls gilt:
g.y/ WD j det T 0 .T 1 .y//j
0; falls y 2 Rk n V ; Es existiert eine Menge A 2 A mit

definierte Funktion g eine k -Dichte von T ./. .A/ D .˝ n A/ D 0: (8.57)


346 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Obwohl die Relation „?“ symmetrisch ist, sind hierbei auch oben und a   sowie s ? an. Wegen s ? existiert eine
die Sprechweisen  ist singulär bzgl.  bzw.  ist singulär -Nullmenge N  mit s .˝ n N  / D 0, also
bzgl.  gebräuchlich. Im Fall .˝; A/ D .Rk ; Bk / steht die
Sprechweise  ist singulär kurz für die Singularität von  bzgl. s .A/ D s .A \ N  /; A 2 A: (8.58)
des Borel-Lebesgue-Maßes k . Die Singularität von  bzgl. 
bedeutet anschaulich, dass  und  „auf disjunkten Mengen le- Setzen wir N0 WD N [N  , so gilt wegen N0 2 N und a  ,
ben“. Gilt ? und   , so folgt aus (8.57) die Beziehung a   die Beziehung a .A\N0 / D a .A\N0 / D 0; A 2 A:
.A/ D .˝ n A/ D 0, also  D 0. In diesem Sinne sind Hieraus folgt mit (8.58)
die beiden Begriffe absolute Stetigkeit und Singularität diame-
tral zueinander. .A \ N0 / D s .A \ N0 / D s .A \ N0 \ N  /
D s .A \ N  / D s .A/; A2A
Kapitel 8

Beispiel Es seien .˝; A/ D .Rk ; Bk / und  D k das


Borel-Lebesgue-Maß. Weiter sei B  Rk eine beliebige nicht- und ebenso .A \ N0 / D s .A/, A 2 A. Also gilt s D s und
leere abzählbare Menge. Dann ist das durch .A/ WD jA \ Bj, somit a D a . 
A 2 Bk , definierte B-Zählmaß singulär bzgl. k , denn es gilt
k .B/ D 0 und .Rk n B/ D 0. J
Beispiel
Der im Folgenden vorgestellte Lebesguesche Zerlegungssatz Es seien .˝; A/ D .R; B/ und  D f 1 ,  D g1 Maße
kann in gewisser Weise als Ergänzung zum Satz von Radon- mit den Lebesgue-Dichten f D 1Œ0;2 bzw. g D 1Œ1;3. Dann
Nikodým angesehen werden. gilt a D 1Œ1;21 und s D 1.2;3R1 , denn es ist a C s D ,
und .A/ D 0 zieht a .A/ D 1A 1Œ1;2d   .A/ und
somit a   nach sich. Weiter gilt s .R n .2; 3/ D 0 und
Satz über die Lebesgue-Zerlegung ..2; 3/ D 0, was s ? zeigt.
Auf die Voraussetzung der -Endlichkeit im Lebesgue-
Es seien .˝; A/ ein Messraum und  sowie  Maße auf schen Zerlegungssatz kann nicht verzichtet werden. Es sei
A;  sei -endlich. Dann gibt es eindeutig bestimmte Ma- .˝; A/ D .Rk ; Bk / und  WD k sowie  das nicht
ße a und s auf A mit den Eigenschaften -endliche Zählmaß auf Rk . Angenommen, es gälte  D
a  , a C s mit Maßen a  k und s ?k . Die Gleichung
s ?, k .fxg/ D 0 zieht dann a .fxg/ D 0, x 2 Rk , nach sich,
 D a C s . und es folgt 1 D .fxg/ D s .fxg/, x 2 Rk . Wegen s ?k
gibt es ein B 2 Bk mit k .B/ D 0 und s .B c / D 0. Mit
Die Maße a und s heißen absolut stetiger bzw. singulä- s .fxg/ D 1, x 2 Rk , folgt B c D ; und B D Rk , was ein
rer Teil von  bzgl. . Ist  -endlich, so besitzt a nach Widerspruch zu k .B/ D 0 ist. J
dem Satz von Radon-Nikodým eine Dichte bzgl. .
Wir möchten diesen Abschnitt mit einem häufig benutzten Re-
sultat über Dichten beschließen, das von dem amerikanischen
Statistiker Henri Scheffé (1907–1977) stammt.
Beweis Wir führen den Beweis nur für den Fall .˝/ < 1.
Die Beweisidee ist transparent: Man finde im System N WD
fA 2 A j .A/ D 0g der -Nullmengen eine Menge N mit Lemma von Scheffé (1947)
maximalem -Maß. Dann setze man s und a so an, dass s
Es seien .˝; A; / ein Maßraum und P D f , Q D g,
„ganz auf N und a ganz auf N c lebt“, also s .N c / D 0 D
Pn D fn , n  1, Wahrscheinlichkeitsmaße auf A mit
˚ Folge aus N
a .N / gilt. Hierzu sei An " N eine aufsteigende
Dichten f , g, fn , n  1, bzgl. . Dann gelten:
mit limn!1 .An / D ˛, wobei ˛ WD sup .A/ j A 2 N :
Wegen N D [1 nD1 An gilt dann .N / D 0 und .N / D ˛. a) Z
Setzen wir 1
sup jP .A/  Q.A/j D  jf  gj d
A2A 2
c
a .A/ WD .A \ N /; s .A/ WD .A \ N /; A 2 A;
b) Aus fn ! f -f.ü. folgt limn!1 jfn  f j d D 0:
so sind a und s Maße auf A mit  D a Cs . Wegen s .N c / D
0 und .N / D 0 gilt dabei s ?. Aus .A/ D 0 folgt N C A \
N c 2 N und deshalb nach Definition von ˛ R R R
Beweis a) Es gilt 0 D .f g/ d D .f g/C d .f 
 .N C A \ N c / D .N / C  .A \ N c / D ˛ C a .A/  ˛: g/ d. und somit
Z Z Z
1
Diese Überlegung zeigt a .A/ D 0 und somit a  . Zum C
.f  g/ d D 
.f  g/ d D  jf  gj d:
Beweis der Eindeutigkeit der Zerlegung nehmen wir die Gültig- 2
keit der Zerlegungen  D a C s D a C s mit a , s wie (8.59)
8.9 Produktmaße, Satz von Fubini 347

Hintergrund und Ausblick: Absolute Stetigkeit und Singularität von Borel-Maßen im Rk

Es sei  ein beliebiges -endliches Maß  auf der Borel- sein muss, erhebt sich die Frage, ob es überhaupt Punkte x
schen -Algebra Bk . Wir stellen uns die Aufgabe,  und das mit der Eigenschaft (8.61) gibt. Dass dies stets der Fall ist,
Borel-Lebesgue-Maß k miteinander zu vergleichen. Da der besagt ein berühmtes Resultat von Lebesgue, wonach (8.61)
Quotient .B/=k .B/ für eine Borel-Menge B mit k .B/ > für k -fast alle x gilt.
0 die – physikalisch betrachtet – durch  gegebene „Mas-
se“ von B in Beziehung zum k-dimensionalen Volumen von Ist das Maß  diskret in dem Sinne, dass .fxj g/ > 0, j  1,
B setzt, also die „-Masse-Dichte von B“ darstellt, liegt es für eine abzählbare Teilmenge B D fx1 ; x2 ; : : :g  Rk so-
nahe, die Menge B zu einem Punkt x „zusammenschrump- wie .Rk n B/ D 0 gelten, so ist  singulär bzgl. k , und es

Kapitel 8
fen zu lassen“, um so eine lokale Dichte von  bzgl. k an gilt
der Stelle x zu erhalten. Bezeichnen k  k die Euklidische (
Norm in Rk und B.x; r/ D fy 2 Rk W kx  yk < rg 0; falls x … B
die k-dimensionale Kugel um x mit Radius r, so heißt der .D/.x/ D (8.62)
1 sonst,
Grenzwert
.B.x; r// also insbesondere D D 0 k -f.ü. und D D 1 -f.ü.
.D/.x/ WD lim (8.60)
r!0 k .B.x; r//
Ein einfaches nicht diskretes singuläres Maß  bzgl. k ist
(im Falle seiner Existenz) die symmetrische Ableitung oder im Fall k  2 das Bildmaß T .1 / von 1 unter der Abbil-
lokale Dichte von
bzgl. k an der Stelle x. Hierbei ist dung T W R1 ! Rk , x 7! .x; 0; : : : ; 0/, also die Übertragung
k .B.x; r// D  k=2 r k = .1 C k=2/. des Borel-Lebesgue-Maßes im R1 auf die erste Koordinaten-
achse im Rk . Wegen k .T .R1 // D 0 gilt T .1 /?k sowie
Offenbar existiert .D/.x/ als uneigentlicher Grenzwert (8.62) mit T .k / und T .R1 / anstelle von  bzw. B.
C1, falls .fxg/ > 0 gilt, also  eine Punktmasse an der
Stelle x besitzt. Ist  absolut stetig bzgl. k mit Radon- Ein auch historisch wichtiges nicht diskretes singuläres
Nikodým-Dichte (Lebesgue-Dichte) f , so gilt (vgl. (8.51)) Wahrscheinlichkeitsmaß P auf B ist die Cantor-Verteilung.
für jeden Stetigkeitspunkt x von f die Beziehung Die zugehörige stetige maßdefinierende Funktion, die um die
Festsetzungen F .x/ WD 1 für x > 1 und F .x/ WD 0 für x <
f .x/ D .D/.x/: (8.61) 0 zu einer auf ganz R1 definierten Funktion ergänzt wird,
heißt Cantorsche Verteilungsfunktion oder Teufelstreppe.
Wir können folglich mit einer Lebesgue-Dichte f zumindest Sie kann als gleichmäßiger Limes von stetigen Funktionen
in deren Stetigkeitspunkten die mithilfe von (8.60) gegebe- auf Œ0; 1 konstruiert werden und ist in Abb. 5.6 skizziert. Da
ne anschauliche Vorstellung des „lokalen Verhältnisses von F außerhalb der eine 1 -Nullmenge darstellenden überab-
-Masse pro Volumen“ verbinden. Da f jedoch – wie das zählbaren Cantor-Menge C konstant ist, gilt P .C / D 1 und
Beispiel f D 1fRk n Qk g/ zeigt – in keinem Punkt stetig somit P ?1 .

Für A 2 A gilt Kommentar Man nennt


Z Z
dT V .P ; Q/ WD sup jP .A/  Q.A/j
P .A/  Q.A/ D .f  g/C 1A d  .f  g/ 1A d A2A
Z
 .f  g/C d auch den totalen Variationsabstand von P und Q. Die Funktion
Z dT V .; / definiert eine Metrik auf der Menge aller Wahrschein-
1 lichkeitsmaße auf A. Das in a) formulierte Resultat zeigt also,
D  jf  gj d; wie der Totalvariationsabstand mithilfe von Dichten berechnet
2
werden kann. J
wobei das Gleichheitszeichen für A D ff  g > 0g eintritt.
Ebenso erhalten wir
Z 8.9 Produktmaße, Satz von Fubini
1
Q.A/  P .A/   jf  gj d:
2 Das Borel-Lebesgue-Maß 2 ist dadurch festgelegt, dass man
achsenparallelen Rechtecken das Produkt der Seitenlängen als
b) Es gilt 0  .f fn /C  f . Wegen .f fn /C ! 0 -f.ü. für Fläche zuordnet. In diesem Abschnitt geht es um eine direkte
n ! 1 liefern der Satz von der dominierten Konvergenz und Verallgemeinerung dieses Ansatzes, um aus vorhandenen Ma-
(8.59) die Behauptung.  ßen ein Produktmaß zu konstruieren.
348 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Es seien Ś.˝ 1 ; A1 ; 1 /; : : : ; .˝n ; An ; n /, n  2, Maßräume,


n
˝ WD j D1 ˝j das kartesische Produkt von ˝1 ; : : : ; ˝n und
j W ˝ ! ˝j die durch j .!/ WD !j , ! D .!1 ; : : : ; !n /, defi-
nierte j -te Projektionsabbildung. Die in Abschn. 8.4 N eingeführ-
te Produkt--Algebra von A1 ; : : : ; An wird mit jnD1 Aj D
.1 ; : : : ; n / bezeichnet.
Wir stellen uns die Frage,
N ob es ein (eventuell sogar eindeutig
bestimmtes) Maß  auf jnD1 Aj mit der Eigenschaft

Y
n
.A1  : : :  An / D j .Aj / (8.63) Abb. 8.19 !1 - und !2 -Schnitt einer Menge
Kapitel 8

j D1

für beliebige Mengen Aj aus Aj .j D 1; : : : ; n/ gibt. zum Ziel zu kommen. Man hält also zunächst !1 fest, bildet das
Im Falle der eingangs angesprochenen Flächenmessung ist 2 -Maß der auch als !1 -Schnitt von Q bezeichneten und in
.˝j ; Aj ; j / D .R; B; 1 /, j D 1; 2. Sind A1 und A2 be- Abb. 8.19 links skizzierten Menge
schränkte Intervalle, so bedeutet der Ansatz (8.63) gerade, die
Fläche des Rechtecks A1  A2 mit den Grundseiten A1 und A2 !1 Q WD f!2 2 ˝2 j .!1 ; !2 / 2 Qg (8.65)
zu bilden, indem man die Längen dieser Seiten miteinander mul-
tipliziert. und integriert diese von !1 abhängenden Maße 2 .!1 Q/ bzgl.
1 über !1 . Symmetrisch dazu könnte man auch zunächst !2
Die Frage nach der Eindeutigkeit von  kann sofort mithilfe des
festhalten, das 1 -Maß des sog. !2 -Schnitts
Eindeutigkeitssatzes für Maße beantwortet werden.
Q!2 WD f!1 2 ˝1 j .!1 ; !2 / 2 Qg (8.66)
Satz über die Eindeutigkeit des Produktmaßes
von Q (Abb. 8.19 rechts) betrachten und dann das Integral
1 ; : : : ; n -endlich, so gibt es höchstens
Sind die Maße N Z
ein Maß  auf jnD1 Aj mit der Eigenschaft (8.63). 1 .Q!2 /2 .d!2 / (8.67)
˝2

Beweis Wegen der -Endlichkeit von j ist das \-stabile bilden. Es wird sich zeigen, dass dieser Ansatz zum Ziel führt,
Mengensystem Mj WD fM 2 Aj j j .M / < 1g ein Erzeu- und dass die Integrale in (8.64) und (8.67) den gleichen Wert
ger von Aj .j D 1; : : : ; n/. Da allgemein liefern. Zunächst sind jedoch einige technische Feinheiten zu
beachten. So müssen die !1 - und !2 -Schnitte einer Menge
0 1 0 1 Q 2 A1 ˝ A2 in A2 bzw. A1 liegen, damit die entsprechen-
ą
n ą
n ą
n
@ Ej A \ @ Fj A D .Ej \ Fj / den Maße dieser Mengen erklärt sind. Des Weiteren müssen die
j D1 j D1 j D1
Funktionen ˝1 3 !1 7! 2 .!1 Q/ und ˝2 3 !2 7! 1 .Q!2 /
A1 - bzw. A2 -messbar sein, damit die Integrale in (8.64) und
gilt, ist auch das Mengensystem MN WD M1      Mn \-stabil. (8.67) wohldefiniert sind. Diesem Zweck dienen die beiden fol-
Nach Aufgabe 8.49 gilt .M/ D jnD1 Aj . Da M eine Folge genden Hilfssätze.
.Bk /k1 mit Bk " ˝1      ˝n bei k ! 1 enthält, ergibt sich
die Behauptung aus dem Eindeutigkeitssatz für Maße.  Lemma (über Schnitte) Aus Q 2 A1 ˝ A2 folgt !1 Q 2
A2 für jedes !1 2 ˝1 und Q!2 2 A1 für jedes !2 2 ˝2 . J

Die Bildung des Produktmaßes einer Menge


Beweis Wir betrachten für festes !1 2 ˝1 das Mengen-
verallgemeinert das Cavalierische Prinzip system A WD fQ  ˝ j !1 Q 2 A2 g. Wegen !1 ˝ D ˝2 ,
!1 .˝ n Q/ D ˝2 n .!1 Q/ und
Zur Frage der Existenz von  betrachten wir zunächst den Fall
n D 2. Da wir nicht nur messbaren Rechtecken wie in (8.63) !
[
1 [
1
ein Maß zuordnen wollen, sondern
N auch komplizierten Mengen !1 Qn D !1 Qn (8.68)
Q in der Produkt--Algebra jnD1 Aj , bietet es sich an, wie nD1 nD1
bei der Flächenberechnung von Teilmengen des R2 zu verfahren
und durch den Ansatz für Teilmengen Q, Q1 , Q2 ; : : : von ˝ sowie
Z (
.Q/ WD 2 .f!2 2 ˝2 j .!1 ; !2 / 2 Qg/ 1 .d!1 / (8.64) A2 ; falls !1 2 A1
!1 .A1  A2 / D (8.69)
˝1 ; sonst
8.9 Produktmaße, Satz von Fubini 349

für A1  ˝1 und A2  ˝2 ist A eine -Algebra über ˝ Beweis Wie früher sei sQ .!1 / WD 2 .!1 Q/ gesetzt. Wegen
mit H WD fA1  A2 j A1 2 A1 , A2 2 A2 g  A. Wegen sQ  0 und dem obigen Lemma ist die Funktion
.H / D A1 ˝ A2  A folgt die Behauptung für !1 -Schnitte. Z
Die Betrachtungen für !2 -Schnitte sind analog.  .Q/ WD sQ d1 ; Q 2 A1 ˝ A2 ;

Lemma (über die Messbarkeit der Schnitt-Maße) Sind wohldefiniert. Es gilt s;  0 und somit .;/ D 0. Sind
die Maße 1 und 2 -endlich, so gilt für jedes Q 2 A1 ˝ A2 : Q1 ; Q2 ; : : : paarweise disjunkte Mengen aus A1 ˝ A2 , so lie-
Die (aufgrund des obigen Lemmas wohldefinierten) Funktionen P
fern sP1 D 1 nD1 sQn und P
die Folgerung aus dem Satz von
nD1 Qn P1
˝1 3 !1 7! 2 .!1 Q/; ˝2 3 !2 7! 1 .Q!2 / der monotonen Konvergenz . 1 nD1 Qn / D nD1 .Qn /. Al-
so ist  ein Maß. Wegen sA1 A2 D 2 .A2 /1fA1 g gilt (8.70).
sind A1 - bzw. A2 -messbar. J Ebenso definiert

Kapitel 8
Z
Beweis Wir schreiben kurz sQ .!1 / WD 2 .!1 Q/ und nehmen e
.Q/ WD 1 .Q!2 / 2 .d!2 /
zunächst 2 .˝2 / < 1 an. Das Mengensystem
ein Maß e
 auf A1 ˝ A2 mit der Eigenschaft (8.70). (8.71) gilt,
D WD fD 2 A1 ˝ A2 j sD ist A1 -messbarg
da  und e
 nach dem Eindeutigkeitssatz für Maße übereinstim-
ist ein Dynkin-System, was man wie folgt einsieht: Wegen s˝  men. 
2 .˝2 / gilt zunächst ˝ 2 D, da konstante Funktionen messbar
sind. Sind D; E 2 D mit D  E, so folgt wegen !1 .E n D/ D Beispiel (Es gilt kCs D k ˝ s ) Für x D .x1 ; : : : ; xkCs /,
!1 E n !1 D und !1 D  !1 E die Gleichheit sEnD D sE  sD . Da y D .y1 ; : : : ; ykCs / 2 RkCs mit x  y sei A1 WD
Śk ŚkCs
die Differenz messbarer FunktionenPmessbar ist, gehört E n D
j D1 .xj ; yj , A2 WD j DkC1 .xj ; yj . Nach (8.70) gilt für das
zu D. Nach (8.68) gilt sP1nD1 Dn
D 1 nD1 sDn für eine disjunkte Produktmaß k ˝ s auf Bk ˝ Bs (D BkCs )
Vereinigung
P1 von Mengen aus D , sodass D auch die Vereinigung
nD1 Dn enthält. Folglich ist D ein Dynkin-System. k ˝ s ..x; y/ D k ˝ s .A1  A2 /
Mit (8.69) ergibt sich sA1 A2 D 2 .A2 /1fA1 g, was bedeutet, D k .A1 /  s .A2 /
dass D das \-stabile System H WD A1  A2 aller messba-
ren Rechtecke enthält. Da für ein \-stabiles Mengensystem die Y
k Y
kCs
D .yj  xj /  .yj  xj /
erzeugte -Algebra und das erzeugte Dynkin-System identisch
j D1 j DkC1
sind, folgt A1 ˝ A2 D .H / D ı.H /  D, was zu zeigen
war. Y
kCs
D .yj  xj /
Ist 2 nur -endlich, so wählen wir eine Folge .Bn /n1 aus A2 j D1
mit Bn " ˝2 und 2 .Bn / < 1; n  1. Für jedes n ist A2 7!
2 .A2 \ Bn / ein endliches Maß 2;n auf A2 . Nach dem bereits D kCs ..x; y/;
Gezeigten ist für jedes n  1 die Funktion !1 7! 2;n .!1 Q/
A1 -messbar. Wegen 2 .!1 Q/ D supn1 2;n .!1 Q/ ist !1 7! also k ˝ s .Q/ D kCs .Q/ 8Q 2 I k . Nach dem Eindeutig-
2 .!1 Q/ als Supremum abzählbar vieler messbarer Funktionen keitssatz für Maße folgt k ˝ s D kCs . J
A1 -messbar. 
Kommentar Der italienische Mathematiker und Astronom
Buonaventura Cavalieri (1598–1647) formulierte ein nach ihm
Existenz und Eindeutigkeit des Produktmaßes benanntes Prinzip der Flächen- und Volumenmessung. Dieses
Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß- Cavalierische Prinzip besagt im R3 , dass zwei Körper das glei-
räume. Dann gibt es genau ein -endliches Maß  auf che Volumen aufweisen, wenn alle ebenen Schnitte, die parallel
A1 ˝ A2 mit zu einer vorgegebenen Grundebene und in übereinstimmenden
Abständen ausgeführt werden, die jeweils gleiche Fläche besit-
.A1  A2 / D 1 .A1 / 2 .A2 /; A1 2 A1 ; A2 2 A2 : zen. Diese Aussage ist ein Spezialfall der ersten Gleichheit in
(8.70) (8.71) für den Fall 1 D 1 , 2 D 2 , wonach für Q 2 B3
Z
Für jede Menge Q 2 A1 ˝ A2 gilt 3 .Q/ D 2 .x Q/ 1 .dx/
Z Z R
.Q/ D 2 .!1 Q/ 1 .d!1 / D 1 .Q!2 / 2 .d!2 /:
gilt. Ist also R 2 B3 ein weiterer Körper mit der Eigenschaft
(8.71) 2 .x R/ D 2 .x Q/ für jedes x 2 R, ergeben also alle Schnitte
von R und Q mit den zu f.0; y; z/ j y; z 2 Rg parallelen Ebenen
 heißt Produkt der Maße 1 und 2 oder Produkt- jeweils gleiche Schnittflächen, so folgt 3 .Q/ D 3 .R/. Dabei
maß von 1 und 2 und wird mit 1 ˝ 2 bezeichnet. muss die Gleichheit der Schnittflächen nur für 1 -fast alle x gel-
ten.
350 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Beispiel: Bestimmung des Volumens einer Kugel im Rk mit vollständiger Induktion

Bestimmen Sie k .Bk .x; r//, wobei Bk .x; r/ D fy 2 Nach Induktionsvoraussetzung gilt
Rk j ky  xk < rg.
k1 .x1 Bk / D ck1  .1  x12 /.k1/=2
Problemanalyse und Strategie Das Volumen von Bk .x; r/
wird häufig unter Verwendung von Kugelkoordinaten zu sowie k1 .x1 Bk / D 0, falls jx1 j  1. Mit (8.71) und der
 k=2 r k = .k=2C1/ hergeleitet, siehe z. B. [1], Abschn. 22.4. Substitution t D cos x1 sowie
Dabei ist  W .0; 1/ ! R die in (5.41 ) definierte Gamma-
Z=2
Kapitel 8

funktion. Wir versuchen, diese Formel induktiv mithilfe der


Beziehung kCs D k ˝ s zu gewinnen. ak WD .sin t /k dt ;
0

Lösung Für jede natürliche Zahl k sei kurz


folgt
 k=2 Z
ck WD k ;  
 2 C1 k .Bk / D k1 x1 Bk 1 .dx1 /
8 R
< .2/k=2 ; falls k gerade;
k.k2/:::42 Z1
D  .k1/=2
: 2.2/.k1/=2 ; falls k ungerade; D ck1  1  x12 dx1 D 2  ck1  ak
k.k2/:::31
1
gesetzt. Da k translationsinvariant ist und nach Aufgabe
8.36 bei einer durch H .x/ WD   x (x 2 Rk ;  ¤ 0), ge- und somit
gebenen zentrischen Streckung gemäß H .k / D jjk  k
k .Bk / ck1 ak
transformiert wird, können wir o.B.d.A. x D 0 und r D 1 D  ; k  3: (8.73)
annehmen. Es ist also k2 .Bk2 / ck3 ak2

Wegen  .x C 1/ D x .x/ gilt


k .Sk .0; 1// D ck (8.72)
ck1 2
zu zeigen. D ;
ck3 k1
Im Fall k D 1 gilt B1 .0; 1/ D .1; 1/ und somit
1 .B1.0; 1// D 2, was wegen c1 D 2 mit (8.72) überein- und partielle Integration liefert ak =ak2 D .k  1/=k, k  3.
stimmt. Im Fall k  2 verwenden wir für den Induktions- Gleichung (8.73) geht somit in die Rekursionsformel
schluss von k  1 auf k die Beziehungen Rk D R  Rk1
2 k2
und k D 1 ˝ k1 . Setzen wir kurz Bk WD Bk .0; 1/, so k .Bk / D   .Bk2 /; k  3;
ergibt sich für jedes x1 2 .1; 1/ der x1 -Schnitt von Bk zu k
über. Die Folge .ck / erfüllt die gleiche Rekursionsformel
x1 Bk D f.x2 ; : : : ; xk / 2 Rk1 j x22 C : : : C xk2 < 1  x12 g und die gleichen Anfangsbedingungen, nämlich c1 D 2 D
q
1 .B1 /, c2 D  D 2 .B2 /, es gilt also ck D k .Bk / für
D Bk1 .0; 1  x12 /:
jedes k  1, was zu zeigen war.

In gleicher Weise besitzen zwei messbare Teilmengen des R2 zu. Sei hierzu f W ˝1  ˝2 ! R eine A1 ˝ A2 -messbare
die gleiche Fläche, wenn alle Schnitte mit Geraden, die parallel Funktion. Zur Verdeutlichung, welches der Argumente !1 oder
zu einer vorgegebenen Geraden ausgeführt werden, die jeweils !2 von f festgehalten wird, schreiben wir
gleiche Länge besitzen. Dieses Prinzip spiegelt sich in der ersten
Gleichheit in (8.71) für den Fall 1 D 2 D 1 wider. J ( (
˝2 ! R ˝1 ! R
f .!1 ; / W f .; !2 / W
!2 7! f .!1 ; !2 / !1 7! f .!1 ; !2 /:
Integration bezüglich des Produktmaßes
bedeutet iterierte Integration Wegen f .!1 ; /1 .B/ D f!2 W .!1 ; !2 / 2 f 1 .B/g D
1
!1 .f .B// (!1 2 ˝1 , B 2 B) ist f .!1 ; / nach dem Lem-
Getreu dem Motto „Wo ein Maß ist, ist auch ein Integral“ wen- ma über Schnitte A2 -messbar. Ebenso ist f .; !2 / für jedes
den wir uns jetzt der Integration bzgl. des Produktmaßes 1 ˝2 !2 2 ˝2 A1 -messbar.
8.9 Produktmaße, Satz von Fubini 351

Das erste Resultat über die Integration bzgl. des Produktmaßes Substituiert man im inneren Integral v WD u C t , so folgt mit
betrifft nichtnegative Funktionen. Es geht auf den italienischen A WD f.t ; v/ 2 R2 j 0 < t < vg
Mathematiker Leonida Tonelli (1885–1946) zurück. 0 1
Z1 Z1
 .˛/ .ˇ/ D @ t ˛1 .v  t /ˇ1 ev dvA dt
0 t
Satz von Tonelli Z
Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß- D 1A .t ; v/t ˛1 .v  t /ˇ1 ev d2 .t ; v/:
räume. Die Funktion f W ˝1  ˝2 ! R sei nichtnegativ .0;1/2
und A1 ˝ A2 -messbar. Dann sind die Funktionen
Vertauscht man die Integranden – was nach dem Satz von Tonel-
Z Z li gestattet ist – so ergibt sich

Kapitel 8
˝2 3 !2 7! f .; !2 /d1 ; ˝1 3 !1 7! f .!1 ; /d2 0 1
Z1 Z v
 .˛/ .ˇ/ D @ t ˛1 .v  t /ˇ1 dt A ev dv
A2 - bzw. A1 -messbar, und es gilt
0 0
Z Z Z  0 1
Z1 Z1
f d1 ˝ 2 D f .; !2 /d1 2 .d!2 / (8.74) D @ s ˛1 .1  s/ˇ1 ds A v˛Cˇ1 ev dv
Z Z 
0 0
D f .!1 ; /d2 1 .d!1 /: (8.75)
D B.˛; ˇ/  .˛ C ˇ/
und damit (5.60). J

Wie schon der Satz von Tonelli besagt auch der nachstehen-
Beweis Der Beweis erfolgt durch algebraische Induktion. Sei de Satz von Guido Fubini (1879–1943), dass unter allgemeinen
hierzu .˝; A; / WD .˝1 ˝2 ; A1 ˝ A2 ; 1 ˝2 /. Ist f D 1Q , Voraussetzungen das Integral bzgl. des Produktmaßes durch ite-
Q 2 A, eine Indikatorfunktion, so folgt die R Behauptung di- rierte Integration in beliebiger Reihenfolge gewonnen werden
rekt aus (8.71),R denn es gilt  1 .Q!2 / D f .; !2 /d1 und kann. Wohingegen die betrachtete Funktion im Satz von Tonelli
2 .!1 Q/ D f .!1 ; /d2 . Wegen der Linearität des Integrals nichtnegativ ist (und dann das entstehende Integral den Wert 1
gilt die Behauptung dann auch für jede Elementarfunktion. Ist annehmen kann), muss sie für die Anwendung des Satzes von
f eine nichtnegative A-messbare Funktion, und ist .un / eine Fubini bzgl. des Produktmaßes integrierbar sein.
Folge von Elementarfunktionen mit un " f , so ist für festes
!2 (un .; !2 // eine entsprechende Folge R auf ˝1 mit un .; !2 / "
f .; !2 /. Die durch 'n .!2 / WD un .; !2 /d1 , !2 2 ˝2 ; Satz von Fubini
auf ˝2 definierte
R Funktion 'n ist A2 -messbar, n  1, mit Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß-
'
R n .! 2 / " f .; ! 2 /d1 . Also ist die Funktion ˝2 3 !2 7! räume und f W ˝1  ˝2 ! R eine 1 ˝ 2 -integrierbare
f .; !2 /d1 A2 -messbar, und es folgt mit dem Satz von der A1 ˝ A2 -messbare Funktion. Dann gilt:
monotonen Konvergenz, dem ersten Beweisteil sowie der Defi-
nition des Integrals für nichtnegative messbare Funktionen f .!1 ; / ist 2 -integrierbar für 1 -fast alle !1 ,
f .; !2 / ist 1 -integrierbar für 2 -fast alle !2 .
Z Z  Z
R 1 -f.ü. bzw. 2 -f.ü. definierten
Die R Funktionen !1 7!
f .; !2 / d1 2 .d!2 / D lim 'n d2 f .!1 ; /d2 bzw. !2 7! f .; !2 /d1 sind 1 - bzw.
n!1
Z 2 -integrierbar, und es gelten (8.74) und (8.75).
D lim un d
n!1
Z
D f d: Beweis Aus (8.74) und (8.75) folgt mit  WD 1 ˝ 2
Z Z 
jf .!1 ; /jd2 1 .d!1 /
Eine analoge Betrachtung für f .!1 ; / liefert (8.75).  Z Z 
D jf .; !2 /jd1 2 .d!2 /
Beispiel Der Satz von Tonelli gestattet eine alternative Her- Z
leitung der Beziehung (5.60) zwischen der Gamma- und der D jf j d < 1:
Betafunktion. Zum Nachweis von (5.60) starten wir mit der aus
dem Satz von Tonelli folgenden Gleichung Teil b) der Folgerung aus der Markov-Ungleichung in
Abschn. 8.6 liefert dann die ersten beiden Behauptungen. Da-
0 1
Z1 Z1 mit und wegen des Satzes von Tonelli ist die Funktion
Z Z Z
 .˛/ .ˇ/ D @ t ˛1 uˇ1 e.t Cu/ duA dt :
!1 7! f .!1 ; /d2 D f .!1 ; / d2  f .!1 ; / d2
C
0 0
352 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

1 -f.ü. definiert und (nach einer geeigneten Festlegung auf einer


1 -Nullmenge) A1 -messbar. Indem man den Satz von Tonel-
li auf f C und f  anwendet, folgt die Integrierbarkeit dieser
Funktion sowie mit der Kurzschreibweise f!˙1 D f .!1 ; /˙
Z Z Z
f d D f C d  f  d
“ “
D f!C1 d2 1 .d!1 /  f!1 d2 1 .d!1 /

D f .!1 ; / d2 1 .d!1 /:
Kapitel 8

Vertauscht man die Rollen von !1 und !2 , so ergibt sich der


Rest der Behauptung. 
Abb. 8.20 Zum Satz von Tonelli
Beispiel (Integral von Dirichlet) Der Satz von Fubini lie-
fert die Grenzwertaussage
Zt Abb. 8.20 illustriert die im Zusammenhang mit den Sätzen von
sin x 
lim dx D : (8.76) Tonelli und Fubini angewandte und insbesondere im Fall des
t !1 x 2 Borel-Lebesgue-Maßes wichtige Integrationstechnik. Soll das
0
Volumen zwischen dem Graphen einer nichtnegativen Funkti-
Zunächst ergibt sich nämlich durch Differentiation nach t für on f und der .x; y/-Ebene über dem Rechteck Œa1 ; b1   Œa2 ; b2 
jedes t  0 bestimmt werden, so kann man bei festgehaltenem y0 2 Œa2 ; b2 
Rb
Zt das als Fläche deutbare Integral a11 f .x; y0 / dx berechnen und
1  eut .u  sin t C cos t /
eux sin x dx D : (8.77) diese von y0 abhängende Funktion über y0 von a2 bis b2 in-
1 C u2 tegrieren. Dabei führt die Vertauschung der Reihenfolge der
0
inneren und äußeren Integration zum gleichen Wert. J
Wegen
2 3
Zt Z1 Zt Unter Beachtung der Bijektion
4 j sin xj
ux
je sin xj du5 dx D dx  t < 1
x
0 0 0 .˝1  : : :  ˝n1 /  ˝n ! ˝1  : : :  ˝n
ux ..!1 ; : : : ; !n1 /; !n / 7! .!1 ; : : : ; !n /
kann der Satz von Fubini auf die Integration von e sin x über
.0; t /  .0; 1/ angewendet werden. Mit (8.77) folgt
21 3 ergibt sich nun mithilfe vollständiger Induktion die Verallgemei-
Zt Zt Z
sin x nerung der erzielten Resultate auf n-fache kartesische Produkte.
dx D sin x 4 eux du5 dx
x
0 0 0
2 3
Z1 Z t
Satz über die Existenz und Eindeutigkeit des Produkt-
D 4 eux sin x dx 5 du maßes
0 0
Es seien .˝1 ; A1 ; 1 /; : : : ; .˝n ; An ; n /, n  2, -
Z1 Z1
du eut .u sin t C cos t / endliche Maßräume. Dann existiert genau ein -endliches
D  du Maß  auf A1 ˝ : : : ˝ An mit (8.63). Dieses Maß heißt
1 C u2 1 C u2
0 0 das Produktmaß von 1 ; : : : ; n und wird mit
und somit (8.76), da das zweite Integral für t ! 1 gegen null
konvergiert. J O
n
j WD 1 ˝ : : : ˝ n WD 
j D1
Kommentar Die Sätze von Tonelli und Fubini besagen, dass
unter den gemachten Voraussetzungen die Integrationsreihen- bezeichnet. Der Maßraum
folge irrelevant ist. Aus diesem Grund schreiben wir (8.74) und 0 1
(8.75) in der Form On ą
n O
n O
n
Z “ .˝j ; Aj ; j / WD @ ˝j ; Aj ; j A
f d1 ˝ 2 D f .!1 ; !2 / 1 .d!1 / 2 .d!2 / j D1 j D1 j D1 j D1


D f .!1 ; !2 / 2 .d!2 / 1 .d!1 /: heißt Produkt der Maßräume .˝j ; Aj ; j /, 1  j  n.
8.9 Produktmaße, Satz von Fubini 353

Beweis Die Eindeutigkeit von  wurde schon bewiesen. An- für jede Wahl von ` mit 1  ` < n. Insbesondere gilt k D
genommen, die Existenz von e  WD 1 ˝ : : : ˝ n1 sei für ein 1 ˝ : : : ˝ 1 (k Faktoren).
n > 2 gezeigt. Aufgrund der -Endlichkeit von e ist dann auch
 WD e
˝n definiert.  ist ein Maß auf .A1 ˝: : :˝An1 /˝An Mithilfe der Darstellung (8.78) und vollständiger Induktion
mit übertragen sich auch die Sätze von Tonelli und Fubini auf den
allgemeinen Fall von n Faktoren. Ist f eine nichtnegative oder
e  An / D e
.Q e  n .An /;
.Q/ 1 ˝ : : : ˝ n -integrierbare A1 ˝ : : : ˝ An -messbare numeri-
sche Funktion auf ˝1  : : :  ˝n , so gilt für jede Permutation
e 2 A1 ˝ : : : ˝ An1 ; An 2 An :
Q .i1 ; : : : ; in / von .1; : : : ; n/:
Wegen .A1 ˝ : : : ˝ An1 / ˝ An D A1 ˝ : : : ˝ An (aufgrund Z
obiger Bijektion) erfüllt  die Bedingung (8.63).  f d.1 ˝ : : : ˝ n /

Kapitel 8
Z Z
Mit ganz analogen Überlegungen ergibt sich die Assoziativität D : : : f .!1 ; : : : ; !n /i1 .d!i1 / : : : in .d!in /:
der Produktmaß-Bildung, d. h., es gilt
! !
Ò O n On Die Integration bzgl. des Produktmaßes kann also in beliebiger
i ˝ i D i (8.78) Reihenfolge ausgeführt werden.
i D1 i D`C1 i D1
354 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

Zusammenfassung

Gegenstand der Maß- und Integrationstheorie sind Maßräu- ist. Die nach obigen allgemeinen Sätzen eindeutige Fortsetzung
me und der dazu gehörige Integrationsbegriff. Ein Maßraum k von Ik auf Bk heißt Borel-Lebesgue-Maß (Borel-Lebesgue
(engl.: measure space) ist ein Tripel .˝; A; /, wobei ˝ ei- measure) im Rk .
ne nichtleere Menge und A  P .˝/ eine -Algebra über
Ist G W R ! R eine maßdefinierende Funktion, also mono-
˝ bezeichnen. Das Paar .˝; A/ heißt Messraum (measurable
ton wachsend und rechtsseitig stetig, so definiert G ..a; b/ D
space). Eine  -Algebra (-field, -algebra) enthält die leere
Kapitel 8

Menge, mit jeder Menge auch deren Komplement und mit jeder G.b/  G.a/ ein Prämaß auf I 1 , das eine eindeutige Fort-
setzung auf B1 besitzt. Das entstehende Maß auf B1 heißt
Folge von Mengen auch deren Vereinigung. Ein Maß (measure)
Lebesgue-Stieltjes-Maß (Lebesgue-Stieltjes measure) zu G.
auf A ist eine Funktion  W A ! P Œ0; 1 mit .;/
P D 0, die
-additiv ist, also die Gleichung . j1D1 Aj / D j1D1 .Aj / Gilt zusätzlich limx!1 G.x/ D 1 und limx!1 G.x/ D 0, so
heißt G eine Verteilungsfunktion (distribution function); das
für jede Folge .An / paarweise disjunkter Mengen aus A erfüllt.
resultierende Maß ist dann ein Wahrscheinlichkeitsmaß.
Maße können im Allgemeinen nicht auf der vollen Potenzmen-
ge definiert werden. Sind .˝; A/, .˝ 0 ; A0 / Messräume, so heißt eine Abbildung
f W ˝ ! ˝ 0 .A; A0 /-messbar (.A; A0 /-measurable), falls
Bei der Konstruktion von Maßen liegt eine auf einem System f 1 .A0 /  A gilt, also die Urbilder aller Mengen aus A0 zu
M  P .˝/ „einfacher“ Mengen definierte Funktion
T vor, die A gehören. Dabei reicht schon die Inklusion f 1 .M0 /  A für
auf die kleinste M enthaltende -Algebra .M/ D fA j A  einen Erzeuger M0 von A0 aus. Gilt speziell .˝ 0; A0 / D .R; B/,
P .˝/ -Algebra und M  Ag über ˝ fortgesetzt werden soll.
so heißt f kurz messbar. Im Fall ˝ 0 D R D R [ f1; 1g
Das System M heißt Erzeuger (generator) von .M/. Das Sys- spricht man auch von einer numerischen Funktion und legt die
tem H einfacher Mengen ist ein Halbring (semiring), d. h., -Algebra B WD fB [ E j B 2 B; E  f1; 1gg der in R
es enthält die leere Menge und ist \-stabil. Weiter lässt sich Borelschen Mengen zugrunde.
die Differenz zweier Mengen aus H als disjunkte Vereinigung
endlich vieler Mengen aus H schreiben. Ein Beispiel für einen Wie für stetige Funktionen gelten auch für messbare Funktio-
Halbring im Rk ist das System I k D f.x; y j x; y 2 Rk ; x  yg nen Rechenregeln. So sind Linearkombinationen und Produkte
der nach links unten offenen achsenparallelen Quader des Rk . messbarer numerischer Funktionen messbar und für Folgen .fn /
Dieses erzeugt die -Algebra Bk der Borel-Mengen im Rk . solcher Funktionen auch die Funktionen supn1 fn , infn1 fn ,
Ein Prämaß (pre-measure) auf H ist eine -additive Funkti- lim supn!1 fn und lim infn!1 fn . Insbesondere ist limn!1 fn
on  W H ! Œ0; 1 mit .;/ D 0. messbar, falls .fn / punktweise in R konvergiert. Außerdem
sind mit einer Funktion f auch deren Positivteil (positive part)
Wichtige Resultate der Maßtheorie sind der Fortsetzungssatz f C WD max.f ; 0/ und deren Negativteil (negative part) f  WD
(Carathéodory’s extension theorem) und der Eindeutigkeits-  min.f ; 0/ messbar.
satz (uniqueness of measures). Ersterer besagt, dass sich jedes
Prämaß  auf einem Halbring H  P .˝/ zu einem Maß Sind .˝; A; / ein Maßraum, .˝ 0 ; A0 / ein Messraum und
auf die von H erzeugte -Algebra .H / fortsetzen lässt. f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung, so wird
Nach dem Eindeutigkeitssatz sind zwei Maße auf A schon durch f .A0 / WD .f 1 .A0 //, A0 2 A0 , ein Maß auf A0
dann gleich, wenn sie auf einem \-stabilen Erzeuger von A, definiert. Es heißt Bild.-Maß/ von  unter f (image mea-
der eine aufsteigende Folge Mj " ˝ enthält, die gleichen, sure) und wird auch mit f ./ oder  ı f 1 bezeichnet. Für
endlichen Werte annehmen. Um ein Prämaß  fortzusetzen, be- jedes b 2 Rk ist das Bild des Borel-Lebesgue-Maßes k un-
trachtet man für eine Menge A  ˝Sdie Menge U.A/ WD ter der mit Tb bezeichneten Translation um b gleich k . Das
f.An /n2N j An 2 H 8n  1; A  1 Maß k ist somit translationsinvariant (translation invariant),
nD1 An g aller Überde-
ckungsfolgen von A durch Mengen aus H und setzt  .A/ WD und jedes andere translationsinvariante Maß  auf Bk mit der
P1
inff nD1 .An / j .An /n2N 2 U.A/g: Auf diese Weise entsteht Eigenschaft ..0; 1k / < 1 stimmt bis auf einen Faktor mit
ein äußeres Maß (outer measure)  W P .˝/ ! Œ0; 1, d. h., k überein. Hiermit zeigt man, dass k sogar bewegungsin-
es gilt  .;/ D 0, und  ist monoton (aus A variant (invariant under rigid motions) ist, also T .k / D k
S B folgt
   1 für jede Bewegung T des Rk gilt. Ist allgemeiner T eine durch
 .A/   .B/) sowie -subadditiv (es gilt  Aj 
P1 
j D1 T .x/ WD Ax C a, x 2 Rk , definierte affine Abbildung mit einer
j D1  .Aj /). invertierbaren Matrix A, so gilt T .k / D j det Aj1  k .
Nach dem Lemma von Carathéodory ist das System A. / WD Auf einem Maßraum .˝; A; / konstruiert man wie folgt das
fA  ˝ j  .AE/ C  .Ac E/ D  .E/ 8E  ˝g der  - -Integral einer messbaren numerischen Funktion f W ˝ ! R.
messbaren Mengen eine -Algebra mit .H /  A. /, und Zunächst betrachtet man die Menge EC aller Elementarfunk-
die Restriktion von  auf A. / ist ein Maß. Für den
Q Spezial- tionen (simple functions), also Funktionen f W ˝ ! R0
fall des Halbrings I k und den durch Ik ..x; y/ WD jnD1 .yj  mit jf .˝/j <P1. Jedes f 2 EC hat eine Darstellung der
n
xj / definierten k-dimensionalen geometrischen Elementarinhalt Form f D j D1 ˛j 1fAj g mit paarweise disjunkten Men-
zeigt der Cantorsche Durchschnittssatz, dass Ik ein Prämaß gen A1 ; : : : ; An aus A und ˛1 ; : : : ; ˛n 2 R0 . Die nicht von
Zusammenfassung 355

" R
P Darstellung abhängende Œ0; 1-wertige Größe
Rder speziellen Funktionen Rfn aus EC die Ungleichung lim infn!1 fn d 
f d WD jnD1 ˛j .Aj / heißt das (-)Integral von f (über lim infn!1 fn d gilt.
R
˝). Insbesondere gilt also 1A d D .A/; A 2 A:
Für eine positive reelle Zahl Rp und eine messbare numerische
In einem zweiten Schritt betrachtet man die Menge EC aller
" Funktion f sei kf kp WD . jf jp d/1=p . 1/ gesetzt. f
messbaren Funktionen f W ˝ ! Œ0; 1. Jedes solche f ist heißt p-fach integrierbar, falls kf kp < 1. Die Menge Lp
punktweiser Grenzwert einer Folge .un / aus EC mit un  unC1 , der reellen p-fach integrierbaren Funktionen ist ein Vektorraum.
n 2 N. WeilR das -Integral auf E die Monotonieeigenschaft Im Fall p  1 ist die Zuordnung f 7! kf kp eine Halb-
R R
„u  v H) ud  v d“ erfüllt, definiert man f d WD norm auf Lp , d. h., es gelten kf kp  0, k˛f kp D j˛jkf kp
R
limn!1 un d als das .-/Integral von f .über ˝/. Da der für ˛ 2 R sowie die Minkowski-Ungleichung (Minkowski
Grenzwert nicht von der speziellen Folge .un / abhängt, ist die- inequality) kf C gkp  kf kp C kgkp . Sind p > 1 und
" q > 1 mit 1=p C 1=q D 1, so gilt für messbare numeri-

Kapitel 8
se Erweiterung des Integralbegriffs auf EC widerspruchsfrei.
Schließlich löst man sich von der Bedingung f  0 und nennt sche Funktionen die Hölder-Ungleichung (Hölder inequality)
kf  gk1  kf kp  kgkq :
eine Rmessbare numerischeR Funktion auf ˝ .-/integrierbar,
falls f C d < 1 und f  d < 1. In diesem Fall heißt die Eine Folge .fn / aus Lp konvergiert im p-ten Mittel gegen f 2
reelle Zahl Lp , wenn kfn  f kp ! 0. Nach dem Satz von Riesz-Fischer
Z Z Z (Riesz-Fischer theorem) ist der Raum Lp bzgl. dieser Konver-
f d WD f d  f  d
C genz vollständig, jede Cauchy-Folge hat also einen Grenzwert.
Die Menge Lp der Äquivalenzklassen -f.ü. gleicher Funktio-
nen aus Lp ist ein Banach-Raum.
das .-/Integral von f .über ˝/. Wegen jf j D f C C f  ist
f genau dann integrierbar, wenn jf j integrierbar ist. Sind .˝; A; / ein Maßraum und f W ˝ ! Œ0; 1 eine mess-
bare Funktion, so definiert die Festsetzung
Das -Integral besitzt alle vom Lebesgue-Integral her bekann-
Z Z
ten strukturellen Eigenschaften. So sind mit integrierbaren nu-
merische Funktionen f und g auf ˝ Rund ˛ 2 R auch .A/ WD f d D f  1A d; A 2 A;
R ˛f
und Rf C g integrierbar,
R und es gelten
R .˛f / d D ˛ f d A

ˇund
R .fˇ C Rg/ d D f d C g d sowie die Ungleichung
ˇ f dˇ  jf j d. ein Maß  DW f  auf A, das Maß mit der Dichte f bezüglich
. Da jede -Nullmenge eine -Nullmenge darstellt, ist  ab-
Sind .˝; A; / ein Maßraum, .˝ 0 ; A0 / ein Messraum, f W solut stetig (absolutely continuous) bzgl. , kurz:   . Ist
˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung und h W ˝ 0 ! R  -endlich, gibt es also eine Folge .An / aus A mit An " ˝
eine messbare nichtnegative oder f -integrierbare Funktion, so und .An / < 1 für jedes n, so gilt nach dem Satz von Radon-
gilt der Transformationssatz für Integrale (change of varia- Nikodým (Radon-Nikodým theorem) auch die Umkehrung: Ist
bles theorem)  ein Maß auf A mit   , so gilt die obige Darstellung
R
Z Z von  mit einer -f.ü. eindeutigen Dichte f . Wegen 'd D
R "
h df D h ı f d: ' f d für ' 2 EC kann die Integration bzgl.  auf diejenige
˝0 ˝
bzgl.  zurückgeführt werden.
Sind  D f k ein Maß mit einer Lebesgue-Dichte f auf Bk ,
Eine Menge A 2 A mit .A/ D 0 heißt (-)Nullmenge (null die außerhalb einer offenen Menge U  Rk verschwindet und
set). Eine für jedes ! 2 ˝ zutreffende oder nicht zutreffende T W Rk ! Rk eine messbare Abbildung, deren Restriktion auf
Eigenschaft E gilt (-)fast überall (almost everywhere) oder U stetig differenzierbar mit nirgends verschwindender Funktio-
kurz f.ü., falls E auf dem Komplement einer Nullmenge zu- naldeterminante ist, so ist
trifft. Das -Integral ändert sich nicht, wenn der Integrand auf
f .T 1 .y//
einer
R Nullmenge abgeändert wird. Für eine Funktion f  0 gilt g.y/ WD ; falls y 2 T .U /;
f d D 0 () f D 0 -f.ü. Jede -integrierbare Funktion j det T 0 .T 1 .y//j
ist -f.ü. endlich.
und g.y/ WD 0 sonst eine k -Dichte des Bildmaßes T ./
Ist f1  f2  f3  : : : eine isotone Folge aus
"
EC , so gilt (Transformationssatz für k -Dichten).
Z Z Sind  und  Maße auf A, wobei  -endlich ist, so existieren
lim fn d D lim fn d nach dem Lebesgueschen Zerlegungssatz (Lebesgue decom-
n!1 n!1
position) eindeutig bestimmte Maße a und s mit  D a C s
und a   sowie s ?. Die letztere Eigenschaft bedeutet,
(Satz von der monotonen Konvergenz, Beppo Levi’s theo-
dass s und  in dem Sinne singulär (singular) zueinander sind,
rem). Man kann Integral- und Limesbildung auch vertauschen,
dass es eine Menge A 2 A mit .A/ D 0 D s .˝ nA/ gibt. Die
wenn die fn beliebige messbare Funktionen sind, die f.ü. kon-
Maße a und s heißen absolut stetiger bzw. singulärer Anteil
vergieren und jfn j  g f.ü. für eine integrierbare Funktion
(absolutely continuous rep. singular part) von  bezüglich .
g gilt (Satz von der dominierten Konvergenz, Lebesgue’s
dominated convergence theorem). Der Beweis dieses Satzes ver- Sind .˝1 ; A1 ; 1 / und .˝2; A2 ; 2 / -endliche Maßräume, so
wendet das Lemma von Fatou (Fatou’s lemma), wonach für existiert genau ein Maß  auf der von den Mengen A1  A2 mit
356 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

A1 2 A1 , A2 2 A2 erzeugten Produkt--Algebra A1 ˝ A2 mit


.A1  A2 / D 1 .A1 /  2 .A2 / für alle A1 2 A1 ; A2 2 A2 .
Dieses Maß heißt Produktmaß (product measure) und wird mit
 DW 1 ˝ 2 bezeichnet. Für jedes Q 2 A1 ˝ A2 gilt die das
Cavalierische
R Prinzip verallgemeinernde Gleichung .Q/ D
˝1  2 .f! 2 2 ˝2 j .!1 ; !2 / 2 Qg/1 .d!1 /. Die Integration ei-
ner messbaren Funktion f W ˝1  ˝2 ! R bzgl. 1 ˝ 2
erfolgt iteriert, wobei obige Gleichung den Fall R einer Indika-
torfunktion
R R 1fQg beschreibt.
 Allgemein gilt f d1 ˝ 2 D
f .!1 ; !2 /1 .d!1 / 2 .d!2/; wenn f entweder nichtnega-
tiv (Satz von Tonelli, Tonelli theorem) oder -integrierbar (Satz
Kapitel 8

von Fubini, Fubini theorem) ist. Dabei kann die Integration


auch in umgekehrter Reihenfolge durchgeführt werden. Diese
Resultate übertragen sich durch Induktion auf den Fall von mehr
als zwei Maßräumen.
Aufgaben 357

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,

Kapitel 8
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!

Verständnisfragen 8.9 Geben Sie Folgen .fn /, .gn / und .hn / 1 -


integrierbarer reellwertiger Funktionen auf R an, die jeweils
8.1 Zeigen Sie im Falle des Grundraums ˝ D 1 -f.ü. gegen null konvergieren, und für die Folgendes gilt:
R
f1; 2; 3g, dass die Vereinigung von -Algebren i. Allg. keine - limn!1 R fn d1 D 1,
Algebra ist. limn!1 gnRd1 D 1, R
lim supn!1 hn d1 D 1, lim infn!1 hn d1 D 1.
8.2 Es seien ˝ eine unendliche Menge und die Funk-
tion  W P .˝/ ! Œ0; 1 durch  .A/ WD 0, falls A endlich, 8.10 Es seien .˝; A; / ein Maßraum, .˝ 0 ; A0 / ein
und  .A/ WD 1 sonst definiert. Ist  ein äußeres Maß? Messraum und f W ˝ ! ˝ 0 eine .A; A0 /-messbare Ab-
bildung. Zeigen Sie: Ist h W ˝ 0 ! R eine nichtnegative
A0 -messbare Funktion, so gilt
8.3 Es sei G W R ! R eine maßdefinierende Funkti-
on mit zugehörigem Maß G . Für x 2 R bezeichne G.x/ WD Z Z
f
limy"x;y<x G.y/ den linksseitigen Grenzwert von G an der Stel- h d D h ı f d; A0 2 A0 :
le x. Wegen der Monotonie von G ist dabei limn!1 G.yn / nicht A0 f 1 .A0 /
von der speziellen Folge .yn / mit yn  ynC1 , n 2 N, und
yn ! x abhängig, was die verwendete Kurzschreibweise recht-
8.11 Es seien .˝; A; / ein Maßraum sowie p 2 R
fertigt. Zeigen Sie: Es gilt
mit 0 < p  1. Zeigen Sie: Für messbare numerische Funktio-
nen f und g auf ˝ gilt
G.x/  G.x/ D G .fxg/; x 2 R:
Z Z Z
jf C gjp d  jf jp d C jgjp d:
8.4 Zeigen Sie: Jede monotone Funktion f W R ! R
ist Borel-messbar.
8.12 Es seien ˝ eine überabzählbare Menge und A WD
8.5 Es seien .˝; A/ ein Messraum und f W ˝ ! R fA  ˝ j A abzählbar oder Ac abzählbarg die -Algebra der
eine numerische Funktion. Zeigen Sie, dass aus der Messbarkeit abzählbaren oder co-abzählbaren Mengen. Die Maße  und 
von jf j i. Allg. nicht die Messbarkeit von f folgt. auf A seien durch .A/ WD 0, falls A abzählbar und .A/ WD 1
sonst sowie .A/ WD jAj, falls A endlich und .A/ WD 1 sonst
definiert. Zeigen Sie:
8.6 Zeigen Sie, dass das System I WD fŒ1; cj j c 2
Rg einen Erzeuger der -Algebra B über R bildet. a)   .
b)  besitzt keine Dichte bzgl. .
c) Warum steht dieses Ergebnis nicht im Widerspruch zum Satz
8.7 Es sei  ein Inhalt auf einer -Algebra A 
von Radon-Nikodým?
P .˝/. Zeigen Sie: Ist  stetig von unten, so ist  -additiv und
somit ein Maß.
8.13 Es seien .˝; A/ ein Messraum und ;  Maße auf
0 0
A. Weisen Sie in Teil a) – c)    nach. Geben Sie jeweils
8.8 Es seien .˝; A; / ein Maßraum, .˝ ; A / ein eine Radon-Nikodým-Dichte f von  bzgl.  an.
Messraum und f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbil-
dung. Prüfen Sie die Gültigkeit folgender Implikationen: a) .˝; A/ beliebig,  ein beliebiges Maß auf A, A0 2 A fest,
.A/ WD .A \ A0 /; A 2 A.
a)  ist -endlich H) f ist -endlich, b) .˝; A/ WD .N; P .N//, P und Q beliebige Wahrscheinlich-
b) f ist -endlich H)  ist -endlich. keitsmaße auf P .N/,  WD P C Q,  WD P .
358 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

c) .˝; A/ beliebig,  ein -endliches Maß auf A, P und Q 8.22 Es seien Ak und K k die Systeme der abge-
Wahrscheinlichkeitsmaße auf A mit Dichten f bzw. g bzgl. schlossenen bzw. kompakten Teilmengen des Rk . Zeigen Sie:
 .P D f ; Q D g/,  WD P C Q,  WD P . .Ak / D .K k /.

8.23 Es seien I k D f.x; y j x; y 2 Rk ; x  yg und


Rechenaufgaben J WD f.1; x j x 2 Rk g. Zeigen Sie: .I k / D .J k /.
k

8.14 Zeigen Sie: Das im Beweis des Eindeutigkeitssat- 8.24


zes für Maße in Abschn. 8.3 auftretende Mengensystem DB D a) Es sei ˝ ¤ ;. Geben Sie eine notwendige und hinreichende
fA 2 A j 1 .BA/ D 2 .BA/g ist ein Dynkin-System. Bedingung dafür an, dass das Zählmaß  auf ˝ -endlich
Kapitel 8

ist.
8.15 Es sei k das Borel-Lebesgue-Maß auf Bk . Zeigen b) Auf dem Messraum .R; B/ betrachte man das durch .B/ WD
Sie: k .Qk / D 0. jB \Qj, B 2 B, definierte Maß. Zeigen Sie, dass  -endlich
ist, obwohl jedes offene Intervall das -Maß 1 besitzt.
8.16 Betrachten Sie den Messraum .N; P .N// mit dem
Zählmaß  auf N sowie die durch f .1/ WD f .4/ WD 4:3, 8.25 Zeigen Sie: Ist  ein Inhalt auf einem Ring R 
f .2/ WD 1:7, f .3/ WD f .7/ WD f .9/ WD 6:1 sowie f .n/ WD 0 P .˝/, so gilt für A; B 2 R
sonst definierte Elementarfunktion aufR N. Schreiben Sie f in
Normaldarstellung und berechnen Sie f d. .A [ B/ C .A \ B/ D .A/ C .B/:

8.17 Es seien .˝; A; / WD .R>0 ; B \ R>0 ; 1 jR>0 /


und p 2 .0; 1/. Zeigen Sie: Es existiert eine Funktion f 2 8.26 Es seien ˝ WD .0; 1 und H der Halbring aller
Lp .˝; A; / mit der Eigenschaft f … Lq .˝; A; / für jedes
halboffenen Intervalle der Form .a; b mit 0  a  b  1. Für
q 2 .0; 1/ mit q ¤ p. .a; b 2 H sei ..a; b/ WD b  a gesetzt, falls 0 < a; weiter
ist ..0; b/ WD 1, 0 < b  1. Zeigen Sie:  ist ein Inhalt, aber
kein Prämaß.
8.18 Die Funktion f W R2 ! R sei durch
8 8.27 Zeigen Sie: Die im Lemma von Carathéodory in
ˆ
<1; falls x  0; x  y < x C 1;
Abschn. 8.3 auftretende -Algebra
f .x; y/ WD 1; falls x  0; x C 1  y < x C 2;
:̂0; sonst, A. / D fA  ˝ j  .A \ E/ C  .Ac \ E/ D  .E/
8E  ˝g
definiert. Zeigen Sie:
Z Z  besitzt folgende Eigenschaft: Ist A 2 A. / mit  .A/ D 0,
1 1
f .x; y/ .dy/  .dx/ und ist B  A, so gilt auch B 2 A. / (und damit wegen der
Monotonie und Nichtnegativität von  auch  .B/ D 0).
Z Z 
¤ f .x; y/ .dx/ 1 .dy/:
1
8.28 Es seien .˝; A; / ein Maßraum und

Warum widerspricht dieses Ergebnis nicht dem Satz von Fubini? A WD fA  ˝ j 9E; F 2 A mit E  A  F ; .F n E/ D 0g:

Die Mengenfunktion  W A ! Œ0; 1 sei durch .A/ WD


sup f.B/ W B 2 A; B  Ag definiert. Zeigen Sie:
Beweisaufgaben a) A ist eine -Algebra über ˝ mit A  A .
b)  ist ein Maß auf A mit jA D .
8.19 Es seien R  P .˝/ ein Ring sowie A WD R [ c) Der Maßraum .˝; A ; / ist vollständig, mit anderen Wor-
fAc j A 2 Rg. Zeigen Sie: A D ˛.R/. ten: Sind A 2 A mit .A/ D 0 und B  A, so folgt
B 2 A .
8.20 Es sei .An /n1 eine wachsende Folge von Alge-
bren über ˝, also An  AnC1 für n  1. Zeigen Sie: 8.29 Es seien ˝; ˝ 0 ¤ ; und f W ˝ ! ˝ 0 eine Ab-
S
a) 1 nD1 An ist eine Algebra.
bildung. Zeigen Sie:
b) Sind An  S P .˝/, n  1, -Algebren mit An  AnC1 , a) Ist A0 eine -Algebra über ˝ 0 , so ist f 1 .A0 / eine -
n  1, so ist 1 nD1 An keine -Algebra. Algebra über ˝.
b) Ist A eine -Algebra über ˝, so ist
8.21 Es sei M  P .˝/ ein beliebiges Mengensystem.
Wir setzen M0 WD M [ f;g sowie induktiv Mn WD fA n B; A [ Af WD fA0  ˝ 0 j f 1 .a0 / 2 Ag
B j A; B 2 Mn1S g, n  1. Zeigen Sie: Der von M erzeugte
Ring ist .M/ D 1 nD0 Mn .
eine -Algebra über ˝ 0 .
Aufgaben 359

8.30 Es seien .˝; A/ und .˝ 0 ; A0 / Messräume sowie 8.38 Es seien .˝; A; / ein Maßraum und .An /n1 ei-
f W ˝ ! ˝ 0 eine Abbildung. P Ferner seien A1 ; A2 ; : : : 2 A ne Folge von Mengen aus A. Für k 2 N sei Bk die Menge
paarweise disjunkt mit ˝ D j1D1 Aj . Für n 2 N bezeichne aller ! 2 ˝, die in mindestens k der Mengen A1 ; A2 ; : : : liegen.
An WD A \ An die Spur--Algebra von A in An und fn WD Zeigen Sie:
f jAn die Restriktion von f auf An . Zeigen Sie:
a) Bk 2 A, P
f ist .A; A0 /-messbar () fn ist .An ; A0 /-messbar; n  1: b) k.Bk /  1
nD1 .An /.

Folgern Sie hieraus, dass eine Funktion f W Rk ! Rs , die


höchstens abzählbar viele Unstetigkeitsstellen besitzt, .Bk ; Bs /- 8.39 Es seien .˝; A; / ein Maßraum und f W ˝ !
messbar ist. N0 [ f1g eine messbare Abbildung. Zeigen Sie:
Z X
1

Kapitel 8
8.31 Es sei f W Rk ! R eine beliebige Funktion. f d D  .f  n/ :
Zeigen Sie, dass die Menge der Unstetigkeitsstellen von f eine nD1
Borel-Menge ist.

8.32 Es seien H  P .˝/ ein Halbring und 8.40 Es seien .˝; A; / ein Maßraum und f W ˝ ! R
A; A1 ; : : : ; An 2 H . Zeigen Sie: Es gibt eine natürliche Zahl eine nichtnegative messbare numerische Funktion. Zeigen Sie:
k und disjunkte Mengen C1 ; : : : ; Ck aus H mit Z   Z
f
lim n log 1 C d D f d:
X
k
n!1 n
A n .A1 [ : : : [ An / D A \ Ac1 \ : : : \ Acn D Cj :
j D1
8.41 Es seien .˝; A; / ein endlicher Maßraum und
.fn /n1 eine Folge -integrierbarer reeller Funktionen auf ˝
8.33 Es sei  ein Inhalt auf einem Halbring H 
mit f WD limn!1 fn gleichmäßig auf ˝. Zeigen Sie:
P .˝/. Zeigen Sie:
P Z Z
a) Durch .A/ WD jnD1 .Aj / (A1 ; : : : ; An 2 H paarweise
Pn f d D lim fn d:
disjunkt, A D j D1 Aj ) entsteht ein auf R WD .H / wohl- n!1
definierter Inhalt, der  eindeutig fortsetzt.
b) Mit  ist auch  ein Prämaß. 8.42 Seien .˝; A; / ein Maßraum und f ; g 2
L1 .˝; A; /. Zeigen Sie:
8.34 Es sei .˝; A; / ein Maßraum.
Z Z
a) Zeigen Sie:  ist genau dann -endlich, wenn eine Zerlegung f  g -f.ü. () f d  g d 8 A 2 A:
von ˝ in abzählbar viele messbare Teilmengen endlichen -
A A
Maßes existiert.
b) Es sei nun  -endlich, und es gelte .˝/ D 1. Zeigen Sie,
dass es zu jedem K mit 0 < K < 1 eine Menge A 2 A mit 8.43 Es seien .˝; A; / ein Maßraum und f , g mess-
K < .A/ < 1 gibt. bare numerische Funktionen auf ˝. Zeigen Sie:
a) kfgk1  kf k1 kgk1 .
8.35 Es sei .˝; A; / ein Maßraum. Zeigen Sie die b) Falls .˝/ < 1, so gilt
Äquivalenz der folgenden Aussagen:
a)  ist -endlich, kf kq  kf kp .˝/1=q1=p .1  q < p  1/:
b) Es existiert eine Borel-messbareR Abbildung h W ˝ ! R mit
h.!/ > 0 für jedes ! 2 ˝ und h d < 1. (Konsequenz: Lp  Lq .)

8.36 Für eine reelle Zahl  ¤ 0 sei H W Rk ! Rk die 8.44 Es seien .˝; A; / ein Maßraum und .fn /n1 ei-
durch H .x/ WD   x, x 2 Rk , definierte zentrische Streckung. ne Folge nichtnegativer messbarer numerischer Funktionen auf
Zeigen Sie: Für das Bildmaß von k unter H gilt ˝. Zeigen Sie: Für jedes p 2 Œ1; 1 gilt
1 
1 X  X
1
H .k / D  k :  
jjk  fn   kfn kp :
 
nD1 p nD1
Speziell für  D 1 ergibt sich die Spiegelungsinvarianz
von k .
8.45 Es seien .˝; A; / ein Maßraum und p 2 .0; 1.
8.37 .fn /n1 sei eine Funktionenfolge aus Lp mit limn!1 fn D f
Es seien a1 ; : : : ; ak > 0 und E das Ellipsoid E WD
-f.ü. für eine reelle messbare Funktion f auf ˝. Es
fx 2 Rk j x12 =a12 C: : :Cxk2 =ak2 < 1g. Zeigen Sie: Es gilt E 2 Bk , R existiere
und es ist eine messbare numerische Funktion g  0 auf ˝ mit g p d <
k .E/ D a1  : : :  ak  k .B/; 1 und jfn j  g -f.ü. für jedes n  1. Zeigen Sie:
R
a) jf jp d < 1.
wobei B WD fx 2 Rk j kxk < 1g die Einheitskugel im Rk be- R Lp
zeichnet. b) limn!1 jfn  f jp d D 0 (d. h. fn ! f ).
360 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln

8.46 Es seien .˝; A; / ein Maßraum sowie 0 < p < 8.49 Es seien .˝j ; Aj / Messräume und Mj  Aj
1. Zeigen Sie: Die Menge mit .Mj / D Aj .j D 1; : : : ; n/. In Mj existiere eine Folge
n X n .Mj k /k1 mit Mj k " ˝j bei k ! 1. j W ˝1      ˝n ! ˝j
F WD u WD ˛k 1fAk g j n 2 N; A1 ; : : : ; An 2 A; bezeichne die j -te Projektionsabbildung und
kD1 o
˛1 ; : : : ; ˛n 2 R; .Aj / < 1 für j D 1; : : : ; n M1      Mn
˚ 
liegt dicht in Lp D Lp .˝; A; /, d. h., zu jedem f 2 Lp und WD M1      Mn j Mj 2 Mj ; j D 1; : : : ; n
jedem " > 0 gibt es ein u 2 F mit kf  ukp < ".
das System aller „messbaren Rechtecke mit Seiten aus
8.47 Für A  N sei dn .A/ WD n jA \ f1; : : : ; ngj
1 M1 ; : : : ; Mn “. Zeigen Sie:
S 
Kapitel 8

sowie n 1
a) M1      Mn    . Mj / ,
C WD fA  N j d .A/ WD lim dn .A/ existiertg: j D1 j
n!1 Sn
b) j D1 j1 .Mj /  .M1      Mn /,
Die Größe d .A/ heißt Dichte von A. Zeigen Sie: N
c) jnD1 Aj D .M1      Mn /.
a) Die Mengenfunktion d W C ! Œ0; 1 ist endlich-additiv, aber
nicht -additiv.
b) C ist nicht \-stabil. 8.50 Es seien  und  Maße auf einer -Algebra A 
c) Ist C ein Dynkin-System? P .˝/ mit .˝/ < 1. Beweisen Sie folgendes "-ı-Kriterium
für absolute Stetigkeit:
8.48 Es seien Ok , Ak und K k die Systeme der offe-
nen bzw. abgeschlossenen bzw. kompakten Teilmengen des Rk .    () 8" > 0 9ı > 0 8A 2 A W .A/  ı ) .A/  ":
Beweisen Sie folgende Regularitätseigenschaft eines endlichen
Maßes  auf Bk : 8.51 Es seien  und  Maße auf einer -Algebra A
a) Zu jedem B 2 Bk und zu jedem " > 0 gibt es ein O 2 Ok über ˝ mit .A/  .A/; A 2 A. Weiter sei  -endlich.
und ein A 2 Ak mit der Eigenschaft .O n A/ < ". Zeigen Sie: Es existiert eine A-messbare Funktion f W ˝ ! R
b) Es gilt .B/ D supf.K/ j K  B; K 2 K k g. mit 0  f .!/  1 für jedes ! 2 ˝.
Antworten zu den Selbstfragen 361

Antworten zu den Selbstfragen

Antwort 1 Ja, denn nach der De Morganschen Regel gilt Antwort 7 Offenbar gilt Z .;/ D ı! .;/ D .;/ D 0, und der
\1 [1 c Wertebereich der Funktionen Z , ı! und  ist Œ0; 1. Um die -
 c 
c c c Additivität P
des Zählmaßes nachzuweisen, unterscheide man die
A1 \ A2 D A1 [ A2 ; An D An ;
nD1 nD1
Fälle, dass j1D1 Aj endlich oder unendlich ist. Das Dirac-Maß
ı! ist -additiv, weil ! (wenn überhaupt) nur in genau einer von
und die jeweils rechts stehenden Mengen gehören zu A. Eine paarweise disjunkten Mengen liegen kann. Für den Nachweis

Kapitel 8
-Algebra ist also insbesondere auch \-stabil. der -Additivität von  beachte man, dass in der Gleichungs-
Antwort 2 Setzen wir kurz B1 WD A1 und Bn WD An n .A1 [ kette
X  X X  X X
: : : [ An1 / D An \ Acn1 \ : : : \ Ac2 \ Ac1 für n  2, so gilt 1 1 1 1 1

Bn  An , n  1, und somit  Aj D bn  n Aj D bn n .Aj /


S folgt
in (8.2). Es gilt aber auch
, da es zu jedem ! 2 1 nD1 An einen kleinsten Index n mit
j D1 nD1 j D1 nD1 j D1
! 2 An und somit ! 2 An \ Acn1 \ : : : \ Ac1 D Bn gibt. Die X
1 X
1 X
1

Mengen B1 ; B2 ; : : : sind paarweise disjunkt, denn sind n; k 2 N D bn n .Aj / D .Aj /


mit n < k, so gilt Bn \ Bk  An \ Acn D ;. j D1 nD1 j D1

Antwort 3 Die drei definierenden Eigenschaften einer - das dritte Gleichheitszeichen aufgrund des großen Umord-
Algebra sind erfüllt, denn es gilt ; 2 Aj für jedes j 2 J und nungssatzes für Reihen (siehe [1], Abschn. 10.4) gilt.
somit ; 2 A. Ist A 2 A, so gilt A 2 Aj für jedes j 2 J
Antwort 8 Für die Mengen An WD .n; n, n 2 N, gilt An " R
und somit Ac 2 Aj für jedes j 2 JS , also auch Ac 2 A. Sind
1 und G .An / D G.n/  G.n/ < 1, n 2 N.
S1aus A, so gilt nD1 An 2 Aj für jedes
A1 ; A2 ; : : : Mengen
j 2 J und somit nD1 An 2 A. In gleicher Weise argumentiert Antwort 9 Für A3 2 A3 gilt .f2 ıf1 /1 .A3 / D f11 .f21 .A3 //.
man für Ringe, Algebren und Dynkin-Systeme. Hieraus folgt die Behauptung.
Antwort 4 Da jede Algebra insbesondere ein Ring ist, bildet Antwort 10 Es ist R D R[f1; C1g 2 B. Ist A D B [E 2
˛.M/ als Algebra, die M umfasst, auch einen M enthaltenden B, wobei B 2 B und E  f1; C1g, so gilt R n A D .R n
Ring. Folglich muss ˛.M/ auch den kleinsten M umfassenden B/ [ .f1; C1g n E/ 2 B. Sind An D
Ring .M/ enthalten. Genauso zeigt man die zweite Inklusion, S Bn [ En 2SB , wobei
Bn 2 B und ES
S n  f1; C1g, soS folgt 1
nD1 An D
1
nD1 Bn [
denn jede -Algebra ist eine Algebra. 1
En mit 1 1
nD1 S nD1 Bn 2 B und nD1 En  f1; C1g und
1
Antwort 5 Wegen N  .N / gilt zunächst M  .N /. somit nD1 An 2 B, was zu zeigen war.
Da .N / eine -Algebra ist, die M enthält, muss sie auch die Antwort 11 Es ist
kleinste M enthaltende -Algebra umfassen. Letztere ist aber
nach Konstruktion gleich .M/, was a) zeigt. Zum Nachweis ff  a; g > bg D f! 2 ˝ j f .!/  a und g.!/ > bg
von b) ist nur zu beachten, dass .M/ bereits eine -Algebra
D .f ; g/1 .Œ1; a  .b; 1/:
ist. Mit a) und b) ergibt die erste Inklusion .M/  .N /,
die zweite liefert dann die umgekehrte Teilmengenbeziehung
.M/
.N /. Antwort 12 Eine Menge A 2 j1 .Aj / besitzt die Darstellung
Antwort 6 Wegen ˝ \ A D A 2 ı.M/ gilt zunächst ˝ 2 DA . A D ˝1  : : :  ˝j 1  Aj  ˝j C1  : : :  ˝n
Sind E; D 2 DA mit D  E, gelten also E \ A 2 ı.M/ und
D \ A 2 ı.M/, so ergibt sich wegen mit Aj 2 Aj . Wegen ˝i 2 Ai 8i folgt die Behauptung.
.E n D/ \ A D .E \ A/ n .D \ A/ Antwort 13 Da f messbar ist, ist f als Œ0; 1-wertige
und der zweiten Eigenschaft eines Dynkin-Systems .E n D/ \ Mengenfunktion auf A0 wohldefiniert. Wegen f 1 .;/ D ;
A 2 ı.M/ und somit E n D 2 DA . Sind schließlich D1 ; D2 ; : : : gilt f .;/ D 0. Da Urbilder paarweise disjunkter Mengen
paarweise disjunkte Mengen aus DA , gilt also Dj \ A 2 ı.M/ A01 ; A02 ; : : : aus A0 ebenfalls paarweise disjunkt sind, gilt
für jedes j  1, so folgt wegen der paarweisen Disjunktheit X 1   X 1  X 1 
der letzteren Mengen und der Tatsache, dass ı.M/ ein Dynkin-  f 0
Aj D  f 1 0
Aj D 1
f .Aj / 0

System ist, die Beziehung j D1 j D1 j D1


X  X   X
1 X
1 1 1
Dj \ A D Dj \ A 2 DA ; D  f 1 .Aj0 / D f .Aj0 /;
j D1 j D1 j D1 j D1
P1
also j D1 Dj 2 DA , was zu zeigen war. was die -Additivität von f zeigt.
362 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
p p
Antwort 14 Es gilt I WD .1= k; 1= kk  B, denn x D Aus der Stetigkeit von t 7! fn .t ; !/ für festes ! folgt
Pk limn!1 gn .!/ D 0, ! 2 ˝. Zusammen mit der Dreiecksun-
.x1 ; : : : ; xk / 2 I hat j D1 xj2  1 zur Folge. Wegen I 2 I k
gleichung liefert die letzte Voraussetzung jgn .!/j  2h.!/,
gilt nach Definition von k auf I k die Ungleichung 0 < k .I /
! 2 ˝. Da h -integrierbar ist, ergibt sich die Behauptung aus
und somit wegen der Monotonie von k auch 0 < k .B/.
dem Satz von der dominierten Konvergenz.
R
Antwort 15 Gilt .A/ D 1, so folgt 1A d D .A/ D 1.
Antwort 19 Wegen jf .!/Cg.!/j  jf .!/jCjg.!/j für jedes
Antwort 16 Wir unterscheiden die beiden Fälle j =2n  ! 2 ˝ gilt fjf j  Kg \ fjgj  Lg  fjf C gj  K C Lg. Geht
f .!/ < .j C 1/=2n für ein j 2 f0; 1; : : : ; n2n  1g und f .!/  man hier zu Komplementen über, so ergibt sich die Behauptung.
n. Im ersten Fall entstehen die beiden Unterfälle .2j /=2nC1 
f .!/ < .2j C 1/=2nC1 und .2j C 1/=2nC1  f .!/ < Antwort 20 Ja, denn im Fall p 2 Œ1; 1 folgt aus kfn f kp !
Kapitel 8

.2j C 2/=2nC1 . Im ersten dieser Unterfälle gilt unC1 .!/ D 0 und kfn gkp ! 0 wegen kf gkp  kf fn kp Ckfn gkp ,
.2j /=2nC1 D un .!/, im zweiten unC1 .!/ D .j C 1=2/=2n > n  1, die Beziehung kf  gkp D 0. Im Fall p < 1 ergibt
un .!/. Im zweiten Fall unterscheidet man die Unterfälle f .!/  sich hieraus nach Folgerung a) aus der Markov-Ungleichung im
n C 1 und n  f .!/ < n C 1, die zu unC1 .!/ D n C 1 > un .!/ vorigen Abschnitt f  g D 0 -f.ü. Im Fall p D 1 bedeutet
bzw. unC1 .!/ D n D un .!/ führen. kf gk1 D 0 nach Definition .jf gj > 0/ D 0, also f D g
-f.ü. Ebenso argumentiert man mit (8.45) im Fall p < 1.
"
Antwort 17 Sind f ; g 2 EC mit f  g, wobei un " f ,
vn " g mit un ; vn 2 EC , so gilt für festes k  R1 die Un- Antwort 21 Das Funktional ist beschränkt (und damit als linea-
res Funktional stetig), denn mit der Dreiecksungleichung und
R uk  lim
gleichung R n!1 vn . Das Lemma liefert uk d 
limn!1 vn d D g d . Der Grenzübergang k ! 1 ergibt der Hölder-Ungleichung sowie    gilt für jedes f 2 L2 ./
dann die Behauptung. 0 11=2
Z Z
Antwort 18 Sind t 2 U fest und .tn / eine beliebige Folge in U , j`.f /j  jf j  1 d  @ f 2 d A  .˝/
die gegen t konvergiert, so ist '.tn / ! '.t / zu zeigen. Setzen
˝ ˝
wir gn .!/ WD f .tn ; !/  f .t ; !/, ! 2 ˝, so gilt 0 11=2
Z Z
'.tn /  '.t / D gn .!/ .d!/:  @ f d A  .˝/:
2

˝
Hinweise zu den Aufgaben

Kapitel 2 3.21 Yn und YnC1 sind durch Xn bestimmt.

3.22 Beachten Sie die verallgemeinerte Markov-Eigenschaft.


2.10 Wählen Sie ˝ WD f1; : : : ; ng und ein Laplace-Modell.
2m P m m 2
3.24 Es ist D kD0 k .
2.11 Betrachten Sie einen Laplace-Raum der Ordnung 10. m

3.30 Wie sieht .1fAj g/ aus?


2.13 Stellen Sie Symmetriebetrachtungen an.
3.31 Für A1 2 A1 ; : : : ; A` 2 A` gilt
2.16 Es kommt nur darauf an, wie oft nach jeder einzelnen
Variablen differenziert wird. \
`
Z11 .A1  : : :  A` / D Xj1 .Aj /: (A.1)
j D1
2.21 Man betrachte das komplementäre Ereignis.
3.35 Es reicht, die Aussage für eine Teilfolge von .Ak / zu
2.23 Unterscheiden Sie gedanklich die 7 gleichen Exemplare zeigen.
jeder Ziffer.
3.36 Da 1 größter gemeinsamer Teiler von A ist, gibt es ein
2.24 Nummeriert man alle Mannschaften gedanklich von 1 k 2 N und a1 ; : : : ; ak 2 A sowie n1 ; : : : ; nk 2 Z mit 1 D
P k
bis 64 durch, so ist das Ergebnis einer regulären Auslosung ein j D1 nj aj . Fasst man die positiven und negativen Summanden
64-Tupel .a1 ; : : : ; a64 /, wobei Mannschaft a2i 1 gegen Mann- zusammen, so gilt 1 D P  N mit P ; N 2 A, und n0 WD
schaft a2i Heimrecht hat .i D 1; : : : ; 32/. .N C 1/.N  1/ leistet das Verlangte. Stellen Sie n  n0 in
der Form n D qN C r mit 0  r  N  1 dar. Es gilt dann
2.33 Um die Längen der a-Runs festzulegen, muss man bei q  N  1.
den in einer Reihe angeordneten m a’s Trennstriche anbringen.

2.34 Formel des Ein- und Ausschließens! Kapitel 4


4.2 Modellieren Sie Wn als Summe unabhängiger Zufallsva-
2.36 Starten Sie mit (2.41).
riablen.

4.3 Es kommt nicht auf die Zahlen 2 bis 5 an.


Kapitel 3
4.4 Stellen Sie sich vor, jede von n Personen hat einen Wür-
3.2 Für Teil a) kann man Aufgabe 3.17 verwenden. fel, und jede zählt, wie viele Versuche sie bis zu ersten Sechs
benötigt.
3.6 Sehen Sie die obigen Prozentzahlen als Wahrscheinlich-
keiten an. 4.12 Verwenden Sie ein Symmetrieargument.

4.13 Betrachten Sie die erzeugende Funktion von X an der


3.10 Aus Symmetriegründen kann angenommen werden,
Stelle 1.
dass der Kandidat Tür Nr. 1 wählt.
4.15 Sind X und Y die zufälligen Augenzahlen bei einem
3.11 Nehmen Sie an, dass die Geschlechter der Kinder sto- Wurf mit dem ersten bzw. zweiten Würfel und g bzw. h die er-
chastisch unabhängig voneinander und Mädchen- sowie Jungen- zeugenden Funktionen von X bzw. Y , so gilt g.t / D tP .t / und
geburten gleich wahrscheinlich sind. h.t / D tQ.t / mit Polynomen vom Grad 5, die jeweils mindes-
tens eine reelle Nullstelle besitzen müssen.
3.12 Interpretieren Sie die Prozentzahlen als Wahrscheinlich-
keiten. 4.19 Formel des Ein- und Ausschließens!
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 363
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3
364 Hinweise zu den Aufgaben

4.22 Sie brauchen nicht zu rechnen! Kapitel 5


4.23 Bestimmen Sie die Varianz, indem Sie zunächst
EX .X  1/ berechnen. 5.3 Machen Sie sich eine Skizze!
Pn
4.24 Bestimmen Sie EX .X  1/. 5.4 Bezeichnet NB WD j D1 1fXj 2 Bg die Anzahl der
Xj , die in die Menge B  R fallen, so besitzt der Zufalls-
4.26 Es gilt 1  1=t  log t  t  1, t > 0. vektor .N.1;t /; NŒt ;t C" ; N.t C";1// die Multinomialverteilung
Mult.nI F .t /; F .t C"/F .t /; 1F .t C"//. Es gilt P .NŒt ;t C" 
4.27 Betrachten Sie P .X D k C 1/=P .X D k/. 2/ D O."2 / für " ! 0.

4.29 Die Wahrscheinlichkeiten aus a) bis g) addieren sich zu 5.7 Sie müssen die Kovarianzmatrix nicht kennen!
eins auf.

4.30 Multinomialer Lehrsatz! 5.11 a) F .t 1=4/  F .t 1=4 / für t  0 b) F .t /  F .t / für
t  0 c) 1  F .t /, t 2 R.
4.31 Bestimmen Sie zunächst EX .X  1/.
5.14 Verwenden Sie Tab. 5.1.
4.33 Es gilt Xi C Xj Bin.n; pi C pj /.
5.15 Potenzreihenentwicklung von '!
4.36 Verwenden Sie das Ereignis A1 , dass die Bernoulli-
Kette mit einer Niete beginnt, sowie die Ereignisse A2 und 5.17 Versuchen Sie, direkt die Verteilungsfunktion G von Y
A3 , dass die Bernoulli-Kette mit einem Treffer startet und sich zu bestimmen.
dann im zweiten Versuch eine Niete bzw. ein Treffer einstellt,
vgl. das Beispiel des Wartens auf den ersten Doppeltreffer in
5.20 Sind Z1 ; Z2 ; Z3 unabhängig und je N.0; 1/-
Abschn. 4.5.
normalverteilt, so besitzt Z WD Z12 C Z22 C Z32 eine
4.37 Gehen Sie analog wie im Beispiel des Wartens auf den 23 -Verteilung.
ersten Doppeltreffer in Abschn. 4.5 vor.
5.21 Verwenden Sie Gleichung (5.30) sowie Polarkoordina-
4.39 .Y1 ; Y3 / hat die gleiche gemeinsame Verteilung wie ten.
.X1 ; X1 CX2 CX3 /, wobei X1 ; X2 ; X3 unabhängig und je G.p/-
verteilt sind. 5.23 Box-Muller-Methode!

4.43 Verwenden Sie die erzeugende Funktion. 5.24 Die Verteilung hängt nicht von a ab.
4.44 Verwenden Sie (4.60).
5.26 Welche Gestalt besitzt die gemeinsame Dichte von
4.45 Stellen Sie X mithilfe einer geeigneten Indikatorsumme X1 ; : : : ; Xk ?
dar.
5.31 Verwenden Sie die Faltungsformel.
Pk Pk
4.46 Es ist nD1 1 D k und 2 nD1 n D k.k C 1/.
5.32 Für c) und d) ist bei Integralberechnungen die Substitu-
4.47 Setzen sie in der elementaren Eigenschaft tion u D log x hilfreich.
V .X / D E.X  a/2  .EX  a/2
5.33 a) Verwenden Sie (5.59) und die Gleichung  .t C 1/ D
der Varianz a WD .b C c/=2. t  .t /, t > 0. c) Bestimmen Sie zunächst die Dichte von W =V .

4.48 Schätzen Sie den Indikator des Ereignisses fX  "g S


5.36 Es ist P .X 2 .x; y/ D F .y1 ; : : : ; yk /  P . jkD1 Aj /,
möglichst gut durch ein Polynom zweiten Grades ab, das durch wobei Aj D fX1  y1 ; : : : ; Xj 1  yj 1 ; Xj  xj ; Xj C1 
den Punkt ."; 1/ verläuft. yj C1 ; : : : ; Xk  yk g.
4.50 Leiten Sie mit k D 1 in (4.61) eine Rekursionsformel Q
für P .X D m/ her. 5.40 Der Ansatz jkD1 f .xj / D g.x12 C : : : C xk2 / für eine
Funktion g führt nach Logarithmieren und partiellem Differen-
P
4.51 Es gilt P .X  k/ D n`Dk P .X D `/ sowie (vollstän- zieren auf eine Differenzialgleichung für f .
dige Induktion über m!)
! ! 5.41 Integrieren Sie die Indikatorfunktion der Menge B WD
Xm
 j m j 1 f.x; y/ 2 R2 W x  0; 0  y < xg bzgl. des Produktmaßes
.1/ D .1/ ; m D 0; 1; : : : ; j  1:
D0
 m P X ˝ 1 und beachten Sie dabei den Satz von Tonelli.
Hinweise zu den Aufgaben 365

5.42 Setze Y WD jX jp . Kapitel 6


p
5.44 Betrachten Sie für a WD .1 C 5/=2 das Polynom 6.1 Betrachten Sie die Ereignisse fjXn  X j  1=kg.
p.x/ D .x  a/2 .x C 1=a/2.
6.2 Verwenden Sie die Charakterisierung der fast sicheren
5.45 Verwenden Sie die Darstellungsformel Konvergenz in Abschn. 6.1.

Z1 Z0 6.3 In einem diskreten Wahrscheinlichkeitsraum .˝; A; P /


gibt es eine abzählbare Teilmenge ˝0 2 A mit P .˝0/ D 1.
E.X / D .1  F .x// dx  F .x/ dx
0 1 6.4 Verwenden Sie das Teilfolgenkriterium für stochastische
Konvergenz.
für den Erwartungswert (vgl. Abschn. 5.3) und spalten Sie den
Integrationsbereich geeignet auf.
6.5 Der Durchschnitt endlich vieler Eins-Mengen ist eben-
falls eine Eins-Menge.
5.46 Schätzen Sie die Indikatorfunktion der Menge A WD R2 n
."; "/2 durch eine geeignete quadratische Form nach oben ab. 6.6 Zerlegen Sie Xn in Positiv- und Negativteil.

5.47 Es kann o.B.d.A. a0 D 0 gesetzt werden. Betrachten Sie 6.7 Der Durchschnitt endlich vieler Eins-Mengen ist eben-
die Funktion x 7! jx  aj  jxj getrennt für a > 0 und a < 0 falls eine Eins-Menge.
und schätzen Sie nach unten ab.
6.8 Wählen Sie in b) Yn WD Xn 1fXn D ˙1g.
5.48 Es kann o.B.d.A. EX D 0 angenommen werden. Dann
gilt P .jX j  Q3=4 / D 0:5. 6.9 Die Vereinigung endlich vieler kompakter Mengen ist
kompakt.
5.49 Es gilt X AY C  mit ˙ D AA> und Y Nk .0; Ik /.
6.10 Rechnen Sie die charakteristische Funktion der Gleich-
verteilung U.0; 1/ aus.
5.51 Verwenden Sie Aufgabe 5.8.
6.11 Beachten Sie das Lemma von Sluzki.
5.52 Verwenden Sie für b) Teil a) und Aufgabe 5.51.
6.13 Verwenden Sie für b) das Lemma von Sluzki.
5.53 Für die Richtung „b) ) a)“ ist die Implikation
6.14 Deuten Sie die Summen wahrscheinlichkeitstheoretisch.
  Z1  
2 2
'X D ei˛ ) 0D 1  cos x  ˛ P X .dx/ 6.15 Es liegt ein Dreiecksschema vor.
h h
1
6.17 Zentraler Grenzwertsatz!
hilfreich.
Pn
6.18 Wie verhält sich nŠ zu kD1 kŠ?
5.54 Gehen Sie wie beim Beweis des Satzes über die Um-
kehrformeln vor. 6.19 Stellen Sie Tn als Summe von unabhängigen Zufallsva-
riablen dar.
5.58 Turmeigenschaft!
6.20 Verwenden Sie das Additionsgesetz für die negati-
5.59 Verwenden Sie Folgerung a) aus der Markov- ve Binomialverteilung und den Zentralen Grenzwertsatz von
Ungleichung in Abschn. 8.6 Lindeberg-Lévy.

6.22 Wählen Sie für b) unabhängige Zufallsvariablen


5.62 Turmeigenschaft bedingter Erwartungen!
X1 ; X2 ; : : : mit P .Xn D 0/ D 1  n1 und P .Xn D
2n/ D n1 , n  1, und schätzen Sie die Wahrscheinlichkeit
5.64 Seien Mn die Anzahl der Elemente von A, die nach n P
Runden noch nicht als Fixpunkte aufgetreten sind und Xn die P .n1 jnD1 Xj > 1/ nach unten ab. Verwenden Sie dabei die
Anzahl der Fixpunkte in der n-ten Runde. Mit M0 WD K gilt Ungleichung log t  t  1 sowie die Beziehung
dann MnC1 D Mn  XnC1 , n  0. Sei Fn WD .M0 ; : : : ; Mn /,
X k
1
n  0. Überlegen Sie sich, dass .Mn C n/n0 und ..Mn C  log k   ! 0 für k ! 1;
n/2 C Mn /n0 Martingale bzgl. .Fn / sind und wenden Sie den j D1
j
Satz von Doob auf diese Martingale an. Beachten Sie auch Auf-
gabe 4.52. wobei  die Euler-Mascheronische Konstante bezeichnet.
366 Hinweise zu den Aufgaben

6.23 Wenden Sie das Lemma von Borel-Cantelli einmal auf 7.15 Betrachten Sie die Fälle k D 0, k D n und 1  k  n1
die Ereignisse An D fXn D 1g, n  1, und zum anderen auf die getrennt.
Ereignisse Bn D fXn D 0g, n  1, an.
7.16 Betrachten Sie für 1  k  n  1 den Quotienten
6.24 Überlegen Sie sich, dass das Infimum angenommen Lx .# C 1/=Lx .#/, wobei Lx die Likelihood-Funktion zu x ist.
wird.
7.19 Verwenden Sie die Jensensche Ungleichung.
6.25 Betrachten Sie die Teilfolge X1 ; XkC1 ; X2kC1 ; : : :
Pn
6.26 Verwenden Sie das Lemma von Borel-Cantelli. 7.21 Es gilt j D1 Xj  .n; #/ unter P# .

6.27 Verwenden Sie das Kolmogorov-Kriterium und beach- 7.22 Es kann o.B.d.A. EX1 D 0 angenommen werden.
P
ten Sie 1 2
nD2 1=.n.log n/ / < 1.
7.23 Nutzen Sie aus, dass die Summe der Abweichungsqua-
6.28 Nutzen Sie für b) die Verteilungsgleichheit drate bis auf einen Faktor 2n1 -verteilt ist.
.X1 ; : : : ; Xn / .1  X1 ; : : : ; 1  Xn / aus.
7.24 V# .#n / D # 2 =.n.n C 2//
6.29 Betrachten Sie die Fälle a D 0, a > 0 und a < 0 ge-
trennt.
7.27 Beachten Sie Gleichung
6.31 Verwenden Sie für „(“ die Markov-Ungleichung
Z1
P .jXnj > L/  L2 E Xn2 . Überlegen Sie sich für „)“ zu-
nächst, dass die Folge .n / beschränkt ist. fX1 =X2 .t / D fX1 .t s/ fX2 .s/ jsj ds; t 2 R; (A.2)
1
6.33 Taylorentwicklung von g um !
für die Dichte des Quotienten zweier unabhängiger Zufallsva-
6.34 Schätzen Sie die Differenz Fn .x/  F .x/ mithilfe der riablen. Für die Berechnung der Varianz von X hilft Darstellung
Differenzen Fn .xj k /  F .xj k / ab, wobei für k  2 xj k WD (7.33).
F 1 .j =k/, 1  j < k, sowie x0k WD 1, xkk WD 1.
7.29 Beachten Sie (7.30).
6.36 Weisen Sie die Lindeberg-Bedingung nach.
7.33 Nehmen Sie an, dass die Differenzen zi WD yi  xi
6.37 Es ist Xj  X n D Xj    .X n  /. Realisierungen unabhängiger und je N.;  2 /-verteilter Zufalls-
variablen Z1 ; : : : ; Z8 sind, wobei  und  2 unbekannt sind.
6.39 Prüfen Sie die Gültigkeit der Lindeberg-Bedingung.
7.36 Unter der zu testenden Hypothese haben die Differenzen
6.40 Mit aj D EXj gilt E.Xj  aj /4  aj .1  aj /. Zj D Yj  Xj eine symmetrische Verteilung mit unbekanntem
Median .

Kapitel 7 7.37 T kann – ganz egal, wie groß # ist – nur endlich viele
Werte annehmen.
7.1 Es ist P# .max.X1 ; : : : ; Xn /  t / D .t =#/n, 0  t  #.
7.40 Verwenden Sie den Zentralen Grenzwertsatz von de
7.2 Verwenden Sie den Zentralen Grenzwertsatz von Moivre-Laplace und Teil b) des Lemmas von Sluzki.
Lindeberg-Lévy.
7.43 Nutzen Sie die Erzeugungsweise der Verteilung aus.
7.9 Die Neyman-Pearson-Tests sind Konvexkombinationen
zweier nichtrandomisierter NP-Tests.
7.44 Es gilt für jedes k 2 N und jedes u  0 (Beweis durch
7.11 O.B.d.A. gelte X1 U.0; 1/. Differenziation nach u)

X
1 Zu
7.12 Nutzen Sie aus, dass .X1  a; : : : ; X2n  a/ und .a  X1 ; uj 1
: : : ; a X2n / dieselbe Verteilung besitzen, was sich auf die Vek- eu D et t k1 dt :
jŠ .k  1/Š
j Dk
toren der jeweiligen Ordnungsstatistiken überträgt. Überlegen 0
Sie sich vorab, warum die Voraussetzung EjX1 j < 1 gemacht Pn p
wird. Setzen Sie 'n WD 1f j D1 xj  n0 C ˚ 1 .1  ˛/ n0 :g
Hinweise zu den Aufgaben 367
p
7.45 Für X Po./ gilt P .jX  j  C /  1  C 2 . 8.24 Für b) beachte man .R n Q/ D 0.
p
Mit zk D .k  /=  ist  2
p X z 8.31 Betrachten Sie zu einer beliebigen Norm k k auf Rk und
 exp  k
2 beliebiges " > 0 und ı > 0 die (offene!) Menge O";ı WD fx 2
kWjzk jC
Rk j 9y; z 2 Rk mit kx  yk < ı; kx  zk < ı und jf .y/ 
eine Riemannsche Näherungssumme für das Integral f .z/j  "g.
RC
C exp.z 2 =2/ dz.
8.32 Vollständige Induktion!
7.47 Es reicht, die Summe Tn in (7.68) durch einen Summan-
den nach unten abzuschätzen und das Gesetz großer Zahlen zu 8.33 Beachten Sie den Satz über den von einem Halbring er-
verwenden. zeugten Ring am Ende von Abschn. 8.2.

7.49 Verwenden Sie die -Subadditivität von P und den Satz 8.35 Für die Richtung b) ) a) betrachte man die Mengen
von Tonelli. fh  1=ng. Für die andere Richtung hilft Teil a) der vorigen
Aufgabe.
7.50 Verwenden Sie das Resultat von Aufgabe 7.13 und den
Zentralen Grenzwertsatz von de Moivre-Laplace.
8.36 Wie wirken beide Seiten der obigen Gleichung auf eine
7.51 a) X besitzt die Varianz s=.s  2/. b) Es gilt  .x C Menge .a; b 2 I k ?
p
1=2/   .x/ x, x > 0.
8.40 Die durch an WD .1Cx=n/n , x 2 Œ0; 1, definierte Folge
7.52 Nutzen Sie die Summen-Struktur von Wm;n sowie die .an /n1 ist monoton wachsend.
Tatsache aus, dass der Vektor .r.X1 /; : : : ; r.Yn // unter H0 auf
den Permutationen von .1; : : : ; m C n/ gleichverteilt ist. Beach- 8.45 Benutzen Sie den Satz von der dominierten Konvergenz.
ten Sie auch, dass die Summe aller Ränge konstant ist.
8.46 Es kann o.B.d.A. f  0 angenommen werden.

Kapitel 8 8.47 Um b) zu zeigen, setzen Sie A WD G, B WD


S1  2k 2kC1 
8.3 Es ist .1; x D .1; x/ C fxg. kD1 2 ; 2 \ G [ 22k1 ; 22k \ U , wobei G die
Menge der geraden und U die Menge der ungeraden Zahlen
bezeichnen.
8.6 Bezeichnen .M/ bzw. .M/ die von M  P .R/ bzw.
M  P .R/ über R bzw. über R erzeugte -Algebra, so gilt im
Fall M  P .R/ die Inklusionsbeziehung .M/  .M/. 8.48 Zeigen Sie zunächst, dass das System G aller Borel-
Mengen, die die in a) angegebene Eigenschaft besitzen, eine -
Algebra bildet, die das System Ak enthält. Eine abgeschlossene
8.11 Für festes a > 0 ist die durch h.x/ WD ap Cx p .aCx/p
Menge lässt sich durch eine absteigende Folge offener Mengen
definierte Funktion h W R0 ! R monoton wachsend.
approximieren. Beachten Sie noch, dass die Vereinigung von
P1 endlich vielen abgeschlossenen Mengen abgeschlossen ist.
8.15 Es gilt " D nD1 "=2n .

8.17 Betrachten Sie die Funktion g.x/ D x 1  .1 C 8.49 Für Teil c) ist (8.19) hilfreich.
j log.x/j/2 .
8.50 Betrachten Sie zu einer Folge .An / mit .An /  2n
T S1
8.20 In b) ist bei „“ echte Inklusion gemeint. und .An / > " die Menge A WD 1nD1 kDn Ak .

8.22 Jede abgeschlossene Menge ist die abzählbare Vereini- 8.51 Nach dem Satz von Radon-Nikodým hat  eine Dichte g
gung kompakter Mengen. bzgl. . Zeigen Sie: .fg > 1g/ D 0.
Lösungen zu den Aufgaben

Kapitel 2 Kapitel 4
2.5 A D G \ .K1 [ K2 [ K3 / \ .T1 [ T2 /, 4.3 G(1=2/
Ac D G c [ .K1c \ K2c \ K3c / [ .T1c \ T2c /.
4.15 Nein.

2.6
4.16 EX D 1=4, EY D 0, EX 2 D 3=2, EY 2 D 1=2,
a) A D A1 \ A2 \ A3 \ A4 V .X / D 23=16, V .Y / D 1=2, E.X Y / D 1=4.
b) A D A1 [ A2 [ A3 [ A4
c) A D A1 \ .A2 [ A3 [ A4 / 4.19 0:04508 : : :
d) A D .A1 [ A2 / \ .A3 [ A4 /.
4.27 Der Maximalwert wird im Fall  … N für k D bc
nCk1
2.16 . und für  2 N für die beiden Werte k D  und k D   1
k
angenommen.
2.17 1=2.
4.29 a) 6=65 , b) 150=65, c) 300=65, d) 1200=65, e) 1800=65,
Pn1 
r n
f) 3600=65, g) 720=65.
2.34 rD0 .1/ r
.n  r/k

Kapitel 5
Kapitel 3
1
5.3 Die Verteilungsfunktion von Y ist G.y/ D 2
C
3.1 2=3. 1
arcsin y, 1  y  1.


3.8 a) 10=19; b) 10=19; c) 20=29. 5.9 b) P .X  10/ D 10=11, P .5  X  8/ D 1=18.

3.10 a) 2=3. b) 1=2. c) Ja.


p
3.23 5.10 f .x/ D 2 1  x 2 = für jxj  1. X und Y sind nicht
1 u v unabhängig.
˛0 D ; ˛1 D ; ˛2 D ;
1CuCv 1CuCv 1CuCv
5.12 a D 1=2. Die Verteilungsfunktion ist F .x/ D 1 
wobei exp.x/=2 für x  0 und F .x/ D 1  F .x/ für x < 0.

p p 2 .1  q/ 5.13 2˚.1/  1 0:6826 (2˚.2/  1 0:9544).


uD ; vD :
q.1  p/ q 2 .1  p/
5.14 k D 1: 0:6826, k D 2: 0:9544, k D 3: 0:9974
3.24 Die invariante Verteilung ist die hypergeometrische Ver- p
teilung Hyp.m; m; m/. 5.17 Es gilt G.y/ D 1  1  y, 0  y  1.

369
370 Lösungen zu den Aufgaben

5.18 a) Die Dichte von X1 (und von X2 ) ist Kapitel 7


 
1 x2
f1 .x1 / D p exp  12 ; x1 2 R: 7.1 ˛ 1=n max.X1 ; : : : ; Xn /.
 2 2
X1 und X2 sind nicht stochastisch unabhängig. 7.2 Es gilt
b) Die gemeinsame Dichte von Y1 und Y2 ist
  lim P .Un    On / D 1  ˛ 8 2 .0; 1/;
n!1
1 2 y22
g.y1 ; y2 / D p exp y1  : Pn
 2 2 wobei mit h WD ˚ 1 .1  ˛=2/ und Tn WD n1 Xj
j D1
Y1 und Y2 sind stochastisch unabhängig. r
h2 h h2
Un D T n C p Tn C ;
5.24 Die Dichte von X =Y ist 2n n 4n
r
1 h2 h h2
g.t / D  .min.1; 1=t //2 für t > 0 und g.t / D 0 sonst: On D Tn C Cp Tn C :
2 2n n 4n
5.34 Die negative Binomialverteilung NB.r; p/ mit p D
ˇ=.1 C ˇ//. 7.4 Nein.

5.42 Die Aussagen sind äquivalent. 7.5 Nein.

5.44 Es gilt 7.19 a) #.k/ D 1=.k C 1/. b) Nein.


 
2 1
EX D 2 () P .X D a/ D
4
p D1P X D  :
5C 5 a 7.23 c D 1=.n C 1/.

5.52 Es ist 'Z .t / D 1=.1 C t 2 /, t 2 R. 7.24 d) Der Schätzer e


#n.

7.28 In b) muss n  49 gelten.


Kapitel 6
7.31 Das Testniveau ist 0:6695 : : :
6.7 Es sei .Xn /n1 eine Folge stochastisch unabhängiger und
identisch verteilter k-dimensionaler Zufallsvektoren auf einem
Wahrscheinlichkeitsraum .˝; A; P / mit EkXk1 < 1. Dann 7.33 Die Hypothese wird auf dem 5 %-Niveau abgelehnt.
gilt
1X
n
f.s. 7.35 n muss mindestens gleich 6 sein.
Xj ! EX1 ;
n j D1
7.36 Die Hypothese H0 W   0 wird auf dem 5 %-Niveau
wobei EX1 der Vektor der Erwartungswerte der Komponenten abgelehnt.
von X1 ist.

6.12 c) ˚.1/. Kapitel 8


6.22 b) Nein. 8.24 a)  ist -endlich () ˝ ist abzählbar.
Bildnachweis

Kapitel 1 Eröffnungsbild: Stones at Irish Coast, © aotearo-


a/stock.adobe.com

Kapitel 4 Eröffnungsbild: Würfel „five dice“, © Fotolia

Kapitel 6 Eröffnungsbild: Menschenmenge, © Fuse, Think-


stock by Getty Images

Kapitel 7 Eröffnungsbild: Tea testing lady, © grullina

Kapitel 8 Eröffnungsbild: Der Géode-Garten in La Villette,


Paris, © Sylvestre/MAXPPP/picture alliance

371
Literatur

1. Arens T, Busam R, Hettlich F, Karpfinger Ch, Stachel H 13. Hald A (1998) A History of Probability and Statistics from
(2013) Grundwissen Mathematikstudium. Analysis und Li- 1750 to 1930. Wiley, New York.
neare Algebra mit Querverbindungen. Springer Spektrum, 14. Henze N (2018) Stochastik für Einsteiger. 12. Auflage.
Wiesbaden. Springer Spektrum, Wiesbaden.
2. Bernoulli J (1899) Wahrscheinlichkeitsrechnung (Ars 15. Henze N (2018) Irrfahrten – Faszination der Random Walks,
conjectandi). Ostwald’s Klassiker der exakten Wiss. 2. Auflage. Springer Spektrum, Wiesbaden.
Nr.107/108. Engelmann, Leipzig (Erstveröff. 1713) 16. Irle A (2005) Wahrscheinlichkeitstheorie und Statistik,
3. Bickel PJ, Hammel EA, O’Connel JW (1975) Sex bias in Grundlagen – Resultate – Anwendungen. 2. Auflage. Teub-
graduate admissions: Data from Berkeley. Science 187:398– ner, Stuttgart.
404. 17. Klenke A (2013) Wahrscheinlichkeitstheorie. 3. Auflage.
4. Billingsley P (1986) Probability and Measure. 2. Auflage. Springer Spektrum, Wiesbaden.
Wiley, New York. 18. Knuth DE (1997) The art of computer programming Vol. 2:
5. Billingsley P (1999) Convergence of Probability Measures. Seminumerical algorithms. 3. Auflage. Addison–Wesley.
2. Auflage. Wiley, New York. Reading, Massachusetts.
6. Brokate M, Henze N, Hettlich F, Meister A, Schranz- 19. Kolmogorov AN (1933) Grundbegriffe der Wahrschein-
Kirlinger G, Sonar T (2016) Grundwissen Mathematikstu- lichkeitsrechnung. Springer. Berlin, Heidelberg, New York,
dium. Höhere Analysis, Numerik und Stochastik. Springer Reprint 1973.
Spektrum, Wiesbaden. 20. Roters M (1988) Optimal stopping in a dice game. J Appl
7. Dudley RM (2002) Real analysis and Probability. Cam- Probab 35:229–235.
bridge University Press, Cambridge, UK. 21. Rüschendorf L (2014) Mathematische Statistik. Springer
8. Ebner B, Henze N (2013) 2013–Internationales Jahr der Sta- Spektrum, Wiesbaden.
tistik. DMV-Mitteilungen 4:12–18. 22. Stigler, St M (2003) The History of Statistics. The Mea-
9. Efron B (1979) Bootstrap methods: Another look at the surement of Uncertainty before 1900. The Belknap Press
jackknife. Ann. Statist. 7:1–26. of Harvard University Press. Cambridge, Massachusetts and
10. Elstrodt J (2011) Maß- und Integrationstheorie. 7. Auflage. London, England. Ninth printing.
Springer. Berlin, Heidelberg. 23. Ville, J (1939) Étude critique de la notion de collectif. Gau-
11. Ferguson TS (1996) A Course in Large Sample Theory. thier Villars, Paris.
Chapman & Hall, London. 24. Walter, W (1991) Analysis II, 2. Auflage. Springer. Berlin,
12. Hald A (1990) A History of Probability and Statistics and Heidelberg.
their Applications before 1750. Wiley, New York.

373
Stichwortverzeichnis

A B Varianz, 114, 121


Abbildung Banach, Stefan, 301 binomische Formel, 31
Borel-messbare, 319 Banach-Tarski-Paradoxon, 301 Blockungslemma, 60
messbare, 318 Baumdiagramm, 47 für Ereignisse, 61
Abbildungssatz, 210, 220 Bayes, Thomas, 51 Boltzmann, Ludwig Eduard, 37
Ablehnbereich Bayes-Formel, 51 Bonferroni, Carlo Emilio, 27
oberer, 257 Bayes-Schätzung, 245 Bonferroni-Ungleichungen, 27
unterer, 257 bedingte Borel-Cantelli-Lemma, 64
zweiseitiger, 257 Dichte, 168 Borel, Émile, 301
Ableitung Varianz, 111 Borel-Lebesgue-Maß
eines Parameterintegrals, 337 Verteilung, 50, 111, 166 Bewegungsinvarianz, 324
Radon-Nikodým-, 344 Wahrscheinlichkeit, 50 im Rk , 314
symmetrische, 347 bedingte Erwartung, 107, 172 Translationsinvarianz, 323
absolut stetig, 343 als Orthogonalprojektion, 173 Borel-Menge, 304
absolut stetige Verteilungsfunktion, 129, 130 Beispiele, 172 in R, 14, 320
absolutes Moment, 148 Eigenschaften, 174 Borel-Messbarkeit, 22, 319
Achenwall, Gottfried, 232 Faktorisierung, 175 Borels Satz über normale Zahlen, 205
adaptiert, 176 Faktorisierungslemma, 175 Bose, Satyendranath, 37
Additionsgesetz, 22 Jensen-Ungleichung, 175 Bose-Einstein-Statistik, 37
für die Binomialverteilung, 94 Turmeigenschaft, 174 Box-Muller-Methode, 345
für die 2 -Verteilung, 157 Version der, 172 Brahe, Tycho, 232
für die Gammaverteilung, 156 bedingte Varianz, 111 Brownsche Brücke, 280
für die negative Binomialverteilung, 96 bedingter Erwartungswert, 106, 169 Brown-Wiener-Prozess, 221
für die Normalverteilung, 142 als beste Vorhersage im quadratischen Mittel,
für die Poisson-Verteilung, 97 107 C
Additivität des Integrals, 330 Eigenschaften, 106 Càdlàg-Raum, 280
äußeres Maß, 311 Bernoulli, Jakob, 17 Cantelli, Francesco Paolo, 64, 123, 277
Algebra, 12, 302 Bernoulli-Kette, 57, 94, 96, 108, 122 Cantelli-Ungleichung, 123
erzeugte, 304 Bernstein, Sergej Natanowitsch, 92 Cantor, Georg Ferdinand Ludwig Philipp, 129
algebraische Induktion, 331 Bernstein-Polynom, 92 Cantorsche Verteilungsfunktion, 129, 347
Alternative, 256 Bertrand, Joseph, 134 Cantorscher Durchschnittssatz, 310
einseitige, 258 Bertrandsches Paradoxon, 134 Cantor-Verteilung, 347
zweiseitige, 258 Beschränktheit Carathéodory
Alternativhypothese, 256 stochastische, 214 Lemma von, 312
André, Désiré, 30 Best-Approximation, 173 Carathéodory, Constantin, 312
Annahmebereich, 256 Betafunktion, 157 Cardano, Gerolamo, 32
ANOVA, 269 Betaverteilung, 188 Cauchy, Augustin Louis, 338
Anpassungstest Bewegungsinvarianz Cauchy-Schwarz-Ungleichung, 104, 338
Chi-Quadrat-, 267 des Borel-Lebesgue-Maßes, 324 Cauchy-Verteilung, 144, 147, 153, 159, 187
Kolmogorov-Smirnov-, 279 Bildmaß, 323 charakteristische Funktion, 189
A-posteriori-Wahrscheinlichkeit, 52 Binomialkoeffizient, 31 Dichte, 153
A-priori-Wahrscheinlichkeit, 52 Binomialreihe, 95 Median, 187
Arbuthnot, John, 284 Binomialtest Quantilfunktion, 153
Ars Conjectandi, 17, 93 asymptotischer einseitiger, 266 Quartilsabstand, 187
asymptotische(r) einseitiger, 258 Verteilungsfunktion, 153, 191
Erwartungstreue, 236 zweiseitiger, 258 Cavalieri, Buonaventura, 349
Konfidenzbereich, 253 Binomialverteilung, 35, 57, 71, 94, 101, 120, Cavalierisches Prinzip, 349
relative Effizienz, 283 217, 233, 254, 284 Cesàro, Ernesto, 204
Verteilung, 207 Additionsgesetz, 94, 113 Chapman-Kolmogorov-Gleichung, 77
Aufbau des Integrals, 327 als bedingte Verteilung, 111 charakteristische Funktion, 160
ausgeartete Verteilung, 91 charakteristische Funktion, 160 Berechnung von Momenten, 161
Ausgleichsgerade, 104 Erwartungswert, 114 Eigenschaften, 161
austauschbare Ereignisse, 26 erzeugende Funktion, 113 Eindeutigkeitssatz, 163
Auswahlsatz von Helly, 211 Poisson-Approximation, 97, 121 einer Menge, 319
Axiomensystem von Kolmogorov, 17 Rekursionsformel, 121 eines Zufallsvektors, 164

375
376 Stichwortverzeichnis

Multiplikationsformel, 162 für Maße, 311 Erwartungswertvektor, 150


Umkehrformeln, 162 einfache Hypothese, 273 erweiterte reelle Zahlen, 320
Chi-Quadrat einfache lineare Regression, 269 erzeugende Funktion, 112
-Test, 270 Einflussgröße, 269 Eindeutigkeitssatz, 112
-Testgröße, 270 Einpunktverteilung, 197, 308 Multiplikationsformel, 113
2k -Verteilung, 157 einseitige Alternative, 258 und Momente, 113
Additionsgesetz, 157 einseitiger Erzeugendensystem, 13, 304
Dichte, 157 Binomialtest, 258 Erzeuger, 13, 304
Erwartungswert, 157 asymptotischer, 266 erzeugte Algebra, 304
reduzierte, 264 Gauß-Test, 259 erzeugter Ring, 304
Varianz, 157 kritischer Bereich, 257 erzeugtes Dynkin-System, 304
Conring, Hermann, 232 t-Test, 260 erzeugte  -Algebra, 13, 304
Coupon-Collector-Problem, 119, 122 Eins-Menge, 196 Euler, Leonhard, 157
Cramér, Harald, 214 Einstein, Albert, 37 Eulersche Betafunktion, 157
Cramér-Rao-effizient, 244 Ein-Stichproben-Problem, 277 exakter Test von Fisher, 265
Cramér-Rao-Ungleichung, 243 Ein-Stichproben-t-Test, 260 Experiment
Cramér-Wold-Technik, 220 Elementarereignis, 11 mehrstufiges, 46, 47
Elementarfunktion, 327 Exponentialfamilie, 244, 274
D Elementarinhalt Exponentialverteilung, 154, 159, 238, 294
d’Alembert, 32 geometrischer, 309 Dichte, 154
de Meré, Antoine Gombault Chevalier, 42 ELISA-Test, 52 Erwartungswert, 155
de Moivre, Abraham, 217 empirische Quantilfunktion, 155
de Montmort, Pierre Rémond, 26 Regressionsgerade, 105 Varianz, 155
de Morgan, Augustus, 11 Verteilungsfunkion, 277 Verteilungsfunktion, 154
de Morgansche Regeln, 11 empirischer Extremwertverteilung von Gumbel, 208
degenerierte Verteilung, 91 Korrelationskoeffizient, 105, 224
Dezil, 152 Median, 280 F
DFB-Pokal, 42 Standard-Prozess, 280 Fächer-Modell, 37
Dichte, 22, 126, 131 empirisches Faktorielle
bedingte, 168 p-Quantil, 280 fallende, 29
eines Maßes, 342 endliche Mengenfunktion, 307 faktorielles Moment, 113
Lebesgue-, 342 endliche Stoppzeit, 176 Faktorisierung der bedingten Erwartung, 175
lokale, 347 endliche Additivität, 22, 301, 307 fallende Faktorielle, 29
marginale, 131 eines Maßes, 310 Faltung, 85
Radon-Nikodým-, 344 endlicher Maßraum, 307 Faltungsformel
Dichtequotient Ereignis(se), 10, 17 diskrete, 84
monotoner, 274 austauschbare, 26 für Dichten, 142
Differenziation unter dem Integral, 337 disjunkte, 11 Faltungsprodukt, 85
Diffusionsmodell von Bernoulli-Laplace, 77 komplementäres, 11 fast sichere Konvergenz, 196
Dirac, Paul Adrien Maurice, 37, 308 Limes inferior, 64 Charakterisierung, 196
Dirac-Maß, 197, 308 Limes superior, 64 Reihenkriterium, 196
Dirichletsche Sprungfunktion, 332, 335 sicheres, 11 von Zufallsvektoren, 198
Dirichletsches Integral, 352 terminales, 62 fast überall, 334
disjunkt, 11 Unabhängigkeit, 54 Fatou
disjunkte Vereinigung, 300 unmögliches, 11 Lemma von, 335
diskrete Gleichverteilung, 21 unvereinbare, 11 Fatou, Pierre Joseph Louis, 335
diskrete Verteilungsfunktion, 127 Ergebnis, 10 Fehler erster Art, 256
dominieren, 343 Ergebnisraum, 10 Fehler zweiter Art, 256
dominierte Konvergenz, 336 Ergodensatz, 70 Fehlerfortpflanzungsgesetz, 226
Donsker, Monroe David, 221 Ersteintrittszeit, 176 Feller-Bedingung, 219
Doob, Joseph Leo, 179 Erwartung Fermat, Pierre de, 32
Doobsches Martingal, 179 bedingte, 107, 172 Fermi, Enrico, 37
Doob-Zerlegung, 179 Erwartungstreue, 235 Fermi-Dirac-Statistik, 37
Dreiecksschema, 218 asymptotische, 236 Fertigpackungsverordnung, 260
Drei-Kasten-Problem, 75 Erwartungswert, 85, 145 feste Stoppzeit, 176
Drei-Türen-Problem, 76 Additivität, 86, 145 Filtration, 176
durchschnittsstabil, 57, 302 bedingter, 106, 169 natürliche, 176
Dynkin, Eugene Borisovich, 303 Darstellungsformel, 150 Fischer, Ernst, 340
Dynkin-System, 303 der Anzahl der Rekorde, 87 Fisher
erzeugtes, 304 Dreiecksungleichung, 86, 145 exakter Test von, 265
einer Indikatorsumme, 87 Fisher, Ronald Aylmer, 232, 237, 264
E einer komplexwertigen Zufallsvariablen, 160 Fisher-Information, 241
Ehrenfest, Paul, 71 Homogenität, 86, 145 Fixpunkte einer zufälligen Permutation, 26, 190
Ehrenfest, Tatjana, 71 Monotonie, 86, 145 Erwartungswert, 123
Ehrenfestsches Diffusionsmodell, 71 Multiplikationsregel, 89, 148 Varianz, 123
Ein-Ausschluss-Formel, 26 physikalische Interpretation, 88 Verteilung, 123
Eindeutigkeitssatz Erwartungswertbildung Formel
für charakteristische Funktionen, 163 Eigenschaften, 86, 145 des Ein- und Ausschließens, 26
Stichwortverzeichnis 377

vom totalen Erwartungswert, 108 gleichgradige Integrierbarkeit, 200, 211 Additivität, 330
von Bayes, 51 gleichmäßig bester Test, 272 Aufbau des, 327
von der totalen Wahrscheinlichkeit, 51 Gleichverteilung Differenziation unter dem, 337
von Jordan, 88, 123 auf einem Intervall, 138, 159 Dreiecksungleichung, 330
Fortsetzungssatz Dichte, 138 Eigenschaften des -, 330
für Maße, 313 Erwartungswert, 147 explizite Berechnung des -, 329
Fourier, Jean-Baptiste-Joseph de, 160 Momente, 149 Homogenität, 330
Fourier-Transformierte, 160 Verteilungsfunktion, 138 Monotonie, 330
F-Test für den Varianzquotienten, 264 auf einer Menge im Rk , 131 -, 327, 329, 330
Fubini diskrete, 21 über Teilmengen, 341
Satz von, 351 Glivenko, Waleri Iwanowitsch, 277 Zusammenhang zwischen - und -, 343
Fubini, Guido, 351 Glivenko-Cantelli Integral von Dirichlet, 332, 352
Fundamentalprinzip des Zählens Satz von, 277 Integration bezüglich f , 343
erstes, 28 Glücksspirale, 42 integrierbare Majorante, 336
zweites, 28 Gosset, William Sealy, 232, 249 Integrierbarkeit
Funktion Graunt, John, 232 gleichgradige, 200, 211
charakteristische, 160 Grenzverteilung, 207 -, 329
Elementar-, 327 Grundraum, 10, 302 p-fache, 337
erzeugende, 112 Gruppen-Screening, 120 quadratische, 337
maßdefinierende, 314 Gütefunktion, 257 Quasi-, 330
numerische, 320 des einseitigen Ein-Stichproben-t-Tests, 260 Integrierbarkeitkriterien, 330
Verteilungs-, 314 des einseitigen Gauß-Tests, 259 Intensität, 99
Funktionenfolge des zweiseitigen Binomialtests, 258 Internet, 56
antitone, 328 des zweiseitigen Gauß-Tests, 259 invariante Verteilung, 68
isotone, 328 eines nichtrandomisierten Tests, 257 irreduzibel, 72
F-Verteilung, 264 eines randomisierten Tests, 272 iterierte Erwartungswertbildung, 108, 174
Gumbel, Emil Julius, 208
G Gumbelsche Extremwertverteilung, 208 J
Galilei, Galileo, 32 Jensen, Ludvig Valdemar, 146
Galton, Francis, 105, 115 H Jensen-Ungleichung, 146
Galton-Watson-Prozess, 115 Halbring, 306 für bedingte Erwartungen, 175
Aussterbewahrscheinlichkeit, 115 Halley, Edmond, 232 Jordan, Camille, 315
kritischer, 115 Hauptkomponentendarstellung, 141 Jordan, Károly, 88
subkritischer, 115 Hausdorff, Felix, 301 Jordan-Inhalt, 315
superkritischer, 115 Hausdorff-Maß, 326 Jordan-messbare Menge, 315
Gammafunktion, 149 Heine-Borel Jordansche Formel, 88, 123
Gammaverteilung, 156, 159 Satz von, 316
Additionsgesetz, 156 Helly K
Dichte, 156 Auswahlsatz von, 211 kanonische Konstruktion, 19, 231
Erwartungswert, 156 Helly, Eduard, 211 kartesisches Produkt, 322
Loglikelihood-Gleichungen, 295 Herglotz, Gustav, 164 k-dimensionale Normalverteilung, 140
Momente, 156 Hölder, Ludwig Otto, 338 Hauptkomponentendarstellung, 141
Momentenschätzer, 240 Homogenität des Integrals, 330 Reproduktionsgesetz, 151
Varianz, 156 hypergeometrische Verteilung, 34, 94, 101, 120, Kepler, Johannes, 232
Gauß, Carl Friedrich, 104 296 Kleinste-Quadrate-Schätzer, 269
Gauß-Test als bedingte Verteilung, 120 Kniffel, 121
einseitiger, 259 Erwartungswert, 120 Koinzidenz-Paradoxon, 26
zweiseitiger, 259 mehrdimensionale, 120 Kolmogorov, Andrej Nikolajewitsch, 16, 279
Geburtstagsproblem, 36, 60 Varianz, 103 Kolmogorov-Kriterium, 207
Geiger, Hans Wilhelm, 99 Hypothese, 256 Kolmogorovsches
gemeinsame Verteilungsfunktion, 59, 133 einfache, 273 Axiomensystem, 17
geometrische Verteilung, 95, 101 Null-Eins-Gesetz, 64
Erwartungswert, 95, 121 I Kolmogorov-Smirnov
Gedächtnislosigkeit, 95, 123 Indikator, 15 -Abstand, 279
Stabdiagramme, 95 Indikatorfunktion, 15 -Anpassungstest, 279
Varianz, 95, 121 Indikatorsumme, 15 Kolmogorov-Verteilung, 280
geometrischer Elementarinhalt, 309 Erwartungswert, 87 Kolmorogov-Ungleichung, 204
geordnete Stichprobe, 144 Varianz, 103 Kombination, 29
gepaarte Stichprobe, 263 Induktion mit Wiederholung, 29
Gesetz algebraische, 331 ohne Wiederholung, 29
großer Zahlen schwaches, 93 induziertes äußeres Maß, 312 Kommunikationsklasse, 72
großer Zahlen starkes, 201 Inhalt, 307 kommunizierende Zustände, 72
Null-Eins-, 64 Eigenschaften, 308 Komplement, 11
seltener Ereignisse, 97 Jordan-, 315 komplexwertige Zufallsvariable, 159
vom iterierten Logarithmus, 206 Monotonie, 308 Erwartungswert, 160
gewichtetes Mittel, 53 Subtraktivität, 308 Imaginärteil, 160
Gitterverteilung, 190 Inhaltsproblem, 301 Realteil, 160
Gleichgewichtsverteilung, 71 Integral Konfidenzbereich, 246
378 Stichwortverzeichnis

asymptotischer, 253 über Erzeugendensysteme, 304 äußeres, 311


Konstruktionsprinzip, 246 von Borel-Cantelli, 64 Bild-, 323
Zusammenhang mit Test, 252 von Kronecker, 204 Borel-Lebesgue-, 314
Konfidenzintervall, 246 von Sluzki, 209 Dirac-, 197, 308
asymptotisches für einen Erwartungswert, von Carathéodory, 312 endliche Additivität, 310
255 von Cesàro, 204 Hausdorff-, 326
für den Erwartungswert der von Fatou, 335 induziertes äußeres, 312
Normalverteilung, 250 von Neyman-Pearson, 273 Lebesgue-, 315
für den Median, 282 von Scheffé, 346 Lebesgue-Stieltjes-, 314, 317
für die Varianz der Normalverteilung, 251 Levi, Beppo, 335 Lebesgue-Zerlegung, 346
für eine Wahrscheinlichkeit, 247 Lévy, Paul, 214, 215 mit Dichte, 342
Konfidenzwahrscheinlichkeit, 246 Likelihood-Funktion, 238 Monotonie, 310
Kongruenzgenerator Likelihoodquotient, 273 Produkt-, 349, 352
linearer, 135 Limes inferior von Ereignissen, 64  -Subadditivität, 310
Kongruenzschema Limes superior von Ereignissen, 64 singulärer Teil, 346
lineares, 135 Lindeberg, Jarl Waldemar, 215 Singularität, 345
Konsistenz Lindeberg-Bedingung, 218 Stetigkeit von oben, 310
einer Testfolge, 266 Lindeberg-Feller Stetigkeit von unten, 310
einer Schätzfolge, 236 Satz von, 218 Subtraktivität, 310
Konsumentenrisiko, 260 Lindeberg-Lévy Zähl-, 308
Kontrollgruppe, 252 Satz von, 215 maßdefinierende Funktion, 314
Konvergenz linearer Kongruenzgenerator, 135 Maß-Fortsetzungssatz, 313
dominierte, 336 Gitterstruktur, 135 Maßproblem, 301
fast sichere, 196 lineares Maßraum, 307
im Mittel, 199, 339 Kongruenzschema, 135 endlicher, 307
im p-ten Mittel, 199, 339 Regressionsmodell, 269  -endlicher, 307
im quadratischen Mittel, 199, 339 statistisches Modell, 269 vollständiger, 315
in Wahrscheinlichkeit, 197 Ljapunov Mathematische Statistik, 232
majorisierte, 336 Satz von, 219 Maximal-Ungleichung, 202
monotone, 335 Ljapunov, Aleksander Michailowitsch, 219 Maximum-Likelihood
nach Verteilung, 207 Ljapunov-Bedingung, 219 -Schätzer, 238
schwache, 207 logistische Differenzialgleichung, 187 -Schätzmethode, 237
stochastische, 197 logistische Verteilung, 187 -Schätzwert, 238
Kopplung, 166 Loglikelihood-Funktion, 238 Maxwell, James Clerk, 37
Kopplungsmethode, 98 Loglikelihood-Gleichungen, 238 Maxwell-Boltzmann-Statistik, 37
Korrelationskoeffizient, 101, 148 Lognormalverteilung, 157, 159 Maxwellsche Geschwindigkeitsverteilung, 187
empirischer, 105, 224 Dichte, 157 Median, 152
Kovarianz, 101, 148 Erwartungswert, 159 empirischer, 280
Eigenschaften, 102 Erzeugung aus der Normalverteilung, 157 mehrdimensionale hypergeometrische
Kovarianzmatrix, 150 Modalwert, 159 Verteilung, 120
Kriterien für Verteilungskonvergenz, 211 Varianz, 159 mehrdimensionale Normalverteilung, 140, 159
Kriterium Verteilungsfunktion, 157 mehrstufiges Experiment, 46, 47
Teilfolgen- für Verteilungskonvergenz, 214 lokale Dichte, 347 Mendel, Gregor, 271
kritischer Bereich, 256 Lokations-Skalen-Familie, 152 Menge
einseitiger, 257 Lotto, 28, 41, 42 Borel-, 320
zweiseitiger, 258 messbare, 318
kritischer Wert, 257 M Mengenfolge
Kronecker, Leopold, 204 Majorante absteigende, 24
kumulative Verteilungsfunktion, 127 integrierbare, 336 aufsteigende, 24
majorisierte Konvergenz, 336 Mengenfunktion, 307
L Mann, Henry Berthold, 290 endlich-additive, 307
Lambert, Johann Heinrich, 26 Mann-Whitney-Statistik, 290 endliche, 307
Laplace, Pierre-Simon, 20, 217 marginale Dichte, 131  -additive, 307
Laplace-Verteilung, 21 Marginalverteilungsbildung, 83, 131  -endliche, 307
Le Cam, Lucien Marie, 98 Markov, Andrej Andrejewitsch, 65, 199  -subadditive, 307
Lebesgue, Henri Léon, 314 Markov-Eigenschaft, 65 Mengensystem, 302
Lebesgue-Dichte, 126, 131, 342 verallgemeinerte, 66 messbare Menge, 318
Lebesgue-Maß im Rk , 315 Markov-Kette, 65 messbare numerische Funktion, 320
Lebesgue-messbare Menge, 315 homogene, 65 Rechenregeln, 321
Lebesgue-Stieltjes-Maß, 314, 317 irreduzible, 72 messbarer Raum, 12, 318
Lebesgue-Zerlegung, 346 reduzible, 72 messbares Rechteck, 322
Lee, Alice, 104 Markov-Ungleichung, 146, 334 Messbarkeit, 318
Legendre, Adrien Marie, 104 allgemeine, 199 und Erzeuger, 319
Leibniz, Gottfried Wilhelm von, 32 Martingal, 178 Messraum, 12, 318
Lemma von Doob, 179 Methode der kleinsten Quadrate, 105
über das Erweitern unabhängiger Martingaltransformation, 180 Minkowski, Hermann, 338
durchschnittstabiler Systeme, 57 Maß, 307 Minkowski-Ungleichung, 199, 338
über \-stabile Dynkin-Systeme, 303 absolut stetiger Teil, 346 Mischungsdichte, 167
Stichwortverzeichnis 379

Mittel Neyman-Pearson-Test, 273 Rekord, 87


gewichtetes, 53 nichtausgeartete Verteilung, 91 Petty, William, 232
Konvergenz im, 339 nichtdegenerierte Verteilung, 91 p-fach -integrierbar, 337
Konvergenz im quadratischen, 339 nichtparametrisches Pfadregel
Konvergenz im p-ten, 339 statistisches Modell, 234 erste, 47, 51
mittlere absolute Abweichung, 152 Zwei-Stichproben-Problem, 285 zweite, 47
mittlere quadratische Abweichung, 90, 103, 107, nichtrandomisierter Test, 256 Poisson, Simeon Denise, 96
122, 152, 235, 295 nichtzentrale tk -Verteilung, 293 Poisson-Approximation, 98
ML-Schätzer, 238 Nikodým, Otton Marcin, 343 Poisson-Prozess, 158
Modalwert, 159 Niveau-˛-Test, 258 Poisson-Verteilung, 97, 101, 122, 293, 294
Modell Normaldarstellung, 327 Additionsgesetz, 97
Fächer-, 37 normale Zahl, 205 charakteristische Funktion, 160
Urnen-, 33 Normalverteilung, 137, 159, 239, 295 Erwartungswert, 97, 121, 122
Modellierung mehrstufiger Experimente, 47 Additionsgesetz, 142 erzeugende Funktion, 113
Moment, 148 charakteristische Funktion, 160 Stabdiagramme, 97
absolutes, 148 Dichte, 137 Varianz, 97, 121, 122
faktorielles, 113 k-dimensionale, 140 Pólya, George, 47
zentrales, 148 Dichte, 140 Pólyasches Urnenmodell, 47, 48
Momentenmethode, 240 Hauptkomponentendarstellung, 141 Pólya-Verteilung, 48
Momentenschätzer, 240 Reproduktionsgesetz, 151 Erwartungswert, 103
monotone Konvergenz, 335 k-Sigma-Grenzen, 187 Varianz, 103
monotoner Dichtequotient, 274 mehrdimensionale, 140 Portmanteau-Theorem, 220
Monotonie multivariate, 140 Positivteil, 321
des Integrals, 330 n-Schritt-Übergangswahrscheinlichkeit, 67 p-Quantil, 151
eines Inhalts, 308 Null-Eins-Gesetz von Kolmogorov, 64 empirisches, 280
eines äußeren Maßes, 311 Nullhypothese, 256 Prämaß, 307
eines Maßes, 310 Nullmenge, 315, 333 prävisible Folge, 179
eines Wahrscheinlichkeitsmaßes, 22 numerische Funktion, 320 Problem der vertauschten Briefe, 26
Monotonieeigenschaft Messbarkeitskriterien, 320 Produkt
verallgemeinerte, 133, 317 kartesisches, 322
Monte-Carlo-Integration, 203 O -Maß, 349, 352
Monte-Carlo-Test, 271 O.B.d.A., 7 - -Algebra, 63, 322
multinomialer Lehrsatz, 33 oberes Quartil, 152 von Maßräumen, 352
Multinomialkoeffizient, 31 oP -Notation, 197 Produkt abzählbar vieler
Multinomialverteilung, 100, 101, 121, 267 OP -Notation, 214 Wahrscheinlichkeitsmaße, 63
als bedingte Verteilung, 122 optimales Stoppen, 110 Wahrscheinlichkeitsräume, 63
Marginalverteilung, 121 optionales Stoppen, 181 Produktexperiment, 49
Multiplikationsformel Ordnungsstatistik, 144, 280 Produktraum, 63
für charakteristische Funktionen, 162 r-te, 144 Produzentenrisiko, 260
Multiplikationsregel Projektion, 322
der Kombinatorik, 28 P Prüfgröße, 257
für den Erwartungswert, 89, 148 paarweise unkorreliert, 102 Pseudozufallszahl, 135
für Ereignisse, 51 Pacioli, Luca, 32 Pseudozufallszahlengenerator, 135
multivariate Normalverteilung, 140 Paradoxon Punkt-Schätzer, 234
multivariater zentraler Grenzwertsatz, 220 der ersten Kollision, 36 p-Wert, 262
-fast überall beschränkt, 337 von Banach-Tarski, 301
-fast überall, 334 von Bertrand, 134 Q
-Integral, 327, 329, 330 von Simpson, 53 quadratische Integrierbarkeit, 337
Eigenschaften, 330 Parameterintegral Qualitätskontrolle, 41, 233
explizite Berechnung, 329 Ableitung eines, 337 Quantil(e), 151
über Teilmengen, 341 Stetigkeit eines, 337 der Fr;s -Verteilung, 264
-Integrierbarkeit, 329 Parameterraum, 231 der Chi-Quadrat-Verteilung, 252
-integrierbar p-fach, 337 parametrisches statistisches Modell, 234 der Standardnormalverteilung, 152
-Nullmenge, 315 Parametrisierung, 231 der tk -Verteilung, 250
 -Messbarkeit, 312 Partialsummenprozess, 221 Quantilfunktion, 151
Pascal, Blaise, 32 Quantiltransformation, 153
N Pascalsches Dreieck, 31 Quartil
natürliche Filtration, 176 Pauli, Wolfgang, 37 oberes, 152
negative Binomialverteilung, 95, 101 Pauli-Verbot, 37 unteres, 152
Additionsgesetz, 96 Pearson, Egon Sharpe, 232, 273 Quartilsabstand, 152
bedingte Verteilung, 122 Pearson, Karl, 104, 232 Quasi-Integrierbarkeit, 330
Erwartungswert, 96, 122 Periode eines Zustands, 72 Quintil, 152
erzeugende Funktion, 113, 122 Permutation, 28
Stabdiagramme, 96 Anzahl der Rekorde, 87, 222 R
Varianz, 96, 122 Anzahl der Fixpunkte, 123 Radon, Johann Karl August, 164, 343
Negativteil, 321 Fixpunkt, 26 Radon-Nikodým-Ableitung, 344
Neyman, Jerzy, 232, 273 mit Wiederholung, 28 Radon-Nikodým-Dichte, 344
Neyman-Pearson-Lemma, 273 ohne Wiederholung, 28 randomisierte Summe, 114
380 Stichwortverzeichnis

Erwartungswert, 122 von Vitali, 301, 325 stetige Zufallsvariable, 126


Varianz, 122 Schätzer, 234 Stetigkeit
randomisierter Test, 271 erwartungstreuer, 235 eines Parameterintegrals, 337
Randomisierungswahrscheinlichkeit, 272 Schätzfolge, 236 rechtsseitige, 317
Rang, 286 asymptotisch erwartungstreue, 236 von oben, 24, 310
Rangsummen-Test, 286 konsistente, 236 von unten, 24, 310
Realisierung Scheffé, Henri, 346 Stetigkeitssatz von Lévy-Cramér, 214
einer Zufallsvariablen, 14 Scheffé Stichprobe
rechtsseitige Stetigkeit, 317 Lemma von, 346 gepaarte, 263
reduzierte 2 -Verteilung, 264 schwache Konvergenz, 207 verbundene, 263, 284
Regel Schwaches Gesetz großer Zahlen, 93 Stichprobenfunktion, 234
von den kleinen Schwarz, Hermann Amandus, 338 Stichprobenmittel, 240
Ausnahmewahrscheinlichkeiten, 28 Schwerpunkt, 88, 105 Stichprobenmoment, 240
Regeln von de Morgan, 11 Scorefunktion, 241 Stichprobenraum, 231
Regression, 105 Sensitivität, 52 Stichprobenstandardabweichung, 249
einfache lineare, 269 Siebformel, 26 Stichprobenvarianz, 240
Regressionsanalyse, 269  -Additivität, 17, 301, 307 Stieltjes, Thomas Jean, 314
Regressionsgerade  -Algebra, 12, 302 Stimmzettelproblem, 30
empirische, 105 der Borel-Mengen des Rk , 304 stochastische Konvergenz, 197
Regressionsmodell der  -Vergangenheit, 177 Rechenregeln, 199
lineares, 269 erzeugte, 13, 304 Teilfolgenkriterium, 198
Regressor, 269 Produkt-, 63, 322 von Zufallsvektoren, 198
reguläres statistisches Modell, 241 terminale, 62 stochastische Matrix, 66
Rekorde, 218, 222 von Abbildungen erzeugte, 322 stochastische Beschränktheit, 214
relative Kompaktheit, 214  -endliche Mengenfunktion, 307 stochastischer Prozess, 65
relative Häufigkeit, 16, 50  -Subadditivität, 22, 307, 310 stochastisches Integral, 180
Rencontre-Problem, 26 eines äußeren Maßes, 311 Störparameter, 234
Reproduktionsgleichung, 115 signifikant, 258 Stoppzeit, 176
Reproduktionsverteilung, 115 Signifikanz, 285 endliche, 176
Riesz, Friedrich, 340 Simpson, Edward Hughes, 53 feste, 176
Riesz-Fischer Simpson-Paradoxon, 53 Straffheit, 213, 214, 220
Satz von, 340 Simulation, 135, 271 Straffheitskriterium, 213
Ring, 302 Sinclair of Ulbster, John, 232 Streuung, 90
der k-dimensionalen Figuren, 306 Singularität von Maßen, 345 Studentisierung, 250
erzeugter, 304 Skatspiel, 31, 42, 76 Stufe eines Faktors, 269
von einem Halbring erzeugter, 306 Skorokhod, Anatolie Wladimirowitsch, 210 Submartingal, 178
Risikomenge, 273 Sluzki, Jewgeni Jewgenjewitsch, 209 Substitutionsregel, 109
Roulette, 120 Sluzkis Lemma, 209 Subtraktivität, 308, 310
r-te Ordnungsstatistik, 144 Smirnov, Nikolai Wassiljewitsch, 279 Süßmilch, Johann Peter, 232
Rückwärtsinduktion, 110 Spektraltest, 135 Supermartingal, 178
Run, 42 Spezifität, 52 Supremum
Rutherford, Ernest, 99 Spiegelungsprinzip, 30 wesentliches, 337
Rutherford-Geiger-Experiment, 99 Spieler-Ruin-Problem, 69, 182 symmetrische Ableitung, 347
Spielsystem, 180 symmetrische Verteilung, 152
S Spur, 318
Sammlerproblem, 119, 122 Spur- -Algebra, 303 T
Satz Standardabweichung, 90, 148 Tarski, Alfred, 301
Abbildungs-, 210, 220 Standardisierung, 91 Tartaglia, Niccolò, 32
über die Verkettung messbarer Abbildungen, Standardnormalverteilung, 127 Taxi-Problem, 238, 294
319 Dichte, 127 tea tasting lady, 256, 272
über Erzeuger der Borel-Mengen, 305 im Rk , 131 Teilfolgenkriterium
von Beppo Levi, 335 Quantile, 152 für stochastische Konvergenz, 198
von Berry-Esseen, 217 Verteilungsfunktion, 137 für Verteilungskonvergenz, 214
von der dominierten Konvergenz, 336 starkes Gesetz großer Zahlen, 201 Teilungsproblem, 32
von der majorisierten Konvergenz, 336 Startverteilung, 46, 66 terminales Ereignis, 62
von der monotonen Konvergenz, 335 Startwahrscheinlichkeit, 46 terminale  -Algebra, 62
von Donsker, 221 stationäre Verteilung, 68 Test
von Fubini, 351 Statistik, 234 Binomial-, einseitiger, 258
von Fubini für statistische Sicherheit, 258 Binomial-, zweiseitiger, 258
Übergangswahrscheinlichkeiten, 169 statistisches Modell, 231 Chi-Quadrat-, 270
von Glivenko-Cantelli, 277 lineares, 269 Ein-Stichproben-t-, 260
von Heine-Borel, 316 reguläres, 241 exakter von Fisher, 265
von Ljapunov, 219 Stein, Charles, 216 Gauß-, einseitiger, 259
von Pólya, 209 Steiner, Jakob, 90 gleichmäßig bester, 272
von Riesz-Fischer, 340 Steinerscher Verschiebungssatz, 90 Kolmogorov-Smirnov, 279
von Skorokhod, 210 Sterbewahrscheinlichkeit, 54 Monte-Carlo-, 271
von Student, 250 stetige Gleichverteilung, 138 nichtrandomisierter, 256
von Tonelli, 351 stetige Verteilung, 126, 131 randomisierter, 271
Stichwortverzeichnis 381

trivialer, 257 Urnenmodell von Pólya, 47, 48 diskrete, 127


UMP-, 273 Urnenmodelle, 33 eines Zufallsvektors, 133
UMPU-, 273 empirische, 277
unverfälschter, 272 V gemeinsame, 59, 133
Vorzeichen-, 284 Varianz, 90, 148 Verteilungskonvergenz, 207
Wilcoxon-Rangsummen-, 286 Additionsregel, 91 Kriterien für, 211
zum Niveau ˛, 258 bedingte, 111 Vertrauensbereich, 246
Zusammenhang mit Konfidenzbereich, 252 einer Indikatorsumme, 103 Vertrauensintervall, 246
Zwei-Stichproben-t-, 262 elementare Eigenschaften, 90 Vertrauenswahrscheinlichkeit, 246
Testfolge, 266 physikalische Interpretation, 90 Vervollständigung eines Maßraums, 315
asymptotisches Niveau, 266 Varianzanalyse, 269 Verzerrung, 235
konsistente, 266 Varianzquotient, 264 Vitali, Giuseppe, 18, 301
Testgröße verallgemeinerte Monotonieeigenschaft, 133, vollständiger Maßraum, 315
Chi-Quadrat-, 270 317 Vollständigkeit
Teststatistik, 257 verbundene Stichprobe, 263, 284 der Lp -Räume, 340
Teufelstreppe, 129 Vereinigung eines Maßes, 315
Texas Hold’em, 121 disjunkte, 300 von Mises, Richard, 16
tk -Verteilung, 249 vereinigungsstabil, 12, 302 Vorzeichentest, 284
Dichte, 250 Vererbung, 100 für verbundene Stichproben, 284
nichtzentrale, 293 Verschiebungssatz von Steiner, 90
Tonelli Version der bedingten Erwartung, 172 W
Satz von, 351 Versuchsgruppe, 252 Wahrscheinlichkeit, 17
Tonelli, Leonida, 351 Verteilung -a-posteriori, 52
Trägheitsmoment, 90 asymptotische, 207 -a-priori, 52
Transformationsformel Augensumme Würfelwurf, 21, 114 bedingte, 50
allgemeine, 89 ausgeartete, 91 komplementäre, 22
für Erwartungswerte, 86 bedingte, 50, 111, 166 Übergangs-, 46, 165
Transformationssatz, 139 Beta-, 188 Wahrscheinlichkeitsdichte, 22, 126, 131
für k -Dichten, 345 Binomial-, 35, 57, 71, 94, 101, 120, 217, Wahrscheinlichkeitsfunktion, 82
Translationsinvarianz 233, 254, 284 Wahrscheinlichkeitsintegral-Transformation,
des Borel-Lebesgue-Maßes, 323 Cantor-, 347 154, 278
Treize-Spiel, 26 Cauchy-, 144, 147, 153, 159, 187 Wahrscheinlichkeitsmaß, 17, 308
trivialer Test, 257 Chi-Quadrat-, 157 Wahrscheinlichkeitsraum
Tschebyschow-Ungleichung, 91 2k -, 157 allgemeiner, 17
degenerierte, 91 diskreter, 19
U diskrete, 82 endlicher, 19
Überbuchungen, 225 einer Zufallsvariablen, 19 Laplacescher, 21
Übergangsmatrix, 66 Einpunkt-, 197, 308 Wahrscheinlichkeitsverteilung, 17
Übergangswahrscheinlichkeit, 46, 48, 65, 165 Exponential-, 154, 159, 238, 294 Wald, Abraham, 232
Überlebenswahrscheinlichkeit, 54 Extremwert- von Gumbel, 208 Waldsche Gleichung, 183
u.i.v.-Folge, 200 Fisher-, 264 Weibull, Ernst Hjalmar Waloddi, 155
Umkehrformel Gamma-, 156, 159 Weibull-Verteilung, 155, 159
für Dichten, 162 geometrische, 95, 101 Dichte, 155
für die Verteilungsfunktion, 162 hypergeometrische, 34, 94, 101, 120, 296 Erwartungswert, 155
UMP-Test, 273 invariante, 68 Erzeugung aus der Exponentialverteilung,
UMPU-Test, 273 k-dimensionale Normal-, 140 155
Unabhängigkeit Kolmogorov-, 280 Momente, 155
und Verteilungsfunktionen, 59 Laplace-, 21 Varianz, 155
von Ereignissen, 54, 61 logistische, 187 Verteilungsfunktion, 155
von Mengensystemen, 56, 61 Lognormal-, 157, 159 wesentliches Supremum, 337
von Zufallsvariablen, 58, 61 mehrdimensionale Normal-, 159 Weyl, Hermann, 340
Ungleichung Multinomial-, 100, 101, 121, 122, 267 Whitney, Donald Ransom, 290
von Cantelli, 123 negativ Binomial-, 95, 101 wiederholte Messung, 233
von Cauchy-Schwarz, 104, 338 nicht ausgeartete, 91 Wilcoxon, Frank, 286
von Cramér-Rao, 243 nicht degenerierte, 91 Wilcoxon-Rangsummen-Test, 286
von Hölder, 338 Normal-, 137, 239, 295 Wirkungstabelle eines Tests, 256
von Jensen, 146 Poisson-, 97, 101, 122, 293, 294 Wold, Herman Ole Andreas, 164
von Kolmogorov, 204 Quantil einer, 151 Würfelwurf, 42, 49, 100, 102, 109, 110, 112,
von Markov, 146, 334 stationäre, 68 119–121
von Minkowski, 199, 338 stetige, 126, 131
von Tschebyschow, 91 symmetrische, 152 Z
unkorreliert, 101 tk -, 249 Zähldichte, 342
Unmöglichkeitssatz von Vitali, 18 von Pólya, 48 Zählmaß, 308
unteres Quartil, 152 Weibull-, 155, 159 Zählvariable, 15
unvereinbar, 11 Verteilungsannahme, 231 Zahlenlotto, 28, 41, 42
unverfälschter Test, 272 Verteilungsfunktion, 127, 314 Zentraler Grenzwertsatz
Urbildabbildung, 318 absolut stetige, 129, 130 multivariat, 220
Operationstreue, 318 Cantorsche, 129, 347 von de Moivre-Laplace, 217
382 Stichwortverzeichnis

von Ljapunov, 219 standardisierte, 91 Zustandsgraph, 108


von Lindeberg-Feller, 218 stetige, 126 einer Markov-Kette, 66
von Lindeberg-Lévy, 215 Verteilung einer, 19 Zustandsraum, 65
zentrales Moment, 148 Verteilungsfunktion, 127 Zwei-Alternativ-Problem, 273
Zentralwert, 152 Zufallsvektor, 14 zweiseitige Alternative, 258
Zerlegung charakteristische Funktion, 164 zweiseitiger
Lebesgue-, 346 stetiger, 131
Ablehnbereich, 257
Ziegenproblem, 76 Verteilungsfunktion, 133
Binomialtest, 258
Zielgröße, 269 Zufallszahl, 135
Zufallsvariable, 14 Zufallszahlengenerator, 135 Gauß-Test, 259
charakteristische Funktion, 160 Zustand kritischer Bereich, 258
diskrete, 82 absorbierender, 72 Zwei-Stichproben
komplexwertige, 159 aperiodischer, 72 -Lokationsmodell, 286
numerische, 14 unwesentlicher, 75 -Problem, 284
reelle, 14 wesentlicher, 75 -t-Test, 262
springer.com

Willkommen zu den
Springer Alerts
Jetzt
•• Unser Neuerscheinungs-Service für Sie:
anmelden!
aktuell *** kostenlos *** passgenau *** flexibel

Springer veröffentlicht mehr als 5.500 wissenschaftliche Bücher jährlich in


gedruckter Form. Mehr als 2.200 englischsprachige Zeitschriften und mehr
als 120.000 eBooks und Referenzwerke sind auf unserer Online Plattform
SpringerLink verfügbar. Seit seiner Gründung 1842 arbeitet Springer
weltweit mit den hervorragendsten und anerkanntesten Wissenschaftlern
zusammen, eine Partnerschaft, die auf Offenheit und gegenseitigem
Vertrauen beruht.
Die SpringerAlerts sind der beste Weg, um über Neuentwicklungen im
eigenen Fachgebiet auf dem Laufenden zu sein. Sie sind der/die Erste,
der/die über neu erschienene Bücher informiert ist oder das Inhalts-
verzeichnis des neuesten Zeitschriftenheftes erhält. Unser Service ist
kostenlos, schnell und vor allem flexibel. Passen Sie die SpringerAlerts
genau an Ihre Interessen und Ihren Bedarf an, um nur diejenigen Informa-
tion zu erhalten, die Sie wirklich benötigen.

Mehr Infos unter: springer.com/alert


A14445 | Image: Tashatuvango/iStock

Das könnte Ihnen auch gefallen