Beruflich Dokumente
Kultur Dokumente
Stochastik:
Eine Einführung
mit Grundzügen
der Maßtheorie
Inkl. zahlreicher Erklärvideos
Stochastik: Eine Einführung mit Grundzügen der Maßtheorie
Norbert Henze
Stochastik:
Eine Einführung
mit Grundzügen
der Maßtheorie
Inkl. zahlreicher Erklärvideos
Norbert Henze
Karlsruher Institut für Technologie (KIT)
Karlsruhe, Deutschland
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte biblio-
grafische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Spektrum
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom
Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfäl-
tigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen
Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk be-
deutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch
ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu
beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk
zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Heraus-
geber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen.
Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und
Institutionsadressen neutral.
Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer
Nature.
Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort
Dieses Werk vermittelt eine fundierte, lebendige und durch diverse Erklärvideos audiovisuell ergänzte
Einführung sowohl in die Stochastik (inklusive der Statistik) als auch in die Maß- und Integrations-
theorie. Es wendet sich an Studierende im zweiten Jahr eines Mathematikstudiums, die Kenntnisse der
Grundvorlesungen in Analysis und Linearer Algebra besitzen. Da Kenntnisse der Maß- und Integra-
tionstheorie nach dem ersten Studienjahr nicht vorausgesetzt werden können und oft erst im dritten
Semester innerhalb einer weiterführenden Vorlesung über Analysis erworben werden, ist dieses Buch
so aufgebaut, dass große Teile keinerlei Vorwissen aus dieser mathematischen Teildisziplin benötigen.
Besondere didaktische Elemente dieses Buches sind neben den über QR-Codes verlinkten Erklär-
videos
farbige Überschriften, die den Kerngedanken eines Abschnitts markieren,
gelbe Merkkästen, die wichtige Definitionen und Sätze enthalten,
mit einem roten Achtung gekennzeichnete Stellen, die vor Fallstricken warnen,
kleine Beispiele, die der Einübung des Stoffes dienen,
ganzseitige Beispiele, die mehr Raum benötigende Probleme und deren Lösungen behandeln,
Unter-der-Lupe-Boxen, die insbesondere Sätze von großer Bedeutung und deren Beweise genauer
betrachten,
mit einem Fragezeichen gekennzeichnete Selbsttests, die eine unmittelbare Verständniskontrolle
ermöglichen,
Übersichten, in denen verschiedene Begriffe, Formeln oder Rechenregeln zusammengestellt sind,
Hintergrund-und-Ausblick-Boxen, die einen Einblick in ein weiterführendes Thema geben
sowie Zusammenfassungen am Ende eines jeden Kapitels, die die wesentlichen Inhalte, Ergebnisse
und Vorgehensweisen beinhalten.
Insgesamt geht der behandelte Stoff über das, was üblicherweise Gegenstand einer 4+2-stündigen
Einführungsveranstaltung ist, deutlich hinaus. Da meine Intention beim Verfassen dieses Buches aus-
drücklich nicht darin bestand, „möglichst viel Mathematik pro Seite unterzubringen“, unterscheidet
sich dieses Buch von anderen Lehrbüchern unter anderem durch eine relativ hohe Redundanz. So
werden manche Begriffe wie Erwartungswert und Varianz zuerst in einem elementaren Rahmen auf
diskreten Wahrscheinlichkeitsräumen motiviert, eingeführt und diskutiert, und später erkennt man,
dass alle Eigenschaften auch auf allgemeinen Wahrscheinlichkeitsräumen gelten, weil der im diskreten
Fall eingeführte Erwartungswert ein Spezialfall des allgemeinen Maß-Integrals ist. Weil gerade in der
Stochastik das Verständnis besonders wichtig ist, nehmen die Motivation von Begriffsbildungen wie
z. B. stochastische Unabhängigkeit sowie Erklärungen breiten Raum ein. Hinzu kommt das „harte Ge-
schäft“ der Modellierung zufallsabhängiger Vorgänge als ein wichtiges Aufgabenfeld der Stochastik.
Da die Konstruktion geeigneter Modelle im Hinblick auf die vielfältigen Anwendungen der Stochas-
tik von Grund auf gelernt werden sollte, ist dem Aspekt der Modellbildung viel Platz gewidmet. Hier
mag es trösten, dass selbst Universalgelehrte wie Leibniz oder Galilei bei einfachen Zufallsphänome-
nen mathematische Modelle aufstellten, die sich nicht mit den gemachten Beobachtungen des Zufalls
in Einklang bringen ließen.
Heutzutage ist die Wahrscheinlichkeitstheorie eine der fruchtbarsten mathematischen Theorien. Ihre
Untersuchungsobjekte sind unter anderem stochastische Prozesse, die als Zufallsvariablen in geeig-
neten Funktionenräumen aufgefasst werden können. Grundbausteine vieler stochastischer Prozesse
sind der eine zentrale Stellung in der stochastischen Analysis und Finanzmathematik einnehmende
Brown-Wiener-Prozess sowie der Poisson-Prozess. Letzterer bildet den Ausgangspunkt für allgemei-
ne Punktprozesse, wobei die untersuchten zufälligen Objekte, wie z.B. in der stochastischen Geometrie
und räumlichen Stochastik, Werte in relativ allgemeinen topologischen Räumen annehmen können.
V
VI Vorwort
Die Verbreitung des Computers hat die Bedeutung der Mathematik im Allgemeinen und der Stochastik
(und hier insbesondere der Statistik) im Speziellen ungemein vergrößert. So wären etwa die von Brad-
ley Efron (*1938) im Jahr 1979 begründeten Bootstrap-Verfahren (siehe [9]), die die beobachteten
Daten für weitere Simulationen verwenden, um etwa die Verteilung einer komplizierten Teststatistik
zu approximieren, ohne leistungsfähige Computer undenkbar. Gleiches gilt für das sog. maschinelle
Lernen, bei dem es unter anderem um das Erkennen von Mustern und Gesetzmäßigkeiten geht. Fast
explosionsartig ansteigende Speicherkapazitäten und Rechengeschwindigkeiten erlauben die Verar-
beitung immer größerer Datenmengen, was zum Schlagwort Big Data geworden ist.
Da man Mathematik am besten durch eine möglichst intensive Beschäftigung mit Aufgaben lernt,
enthält das Buch insgesamt 332 Übungsaufgaben, die am Ende der Kap. 2–8 zusammengestellt sind.
Diese in Verständnisfragen, Rechenaufgaben und Beweisaufgaben unterteilten Aufgaben sollen hel-
fen, den Stoff aktiv zu verarbeiten. Versuchen Sie sich zuerst selbstständig an den Aufgaben. Erst wenn
Sie sicher sind, dass Sie es alleine nicht schaffen, sollten Sie die Hinweise am Ende des Buches zurate
ziehen oder sich an Kommilitonen wenden. Zur Kontrolle finden Sie hier auch die Resultate. Sollten
Sie trotz Hinweisen nicht mit der Aufgabe fertig werden, finden Sie die Lösungswege im Arbeitsbuch
zu diesem Werk.
Selbstverständlich ist dieses Buch nicht ohne die tatkräftige Hilfe anderer entstanden. So sind große
Teile zunächst als Kapitel des Buches „Grundwissen Mathematikstudium – Höhere Analysis, Numerik
und Stochastik“ erschienen. Hier schulde ich Christian Karpfinger Dank, dass ich in Abschn. 1.2
Anleihen aus dem dortigen Abschnitt machen und sogar größere Teile von dort übernehmen durfte.
Frau Viola Riess und Herrn Bernhard Klar danke ich für geduldiges Korrekturlesen und zahlreiche
Verbesserungsvorschläge. Herrn M. Radke schulde ich Dank für ein perfektes Redigieren des Textes.
Mein besonderer Dank gilt dem Verlag Springer Spektrum. Nur die strukturierende Übersicht von Frau
Bianca Alton und die immer wieder beeindruckende Kompetenz von Herrn Andreas Rüdinger mit
vielen kreativen und engagierten Vorschlägen machten die Umsetzung dieses ehrgeizigen Projektes
überhaupt erst möglich.
Pfinztal
im Juni 2019
Inhaltsverzeichnis
8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln . . . 299
8.1 Inhaltsproblem und Maßproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
8.2 Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.3 Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
8.4 Messbare Abbildungen, Bildmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
8.5 Das Maß-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
8.6 Nullmengen, Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
8.7 Lp -Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
8.8 Maße mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
8.9 Produktmaße, Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Bildnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Verzeichnis der Übersichten
XI
Stochastik – eine
1
Kapitel 1
Wissenschaft für sich
Was bedeutet der Begriff
Stochastik ?
Welches sind die
Ursprünge der Wahrschein-
lichkeitsrechnung ?
Wann begann die moderne
Maß- und
Integrationstheorie?
Mit der Analysis und der Linearen Algebra werden im ersten Stu- über stetige Verteilungsmodelle und allgemeine Betrachtun-
Kapitel 1
dienjahr klassische Grundlagen der Mathematik gelegt. Im Hinblick gen beinhaltet u. a. (absolut) stetige Verteilungen, charakteris-
auf die moderne Entwicklung des Fachs sind heute weitere Aspek- tische Funktionen, bedingte Erwartungen sowie grundlegende
te ebenso maßgebend, die üblicherweise im zweiten Studienjahr Betrachtungen zu Martingalen in diskreter Zeit. Ein weiteres
hinzukommen. Hierzu gehören u. a. die Stochastik als „Kunst des Kapitel gibt einen Überblick über die Begriffe fast sichere und
Mutmaßens“ (von altgr. στόχος (stóchos) „Vermutung“) sowie ei- stochastische Konvergenz, Konvergenz im p-ten Mittel sowie
ne allgemeine Maß- und Integrationstheorie. Gerade die Stochastik Verteilungskonvergenz. Im Mittelpunkt stehen hier das starke
als „Mathematik des Zufalls“ kommt oft ganz andersartig daher Gesetz großer Zahlen sowie die zentralen Grenzwertsätze von
und gilt gemeinhin als schwierig, weil man häufig vor der Aufgabe Lindeberg-Lévy und Lindeberg-Feller. Ein Kapitel zur Statistik
steht, für ein in Worten beschriebenes Problem ein adäquates sto- enthält alle wichtigen Konzepte der schließenden Statistik wie
chastisches Modell aufstellen zu müssen. Aus diesem Grund nimmt Punktschätzer, Konfidenzbereiche und Tests. Auch Optimali-
die Modellierung in diesem Buch einen breiten Raum ein. Im Ge- tätsgesichtspunkte wie das Lemma von Neyman-Pearson sowie
gensatz zu meinem Lehrbuch Stochastik für Einsteiger, das sich einfache nichtparametrische Schätz- und Testverfahren werden
auch an Studienanfänger richtet, ist für dieses Buch eine Vertraut- behandelt. Nicht aufgenommen habe ich elementare Aspekte
heit mit dem Stoff der Grundvorlesungen in Linearer Algebra und der deskriptiven Statistik, wie sie etwa in Kap. 5 des Buches
vor allem in der Analysis unabdingbar. Nicht vorausgesetzt wer- Stochastik für Einsteiger (siehe [14]) zu finden sind. Das ab-
den jedoch Kenntnisse der Maß- und Integrationstheorie. Solche schließende Kapitel über Maß- und Integrationstheorie versteht
Kenntnisse sind nicht erforderlich, um viele Begriffe, Methoden und sich nicht nur als Zulieferer für die vorangegangenen Kapitel,
Denkweisen der Stochastik zu verinnerlichen, und dieses Werk trägt sondern beinhaltet mit ausführlichen Beweisen den Standard-
diesem Umstand in substanziellen Teilen Rechnung. Wer sich je- stoff, der im Rahmen einer weiterführenden Analysis-Vorlesung
doch intensiver mit der Stochastik beschäftigen möchte, muss über zu diesem Thema vermittelt wird.
Grundwissen aus der Maß- und Integrationstheorie verfügen. Die-
Insgesamt geht der behandelte Stoff über das, was üblicherweise
ser Notwendigkeit dient die Bereitstellung eines eigenen Kapitels zu
Gegenstand einer 4+2-stündigen Einführungsveranstaltung ist,
dieser mathematischen Teildisziplin, deren Anfänge etwa 120 Jahre
deutlich hinaus. Da es beim Schreiben dieses Buches ausdrück-
zurückreichen.
lich nicht meine Absicht war, bei gegebenem Gesamtumfang
In diesem ersten Kapitel möchte ich meine Intention, dieses Buch des Werkes möglichst viel Stoff zu vermitteln, unterscheidet
zu schreiben, erläutern, sowie die damit verbundenen didaktischen sich dieses Buch von anderen Lehrbüchern u. a. durch eine
Konzepte vorstellen. Das Kapitel enthält zudem einen kurzen Abriss relativ hohe Redundanz. Zudem nehmen Motivation und Er-
zur Geschichte der Stochastik und der Maß- und Integrationstheorie. klärungen breiten Raum ein, denn gerade in der Stochastik ist
das begriffliche Verständnis besonders wichtig. Insgesamt 332
Übungsaufgaben sollen helfen, den Stoff aktiv zu verarbeiten.
1.1 Über dieses Buch Mathematik lernt man am besten durch eine möglichst intensi-
ve Beschäftigung mit Aufgaben. Im Folgenden möchte ich die
In diesem Buch erwartet Sie eine fundierte, lebendige und durch besonderen didaktischen Elemente des Buches hervorheben.
diverse Erklärvideos audiovisuell ergänzte Einführung sowohl
in die Stochastik (inklusive der Statistik) als auch in die Maß-
und Integrationstheorie. Da Kenntnisse der Maß- und Integra- 1.2 Die didaktischen Elemente
tionstheorie nach dem ersten Studienjahr nicht vorausgesetzt
werden können und oft erst im dritten Semester innerhalb einer dieses Lehrbuches
weiterführenden Vorlesung über Analysis erworben werden, ist
dieses Buch so aufgebaut, dass große Teile keinerlei Kenntnisse Dieses Lehrbuch weist eine Reihe didaktischer Elemente auf,
dieser mathematischen Teildisziplin benötigen. die Sie beim Erlernen des Stoffes unterstützen sollen.
Grundlegende Begriffe der Stochastik sind u. a. Zufallsvariablen
und ihre Verteilungen, bedingte Wahrscheinlichkeiten, stochas-
tische Unabhängigkeit, Erwartungswert, Varianz, Korrelation, Farbige Überschriften markieren den
Quantile, Verteilungsfunktionen und Dichten. Die Stochastik Kerngedanken eines Abschnitts
ist in diesem Buch so aufgebaut, dass sich insbesondere Stu-
dierenden des Höheren Lehramts, die im Allgemeinen keine Der gesamte Text ist durch farbige Überschriften gegliedert,
Kenntnisse der abstrakten Maß- und Integrationstheorie erwer- die jeweils den Kerngedanken des folgenden Abschnitts zu-
ben, möglichst viele Konzepte und Denkweisen der Stochastik sammenfassen. In der Regel bildet eine farbige Überschrift
einschließlich der Statistik erschließen können, ist doch die zusammen mit dem dazugehörigen Abschnitt eine Lerneinheit.
Stochastik unter der Leitidee Daten und Zufall wichtiger Be- Machen Sie nach dem Lesen eines solchen Abschnitts eine
standteil des gymnasialen Mathematikunterrichts. So gibt es Pause und rekapitulieren Sie dessen Inhalte. Denken Sie auch
nach einem Kapitel über Wahrscheinlichkeitsräume ein Kapitel darüber nach, inwieweit die zugehörige Überschrift den Kern-
über bedingte Wahrscheinlichkeiten und stochastische Unab- gedanken beinhaltet. Bedenken Sie, dass diese Überschriften
hängigkeit, von dem große Teile und hier insbesondere der letzte oftmals nur kurz und prägnant formulierte mathematische Aus-
Abschnitt über Markov-Ketten keine Kenntnisse der Maß- und sagen sind, die man sich gut merken kann, die aber keinen
Integrationstheorie voraussetzen. Gleiches gilt für das Kapitel Anspruch auf Vollständigkeit erheben – es kann hier auch man-
über diskrete Verteilungsmodelle. Das anschließende Kapitel che Voraussetzung weggelassen sein.
1.2 Die didaktischen Elemente dieses Lehrbuches 3
Kapitel 1
Abb. 1.1 Gelbe Merkkästen heben das Wichtigste hervor
Von den vielen Fallstricken der Stochastik kann ich nach über
40 Jahren in der universitären Lehre ein Lied singen. Um Sie auf Manches lohnt, unter der Lupe betrachtet zu
solche Fallstricke aufmerksam zu machen, sind gefährliche Stel- werden
len mit einem roten Achtung gekennzeichnet, siehe Abb. 1.2.
Manche Sätze bzw. ihre Beweise sind so wichtig, dass sie ei-
ner genaueren Betrachtung unterzogen werden. Dazu dienen
Kleine Beispiele dienen der Einübung
Abb. 1.2 Mit einem roten Achtung beginnen Hinweise zu häufig ge- Abb. 1.4 Größere Beispiele stehen in einem Kasten und behandeln
machten „(Denk-)Fehlern“ komplexere Probleme
4 1 Stochastik – eine Wissenschaft für sich
Kapitel 1
Im Allgemeinen lernen Sie im Laufe eines Kapitels viele Sätze, Eine Zusammenfassung am Ende eines jeden Kapitels enthält
Eigenschaften, Merkregeln und Rechentechniken kennen. Wann die wesentlichen Inhalte, Ergebnisse und Vorgehensweisen. Sie
immer es sich anbietet, formuliere ich die zentralen Ergebnisse sollten die dort dargestellten Zusammenhänge nachvollziehen
und Regeln in sog. Übersichten. Neben einem Titel hat jede und mit den geschilderten Rechentechniken und Lösungsansät-
zen umgehen können.
Bitte erproben Sie die erlernten Techniken an den zahlreichen
Aufgaben am Ende eines jeden Kapitels. Sie finden dort Ver-
ständnisfragen, Rechenaufgaben und Beweisaufgaben – jeweils
in drei verschiedenen Schwierigkeitsgraden. Versuchen Sie sich
zuerst selbstständig an den Aufgaben. Erst wenn Sie sicher sind,
Abb. 1.6 Selbsttests ermöglichen eine Verständniskontrolle dass Sie es alleine nicht schaffen, sollten Sie die Hinweise am
1.3 Zur Geschichte der Stochastik und der Maß- und Integrationstheorie 5
Kapitel 1
und der Maß- und
Integrationstheorie
Die Wahrscheinlichkeitsrechnung entstand im 17. Jahrhundert
aus der Diskussion von Glücksspielen. Als Ausgangspunkt gilt
ein Briefwechsel aus dem Jahr 1654 zwischen Blaise Pascal
(1623–1662) und Pierre de Fermat (1601–1665) zu mathema-
tischen und moralischen Fragen des Grafen Antoine Gombault
Chevalier de Méré (1607–1684). Pascal und Fermat gelang 1654
auch unabhängig voneinander die Lösung des Teilungsproblems
von Luca Pacioli (ca. 1445–1517). Im Jahr 1663 erschien post-
hum das Werk Liber de ludo aleae (das Buch vom Würfelspiel)
von Gerolamo Cardano. Christiaan Huygens (1629–1695) ver-
öffentlichte 1657 die Abhandlung De Rationiciis in Aleae Ludo
(über Schlussfolgerungen im Würfelspiel). Seine tiefe Einsicht
in die Logik der Spiele führte ihn dazu, im Zusammenhang mit
dem gerechten Einsatz für ein Spiel den zentralen Begriff Er-
wartungswert einzuführen. Jakob Bernoulli schrieb mit der Ars
conjectandi (Kunst des geschickten Vermutens) das erste, weit
über die Mathematik des Glücksspiels hinausgehende, systema-
tische Lehrbuch der Stochastik. Dieses im Jahr 1713 posthum
veröffentlichte Werk enthält u. a. die früheste Form des Ge-
setzes der großen Zahlen. Abraham de Moivre (1667–1754)
bewies in seinem Buch Doctrine of Chances (1738) den ers-
Abb. 1.8 Ein Kasten Hintergrund und Ausblick gibt einen Einblick in
ein weiterführendes Thema ten Zentralen Grenzwertsatz. Auf den Arbeiten von Bernoulli
und de Moivre aufbauend entwickelte sich in der Folge die sog.
Theorie der Fehler, deren früher Höhepunkt als Anwendung
Ende des Buches zurate ziehen oder sich an Kommilitonen wen- der Methode der kleinsten Quadrate die Wiederentdeckung des
den. Zur Kontrolle finden Sie hier auch die Resultate. Sollten Sie Planetoiden Ceres im Jahr 1800 durch Carl Friedrich Gauß
trotz Hinweisen nicht mit der Aufgabe fertig werden, finden Sie war. Ebenfalls posthum erschien 1764 das Hauptwerk An Es-
die Lösungswege im Arbeitsbuch zu diesem Werk. say towards Solving a Problem in the Doctrine of Chances von
Thomas Bayes (1702–1761). Hierin werden u. a. der Begriff
der bedingten Wahrscheinlichkeit eingeführt und ein Spezial-
fall der Bayes-Formel bewiesen. Sowohl die Theorie der Fehler
Erklärvideos lassen den Autor sprechen als auch die von Bayes aufgeworfenen Fragen beeinflussten
auch die weitere Entwicklung der Statistik, deren historische
Ein besonderes Kennzeichen dieses Buches sind diverse Er-
Entwicklung in Abschn. 7.1 skizziert ist. Im Jahr 1812 publi-
klärvideos, die mithilfe von QR-Codes verlinkt sind. Ich habe
zierte Pierre Simon de Laplace (1749–1827) mit der Théorie
diese Videos produziert, weil immer mehr Studierende „digital
analytique des probabilités eine umfassende Darstellung des
sozialisiert“ sind und es ihnen leichter fällt, audiovisuelle In-
wahrscheinlichkeitstheoretischen Wissens seiner Zeit. Die mo-
halte aufzunehmen und zu speichern. Erklärvideos lockern den
derne Wahrscheinlichkeitstheorie entstand seit Mitte des 19.
Text auf und bilden eine hervorragende zusätzliche Möglichkeit,
Jahrhunderts. Dabei stand jedoch eine von David Hilbert auf
Wissen zu schaffen. Ihr enormer Mehrwert gegenüber einem
dem internationalen Mathematikerkongress 1900 in Paris an-
„statischen Text“ zeigt sich insbesondere bei komplexeren Gra-
gemahnte mathematische Axiomatisierung dieser Theorie noch
fiken, die sich im Video dynamisch aufbauen. Meine Videos
aus. Nach diesbezüglichen Ansätzen von Richard von Mises
sind so konzipiert, dass sie ausschließlich die Inhalte in den Vor-
(1883–1953) und bahnbrechenden Arbeiten von Felix Haus-
dergrund stellen und kein visueller Umweg über mich erfolgt. Es
dorff war es Andrej Nikolajewitsch Kolmogorov, der 1933 mit
reicht, wenn der Autor spricht. Der folgende Link (s. Video 1.1)
seinem Werk Grundbegriffe der Wahrscheinlichkeitsrechnung
führt auf ein Video über Rekorde in einer rein zufälligen Permu-
die Entwicklung der Grundlagen der modernen Wahrscheinlich-
tation.
keitstheorie abschließen konnte.
Video 1.1 Link auf ein Erklärvideo zu Rekorden Eine ausführliche Darstellung der Geschichte der Stochastik bis
zum Jahr 1930 findet man in [12], [13]. Im Buch [22] ist die
Geschichte der Statistik bis zum Jahr 1900 zusammengefasst.
Die moderne Maß- und Integrationstheorie entstand 1894 mit
der Entdeckung der -Additivität der elementargeometrischen
6 1 Stochastik – eine Wissenschaft für sich
Fischer (1875–1954) benannte Satz aus dem Jahr 1907 über die
Kapitel 1
Erst der Beweis macht einen Satz zum Satz Abstraktion ist eine Schlüsselfähigkeit
Kapitel 1
Jede Aussage, die als Satz, Lemma oder Korollar formuliert Wie allgemein in der Mathematik stößt man auch in der Sto-
wird, muss sich beweisen lassen und somit wahr sein. In der chastik immer wieder auf das Phänomen, dass unterschiedliche
Tat ist die Beweisführung zugleich die wichtigste und die an- Anwendungsprobleme mit denselben oder sehr ähnlichen ma-
spruchsvollste Tätigkeit in der Mathematik. Einige grundlegen- thematischen Modellen behandelt werden können. So können
de Techniken, Sprech- und Schreibweisen haben Sie vermutlich „Fächer“ in einem Fächermodell für unterschiedliche Plätze auf
schon im ersten Studienjahr kennengelenert. Ich möchte sie aber einem Speichermedium, aber auch für die Tages des Jahres oder
teilweise nochmals vorstellen und wiederholen. die möglichen Gewinnreihen beim Zahlenlotto 6 aus 49 stehen.
Zunächst sollte jedoch der formale Rahmen betont werden, an Erkennen Mathematiker(innen) bei verschiedenen Problemen
den man sich beim Beweisen im Idealfall halten sollte. Dabei gleiche Strukturen, so sind sie bestrebt, deren Wesensmerkma-
werden in einem ersten Schritt die Voraussetzungen festgehal- le herauszuarbeiten und für sich zu untersuchen. Sie lösen sich
ten. Anschließend stellt man die Behauptung auf, und erst dann dann vom eigentlichen konkreten Problem und studieren statt-
beginnt der eigentliche Beweis. Ist Letzterer gelungen, so lassen dessen die herauskristallisierte allgemeine Struktur.
sich die Voraussetzungen und die Behauptung zur Formulierung
eines entsprechenden Satzes zusammenstellen. Außerdem ist es Den induktiven Denkprozess, das Wesentliche eines Problems
meistens angebracht, auch den Beweis noch einmal zu überden- zu erfassen und bei unterschiedlichen Fragestellungen Gemein-
ken und schlüssig zu formulieren. samkeiten auszumachen, die für die Lösung zentral sind, nennt
man Abstraktion. Hierdurch wird es möglich, mit ein und
Der Deutlichkeit halber wird das Ende eines Beweises häufig derselben mathematischen Theorie ganz verschiedenartige Pro-
mit „qed“ (quod erat demonstrandum) oder einfach mit einem bleme gleichzeitig zu lösen, und man erkennt oft auch Zusam-
Kästchen „“ gekennzeichnet. Insgesamt liegt fast immer fol- menhänge und Analogien, die sehr hilfreich sein können.
gende Struktur vor, die auch bei Ihren eigenen Beweisführungen
als Richtschnur dienen sollte: Abstraktion ist ein selbstverständlicher, unabdingbarer Bestand-
teil mathematischen Denkens, und nach dem ersten Studienjahr
Voraussetzungen: . . . haben Sie vermutlich die Anfangsschwierigkeiten damit über-
Behauptung: . . . wunden. Auch in diesem Band habe ich viel Wert darauf gelegt,
Beweis: . . . Ihnen den Zugang zur Abstraktion mit zahlreichen Beispielen
Natürlich ist diese Reihenfolge kein Dogma. Auch in diesem zu erleichtern und Ihre Abstraktionsfähigkeit zu fördern.
Buch werden manchmal Aussagen hergeleitet, also letztend- Ich möchte abschließend noch auf einige allgemein übliche
lich die Beweisführung bzw. die Beweisidee vorweggenommen, Bezeichnungen eingehen, die im gesamten Werk verwendet
bevor die eigentliche Behauptung komplett formuliert wird. werden. So seien
Diese Vorgehensweise kann mathematische Zusammenhänge
verständlicher machen. Aber die drei Elemente Voraussetzung, N WD f1; 2; 3; : : :g die Menge der natürlichen Zahlen,
Behauptung und Beweis bei Resultaten zu identifizieren, bleibt N0 WD f0; 1; 2; 3; : : :g,
trotzdem stets wichtig, um sich Klarheit über Aussagen zu ver- Z WD f0; 1; 1; 2; 2 : : :g die Menge der ganzen Zahlen,
schaffen. Q die Menge der rationalen Zahlen,
R die Menge der reellen Zahlen,
R0 WD fx 2 R j x 0g,
O.B.d.A. bedeutet ohne Beschränkung R WD R [ fC1; 1g die um die uneigentlichen Punkte
C1 und 1 erweiterten reellen Zahlen,
der Allgemeinheit C die Menge der komplexen Zahlen,
dxe WD minfk 2 Z j x kg, x 2 R, die obere Gauß-
Mathematische Sprechweisen sind oft etwas gewöhnungsbe- Klammer von x,
dürftig. So steht etwa o.B.d.A für „Ohne Beschränkung der bxc WD maxfk 2 Z j k xg, x 2 R, die untere Gauß-
Allgemeinheit“. Manchmal sagt man stattdessen auch o.E.d.A. Klammer von x,
(„ohne Einschränkung der Allgemeinheit“) oder ganz kurz o.E. .x/k WD x.x 1/ : : : .x k C 1/ (x 2 R; k 2 N) die k-te
(„ohne Einschränkung“). Dahinter verbirgt sich meist das Ab- fallende Faktorielle von x sowie .x/0 WD 1,
handeln von Spezialfällen zu Beginn eines Beweises, um den x _ y WD max.x; y/ (x; y 2 R),
Beweis dadurch übersichtlicher zu gestalten. Der allgemei- x ^ y WD min.x; y/ (x; y 2 R),
ne Fall wird aber dennoch mitbehandelt; man erhält nur die jAj die Anzahl der Elemente einer endlichen Menge A sowie
Aufgabe, sich sorgsam zu vergewissern, dass tatsächlich der all- jAj WD 1, falls A unendlich ist.
gemeine Fall begründet wird. Soll also etwa eine Aussage für
jede Teilmenge A einer Menge ˝ bewiesen werden, so bedeutet Sind A und B disjunkte bzw. sind A1 ; A2 ; : : : paarweise disjunk-
„sei o.B.d.A. A ¤ ; und A ¤ ˝“, dass die zu beweisende Be- te Teilmengen einer Menge ˝, so schreiben wir Vereinigungen
hauptung im Fall A D ; und A D ˝ offensichtlich („trivial“) mit dem Summenzeichen,
P n Sn P1A C B S
setzen also WD A [ B,
1
ist. j D1 Aj WD j D1 Aj , n 2, sowie j D1 A j WD j D1 Aj .
Wahrscheinlichkeitsräume –
Modelle für stochastische 2
Vorgänge
Kapitel 2
Was ist ein
Wahrscheinlichkeitsraum?
Was besagt die Formel des
Ein- und Ausschließens?
Was ist die Verteilung einer
Zufallsvariablen?
In welchem
Zusammenhang tritt die
hypergeometrische
Verteilung auf?
Wie viele
Kartenverteilungen gibt es
beim Skat?
Mit diesem Kapitel steigen wir in die Stochastik, die Mathematik Wirft man zwei nicht unterscheidbare Würfel gleichzeitig, so
des Zufalls, ein. Dabei wollen wir nicht über Grundsatzfragen wie bietet sich der Grundraum
Existiert Zufall überhaupt? philosophieren, sondern den pragmati-
schen Standpunkt einnehmen, dass sich so verschiedene Vorgänge ˝ WD f.1; 1/; .1; 2/; .1; 3/; .1; 4/; .1; 5/; .1; 6/; .2; 2/;
wie die Entwicklung von Aktienkursen, die Ziehung der Lottozahlen, .2; 3/; .2; 4/; .2; 5/; .2; 6/; .3; 3/; .3; 4/; .3; 5/;
das Schadensaufkommen von Versicherungen oder die Häufigkeit
.3; 6/; .4; 4/; .4; 5/; .4; 6/; .5; 5/; .5; 6/; .6; 6/g
von Erdbeben einer bestimmten Mindeststärke einer deterministi-
schen Beschreibung entziehen und somit stochastische Phänomene
an. Dabei steht .j ; k/ für das Ergebnis einer der Würfel zeigt
darstellen, weil unsere Kenntnisse für eine sichere Vorhersage
j und der andere k.
nicht ausreichen. Mathematische Herzstücke dieses Kapitels sind
Eine Münze wird so lange geworfen, bis zum ersten Mal
das Kolmogorovsche Axiomensystem sowie grundlegende Folge-
Zahl auftritt. Es interessiere die Anzahl der dafür benötig-
Kapitel 2
Da wir den Grundraum ˝ als Ergebnismenge eines stochasti- Mengentheoretische Verknüpfungen von
schen Vorgangs deuten, kann jedes Element von ˝ als poten-
Ereignissen ergeben neue Ereignisse
zielles Ergebnis eines solchen Vorgangs angesehen werden. Ist
A ˝ ein Ereignis, so sagen wir das Ereignis A tritt ein,
Als logische Konsequenz der Identifizierung von anschaulichen
wenn das Ergebnis des stochastischen Vorgangs zu A gehört.
Ereignissen und Teilmengen von ˝ entstehen aus Ereignissen
Durch diese Sprechweise identifizieren wir eine Teilmenge A
durch mengentheoretische Operationen wie folgt neue Ereig-
von ˝ als mathematisches Objekt mit dem anschaulichen Er-
nisse.
eignis, dass sich ein Element aus A als Resultat des durch den
Grundraum ˝ beschriebenen stochastischen Vorgangs einstellt.
Die leere Menge ; heißt das unmögliche, der Grundraum ˝ Mengentheoretische und logische Verknüpfungen
das sichere Ereignis. Jede einelementige Teilmenge f!g von ˝
Kapitel 2
heißt Elementarereignis. Sind A; B; A1 ; A2 ; : : : ; An ; : : : ˝ Ereignisse, so ist
A \ B das Ereignis, dass A und B beide eintreten,
Selbstfrage 1 A [ B das Ereignis, dass mindestens eines der Ereig-
Können Sie im Beispiel des n-fachen Würfelwurfs das Ereignis nisse A oder B eintritt,
T 1
„keiner der Würfe ergibt eine Sechs“ als Teilmenge A von ˝ D nD1 An das Ereignis, dass jedes der Ereignisse
f1; 2; 3; 4; 5; 6gn formulieren? A ; A2 ; : : : eintritt,
S11
nD1 An das Ereignis, dass mindestens eines der Er-
eignisse A1 ; A2 ; : : : eintritt.
Viele stochastische Vorgänge bestehen aus Teilexperimenten
(Stufen), die der Reihe nach durchgeführt werden. Besteht das Das Komplement
Experiment aus insgesamt n Stufen, so stellen sich seine Ergeb-
nisse als n-Tupel ! D .a1 ; : : : ; an / dar, wobei aj den Ausgang Ac WD ˝ n A
des j -ten Teilexperiments angibt. Wird das j -te Teilexperiment
durch den Grundraum ˝j modelliert, so ist das kartesische Pro- von A oder das zu A komplementäre Ereignis bezeichnet
dukt das Ereignis, dass A nicht eintritt.
Aj WD ˝1 : : : ˝j 1 Aj ˝j C1 : : : ˝n
D f! D .a1 ; : : : ; an / 2 ˝ j aj 2 Aj g Man rufe sich in Erinnerung, dass Vereinigungs- und Durch-
schnittsbildung kommutativ und assoziativ sind und das Distri-
das Ereignis, dass beim j -ten Einzelexperiment das Ereignis Aj butivgesetz
eintritt. Man beachte, dass Aj eine Teilmenge von ˝ ist, also ein
sich auf das n-stufige Gesamtexperiment beziehendes Ereignis A \ .B [ C / D A \ B [ A \ C
beschreibt.
Offenbar kann dieser kanonische Grundraum sehr unterschied- sowie die nach dem Mathematiker Augustus de Morgan (1806–
liche Situationen modellieren, wobei der n-fache Würfel- oder 1871) benannten Regeln
Münzwurf als Spezialfälle enthalten sind. Lassen Sie sich je-
doch in Ihrer Phantasie nicht durch den Begriff Experiment ein- .A [ B/c D Ac \ B c ; .A \ B/c D Ac [ B c ;
engen! Gemeinhin verbindet man nämlich damit die Vorstellung
von einem stochastischen Vorgang, dessen Rahmenbedingun- 0 1c 0 1c
gen geplant werden können. Solche geplanten Experimente oder [
1 \
1 \
1 [
1
Versuche findet man insbesondere in der Biologie, in den In- @ Aj A D Ajc ; @ Aj A D Ajc
genieurwissenschaften oder in der Medizin. Es gibt aber auch j D1 j D1 j D1 j D1
stochastische Vorgänge, die sich auf die Entwicklung von Ak-
tienkursen, das Auftreten von Orkanen oder Erdbeben oder gelten, siehe z. B. [1], Abschn. 2.2.
die Schadenshäufigkeiten bei Sachversicherungen beziehen. So
könnte aj den Tagesschlusskurs einer bestimmten Aktie am
Achtung
j -ten Handelstag des nächsten Jahres beschreiben, aber auch
für die Stärke des von jetzt an gerechneten j -ten registrierten Der Kürze halber lassen wir oft das Durchschnittszeichen
Erdbebens stehen, das eine vorgegebene Stärke auf der Richter- zwischen Mengen weg, schreiben also etwa AB.C [ D/ an-
Skala übersteigt. stelle von A \ B \ .C [ D/.
12 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
X
n Video 2.1 -Algebren
Kapitel 2
Aj WD A1 C : : : C An WD A1 [ : : : [ An ;
j D1
X
1 [
1
Aj WD Aj
j D1 j D1
für paarweise disjunkte Ereignisse A1 ; A2 ; : : : Dabei verein- Wie ausführlich in Abschn. 8.2 dargelegt, enthält jede -
baren wir, dass diese Summenschreibweise ausschließlich Algebra den Grundraum ˝ sowie mit endlich oder abzählbar
für diesen speziellen Fall gelten soll. J vielen Mengen auch deren Durchschnitte. Zudem ist eine -
Algebra vereinigungsstabil, sie enthält also mit je zwei und
Selbstfrage 2 damit auch je endlich vielen Mengen auch deren Vereinigung.
Es seien A; B; C ˝ Ereignisse. Können Sie die anschaulich Das Präfix „-“ im Wort -Algebra steht für die Möglich-
beschriebenen Ereignisse D1 : „es tritt nur A ein“ und D2 : „es keit, abzählbar unendlich viele Mengen bei Mengenoperationen
treten genau zwei der drei Ereignisse ein“ in mengentheoreti- wie Vereinigungs- und Durchschnittsbildung zuzulassen. Würde
scher Form ausdrücken? man die dritte eine -Algebra definierende Eigenschaft dahin-
gehend abschwächen, dass Vereinigungen von je zwei (und
damit von je endlich vielen) Mengen aus A wieder zu A gehö-
Beispiel Im kanonischen Modell ˝ D ˝1 : : : ˝n für ein ren, so nennt man ein solches Mengensystem eine Algebra. Ist
n-stufiges Experiment seien Aj ˝j , 1 j n, und A P .˝/ eine -Algebra über ˝, so heißt das Paar .˝; A/
Messraum oder messbarer Raum.
Aj WD ˝1 : : : ˝j 1 Aj ˝j C1 : : : ˝n
Beispiel
das Ereignis, dass im j -ten Teilexperiment das Ereignis Aj ein-
tritt (j D 1; : : : ; n/. Dann ist Auf einem Grundraum ˝ gibt es stets zwei triviale -
Algebren, nämlich die kleinstmögliche (gröbste) -Algebra
A1 \ A2 \ : : : \ An D A1 A2 : : : An A D f;; ˝g und die größtmögliche (feinste) -Algebra
A D P .˝/. Die erste ist uninteressant, die zweite im Fall
das Ereignis, dass für jedes j D 1; : : : ; n im j -ten Teilexperi- eines überabzählbaren Grundraums i. Allg. zu groß.
ment das Ereignis Aj eintritt. J Für jede Teilmenge A von ˝ ist das Mengensystem
A WD f;; A; Ac ; ˝g
Das System der Ereignisse ist eine -Algebra eine -Algebra.
In Verallgemeinerung des letzten Beispiels sei
Ist der Grundraum ˝ überabzählbar, so muss man aus prin-
zipiellen Gründen Vorsicht walten lassen! Es ist dann i. Allg. X
1
nicht mehr möglich, jede Teilmenge von ˝ in dem Sinne als ˝D An
Ereignis zu bezeichnen, dass man ihr in konsistenter Weise eine nD1
Wahrscheinlichkeit zuordnen kann (siehe die Hintergrund-und-
Ausblick-Box in Abschn. 2.4). Wenn wir also unter Umständen eine Zerlegung des Grundraums ˝ in paarweise disjunkte
nicht mehr jede Teilmenge von ˝ als Ereignis ansehen können, Mengen A1 ; A2 ; : : : Dann ist das System
sollten wir wenigstens fordern, dass alle „praktisch wichtigen ( )
X
Teilmengen“ von ˝ Ereignisse sind und man mit Ereignissen A D B ˝ j 9 T N mit B D An (2.1)
mengentheoretisch operieren kann und damit wiederum Ereig- n2T
nisse erhält. Schließen wir uns der allgemeinen Sprechweise an,
eine Teilmenge M der Potenzmenge von ˝ als System von Teil- aller Teilmengen von ˝, die sich als Vereinigung irgend-
mengen von ˝ oder Mengensystem zu bezeichnen, so gelangen welcher der Mengen A1 ; A2 ; : : : schreiben lassen, eine -
wir zu folgender Begriffsbildung. Algebra über ˝ (Aufgabe 2.28). J
2.2 Zufallsvariablen 13
Um im Fall eines überabzählbaren Grundraums -Algebren zu über Erzeugendensysteme der Borel-Mengen in Abschn. 8.2 ge-
konstruieren, die hinreichend reichhaltig sind, um alle für ei- zeigt wird, enthält sie u. a. alle abgeschlossenen Teilmengen des
Śk
ne vorliegende Fragestellung wichtigen Teilmengen von ˝ zu Rk und alle halboffenen Quader .x; y D j D1 .xj ; yj , wobei
enthalten, geht man analog wie etwa in der Linearen Algebra x D .x1 ; : : : ; xk /, y D .y1 ; : : : ; yk /. Im Fall k D 1 setzen wir
vor, wenn zu einer gegebenen Menge M von Vektoren in ei- kurz B WD B1 .
nem Vektorraum V der kleinste Unterraum U von V mit der
Eigenschaft M U gesucht wird. Dieser Vektorraum ist der
Durchschnitt aller Unterräume, die M enthalten. Hierzu muss 2.2 Zufallsvariablen
man sich nur überlegen, dass der Durchschnitt beliebig vieler
Unterräume von V wieder ein Unterraum ist. Bislang haben wir die Menge der möglichen Ergebnisse eines
Da der Durchschnitt stochastischen Vorgangs mit einer als Grundraum bezeichneten
Kapitel 2
\ Menge modelliert und gewisse Teilmengen von ˝ als Ereig-
Aj WD fA ˝ j A 2 Aj für jedes j 2 J g nisse bezeichnet. Dabei soll das System aller Ereignisse eine
j 2J -Algebra über ˝ bilden. In diesem Abschnitt lernen wir Zu-
fallsvariablen als natürliches Darstellungsmittel für Ereignisse
beliebig vieler -Algebren über ˝ wieder eine -Algebra ist, kennen. Zur Einstimmung betrachten wir eine einfache Situa-
kann man für ein beliebiges nichtleeres System M P .˝/ von tion, die aber schon wesentliche Überlegungen beinhaltet. Im
Teilmengen von ˝ den mit Kern geht es darum, dass man häufig nur an einem gewissen
\ Aspekt oder Merkmal der Ergebnisse eines stochastischen Vor-
.M/ WD fA j A P .˝/ -Algebra und M Ag gangs interessiert ist.
bezeichneten Durchschnitt aller -Algebren über ˝ betrachten,
die – wie z. B. die Potenzmenge von ˝ – das Mengensystem Beispiel Der n-fach hintereinander ausgeführte Würfelwurf
M enthalten. Man nennt .M/ die von M erzeugte -Algebra. wird durch den Grundraum
Nach Konstruktion ist .M/ die kleinste -Algebra über ˝, die
M enthält. Das Mengensystem M heißt (ein) Erzeugendensys- ˝ D f1; 2; 3; 4; 5; 6gn
tem oder kurz (ein) Erzeuger von .M/.
modelliert. Interessiert an einem Ergebnis ! D .a1 ; : : : ; an / 2
Beispiel (Von einer Zerlegung erzeugte -Algebra) Ist ˝ nur die Anzahl der geworfenen Sechsen, so kann dieser As-
M WD fAn j n 2 Ng, wobei die P Mengen A1 ; A2 ; : : : eine Zerle- pekt durch die Abbildung
gung von ˝ bilden, also ˝ D 1 nD1 An gilt, so ist die von M
(
erzeugte -Algebra .M/ gerade das in (2.1) stehende Mengen- ˝ ! R;
XW P
system A. Zum einen ist nämlich A nach Aufgabe 2.28 eine ! D .a1 ; : : : ; an / 7! X .!/ WD jnD1 1faj D 6g
-Algebra, die M enthält, woraus die Inklusion .M/ A
folgt. Zum anderen muss jede -Algebra über ˝, die M enthält, beschrieben werden. Dabei sei 1faj D 6g WD 1 gesetzt, falls
jede abzählbare Vereinigung von Mengen aus M und somit A aj D 6 gilt; andernfalls sei 1faj D 6g WD 0.
enthalten. Es gilt somit auch A .M/. J
Ist man an der größten Augenzahl interessiert, so wird dieses
Setzt man im obigen Beispiel speziell An WD ; für n 3 und Merkmal des Ergebnisses ! durch die Abbildung
M WD fA1 g, N WD fA2 g, so gilt wegen A2 D Ac1 die Beziehung (
.M/ D .N / D f;; A1 ; A2 ; ˝g. Eine -Algebra kann also ˝ ! R;
Y W
verschiedene Erzeuger haben. Will man allgemein zeigen, dass ! D .a1 ; : : : ; an / 7! Y .!/ WD max.a1 ; : : : ; an /
zwei Mengensysteme M P .˝/ und N P .˝/ die gleiche
-Algebra erzeugen, also .M/ D .N / gilt, so reicht es aus, beschrieben.
die Teilmengenbeziehungen
Man beachte, dass die auf ˝ definierten reellwertigen Funktio-
M .N /; N .M/ nen X und Y jeweils eine Datenkompression bewirken, die zu
einer geringeren Beobachtungstiefe führt. Wird etwa im Fall des
nachzuweisen, vgl. Teil c) des Lemmas über Erzeugendensyste- zweifachen Würfelwurfs nur das Ergebnis „X .!/ D 1“ mit-
me in Abschn. 8.2. geteilt, ohne dass man eine Information über ! preisgibt, so
Falls nichts anderes gesagt ist, legen wir auf dem Grundraum kann einer der zehn Fälle ! D .6; 1/, ! D .6; 2/, ! D .6; 3/,
˝ D Rk stets die ausführlich in Abschn. 8.2 behandelte, vom ! D .6; 4/, ! D .6; 5/, ! D .1; 6/, ! D .2; 6/, ! D .3; 6/,
System Ok aller offenen Mengen im Rk erzeugte -Algebra ! D .4; 6/ oder ! D .5; 6/ vorgelegen haben. In gleicher Weise
steht
Bk WD .Ok /
fY 3g WD f! 2 ˝ j Y .!/ 3g
der Borel-Mengen zugrunde. Diese umfasst zwar nicht jede Teil-
menge des Rk , sie ist aber reichhaltig genug, um alle für konkre- kurz und prägnant für das Ereignis, dass das Maximum der ge-
te Fragestellungen wichtige Mengen zu beinhalten. Wie im Satz worfenen Augenzahlen höchstens drei ist. J
14 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Abschn. 8.4 verwendeten Notation – kurz und suggestiv ! zu Aj gehört, also das Ereignis Aj eintritt (bzw. gleich 0,
wenn ! nicht zu Aj gehört). Die in (2.6) definierte Zufallsvaria-
fX 2 A0 g WD f! 2 ˝ j X .!/ 2 A0 g D X 1 .A0 / ble X beschreibt somit die Anzahl derjenigen Ereignisse unter
A1 ; A2 ; : : : ; An , die eintreten.
für das Ereignis, dass X einen Wert in der Menge A0 annimmt.
Im Spezialfall ˝ 0 D R und für spezielle Mengen wie A0 D Video 2.2 Indikatorfunktionen und Zählvariablen
Œ1; c, A0 D .c; 1 oder A0 D .a; b mit a; b; c 2 R setzen
wir
Kapitel 2
fa < X bg WD f! 2 ˝ j a < X .!/ bg D X 1 ..a; b/
Das Ereignis fX D kg besagt, dass genau k der n Ereignis-
usw. Diese Nomenklatur deutet schon an, dass wir beim Studi- se A1 , A2 ; : : : ; An eintreten. In diesem Fall gibt es genau eine
um von Zufallsvariablen deren zugrunde liegenden Definitions- k-elementige Teilmenge T von f1; 2; : : : ; ng, sodass die Ereig-
bereich ˝ i. Allg. wenig Aufmerksamkeit schenken werden. nisse Aj mit j 2 T eintreten und die übrigen nicht. Diese
Überlegung liefert für jedes k 2 f0; 1; : : : ; ng die Darstellung
0 1
Indikatorsummen zählen, wie viele Ereignisse X \ \
fX D kg D @ Aj \ Ac` A : (2.7)
eintreten
T WjT jDk j 2T `…T
Tatsächlich zeigt die Realisierung von 1A an, ob das Ereignis A 2.3 Das Axiomensystem
eingetreten ist (1A .!/ D 1) oder nicht (1A .!/ D 0). Für die von Kolmogorov
Ereignisse ˝ und ; gelten offenbar 1˝ .!/ D 1 bzw. 1; .!/ D 0
für jedes ! aus ˝. Weiter gelten die durch Fallunterscheidung Um einen stochastischen Vorgang zu modellieren, haben wir
einzusehenden Regeln bislang nur dessen mögliche Ergebnisse in Form einer nichtlee-
ren Menge ˝ zusammengefasst. Des Weiteren wurden gewisse
1A\B D 1A 1B ; (2.3) Teilmengen von ˝ als Ereignisse bezeichnet, wobei das System
1A[B D 1A C 1B 1A\B ; aller Ereignisse eine -Algebra bilden soll. Zudem haben wir
1ACB D 1A C 1B ; (2.4) gesehen, dass sich Ereignisse bequem mithilfe von Zufallsva-
riablen beschreiben lassen. Nun fehlt uns noch der wichtigste
1Ac D 1 1A : (2.5)
Bestandteil eines mathematischen Modells für stochastische
Dabei sind A; B 2 A Ereignisse (Aufgabe 2.29). Vorgänge, nämlich der Begriff der Wahrscheinlichkeit.
Die Prognosekraft der relativen Häufigkeit rn .A/ für das Ein- Die Mathematik des Zufalls ruht auf drei
treten von A in einem zukünftigen Experiment ist prinzipiell Grundpostulaten
umso stärker, je größer n ist. Dies liegt daran, dass relative
Häufigkeiten bei einer wachsenden Anzahl von Versuchen, die In der Tat war es lange Zeit ein offenes Problem, auf wel-
wiederholt unter möglichst gleichen Bedingungen und unbe- che Fundamente sich eine „Mathematik des Zufalls“ gründen
einflusst voneinander durchgeführt werden, erfahrungsgemäß sollte, und so dauerte es bis zum Jahr 1933, als Andrej Ni-
immer weniger fluktuieren und somit immer stabiler werden. kolajewitsch Kolmogorov (1903–1987) in einer auf Deutsch
2.4 Verteilungen von Zufallsvariablen, Beispiel-Klassen 17
verfassten Abhandlung das bis heute fast ausschließlich als Bemerkenswerterweise geht es schon im ersten systematischen
Basis für wahrscheinlichkeitstheoretische Untersuchungen die- Lehrbuch zur Stochastik, der Ars conjectandi von Jakob Ber-
nende nachfolgende Axiomensystem aufstellte, siehe [19]. noulli (1655–1705) (siehe [2]) im vierten Teil um eine allge-
meine „Kunst des Vermutens“, die sich sowohl subjektiver als
auch objektiver Gesichtspunkte bedient:
Das Axiomensystem von Kolmogorov (1933) Irgendein Ding vermuten heißt seine Wahrscheinlichkeit zu messen.
Deshalb bezeichnen wir soviel als Vermutungs- oder Mutmaßungs-
Ein Wahrscheinlichkeitsraum ist ein Tripel .˝; A; P /. kunst (Ars conjectandi sive stochastice) die Kunst, so genau wie
Dabei sind möglich die Wahrscheinlichkeit der Dinge zu messen und zwar zu
dem Zwecke, dass wir bei unseren Urteilen und Handlungen stets das
a) ˝ eine beliebige nichtleere Menge, auswählen und befolgen können, was uns besser, trefflicher, sicherer
b) A eine -Algebra über ˝, oder ratsamer erscheint. Darin allein beruht die ganze Weisheit der
Kapitel 2
c) P W A ! R eine Funktion mit den folgenden drei Philosophen und die ganze Klugheit des Staatsmannes.
Eigenschaften: Um ein passendes Modell für einen stochastischen Vorgang zu
P .A/ 0 für jedes A 2 A (Nichtnegativität). liefern, sollte der Wahrscheinlichkeitsraum .˝; A; P / eine vor-
P .˝/ D 1 (Normierung). liegende Situation möglichst gut beschreiben. Für den Fall eines
Sind A1 ; A2 ; : : : paarweise disjunkte Mengen aus wiederholt durchführbaren Versuchs bedeutet dieser Wunsch,
A, so gilt dass die Wahrscheinlichkeit P .A/ eines Ereignisses A als er-
0 1 wünschtes Maß für die Chance des Eintretens von A in einem
X
1 X
1
Experiment nach Möglichkeit der „Grenzwert“ aus dem empiri-
P@ Aj A D P .Aj / . -Additivität/ schen Gesetz über die Stabilisierung relativer Häufigkeiten sein
j D1 j D1 sollte. Insofern wäre es etwa angesichts von Abb. 2.2 wenig
sinnvoll, für den Wurf einer Reißzwecke als (Modell-)Wahr-
Die Funktion P heißt Wahrscheinlichkeitsmaß oder scheinlichkeiten P .f1g/ D 0:25 und P .f0g/ D 0:75 zu wählen.
auch Wahrscheinlichkeitsverteilung auf A. Jede Men- Die beobachteten Daten wären unter diesen mathematischen
ge A aus A heißt Ereignis. Für ein Ereignis A heißt die Annahmen so unwahrscheinlich, dass man dieses Modell als un-
Zahl P .A/ die Wahrscheinlichkeit von A. tauglich ablehnen würde.
Diese Überlegungen zeigen, dass das wahrscheinlichkeitstheo-
retische Modellieren und das Überprüfen von Modellen anhand
Das Kolmogorovsche Axiomensystem macht offenbar keiner- von Daten als Aufgabe der Statistik Hand in Hand gehen. Was
lei inhaltliche Aussagen darüber, was Wahrscheinlichkeiten sind Anwendungen betrifft, sind also Wahrscheinlichkeitstheorie und
oder sein sollten. Motiviert durch die Eigenschaften relativer Statistik eng miteinander verbunden!
Häufigkeiten und das empirische Gesetz über deren Stabilisie-
rung in langen Versuchsserien legt es vielmehr ausschließlich
fest, welche formalen Eigenschaften Wahrscheinlichkeiten als 2.4 Verteilungen von
mathematische Objekte unbedingt besitzen sollten. Diese eher
anspruchslos und bescheiden anmutende Vorgehensweise bil- Zufallsvariablen,
dete gerade den Schlüssel zum Erfolg einer mathematischen Beispiel-Klassen
Grundlegung der Wahrscheinlichkeitsrechnung. Sie ist uns auch
aus anderen mathematischen Gebieten geläufig. So wird etwa in In diesem Abschnitt wollen wir andeuten, dass es ein großes
der axiomatischen Geometrie nicht inhaltlich definiert, was ein Arsenal an Wahrscheinlichkeitsräumen gibt, um eine Vielfalt
Punkt p und was eine Gerade g ist. Es gilt jedoch stets entweder an stochastischen Vorgänge modellieren zu können. Zunächst
p 2 g oder p … g. erinnern wir an die Ausführungen in Abschn. 2.2. Dort haben
wir gesehen, dass Zufallsvariablen ein probates Mittel sind, um
Das Axiomensystem von Kolmogorov liefert einen abstrakten Ereignisse zu beschreiben, die sich auf einen gewissen Aspekt
mathematischen Rahmen mit drei Grundpostulaten, der völlig der Ergebnisse eines stochastischen Vorgangs beziehen. So gibt
losgelöst von irgendwelchen stochastischen Vorgängen ange- P
etwa eine Indikatorsumme jnD1 1fAj g an, wie viele der Ereig-
sehen werden kann und bei logischen Schlussfolgerungen aus nisse A1 ; : : : ; An eintreten.
diesen Axiomen auch so gesehen werden muss. Es bildet gleich-
sam nur einen Satz elementarer, über relative Häufigkeiten
motivierte Spielregeln im Umgang mit Wahrscheinlichkeiten
als mathematischen Objekten. Gerade dadurch, dass es jegliche
Aus .˝; A; P / und einer Zufallsvariablen
konkrete Deutung des Wahrscheinlichkeitsbegriffs vermeidet, X W ˝ ! ˝ 0 entsteht ein neuer
eröffnete das Kolmogorovsche Axiomensystem der Stochastik Wahrscheinlichkeitsraum .˝ 0 ; A0 ; P X /
als interdisziplinärer Wissenschaft vielfältige Anwendungsfel-
der auch außerhalb des eng umrissenen Bereichs wiederholbarer Im Hinblick auf eine tragfähige Theorie wurde eine Zufallsva-
Versuche unter gleichen, sich gegenseitig nicht beeinflussenden riable als Abbildung X W ˝ ! ˝ 0 definiert, wobei .˝ 0; A0 / ein
Bedingungen. Wichtig ist hierbei, dass auch subjektive Bewer- allgemeiner Messraum, also eine beliebige Menge mit einer da-
tungen von Unsicherheit möglich sind. rauf definierten -Algebra sein kann. Gefordert wurde nur, dass
18 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Eine unendliche Folge von Münzwürfen wird zweckmäßi- gibt es eine Menge K ˝, die aus jeder Äquivalenzklas-
gerweise durch den überabzählbaren Grundraum se genau ein Element enthält. Es sei E WD fE N j 1
jEj < 1g die Menge aller nichtleeren endlichen Teilmen-
˝ WD f0; 1gN D f.aj /j 1 j aj 2 f0; 1g für jedes j 1g gen von N. Für eine Menge E WD fn1 ; : : : ; nk g 2 E ist die
Komposition
modelliert. Dabei steht aj für das Ergebnis des j -ten Wurfs,
und 1 und 0 bedeuten Kopf bzw. Zahl. Die Münze sei homo-
DE WD Dn1 ı : : : ı Dnk
gen, jeder Wurf ergebe also mit gleicher Wahrscheinlichkeit
Kapitel 2
die Urbilder X 1 .A0 / D fX 2 A0 g der Ereignisse A0 2 A0 zu A Bei vorgegebener Verteilung lassen sich
gehören, also Ereignisse in ˝ sind. Diese Eigenschaft bewirkt, Zufallsvariablen kanonisch konstruieren
dass P .fX 2 A0 g/ eine wohldefinierte Wahrscheinlichkeit ist,
wenn mit P ein Wahrscheinlichkeitsmaß auf A vorliegt. Wir
Die obigen Schreibweisen deuten an, dass in den Anwendun-
gelangen somit fast zwangsläufig zu folgender zentralen Be-
gen der Stochastik an einer Zufallsvariablen meist nur deren
griffsbildung.
Verteilung interessiert und dem Grundraum ˝ als Definitions-
bereich der Abbildung X wenig Aufmerksamkeit geschenkt
Verteilung einer (allgemeinen) Zufallsvariablen wird. Zur Verdeutlichung dieses Punktes gehen wir von einem
Wahrscheinlichkeitsraum .˝ 0; A0 ; Q/ aus und fragen uns, ob
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum, es eine über irgendeinem Wahrscheinlichkeitsraum .˝; A; P /
.˝ 0 ; A0 / ein Messraum und X W ˝ ! ˝ 0 eine definierte ˝ 0 -wertige Zufallsvariable X gibt, deren Verteilung
Kapitel 2
Zufallsvariable. Dann wird durch die Festsetzung gleich Q ist. Die Antwort ist „ja“, denn wir brauchen nur
(
A0 ! R; ˝ WD ˝ 0 ; A WD A0 ; P WD Q; X WD id˝ ; (2.8)
P X
W
A 7! P .A / WD P .X .A //
0 X 0 1 0
also X .!/ WD !, ! 2 ˝, zu setzen. Dann ist X W ˝ ! ˝ 0 eine
ein Wahrscheinlichkeitsmaß auf der -Algebra A0 defi- Zufallsvariable, und es gilt für jedes A0 2 A0
niert. Dieses heißt Verteilung von X .
P X .A0 / D P .X 1.A0 // D P .A0 / D Q.A0 /:
In der Sprache der Maßtheorie ist die Verteilung P X einer Zu- Folglich besitzt X die Verteilung Q. Diese Eigenschaft wird in
fallsvariablen X das in Abschn. 8.4 eingeführte Bildmaß von P der Folge häufig in der Form
unter der Abbildung X . Dass mit P X in der Tat ein Wahrschein-
lichkeitsmaß vorliegt, sieht man auch ohne Rückgriff auf Kap. 8 X Q W() P X D Q (2.9)
direkt ein, denn offenbar ist P X eine nichtnegative reelle Funk-
tion, die die Normierungsbedingung P X .˝ 0/ D P .˝/ D 1 geschrieben.
erfüllt. Die -Additivität von P X folgt aus der -Additivität von
Man nennt (2.8) die kanonische Konstruktion. Entscheidend für
P , da mit paarweise disjunkten Mengen A01 ; A02 ; : : : in A0 auch
die Existenz einer ˝ 0 -wertigen Zufallsvariablen mit einer vor-
deren Urbilder X 1 .A01 /; X 1 .A02 /; : : : paarweise disjunkt sind.
gegebenen Verteilung Q auf der -Algebra A0 über ˝ 0 ist also
Von einem Wahrscheinlichkeitsraum .˝; A; P / ausgehend er- nur, ob diese Verteilung Q als Wahrscheinlichkeitsmaß auf A0
halten wir also mit einer Zufallsvariablen X W ˝ ! ˝ 0 einen überhaupt existiert. Auf letztere Frage gibt die Maßtheorie mit
neuen Wahrscheinlichkeitsraum .˝ 0; A0 ; P X /. Dieser kann als dem in Abschn. 8.3 vorgestellten Maßfortsetzungssatz Antwort.
ein vergröbertes Abbild von .˝; A; P / angesehen werden, denn Wir werden hierauf noch an geeigneter Stelle zurückkommen.
mit P X .A0 / D P .X 1.A0 // verfügen wir ja nur noch über die
Wahrscheinlichkeiten von gewissen Mengen aus A, nämlich Zunächst betrachten wir eine wichtige Klasse von Wahrschein-
denjenigen, die in dem Sinne durch die Zufallsvariable X be- lichkeitsräumen und damit zusammenhängende Verteilungen
schreibbar sind, dass sie sich als Urbilder der Mengen A0 2 A0 von Zufallsvariablen und Zufallsvektoren, die einer einfachen
ausdrücken lassen. Im Rahmen dieser einführenden Darstellung mathematischen Behandlung zugänglich ist.
in die Stochastik wird X fast immer eine reelle Zufallsvariable
oder ein Rk -wertiger Zufallsvektor sein. In vielen Anwendun-
gen beobachtet man jedoch zufällige geometrische Objekte oder Diskrete Wahrscheinlichkeitsräume: Summation
Realisierungen zufallsbehafteter Funktionen, weshalb der Wer-
tebereich von X bewusst allgemein gehalten wurde.
von Punktmassen
Sind .˝; A; P / ein diskreter Wahrscheinlichkeitsraum und jedem ! 2 ˝0 eine nichtnegative reelle Zahl p.!/ als „Punkt-
˝0 ˝ eine abzählbare Teilmenge von ˝ mit P .˝0/ D 1, masse“ zu, wobei
so gilt für jedes A 2 A X
p.!/ D 1 (2.11)
P .A/ D P .A \ ˝0 / C P .A \ ˝0c / D P .A \ ˝0 /; !2˝0
gelte. Auch hier steht auf der linken Seite entweder eine end-
denn A ist die disjunkte Vereinigung der Mengen A \ ˝0 und liche Summe oder der Grenzwert einer unendlichen Reihe.
A \ ˝0c , und es gilt A \ ˝0c ˝0c und somit P .A \ ˝0c / Definieren wir dann für jede Teilmenge A von ˝
P .˝0c / D 1 P .˝0/ D 0. Hierbei haben wir den elemen- X
taren Eigenschaften b), d) und e) von Wahrscheinlichkeiten in P .A/ WD p.!/;
Abschn. 2.5 vorgegriffen. !2A\˝0
Kapitel 2
Wegen der -Additivität von P folgt hieraus die Gleichung so ist die Funktion P W P .˝/ ! R aufgrund des Umordnungs-
satzes für Reihen wohldefiniert, und es gilt P .A/ 0, A ˝,
X
P .A/ D P .f!g/: (2.10) sowie wegen (2.11) P .˝/ D 1. Sind A1 ; A2 ; : : : paarweise dis-
!2A\˝0
junkte Teilmengen von ˝, so gilt nach Definition von P und
dem in der folgenden Gleichungskette beim zweiten Gleich-
Hier steht auf der rechten Seite entweder eine endliche Summe heitszeichen zum Tragen kommenden großen Umordnungssatz
oder der Grenzwert einer konvergenten Reihe, wobei es auf die für Reihen (siehe z. B. [1], Abschn. 10.4)
konkrete Summationsreihenfolge nicht ankommt. 0 1
X1 X
P@ Aj A D p.!/
P1
Selbstfrage 4 j D1 !2 j D1 Aj \˝0
Warum kommt es nicht auf die konkrete Summationsreihenfol- X
1 X
ge an? D p.!/
j D1 !2Aj \˝0
X
1
Insbesondere erkennt man, dass die auf dem System A von D P .Aj /:
Teilmengen von ˝ definierte Funktion P durch ihre Werte auf j D1
den Elementarereignissen f!g, ! 2 ˝, festgelegt ist. Wir kön-
nen folglich mit einem diskreten Wahrscheinlichkeitsraum die Die Funktion P ist somit -additiv und folglich ein auf der Po-
Vorstellung verbinden, dass in jedem Punkt ! aus ˝ eine Wahr- tenzmenge von ˝ definiertes Wahrscheinlichkeitsmaß. Selbst-
scheinlichkeitsmasse P .f!g/ angebracht ist. Dabei muss nicht verständlich können wir P auf jede -Algebra A P .˝/
unbedingt P .f!g/ > 0 für jedes ! 2 ˝ gelten. Die Wahrschein- einschränken, die ˝0 und alle abzählbaren Teilmengen von ˝
lichkeit eines Ereignisses A ergibt sich dann nach (2.10) durch enthält. Auf diese Weise erhalten wir einen allgemeinen diskre-
Aufsummieren der Punktmassen P .f!g/ aller zu A \ ˝0 gehö- ten Wahrscheinlichkeitsraum. Wir können auch die bislang nur
renden ! 2 ˝, siehe Abb. 2.3. Man beachte, dass P .˝0c / D 0 auf ˝0 definierte Funktion p durch p.!/ WD 0 für ! 2 ˝ n ˝0
gilt und somit das (diskrete) Wahrscheinlichkeitsmaß P ganz formal auf ganz ˝ erweitern, ohne das Wahrscheinlichkeitsmaß
auf der abzählbaren Menge ˝0 konzentriert ist. Dieser Umstand P zu ändern.
motiviert die gängige Sprechweise, dass P eine Wahrscheinlich-
keitsverteilung auf ˝0 ist. Video 2.3 Der große Umordnungssatz für Reihen
2 3 4 5 6 7 8 9 10 11 12 k
jAj jAj
P .A/ D D ; A ˝; (2.12)
j˝j m Abb. 2.4 Stabdiagramm der Verteilung der Augensumme beim zwei-
Kapitel 2
fachen Würfelwurf
so heißt .˝; P .˝/; P / Laplacescher Wahrscheinlich-
keitsraum (der Ordnung m). In diesem Fall heißt P die
Ordnet man die 36 Elemente von ˝ in der Form
(diskrete) Gleichverteilung oder Laplace-Verteilung
auf ˝. .1; 1/ .1; 2/ .1; 3/ .1; 4/ .1; 5/ .1; 6/
.2; 1/ .2; 2/ .2; 3/ .2; 4/ .2; 5/ .2; 6/
.3; 1/ .3; 2/ .3; 3/ .3; 4/ .3; 5/ .3; 6/
Wird die Gleichverteilung auf ˝ zugrunde gelegt, so nennen wir .4; 1/ .4; 2/ .4; 3/ .4; 4/ .4; 5/ .4; 6/
den zugehörigen stochastischen Vorgang auch Laplace-Versuch .5; 1/ .5; 2/ .5; 3/ .5; 4/ .5; 5/ .5; 6/
oder Laplace-Experiment. Die Annahme eines solchen Laplace- .6; 1/ .6; 2/ .6; 3/ .6; 4/ .6; 5/ .6; 6/
Modells drückt sich dann in Formulierungen wie homogene
(echte) Münze, regelmäßiger (echter) Würfel, rein zufälliges an, so ist die Augensumme X auf den aufsteigenden Diago-
Ziehen o. Ä. aus. nalen wie etwa .4; 1/, .3; 2/, .2; 3/, .1; 4/ konstant. Folglich
ergibt sich für jedes k D 2; 3; : : : ; 12 die Wahrscheinlichkeit
Nach (2.12) ergibt sich unter einem Laplace-Modell die Wahr- P .X D k/ durch Betrachten der für das Ereignis fX D kg
scheinlichkeit eines Ereignisses A als Quotient aus der Anzahl günstigen unter allen 36 möglichen Fällen zu
jAj der für das Eintreten von A günstigen Fälle und der Anzahl 6 j7 kj
j˝j aller möglichen Fälle. Es sollte also nicht schaden, das in P .X D k/ D : (2.13)
36
Abschn. 2.6 vermittelte kleine Einmaleins der Kombinatorik zu
beherrschen. Abb. 2.4 zeigt die Wahrscheinlichkeiten P .X D k/ in Form
eines Stabdiagramms.
Eine auf einem diskreten Wahrscheinlichkeitsraum definier- Hiermit erhält man z. B.
te Zufallsvariable kann höchstens abzählbar unendlich viele X
5
verschiedene Werte mit jeweils positiver Wahrscheinlichkeit an- 9 1
P .3 X 5/ D P .X D k/ D D ;
nehmen. Eine derartige Zufallsvariable heißt diskret verteilt. In 36 4
kD3
Kap. 4 werden wir uns ausführlicher mit diskreten Verteilungs-
X
12
15 5
modellen beschäftigen. P .X > 7/ D P .X D k/ D D :
36 12
kD8
Liegt eine reelle Zufallsvariable X vor, so ist es üblich, die von
X angenommenen Werte mit den zugehörigen Wahrscheinlich- In gleicher Weise zeigt Abb. 2.5 ein Stabdiagramm der Wahr-
keiten in Form von Stab- oder Balkendiagrammen darzustellen. scheinlichkeiten P .X D k/, k D 3; 4; : : : ; 18, der Augensum-
Dabei wird über jedem x 2 R mit P .X D x/ > 0 ein Stäbchen me X beim dreifachen Würfelwurf. J
oder Balken der Länge P .X D x/ aufgetragen. Das folgen-
de Beispiel zeigt, wie man im Fall eines zugrunde gelegten (X = k)
Laplace-Modells durch Abzählen von günstigen Fällen die Ver- 27/216
teilung von X ermittelt.
21/216
15/216
Beispiel (Mehrfacher Würfelwurf, Augensumme) Wir
betrachten den zweimal hintereinander ausgeführten Würfel- 9/216
wurf und modellieren diesen durch den Grundraum ˝ WD
f! D .a1 ; a2 / j a1 ; a2 2 f1; : : : ; 6gg. Als Wahrscheinlichkeits- 3/216
maß P legen wir die Gleichverteilung zugrunde, nehmen also 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
k
ein Laplace-Modell an. Die Zufallsvariable X W ˝ ! R be-
schreibe die Augensumme aus beiden Würfen, es gilt somit Abb. 2.5 Stabdiagramm der Verteilung der Augensumme beim dreifa-
X .!/ WD a1 C a2 , ! D .a1 ; a2 / 2 ˝. chen Würfelwurf
22 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Beweis Setzt man im -Additivitäts-Postulat von P speziell Die Mengen B1 ; B2 ; : : : sind paarweise disjunkt, denn sind
Aj WD ; für jedes j 1 ein, so folgt a) wegen der Reell- n; k 2 N mit n < k, so gilt Bn \ Bk An \ Acn D ;.
wertigkeit von P . Die Wahl Aj WD ; für jedes j > n liefert
Eigenschaft b). Zum Nachweis von c) und d) verwenden wir die P 1 S1 gilt Bj Aj für jedes j 1 und somit
Nach Konstruktion
Zerlegung ˝ D A C Ac von ˝ in die disjunkten Mengen A und j D1 Bj j D1 Aj . In dieser letzten Teilmengenbeziehung
Ac . Aus der Normierung P .˝/ D 1 sowie der bereits gezeigten gilt aber
S auch die umgekehrte Inklusion „
“, da es zu jedem
endlichen Additivität folgt dann ! 2 j1D1 Aj einen kleinsten Index j mit ! 2 Aj und somit
! 2 Aj Ajc 1 : : : Ac1 D Bj gibt. Wir haben somit die Darstellung
1 D P .A C Ac / D P .A/ C P .Ac /:
X
1 [
1
Bj D Aj
Hieraus ergibt sich d) und wegen der Nichtnegativität von P
j D1 j D1
Kapitel 2
auch c). Die Monotonieeigenschaft e) folgt aus der Zerlegung
B D A C B n A von B in die disjunkten Mengen A und
erhalten. Zusammen mit der -Additivität von P und den Un-
B n A sowie der endlichen Additivität von P und der Unglei-
gleichungen P .Bj / P .Aj /; j 1, folgt wie behauptet
chung P .B n A/ 0.
0 1 0 1
Das Additionsgesetz f) ist anschaulich klar: Addiert man die [
1 X
1 X
1 X
1
Wahrscheinlichkeiten von A und B, so hat man die Wahrschein- P@ Aj A D P @ Bj A D P .Bj / P .Aj /:
lichkeit der Schnittmenge AB doppelt erfasst und muss diese j D1 j D1 j D1 j D1
somit subtrahieren, um P .A [ B/ zu erhalten. Ein formaler Be-
weis verwendet die Darstellungen
Beispiel Wir betrachten die Situation des n-fach wiederhol-
A D AB C AB c ; B D AB C Ac B ten Wurfs mit einem echten Würfel und legen hierfür den auf
Grundraum
von A und B als Vereinigungen disjunkter Mengen. Eigenschaft
b) liefert ˝ D f! D .a1 ; : : : ; an / j aj 2 f1; : : : ; 6g für j D 1; : : : ; 6g
P .A/ D P .AB/ C P .AB c /; P .B/ D P .AB/ C P .Ac B/: zugrunde. Als Wahrscheinlichkeitsmaß P wählen wir die
Gleichverteilung auf ˝, nehmen also ein Laplace-Modell an.
Addition dieser Gleichungen und erneute Anwendung von b) Welche Wahrscheinlichkeit besitzt das anschaulich beschriebe-
ergibt dann ne und formal als
nD1 wahrscheinlich ist es, die rote Kugel beim k-ten Mal zu ziehen,
wobei k irgendeine ungerade Zahl ist? Gesucht ist also P .B/,
gelten, und nennen die Mengenfolge .An /n2N absteigend mit wobei B WD f1; 3; 5; : : :g die Menge der ungeraden Zahlen be-
Limes A. zeichnet.
P
Im Fall ˝ D R gelten also Œ0; 1 1=n " Œ0; 1/ und Œ0; 1 C Mit Bn WD jnD1 f2j 1g gilt Bn " B, und die Stetigkeit von
1=n/ # Œ0; 1. unten liefert
X
n
P .B/ D lim P .Bn/ D lim P .f2j 1g/
n!1 n!1
Satz über Stetigkeitseigenschaften von P j D1
0
j D1
1 Die Siebformel liefert die Wahrscheinlichkeit
[
n einer Vereinigung von Ereignissen
D lim P @ Aj A
n!1
j D1 Wie bei der Frage nach der Wahrscheinlichkeit für mindestens
D lim P .An /: eine Sechs in n Würfelwürfen kommt es häufig vor, dass die
n!1 Wahrscheinlichkeit des Eintretens von mindestens einem von n
Ereignissen von Interesse ist. In Verallgemeinerung des Additi-
Dabei wurde beim drittletzten Gleichheitszeichen die endliche onsgesetzes
Additivität von P ausgenutzt. Der Nachweis von b) ist Gegen-
stand von Aufgabe 2.30. P .A [ B/ D P .A/ C P .B/ P .A \ B/ (2.17)
2.5 Folgerungen aus den Axiomen 25
Hintergrund und Ausblick: Endlich-, aber nicht -additive Wahrscheinlichkeiten auf P .N/
Wie im Folgenden gezeigt werden soll, gibt es seltsame, besitzt, wobei das „oder“ ausschließend ist. Ein Filter mit
nicht -additive Wahrscheinlichkeiten. dieser Zusatzeigenschaft heißt Ultrafilter.
Wir behaupten, dass es eine Funktion Q W P .N/ ! Œ0; 1 Mithilfe von U definieren wir jetzt wie folgt eine Funktion
mit den Eigenschaften Q auf P .N/:
Q.N/ D 1; (
0 1 1; falls A 2 U;
Xn X
n Q.A/ WD
Q@ Aj A D 0; falls A 2 P .N/ n U:
Kapitel 2
Q.Aj /
j D1 j D1
Wegen N 2 U gilt Q.N/ D 1, und jede endliche Teilmenge
für jedes n 2 und jede Wahl paarweise disjunkter Teilmen- A von N gehört nicht zu U, was nach Definition von Q die
gen A1 ; : : : ; An von N sowie Beziehung Q.A/ D 0 zur Folge hat. Die Mengenfunktion
Q ist somit nicht -additiv. Um die endliche Additivität von
Q.A/ D 0 Q zu zeigen, betrachten wir zwei Mengen A; B N mit
A \ B D ; sowie die möglichen Fälle
für jede endliche Teilmenge A von N gibt. Die Funktion
Q ist also wie ein Wahrscheinlichkeitsmaß normiert und a) A 2 U, B 2 U,
endlich-additiv. Die letzte Eigenschaft impliziert insbeson- b) A 2 U, B … U,
dere Q.fng/ D 0 für jedes n 2 N und somit c) A … U, B 2 U,
X1 b) A … U, B … U.
1 D Q.N/ ¤ 0 D Q.fng/;
Fall a) kann nicht auftreten, da hieraus A \ B D ; 2 U fol-
nD1
gen würde. Ein Filter enthält jedoch nicht die leere Menge.
was zeigt, dass Q nicht -additiv ist. In Fall b) gilt Q.A/ D 1 und Q.B/ D 0. Wegen A A [ B
gilt A [ B 2 U und somit Q.A [ B/ D 1 D Q.A/ C Q.B/.
Zur Konstruktion von Q betrachten wir das System Fall c) folgt aus Symmetriegründen aus b). Im letzten Fall gilt
F WD fA N j 9n 2 N mit fn; n C 1; : : :g Ag
Q.A/ D Q.B/ D 0. Nach der Ultrafiltereigenschaft (2.18)
gilt Ac 2 U, B c 2 U und somit Ac \ B c 2 U (zweite Filt-
c c c
aller Teilmengen von N, die bis auf endlich viele Ausnahmen ereigenschaft!). Wegen A \ B D .A [ B/ folgt wiederum
alle natürlichen Zahlen enthalten. Für das Mengensystem F nach (2.18) A [ B … U . Nach Definition von Q gilt folglich
gelten offenbar Q.A C B/ D 0, was die endliche Additivität von Q zeigt.
F ¤ ; und ; … F , Stellen Sie sich vor, Anja und Peter wählen verdeckt jeder
aus A; B 2 F folgt A \ B 2 F , für sich zufällig eine natürlich Zahl, wobei die Wahrschein-
aus A 2 F und A B N folgt B 2 F . lichkeit, dass diese in einer Menge A N liegt, gleich
Ist allgemein F P .N/ ein Mengensystem mit diesen Ei- Q.A/ sei. Der Spieler mit der größeren Zahl möge gewin-
genschaften, so heißt F ein Filter auf N. nen. Es wird eine echte Münze geworfen. Zeigt sie Kopf, so
muss Anja ihre Zahl aufdecken, andernfalls Peter. Zeigt An-
Mithilfe des Zornschen Lemmas (siehe z. B. [1], ja ihre Zahl, so gewinnt Peter mit Wahrscheinlichkeit 1, da
Abschn. 2.4) kann gezeigt werden, dass es einen Filter U Q.fn; n C 1; : : :g/ D 1. Muss Peter seine Wahl offenlegen,
auf N gibt, der F enthält und die weitere Eigenschaft ist es umgekehrt. Mit nicht -additiven Wahrscheinlichkei-
ten können also seltsame Phänomene auftreten, siehe z. B.
8A N W A 2 U oder Ac D N n A 2 U (2.18) [7], S. 70.
lernen wir jetzt eine Formel für die Wahrscheinlichkeit der Ver- Minusterm an und sortieren die Summanden nach der Anzahl
einigung einer beliebigen Anzahl von Ereignissen kennen. Wir der zu schneidenden Ereignisse, so folgt
beginnen mit dem Fall von drei Ereignissen A1 ; A2 und A3 , weil
sich anhand dieses Falls der Name der Formel unmittelbar er- P .A1 [ A2 [ A3 / D P .A1/ C P .A2 / C P .A3 / (2.19)
schließt. Setzen wir kurz A WD A1 [ A2 und B WD A3 , so liefert P .A1 A2 / P .A1 A3 / P .A2 A3 /
das obige Additionsgesetz
C P .A1 A2 A3 /:
P .A1 [ A2 [ A3 / D P .A1 [ A2 / C P .A3 / P ..A1 [ A2 / \ A3 /:
Abb. 2.9 zeigt die Struktur dieser Gleichung. Die jeweilige Zahl
Wenden wir hier (2.17) auf P .A1 [ A2 / sowie unter Beachtung links gibt an, wie oft die betreffende Teilmenge von A1 [A2 [A3
des Distributivgesetzes .A1 [ A2 /A3 D A1 A3 [ A2 A3 auf den nach Bildung der Summe P .A1 / C P .A2 / C P .A3 / erfasst
26 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Beweis Der Beweis kann durch vollständige Induktion über ˝ WD f.a1 ; : : : ; an / j fa1 ; : : : ; an g D f1; : : : ; ngg
n erfolgen. Da wir mit der Jordanschen Formel in Abschn. 4.2
ein allgemeineres Resultat zeigen, werden wir diesen Indukti- aller Permutationen von 1; 2; : : : ; n und als Wahrscheinlich-
onsbeweis hier nicht führen, sondern verweisen auf Aufgabe keitsverteilung P die Gleichverteilung auf ˝. Bezeichnet
2.32.
Aj WD f.a1 ; a2 ; : : : ; an / 2 ˝ j aj D j g
Ein wichtiger Spezialfall der Formel des Ein- und Ausschlie-
ßens entsteht, wenn für jedes r mit 1 r n und jede Wahl die Menge aller Permutationen, die (mindestens) den Fixpunkt
von i1 ; : : : ; ir mit 1 i1 < : : : < ir n die Wahrscheinlichkeit j besitzen, so ist das Ereignis mindestens ein Fixpunkt tritt auf
des Durchschnittes Ai1 \ : : : \ Air nur von der Anzahl r, nicht gerade die Vereinigung aller Aj .
aber von der speziellen Wahl dieser r Ereignisse abhängt. Liegt S
diese Eigenschaft vor, so heißen die Ereignisse A1 ; : : : ; An aus- Zur Berechnung von P . jnD1 Aj / mit der Ein-Ausschluss-
tauschbar. Formel ist für jedes r 2 f1; : : : ; ng und jede Wahl von i1 ; : : : ; ir
Für austauschbare Ereignisse sind die Summanden in (2.20) mit 1 i1 < : : : < ir n die Wahrscheinlichkeit
identisch, nämlich gleich P .A1 \ : : : \ Ar /. Da nr Summanden
jAi1 \ : : : \ Air j jAi1 \ : : : \ Air j
vorliegen (siehe Abschn. 2.6), wird die Ein-Ausschluss-Formel P .Ai1 \ : : : \ Air / D D
in diesem Fall zu j˝j nŠ
0 1 !
[n X n
und somit die Anzahl jAi1 \ : : : \ Air j aller Permutatio-
@ A r1 n
P Aj D .1/ P .A1 \ : : : \ Ar /: (2.22) nen .a1 ; a2 ; : : : ; an / zu bestimmen, die r gegebene Elemente
j D1 rD1
r
i1 ; i2 ; : : : ; ir auf sich selbst abbilden. Da die Elemente ai1 .D
2.5 Folgerungen aus den Axiomen 27
i1 /; : : : ; air .D ir / eines solchen Tupels festgelegt sind und die Beweis Der Beweis kann analog zum Beweis der Formel des
übrigen Elemente durch eine beliebige Permutation der restli- Ein- und Ausschließens mithilfe vollständiger Induktion erfol-
chen nr Zahlen gewählt werden können, gilt jAi1 \: : :\Air j D gen. Eine andere Möglichkeit besteht darin, nur die aus der
.n r/Š und folglich -Subadditivitätseigenschaft von P folgende erste Bonferroni-
Ungleichung 0 1
.n r/Š [
n Xn
P .Ai1 \ : : : \ Air / D : (2.23)
nŠ P @ Aj A P .Aj / D S1 (2.25)
j D1 j D1
Weil diese Wahrscheinlichkeit nur von r abhängt, sind auszunutzen. Setzen wir hierzu kurz A WD A1 [ : : : [ An sowie
A1 ; : : : ; An austauschbare Ereignisse. Mit (2.22) und nr .n B1 WD A1 , Bj WD Aj Ajc 1 : : : Ac1 .j D 2; : : : ; n/, so gilt wegen
r/Š=nŠ D 1=rŠ erhalten wir folglich das Resultat P
A D jnD1 Bj
Kapitel 2
0 1 X n
[
n Xn
1 P .A/ D P .Bj /: (2.26)
P@ Aj A D .1/r1 (2.24) j D1
j D1 rD1
rŠ
Wegen Aj D Bj C Aj \ .A1 [ : : : [ Aj 1 / folgt
und somit insbesondere die Werte 0.5, 0.6667, 0.6250, 0.6333 !
und 0.6319P für die Fälle n D 2; 3; 4; 5; 6. Zusammen mit der [
j 1
tisch von n unabhängigen Wahrscheinlichkeit 0:632 mindestens Wendet man die Ungleichung (2.25) auf die Ereignisse Am \Aj ,
einen Fixpunkt besitzt. Damit wird klar, dass die Bank beim m D 1; : : : ; j 1, an, so ergibt sich
Treize-Spiel im Vorteil ist.
Das Rencontre-Problem wird auch als Koinzidenz-Paradoxon X
j 1
P .Bj / P .Aj / P .Am \ Aj /;
bezeichnet, weil die große Wahrscheinlichkeit von 0.632 für mD1
mindestens eine Koinzidenz auf den ersten Blick der Intuition
zuwider läuft. Hier zeigt sich nur einer der häufigsten Trug- und Einsetzen dieser Abschätzung in (2.26) liefert die zweite
schlüsse über Wahrscheinlichkeiten: Es wird oft übersehen, dass Bonferroni-Ungleichung
ein vermeintlich unwahrscheinliches Ereignis in Wirklichkeit
die Vereinigung vieler unwahrscheinlicher Ereignisse darstellt. X
n X
n X
j 1
Wie wir gesehen haben, kann jedoch die Wahrscheinlichkeit die- P .A/ P .Aj / P .Am \ Aj /
ser Vereinigung recht groß sein! J j D1 j D1 mD1
D S1 S2 :
Bricht man in der Formel des Ein- und Ausschließens die al- Sj 1
ternierende Summe auf der rechten Seite von (2.20) nach einer Indem man diese auf P . mD1 Am Aj / in (2.27) anwendet erhält
ungeraden bzw. geraden Anzahl von Summanden ab, so ent- man
stehen X
j 1
S obere bzw. untere Schranken für die Wahrscheinlichkeit P .Bj / P .Aj / P .Am \ Aj /
P . jnD1 Aj /, die nach dem italienischen Mathematiker Carlo
mD1
Emilio Bonferroni (1892–1960) benannt sind. Sie spielen u. a. X
bei der Herleitung von Grenzwertsätzen eine wichtige Rolle. C P .Ai \ Am \ Aj /:
1i <m<j
Man beachte, dass die Besetzung der k Plätze des Tupels unter
2.6 Elemente der Kombinatorik
Kapitel 2
Zweites Fundamentalprinzip des Zählens Gilt im Fall k n speziell ai ¤ aj für jede Wahl
von i; j mit 1 i ¤ j k, so heißt .a1 ; : : : ; ak /
Es seien M1 ; : : : ; Mk endliche Mengen und j1 ; : : : ; jk na- eine k-Permutation aus M ohne Wiederholung. Die
türliche Zahlen mit js jMs j für s D 1; : : : ; k. Durch n-Permutationen aus M ohne Wiederholung heißen kurz
sukzessive Festlegung der Komponenten von links nach Permutationen von M . Wir schreiben
rechts sollen k-Tupel
Pernk .mW / WD M k ;
.a1 ; a2 ; : : : ; ak / mit as 2 Ms für s D 1; : : : ; k
Pernk .oW / WD f.a1 ; : : : ; ak / 2 M k j ai ¤ aj 8i ¤ j g
gebildet werden. Stehen für die s-te Komponente as des
Tupels js verschiedene Elemente aus Ms zur Verfügung, für die Menge der k-Permutationen aus M mit bzw. ohne
so ist die Anzahl aller nach dieser Vorschrift konstruierba- Wiederholung.
ren k-Tupel das Produkt
j1 j2 : : : jk :
Kommentar Wir haben die Menge M in der Notation für
k-Permutationen unterdrückt, da es nach dem ersten Funda-
mentalprinzip des Zählens für Anzahlbestimmungen nicht auf
Nach diesem oft auch Multiplikationsregel genannten zweiten deren genaue Gestalt, sondern nur auf die Anzahl der Elemente
Zählprinzip gibt es von M ankommt. Zudem werden wir im Weiteren meist M D
f1; 2; : : : ; ng wählen und dann auch von k-Permutationen (mit
49 48 47 46 45 44 D 10 068 347 520
bzw. ohne Wiederholung) der Zahlen 1; 2; : : : ; n sprechen. Man
Möglichkeiten für die Notierung der Ergebnisse beim Lotto 6 beachte, dass die Menge Pernn .oW / aller Permutationen von
aus 49 in zeitlicher Reihenfolge, denn zur Ziehung der s-ten Ge- 1; 2; : : : ; n aus der Linearen Algebra als symmetrische Gruppe
winnzahl stehen unabhängig von den schon gezogenen Zahlen bekannt ist, siehe z. B. [1], Abschn. 3.1. J
noch 49.s 1/ Zahlen in der Ziehungstrommel zur Verfügung.
Im Sinne dieser Terminologie stellen also die Ziehungen der
Lottozahlen in zeitlicher Reihenfolge 6-Permutationen aus
Achtung Wie die Ziehungen der Lottozahlen zeigen, darf all- f1; 2; : : : ; 49g ohne Wiederholung dar, und Zahlenschloss-Kom-
gemein für jedes s 2 die Teilmenge Ms Ms der zur binationen oder die Ergebnisse der 13-er-Wette beim deutschen
Besetzung der s-ten Komponente erlaubten Elemente von den Fußballtoto sind offenbar Permutationen mit Wiederholung.
2.6 Elemente der Kombinatorik 29
Aus dem zweiten Fundamentalprinzip des Zählens ergibt sich Dass M totalgeordnet sein soll, bedeutet keinerlei Einschrän-
unmittelbar folgendes Resultat. kung, da M bijektiv auf die Menge f1; 2; : : : ; ng abgebil-
det werden kann und letztere Menge durch die natürliche
Kleiner-gleich-Relation totalgeordnet ist. Man beachte, dass k-
Anzahlformeln für Permutationen Kombinationen ohne Wiederholung nur im Fall k n möglich
Es gelten: sind.
a) j Pernk .mW /j D nk ,
Beispiel Werden die 6 Gewinnzahlen beim Lotto 6 aus 49 in
b) j Pernk .oW /j D n .n 1/ .n 2/ : : : .n k C 1/.
den Nachrichten mitgeteilt, so fehlt die Information über den
Ziehungsverlauf in zeitlicher Reihenfolge. Das Ziehungsergeb-
nis ist dann eine 6-Kombination der Zahlen 1; 2; : : : ; 49 ohne
Kapitel 2
Kommentar Da Produkte vom obigen Typ mit absteigenden Wiederholung. J
Faktoren (sog. fallende Faktorielle) häufiger auftreten, hat sich
hierfür die Schreibweise Wie bei Permutationen kann auch für die Bestimmung der An-
zahl von Kombinationen o.B.d.A. der Fall M D f1; 2; : : : ; ng
.x/k WD x .x 1/ : : : .x k C 1/; x 2 R; k 2 N angenommen werden. Offenbar werden beim Übergang von
(2.29) Pernk .oW / zu Komnk .oW / alle Tupel miteinander identifi-
(lies: „x tief k“) eingebürgert. Diese ergänzt man noch um die ziert, deren Komponenten durch eine Permutation auseinan-
Festsetzung .x/0 WD 1. J der hervorgehen. Formal bedeutet diese Identifizierung, dass
Komnk .oW / mit der Quotienten-Struktur Pernk .oW /= gleich-
gesetzt werden kann. Dabei ist die Äquivalenzrelation auf
Beispiel Sind M1 eine k-elementige und M2 eine n-
Pernk .oW / durch
elementige Menge, so gibt es nk verschiedene Abbildungen
f W M1 ! M2 . Im Fall k n gibt es .a1 ; : : : ; ak / .b1 ; : : : ; bk / W() fa1 ; : : : ; ak g D fb1 ; : : : ; bk g
.n/k D n.n 1/.n 2/ : : : .n k C 1/ gegeben.
injektive Abbildungen von M1 nach M2 . J
Anzahlformeln für Kombinationen
Selbstfrage 5
Sehen Sie diese Aussagen unmittelbar ein? Es gelten:
a) j Komnk .mW /j D nCk1 ,
k
b) j Komnk .oW /j D nk (k n).
Kombinationen sind der Größe nach sortierte
Permutationen
Beweis Wir überlegen uns zunächst die Gültigkeit der zwei-
Auch die im Folgenden zu besprechenden k-Kombinationen
ten Aussage. Aufgrund der oben angesprochenen Identifizie-
sind spezielle k-Permutationen. Hierfür sei die n-elementige
rung Komnk .oW / Š Pernk .oW /= und der Tatsache, dass jede
Menge M durch eine eine Relation „“ total geordnet. Die Re-
Äquivalenzklasse kŠ Elemente enthält, folgt mit der Anzahlfor-
lation sei also reflexiv, antisymmetrisch sowie transitiv, und
mel b) für Permutationen
für je zwei Elemente a; b 2 M gelte a b oder b a, siehe
z. B. [1], Abschn. 2.4. 1
jKomnk .oW /j D jPernk .oW /j
kŠ !
k-Kombinationen n.n 1/ : : : .n k C 1/ n
D D ;
kŠ k
Jede k-Permutation .a1 ; : : : ; ak / der total geordneten
Menge M mit a1 : : : ak heißt k-Kombination aus was zu zeigen war. Ein anderer Beweis verwendet eine Anfangs-
M mit Wiederholung. Jede k-Permutation .a1 ; : : : ; ak / bedingung sowie eine Rekursionsformel. Zunächst erhält man
aus M mit a1 < : : : < ak heißt k-Kombination aus M offenbar für jedes n 2 N
ohne Wiederholung. Hierbei ist wie üblich a < b W,
a b und a ¤ b gesetzt. Wir schreiben j Komn1 .oW /j D n; j Komnn .oW /j D 1: (2.30)
Weiter gilt für jedes n 2 und jedes k mit 2 k n die
Komnk .mW / WD f.a1 ; : : : ; ak / 2 M k j a1 : : : ak g Rekursionsformel
Komnk .oW / WD f.a1 ; : : : ; ak / 2 M k j a1 < : : : < ak g
j KomnC1 n n
k .oW /j D j Komk .oW /j C j Komk1 .oW /j:
für die Menge der k-Kombinationen aus M mit bzw. ohne Diese ergibt sich, wenn man die k-Kombinationen .a1 ; : : : ; ak /
Wiederholung. aus KomnC1
k .oW / danach klassifiziert, ob ak n oder ak D
n C 1 gilt.
30 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Zahlreiche stochastische Fragestellungen führen auf das zählen wir mit einem gemeinhin Désiré André (1840–1918)
Problem, die Anzahl gewisser Wege im ebenen ganzzahligen zugeschriebenen und in der nachfolgenden Abbildung illus-
Gitter zu bestimmen. Ein solcher Weg ist ein Polygonzug, trierten Spiegelungsprinzip ab.
der nur Auf- oder Abwärtsschritte der Länge 1 aufweist, also
einen Punkt .m; n/ mit einem der Punkte .m C 1; n C 1/ oder P
•
.m C 1; n 1/ verbindet. In diesem Zusammenhang wird die
• • •
Abszisse als Achse gedeutet, auf der die in Einheitsschritten Q
• • • •
fortschreitende Zeit gemessen wird. S
Kapitel 2
• • • A
Als Beispiel betrachten wir das folgende klassische • • • • •
Stimmzettel-Problem: Zwischen zwei Kandidatinnen A und • • •
B habe eine Wahl stattgefunden. Da bei der Stimmauszäh- •
lung ein Stimmzettel nach dem anderen registriert wird, ist
stets bekannt, welche Kandidatin gerade in Führung liegt.
Am Ende zeigt sich, dass A gewonnen hat, und zwar mit Dieses Prinzip besagt, dass es genauso viele Wege vom Punkt
a Stimmen gegenüber b Stimmen für B. Wie groß ist die P zum Punkt Q gibt, die die Achse A treffen, wie es Wege
Wahrscheinlichkeit des mit C bezeichneten Ereignisses, dass von P nach Q gibt. Liegt nämlich ein Weg von P nach Q
Kandidatin A während der gesamten Stimmauszählung führ- vor, der die Achse A trifft, so entsteht durch Spiegelung des
te? Teilweges bis zum erstmaligen – im Bild mit S bezeichneten
Wir ordnen den Auszählungsverläufen Wege zu, indem wir – Treffpunkt an A ein Weg, der von P nach Q verläuft. Um-
die Stimmen für A bzw. B als Aufwärts- bzw. Abwärtsschritt gekehrt besitzt jeder von P nach Q verlaufende Weg einen
notieren. Jeder Auszählungsverlauf ist dann ein von .0; 0/ ersten Treffpunkt mit A. Spiegelt man diesen von P nach
nach .a C b; a b/ führender Weg wie in der nachstehenden S führenden Teilweg an A und belässt den zweiten Teilweg
Abbildung. unverändert, so entsteht der von P nach Q verlaufende Aus-
gangsweg. Diese Zuordnung von Wegen, die von P nach Q
verlaufen und die Achse A mindestens einmal treffen, zu We-
• gen von P nach Q ist offenbar bijektiv.
a−b • • • •
Nach diesem Spiegelungsprinzip ist die gesuchte Anzahl von
1 • • • Wegen, die von .1; 1/ nach .a C b; a b/ führen und die x-
• Achse treffen, gleich der Anzahl der Wege von .1; 1/ nach
a+b
.a C b; a b/. Letztere Anzahl wurde schon als aCb1 b1
erkannt. Insgesamt ergibt sich, dass Kandidatin A mit der
Wahrscheinlichkeit
Da jeder Weg von .0; 0/ nach .a C b; a b/ dadurch be- aCb1
stimmt ist, dass man von insgesamt a C b Zeitschritten a für ab
P .C / D 1 2 aCb
b1
D
die Aufwärtsschritte festlegt,
gibt es nach der Anzahlformel aCb
a
b) für Kombinationen aCb a
solche Wege, die wir als gleich
wahrscheinlich annehmen. während der gesamten Stimmauszählung führt. Für weitere
Die für das Eintreten des Ereignisses C günstigen Wege Anwendungen des Spiegelungsprinzips siehe z. B. [15].
verlaufen wie derjenige in obiger Abbildung strikt oberhalb
der x-Achse. Die für C ungünstigen Wege gehen entweder Video 2.5 Das Stimmzettelproblem
im ersten Schritt nach unten, führen also von .1; 1/ nach
.a C b; a b/, oder sie starten mit einem Aufwärtsschritt
und treffen danach irgendwann die x-Achse. Von der ersten
Sorte gibt es
wiederum
nach der Anzahlformel für Kom-
binationen aCb1
b1
Stück, und letztere Menge von Wegen
2.6 Elemente der Kombinatorik 31
Kapitel 2
erfüllen, ist b) auf anderem Wege bewiesen.
A, B und C die Menge der Karten für die Personen A, B und C.
Für den Nachweis von a) verwenden wir die soeben bewiesene Um die Anzahl der möglichen Tripel .A; B; C / zu bestimmen,
Aussage und ordnen jeder Kombination a WD .a1 ; a2 ; : : : ; ak / verwenden wir die Multiplikationsregel sowie die Anzahlformel
aus Komnk .mW /, also 1 a1 a2 : : : ak n, mithilfe b) für Kombinationen. Für die erste Stelle im Tripel .A; B; C /
der die Komponenten von a „auseinanderziehenden“ Abbildung gibt es 32 Möglichkeiten, dann – unabhängig von der speziel-
10
bj WD aj C j 1; j D 1; : : : ; k; len Teilmenge A K der an Person A verteilten Karten – 22 10
Möglichkeiten für die Menge B der an Person B verteilten Kar-
ein b WD .b1 ; b2 ; : : : ; bk / 2 KomnCk1 .oW / zu, denn es gilt ten und schließlich
– unabhängig von den 22 bislang verteilten
k
Karten – 12 10
Möglichkeiten, 10 Karten an Person C zu vertei-
1 b1 < b2 < : : : < bk n C k 1: len. Insgesamt gibt es also
In der Geschichte der Wahrscheinlichkeitstheorie hat es di- voneinander die Lösung des Teilungsproblems, indem sie die
verse intensive Diskussionen über Fragen der Gleichwahr- die vier (selbsterklärenden) fiktiven Spielfortsetzungen
scheinlichkeit gegeben. Nachstehend geben wir einige Kost-
proben. A; BA; BBA; BBB
1. D’Alembert’s Croix ou Pile? betrachteten. Dabei gewinnt A in den ersten drei Fällen und
In einem provokanten Beitrag mit dem Titel Croix ou Pile? B nur im letzten. Müsste A also 3=4 des Einsatzes (D 15 C)
in der Encyclopédie aus dem Jahre 1754 stellte der Mathe-
Kapitel 2
Kapitel 2
xs / ausschreibt. Beim Ausmultiplizieren entsteht das Produkt
x1k1 : : : xsks immer dann, wenn aus kr der Klammern xr ausge-
wählt wird .r D 1; : : : ; s/. Die Zahl der Möglichkeiten hierfür
ist der in (2.33) stehende Multinomialkoeffizient. J Abb. 2.10 Ziehen ohne Zurücklegen unter Beachtung der Reihenfolge
In einer Urne liegen r rote und s schwarze Kugeln, die wir und somit unter Beachtung von .m/j D mŠ=.m j /Š
z. B. als defekte bzw. intakte Exemplare einer Warenliefe- r s
rung deuten können. Es werden rein zufällig (ohne Zurückle-
gen) n Kugeln entnommen. Mit welcher Wahrscheinlichkeit P .X D k/ D k
rCsnk
; 0 k n: (2.37)
enthält diese Stichprobe genau k rote Kugeln? n
m
Dabei haben wir die Festlegung WD 0 für m < j getrof-
Problemanalyse und Strategie Eine unter mehreren Mög- j
lichkeiten, diese Situation zu modellieren, besteht darin, die fen.
Kapitel 2
Kugeln gedanklich von 1 bis r C s durchzunummerieren, Die durch obiges System von Wahrscheinlichkeiten definier-
wobei R D f1; : : : ; rg bzw. S D fr C 1; : : : ; r C sg die Men- te Verteilung von X heißt hypergeometrische Verteilung
gen der Zahlen der roten bzw. schwarzen Kugeln bezeichnen. mit Parametern n, r und s, und wir schreiben hierfür kurz
Ein natürlicher Grundraum für dieses Experiment ist dann
˝ WD PerrCs n
n .oW / D f.a1 ; : : : ; an / 2 f1; : : : ; r C sg j ai ¤ X Hyp.n; r; s/:
aj 8i ¤ j g mit der Deutung von aj als Nummer der j -
ten gezogenen Kugel. Als Wahrscheinlichkeitsmaß P wählen Die nachstehende Abbildung zeigt Stabdiagramme von hy-
wir die Gleichverteilung auf ˝. pergeometrischen Im linken Bild gilt r D s,
Verteilungen.
was wegen kr D nkr
nach (2.37) die Symmetrie des Stab-
Lösung Nach Definition der Menge R beschreibt diagramms zur Folge hat.
X WD 1fA1 g C : : : C 1fAn g .2 .2
.1 .1
die Anzahl der gezogenen roten Kugeln. Die für das Ereignis
fX D kg günstigen n-Tupel .a1 ; : : : ; an / haben an k Stel- k k
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
len eine Zahl aus der Menge R und an n k Stellen eine
Zahl aus der Menge S. Um diese Tupel abzuzählen, wäh- Stabdiagramme von hypergeometrischen Verteilungen
len wir zuerst diejenigen k Stellen
aus, die für die aj aus
R vorgesehen sind, wofür es kn Fälle gibt. Dann belegen
wir diese k Stellen von links nach rechts mit verschiedenen Man mache sich klar, dass die in (2.35) definierten Ereignisse
Zahlen aus R. Hierfür existieren nach der Multiplikations- unabhängig von j die gleiche Wahrscheinlichkeit P .Aj / D
regel .r/k Möglichkeiten. Schließlich belegen wir die noch r=.r C s/ besitzen.
freien n k Plätze von links nach rechts mit verschiedenen
Zahlen aus S, wofür es .s/nk Möglichkeiten gibt. Wegen Video 2.8 Die hypergeometrische Verteilung
j˝j D .r C s/n liefert die Laplace-Annahme
!
n .r/k .s/nk
P .X D k/ D (2.36)
k .r C s/n
Im Unterschied zum Beispiel der hypergeometrischen Vertei- (X = k), p = 0.1 (X = k), p = 0.3
.4 .4
lung betrachten wir jetzt das n-malige rein zufällige Ziehen
mit Zurücklegen aus einer Urne mit r roten und s schwarzen .3 .3
Kugeln. Nach jedem Zug legt man also die gezogene Ku- .2 .2
gel in die Urne zurück und mischt den Urneninhalt neu. Mit
.1 .1
welcher Wahrscheinlichkeit zieht man jetzt genau k mal eine
rote Kugel? k k
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Kapitel 2
Problemanalyse und Strategie Ein adäquater Grundraum (X = k), p = 0.5 (X = k), p = 0.7
.4 .4
für diese Situation ist die Menge ˝ WD PerrCs n .mW / D
f.a1 ; : : : ; an / j 1 aj r C s für j D 1; : : : ; r C sg. Dabei .3 .3
.1 .1
Lösung Mit R D f1; : : : ; rg beschreibt dann
k k
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Aj WD f.a1 ; : : : ; an / 2 ˝ j aj 2 Rg (2.38)
Stabdiagramme von Binomialverteilungen (n D 10)
das Ereignis, dass beim j -ten Zug eine rote Kugel erscheint,
und die Indikatorsumme
Kommentar
X WD 1fA1 g C : : : C 1fAn g
Die Ereignisse A1 ; : : : ; An in (2.38) und (2.35) sehen
steht für die Anzahl der Male, dass dies passiert. zwar formal gleich aus, sind aber Teilmengen verschie-
dener Grundräume. Somit ist auch die Zählvariable X
Um die Verteilung von X zu bestimmen, beachten wir, dass auf unterschiedlichen Grundräumen definiert. Wir wissen
die Menge fX D kg wie im Fall des Ziehens ohne Zurück- aber auch, dass der Definitionsbereich einer Zufallsvaria-
legen aus allen Tupeln .a1 ; : : : ; an / besteht, bei denen genau blen unwichtig ist, wenn nur deren Verteilung interessiert.
k der aj aus der Menge R sind. Analog zur dortigen Argu- Dieser Aspekt wird auch durch die Schreibweisen X
mentation folgt jfX D kgj D nk r k s nk und somit wegen Hyp.n; r; s/ und X Bin.n; p/ unterstrichen.
j˝j D .r C s/n das Ergebnis Im Gegensatz zu den in (2.35) eingeführten Ereignis-
! sen sind die Ereignisse A1 ; : : : ; An in (2.38) in einem
n k gewissen, das Zurücklegen der jeweils gezogenen Kugel
P .X D k/ D p .1 p/nk ; k D 0; : : : ; n: (2.39)
k widerspiegelnden und im nächsten Kapitel zu präzisie-
renden Sinn stochastisch unabhängig. In Abschn. 3.3
Dabei wurde p WD r=.r C s/ gesetzt. werden wir sehen, dass ganz allgemein Indikatorsum-
men stochastisch unabhängiger Ereignisse, die die gleiche
Die hierdurch definierte Verteilung von X heißt Binomial- Wahrscheinlichkeit besitzen, binomialverteilt sind.
verteilung mit Parametern n und p, und wir schreiben Wenn die Anzahl der Ziehungen im Vergleich zum Ur-
hierfür kurz neninhalt klein ist, sollte es keine große Rolle für die
X Bin.n; p/: Verteilung der Anzahl der gezogenen roten Kugeln spie-
len, ob das Ziehen mit oder ohne Zurücklegen erfolgt.
Die Abbildung zeigt Stabdiagramme von Binomialverteilun- Diese Vermutung bestätigt sich anhand der Darstellung
gen. (2.36), denn es gilt
Befinden sich 23 Personen in einem Raum, so kann man und verwendet die Ungleichungen
P 1 1=t log t t 1,
getrost darauf wetten, dass mindestens zwei von ihnen am sowie die Summenformel jmD1 j D m.m C 1/=2, so erge-
gleichen Tag Geburtstag haben. Obwohl es fast 14 Millionen ben sich die Abschätzungen
verschiedene Sechserauswahlen im Lotto 6 aus 49 gibt, trat
die erste Wiederholung einer bereits zuvor gezogenen Ge- k.k 1/
1 exp P .Xn k/
winnreihe schon nach der 3 016. Ausspielung auf. Was haben 2n
diese Zufallsphänomene gemeinsam, und sind sie wirklich so
k.k 1/
überraschend? 1 exp
Kapitel 2
2.n k C 1/
Beiden Situationen liegt die gleiche Fragestellung in einem
Fächer-Modell zugrunde. Gegeben seien n verschiedene Fä- und daraus (vgl. Aufgabe 2.36) der Grenzwertsatz
cher, in die rein zufällig der Reihe nach Teilchen fallen. 2
Xn t
Wann gelangt zum ersten Mal ein Teilchen in ein Fach, das lim P p t D 1 exp ; t > 0: (2.42)
bereits mit einem Teilchen belegt ist, wann findet also die n!1 n 2
erste Kollision statt?
Hier steht auf der rechten Seite die Verteilungsfunktion
Im Fall des Geburtstags-Phänomens sind die Fächer die n D der Weibull-Verteilung Wei.2; 1=2/ (vgl. (5.53)). Aussage
365 Tage des Jahres (Schaltjahre seien ausgenommen) und (2.42) bedeutet, dass die zufällige Anzahl der Teilchen bis
die Teilchen die Personen, im Fall des Lotto-Phänomens
die
p n Fächern bei wachsendem n von
zur ersten Kollision bei
möglichen, in irgendeiner Weise von 1 bis 496
D 13 983 816 der Größenordnung n und damit kleiner als gemeinhin
durchnummerierten Gewinnkombinationen und die Teilchen erwartet ist. Das dargestellte Stabdiagramm korrespondiert
die jeweils gezogenen Gewinnreihen. zur Dichte (D t exp.t 2 =2/ für t > 0) obiger Weibull-
Bezeichnet Xn die zufällige Anzahl der bis zum Auftreten Verteilung.
der ersten Kollision nötigen Teilchen, so gilt
Y (X365 = k)
k1
.n/k j
P .Xn k C 1/ D k D 1 .03
n j D1
n
(k D 1; : : : ; n). Das Ereignis fXn k C 1g tritt nämlich .02
Kapitel 2
um, dass den Teilchen die Ziehungen und den Fächern die Abb. 2.11 Fächer-Modell (F3). Die dargestellte Besetzung entspricht
Kugeln entsprechen, so ergeben sich die folgenden Fächer- dem Tupel .1; 3; 3; 3; 4; 4; 5/ 2 Kom57 .mW /
Modelle:
(F1) Teilchen unterscheidbar, Mehrfachbesetzungen erlaubt Beispiel (Fächer-Modelle in der Physik) Die vorgestell-
In diesem Fall ist die Menge der Besetzungen durch Pernk .mW / ten Fächer-Modelle (F1), (F3) und (F4) finden in der statisti-
wie im Urnenmodell (U1) gegeben. Dabei bezeichnet jetzt aj schen Physik Anwendung. Dort sind die Teilchen Gasmoleküle,
die Nummer des Fachs, in das man das j -te Teilchen gelegt hat. Photonen, Elektronen, Protonen o. Ä., und der Phasenraum wird
in Zellen (Fächer) unterteilt. Je nachdem, welche Gleichvertei-
(F2) Teilchen unterscheidbar, keine Mehrfachbesetzungen lungsannahme gemacht wird, ergeben sich verschiedene, nicht
In diesem Fall ist Pernk .oW / (vgl. das Modell (U2)) der geeig- a priori, sondern nur aus der Situation bzw. aus der Erfah-
nete Ergebnisraum. rung heraus begründbare Verteilungen, die „Statistiken“ genannt
werden. So tritt das Modell (F1) als eine nach den Physikern
(F3) Teilchen nicht unterscheidbar, Mehrfachbesetzungen James Clerk Maxwell (1831–1879) und Ludwig Eduard Boltz-
erlaubt mann (1844–1906) benannte Maxwell-Boltzmann-Statistik u. a.
Sind die Teilchen nicht unterscheidbar, so kann man nach Ver- bei Gasen unter mittleren und hohen Temperaturen auf. Das Mo-
teilung der k Teilchen nur noch feststellen, wie viele Teilchen in dell (F3) ergibt sich als Bose-Einstein-Statistik – benannt nach
jedem Fach liegen (siehe Abb. 2.11 im Fall n D 5, k D 7). Die den Physikern Satyendranath Bose (1894–1974) und Albert Ein-
vorliegende Situation entspricht dem Urnenmodell (U3), wobei stein (1879–1955) – für Photonen und He-4-Kerne. Schließlich
das Zulassen von Mehrfachbesetzungen gerade Ziehen mit Zu- ist das Modell (F4), bei dem höchstens ein Teilchen in einer Zel-
rücklegen bedeutet. Der geeignete Grundraum ist Komnk .mW /. le sein kann, eine adäquate Annahme für Elektronen, Neutronen
und Protonen. In der statistischen Physik ist es nach den Physi-
(F4) Teilchen nicht unterscheidbar, keine kern Enrico Fermi (1901–1954) und Paul Adrien Maurice Dirac
Mehrfachbesetzungen (1902–1984) als Fermi-Dirac-Statistik bekannt. Die Forderung,
Der Bedingung, keine Mehrfachbesetzungen zuzulassen, ent- dass höchstens ein Teilchen in einer Zelle liegt, entspricht in der
spricht das Ziehen ohne Zurücklegen mit dem Grundraum Physik dem nach dem Physiker Wolfgang Pauli (1900–1958)
Komnk .oW / (vgl. das Urnenmodell (U4)). benannten Pauli-Verbot. J
Zusammenfassung
Ein Grundraum (engl.: sample space) ˝ modelliert die Men- Eine weitere Beispielklasse von Wahrscheinlichkeitsräumen lie-
ge der Ergebnisse eines stochastischen Vorgangs. Ereignisse fern nichtnegative Borel-messbare
R Funktionen f W Rk ! R
(events) sind gewisse Teilmengen von ˝. Das System A al- R Rk f .x/dx D 1. In diesem Fall wird
mit der Eigenschaft
ler Ereignisse ist eine -Algebra (-field, -algebra) über ˝, durch Q.B/ WD B f .x/ dx; B 2 Bk ; ein Wahrscheinlich-
d. h., A enthält ; und mit jeder Menge auch deren Komplement. keitsmaß auf der -Algebra Bk definiert. Die Funktion f heißt
Des Weiteren ist A abgeschlossen gegenüber der Bildung von
Kapitel 2
Kapitel 2
Kugeln entsprechen lässt. Die Unterscheidbarkeit der Teilchen
korrespondiert dann zur Beachtung der Reihenfolge, und das
Erlauben bzw. Verbieten von Mehrfachbesetzungen entspricht
dem Ziehen mit bzw. ohne Zurücklegen.
40 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Kapitel 2
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
Verständnisfragen Stromfluss nicht unterbrochen ist. Drücken Sie für jedes der vier
Schaltbilder das Ereignis A durch A1 ; A2 ; A3 ; A4 aus.
2.1 In einer Schachtel liegen fünf von 1 bis 5 numme-
rierte Kugeln. Geben Sie einen Grundraum für die Ergebnisse a 1 2 3 4
eines stochastischen Vorgangs an, der darin besteht, rein zufäl-
lig zwei Kugeln mit einem Griff zu ziehen.
1
2.6 In einem Stromkreis befinden sich vier numme- 2.8 Ein Würfel wird höchstens dreimal geworfen. Er-
rierte Bauteile, die jedes für sich innerhalb eines gewissen scheint eine Sechs zum ersten Mal im j -ten Wurf (j D 1; 2; 3),
Zeitraums intakt bleiben oder ausfallen können. Im letzteren so erhält eine Person aj C, und das Spiel ist beendet. Hierbei
Fall ist der Stromfluss durch das betreffende Bauteil unterbro- sei a1 D 100, a2 D 50 und a3 D 10. Erscheint auch im
chen. Es bezeichnen Aj das Ereignis, dass das j -te Bauteil dritten Wurf noch keine Sechs, so sind 30 C an die Bank zu
intakt bleibt (j D 1; 2; 3; 4) und A das Ereignis, dass der zahlen, und das Spiel ist ebenfalls beendet. Beschreiben Sie den
Aufgaben 41
Spielgewinn mithilfe einer Zufallsvariablen auf einem geeigne- 2.16 Es sei f eine auf einer offenen Teilmenge des Rn
ten Grundraum. definierte stetig differenzierbare reellwertige Funktion. Wie vie-
le verschiedene partielle Ableitungen k-ter Ordnung besitzt f ?
2.9 Das gleichzeitige Eintreten der Ereignisse A und
B ziehe das Eintreten des Ereignisses C nach sich. Zeigen Sie, 2.17 Aus sieben Männern und sieben Frauen werden
dass dann gilt: sieben Personen rein zufällig ausgewählt. Mit welcher Wahr-
scheinlichkeit enthält die Stichprobe höchstens drei Frauen? Ist
P .C / P .A/ C P .B/ 1: das Ergebnis ohne Rechnung einzusehen?
Kapitel 2
lichkeitsraum, sodass 2.18 Im Lotto 6 aus 49 ergab sich nach 5 047 Ausspie-
lungen die nachstehende Tabelle der Gewinnhäufigkeiten der
P .A \ B/ c P .A/ P .B/ einzelnen Zahlen.
gilt? 1 2 3 4 5 6 7
616 624 638 626 607 649 617
2.11 Ist es möglich, dass von drei Ereignissen, von de-
8 9 10 11 12 13 14
nen jedes die Wahrscheinlichkeit 0.7 besitzt, nur genau eines
eintritt? 598 636 605 623 600 561 610
15 16 17 18 19 20 21
2.12 Zeigen Sie, dass es unter acht paarweise disjunk- 588 623 615 618 610 585 594
ten Ereignissen stets mindestens drei gibt, die höchstens die
Wahrscheinlichkeit 1=6 besitzen. 22 23 24 25 26 27 28
627 611 619 652 659 648 577
2.13 Mit welcher Wahrscheinlichkeit ist beim Lotto 6
29 30 31 32 33 34 35
aus 49
593 602 649 629 643 615 615
a) die zweite gezogene Zahl kleiner als die erste?
b) die dritte gezogene Zahl kleiner als die beiden ersten Zahlen? 36 37 38 39 40 41 42
c) die letzte gezogene Zahl die größte aller 6 Gewinnzahlen? 618 610 658 617 616 639 623
43 44 45 46 47 48 49
2.14 Auf einem m n-Gitter mit den Koordinaten
663 612 570 592 621 612 649
.i; j /, 0 i m, 0 j n (s. nachstehende Abbildung
für den Fall m D 8, n D 6) startet ein Roboter links unten im
Punkt .0; 0/. Er kann wie abgebildet pro Schritt nur nach rechts a) Wie groß sind die relativen Gewinnhäufigkeiten der Zahlen
oder nach oben gehen. 13, 19 und 43?
b) Wie groß wäre die relative Gewinnhäufigkeit, wenn jede Zahl
n gleich oft gezogen worden wäre?
1
2.19 Zeigen Sie, dass durch die Werte pk WD k.kC1/ ,
k 1, eine Wahrscheinlichkeitsverteilung auf der Menge N
.
. der natürlichen Zahlen definiert wird.
.
Man mache sich klar, dass A nur dann gleich der vollen Po-
2.23 Bei der ersten Ziehung der Glücksspirale 1971 tenzmenge von ˝ ist, wenn jedes Aj einelementig (und somit
wurden für die Ermittlung einer 7-stelligen Gewinnzahl aus ei- ˝ insbesondere abzählbar) ist.
ner Trommel, die Kugeln mit den Ziffern 0; 1; : : : ; 9 je 7mal
enthält, nacheinander rein zufällig 7 Kugeln ohne Zurücklegen 2.29 Es seien A und B Ereignisse in einem Grundraum
gezogen. ˝. Zeigen Sie:
a) Welche 7-stelligen Gewinnzahlen hatten hierbei die größte a) 1A\B D 1A 1B ,
und die kleinste Ziehungswahrscheinlichkeit, und wie groß b) 1A[B D 1A C 1B 1A\B ,
sind diese Wahrscheinlichkeiten? c) 1ACB D 1A C 1B ,
b) Bestimmen Sie die Gewinnwahrscheinlichkeit für die Zahl d) 1Ac D 1 1A ,
3 143 643. e) A B () 1A 1B .
c) Wie würden Sie den Ziehungsmodus abändern, um allen
Gewinnzahlen die gleiche Ziehungswahrscheinlichkeit zu si- 2.30 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
chern? und .An / eine Folge in A mit An # A. Zeigen Sie:
2.24 Bei der Auslosung der 32 Spiele der ersten Haupt- P .A/ D lim P .An /:
n!1
runde des DFB-Pokals 1986 gab es einen Eklat, als der Loszettel
der Stuttgarter Kickers unbemerkt buchstäblich unter den Tisch
gefallen und schließlich unter Auslosung des Heimrechts der 2.31 Es seien .˝; A/ ein Messraum und P W A !
zuletzt im Lostopf verbliebenen Mannschaft Tennis Borussia Œ0; 1 eine Funktion mit
Berlin zugeordnet worden war. Auf einen Einspruch der Stutt-
garter Kickers hin wurde die gesamte Auslosung der ersten P .A C B/ D P .A/ C P .B/, falls A; B 2 A mit A \ B D ;,
Hauptrunde neu angesetzt. Kurioserweise ergab sich dabei wie- P .B/ D limn!1 P .Bn/ für jede Folge .Bn / aus A mit
derum die Begegnung Tennis Borussia Berlin – Stuttgarter Bn " B.
Kickers. Zeigen Sie, dass P -additiv ist.
a) Zeigen Sie, dass aus stochastischen Gründen kein Einwand
gegen die erste Auslosung besteht. 2.32 Beweisen Sie die Formel des Ein- und Ausschlie-
b) Wie groß ist die Wahrscheinlichkeit, dass sich in der zweiten ßens durch Induktion über n.
Auslosung erneut die Begegnung Tennis Borussia Berlin –
Stuttgarter Kickers ergibt? 2.33 In einer geordneten Reihe zweier verschiedener
Symbole a und b heißt jede aus gleichen Symbolen bestehende
2.25 Die Zufallsvariable Xk bezeichne die k-kleinste Teilfolge maximaler Länge ein Run. Als Beispiel betrachten wir
der 6 Gewinnzahlen beim Lotto 6 aus 49. Welche Verteilung die Anordnung b b a a a b a, die mit einem b-Run der Länge 2
besitzt Xk unter einem Laplace-Modell? beginnt. Danach folgen ein a-Run der Länge 3 und jeweils ein b-
und ein a-Run der Länge 1. Es mögen nun allgemein
m Symbole
2.26 Drei Personen A, B, C spielen Skat. Berechnen a und n Symbole b vorliegen, wobei alle mCn
m
Anordnungen im
Sie unter einem Laplace-Modell die Wahrscheinlichkeiten Sinne von Auswahlen von m der m C n Komponenten in einem
a) Person A erhält alle vier Buben, Tupel für die a’s (die übrigen Komponenten sind dann die b’s)
b) irgendeine Person erhält alle Buben, gleich wahrscheinlich seien. Die Zufallsvariable X bezeichne
c) Person A erhält mindestens ein Ass, die Gesamtanzahl der Runs. Zeigen Sie:
d) es liegen ein Bube und ein Ass im Skat. n1
2 m1
P .X D 2s/ D s1 mCns1 ; 1 s min.m; n/;
2.27 Eine Warenlieferung enthalte 20 intakte und 5 de- m
fekte Stücke. Wie groß ist die Wahrscheinlichkeit, dass eine n1m1
C n1 m1
Stichprobe vom Umfang 5 P .X D 2s C 1/ D s s1
mCns1 s ;
m
a) genau zwei defekte Stücke enthält?
b) mindestens zwei defekte Stücke enthält? 1 s < min.m; n/.
Aufgaben 43
r .r 1/
P .Ai \ Aj / D .1 i ¤ j n/:
.r C s/ .r C s 1/
Kapitel 2
2.36 Es fallen rein zufällig der Reihe nach Teilchen
in eines von n Fächern. Die Zufallsvariable Xn bezeichne die
Anzahl der Teilchen, die nötig sind, damit zum ersten Mal ein
Teilchen in ein Fach fällt, das bereits belegt ist. Zeigen Sie:
a) 1 exp k.k1/ P .Xn k/,
2n
k.k1/
b) P .Xn k/ 1 exp 2.nkC1/ ,
c) für jedes t > 0 gilt
2
Xn t
lim P p t D 1 exp :
n!1 n 2
44 2 Wahrscheinlichkeitsräume – Modelle für stochastische Vorgänge
Antwort 2
D1 D AB c C c .D A \ B c \ C c /; .x C y/ .x C y/ : : : .x C y/ .n Faktoren/
D2 D ABC c C Ac BC C AB c C
ausgeschrieben, so entsteht beim Ausmultiplizieren das Produkt
. D A \ B \ C c C Ac \ B \ C C A \ B c \ C /: x k y nk immer dann, wenn
aus genau k der n Klammern x ge-
wählt wurde. Da es nk Fälle gibt, eine derartige Auswahl zu
Man beachte, dass wir die oben eingeführte Summenschreib- treffen, folgt die Behauptung.
weise verwendet haben, weil die in der Darstellung für D2
auftretenden Ereignisse paarweise disjunkt sind.
Antwort 7 Jede der r C s Kugeln hat aus Symmetriegründen
Antwort 3 Diese Spezialfälle besagen, dass keines bzw. jedes die gleiche Chance, als j -te gezogen zu werden. Da es hierfür
der Ereignisse A1 ; : : : ; An eintritt. Es gelten r günstige unter insgesamt r C s möglichen Fällen gibt, folgt
P .Aj / D r=.r C s/. Für einen formalen Beweis besetzen wir
fX D 0g D Ac1 \ Ac2 \ : : : \ Acn ; zuerst die j -te Stelle des Tupels .a1 ; : : : ; an / (hierfür gibt es r D
fX D ng D A1 \ A2 \ : : : \ An : jRj Fälle) und danach alle anderen Stellen von links nach rechts.
Da man Letzteres auf .r C s 1/n1 Weisen bewerkstelligen
Antwort 4 Für endliche Summen reicht als Begründung, dass kann, folgt
die Addition kommutativ ist. Hiermit beweist man auch den
aus [1] bekannten Umordnungssatz für absolut konvergente Rei- jAj j D r .r C s 1/n1 (2.43)
hen, der im Fall unendlich vieler Summanden die Begründung
liefert. und damit die Behauptung.
Bedingte Wahrscheinlichkeit
und Unabhängigkeit – 3
Meister Zufall hängt (oft) ab
Warum ist die erste
Pfadregel kein Satz?
Können Sie die
Bayes-Formel herleiten?
Wann sind n Ereignisse
stochastisch unabhängig?
Warum sind Funktionen
Kapitel 3
unabhängiger
Zufallsvariablen ebenfalls
unabhängig?
Wie lautet der Ergodensatz
für Markov-Ketten?
In diesem Kapitel lernen wir mit den Begriffsbildungen bedingte Übergangswahrscheinlichkeiten und Startver-
Wahrscheinlichkeit und stochastische Unabhängigkeit zwei grund-
legende Konzepte der Stochastik kennen. Bedingte Wahrscheinlich-
teilung modellieren mehrstufige Experimente
keiten dienen in Form von Übergangswahrscheinlichkeiten insbe-
Eine Startverteilung ist eine Wahrscheinlichkeitsverteilung P1
sondere als Bausteine bei der Modellierung mehrstufiger stochas-
auf ˝1 . Sie beschreibt die Wahrscheinlichkeiten, mit denen
tischer Vorgänge über die erste Pfadregel. Mit der Formel von
die Ausgänge des ersten Teilexperiments auftreten. Wegen der
der totalen Wahrscheinlichkeit lassen sich die Wahrscheinlichkei-
Abzählbarkeit von ˝1 ist P1 schon durch die Startwahrschein-
ten komplizierter Ereignisse bestimmen, indem man eine Zerlegung
lichkeiten
nach sich paarweise ausschließenden Ereignissen durchführt und
eine gewichtete Summe von bedingten Wahrscheinlichkeiten be- p1 .a1 / WD P1 .fa1 g/; a1 2 ˝1 ;
rechnet. Die Bayes-Formel ist ein schlagkräftiges Mittel, um Wahr-
scheinlichkeitseinschätzungen unter dem Einfluss von zusätzlicher festgelegt. Diese erfüllen die Normierungsbedingung
Information neu zu bewerten. Stochastisch unabhängige Ereignisse X
üben wahrscheinlichkeitsheoretisch keinerlei Einfluss aufeinander p1 .a1 / D 1: (3.1)
aus. Der Begriff der stochastischen Unabhängigkeit lässt sich un- a1 2˝1
mittelbar auf Mengensysteme und damit auch auf Zufallsvariablen
mit allgemeinen Wertebereichen übertragen: Zufallsvariablen sind Meist geht man umgekehrt vor und gibt sich nichtnegative Wer-
unabhängig, wenn die durch sie beschreibbaren Ereignisse un- P p1 .a1 /, a1 2 ˝1 , mit (3.1) vor. Dann definiert P1 .A1 / WD
te
abhängig sind. Hinreichend reichhaltige Wahrscheinlichkeitsräume a1 2A1 p1 .a1 /, A1 ˝1 , eine Startverteilung.
enthalten eine ganze Folge unabhängiger Ereignisse mit vorgege- Eine Übergangswahrscheinlichkeit von ˝1 nach ˝2 ist eine
benen Wahrscheinlichkeiten. Markov-Ketten beschreiben stochasti- Funktion
Kapitel 3
Kapitel 3
nenschema wurde von dem Mathematiker George Pólya (1887– Für die Wahrscheinlichkeit des in (3.6) definierten Ereignisses
1985) als einfaches Modell vorgeschlagen, um die Ausbreitung B ergibt sich jetzt
ansteckender Krankheiten zu beschreiben: Ein Urne enthalte r
rote und s schwarze Kugeln. Es werde eine Kugel rein zufäl- P .B/ D P .f.1; 1/g/ C P .f.0; 1/g/
lig gezogen, deren Farbe notiert und anschließend diese sowie
r.r C c/ sr
c weitere Kugel derselben Farbe in die Urne gelegt. Nach gu- D C
tem Mischen wird wiederum eine Kugel gezogen. Mit welcher .r C s/.r C s C c/ .r C s/.r C s C c/
Wahrscheinlichkeit ist diese rot? r
D :
r Cs
Notieren wir das Ziehen einer roten oder schwarzen Kugel mit
1 bzw. 0, so ist ˝ WD ˝1 ˝2 mit ˝1 D ˝2 D f0; 1g ein Es ist also genauso wahrscheinlich (und kaum verwunderlich),
geeigneter Grundraum für dieses zweistufige Experiment. Dabei im ersten wie im zweiten Zug eine rote Kugel zu ziehen. Der Ur-
stellt sich das Ereignis die beim zweiten Mal gezogene Kugel ist neninhalt vor der zweiten Ziehung besteht ja (in Unkenntnis des
rot formal als Ergebnisses der ersten Ziehung!) aus den ursprünglich vorhan-
denen Kugeln sowie c zusätzlich in die Urne gelegten Kugeln.
B D f.1; 1/; .0; 1/g (3.6) Wird beim zweiten Zug eine der r C s zu Beginn vorhandenen
Kugeln gezogen, so ist die Wahrscheinlichkeit, eine rote Kugel
dar. Da zu Beginn r rote und s schwarze Kugeln vorhanden sind, zu ziehen, gleich r=.r C s/. Dies trifft aber auch zu, wenn eine
wählen wir als Startwahrscheinlichkeiten der c Zusatzkugeln gezogen wird. J
r s
p1 .1/ WD ; p1 .0/ WD : (3.7) Besitzt das Experiment mehr als zwei Stufen, so benötigt man
r Cs r Cs
neben den Startwahrscheinlichkeiten p1 .a1 / WD P1 .fa1 g/, a1 2
Erscheint beim ersten Zug eine rote Kugel, so enthält die Urne ˝1 , für jedes j D 2; : : : ; n eine Übergangswahrscheinlichkeit
vor der zweiten Ziehung r C c rote und s schwarze Kugeln, von ˝1 : : : ˝j 1 nach ˝j . Diese ist eine Funktion
andernfalls sind es r rote und s C c schwarze Kugeln. Für die
Übergangswahrscheinlichkeiten p2 .i; j / (i; j 2 f0; 1g) machen P1;:::;j 1;j W ˝1 : : : ˝j 1 P .˝j / ! R0
wir somit den Modellansatz
derart, dass für jede Wahl von a1 2 ˝1 ; : : : ; aj 1 2 ˝j 1 die
r Cc r
p2 .1; 1/ WD ; p2 .0; 1/ WD ; Zuordnung
r CsCc r CsCc
s sCc Aj 7! P1;:::;j 1;j .a1 ; : : : ; aj 1 ; A/; Aj ˝j ;
p2 .1; 0/ WD ; p2 .0; 0/ WD :
r CsCc r CsCc
eine Wahrscheinlichkeitsverteilung auf ˝j ist. Letztere ist we-
Das nachstehende Baumdiagramm veranschaulicht diese Situa-
tion für den speziellen Fall r D 2, s D 3 und c D 1. Es gen der Abzählbarkeit von ˝j durch die sog. Übergangswahr-
zeigt an den vom Startpunkt ausgehenden Pfeilen die Wahr- scheinlichkeiten
scheinlichkeiten für die an den Pfeilenden notierten Ergebnisse
der ersten Stufe. Darunter finden sich die davon abhängenden pj .a1 ; : : : ; aj 1 ; aj / WD P1;:::;j 1;j .a1 ; : : : ; aj 1 ; faj g/ (3.8)
48 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
mit aj 2 ˝j eindeutig bestimmt. Diese genügen für jede Wahl und s C .j 1 `/ c schwarze Kugeln. Wir legen demnach
von a1 ; : : : ; aj 1 der Normierungsbedingung für ein Tupel .a1 ; : : : ; aj 1 / mit genau ` Einsen und j 1 `
Pj 1
X Nullen, d. h., D1 a D `, die Übergangswahrscheinlichkeiten
pj .a1 ; : : : ; aj 1 ; aj / D 1: (3.9) wie folgt fest:
aj 2˝j
r C`c
Wie oben wird man bei konkreten Modellierungen nichtne- pj .a1 ; : : : ; aj 1 ; 1/ WD ;
r C s C .j 1/ c
gative Zahlen pj .a1 ; : : : ; aj 1 ; aj / mit (3.9) vorgeben. Dann s C .j 1 `/ c
entsteht eine Übergangswahrscheinlichkeit P1;:::;j 1;j von ˝1 pj .a1 ; : : : ; aj 1 ; 0/ WD :
: : : ˝j 1 nach ˝j , indem man für jede Wahl von a1 2 r C s C .j 1/ c
˝1 ; : : : ; aj 1 2 ˝j 1 die Festlegung
Wegen der Kommutativität der Multiplikation ist dann die ge-
X mäß der ersten Pfadregel (3.10) gebildete Wahrscheinlichkeit
P1;:::;j 1;j .a1 ; : : : ; aj 1 ; Aj / WD pj .a1 ; : : : ; aj 1 ; aj /; p.!/ für ein n-Tupel ! D .a1 ; : : : ; an / 2 ˝ mit genau k Einsen
aj 2Aj durch
Aj ˝j , trifft. Qk1 Q
j D0 .rC jc/ jnk1
D0 .s C jc/
Die Modellierung der Wahrscheinlichkeit p.!/ für das Ergeb- p.!/ D Qn1 (3.12)
j D0 .r C s C jc/
nis ! D .a1 ; : : : ; an / des Gesamtexperiments erfolgt dann in
direkter Verallgemeinerung von (3.4) durch (k D 0; 1; : : : ; n) gegeben. Dabei sei wie üblich ein Produkt
Y
n über die leere Menge, also z. B. ein von j D 0 bis j D 1 lau-
Kapitel 3
p.!/ WD p1 .a1 / pj .a1 ; : : : ; aj 1 ; aj /: (3.10) fendes Produkt, gleich eins gesetzt. Die Wahrscheinlichkeit für
j D2 das Auftreten eines Tupels .a1 ; : : : ; an / hängt also nur von der
Anzahl seiner Einsen, nicht aber von der Stellung dieser Einsen
Dass innerhalb des Tupels ab. Konsequenterweise sind die Ereignisse
P die so definierten Wahrscheinlichkeiten die Bedingung
!2˝ p.!/ D 1 erfüllen und somit das durch
X Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g; j D 1; : : : ; n;
P .A/ WD p.!/; A ˝; (3.11)
!2A im j -ten Zug eine rote Kugel zu erhalten, nicht nur gleich wahr-
scheinlich, sondern sogar austauschbar, d. h., es gilt
definierte P eine Wahrscheinlichkeitsverteilung auf ˝ ist, folgt
wie im Fall n D 2, indem man bei der Summation der Produkte P .Ai1 \ : : : \ Aik / D P .A1 \ : : : \ Ak /
in (3.10) über ˝1 : : : ˝n sukzessive die Gleichungen (3.9)
für j D n, j D n 1 usw. ausnutzt. für jedes k D 1; : : : ; n und jede Wahl von i1 ; : : : ; ik mit 1
i1 < : : : < ik n (siehe Aufgabe 3.26). Diese Austauschbar-
Beispiel (Das Pólyasche Urnenmodell, Fortsetzung) In keit zeigt auch, dass die Verteilung der mit
Verallgemeinerung des Pólyaschen Urnenschemas mit zwei-
maligem Ziehen wird n-mal rein zufällig nach jeweils gutem X WD 1fA1 g C : : : C 1fAn g
Mischen aus einer Urne mit anfänglich r roten und s schwarzen
Kugeln gezogen. Nach jedem Zug werden die gezogene Kugel bezeichneten Anzahl gezogener roter Kugeln durch
und c weitere Kugeln derselben Farbe in die Urne zurückge- ! Qk1 Q
legt. Dabei darf c auch negativ oder null sein. Dann werden n C jc/ jnk1
j D0 .r D0 .s C jc/
P .X D k/ D Qn1 (3.13)
der Urne nach Zurücklegen der gezogenen Kugel jcj Kugeln k j D0 .r C s C jc/
derselben Farbe entnommen. Der Urneninhalt muss hierfür nur
hinreichend groß sein. Der Fall c D 0 bedeutet Ziehen mit Zu- .k D 0; 1; : : : ; n/ gegeben
rücklegen. ist, denn die Anzahl der n-Tupel mit
genau k Einsen ist ja nk .
X Pol.n; r; s; c/:
Als Grundraum diene die Menge ˝ WD f0; 1gn der n-Tupel aus
Nullen und Einsen, wobei eine 1 bzw. 0 an der j -ten Stelle des Die Pólya-Verteilung enthält als Spezialfälle für c D 0 die
Tupels .a1 ; : : : ; an / 2 ˝ angibt, ob die im j -ten Zug erhaltene Binomialverteilung Bin.n; r=.r C s// und für c D 1 die hy-
Kugel rot oder schwarz ist. pergeometrische Verteilung Hyp.n; r; s/ (vgl. die Darstellung
(2.36)).
Zur Modellierung von p.!/, ! D .a1 ; : : : ; an /, wählen wir
die Startwahrscheinlichkeiten (3.7). Sind in den ersten j 1 Abb. 3.2 zeigt Stabdiagramme von Pólya-Verteilungen mit n D
Ziehungen insgesamt ` rote und j 1 ` schwarze Kugeln auf- 4, r D s D 1 und c D 0; 1; 2; 3. Man sieht, dass bei Vergröße-
getreten, so enthält die Urne vor der j -ten Ziehung r C ` c rote rung von c (plausiblerweise) die Wahrscheinlichkeiten für die
3.2 Bedingte Wahrscheinlichkeiten 49
k k
0 1 2 3 4 0 1 2 3 4
3.2 Bedingte Wahrscheinlichkeiten
(X = k), c=2 (X = k), c=3 Wie schon im vorigen Abschnitt geht es auch jetzt um
0.4 0.4
Fragen der vernünftigen Verwertung von Teilinformationen
0.3 0.3 über stochastische Vorgänge. Diese Verarbeitung geschah in
0.2 0.2 Abschn. 3.1 mithilfe von Übergangswahrscheinlichkeiten. In
0.1 0.1 diesem Abschnitt lernen wir den zentralen Begriff der bedingten
Wahrscheinlichkeit kennen. Hierzu stellen wir uns ein wie-
k k derholt durchführbares Zufallsexperiment vor, das durch den
0 1 2 3 4 0 1 2 3 4
Wahrscheinlichkeitsraum .˝; A; P / beschrieben sei. Über den
Abb. 3.2 Stabdiagramme der Pólya-Verteilungen Pol.4; 1; 1; c/ mit Ausgang ! des Experiments sei nur bekannt, dass ein Ereignis
c D 0; 1; 2; 3 A 2 A eingetreten ist, also ! 2 A gilt. Diese Information wer-
de im Folgenden kurz die Bedingung A genannt. Ist B 2 A ein
Ereignis, so würden wir aufgrund dieser unvollständigen Infor-
Kapitel 3
extremen Fälle, nur rote oder schwarze Kugeln zu ziehen, zu- mation über ! gerne eine Wahrscheinlichkeit für das Eintreten
nehmen. Für c ! 1 gilt P .X D 0/ D P .X D 4/ ! 1=2, von B unter der Bedingung A festlegen. Im Gegensatz zu frühe-
siehe hierzu auch Aufgabe 3.5. J ren Überlegungen, bei denen Wahrscheinlichkeiten als Chancen
für das Eintreten von Ereignissen bei zukünftigen Experimen-
Ein wichtiger Spezialfall eines mehrstufigen Experiments ent- ten gedeutet wurden, stellt sich hier das Problem, die Aussicht
steht, wenn die n Teilexperimente unbeeinflusst voneinander auf das Eintreten von B nach Durchführung eines Zufallsexpe-
ablaufen, also für jedes j 2 f2; : : : ; ng das j -te Teilexperi- riments zu bewerten.
ment ohne Kenntnis der Ergebnisse a1 ; : : : ; aj 1 der früheren
j 1 Teilexperimente räumlich oder zeitlich getrennt von al- Welche Eigenschaften sollte eine mit P .BjA/ bezeichnete und
len anderen Teilexperimenten durchgeführt werden kann. Ein geeignet zu definierende bedingte Wahrscheinlichkeit von B
alternativer Gedanke ist, dass die n Teilexperimente gleichzeitig unter der Bedingung A besitzen? Natürlich sollte P .BjA/ die
durchgeführt werden. In diesem Fall hängen die Übergangs- Ungleichungen 0 P .BjA/ 1 erfüllen. Weitere natürliche
wahrscheinlichkeiten in (3.8) nicht von a1 ; : : : ; aj 1 ab, sodass Eigenschaften wären
wir
P .BjA/ D 1; falls A B; (3.16)
pj .aj / WD pj .a1 ; : : : ; aj 1 ; aj / (3.14)
und
(a1 2 ˝1 ; : : : ; aj 2 ˝j ) setzen können. Dabei definiert pj .:/
über die Festsetzung P .BjA/ D 0; falls B \ A D ;: (3.17)
X
Pj .Aj / WD pj .aj /; Aj ˝j ; Die erste Gleichung sollte gelten, da die Inklusion A B unter
aj 2Aj der Bedingung A das Eintreten von B nach sich zieht. (3.17) ist
ebenfalls klar, weil im Fall A \ B D ; das Eintreten von A das
eine Wahrscheinlichkeitsverteilung Pj auf ˝j . Eintreten von B ausschließt.
Weil mit (3.14) der Ansatz (3.10) die Produktgestalt Natürlich stellen (3.16) und (3.17) extreme Situationen dar. All-
gemein müssen wir mit den Möglichkeiten P .BjA/ > P .B/,
p.!/ WD p1 .a1 /p2 .a2 / : : : pn .an / (3.15) P .BjA/ < P .B/ und P .BjA/ D P .B/ rechnen. In den ers-
ten beiden Fällen begünstigt bzw. beeinträchtigt das Eintreten
annimmt, nennen wir solche mehrstufigen Experimente auch von A die Aussicht auf das Eintreten von B. Im letzten Fall ist
Produktexperimente. die Aussicht auf das Eintreten von B unabhängig vom Eintreten
von A.
Insbesondere erhält man im Fall ˝1 D : : : D ˝n und
p1 .:/ D : : : D pn .:/ ein stochastisches Modell für die n-
malige unabhängige wiederholte Durchführung eines durch die Beispiel In der Situation des Pólya-Urnenschemas seien
Grundmenge ˝1 und die Startverteilung P1 modellierten Zu- A WD f.1; 0/; .1; 1/g und B WD f.0; 1/; .1; 1/g die Ereignisse,
fallsexperiments. Dieses Modell ist uns schon in Spezialfällen beim ersten bzw. zweiten Zug eine rote Kugel zu erhalten. Un-
wie etwa dem Laplace-Ansatz für den zweifachen Würfelwurf ter der Bedingung A enthält die Urne vor dem zweiten Zug r Cc
begegnet. Hier gelten ˝1 D ˝2 D f1; 2; 3; 4; 5; 6g, p1 .i/ D rote und insgesamt r Cs Cc Kugeln. Wir würden also in diesem
50 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
konkreten Fall die bedingte Wahrscheinlichkeit von B unter der p(ω) pA (ω)
Bedingung A zu
r Cc 0.4 0.4
P .BjA/ WD
r CsCc
ansetzen. Diese Festlegung ist aber identisch mit derjenigen 0.2 0.2
für die Übergangswahrscheinlichkeit p2 .1; 1/. Nachdem wir
bedingte Wahrscheinlichkeiten formal definiert haben, werden
0 0
wir sehen, dass Übergangswahrscheinlichkeiten immer als be- ω ω
dingte Wahrscheinlichkeiten interpretiert werden können. Man A A
beachte, dass im vorliegenden Beispiel P .BjA/ > P .A/ gleich-
bedeutend mit c > 0 und die umgekehrte Ungleichung „<“ zu Abb. 3.3 Übergang zur bedingten Verteilung
c < 0 äquivalent ist. Der Fall c D 0, also Ziehen mit Zurückle-
gen, lässt das Eintreten oder Nichteintreten von A die Aussicht
auf das Eintreten von B unverändert. In diesem Fall sind die Er- Selbstfrage 2
eignisse in einem im nächsten Abschnitt zu präzisierenden Sinn Warum ist PA ein Wahrscheinlichkeitsmaß?
stochastisch unabhängig. J
Um die Definition von P .BjA/ anhand relativer Häufigkeiten Kommentar Aus der Definition von P .BjA/ folgt unmit-
zu motivieren, mögen in n gleichartigen und unbeeinflusst von- telbar, dass die von einem heuristischen Standpunkt aus wün-
einander ablaufenden Versuchen hn .A/ mal das Ereignis A und schenswerten Eigenschaften (3.16) und (3.17) erfüllt sind. Man
Kapitel 3
hn .A\B/ mal sowohl A als auch B eingetreten sein. Unter allen beachte, dass die bedingte Verteilung PA wegen PA .A/ D 1
Versuchen, bei denen A eintritt, zählt hn .A \ B/ somit diejeni- ganz auf dem bedingenden Ereignis A konzentriert ist. Für den
gen, bei denen sich auch noch B ereignet. Um die Aussicht auf Spezialfall eines diskreten Wahrscheinlichkeitsraumes, in dem
das Eintreten von B unter der Bedingung A zu bewerten, liegt P durch die Wahrscheinlichkeiten p.!/ WD P .f!g/, ! 2 ˝,
es nahe, bei positivem Nenner den Quotienten festgelegt ist, ist die bedingte Verteilung PA durch die Wahr-
hn .A \ B/ scheinlichkeiten
rn .BjA/ WD (
hn .A/ p.!/
; falls ! 2 A;
als empirisch gestützte Chance für das Eintreten von B unter pA .!/ WD PA .f!g/ D P .A/ (3.19)
0; sonst
der Bedingung A anzusehen. Teilt man hier Zähler und Nenner
durch n, so ergibt sich die Darstellung (! 2 ˝) eindeutig bestimmt. In diesem Fall erhält beim
rn .B \ A/ Übergang von P zur bedingten Verteilung PA jedes Elemen-
rn .BjA/ D tarereignis f!g mit ! 62 A die Wahrscheinlichkeit 0, und die
rn .A/
ursprünglichen Wahrscheinlichkeiten p.!/ der in A liegenden
als Quotient zweier relativer Häufigkeiten. Da sich nach dem Elementarereignisse werden jeweils um den gleichen Faktor
empirischen Gesetz über die Stabilisierung relativer Häufigkei- P .A/1 vergrößert, siehe Abb. 3.3. J
ten (vgl. die Diskussion in Abschn. 2.3) rn .B \A/ und rn .A/ bei
wachsendem n den „richtigen Modell-Wahrscheinlichkeiten“
P .B \ A/ bzw. P .A/ annähern sollten, ist die nachfolgende De-
finition kaum verwunderlich. Übergangswahrscheinlichkeiten sind bedingte
Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit, bedingte Verteilung Multipliziert man die P .BjA/ definierende Gleichung mit
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und P .A/, so ergibt sich die im Hinblick auf Anwendungen wich-
A 2 A ein Ereignis mit P .A/ > 0. Dann heißt tige Identität
und Übergangswahrscheinlichkeiten p2 .a1 ; a2 / vor und kon- Beweis Die Behauptung folgt wegen
struiert hieraus das Wahrscheinlichkeitsmaß P auf ˝ mithilfe 0 1
von (3.4) und (3.5), so stellt (3.20) die erste Pfadregel (3.4) dar. X X
Wir sehen also, dass Übergangswahrscheinlichkeiten in gekop- B D˝ \B D@ Aj A \ B D Aj \ B
pelten Experimenten bedingte Wahrscheinlichkeiten sind und j 1 j 1
dass bedingte Wahrscheinlichkeiten als Bausteine für die Mo-
dellierung stochastischer Vorgänge dienen. aus der -Additivität von P und der Definition von P .BjAj /.
Achtung Bei der bedingten Wahrscheinlichkeit P .BjA/
steht das „bedingende Ereignis“ A durch den „Bedingungs- Bayes-Formel
strich“ j getrennt hinter dem Ereignis B, bei den Übergangs-
wahrscheinlichkeiten p2 .a1 ; a2 / ist es umgekehrt. Hier steht der In der obigen Situation gilt für jedes B 2 A mit P .B/ > 0
„bedingende Zustand“ a1 vor dem Zustand a2 des zweiten Teil- die nach Thomas Bayes (1702–1761) benannte Formel
experiments. In der Situation von (3.21) gilt also p.a1 ; a2 / D
P .BjA/. J P .Ak / P .BjAk /
P .Ak jB/ D P ; k 1:
j 1 P .Aj / P .BjAj /
Eine direkte Verallgemeinerung von (3.20) ist die induktiv ein-
zusehende allgemeine Multiplikationsregel
Y
n Beweis Nach der Formel von der totalen Wahrscheinlichkeit
P .A1 \ : : : \ An / D P .A1 / P .Aj jA1 \ : : : \ Aj 1 / sind der Nenner gleich P .B/ und der Zähler gleich P .B \ Ak /.
Kapitel 3
j D2
(3.22)
Obwohl die Formel von der totalen Wahrscheinlichkeit und die
für n Ereignisse A1 ; : : : ; An , wobei P .A1 \ : : : \ An1 / > Bayes-Formel aus mathematischer Sicht einfach sind, ist ihre
0. Letztere Bedingung stellt sicher, dass alle auftretenden be- Bedeutung sowohl für die Behandlung theoretischer Probleme
dingten Wahrscheinlichkeiten definiert sind. Der Hauptanwen- als auch im Hinblick auf Anwendungen immens. Erstere For-
dungsfall hierfür ist ein n-stufiges Experiment mit gegebener mel kommt immer dann zum Einsatz, wenn zur Bestimmung
Startverteilung und gegebenen Übergangswahrscheinlichkeiten der Wahrscheinlichkeit eines „komplizierten“ Ereignisses B ei-
(vgl. (3.8)), wobei ne Fallunterscheidung weiterhilft. Diese Fälle sind durch die
paarweise disjunkten Ereignisse A1 ; A2 ; : : : einer Zerlegung des
Aj D ˝1 : : : ˝j 1 faj g ˝j C1 : : : ˝n Grundraums ˝ gegeben. Kennt man die Wahrscheinlichkeiten
der Aj und – aufgrund der Rahmenbedingungen des stochas-
das Ereignis bezeichnet, dass beim j -ten Teilexperiment das Er- tischen Vorgangs – die bedingten Wahrscheinlichkeiten von B
gebnis aj auftritt (j D 1; : : : ; n; aj 2 ˝j ). Definieren wir P unter diesen Fällen, so ergibt sich P .B/ als eine mit den Wahr-
über (3.11) und (3.10), so stimmt die bedingte Wahrscheinlich- scheinlichkeiten der Aj gewichtete Summe dieser bedingten
keit P .Aj jA1 \ : : : \ Aj 1 / mit der in (3.8) angegebenen Über- Wahrscheinlichkeiten. Ein Beispiel hierfür ist ein zweistufiges
gangswahrscheinlichkeit pj .a1 ; : : : ; aj 1 ; aj / überein, und die Experiment, bei dem das Ereignis Aj D fej g ˝2 einen
Multiplikationsregel ist nichts anderes als die erste Pfadregel Ausgang ej des ersten Teilexperiments beschreibt und sich das
(3.10). Ereignis B D ˝1 fbg auf ein Ergebnis b des zweiten Teilex-
periments bezieht. Nach früher angestellten Überlegungen gilt
P .Aj / D p1 .ej / sowie P .BjAj / D p2 .ej ; b/. Wegen
Die Formel von der totalen Wahrscheinlichkeit X X
P .B/ D p1 .a1 /p2 .a1 ; a2 / D p1 .ej /p2 .ej ; b/
unterscheidet Fälle, die Bayes-Formel j 1
.a1 ;a2 /2˝1 fbg
aktualisiert Wahrscheinlichkeiten
geht die Formel von der totalen Wahrscheinlichkeit in diesem
Fall in die zweite Pfadregel über.
Formel von der totalen Wahrscheinlichkeit
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und Beispiel Gegeben seien 3 Urnen U1 ; U2 ; U3 . Urne Uj enthalte
A1 ; A2 ; : : : endlich oder abzählbar-unendlich
P viele paar- j 1 rote und 3 j schwarze Kugeln. Es wird eine Urne rein
weise disjunkte Ereignisse mit j 1 Aj D ˝ sowie zufällig ausgewählt und dann aus dieser Urne rein zufällig zwei
P .Aj / > 0, j 1. Dann gilt für jedes B 2 A: Kugeln mit Zurücklegen gezogen. Mit welcher Wahrscheinlich-
keit sind beide Kugeln rot?
X
P .B/ D P .Aj / P .BjAj /: Bezeichnen Aj das Ereignis, dass Urne j ausgewählt wird
j 1 (j D 1; 2; 3) und B das Ereignis, dass beide gezogenen Kugeln
rot sind, so gilt aufgrund der Aufgabenstellung P .Aj / D 1=3
52 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
(j D 1; 2; 3) sowie P .BjA1/ D 0, P .BjA2/ D 1=4 und für k D 3 gegen eins. Das gleiche asymptotische Verhalten wür-
P .BjA3/ D 1. Nach der Formel von der totalen Wahrschein- de man für jede andere Wahl der A-priori-Wahrscheinlichkeiten
lichkeit folgt P .Aj / (j D 0; 1; 2; 3) erhalten (Aufgabe 3.9). Unter dem
1 1 5 Eindruck objektiver Daten gleichen sich also u. U. zunächst
P .B/ D 0 C C 1 D :
3 4 12 sehr unterschiedliche, z. B. von verschiedenen Personen vorge-
nommene, A-priori-Bewertungen als A-posteriori-Bewertungen
Als formaler Grundraum für diesen zweistufigen stochastischen immer weiter an – was sie bei lernfähigen Individuen auch soll-
Vorgang kann ˝ D f.j ; k/ j j D 1; 2; 3I k D 0; 1; 2g gewählt ten. J
werden. Dabei geben j die Nummer der ausgewählten Urne und
k die Anzahl der gezogenen roten Kugeln an. In diesem Raum
Beispiel (Zur Interpretation der Ergebnisse medizini-
ist Aj D f.j ; k/ j k D 0; 1; 2g und B D f.j ; 2/ j j D 1; 2; 3g.
scher Tests) Bei medizinischen Tests zur Erkennung von
J
Krankheiten sind falsch positive und falsch negative Befunde
unvermeidlich. Erstere diagnostizieren das Vorliegen der Krank-
Die Bayes-Formel erfährt eine interessante Deutung, wenn die
heit bei einer gesunden Person, bei letzteren wird eine kranke
Ereignisse A1 ; A2 ; : : : als Ursachen oder Hypothesen für das
Person als gesund angesehen. Unter der Sensitivität bzw. Spe-
Eintreten des Ereignisses B angesehen werden. Ordnet man den
zifität des Tests versteht man die mit pse bzw. psp bezeichneten
Aj vor der Beobachtung eines stochastischen Vorgangs gewis-
Wahrscheinlichkeiten, dass eine kranke Person als krank bzw.
se Wahrscheinlichkeiten P .Aj / zu, so nennt man P .Aj / die
eine gesunde Person als gesund erkannt wird. Für Standard-
A-priori-Wahrscheinlichkeit für Aj . Mangels genaueren Wis-
tests gibt es hierfür verlässliche Schätzwerte. So besitzt etwa der
sens über die Hypothesen Aj werden letztere häufig als gleich
ELISA-Test zur Erkennung von Antikörpern gegen das HI-Virus
wahrscheinlich angenommen (dies ist natürlich nur bei endlich
eine Sensitivität von 0:999 und eine Spezifität von 0:998.
vielen Aj möglich). Das Ereignis B trete mit der bedingten
Kapitel 3
Wahrscheinlichkeit P .BjAj / ein, falls Aj eintritt, d. h. Hypothe- Nehmen wir an, eine Person habe sich einem Test auf Vorlie-
se Aj zutrifft. Beobachtet man nun das Ereignis B, so ist die „in- gen einer bestimmten Krankheit unterzogen und einen positiven
verse“ bedingte Wahrscheinlichkeit P .Aj jB/ die A-posteriori- Befund erhalten. Mit welcher Wahrscheinlichkeit ist sie wirk-
Wahrscheinlichkeit dafür, dass Aj Ursache von B ist. Es liegt lich krank? Die Antwort auf diese Frage hängt von der mit
somit nahe, daraufhin die A-priori-Wahrscheinlichkeiten zu ak- q bezeichneten A-priori-Wahrscheinlichkeit der Person ab, die
tualisieren und den Hypothesen Aj gegebenenfalls andere, näm- Krankheit zu besitzen. Bezeichnen K das Ereignis, krank zu
lich die A-posteriori-Wahrscheinlichkeiten zuzuordnen. Unter sein, sowie
und ˚ die Ereignisse, ein negatives bzw. ein
dem Einfluss weiterer Daten (Beobachtungen) erfolgt dann wie- positives Testergebnis zu erhalten, so führen die Voraussetzun-
derum eine Aktualisierung der A-priori-Wahrscheinlichkeiten gen zu den Modellannahmen P .K/ D q, P .˚jK/ D pse und
usw. Dieses Paradigma liegt z. B. dem maschinellen Lernen zu- P .
jK c / D psp . Nach der Bayes-Formel folgt
grunde. Wie auch die nachstehende klassische Fragestellung
von Laplace aus dem Jahr 1783 zeigt, löst die Bayes-Formel P .K/P .˚jK/
P .Kj˚/ D
somit das Problem der Veränderung von Wahrscheinlichkeiten P .K/P .˚jK/ C P .K c /P .˚jK c /
unter dem Einfluss von Information.
und somit wegen P .K c / D 1 q und P .˚jK c / D 1 psp
Teilgesamtheiten können sich im Gleichschritt konträr zur Es seien .˝; A; P / ein Wahrscheinlichkeitsraum,
Gesamtheit verhalten K1 ; : : : ; Kn paarweise disjunkte Ereignisse mit ˝ D
K1 C: : :CKn sowie A und B Ereignisse mit P .A\Kj / > 0,
Können Sie sich vorstellen, dass eine Universität Männer
P .Ac \ Kj / > 0 für jedes j D 1; : : : ; n. Das Simpson-
so eklatant benachteiligt, dass sie von 1 000 Bewerbern nur
Paradoxon liegt vor, wenn neben den für jedes j D 1; : : : ; n
420 aufnimmt, aber 74 Prozent aller Bewerberinnen zulässt?
geltenden Ungleichungen
Würden Sie glauben, dass diese Universität in jedem ein-
zelnen Fach Männer den Vorzug gegenüber Frauen gibt?
Dass dies möglich ist und in abgeschwächter Form an der P .BjA \ Kj / > P .BjAc \ Kj / (3.24)
Universität Berkeley, Kalifornien, unter Vertauschung der
Geschlechter auch wirklich auftrat (siehe [3]), zeigen nach- „paradoxerweise“ die umgekehrte Ungleichung
stehende fiktive Daten. Dabei wurden der Einfachheit halber
nur zwei Fächer angenommen.
P .BjA/ < P .BjAc / (3.25)
Frauen Männer
Bewerberinnen
zugelassen Bewerber zugelassen erfüllt ist.
Fach 1 900 720 200 180
Berechnet man die bedingten Wahrscheinlichkeiten
Fach 2 100 20 800 240
PA .B/ D P .BjA/ und PAc .B/ D P .BjAc / mithilfe der
Kapitel 3
Summe 1 000 740 1 000 420
Formel von der totalen Wahrscheinlichkeit, so folgt
aller Männer zugelassen. Auch im zweiten Fach wurden die P .BjA/ D P .Kj jA/P .BjA \ Kj /; (3.26)
Männer mitnichten benachteiligt, denn ihre Zulassungsquote j D1
rung für diesen zunächst verwirrenden Sachverhalt liefern P .BjAc / D P .Kj jAc /P .BjAc \ Kj /: (3.27)
die Darstellungen j D1
0:74 D 0:9 0:8 C 0:1 0:2; 0:42 D 0:2 0:9 C 0:8 0:3 Da die bedingten Wahrscheinlichkeiten P .Kj jA/ in (3.26)
der globalen Zulassungsquoten als gewichtete Mittel der gerade für diejenigen j klein sein können, für die P .BjA \
Zulassungsquoten in den einzelnen Fächern. Obwohl die Kj / groß ist und umgekehrt sowie in gleicher Weise
Quoten der Männer in jedem Fach diejenige der Frauen über- P .Kj jAc / in (3.27) gerade für diejenigen j groß sein kann,
treffen, erscheint die Universität aufgrund der bei Frauen und für die P .BjAc \ Kj / groß ist (ohne natürlich (3.24) zu
Männern völlig unterschiedlichen Gewichtung dieser Quo- verletzen), ist es mathematisch banal, dass das Simpson-
ten auf den ersten Blick männerfeindlich. Die Männer haben Paradoxon auftreten kann.
sich eben überwiegend in dem Fach beworben, in dem eine
Im fiktiven Beispiel der vermeintlich männerfeindlichen
Zulassung sehr schwer zu erlangen war.
Universität ist n D 2, und die Ereignisse K1 und K2 stehen
Hinter diesem konstruierten Beispiel steckt ein allgemei- für eine Bewerbung in Fach 1 bzw. Fach 2. Weiter bezeichnet
nes, als Simpson-Paradoxon bekanntes Phänomen (benannt B (bzw. A) das Ereignis, dass eine aus allen 2 000 Bewerbern
nach dem britischen Statistiker Edward Hugh Simpson rein zufällig herausgegriffene Person zugelassen wird (bzw.
(1922–2019)). Dieses Paradoxon kann wie folgt mithilfe be- männlich ist). Die in der Überschrift genannten Teilgesamt-
dingter Wahrscheinlichkeiten formuliert werden: heiten sind die Bewerber(innen) für die beiden Fächer.
für eine HIV-Infektion bei positivem Befund im Fall q D 0:001 nur etwa ein Drittel wirklich infiziert. Diese einfache Überle-
nur etwa 1/3. Dieses Ergebnis erschließt sich leicht, wenn man gung entspricht Formel (3.23), wenn man Zähler und Nenner
gedanklich eine Million Personen dem Test unterzieht. Wenn mit der Anzahl der getesteten Personen, also im obigen Fall mit
von diesen (gemäß q D 0:001) 1 000 infiziert und 999 000 1 000 000, multipliziert.
gesund sind, so würden von den Infizierten fast alle positiv ge-
testet, wegen psp D 0:998 aber auch (und das ist der springende Bzgl. einer Verallgemeinerung von Formel (3.23) für den Fall,
Punkt!) etwa 2 Promille der Gesunden, also etwa 2 000 Perso- dass die wiederholte Durchführung des ELISA-Tests bei einer
nen. Von insgesamt ca. 3 000 positiv Getesteten ist dann aber Person ein positives Resultat ergibt, siehe Übungsaufgabe 3.16.
J
54 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Tab. 3.1 Auszug der Sterbetafel 2001/2003 für Deutschland (Quelle: und somit P .AxC2 jAx / D px pxC1 : Induktiv folgt dann
Statistisches Bundesamt 2004)
Vollendetes Sterbewahrsch. Überlebenswahrsch. Lebende P .AxCk jAx / D px pxC1 : : : pxCk1 ; k D 1; 2; : : :
Alter in Œx; x C 1/ in Œx; x C 1/ im Alter x
x qx px `x Die Wahrscheinlichkeit, dass ein 60-Jähriger seinen 65. Ge-
0 0.00465517 0.99534483 100 000
burtstag erlebt, ist folglich nach Tab. 3.1
1 0.00042053 0.99957947 99 534
P .A65 jA60 / D p60 p61 p62 p63 p64 0:933:
2 0.00023474 0.99976526 99 493
3 0.00021259 0.99978741 99 469 Mit knapp 7-prozentiger Wahrscheinlichkeit stirbt er also vor
:: :: :: ::
: : : : Vollendung seines 65. Lebensjahres. J
58 0.00982465 0.99017535 89 296
59 0.01072868 0.98927132 88 419
60 0.01135155 0.98864845 87 470 3.3 Stochastische Unabhängigkeit
61 0.01249053 0.98750947 86 477
In diesem Abschnitt steht die stochastische Unabhängigkeit als
62 0.01366138 0.98633862 85 397
eine weitere zentrale Begriffsbildung der Stochastik im Mit-
63 0.01493241 0.98506759 84 230
telpunkt. Die Schwierigkeiten im Umgang mit diesem Begriff
64 0.01627038 0.98372962 82 973
erkennt man schon daran, dass man gemeinhin (fälschlicher-
65 0.01792997 0.98207003 81 623 weise) einem Ereignis eine umso höhere Wahrscheinlichkeit
66 0.01993987 0.98006013 80 159 zubilligen würde, je länger es nicht eingetreten ist. Dies gilt etwa
:: :: :: ::
Kapitel 3
: : : : beim oft allzu langen Warten auf die erste Sechs beim wieder-
holten Würfelwurf oder beim Warten auf das Auftreten von Rot
beim Roulette-Spiel, wenn einige Male Schwarz in Folge aufge-
Beispiel (Sterbetafeln) Sterbetafeln geben für jedes er- treten ist.
reichte Lebensalter x (in Jahren) an, mit welcher Wahrschein-
lichkeit eine Person einer wohldefinierten Gruppe das Alter Video 3.1 Stochastische Unabhängigkeit I
x C 1 erreicht. Derartige Tafeln sind somit für die Prämien-
kalkulation von Lebens- und Rentenversicherungen von großer
Bedeutung.
Tab. 3.1 zeigt einen Auszug aus der vom Statistischen Bundes-
amt herausgegebenen und laufend aktualisierten Sterbetafel für
Männer. Die Wahrscheinlichkeit einer x-jährigen Person, vor
Erreichen des Alters x C 1 und somit innerhalb des nächsten Im Folgenden sei .˝; A; P / ein fester Wahrscheinlichkeits-
Jahres zu sterben, wird als Sterbewahrscheinlichkeit qx be- raum. Sind A; B 2 A Ereignisse mit P .A/ > 0, so haben wir
zeichnet. Die Größe px WD 1 qx ist dann die entsprechende die bedingte Wahrscheinlichkeit von B unter der Bedingung A
Überlebenswahrscheinlichkeit, also die Wahrscheinlichkeit, als den Quotienten P .BjA/ D P .A \ B/=P .A/ definiert. Für
als x-jährige Person auch das Alter x C 1 zu erreichen. Ne- den Fall, dass P .BjA/ gleich der (unbedingten) Wahrschein-
ben diesen Wahrscheinlichkeiten zeigt Tab. 3.1 auch für jedes lichkeit P .B/ ist, gilt
Alter x die Anzahl `x der dann noch lebenden männlichen Per-
sonen. Dabei geht man wie üblich von einer sog. Kohorte von P .A \ B/ D P .A/ P .B/: (3.28)
`0 WD 100 000 neugeborenen Personen aus. Zwischen `x und
px besteht der Zusammenhang px D `xC1 =`x . Die Ereignisse sind demnach im Sinne der folgenden allgemei-
nen Definition stochastisch unabhängig.
Vom stochastischen Standpunkt aus sind die Einträge px und qx
in Tab. 3.1 bedingte Wahrscheinlichkeiten. Ist Ax das Ereignis,
dass eine rein zufällig aus der Kohorte herausgegriffene Person Stochastische Unabhängigkeit von Ereignissen
das Alter x erreicht, so gelten
Ereignisse A1 ; : : : ; An , n 2, in einem Wahrscheinlich-
px D P .AxC1 jAx /; qx D P .AcxC1 jAx /: keitsraum .˝; A; P / heißen (stochastisch) unabhängig,
falls gilt:
Da für jedes x 1 aus dem Ereignis AxC1 das Ereignis Ax
0 1
folgt, also AxC1 Ax und somit AxC1 \ Ax D AxC1 gilt, ergibt
\ Y
sich nach der allgemeinen Multiplikationsregel (3.22) P@ Aj A D P .Aj /
P .AxC2 \ AxC1 \ Ax / j 2T j 2T
P .AxC2 jAx / D
P .Ax / für jede mindestens zweielementige Menge T
P .Ax /P .AxC1 jAx /P .AxC2 jAxC1 \ Ax / f1; 2; : : : ; ng.
D
P .Ax /
3.3 Stochastische Unabhängigkeit 55
Die Unabhängigkeit von n Ereignissen ist durch roten und einer schwarzen Kugel, aus der zweimal rein zu-
2n n 1 Gleichungen bestimmt fällig ohne Zurücklegen gezogen wird. Bezeichnen A bzw.
B die Ereignisse, dass die erste bzw. die zweite gezogene
Kugel rot ist, so gelten P .BjA/ D 1=2 und P .B/ D 2=3.
Kommentar Unabhängigkeit von A1 ; : : : ; An bedeutet, dass Dies zeigt, dass A und B nicht unabhängig sind. Zwar ist B
die Wahrscheinlichkeit des Durchschnitts irgendwelcher dieser real beeinflusst von A, aber nicht A von B, da sich B auf den
Ereignisse gleich dem Produkt der einzelnen Wahrscheinlich- zweiten und A auf den ersten Zug bezieht. Im Unterschied zu
keiten ist. Da aus einer n-elementigen Menge auf 2n n 1 realer Beeinflussung ist jedoch der Unabhängigkeitsbegriff
Weisen Teilmengen mit mindestens zwei Elementen gebildet symmetrisch!
werden können, sind für den Nachweis der Unabhängigkeit von Wie das folgende Beispiel zeigt, schließen sich reale Beein-
n Ereignissen 2n n 1 Gleichungen nachzuprüfen. Für zwei flussung und Unabhängigkeit aber auch nicht aus. Bezeich-
Ereignisse A und B bzw. drei Ereignisse A; B; C müssen also nen bei zweifachen Wurf mit einem echten Würfel A bzw.
(3.28) bzw. B die Ereignisse, dass die Augensumme ungerade ist bzw.
dass der erste Wurf eine gerade Augenzahl ergibt, so gel-
P .A \ B/ D P .A/ P .B/; (3.29)
ten – wie man durch elementares Abzählen nachrechnet –
P .A \ C / D P .A/ P .C /; (3.30) P .A/ D P .B/ D 1=2 sowie P .A\B/ D 1=4. Die Ereignis-
P .B \ C / D P .B/ P .C /; (3.31) se A und B sind also unabhängig, obwohl jedes Ereignis das
P .A \ B \ C / D P .A/ P .B/ P .C / (3.32) Eintreten des jeweils anderen Ereignisses real mitbestimmt.
Unabhängigkeit darf keinesfalls mit Disjunktheit verwech-
gelten. J selt werden! Wegen A \ B D ; sind disjunkte Ereignisse
genau dann unabhängig, wenn mindestens eines von ihnen
Kapitel 3
Selbstfrage 3 die Wahrscheinlichkeit null besitzt und damit ausgesprochen
Warum hat eine n-elementige Menge 2n n 1 Teilmengen mit uninteressant ist.
mindestens 2 Elementen? Aus der Unabhängigkeit von A1 ; : : : ; An für n 3 folgt di-
rekt aus der Definition, dass für jedes k 2 f2; : : : ; n 1g
und jede Wahl von i1 ; : : : ; ik mit 1 i1 < : : : < ik n
Video 3.2 Stochastische Unabhängigkeit II die Ereignisse Ai1 ; : : : ; Aik unabhängig sind. Wie Aufgabe
3.29 zeigt, kann man jedoch i. Allg. aus der Unabhängigkeit
von jeweils n 1 von n Ereignissen A1 ; : : : ; An nicht auf die
Unabhängigkeit von A1 ; : : : ; An schließen. J
Beispiel Es seien ˝ WD f1; 2; 3; 4; 5; 6; 7; 8g und P die Beispiel Es seien ˝ D ˝1 : : :˝n mit abzählbaren Mengen
Gleichverteilung auf ˝. Für die Ereignisse A WD B WD ˝j und Pj ein Wahrscheinlichkeitsmaß auf ˝j , j D 1; : : : ; n.
f1; 2; 3; 4g und C WD f1; 5; 6; 7g gelten dann P .A/ D P .B/ D Setzen wir pj .aj / WD Pj .faj g/, aj 2 ˝j , sowie
P .C / D 1=2 sowie
Y
n
Achtung Aj WD ˝1 : : : ˝j 1 Bj ˝j C1 : : : ˝n ;
Unabhängigkeit ist strikt von realer Beeinflussung zu unter- mit Bj ˝j , j D 1; : : : ; n, so ist Aj ein Ereignis in ˝, das sich
scheiden! Als Beispiel betrachten wir eine Urne mit zwei nur auf das j -te Teilexperiment bezieht. Wir zeigen jetzt, dass
56 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Unter der Lupe: Stochastik vor Gericht: Der Fall Sally Clark
Ist doppelter plötzlicher Kindstod ein Fall von Unabhängig- (sie interpretierte diese verschwindend kleine Wahrschein-
keit? lichkeit zudem fälschlicherweise als Wahrscheinlichkeit für
die Unschuld der Mutter!) und verurteilte Sally Clark mit
Dass mangelnde Sensibilisierung für die Frage, wie stark Zu-
10 W 2 Stimmen.
fallsereignisse stochastisch voneinander abhängen können,
bisweilen fatale Folgen haben kann, zeigt sich immer wie- Die Royal Statistical Society (RSS) drückte in einer Presse-
der in Gerichtsverfahren. Der nachstehend geschilderte Fall erklärung im Oktober 2001 ihre Besorgnis über den Miss-
steht insofern nicht allein. brauch von Statistik im Fall Sally Clark aus. Die von Herrn
Meadow in dessen Berechnung unterstellte Annahme, die Er-
Im Dezember 1996 stirbt der 11 Wochen alte Christo-
eignisse Aj , dass das j -te Kind durch plötzlichen Kindstod
pher Clark; die Diagnose lautet auf plötzlichen Kindstod.
stirbt (j D 1; 2), seien stochastisch unabhängig, sei so-
Nachdem die Eltern im November 1997 ein zweites Baby
wohl empirisch nicht gerechtfertigt als auch aus prinzipiellen
bekommen und auch dieses im Alter von acht Wochen un-
Gründen falsch. So könne es genetische oder Umweltfakto-
ter gleichen Umständen stirbt, gerät die Mutter Sally unter
ren geben, die die (bedingte) Wahrscheinlichkeit für einen
zweifachen Mordverdacht. Sie wird im November 1999 zu
zweiten Kindstod deutlich erhöhen könnten; die RSS führte
lebenslanger Haft verurteilt.
noch weitere Aspekte von Missbrauch der Statistik im Fall
Das Gericht stützte sich maßgeblich auf ein statistisches Sally Clark an. Weitere Informationen und diverse Literatur-
Gutachten von Sir Roy Meadow, einem renommierten Kin- angaben finden sich unter der Internetadresse
Kapitel 3
A1 ; : : : ; An aufgrund des Produktansatzes (3.33) stochastisch Komplement übergehen und erhält, dass Ac und B c unabhängig
unabhängig sind. Sei hierzu T f1; : : : ; ng mit 2 jT j n sind. Induktiv ergibt sich hieraus, dass im Fall der Unabhängig-
beliebig. Dann gilt keit von Ereignissen A1 ; : : : ; An für jede Wahl von Teilmengen
\ I ; J f1; : : : ; ng mit I \ J D ; die Gleichungen
Aj D C1 C2 : : : Cn 0 1
j 2T \ \ Y Y
P @ Ai \ Ajc A D P .Ai / P .Ajc / (3.34)
mit Cj WD Aj für j 2 T und Cj WD ˝j , falls j … T . Wegen
X i 2I j 2J i 2I j 2J
P .C1 : : : Cn / D p.!/ erfüllt sind. Hierbei definiert man Schnitte über die leere Men-
!2C1 :::Cn ge zu ˝ und Produkte über die leere Menge zu eins. Wir
0 1 0 1
X X werden dieses Resultat in einem allgemeineren Rahmen herlei-
D@ p1 .a1 /A : : : @ pn .an /A ten. Hierzu definieren wir die stochastische Unabhängigkeit von
a1 2C1 an 2Cn / Mengensystemen.
D P1 .C1 / : : : Pn .Cn /
Y
D P .Aj / Stochastische Unabhängigkeit von Mengensystemen
j 2T Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
sind A1 ; : : : ; An stochastisch unabhängig. Dabei ergibt sich das Mj A, j D 1; : : : ; n, n 2, nichtleere Systeme
letzte Gleichheitszeichen wegen Pj .Cj / D P .Aj / für j 2 T von Ereignissen. Die Mengensysteme M1 ; : : : ; Mn hei-
und Pj .Cj / D 1 für j … T . J ßen (stochastisch) unabhängig, falls gilt:
0 1
Sind A und B unabhängige Ereignisse, so gilt \ Y
P@ Aj A D P .Aj /
P .Ac \ B/ D P .B/ P .A \ B/ D P .B/ P .A/P .B/ j 2T j 2T
M1 ; : : : ; Mn auch Teilsysteme N1 M1 ; : : : ; Nn Mn
D P .Aj / P .D`/
`D1 D1
stochastisch unabhängig sind. Oben haben wir gesehen, dass !
mit fAg und fBg auch die größeren Systeme fA; Ac g und Y
k X
1
Kapitel 3
Das nächste Resultat verallgemeinert die eben gemachte Beob- das kleinste Mn umfassende Dynkin-System. Letzteres ist
achtung. In diesem Zusammenhang bezeichnen wir allgemein aber wegen der \-Stabilität von Mn gleich der von Mn er-
ein Mengensystem M P .˝/ als durchschnittstabil (kurz: zeugten -Algebra .Mn /. Folglich sind die Mengensysteme
\-stabil), falls es mit je zwei und damit je endlich vielen Men- M1 ; : : : ; Mn1 ; .Mn / unabhängig. Fahren wir in der gleichen
gen auch deren Durchschnitt enthält. Weise mit dem Mengensystem Mn1 usw. fort, so ergibt sich
die Behauptung.
Auch die erzeugten -Algebren unabhängiger
Beispiel (Bernoulli-Kette, Binomialverteilung) Es sei-
\-stabiler Mengensysteme sind unabhängig en .˝; A; P / ein Wahrscheinlichkeitsraum und A1 ; : : : ; An 2
A stochastisch unabhängige Ereignisse mit gleicher Wahr-
Erweitern unabhängiger \-stabiler Systeme scheinlichkeit p, wobei 0 p 1. Dann besitzt die Indika-
torsumme
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
Mj A, 1 j n, n 2, durchschnittsstabi- X WD 1fA1 g C : : : C 1fAn g
le Mengensysteme. Dann folgt aus der Unabhängigkeit
von M1 ; : : : ; Mn die Unabhängigkeit der erzeugten - die Binomialverteilung Bin.n; p/, d. h., es gilt
Algebren .M1 /; : : : ; .Mn /. !
n k
P .X D k/ D p .1 p/nk ; k D 0; 1; : : : ; n:
k
Beweis Wir betrachten das Mengensystem
Nach (2.7) gilt nämlich
Dn WD fE 2 A j M1 ; : : : ; Mn1 ; fEg sind unabhängigg
0 1
und weisen nach, dass Dn die Eigenschaften eines Dynkin- X \ \
fX D kg D @ Aj \ Ac` A ;
Systems (vgl. Abschn. 8.2) besitzt. Zunächst gilt offenbar ˝ 2
j 2T
Dn . Sind weiter D, E 2 Dn mit D E, so ergibt sich für eine T WjT jDk `…T
D1 j 2T `…T
Y
k n
D P .Aj /P .E n D/: und somit die Behauptung, denn es gibt k
k-elementige Teil-
D1 mengen von f1; : : : ; ng.
58 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
T Q
Ein konkretes Modell für .˝; A; P / und A1 ; : : : ; An ist das j 2 T , die Beziehung P Aj D j 2T P .Aj / erfüllt ist.
j 2T
spezielle Produktexperiment ˝ WD f0; 1gn , A WD P .˝/,
P WD p k .1 p/nk , falls ! D .a1 ; : : : ; an / mit Wegen Aj 2 X 1 .Aj / gibt es eine Menge Bj 2 Aj mit Aj D
P.f!g/
n Xj1 .Bj /, j D 1; : : : ; n. Mit P .Xj 2 Bj / WD P .Xj1.Bj // geht
j D1 j D k sowie Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g.
a
Dieses Modell heißt Bernoulli-Kette der Länge n mit Treffer- obige Gleichung in
wahrscheinlichkeit p. Dabei interpretiert man eine 1 als Treffer 0 1
und eine 0 als Niete. Die Zufallsvariable X zählt also die Anzahl \ Y
der Treffer in n unabhängigen, jedoch nicht notwendig gleich- P@ fXj 2 Bj gA D P .Xj 2 Bj /
artigen Versuchen. Entscheidend ist nur, dass jeder Versuch mit j 2T j 2T
gleicher Wahrscheinlichkeit p einen Treffer (und folglich mit
Wahrscheinlichkeit 1 p eine Niete) ergibt. J über. Sollte T eine echte Teilmenge von f1; : : : ; ng sein, so
kann für jedes i mit i 2 f1; : : : ; ng n T die Menge Bi als
Video 3.4 Binomialverteilung und Bernoulli-Kette Bi WD ˝i gewählt werden. Für jedes solche i ergänzt man
die zu schneidenden Mengen auf der linken Seite um ˝ .D
fXi 2 ˝i g/ und das Produkt rechts um den Faktor 1 .D P .Xi 2
˝i //. Vereinbaren wir noch, Schnitte von Ereignissen, die durch
Zufallsvariablen beschrieben werden, durch Kommata zu kenn-
zeichnen, also
Es seien .˝; A; P / ein Wahrscheinlichkeitsraum, system H übereinstimmen. Nach dem Eindeutigkeitssatz für
.˝1 ; A1 /; : : : ; .˝n ; An /, n 2, Messräume und Maße sind beide Maße identisch. In der Situation obiger Defini-
Xj W ˝ ! ˝j , j D 1; : : : ; n, Zufallsvariablen. tion sind also X1 ; : : : ; Xn genau dann stochastisch unabhängig,
Die Zufallsvariablen X1 ; : : : ; Xn heißen (stochas- wenn ihre gemeinsame Verteilung (das Wahrscheinlichkeitsmaß
tisch) unabhängig, falls ihre erzeugten -Algebren P X ) gleich dem Produkt der Verteilungen von X1 ; : : : ; Xn ist,
.Xj / D Xj1 .Aj /, j D 1; : : : ; n, unabhängig sind. wenn also
O
n
P .X1;:::;Xn / D P Xj (3.36)
Nach Definition sind die Mengensysteme .X1 /; : : : ; .Xn / un- j D1
abhängig, wenn für jede mindestens zweielementige Teilmenge
T von f1; : : : ; ng und jede Wahl von Ereignissen Aj 2 .Xj /, gilt. J
3.3 Stochastische Unabhängigkeit 59
Sind X1 ; : : : ; Xn reelle Zufallsvariablen, so ist die Unabhängig- Voraussetzungen beweisen und beginnen dabei mit dem Letzte-
keit von X1 ; : : : ; Xn gleichbedeutend damit, dass (3.35) für jede ren.
Wahl von Borel-Mengen B1 ; : : : ; Bn gilt. Mit dem Satz über das
Erweitern \-stabiler unabhängiger Systeme und der Tatsache,
dass die -Algebra .X / von den Urbildern eines Erzeugenden- Funktionen unabhängiger Zufallsvariablen
systems der -Algebra des Wertebereichs von X erzeugt wird
(siehe Teil b) des Lemmas über -Algebren und Abbildungen Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
zu Beginn von Abschn. 8.4), reicht es aus, (3.35) für die Men- .˝j ; Aj / sowie .˝j0 ; Aj0 /, j D 1; : : : ; n, n 2, Mess-
gen Bj eines Erzeugendensystems der Borelschen -Algebra räume. Weiter seien Xj W ˝ ! ˝j und hj W ˝j ! ˝j0
zu fordern. Nach dem Satz über Erzeuger der Borel-Mengen in .A; Aj /- bzw. .Aj ; Aj0 /-messbare Abbildungen, j D
Abschn. 8.2 bilden die Intervalle .1; x mit x 2 R ein derar- 1; : : : ; n. Sind dann X1 ; : : : ; Xn stochastisch unabhängig,
tiges System. Wir erhalten somit für reelle Zufallsvariablen das so sind auch die Zufallsvariablen
folgende Kriterium für stochastische Unabhängigkeit: (
˝ ! ˝j0 ;
hj .Xj / D hj ı Xj W
! 7! hj .Xj /.!/ WD hj .Xj .!//;
Unabhängigkeit und Verteilungsfunktionen
j D 1; : : : ; n, stochastisch unabhängig.
Reelle Zufallsvariablen X1 ; : : : ; Xn auf einem Wahr-
scheinlichkeitsraum .˝; A; P / sind genau dann stochas-
tisch unabhängig, wenn gilt:
Beweis Für den Beweis benötigen wir nur, dass die Unabhän-
Y
n gigkeit von X1 ; : : : ; Xn über die Unabhängigkeit der erzeugten
Kapitel 3
P .X1 x1 ; : : : ; Xn xn / D P .Xj xj / (3.37) -Algebren .X1 /; : : : ; .Xn / definiert ist und mit Mengensys-
j D1 temen auch Teilsysteme davon unabhängig sind. Die Behaup-
tung folgt dann aus
für alle x1 ; : : : ; xn 2 R.
.hj ı Xj / D .hj ı Xj /1 .Aj0 / D Xj1 .hj1 .Aj0 //
Xj1 .Aj / D .Xj /:
Die Namensgebung des obigen Kriteriums rührt daher, dass
P .Xj x/ als Funktion von x die Verteilungsfunktion von Dabei gilt die Inklusion wegen der Messbarkeit von hj .
Xj darstellt (siehe Abschn. 5.1). Da zudem für die linke Seite
von (3.37) als Funktion von x1 ; : : : ; xn der Begriff gemein-
same Verteilungsfunktion von X1 ; : : : ; Xn üblich ist, kann Zusammenfassen unabhängiger \-stabiler Systeme
obiges Kriterium auch wie folgt formuliert werden: Reelle Zu-
fallsvariablen X1 ; : : : ; Xn sind genau unabhängig, wenn ihre Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und
gemeinsame Verteilungsfunktion gleich dem Produkt der Vertei- Mj A, 1 j n, n 2, unabhängige \-stabile
lungsfunktionen der Xj ist. Spezielle Situationen (diskrete und Mengensysteme. Weiter sei f1; : : : ; ng D I1 C: : :CIs eine
stetige Zufallsvariablen) werden in den beiden nächsten Kapi- Zerlegung von f1; : : : ; ng in paarweise disjunkte nichtlee-
teln behandelt. re Mengen I1 ; : : : ; Is . Bezeichnet
0 1
[
Ak WD @ Mj A ; k D 1; : : : ; s;
Funktionen unabhängiger Zufallsvariablen sind j 2Ik
unabhängig
die von allen Mj mit j 2 Ik erzeugte -Algebra, so sind
Sind X , Y und Z unabhängige reelle Zufallsvariablen, so auch A1 ; : : : ; As stochastisch unabhängig.
sind auch die Zufallsvariablen sin.X C cos.Y // und exp.Z/
unabhängig. Hinter diesem (zu beweisenden) offensichtlichen
Resultat stecken zwei allgemeine Prinzipien. Das erste besagt,
dass man unabhängige Zufallsvariablen in disjunkte Blöcke zu- Beweis Für k D 1; : : : ; s sei
sammenfassen kann und wieder unabhängige Zufallsvariablen ˚
Bk WD Ai1 \ : : : \ Aim j m 1; ; ¤ fi1 ; : : : ; im g Ik ;
enthält. In obigem Fall sind die Blöcke der zweidimensiona-
le Vektor .X ; Y / sowie Z. Das zweite Prinzip lautet, dass Ai1 2 Mi1 ; : : : ; Aim 2 Mim
messbare Funktionen unabhängiger Zufallsvariablen ebenfalls
unabhängig sind. Im obigen Beispiel sind dies die Funktionen die Menge aller Schnitte endlich vieler Mengen aus den Men-
f W R2 ! R, .x; y/ 7! sin.x C cos.y// und g W R ! R, gensystemen Mj , j 2 f1; : : : ; ng mit j 2 Ik . Wegen der \-
x 7! exp.x/. Wir werden beide Prinzipien unter allgemeinen Stabilität der Mj ist auch Bk \-stabil. Zudem sind B1 ; : : : ; Bs
60 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Kollisionen beim Verteilen von Kugeln auf Fächer sind bei oder ik < n. Mit der abkürzenden Schreibweise a D
einer rein zufälligen Verteilung am unwahrscheinlichsten. .p2 ; : : : ; pn1 / ergibt sich dann
k Kugeln werden unabhängig voneinander auf n von 1 bis n Sk;n .p1 ; : : : ; pn / D Sk;n2 .a/ C .p1 C pn / Sk1;n2 .a/
nummerierte Fächer verteilt. Jede Kugel gelange mit Wahr-
C p1 pn Sk2;n2 .a/
P pj in das j -te Fach. Dabei sei pj > 0 für jedes
scheinlichkeit
j sowie jnD1 pj D 1 und k n.
und folglich wegen .p1 C pn /2 4p1 pn
Die Wahrscheinlichkeit des mit A bezeichneten Ereignisses,
dass die Kugeln in verschiedene Fächer fallen, ist p1 C pn p1 C pn
Sk;n ; p2 ; : : : ; pn1 ;
X 2 2
P .A/ D kŠ pi1 : : : pik ; D Sk;n2 .a/ C .p1 C pn / Sk1;n2 .a/
1i1 <:::<ik n
p1 C pn 2
C Sk2;n2 .a/
denn es müssen die Nummern i1 ; : : : ; ik für diese Fächer 2
spezifiziert werden, und jede der kŠ Reihenfolgen führt zur Sk;n .p1 ; : : : ; pn /:
gleichen Wahrscheinlichkeit pi1 : : : pik . Somit ist
Das Gleichheitszeichen tritt dabei nur für p1 D pn ein.
Kapitel 3
gesetzt.
p1 C pn p C pn
Sk;n ; p2 ; : : : ; pn1 ; 1
Es ist plausibel, dass P .Ac / in Abhängigkeit von p1 ; : : : ; pn 2 2
im Gleichverteilungsfall p1 D : : : D pn D 1=n mini- > Sk;n p1 ; : : : ; pn
mal wird, und diese Behauptung soll jetzt bewiesen werden.
Hierzu zerlegen wir die Summe Sk;n .p1 ; : : : ; pn / nach dem führt, muss die Gleichverteilung p1 D D pn D 1=n
Auftreten der vier Fälle i1 D 1 oder i1 2 und ik D n vorliegen, und dies war zu zeigen.
Beweis Wir schicken voraus, dass Z1 und Z2 Zufallsvaria- Für unsere Zwecke reicht es aus, den abzählbar-unendlichen
blen, also messbare Abbildungen sind, wenn man die kartesi- Fall, also Folgen von Zufallsvariablen, Ereignissen oder auch
schen Produkte e̋ 1 WD ˝1 : : :˝` und e̋ 2 WD ˝`C1 : : :˝n Mengensystemen zu betrachten. Die Botschaft ist einfach: Man
N
mit den jeweiligen Produkt--Algebren B1 WD j`D1 Aj bzw. zieht sich einfach auf den bislang behandelten Fall zurück.
Nn
B2 WD j D`C1 Aj versieht (s. den Satz nach der Definition
einer Produkt--Algebra in Abschn. 8.4). Wegen
0 1 0 1 Unabhängigkeit einer Folge von Ereignissen, Mengen-
[` [
n
systemen oder Zufallsvariablen
.Z1 / D @ .Xj /A ; .Z2 / D @ .Xj /A
j D1 j D`C1 Es sei .˝; A; P / ein Wahrscheinlichkeitsraum. Eine Fol-
(3.39) ge A1 ; A2 ; : : : von Ereignissen heißt (stochastisch) unab-
hängig, wenn je endlich viele dieser Ereignisse unabhän-
(vgl. Aufgabe 3.31) folgt die Unabhängigkeit von Z1 und Z2 aus gig sind, wenn also für jede endliche Menge I N
dem Satz über das Zusammenfassen unabhängiger \-stabiler mit jI j 2 die Ereignisse Ai mit i 2 I unabhängig
Systeme, wenn man dort Mj D .Xj /, s D 2, I1 D f1; : : : ; `g sind. Gleiches gilt für die Unabhängigkeit einer Folge
und I2 D f` C 1; : : : ; ng setzt. M1 ; M2 ; : : : von Mengensystemen Mj A oder einer
Folge X1 ; X2 ; : : : von Zufallsvariablen Xj W ˝ ! ˝j mit
Aus dem Beweis des Blockungslemmas ist klar, dass die Aus- Werten in allgemeinen Messräumen .˝j ; Aj /, j 1.
sage dieses Lemmas auch für Unterteilungen in mehr als zwei
Blöcke gültig bleibt. Die Botschaft des Blockungslemmas ist,
dass man unabhängige Zufallsvariablen (die nicht notwendig
Abb. 3.5 zeigt ein prägnantes Beispiel für die Notwendig-
Kapitel 3
reell sein müssen) in Blöcke zusammenfassen kann und dass
keit, über eine ganze Folge unabhängiger Ereignisse auf einem
dann die entstehenden – einen vektorartigen Charakter tragen-
Wahrscheinlichkeitsraum verfügen zu müssen. Im ganzzahligen
den – Zufallsvariablen ebenfalls stochastisch unabhängig sind.
Gitter Z2 D f.i; j / j i; j 2 Zg werden je zwei benachbarte Git-
Bildet man letztere Zufallsvariablen mithilfe messbarer Funk-
terpunkte, also Gitterpunkte .i; j / und .k; `/ mit i D k und
tionen weiter ab, so sind die entstehenden Zufallsvariablen nach
jj `j D 1 oder j D ` und ji kj D 1, mit Wahrschein-
dem Satz über Funktionen unabhängiger Zufallsvariablen eben-
lichkeit p durch eine Kante verbunden, und zwar unabhängig
falls unabhängig. Insofern sind mit drei reellen Zufallsvariablen
von allen anderen Kanten. Abb. 3.5 zeigt einen Ausschnitt die-
X , Y und Z auch sin.X C cos.Y // und exp.Z/ unabhängig.
ses Gitters, in dem die so (durch Simulation erhaltenen) Kanten
Nach Aufgabe 3.30 sind n Ereignisse A1 ; : : : ; An genau dann farbig hervorgehoben sind. Auf diese Weise entsteht ein Graph
unabhängig, wenn die Indikatorfunktionen 1fA1 g; : : : ; 1fAn g mit Knotenmenge Z2 und zufallsabhängigen Kanten. Eine Men-
unabhängig sind. Da den mengentheoretischen Operationen ge von Knoten heißt zusammenhängend, wenn je zwei Knoten
A 7! Ac , .A; B/ 7! A [ B und .A; B/ 7! A \ B die al- dieser Menge durch einen Weg entlang der farbigen Kanten ver-
gebraischen Operationen 1fAg 7! 1 1fAg, .1fAg; 1fBg/ 7! bunden sind. Eine der Ausgangsfragen der Perkolationstheorie
max.1fAg; 1fBg/ und .1fAg; 1fBg/ 7! 1fAg 1fBg entspre- ist die folgende: Was ist der kleinste Wert für p 2 Œ0; 1, so-
chen, ergibt sich aus dem Blockungslemma unmittelbar die dass Perkolation auftritt, also mit Wahrscheinlichkeit eins eine
nachstehende Folgerung. unendliche zusammenhängende Knotenmenge existiert?
Beispiel In einem diskreten Wahrscheinlichkeitsraum sucht sind, nennt man die Folge X1 ; X2 ; : : : unabhängig und iden-
man vergeblich nach einer Folge unabhängiger Ereignisse mit tisch verteilt mit Verteilung Q und schreibt hierfür kurz
gleicher Wahrscheinlichkeit 1=2. Ist nämlich .˝; A; P / ein sol-
cher Wahrscheinlichkeitsraum, so gibt es eine abzählbare Teil- u.i.v.
X1 ; X2 ; : : : Q:
menge D ˝ mit P .D/ D 1. Nehmen wir an, A1 ; A2 ; : : : wäre
eine unabhängige Folge von Ereignissen aus A mit P .Aj / D Ist die Verteilung Q nicht von Belang, so spricht man nur von
1=2 für jedes j 1. Wir fixieren ein beliebiges !0 2 D. Für einer unabhängigen und identisch verteilten Folge oder
jedes j 2 N gilt entweder !0 2 Aj oder !0 2 Ajc . Setzen wir kürzer von einer u.i.v.-Folge .Xj /j 1 .
Bj WD Aj , falls !0 2 Aj und Bj WD Ajc sonst, so sind B1 ; B2 ; : : :
T Der obige Satz garantiert insbesondere, dass zu jedem
unabhängige Ereignisse, und es gilt f!0 g jnD1 Bj , n 1, p 2 .0; 1/ ein Modell für eine u.i.v.-Folge X1 ; X2 ; : : : mit
und damit P .Xj D 1/ D p und P .Xj D 0/ D 1 p existiert. Mit
0 1 Aj WD fXj D 1g, j 1, liefert dieses Modell zugleich
\ n Y n n
1 eine Folge stochastisch unabhängiger Ereignisse mit glei-
P .f!0 g/ P @ Bj A D P .Bj / D ; n 1; cher Wahrscheinlichkeit p. Interpretiert man das Eintreten
j D1 j D1
2
von Aj als einen Treffer im j -ten Versuch, so kann dieses
Modell – etwa für den in unabhängiger Folge ausgeführten
also P .f!0g/ D 0. Da !0 2 D beliebig war, folgt P .D/ D 0, Wurf mit einer nicht notwendig homogenen Münze – als eine
was ein Widerspruch zur Annahme P .D/ D 1 ist. Ein diskreter Bernoulli-Kette unendlicher Länge mit Trefferwahrschein-
Wahrscheinlichkeitsraum ist also „zu klein“, um eine derartige lichkeit p angesehen werden. J
Folge von Ereignissen zu enthalten (siehe hierzu auch Aufga-
be 3.32). J
Kapitel 3
1 X 1 X
X1 ; X2 ; : : : sind stochastisch unabhängig, k1 n
1
es gilt P Xj D Qj für jedes j 1. Sn D Xj C Xj
n n j D1 n
j Dk
ordnet als k-te Projektionsabbildung einer Folge aus ˝ de- eine aufsteigende
S Folge von -Algebren über ˝. Das Sys-
Kapitel 3
ren k-tes Folgenglied zu. Als -Algebra A über ˝ bietet tem Z WD 1 nD1 Fn A ist eine Algebra (nicht -Algebra),
sich die von X1 ; X2 ; : : : erzeugte -Algebra die sog. Algebra der Zylindermengen.
O
1 [
1 Definiert man mithilfe des Produkt-Maßes Q1 ˝ ˝Qn auf
A WD Aj D Xj1 .Aj / ; der -Algebra Fn das Wahrscheinlichkeitsmaß Pn durch
j D1 j D1
len -Algebra ist A ein terminales Ereignis bzgl. der Folge .Xj /. lim sup An WD Ak
n!1
J nD1 kDn
n!1
abhängiger \-stabiler Systeme sind für jedes k die - lim inf An D f! 2 ˝ j 9n 1 8k n mit ! 2 Ak g
Algebren .XkC1 ; XkC2 ; : : :/ und .X1 ; : : : ; Xk / unabhängig. n!1
Wegen A1 .XkC1 ; XkC2 ; : : :/ sind dann auch A1 und tritt das Ereignis lim supn!1 An genau dann ein, wenn un-
.X1 ; : : : ; Xk / für jedes k 1Sunabhängig. Es ergibt sich endlich viele der Ereignisse A1 ; A2 ; : : : eintreten. Diese Bedin-
die Unabhängigkeit von A1 und 1 kD1 .X1 ; : : : ; Xk /. Da das gung wird beim Limes inferior noch verschärft. Das Ereignis
letzte Mengensystem \-stabil ist, folgt nach dem Satz über lim infn!1 An tritt genau dann ein, wenn bis auf höchstens
das Erweitern unabhängiger \-stabiler Systeme und der mit- endlich viele Ausnahmen jedes An eintritt. Folglich gilt die In-
tels der Implikation „aus M .N / und N .M/ folgt klusion
.M/ D .N /“ erhältlichen Identität
! ! lim inf An lim sup An :
[1 [
1 n!1 n!1
.X1 ; : : : ; Xk / D .Xk /
kD1 kD1 Offenbar sind beide Ereignisse terminal bzgl. der Folge
S1 .1fAn g/n1 . Sie treten also nach dem Kolmogorovschen Null-
die Unabhängigkeit
S 1 A1 und
von kD1 .Xk / . Wegen Eins-Gesetz nur mit Wahrscheinlichkeit 0 oder 1 ein, wenn die
A1 kD1 .Xk / folgt dann, dass A1 stochastisch un-
Ereignisse A1 ; A2 ; : : : stochastisch unabhängig sind. Das nach-
abhängig von sich selbst ist, und dies war zu zeigen. folgende Lemma gibt Kriterien hierfür an. J
Selbstfrage 5
S1 Das Lemma von Borel-Cantelli
Warum ist das System kD1 .X1 ; : : : ; Xk / \-stabil?
Es sei .An /n1 eine beliebige Folge von Ereignissen in ei-
nem Wahrscheinlichkeitsraum .˝; A; P /. Dann gilt:
Aus dem Null-Eins-Gesetz von Kolmogorov und obigem Bei- P
spielPergibt sich sofort, dass die Folge der arithmetischen Mittel a) Aus 1 nD1 P .An / < 1 folgt P .lim supn!1 An / D 0.
n1 jnD1 Xj von stochastisch unabhängigen reellen Zufallsva- die Ereignisse A1 ; A2 ; : : : unabhängig, so gilt:
b) Sind P
riablen X1 ; X2 ; : : : entweder mit Wahrscheinlichkeit 1 oder mit Aus 1 nD1 P .An / D 1 folgt P .lim supn!1 An / D 1.
Wahrscheinlichkeit 0 konvergiert. In Kap. 6 werden wir mit
dem starken Gesetz großer Zahlen eine hinreichende Bedingung
für die erste Alternative angeben. Das Null-Eins-Gesetz zeigt
Beweis
auch, dass in dem zu Beginn dieses Abschnitts beschriebenen S1
Perkolationsproblem entweder mit Wahrscheinlichkeit eins oder a) Für die durch Bn WD kDn Ak , n 1, defi-
mit Wahrscheinlichkeit null eine unendliche zusammenhängen- nierten Mengen
P gilt wegen der -Subadditivität von P
de Knotenmenge existiert. Hierzu definiert man Xj WD 1, falls P .Bn / 1 kDn P .A k /. Aus der Voraussetzung folgt somit
die j -te Kante gefärbt ist und Xj WD 0 sonst. Dabei nummeriert limn!1 P .Bn/ D 0. Da P stetig von oben und die Folge
man alle Kanten nach dem Abstand der sie bildenden Knoten .Bn / absteigend ist, ergibt sich
vom Ursprung „von innen nach außen“ durch. Das Ereignis, !
dass eine Knotenmenge wie oben existiert, ist dann terminal \
1
P lim sup An D P Bn D lim P .Bn / D 0:
bzgl. der Folge .Xj /. n!1 n!1
nD1
3.5 Markov-Ketten 65
b) Die Ungleichung 1 x ex liefert für x D P .Ak / und jede Die Wahrscheinlichkeit für den gesamten Verlauf des Prozesses
Wahl von m; n 2 N mit n m bis zur Zeit n ist also bestimmt durch die Anfangswahrschein-
! lichkeiten P .X0 D i0 / und die Übergangswahrscheinlichkeiten
X
m Ym
P .Xk D ik jX0 D i0 ; : : : ; Xk1 D ik1 /.
1 exp P .Ak / 1 .1 P .Ak // 1
kDn kDn Man beachte, dass es sich hierbei nur um einen wie zu Beginn
dieses Kapitels beschriebenen mehrstufigen stochastischen Vor-
und somit beim Grenzübergang m ! 1 gang handelt. Die Ergebnisse der einzelnen, zu den Zeitpunkten
0; 1; : : : ; n durchgeführten Stufen werden im Gegensatz zu
Y
m
früher jetzt durch Realisierungen von Zufallsvariablen beschrie-
lim .1 P .Ak // D 0:
m!1 ben.
kDn
Kapitel 3
kDn
" #
Y
m
P .XnC1 D inC1 jX0 D i0 ; : : : ; Xn D in /
D lim lim .1 P .Ak //
n!1 m!1
kDn D P .XnC1 D inC1 jXn D in /: (3.42)
D 0:
Video 3.5 Das Lemma von Borel-Cantelli Kommentar Interpretieren wir Xn als den zufälligen Zu-
stand eines wie immer gearteten stochastischen Systems zur Zeit
n, so präzisiert die auf den russischen Mathematiker Andrej
Andrejewitsch Markov (1856–1922) zurückgehende Markov-
Eigenschaft gerade die zu Beginn dieses Abschnitts formulierte
„Gedächtnislosigkeit“: Das Verhalten des Systems zu einem
zukünftigen Zeitpunkt n C 1 hängt nur von dessen (gegen-
wärtigem) Zustand zur Zeit n ab, nicht aber von der weiteren
3.5 Markov-Ketten Vorgeschichte, also von den Zuständen zu den Zeitpunkten
0; ; : : : ; n 1. Die Positivitätsbedingung (3.41) garantiert, dass
In diesem Abschnitt betrachten wir stochastische Prozesse in
die bedingte Wahrscheinlichkeit in (3.42) wohldefiniert ist.
diskreter Zeit mit abzählbarem Zustandsraum, deren zukünf-
Bedingungen dieser Art werden zukünftig stillschweigend vor-
tiges Verhalten nur von der Gegenwart, nicht aber von der
ausgesetzt und nicht immer formuliert. J
Vergangenheit abhängt. Um diese anschauliche Vorstellung ma-
thematisch zu präzisieren, legen wir für diesen Abschnitt einen
festen Wahrscheinlichkeitsraum .˝; A; P / zugrunde, auf dem Beispiel (Partialsummen unabhängiger Zufallsvariablen) Es
alle auftretenden Zufallsvariablen definiert sind. sei Y0 ; Y1 ; : : : eine Folge stochastisch unabhängiger Zufallsva-
riablen mit Werten in Z. Setzen wir
Ein stochastischer Prozess in diskreter Zeit ist eine Folge
.Xn /n0 von Zufallsvariablen auf ˝. Hierbei deuten wir den In- Xn WD Y0 C : : : C Yn ; n 0;
dex n als Zeit(punkt). Der Prozess beginnt also zur Zeit 0 und
so bildet die Folge .Xn /n0 eine Markov-Kette mit Zustands-
entwickelt sich zu den diskreten Zeitpunkten 1; 2; : : : weiter. Die
raum S WD Z, denn es gilt XnC1 D Xn C YnC1 , und da
Zufallsvariablen mögen Werte in einer abzählbaren Menge S,
Xn eine Funktion von Y0 ; : : : ; Yn ist, sind Xn und YnC1 nach
dem sog. Zustandsraum, annehmen. Sind i0 ; i1 ; : : : ; in 2 S mit
dem Blockungslemma stochastisch unabhängig. Der Zustand
P .X0 D i0 ; : : : ; Xn1 D in1 / > 0, so gilt nach der allgemeinen
des Systems zur Zeit n C 1 ist also eine additive Überlage-
Multiplikationsregel (3.22)
rung des gegenwärtigen Zustandes Xn und einer davon (und
P .X0 D i0 ; : : : ; Xn D in / auch von X0 ; : : : ; Xn1 ) unabhängigen Zufallsvariablen. Bitte
rechnen Sie direkt nach, dass Eigenschaft (3.42) erfüllt ist (Auf-
D P .X0 D i0 / P .X1 D i1 jX0 D i0 / gabe 3.20). J
Y
n
P .Xk D ik jX0 D i0 ; : : : ; Xk1 D ik1 /: Wir setzen stets voraus, dass die Markov-Kette homogen
kD2 ist, was bedeutet, dass die Übergangswahrscheinlichkeiten
66 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
P .XnC1 D inC1 jXn D in / nicht vom Zeitpunkt n abhängen. in Form einer Matrix mit eventuell unendlich vielen Zeilen und
Es gilt dann also Spalten angeordnet denken. Die Matrix
P .XnC1 D inC1 jX0 D i0 ; : : : ; Xn D in / D p.in ; inC1 / P WD .pij /i ;j 2S
mit einer Funktion p W S S ! R0 . Ein einfaches Beispiel ei-
ner nicht homogenen Markov-Kette liefert die zufällige Anzahl heißt Übergangsmatrix der Markov-Kette. Die durch
Xn roter Kugeln nach dem n-ten Zug im Pólyaschen Urnenmo-
0 .i/ WD P .X0 D i/; i 2 S;
dell von Abschn. 3.1 (Aufgabe 3.3).
Das folgende Resultat zeigt, dass wir in (3.42) die Bedingung gegebene Verteilung P X0 von X0 heißt Startverteilung von
X0 D i0 ; : : : ; Xn1 D in1 durch ein allgemeines mithilfe .Xn /n0 . Startverteilung und Übergangsmatrix legen die sto-
von .X0 ; : : : ; Xn1 / formuliertes Ereignis ersetzen können und chastische Entwicklung der Markov-Kette .Xn / eindeutig fest.
somit die Markov-Eigenschaft auch in einer (vermeintlich) ver-
schärften Form gilt. Die Übergangsmatix ist stochastisch, d. h., sie besitzt nichtne-
gative Einträge, und es gilt
X
Satz über die verallgemeinerte Markov-Eigenschaft pij D 1; i 2 S:
j 2S
Es seien X0 ; X1 ; : : : eine Markov-Kette mit Zustandsraum
S sowie n 1 und k > n. Dann gilt für in 2 S und Jede Zeilensumme von P ist also gleich eins.
beliebige Mengen A S kn , B S n :
Im Fall einer Markov-Kette mit endlichem Zustandsraum S
Kapitel 3
P ..XnC1; : : : ; Xk / 2 AjXn D in ; .X0 ; : : : ; Xn1 / 2 B/ oder kurz einer endlichen Markov-Kette nehmen wir S meist
als S WD f1; 2; : : : ; sg oder – was manchmal vorteilhaft ist – als
D P ..XnC1; : : : ; Xk / 2 AjXn D in /: S WD f0; 1; : : : ; s 1g an. Im Fall eines abzählbar-unendlichen
Zustandsraums ist häufig S D N, S D N0 oder S D Z.
Beweis Da P -additiv ist, kann ohne Beschränkung der Beispiel Die Übergangsmatrix einer Markov-Kette mit den
Allgemeinheit A D f.inC1 ; : : : ; ik /g mit inC1 ; : : : ; ik 2 S an- beiden möglichen Zuständen 0 und 1 hat die Gestalt
genommen werden. Für beliebige i0 ; : : : ; in1 2 S gilt
!
P ..XnC1; : : : ; Xk / 2 AjXn D in ; X0 D i0 ; : : : ; Xn1 D in1 / 1p p
PD ;
P .X0 D i0 ; : : : ; Xn D in ; XnC1 D inC1 ; Xk D ik / q 1q
D
P .X0 D i0 ; : : : ; Xn D in /
Q wobei 0 p; q 1. Wir deuten Xn als Zustand eines einfachen
P .X0 D i0 / krD1 p.ir1 ; ir / Bediensystems zur Zeit n. Dieses kann entweder frei (Xn D 0)
D Q
P .X0 D i0 / nrD1 p.ir1 ; ir / oder besetzt (Xn D 1) sein. Die Matrix P ergibt sich dann aus
folgenden Annahmen: Bis zum nächsten Zeitpunkt kann – wenn
D p.in ; inC1 / : : : p.ik1 ; ik /:
überhaupt – nur ein neuer Kunde kommen, was mit Wahrschein-
Da diese Wahrscheinlichkeit nicht von i0 ; : : : ; in1 und damit lichkeit p geschehe. Dabei wird der Kunde abgewiesen, wenn
vom Ereignis fX0 D i0 ; : : : ; Xn1 D in1 g abhängt, folgt die das System besetzt ist. Ist ein Kunde im System, so verlässt die-
Behauptung aus Aufgabe 3.25, indem man für das dortige Er- ser mit der Wahrscheinlichkeit q bis zum nächsten Zeitpunkt das
eignis C fXn D in g und für die paarweise disjunkten Cj die System.
Ereignisse fXn D in ; X0 D i0 ; : : : ; Xn1 D in1 g für verschie- Abb. 3.6 illustriert die Markov-Kette anhand eines Graphen,
dene Vektoren .i0 ; : : : ; in1 / wählt. dessen Knoten die Zustände bilden. Die Übergänge zwischen
den Zuständen sind durch Pfeile mit zugehörigen Übergangs-
Kommentar Interpretieren wir den Zeitpunkt n als „Gegen- wahrscheinlichkeiten dargestellt. J
wart“, so besagt obiges Resultat, dass zwei Ereignisse, von
denen sich eines auf die Zukunft und das andere auf die Vergan-
genheit bezieht, bei gegebener Gegenwart bedingt stochastisch Beispiel Wir verfeinern obiges Modell dahingehend, dass ein
unabhängig sind. J Kunde in einer Warteschleife gehalten werden kann. Dement-
sprechend gibt es jetzt die möglichen Zustände 0, 1 und 2,
Im Fall Xn D 2 kann der nicht in der Warteschleife befindliche Für eine Markov-Kette .Xn / mit Übergangsmatrix P D
Kunde mit Wahrscheinlichkeit q das System bis zum nächsten .pij /i ;j 2S bezeichne
Zeitpunkt verlassen, woraus sich
n WD .P .Xn D i/ j i 2 S/
p20 D 0; p21 D q; p22 D 1 q
den (u. U. unendlich langen) Zeilenvektor der Wahr-
ergibt. Ist genau ein Kunde im System, so seien die Ereignis-
scheinlichkeiten für die Zustände der Kette zur Zeit n,
se, dass dieser Kunde das System verlässt und ein neuer Kunde
Kapitel 3
n 0. Dann gilt:
hinzukommt, stochastisch unabhängig. Das System geht also
vom Zustand 1 in den Zustand 2 über, wenn der Kunde im Sys- n D 0 Pn ; n 1:
tem bleibt und zugleich ein neuer Kunde (in die Warteschleife)
hinzukommt, was mit Wahrscheinlichkeit p12 D p.1 q/ ge-
schieht. In gleicher Weise gilt p10 D q.1 p/, und wir erhalten
die Übergangsmatrix Beweis Die zu beweisende Gleichung folgt aus der Formel
0 1 von der totalen Wahrscheinlichkeit, denn es ist
1p p 0 X
B C P .Xn D j / D P .Xn D j jX0 D i/ P .X0 D i/
P D @q.1 p/ 1 q.1 p/ p.1 q/ p.1 q/A :
i 2S
0 q 1q X .n/
D pij P .X0 D i/:
Abb. 3.7 zeigt den Zustandsgraphen zu dieser Markov-Kette. J i 2S
Wir wenden uns nun der Frage nach dem Langzeitverhalten von Nach obigem Resultat ergibt sich die Verteilung von Xn in Form
Markov-Ketten zu. Hierzu bezeichne des Vektors n durch Multiplikation des Vektors 0 der Start-
.n/ wahrscheinlichkeiten mit der n-Schritt-Übergangsmatrix. Dabei
pij WD P .Xn D j jX0 D i/; i; j 2 S;
seien für den Rest dieses Kapitels Vektoren grundsätzlich als
die Wahrscheinlichkeit, vom Zustand i ausgehend in n Zeit- Zeilenvektoren geschrieben. Das Studium des Langzeitverhal-
schritten in den Zustand j zu gelangen. Dabei lässt man auch tens einer Markov-Kette, also dem Verhalten von n für große
n D 0 zu und definiert Werte von n, läuft somit darauf hinaus, Informationen über Pn
.0/ .0/
pij WD 1; falls i D j und pij WD 0 sonst. für n ! 1 zu gewinnen. Für die folgenden Betrachtungen
.n/
setzen wir eine endliche Markov-Kette voraus. Das zentrale Re-
Man nennt pij die n-Schritt-Übergangswahrscheinlichkeit sultat gilt aber unter einer Zusatzbedingung auch allgemeiner.
von i nach j . Die mit P.n/ bezeichnete Matrix dieser Über-
gangswahrscheinlichkeiten heißt n-Schritt-Übergangsmatrix. Beispiel Wir betrachten die Markov-Kette des Bediensystems
Natürlich gilt P.1/ D P. mit 3 Zuständen 0, 1 und 2 wie in Abb. 3.7 für die speziellen
Die folgende Überlegung zeigt, dass P.n/ gleich der n-ten Po- Parameterwerte p D 0:4 und q D 0:5 und somit die Übergangs-
tenz von P ist. Zerlegen wir das Ereignis fXnC1 D j g nach matrix
0 1
den möglichen Werten von Xn , so ergibt sich mit der Formel 0:6 0:4 0
von der totalen Wahrscheinlichkeit und der (verallgemeinerten) B C
P D @0:3 0:5 0:2A :
Markov-Eigenschaft
0 0:5 0:5
P .XnC1 D j jX0 D i/
X Für P2 ergibt sich
D P .Xn D kjX0 D i/ P .XnC1 D j jXn D k/ 0 1
k2S 0:48 0:44 0:08
X B C
.n/ P2 D @0:33 0:47 0:2 A ;
D pij pkj :
k2S 0:15 0:5 0:35
68 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Markov-Ketten mit zwei absorbierenden Zuständen und somit für dk WD PkC1 Pk die Rekursionsformel
Für a; b 2 N betrachten wir eine Markov-Kette .Xn / mit q
Zustandsraum S D f0; 1; : : : ; a C bg und Übergangswahr- dk D dk1 ; k D 1; : : : ; r 1: (3.46)
p
scheinlichkeiten pi ;i C1 D p D 1 pi ;i 1 für 1 i
a C b 1 sowie p0;0 D 1 D paCb;aCb . Die Zustände 0
Hieraus liest man sofort Pk im Fall p D q D 1=2 ab:
und a C b sind somit absorbierend: Hat man einen von ihnen
Da die Differenzen d1 ; : : : ; dr1 nach (3.46) gleich sind, er-
erreicht, so kann man ihn nicht mehr verlassen. Wir inter-
gibt sich wegen (3.45) das Resultat Pk D k=r und somit
pretieren a und b als die Kapitalvermögen (in Euro) zweier
˛aCb D Pa D a=.a C b/, falls p D 1=2. Im Fall p ¤ 1=2
Spieler A und B, die wiederholt in unabhängiger Folge ein
folgt aus (3.46) induktiv dj D .q=p/j d0 .j D 1; : : : ; r 1/
Spiel spielen, bei dem A und B mit den Wahrscheinlichkei-
und somit
ten p bzw. 1p gewinnen und im Gewinnfall einen Euro von
ihrem Gegenspieler erhalten. Mit X0 WD a steht dann Xn für
den Kapitalstand von A nach dem n-ten Spiel, und eine Ab- Pk D Pk P0
sorption der Markov-Kette im Zustand a C b bzw. 0 besagt, X
k1 k1 j
X q 1 .q=p/k
dass Spieler B bzw. Spieler A bankrott ist (s. nachfolgende D dj D d0 D d0 :
Abbildung). j D0 j D0
p 1 q=p
Kapitel 3
a+b Setzt man hier k D r, so folgt wegen Pr D 1 die Gleichung
d0 D .1 q=p/=.1 .q=p/r /, und man erhält
B ist bankrott
a 1 .q=p/k
Pk D ; falls p ¤ 1=2:
A ist bankrott 1 .q=p/r
definierte Matrix ist stochastisch, und es gilt Pk D ıE C .1 wobei ˛ als Wahrscheinlichkeitsvektor nichtnegative Kompo-
ı/Q. Für x; y 2 W folgt dann mit der Dreiecksungleichung, der nenten hat und die Normierungsbedingung
Beziehung xE D yE für x; y 2 W und (3.47) mit Q anstelle
von P ˛1 C : : : C ˛s D 1
k k
kxP yP k ı k.x y/Ek C .1 ı/ k.x y/Qk erfüllt. J
.1 ı/ kx yk: (3.48)
Beispiel Die Markov-Kette mit zwei Zuständen aus Abb. 3.6
Bezeichnet m WD bn=kc den ganzzahligen Anteil von n=k, so und der Übergangsmatrix
folgt durch Anwendung von (3.47) auf xPkm , yPkm und die sto- !
chastische Matrix Pnkm 1p p
PD
kxPn yPn k D k.xPkm xPkm / Pnkm k q 1q
k.x y/Pkm k: erfüllt im Fall 0 < p; q < 1 die Voraussetzungen des obigen
Wiederholte Anwendung von (3.48) und kx yk 2 liefern Satzes. Die Gleichungen (3.50) lauten in diesem Fall
dann ˛1 D .1 p/˛1 C q˛2 ;
n n bn=kc
kxP yP k 2 .1 ı/ : (3.49) ˛2 D p˛1 C .1 q/˛2 ;
3.5 Markov-Ketten 71
stellen also ein und dieselbe Gleichung dar. Zusammen mit der Um triviale Fälle auszuschließen, haben wir dabei stets pij > 0
Normierungsbedingung ergibt sich für ji j j D 1 vorausgesetzt. Mit der Konvention, ein Produkt
q p über
Ps die leere Menge gleich eins zu setzen, erhält man wegen
˛1 D ; ˛2 D : kD1 ˛k D 1
pCq pCq
Qk1 pj ;j C1
In diesem Fall lässt sich auch relativ leicht ein geschlossener j D1 pj C1;j
Ausdruck für Pn angeben. Wie man direkt nachrechnet, gilt
˛k D Ps1 Qk1 pj ;j C1 ; k D 1; : : : ; s: (3.51)
1C kD1 j D1 pj C1;j
nämlich mit
! !
1 p 1 0 Beispiel Beim diskreten Diffusionsmodell des Physikers Paul
A WD ; D WD Ehrenfest (1880–1933) und der Mathematikerin Tatjana Eh-
1 q 0 1pq
renfest (1876–1964) aus dem Jahr 1907 befinden sich in zwei
die Identität P D A D A1 und somit Behältern A und B zusammen s Kugeln. Man wählt eine der
s Kugeln rein zufällig aus und legt sie in den anderen Behäl-
Pn D A D n A1 ter. Dieser Vorgang wird in unabhängiger Folge wiederholt. Die
! Zufallsvariable Xn bezeichne die Anzahl der Kugeln in Behälter
1 0 A nach n solchen Auswahlen, n 0. Da die Übergangswahr-
DA A1
0 .1 p q/n scheinlichkeit P .XnC1 D j jXn D i/ nur von der Anzahl i der
" ! !# Kugeln in Behälter A nach n Auswahlen abhängt, liegt eine
1 q p p p
D C .1 .p C q//n : zeitlich homogene Markov-Kette vor, deren Übergangsmatrix
pCq q p q q tridiagonal ist, denn es gilt
Kapitel 3
Wegen j1 .p Cq/j < 1 liest man hieran noch einmal direkt die p01 D 1; ps;s1 D 1;
Konvergenz der n-Schritt-Übergangsmatrix gegen die Matrix j
! pj ;j 1 D ; j D 1; : : : ; s 1;
s
˛1 ˛2 j
˛1 ˛2 pj ;j C1 D 1 ; j D 1; : : : ; s 1
s
ab. Die invariante Verteilung des Bediensystems mit drei Zu- und pij D 0 sonst. Wegen
ständen wird in Aufgabe 3.23 behandelt. J !
Y
k1
pj ;j C1 Y sj
k1
s
Die im Ergodensatz angegebene Bedingung der strikten Posi- D D
p
j D0 j C1;j
j C1 k
tivität von Pk für mindestens ein k 1 ist zwar hinreichend, j D0
aber nicht notwendig für die Existenz einer eindeutigen statio- und
nären Verteilung. Ist die Übergangsmatrix P D .pij /1i ;j s eine !
Tridiagonalmatrix, gilt also X Y pj ;j C1
s1 k1 X
s
s
D D 2s
pij D 0; für alle i; j 2 S mit ji j j > 1; p
j D0 j C1;j
k
kD0 kD0
so geht das Gleichungssystem (3.50) in folgt aus (3.51) – wobei nur zu beachten ist, dass wegen S D
f0; 1; : : : ; sg die Indizes ab k D 0 laufen und auch der Index j
˛1 D p11 ˛1 C p21 ˛2 in den auftretenden Produkten bei 0 beginnt –
˛2 D p12 ˛1 C p22 ˛2 C p32 ˛3 !
˛3 D p23 ˛2 C p33 ˛3 C p43 ˛4 s s
˛k D 2 ; k D 0; 1; : : : ; s:
k
:: ::
: :
Die invariante Verteilung ist also die Binomialverteilung
˛s1 D ps2;s1 ˛s2 C ps1;s1 ˛s1 C ps;s1 ˛s Bin.s; 1=2/. Diese kann man gleich zu Beginn bei der Be-
˛s D ps1;s ˛s1 C pss ˛s füllung der Behälter erreichen, wenn jede Kugel unabhängig
von den anderen mit gleicher Wahrscheinlichkeit 1=2 in Be-
über. Nutzt man aus, dass die Zeilensummen von P gleich eins hälter A oder B gelegt wird. In der Physik bezeichnet man
sind, so ergibt sich eine solche invariante Verteilung auch als Gleichgewichtsver-
p12 p12 p23 p12 p23 p34 teilung. Aufgabe 3.24 behandelt das diskrete Diffusionsmodell
˛2 D ˛1 ; ˛3 D ˛1 ; ˛4 D ˛1 von Bernoulli-Laplace, bei dem als Gleichgewichtsverteilung
p21 p21 p32 p21 p32 p43
die hypergeometrische Verteilung auftritt.
und allgemein
Man beachte, dass die Folge .Pn /n1 der n-Schritt-Übergangs-
.2k/
Y
k1
pj ;j C1 matrizen nicht konvergiert, denn pi ;j > 0 kann nur eintreten,
˛k D ˛1 ; k D 2; : : : ; s: wenn i j gerade ist. Andererseits muss i j ungerade sein,
p
j D1 j C1;j .2kC1/
wenn pi ;j positiv ist. J
72 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Für irreduzible aperiodische endliche Die mit d .i/ bezeichnete Periode eines Zustands i 2 S ist der
größte gemeinsame Teiler der Menge
Markov-Ketten gilt der Ergodensatz
.n/
Wie kann man einer Markov-Kette ansehen, ob sie die Vor- Ji WD fn 1 j pi i > 0g;
aussetzungen des Ergodensatzes erfüllt, ob also für ein k 1
.n/
(was u. U. sehr groß sein kann) alle Einträge der k-Schritt- also d .i/ WD ggT.Ji /, falls Ji ¤ ;. Ist pi i D 0 für jedes n 1,
Übergangsmatrix strikt positiv sind? In diesem Zusammenhang so setzt man d .i/ WD 1. Ein Zustand mit der Periode 1 heißt
sind die Begriffsbildungen Irreduzibilität und Aperiodizität aperiodisch. Eine Markov-Kette heißt aperiodisch, wenn jeder
wichtig. Zustand i 2 S aperiodisch ist. Man beachte, dass jeder Zustand
i mit pi i > 0 aperiodisch ist.
Um den ersten Begriff zu definieren, betrachten wir zwei Zu-
stände i und j aus S. Wir sagen i führt zu j oder j ist von i Besitzt also ein Zustand i die Periode 2, so kann die Markov-
aus erreichbar und schreiben hierfür i ! j , falls es ein n 0 Kette nur nach 2; 4; 6 : : : Zeitschritten nach i zurückkehren.
.n/
mit pij > 0 gibt. Gilt i ! j und j ! i, so heißen i und j Dies trifft etwa für jeden Zustand der Irrfahrt mit reflektieren-
kommunizierend, und wir schreiben hierfür i $ j . den Rändern zu.
.0/
Mit der getroffenen Vereinbarung pij D 1 bzw. D 0, falls Zustände in derselben Kommunikationsklasse besitzen die glei-
i D j bzw. i ¤ j gilt, sieht man leicht ein, dass die che Periode. Gilt nämlich i $ j für verschiedene i; j 2 S,
.m/ .n/
Kommunikations-Relation $ eine Äquivalenzrelation auf S so gibt es m; n 2 N mit pij > 0 und pj i > 0 und somit
darstellt: Wegen obiger Vereinbarung ist $ ja zunächst reflexiv .mCn/
pi i
.mCn/
> 0, pjj > 0. Hieraus folgt zunächst Ji ¤ ;, Jj ¤ ;
und nach Definition symmetrisch. Um die Transitivität nachzu- .k/
und somit d .i/ < 1, d .j / < 1. Gilt pjj > 0 für ein k 2 N,
Kapitel 3
.mCn/ .m/
Ist M N eine Teilmenge der natürlichen Zahlen, die mit je
folgt pi k > 0, und aus Symmetriegründen ziehen pj i > 0 zwei Zahlen auch deren Summe enthält und den größten ge-
.n/ .mCn/ meinsamen Teiler 1 besitzt, so enthält M nach einem Resultat
und pkj > 0 die Ungleichung pki > 0 nach sich. Die Rela-
tion $ ist also in der Tat eine Äquivalenzrelation, was bedeutet, der elementaren Zahlentheorie alle bis auf endlich viele natür-
dass die Zustandsmenge S in paarweise disjunkte sog. Kom- liche Zahlen (siehe Aufgabe 3.36). Ist i 2 S ein aperiodischer
munikationsklassen von Zuständen zerfällt. Ein Zustand i 2 S Zustand, so gibt es – da die Menge Ji N gegenüber der Ad-
mit pi i D 1 heißt absorbierend. Absorbierende Zustände bil- dition abgeschlossen ist – nach diesem Resultat ein n0 .i/ 2 N
.n/
den einelementige Kommunikationsklassen. mit der Eigenschaft pi i > 0 für jedes n n0 .i/. Gilt zudem
.k/
i $ j für ein j ¤ i, so existiert ein k.i; j / 2 N mit pij > 0.
Eine Markov-Kette heißt irreduzibel, wenn sie aus einer Klasse .nCk/ .n/ .k.i ;j //
besteht, also jeder Zustand mit jedem kommuniziert, andernfalls Für jedes n n0 .i/ folgt dann pij pi i pij > 0. Ist
reduzibel. .Xn / eine irreduzible und aperiodische Markov-Kette mit Zu-
standsraum S D f1; : : : ; sg, so setzen wir
Selbstfrage 7
Warum gilt die Gleichung (3.52)? r1 WD max n0 .i/; r2 WD max k.i; j /
i D1:::;s 1i ¤j s
.n/
Beispiel Die Markov-Kette mit zwei Zuständen wie in und erhalten wegen pij > 0 für alle i; j 2 S und jedes n
Abb. 3.6 ist genau dann irreduzibel, wenn 0 < p; q < 1 r1 C r2 das folgende Resultat.
gilt. Gleiches gilt für das Bediensystem mit drei Zuständen,
vgl. Abb. 3.7. Eine wie in Abb. 3.8 dargestellte Irrfahrt mit re-
flektierenden Rändern ist irreduzibel, nicht jedoch die in der Satz
Unter-der-Lupe-Box über das Spieler-Ruin-Problem behandel-
te Irrfahrt mit absorbierenden Rändern, also den absorbierenden Ist .Xn / eine endliche irreduzible und aperiodische
Zuständen 0 und a C b. Diese zerfällt in die drei Kommunikati- Markov-Kette, so gilt der Ergodensatz.
onsklassen f0g, f1; : : : ; a C b 1g und fa C bg. J
Zusammenfassung 73
Zusammenfassung
Ein zweistufiger stochastischer Vorgang wird durch den Grund- (stochastisch) unabhängig, wenn die von ihnen erzeugten -
raum ˝ D ˝1 ˝2 modelliert. Dabei beschreibt ˝j die Menge Algebren unabhängig sind. Unendlich viele Ereignisse, Men-
der Ergebnisse der j -ten Stufe, j D 1; 2. Motiviert durch gensysteme oder Zufallsvariablen sind unabhängig, wenn dies
Produkte relativer Häufigkeiten definiert man die Wahrschein- für je endlich viele von ihnen zutrifft. Messbare Funktionen
lichkeit p.!/ D P .f!g/ von ! D .a1 ; a2 / 2 ˝ durch die paarweise disjunkter Blöcke von unabhängigen Zufallsvariablen
erste Pfadregel p.!/ WD p1 .a1 / p2 .a1 ; a2 /. Hier ist p1 .a1 / sind unabhängig. In gleicher Weise sind mengentheoretische
die Start-Wahrscheinlichkeit (initial probability), dass das ers- Funktionen, die aus paarweise disjunkten Blöcken unabhängi-
te Teilexperiment den Ausgang a1 hat, und p2 .a1 ; a2 / ist eine ger Ereignisse gebildet werden, ebenfalls unabhängig. Reelle
Übergangswahrscheinlichkeit (transition probability), die an- Zufallsvariablen X1 ; : : : ; Xn sind genau dann unabhängig, wenn
gibt, mit welcher Wahrscheinlichkeit im zweiten Teilexperiment
\
n Yn
das Ergebnis a2 auftritt, wenn das erste Teilexperiment das Re-
P Xj 2 Bj D P .Xj 2 Bj /
sultat a1 ergab. Induktiv modelliert man n-stufige stochastische
j D1 j D1
Vorgänge, wobei n 3.
Die bedingte Wahrscheinlichkeit (conditional probability) ei- für jede Wahl von Borel-Mengen B1 ; : : : ; Bn gilt.
nes Ereignisses B unter der Bedingung, dass ein Ereignis A Auf unendlichen Produkträumen existieren Folgen unabhängi-
eintritt, ist durch P .BjA/ WD P .A \ B/=P .A/ definiert.
Kapitel 3
P Sind ger Zufallsvariablen mit beliebig vorgegebenen Verteilungen.
A1 ; A2 ; : : : paarweise disjunkte Ereignisse mit ˝ D j 1 Aj ,
Ein bzgl. einer Folge .Xn /n1 von Zufallsvariablen auf einem
so gilt die Formel von der totalen Wahrscheinlichkeit (law of
total probability)
Wahrscheinlichkeitsraum .˝; TA; P / terminales Ereignis (tail
event) gehört zur -Algebra 1 kD1 .Xk ; XkC1 ; : : :/, ist also für
X jedes (noch so große) k nur durch Xk ; XkC1 ; : : : bestimmt. Im
P .B/ D P .Aj / P .BjAj / Fall einer stochastisch unabhängigen Folge hat jedes terminale
j 1
Ereignis entweder die Wahrscheinlichkeit 0 oder 1 (Null-Eins-
Gesetz von Kolmogorov) (Zero-one law).
sowie die Bayes-Formel (Bayes’ rule)
Eine Markov-Kette (Markov chain) ist eine Folge X0 ; X1 ; : : :
P .Ak / P .BjAk / von Zufallsvariablen auf einem Wahrscheinlichkeitsraum
P .Ak jB/ D P : .˝; A; P / mit Werten in einem abzählbaren Zustandsraum
j 1 P .Aj / P .BjAj /
S, sodass für jedes n 1 und jede Wahl von Zuständen
i0 ; : : : ; inC1 2 S die bedingte Wahrscheinlichkeit P .XnC1 D
Die P .Aj / heißen A-priori- und die P .Aj jB/ A-posteriori-
inC1 jX0 D i0 ; : : : ; Xn D in / gleich P .XnC1 D inC1 jXn D in /
Wahrscheinlichkeiten (prior and posterior probability).
ist. Diese sog. Markov-Eigenschaft (Markov property) bedeu-
Ereignisse A1 ; : : : ; An heißen (stochastisch) unabhängig (inde- tet, dass das zukünftige Verhalten der Markov-Kette nur von der
pendent), falls die 2n n 1 Gleichungen Gegenwart und nicht von der Vergangenheit bestimmt ist. Bei
\ Y einer zeithomogenen (time-homogeneous) Markov-Kette hängt
P Aj D P .Aj / P .XnC1 D j jXn D i/ nicht von n ab. Die Markov-Eigenschaft
j 2T j 2T
bleibt gültig, wenn man die Bedingung X0 D i0 ; : : : ; Xn1 D
in1 durch ein allgemeines, mithilfe von .X0 ; : : : ; Xn1 / be-
.T f1; : : : ; ng, jT j 2/ gelten. Mengensysteme schreibbares Ereignis ersetzt.
M1 ; : : : ; Mn A heißen (stochastisch) unabhängig, wenn Die Matrix P D .pij /, i; j 2 S, der Übergangswahrscheinlich-
diese Beziehung für jedes T und jede Wahl von A1 2 keiten einer zeithomogenen Markov-Kette heißt Übergangs-
M1 ; : : : ; An 2 Mn gilt. Die Unabhängigkeit \-stabiler Men- matrix (transition matrix). Die Matrix der n-Schritt-Über-
gensysteme überträgt sich auf deren erzeugte -Algebren und gangswahrscheinlichkeiten (nth order transition probabilities)
auch auf die von paarweise disjunkten Blöcken dieser Systeme .n/
pij WD P .Xn D j jX0 D i/ heißt n-Schritt-Übergangsma-
erzeugten -Algebren.
trix. Sie ist die n-te Potenz von P, und im Fall S D f1; : : : ; sg
Ist X eine Zufallsvariable mit Werten in einem Messraum gilt für den Zeilenvektor n D .P .Xn D 1/; : : : ; P .Xn D s//
.˝ 0 ; A0 /, so heißt das Mengensystem .X / WD X 1 .A0 / A die Gleichung
die von X erzeugte -Algebra (generated -field). Zufalls-
variablen X1 ; : : : ; Xn mit allgemeinen Wertebereichen heißen n D 0 Pn ; n 0:
74 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
Verständnisfragen Rechenaufgaben
3.1 (Drei-Kasten-Problem von Joseph Bertrand 3.5 Zeigen Sie, dass für eine Zufallsvariable X mit
(1822–1900)) Drei Kästen haben je zwei Schubladen. In jeder der in (3.13) definierten Pólya-Verteilung Pol.n; r; s; c/ gilt:
Schublade liegt eine Münze, und zwar in Kasten 1 je eine Gold- s r
Kapitel 3
und in Kasten 2 je eine Silbermünze. In Kasten 3 befindet sich in lim Pc .X D 0/ D ; lim Pc .X D n/ D :
c!1 r Cs c!1 r Cs
einer Schublade eine Gold- und in der anderen eine Silbermün-
ze. Es wird rein zufällig ein Kasten und danach aufs Geratewohl Dabei haben wir die betrachtete Abhängigkeit der Verteilung
eine Schublade gewählt, in der sich eine Goldmünze befinde. von c durch einen Index hervorgehoben.
Mit welcher bedingten Wahrscheinlichkeit ist dann auch in der
anderen Schublade des gewählten Kastens eine Goldmünze? 3.6 Eine Schokoladenfabrik stellt Pralinen her, die je-
weils eine Kirsche enthalten. Die benötigten Kirschen werden
3.2 Es seien A, B und C Ereignisse in einem Wahr- an zwei Maschinen entkernt. Maschine A liefert 70 % dieser
scheinlichkeitsraum .˝; A; P /. Kirschen, wobei 8 % der von A gelieferten Kirschen den Kern
noch enthalten. Maschine B produziert 30 % der benötigten Kir-
a) A und B sowie A und C seien stochastisch unabhängig. Zei- schen, wobei 5 % der von B gelieferten Kirschen den Kern noch
gen Sie an einem Beispiel, dass nicht unbedingt auch A und enthalten. Bei einer abschließenden Gewichtskontrolle werden
B \ C unabhängig sein müssen. 95 % der Pralinen, in denen ein Kirschkern enthalten ist, aussor-
b) A und B sowie B und C seien stochastisch unabhängig. tiert, aber auch 2 % der Pralinen ohne Kern.
Zeigen Sie anhand eines Beispiels, dass A und C nicht
notwendig unabhängig sein müssen. Der Unabhängigkeits- a) Modellieren Sie diesen mehrstufigen Vorgang geeignet. Wie
begriff ist also nicht transitiv! groß ist die Wahrscheinlichkeit, dass eine Praline mit Kirsch-
kern in den Verkauf gelangt?
b) Ein Kunde kauft eine Packung mit 100 Pralinen. Wie groß ist
3.3 Es bezeichne Xn , n 1, die Anzahl roter Kugeln
die Wahrscheinlichkeit, dass nur gute Pralinen, also Pralinen
nach dem n-ten Zug im Pólyaschen Urnenmodell von Abschn.
ohne Kirschkern, in der Packung sind?
3.2 mit c > 0. Zeigen Sie: Mit der Festsetzung X0 WD r ist
.Xn /n0 eine nicht homogene Markov-Kette.
3.7 Ein homogenes Glücksrad mit den Ziffern 1; 2; 3
wird gedreht. Tritt das Ergebnis 1 auf, so wird das Rad noch
3.4 Es sei .Xn /n0 eine Markov-Kette mit Zustands- zweimal gedreht, andernfalls noch einmal.
raum S. Ein Zustand i 2 S heißt wesentlich, falls gilt:
a) Modellieren Sie diesen zweistufigen Vorgang.
8j 2 S W i ! j H) j ! i: b) Das Ergebnis im zweiten Teilexperiment sei die Ziffer bzw.
die Summe der Ziffern. Mit welcher Wahrscheinlichkeit tritt
Andernfalls heißt i unwesentlich. Ein wesentlicher Zustand das Ergebnis j auf, j D 1; : : : ; 6?
führt also nur zu Zuständen, die mit ihm kommunizieren. Zeigen c) Mit welcher Wahrscheinlichkeit ergab die erste Drehung
Sie: Jede Kommunikationsklasse hat entweder nur wesentliche eine 1, wenn beim zweiten Teilexperiment das Ergebnis 3
oder nur unwesentliche Zustände. auftritt?
76 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
3.8 Beim Skatspiel werden 32 Karten rein zufällig 3.13 Es bezeichne ak 2 fm; j g das Geschlecht des k-
an drei Spieler 1, 2 und 3 verteilt, wobei jeder 10 Karten er- jüngsten Kindes in einer Familie mit n 2 Kindern (j = Junge,
hält; zwei Karten werden verdeckt als Skat auf den Tisch gelegt. m = Mädchen, k D 1; : : : ; n). P sei die Gleichverteilung auf der
Spieler 1 gewinnt das Reizen, nimmt den Skat auf und will mit Menge ˝ D fm; j gn aller Tupel .a1 ; : : : ; an /. Weiter sei
Karo-Buben und Herz-Buben einen Grand spielen. Mit welcher
Wahrscheinlichkeit besitzt A D f.a1 ; : : : ; an / 2 ˝ j jfa1 ; : : : ; an g \ fj ; mgj D 2g
a) jeder der Gegenspieler einen Buben? D f„die Familie hat Kinder beiderlei Geschlechts“g;
b) jeder der Gegenspieler einen Buben, wenn Spieler 1 bei Spie- B D f.a1 ; : : : ; an / 2 ˝ j jfj W 1 j n; aj D mgj 1g
ler 2 den Kreuz-Buben (aber sonst keine weitere Karte) sieht? D f„die Familie hat höchstens ein Mädchen“g:
c) jeder der Gegenspieler einen Buben, wenn Spieler 1 bei Spie-
ler 2 einen (schwarzen) Buben erspäht (er ist sich jedoch Beweisen oder widerlegen Sie: A und B sind stochastisch unab-
völlig unschlüssig, ob es sich um den Pik-Buben oder den hängig () n D 3.
Kreuz-Buben handelt)?
3.14 Zwei Spieler A und B drehen in unabhängiger
3.9 Zeigen Sie, dass im Beispiel von Laplace (1783) Folge abwechselnd ein Glücksrad mit den Sektoren A und
in Abschn. 3.2 die A-posteriori-Wahrscheinlichkeiten P .Ak jB/ B. Das Glücksrad bleibt mit Wahrscheinlichkeit p im Sektor
für jede Wahl von A-priori-Wahrscheinlichkeiten P .Aj / für A stehen. Gewonnen hat derjenige Spieler, welcher als Ers-
n ! 1 gegen die gleichen Werte null (für k 2) und eins ter erreicht, dass das Glücksrad in seinem Sektor stehen bleibt.
(für k D 3) konvergieren. Spieler A beginnt. Zeigen Sie:
p
Gilt p D .3 5/=2 0:382, so ist das Spiel fair, d. h., beide
Kapitel 3
3.18 Es sei .˝; P .˝/; P / ein Laplacescher Wahr- im Behälter A genau j weiße Kugeln befinden. Aus jedem Be-
scheinlichkeitsraum mit hälter wird unabhängig voneinander je eine Kugel rein zufällig
entnommen und in den jeweils anderen Behälter gelegt. Dieser
a) j˝j D 6 (echter Würfel),
Vorgang wird in unabhängiger Folge wiederholt. Die Zufallsva-
b) j˝j D 7.
riable Xn beschreibe den Zustand des Systems nach n solchen
Wie viele Paare .A; B/ unabhängiger Ereignisse mit 0 < Ziehungsvorgängen, n 0. Leiten Sie die Übergangsmatrix der
P .A/ P .B/ < 1 gibt es jeweils? Markov-Kette .Xn /n0 her und zeigen Sie, dass die invariante
Verteilung eine hypergeometrische Verteilung ist.
3.19 Ein kompliziertes technisches Gerät bestehe aus n
Einzelteilen, die innerhalb eines festen Zeitraumes unabhängig
voneinander mit derselben Wahrscheinlichkeit p ausfallen. Das
Beweisaufgaben
Gerät ist nur funktionstüchtig, wenn jedes Einzelteil funktions-
tüchtig ist.
3.25 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
a) Welche Ausfallwahrscheinlichkeit besitzt das Gerät? und C1 ; C2 ; : : : endlich oder abzählbar-unendlich viele paar-
b) Durch Parallelschaltung identischer Bauelemente zu jedem weise disjunkte PEreignisse mit positiven Wahrscheinlichkeiten
der n Einzelteile soll die Ausfallsicherheit erhöht werden. Bei sowie C WD j 1 Cj . Besitzt A 2 A die Eigenschaft, dass
Ausfall eines Bauelements übernimmt dann eines der noch P .AjCj / nicht von j abhängt, so gilt
funktionierenden Parallel-Elemente dessen Aufgabe. Zeigen
Sie: Ist jedes Einzelteil k-fach parallel geschaltet, und sind P .AjC / D P .AjC1/:
alle Ausfälle voneinander unabhängig, so ist die Ausfallwahr-
scheinlichkeit des Gerätes gleich 1 .1 p k /n .
Kapitel 3
c) Welche Ausfallwahrscheinlichkeiten ergeben sich für n D
3.26 Im Pólyaschen Urnenmodell von Abschn. 3.1 sei
200, p D 0:0015 und die Fälle k D 1, k D 2 und k D 3?
Aj WD f.a1 ; : : : ; an / 2 ˝ j aj D 1g
3.20 Zeigen Sie durch Nachweis der Markov-Eigen-
schaft, dass Partialsummen unabhängiger Z-wertiger Zufalls-
das Ereignis, im j -ten Zug eine rote Kugel zu erhalten (j D
variablen (erstes Beispiel in Abschn. 3.5) eine Markov-Kette
1; : : : ; n). Zeigen Sie: Für jedes k D 1; : : : ; n und jede Wahl
bilden.
von i1 ; : : : ; ik mit 1 i1 < : : : < ik n gilt
3.21 Es seien Y0 ; Y1 ; : : : unabhängige und je Bin.1; p/ Y
k1
r C jc
verteilte Zufallsvariablen, wobei 0 < p < 1. Die Folge .Xn /n0 P .Ai1 \ : : : \ Aik / D P .A1 \ : : : \ Ak / D :
sei rekursiv durch Xn WD 2Yn C YnC1 , n 0, definiert. Zeigen j D0
r C s C jc
Sie, dass .Xn / eine Markov-Kette bildet, und bestimmen Sie de-
ren Übergangsmatrix.
3.27 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum
und A; B 2 A. Beweisen oder widerlegen Sie:
3.22 Es sei X0 ; X1 ; : : : eine Markov-Kette mit Zu-
standsraum S. Zeigen Sie, dass für alle k; m; n mit 0 k < a) A und ; sowie A und ˝ sind unabhängig.
m < n und alle h; j 2 S die sog. Chapman-Kolmogorov- b) A und A sind genau dann stochastisch unabhängig, wenn gilt:
Gleichung P .A/ 2 f0; 1g.
c) Gilt A B, so sind A und B genau dann unabhängig, wenn
X
P .Xn D j jXk D h/ D P .Xm D ijXk D h/ P .B/ D 1 gilt.
i 2S P .X D j jX D i/
d) A \ B D ; ) A und B sind stochastisch unabhängig.
n m
e) Es gelte 0 < P .B/ < 1 und A \ B D ;. Dann folgt:
P .Ac jB/ D P .AjB c / () P .A/ C P .B/ D 1.
gilt.
3.28 Es sei ˝ WD Pernn D f.a1 ; : : : ; an / j 1 aj
3.23 Leiten Sie im Fall des Bediensystems mit drei
n; j D 1; : : : ; nI ai ¤ aj für i ¤ j g die Menge der Permuta-
Zuständen (vgl. Abb. 3.7) die invariante Verteilung ˛ D
tionen der Zahlen 1; : : : ; n. Für k D 1; : : : ; n bezeichne
.˛0 ; ˛1 ; ˛2 / her. Warum sind die Voraussetzungen des Ergoden-
satzes erfüllt?
Ak WD f.a1 ; : : : ; an / 2 ˝ j ak D max.a1 ; : : : ; ak /g
3.24 Beim diskreten Diffusionsmodell von Bernoulli- das Ereignis, dass an der Stelle k ein „Rekord“ auftritt. Zeigen
Laplace für den Fluss zweier inkompressibler Flüssigkeiten
Sie: Unter einem Laplace-Modell gilt:
befinden sich in zwei Behältern A und B jeweils m Kugeln. Von
den insgesamt 2m Kugeln seien m weiß und m schwarz. Das a) P .Aj / D 1=j , j D 1; : : : ; n.
System sei im Zustand j , j 2 S WD f0; 1; : : : ; mg, wenn sich b) A1 ; : : : ; An sind stochastisch unabhängig.
78 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit – Meister Zufall hängt (oft) ab
X
1 3.36 Es seien A N und 1 der größte gemeinsame
min.pn ; 1 pn / < 1: Teiler von A. Für m; n 2 A gelte m C n 2 A. Zeigen Sie: Es
nD1 gibt ein n0 2 N, sodass n 2 A für jedes n n0 .
Antworten zu den Selbstfragen 79
S
Antwort 1 Damit sichergestellt ist, dass im Fall c < 0 auch im Antwort 4 Jede -Algebra, die die Vereinigung j 2Ik Mj ent-
n-ten Zug eine rote oder eine schwarze Kugel gezogen werden hält, muss als -Algebra auch die Durchschnitte Ai1 \ : : : \ Aim
kann, muss min.r; s/ .n 1/jcj C 1 gelten. von Mengen Ai1 ; : : : ; Aim mit fi1 ; : : : ; im g Ik und Ai 2 Ai
für D 1; : : : ; m, also das System Bk , umfassen.
Antwort 2 Es gelten PA .B/ 0 für jedes B 2 A sowie
PA .˝/ D P .A \ ˝/=P .A/ D 1. Sind B1 ; B2 ; : : : paarweise S
Antwort 5 Wegen Sk WD .X1 ; : : : ; Xk / D . jkD1 .Xj //
disjunkte Mengen aus A, so sind B1 \ A; B2 \ A; : : : paarweise S1
disjunkte Mengen aus A. Die -Additivität von P ergibt dann gilt S1 S2 : : : Sind A; B 2 kD1 .X1 ; : : : ; Xk /, so gibt
es m; n 2 N mit A 2 Sm und B 2 Sn . Es sei o.B.d.A. m n.
X
1 1 X1 Dann gilt A 2 SS
n und somit wegen der \-Stabilität von Sn auch
PA Bj D P Bj \ A A \ B 2 Sn 1
P .A/ kD1 .X1 ; : : : ; Xk /.
j D1 j D1
Kapitel 3
D
P .A/ j D1 j D1
Antwort 7 Sie folgt aus der Formel der totalen Wahrscheinlich-
keit, wenn man das Ereignis fXmCn D kg nach den möglichen
also die -Additivität von PA . Werten ` für Xn zerlegt und die verallgemeinerte Markov-
Eigenschaft verwendet. Letztlich ist es die Matrizengleichung
Antwort 3 Von den insgesamt 2n Teilmengen muss man die n PmCn D Pm Pn , die auch für unendliche Matrizen gilt, siehe
einelementigen Teilmengen sowie die leere Menge abziehen. auch Aufgabe 3.22.
Diskrete Verteilungsmodelle
– wenn der Zufall zählt 4
Warum ist die
Erwartungswertbildung ein
lineares Funktional?
Wie entsteht die
Multinomialverteilung?
Wie beweist man die
Tschebyschow-
Ungleichung?
Warum kann man von
Unabhängigkeit auf
Unkorreliertheit schließen?
Auf welche Weise entsteht
die bedingte Erwartung
E.X jZ/?
Kapitel 4
4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3 Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Bedingte Erwartungswerte und bedingte Verteilungen . . . . . . . . . . 106
4.6 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 124
In Abschn. 2.2 haben wir die Verteilung einer Zufallsvariablen mit für jede eindimensionale bzw. jede k-dimensionale Borel-
Werten in einer allgemeinen Menge eingeführt. In diesem Kapitel Menge B. Aus diesem Grund bezeichnet man bei diskreten
werden wir deutlich konkreter und betrachten reelle Zufallsvaria- Zufallsvariablen oft auch das System der Wahrscheinlichkeiten
blen oder Zufallsvektoren, die höchstens abzählbar viele verschie- P .X D t /, t 2 D, synonym als Verteilung von X . Für die Ab-
dene Werte annehmen können. Die zugehörigen Verteilungen sind bildung t 7! P .X D t / ist bisweilen auch die Namensgebung
meist mit Zählvorgängen verknüpft. So entstehen Binomialvertei- Wahrscheinlichkeitsfunktion gebräuchlich. Verteilungen diskre-
lung, hypergeometrische Verteilung und Pólya-Verteilung, wenn die ter Zufallsvariablen können wie in den Abb. 2.4 und 2.5 durch
Anzahl gezogener Kugeln einer bestimmten Art in unterschiedli- Stabdiagramme veranschaulicht werden.
chen Urnenmodellen betrachtet wird. Zählt man die Nieten vor dem
Auftreten von Treffern in Bernoulli-Ketten, so ergeben sich die geo- Achtung
metrische Verteilung und die negative Binomialverteilung, und die
Wenn wir in der Folge Formulierungen wie „die Augen-
Multinomialverteilung tritt in natürlicher Weise beim Zählen von
summe X beim zweifachen Wurf mit einem echten Würfel
Treffern unterschiedlicher Art in einem verallgemeinerten Bernoul-
besitzt die Verteilung
lischen Versuchsschema auf. Die Poisson-Verteilung modelliert die
Anzahl eintretender Ereignisse bei spontanen Phänomenen; sie ist 6 j7 kj
P .X D k/ D ; k D 2; 3; : : : ; 12“
eine gute Approximation der Binomialverteilung bei großem n und 36
kleinem p. Diese Verteilungen sind grundlegend für ein begriffli- verwenden, so ist uns damit stets Zweierlei bewusst: Erstens
ches Verständnis vieler stochastischer Vorgänge. Zugleich werden ist klar, dass man für X als Abbildung einen Definiti-
Grundbegriffe der Stochastik wie gemeinsame Verteilung, Unab- onsbereich angeben kann, und zweitens liefern die obigen
hängigkeit, Erwartungswert, Varianz, Kovarianz, Korrelation sowie Wahrscheinlichkeiten über die Bildung (4.1) eine Wahr-
bedingte Erwartungswerte und bedingte Verteilungen in einem ele- scheinlichkeitsverteilung auf der Borelschen -Algebra B.
mentaren technischen Rahmen behandelt, der keinerlei Kenntnisse Sind X eine Zufallsvariable und M eine Borel-Menge mit
der Maß- und Integrationstheorie voraussetzt. P .X 2 M / D 1, so nennt man X eine M -wertige Zufalls-
variable. Dabei ist zugelassen, dass P .X 2 M 0 / D 1 für
eine echte Teilmenge M 0 von M gilt. Spricht man also von
4.1 Diskrete Zufallsvariablen einer N0 -wertigen Zufallsvariablen X , so bedeutet dies nur,
dass X mit Wahrscheinlichkeit eins nichtnegative ganzzah-
In diesem Abschnitt führen wir die Begriffe diskrete Zufalls- lige Werte annimmt. Insofern sind etwa die Augensumme
variable, diskreter Zufallsvektor sowie gemeinsame Verteilung beim zweifachen Würfelwurf oder eine Indikatorsumme N0 -
und Marginalverteilung ein. Wir werden sehen, wie sich Ver- wertige Zufallsvariablen. Analoge Sprechweisen sind für
teilungen abgeleiteter Zufallsvariablen bestimmen lassen. Hier Zufallsvektoren anzutreffen. J
Kapitel 4
P .X 2 B/ D P .X D t / (4.1) fX D xi g D fX D xi ; Y D yj g;
t 2B\D j D1
4.1 Diskrete Zufallsvariablen 83
Kapitel 4
von X und Y in Tab. 4.2 veranschaulicht.
Marginalverteilungen, aber nicht umgekehrt
Abb. 4.1 zeigt das Stabdiagramm der gemeinsamen Verteilung
von X und Y . J Wie das folgende Beispiel zeigt, kann man aus den Marginal-
verteilungen nicht ohne Weiteres die gemeinsame Verteilung
Ist allgemein X D .X1 ; : : : ; Xk / ein k-dimensionaler diskreter bestimmen.
Zufallsvektor mit P .Xi 2 Di / D 1 für abzählbare Mengen
D1 ; : : : ; Dk R, so gilt wegen der -Additivität von P für
jedes x1 2 D1 Beispiel Ist c eine beliebige Zahl im Intervall Œ0; 1=2, so wird
durch Tab. 4.3 die gemeinsame Verteilung zweier Zufallsvaria-
X X blen X und Y definiert, deren Marginalverteilungen nicht von
P .X1 D x1 / D P .X1 D x1 ; : : : ; Xk D xk /:
c abhängen, denn es gilt P .X D 1/ D P .X D 2/ D 1=2 und
x2 2D2 xk 2Dk
P .Y D 1/ D P .Y D 2/ D 1=2. Ohne weitere Kenntnis wie
etwa die stochastische Unabhängigkeit von X und Y (s. unten)
kann also von den Marginalverteilungen nicht auf die gemein-
Tab. 4.2 Gemeinsame Verteilung und Marginalverteilungen der ersten same Verteilung geschlossen werden! J
und der größten Augenzahl beim zweifachen Würfelwurf
j
P
i 1 2 3 4 5 6 P .X D i / Tab. 4.3 Verschiedene gemeinsame Verteilungen mit gleichen Margi-
1 1=36 1=36 1=36 1=36 1=36 1=36 1=6 nalverteilungen
2 0 2=36 1=36 1=36 1=36 1=36 1=6 j
P
3 0 0 3=36 1=36 1=36 1=36 1=6 i 1 2 P .X D i /
4 0 0 0 4=36 1=36 1=36 1=6 1 1
1 c 2
c 2
5 0 0 0 0 5=36 1=36 1=6 1 1
2 2
c c 2
6 0 0 0 0 0 6=36 1=6 P
P 1 1
1=36 3=36 5=36 7=36 9=36 11=36 1 2 2
1
P .Y Dj/ P .Y D j /
84 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Y
n
Selbstfrage 2
P .X1 D x1 ; : : : ; Xn D xn / D P .Xj D xj / (4.3)
Warum gilt das letzte Gleichheitszeichen?
j D1
für jede Wahl von x1 2 D1 ; : : : ; xn 2 Dn . Sind X1 und X2 stochastisch unabhängig, gilt also
Zunächst folgt ja (4.3) unmittelbar aus (4.2), wenn man Bj WD
fxj g setzt, und umgekehrt ergibt sich (4.2) wie folgt aus (4.3) P .X1 D x1 ; X2 D x2 / D P .X1 D x1 / P .X2 D x2 /
(wir führen den Nachweis für den Fall n D 2, der allgemeine
Fall erfordert nur einen höheren Schreibaufwand): Sind B1 ; B2 für .x1 ; x2 / 2 D1 D2 , so ergibt sich das folgende auch als
beliebige Borel-Mengen, so gilt wegen der -Additivität von P Faltungsformel bezeichnete Resultat. Bei dessen Formulierung
haben wir die in (4.4) stehende Menge D1 durch deren Teilmen-
P .X1 2 B1 ; X2 2 B2 / ge fx1 2 R j P .X1 D x1 / > 0g ersetzt.
X X
D P .X1 D x1 ; X2 D x2 /
x1 2B1 \D1 x2 2B2 \D2
X X Die diskrete Faltungsformel
D P .X1 D x1 / P .X2 D x2 /
Es seien X1 und X2 stochastisch unabhängige diskrete Zu-
x1 2B1 \D1 x2 2B2 \D2
0 1 0 1 fallsvariablen. Dann gilt für jedes y 2 R
Kapitel 4
X X
D@ P .X1 D x1 /A @ P .X2 D x2 /A P .X1 C X2 D y/
x1 2B1 \D1 x2 2B2 \D2 X
D P .X1 D x1 /P .X2 D y x1 /:
D P .X1 2 B1 / P .X2 2 B2 /: x1 WP .X1 Dx1 />0
Selbstfrage 1
Was ergibt sich für c in Tab. 4.3, wenn X und Y stochastisch Man beachte, dass die links stehende Wahrscheinlichkeit nur für
unabhängig sind? abzählbar viele Werte y positiv sein kann. Wir werden die dis-
krete Faltungsformel in Abschn. 4.3 wiederholt anwenden und
darum an dieser Stelle nur ein Beispiel angeben, das die Na-
Durch Summieren erhält man auch die Verteilung irgendeiner mensgebung Faltungsformel verständlich macht und typische
reell- oder vektorwertigen Funktion eines diskreten Zufallsvek- Tücken bei der Anwendung dieser Formel offenbart. Um nicht
tors X D .X1 ; : : : ; Xk /, wobei P .X 2 D/ D 1 für eine zu viele Indizes schreiben zu müssen, setzen wir X WD X1 und
abzählbare Menge D Rk . Ist g W Rk ! Rm eine messba- Y WD X2 .
re Funktion, so gilt mit x WD .x1 ; : : : ; xk / für jede Borel-Menge
B 2 Bm
Beispiel (Faltung diskreter Gleichverteilungen) Die
P .g.X/ 2 B/ D P .X 2 g 1 .B// Zufallsvariablen X und Y seien unabhängig und besitzen je-
weils eine Gleichverteilung auf den Werten 1; 2; : : : ; k. Es gelte
D P .X 2 g 1 .B/ \ D/
X also P .X D j / D P .Y D j / D 1=k für j 2 f1; : : : ; kg. Die
D P .X1 D x1 ; : : : ; Xk D xk /: Zufallsvariable X C Y kann mit positiver Wahrscheinlichkeit
x2g 1 .B/\D nur die Werte 2; 3; : : : ; 2k annehmen. Für z 2 f2; 3; : : : ; 2kg
gilt nach der Faltungsformel
Als Spezialfall betrachten wir die Situation zweier diskreter Zu-
fallsvariablen X1 und X2 mit P .X1 2 D1 / D P .X2 2 D2 / D 1 X
k
Kapitel 4
stellen Sie sich vor, Sie würden an einem Glücksspiel teilneh-
men, dessen mögliche Ausgänge durch den Grundraum ˝ D
f!1 ; : : : ; !s g beschrieben werden. Dabei trete das Ergebnis !j Kommentar
mit der Wahrscheinlichkeit pj auf, und Pes gelte p1 C : : : C ps D Wer Kenntnisse der Maß- und Integrationstheorie mitbringt,
1. Durch die Festsetzung P .A/ WD j W!j 2A pj , A ˝, ent- erkennt obige RDefinition als Spezialfall des allgemeinen
steht dann ein endlicher Wahrscheinlichkeitsraum. Erhält man Maß-Integrals X dP . Er kann entspannt weiterlesen und
X .!j / Euro ausbezahlt, wenn sich beim Spiel das Ergebnis !j gewisse Sachverhalte überspringen.
einstellt, und tritt dieser Fall bei n-maliger Wiederholung des Die bisweilen verwendete Indizierung des Erwartungswertes
Spiels hj -mal auf (hj 0, h1 C : : : P C hs D n), so beträgt mit P und die Sprechweise bzgl. P sollen deutlich machen,
der Gesamtgewinn aus den n Spielen js D1 X .!j / hj Euro. dass der Erwartungswert entscheidend von der Wahrschein-
Der
Ps durchschnittliche Gewinn pro Spiel beläuft sich somit auf lichkeitsverteilung P abhängt. In Abschn. 4.5 werden wir
j D1 X .!j / hj =n Euro. Da sich nach dem empirischen Gesetz bedingte Erwartungswerte betrachten, die nichts anderes als
über die Stabilisierung relativer Häufigkeiten (vgl. die Diskus- Erwartungswerte bzgl. bedingter Verteilungen sind.
sion vor Abb. 2.2) der Quotient hj =n bei wachsendem n der Bedingung (4.6) ist nur nachzuprüfen, wenn X unendlich
Wahrscheinlichkeit P .f!j g/ annähern sollte, müsste die Sum- viele verschiedene Werte mit positiver Wahrscheinlichkeit
me annimmt. In diesem Fall ist mit (4.6) die absolute Konver-
X
s genz einer unendlichen Reihe nachzuweisen. Diese garan-
X .!j / P .f!j g/ (4.5) tiert, dass der Erwartungswert wohldefiniert ist und gewisse
j D1 Rechenregeln gelten.
In der Folge lassen wir häufig die Klammern bei der Erwar-
den auf lange Sicht erwarteten Gewinn pro Spiel und somit
tungswertbildung weg, schreiben also
einen fairen Einsatz für dieses Spiel darstellen. Mathematisch
gesprochen ist obige Summe der Erwartungswert der Zufalls- EX WD E.X /;
variablen X als Abbildung auf ˝. Dieser Grundbegriff der
Stochastik geht auf Christiaan Huygens (1629–1695) zurück, wenn keine Verwechslungen zu befürchten sind.
der in seiner Abhandlung Van rekeningh in spelen van geluck Die Zufallsvariable X darf auch die Werte 1 und/oder 1
(1656) den erwarteten Wert eines Spiels mit „Das ist mir so viel annehmen. Der Erwartungswert von X kann aber nur exis-
wert“ umschreibt. tieren, wenn P .X D ˙1/ D 0 gilt. J
86 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Achtung Im Fall einer nichtnegativen diskreten Zufallsvaria- Beispiel (Gleichverteilung auf 1; 2; : : : ; k) Besitzt X ei-
blen sind die in (4.6) und (4.7) stehenden Reihen identisch. Da ne Gleichverteilung auf den Werten 1; 2; : : : ; k, gilt also P .X D
die rechte Seite von (4.7) aber auch (mit dem Wert 1) Sinn j / D 1=k für j D 1; : : : ; k, so folgt mit (4.8)
macht, wenn die Reihe divergiert, definiert man für eine nicht-
negative diskrete Zufallsvariable X
k
1 1 k.k C 1/ kC1
EX D j D D :
X j D1
k k 2 2
E.X / WD X .!/ P .f!g/ . 1/:
!2˝0 Im Spezialfall k D 6 (Augenzahl beim Wurf eines echten
Würfels) gilt somit EX D 3:5. Der Erwartungswert einer
Hiermit existiert der Erwartungswert einer beliebigen diskreten Zufallsvariablen X muss also nicht notwendig eine mögliche
Zufallsvariablen genau dann, wenn gilt: Realisierung von X sein. J
EjX j < 1: J
Beispiel Eine Urne enthalte eine rote und eine schwarze Ku-
Wir möchten zunächst zeigen, dass der Erwartungswert einer gel. Es wird rein zufällig eine Kugel gezogen. Ist diese rot, ist
Zufallsvariablen nur von deren Verteilung und nicht von der das Experiment beendet. Andernfalls werden die schwarze Ku-
konkreten Gestalt des zugrunde liegenden Wahrscheinlichkeits- gel sowie eine weitere schwarze Kugel in die Urne gelegt und
raums abhängt. der Urneninhalt gut gemischt. Dieser Vorgang wird so lange
wiederholt, bis die (eine) rote Kugel gezogen wird. Die Zu-
fallsvariable X bezeichne die Anzahl der dazu benötigten Züge.
Die Transformationsformel für den Erwartungswert Nach Aufgabe 3.15 gilt
Der Erwartungswert einer diskreten Zufallsvariablen X 1
P .X D k/ D ; k 1;
existiert genau dann, wenn gilt: k.k C 1/
X und somit
jxj P .X D x/ < 1:
X
1 X
1
1
x2RWP .X Dx/>0 EX D k P .X D k/ D D 1:
kC1
kD1 kD1
In diesem Fall folgt
Der Erwartungswert von X existiert also nicht. J
X
EX D x P .X D x/: (4.8)
x2RWP .X Dx/>0
Die Zuordnung X 7! E.X / ist ein lineares,
Kapitel 4
monotones Funktional
Beweis Mit dem großen Umordnungssatz für Reihen (s. z. B. Die nachfolgenden Eigenschaften bilden das grundlegende
[1], Abschn. 10.4) gilt im Falle der Konvergenz Werkzeug im Umgang mit Erwartungswerten.
X X X
jX .!/j P .f!g/ D jxj P .f!g/
!2˝0 x2X .˝0 / !2˝0 WX .!/Dx Eigenschaften der Erwartungswertbildung
X
D jxj P .X D x/ Es seien X und Y Zufallsvariablen mit existierenden Er-
x2X .˝0 / wartungswerten und a 2 R. Dann existieren auch die
X
D jxj P .X D x/: Erwartungswerte von X C Y und aX , und es gelten:
x2RWP .X Dx/>0 a) E.aX / D aEX (Homogenität),
b) E.X C Y / D EX C EY (Additivität),
Lässt man jetzt die Betragsstriche weg, so folgt die Behauptung.
c) E .1A / D P .A/; A 2 A,
d) aus X Y folgt EX EY (Monotonie),
e) jE.X /j EjX j. (Dreiecksungleichung)
Selbstfrage 3
An welcher Stelle wurde hier der große Umordnungssatz be-
nutzt?
Beweis In (4.7) steht eine endliche Summe oder der Grenz-
wert einer absolut konvergenten Reihe. Die Regeln a), b), d)
Kommentar Formel (4.8) zur Berechnung des Erwartungs- und e) folgen dann durch elementare Betrachtungen endlicher
wertes kann salopp als „Summe aus Wert mal Wahrscheinlich- Summen bzw. Rechenregeln für absolut konvergente unendliche
keit“ beschrieben werden. Nimmt X die Werte x1 ; x2 ; : : : an, so Reihen. c) ergibt sich aus
ist X
X E .1A / D P .f!g/ D P .A \ ˝0 / D P .A/:
E.X / D xj P .X D xj /: (4.9) !2A\˝0
j 1 J Das letzte Gleichheitszeichen gilt wegen P .˝0/ D 1.
4.2 Erwartungswert und Varianz 87
Selbstfrage 4 kann es Fälle wie den folgenden geben, in denen der Erwar-
Können Sie Eigenschaft e) beweisen? tungswert ohne Kenntnis der (viel komplizierteren) Verteilung
angegeben werden kann.
Nach a), b) und d) ist die Erwartungswertbildung X 7! EX ein Beispiel (Rekorde in zufälligen Permutationen) Ein
lineares Funktional auf dem Vektorraum aller reellen Zufallsva- Kartenspiel (32 Karten) wird gut gemischt und eine Karte auf-
riablen auf ˝, für die EjX j < 1 gilt. Durch Induktion erhalten gedeckt; diese bildet den Beginn eines ersten Stapels. Hat die
wir die wichtige Rechenregel nächste aufgedeckte Karte bei vorab definierter Rangfolge einen
0 1 höheren Wert, so beginnt man einen neuen Stapel. Andernfalls
Xn Xn
legt man die Karte auf den ersten Stapel. Auf diese Weise fährt
E@ aj Xj A D aj EXj (4.10) man fort, bis alle Karten aufgedeckt sind. Wie viele Stapel lie-
j D1 j D1
gen am Ende im Mittel vor?
für Zufallsvariablen X1 ; : : : ; Xn mit existierenden Erwartungs- Offenbar ist dieses Problem gleichwertig damit, die Anzahl der
werten und reelle Zahlen a1 ; : : : ; an . Zusammen mitP c) ergibt Rekorde in einer rein zufälligen Permutation der Zahlen von 1
sich der Erwartungswert einer Indikatorsumme jnD1 1fAj g bis 32 zu untersuchen. Allgemeiner betrachten wir hierzu wie im
von Ereignissen A1 ; : : : ; An 2 A zu Rencontre-Problem in Abschn. 2.5 die Menge ˝ D Pernn .oW /
0 1 aller Permutationen der Zahlen von 1 bis n mit der Gleichver-
X n X n teilung P sowie die Ereignisse
E@ 1fAj gA D P .Aj /: (4.11)
j D1 j D1
Aj D .a1 ; : : : ; an / 2 ˝ j aj D max ai ; j D 1; : : : ; n:
i D1;:::;j
Insbesondere gilt also
0 1 Denkt man sich a1 ; a2 ; : : : ; an wie Karten nacheinander aufge-
X
n deckt, so tritt Aj ein, wenn die j -te Zahl einen Rekord liefert,
E@ 1fAj gA D n p; (4.12) also aj unter den bis dahin aufgedeckten P Zahlen die größte ist.
j D1 Somit gibt die Indikatorsumme X D jnD1 1fAj g die Anzahl
der Rekorde in einer zufälligen Permutation der Zahlen 1; : : : ; n
wenn A1 ; : : : ; An die gleiche Wahrscheinlichkeit p besitzen. an.
Wegen P .Aj / D 1=j (siehe Aufgabe 3.28) liefert (4.11) das
Beispiel (Binomialverteilung) Das Beispiel über die Resultat
Bernoulli-Kette und die Binomialverteilung in Abschn. 3.3
1 1 1
Kapitel 4
zeigt, dass eine Zufallsvariable X mit Pder Binomialverteilung EX D 1 C C C ::: C (4.14)
Bin.n; p/ als Indikatorsumme X D jnD1 1fAj g von n Ereig- 2 3 n
nissen A1 ; : : : ; An mit P .A1 / D : : : D P .An / D p dargestellt und somit EX 4:06 im Fall n D 32.
werden kann. Nach (4.12) gilt E.X / D np. Dieses Ergebnis
Das Verhalten von EX für große Werte von n ist überraschend.
erhält man auch umständlicher durch direkte Rechnung aus der
Durch Integral-Abschätzung (Abb. 4.2) folgt EX 1 C log n,
Verteilung
was in den Fällen n D 1 000 und n D 1 000 000 die Unglei-
! chungen EX 7:91 bzw. EX 14:81 liefert. Es sind also
n k
P .X D k/ D p .1 p/nk ; k D 0; 1; : : : ; n; deutlich weniger Rekorde zu erwarten, als so mancher vielleicht
k zunächst annehmen würde. J
denn (4.8) sowie die binomische Formel liefern Video 4.1 Rekorde in einer rein zufälligen Permutation I
!
X n
n k
EX D k p .1 p/nk
k
kD0
!
Xn
n 1 k1
D np p .1 p/.n1/.k1/
k1
kD1
D np:
mithilfe der schon bei der Formel des Ein- und Ausschlie-
Die .k Cr/-elementige Menge T [U tritt hier kCr k
-mal auf,
ßens verwendeten Summen denn so oft lässt sich aus T [U eine k-elementige Teilmenge
X
Sr WD P .Ai1 \ : : : \ Air /; (4.13) T bilden. Mit dieser Einsicht folgt
1i1 <:::<ir n !
X
nk
k Cr X Y
1 r n, sowie S0 WD 1 ausgedrückt werden. Es gilt näm- 1fX D kg D .1/r 1fAj g:
lich das folgende, auf den ungarischen Mathematiker und rD0
k
V 2fN gkCr j 2V
Chemiker Károly Jordan (1871–1959) zurückgehende Resul-
tat. Die Linearität der Erwartungswertbildung sowie E.1A / D
P .A/ und (2.3) ergeben dann
Die Jordan-Formel P .X D k/ D E1fX D kg
! 0 1
Für k 2 f0; 1; : : : ; ng gilt ! X
nk X \
X kCr
P@ Aj A
n
j k j D .1/r
P .X D k/ D .1/ Sj : k
k rD0 V 2.N /kCr j 2V
j Dk !
X
nk
kCr
D .1/r SkCr ;
rD0
k
Beweis Die Beweisidee ist sehr klar und einsichtig. Wir
setzen N WD f1; : : : ; ng und schreiben allgemein fM gs für und die Behauptung folgt mit der Indexverschiebung j WD
die Menge aller s-elementigen Teilmengen einer Menge M . k C r.
Kapitel 4
(X = xj )
Multiplikationsregel für den Erwartungswert
0.3
Sind X und Y stochastisch unabhängige Zufallsvariablen
mit existierenden Erwartungswerten, so existiert auch der
0.2 Erwartungswert des Produktes X Y , und es gilt
0.1 E.X Y / D EX EY :
0
x3 x2 xk x1 x4
Beweis Wir wenden die allgemeine Transformationsformel
(X) mit k D 2, Z D .X ; Y / und g.x; y/ D x y an. Mit
D WD fx j P .X D x/ > 0g und E WD fy 2 R j P .Y D y/ > 0g
Abb. 4.3 Erwartungswert als physikalischer Schwerpunkt folgt
X
jX .!/Y .!/jP .f!g/
!2˝0
Die allgemeine Transformationsformel X
D jxyj P .X D x; Y D y/
Es seien Z ein k-dimensionaler diskreter Zufallsvektor .x;y/2DE
und g W Rk ! R eine messbare Funktion. Dann existiert X
der Erwartungswert der Zufallsvariablen g.Z/ D g ı Z D jxjjyjP .X D x/P .Y D y/
.x;y/2DE
genau dann, wenn gilt: X X
X D jxjP .X D x/ jyjP .Y D y/
jg.z/j P .Z D z/ < 1: x2D y2E
z2Rk WP .ZDz/>0 <1
In diesem Fall folgt und somit EjX Y j < 1. Weglassen der Betragsstriche liefert
dann wegen (4.8) die Behauptung.
X
Eg.Z/ D g.z/ P .Z D z/: (4.15)
z2Rk WP .ZDz/>0
Die Varianz ist der Erwartungswert der
Kapitel 4
quadrierten Abweichung vom Erwartungswert
Beweis Es sei D WD fz 2 Rk j P .Z D z/ > 0g. Wegen Während der Erwartungswert als „Schwerpunkt einer Vertei-
lung“ deren grobe Lage beschreibt, fehlt uns noch eine Kenn-
X X X größe, um die Stärke der Streuung einer Verteilung um deren
jg.Z.!//j P .f!g/ D jg.z/j P .f!g/ Erwartungswert zu messen.
!2˝0 z2D !2˝0 WZ.!/Dz
X Betrachtet man etwa die Stabdiagramme der (den glei-
D jg.z/j P .Z D z/ chen Erwartungswert 4 aufweisenden) Binomialverteilung
z2D Bin.8; 0:5/ und der hypergeometrischen Verteilung Hyp.8; 9; 9/
in Abb. 4.4, so scheinen die Wahrscheinlichkeitsmassen der
ergibt sich die erste Behauptung aus dem Großen Umordnungs- Binomialverteilung im Vergleich zu denen der hypergeome-
satz für Reihen. Lässt man die Betragsstriche weg, so folgt die trischen Verteilung stärker um den Wert 4 zu streuen. Unter
Darstellung für Eg.Z/. diversen Möglichkeiten, die Stärke der Streuung einer Vertei-
lung um ihren Erwartungswert zu messen, ist die Varianz die
Selbstfrage 5 gebräuchlichste.
Wie folgt die (spezielle) Transformationsformel (4.8) aus die-
sem allgemeinen Resultat?
(X = k), X ∼ Bin(8, 0.5) (X = k), X ∼ Hyp(8, 9, 9)
0.4 0.4
Eine in (4.15) enthaltene Botschaft ist wiederum, dass nur die 0.3 0.3
Verteilung von Z und nicht die spezielle Gestalt des zugrun- 0.2 0.2
de liegenden Wahrscheinlichkeitsraums zur Bestimmung von 0.1 0.1
Eg.Z/ benötigt wird.
k k
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Als erste Anwendung der allgemeinen Transformationsformel
erhalten wir eine weitere grundlegende Eigenschaft des Erwar- Abb. 4.4 Stabdiagramme der Binomialverteilung Bin.8; 0:5/ und der
tungswertes. hypergeometrischen Verteilung Hyp.8; 9; 9/
90 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
die Rotationsgeschwindigkeit und Ej WD 12 P .X D xj /vj2 die se um den Schwerpunkt EX identifiziert haben, ist in gleicher
Rotationsenergie des j -ten Massepunktes. Die gesamte Rotati- Weise E.X a/2 das resultierende Trägheitsmoment, wenn die
onsenergie beträgt Drehung des Systems um den Punkt a erfolgt. Die Minimalei-
genschaft c) heißt dann aus physikalischer Sicht nur, dass das
X
k
1 2X
k
Trägheitsmoment bei Drehung um den Schwerpunkt minimal
Ej D v .xj EX /2 P .X D xj /: wird. Eigenschaft d) besagt insbesondere, dass sich die Varianz
j D1
2 j D1
einer Zufallsvariablen nicht unter Verschiebungen der Vertei-
Somit ist V .X / das Trägheitsmoment des Systems von Masse- lung, also bei Addition einer Konstanten, ändert. J
punkten bzgl. der Rotationsachse um den Schwerpunkt.
Als Erwartungswert einer Funktion der Zufallsvariablen X kann Beispiel (Gleichverteilung auf 1; 2; : : : ; k) Besitzt X ei-
man die Varianz von X über die allgemeine Darstellungsformel ne Gleichverteilung auf den Werten 1; 2; : : : ; k, gilt also P .X D
(4.15) berechnen und erhält j / D 1=k für j D 1; : : : ; k, so folgt mit der allgemeinen Trans-
X formationsformel
V .X / D .x EX /2 P .X D x/: (4.16)
x2RWP .X Dx/>0 X
k
1X 2
k
EX 2 D j 2 P .X D j / D j
k j D1
Oft ist es jedoch zweckmäßiger, den Ausdruck .X EX /2 nach j D1
der binomischen Formel auszurechnen und die Linearität der 1 k.k C 1/.2k C 1/ .k C 1/.2k C 1/
Erwartungswertbildung sowie die Eigenschaft E.1A / D P .A/ D D :
k 6 6
auszunutzen. Mit A WD ˝ und P .˝/ D 1 ergibt sich insbeson-
dere, dass der Erwartungswert der konstanten Zufallsvariablen Zusammen mit dem auf schon berechneten Erwartungswert
Y a gleich a ist, und wir erhalten EX D .k C 1/=2 ergibt sich unter Beachtung von Eigenschaft
b) das Resultat
V .X / D E .X EX /2
D E X 2 2.EX /X C .EX /2 .k C 1/.2k C 1/ .k C 1/2 k2 1
V .X / D D : (4.17)
D EX 2 2.EX / .EX / C .EX /2: 6 4 12
J
4.2 Erwartungswert und Varianz 91
Wohingegen der Erwartungswert einer Summe von Zufallsva- Eine standardisierte Zufallsvariable hat den
riablen nach (4.10) gleich der Summe der Erwartungswerte der
Erwartungswert 0 und die Varianz 1
Summanden ist, trifft dieser Sachverhalt für die Varianz i. Allg.
nicht mehr zu (siehe Abschn. 4.4). Es gilt jedoch folgendes Man nennt die Verteilung P X einer Zufallsvariablen ausge-
wichtige Resultat. artet oder degeneriert, falls sie in einem Punkt konzentriert
ist, falls also ein a 2 R mit P .X D a/ D 1 existiert.
Additionsregel für die Varianz Andernfalls heißt P X nichtausgeartet oder nichtdegeneriert.
Diese Begriffsbildungen gelten gleichermaßen für Zufallsvek-
Es seien X1 ; : : : ; Xn stochastisch unabhängige Zufallsva- toren. Da degenerierte Verteilungen in der Regel uninteressant
riablen mit existierenden Varianzen. Dann gilt sind, wird dieser Fall im Folgenden häufig stillschweigend
X ausgeschlossen.
n X
n
V Xj D V .Xj /: Hat X eine nichtdegenerierte Verteilung, und gilt EX 2 < 1, so
j D1 j D1 ist die Varianz von X positiv. In diesem Fall kann man von X
mithilfe der affinen Transformation
X EX
Beweis Nach der X 7! p DW X
P P Cauchy-Schwarz-Ungleichung gilt V .X /
. jnD1 Xj 1/2 n jnD1 Xj2 . Dies zeigt, dass auch die Varianz
der Summe X1 C : : : C Xn existiert. Wegen V .X C a/ D V .X /
zu einer Zufallsvariablen X übergehen, die wegen V .aX C
reicht es aus, den Fall EXj D 0, j D 1; : : : ; n, zu betrach-
b/ D a2 V .X / den Erwartungswert 0 und die Varianz p 1 be-
ten. Dann gilt nach der Multiplikationsregel E.Xj Xk / D 0 für
j ¤ k sowie EXj2 D V .Xj /, und es folgt sitzt. Man nennt den Übergang von X zu .X EX /= V .X /
die Standardisierung von X . Gilt bereits EX D 0 und
X n X n 2 V .X / D 1, so heißt X eine standardisierte Zufallsvaria-
V Xj D E Xj ble oder kurz standardisiert. Man beachte, dass man wegen
j D1 j D1 V .aX / D a2 V .X / beim Standardisieren durch die Standardab-
X
n X
n weichung, also die Wurzel aus der Varianz, dividiert.
DE Xj Xk
j D1 kD1
Die folgende wichtige Ungleichung zeigt, wie die Wahrschein-
lichkeit einer großen Abweichung einer Zufallsvariablen X um
X
n X
n
ihren Erwartungswert mithilfe der Varianz abgeschätzt wer-
D E.Xj Xk /
den kann. Sie wird gemeinhin mit dem Namen des russischen
Kapitel 4
j D1 kD1
Mathematikers Pafnuti Lwowitsch Tschebyschow (1821–1894)
X
n X verknüpft, war aber schon Irénée-Jules Bienaymé im Jahr 1853
D E.Xj2 / C E.Xj Xk /
im Zusammenhang mit der Methode der kleinsten Quadrate be-
j D1 j ¤k
kannt.
X
n
D V .Xj /:
j D1
Die Tschebyschow-Ungleichung
Beispiel (Binomialverteilung) Um die Varianz einer Ist X eine Zufallsvariable mit EX 2 < 1, so gilt für jedes
Bin.n; p/-verteilten Zufallsvariablen zu bestimmen, nutzen wir " > 0:
wie bei der Berechnung des Erwartungswertes vonP X aus, dass
X die gleiche Verteilung wie eine Indikatorsumme jnD1 1fAj g V .X /
P .jX EX j "/ : (4.18)
besitzt, in der die auftretenden Ereignisse unabhängig sind und "2
die gleiche Wahrscheinlichkeit p besitzen. Da die Indikatorva-
riablen 1fAj g, j D 1; : : : ; n, nach Aufgabe 3.30 stochastisch
unabhängig sind, folgt mit obigem Satz Beweis Wir betrachten die Funktionen
X
n (
V .X / D V .1fAj g/ D n V .1fA1 g/: 1; falls jx EX j ";
j D1
g.x/ WD
0 sonst,
Mit 1fA1 g2 D 1fA1 g und E1fA1 g D P .A1 / D p sowie 1
V .1fA1 g/ D E.1fA1 g2 / .E1fA1 g/2 ergibt sich dann h.x/ WD .x EX /2 ; x 2 R:
"2
V .X / D n p .1 p/:
Wegen g.x/ h.x/, x 2 R (siehe Abb. 4.5) gilt g.X .!//
Natürlich kann man dieses Resultat auch über die Darstellungs- h.X .!// für jedes ! 2 ˝. Nach Eigenschaft d) der Erwartungs-
formel erhalten, siehe Aufgabe 4.31. J wertbildung folgt Eg.X / Eh.X /, was zu zeigen war.
92 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
f k n k
Bn .x/ WD f x .1 x/nk
n k Die hier übrig bleibende Summe ist aber stochastisch in-
kD0
terpretierbar, nämlich als P .jX =n xj > ı/, wobei die
definiert. Um die Approximationsgüte der Funktion f durch Zufallsvariable X die Binomialverteilung Bin.n; x/ besitzt.
f Wegen E.X =n/ D x ergibt sich mit der Tschebyschow-
Bn zu prüfen, geben wir uns ein beliebiges " > 0 vor. Da
f auf Œ0; 1 gleichmäßig stetig ist, gibt es ein ı > 0 mit der Ungleichung
Kapitel 4
Eigenschaft !
X n
8x; y 2 Œ0; 1 W jy xj ı H) jf .y/ f .x/j ": x k .1 x/nk
k
(4.19) k2I2
ˇ ˇ
ˇX ˇ V .X =n/
Zudem existiert ein M < 1 mit max0x1 jf .x/j M , D P ˇˇ x ˇˇ > ı
n ı2
denn f ist auf dem Intervall Œ0; 1 beschränkt. Wir behaup-
ten nun die Gültigkeit der Ungleichung nx.1 x/ 1
D ;
n2 ı 2 4nı 2
M
max jBnf .x/ f .x/j " C : (4.20)
0x1 2nı 2 sodass (4.20) folgt.
4
Wir haben zu Beginn von Abschn. 2.3 das empirische Gesetz
über die Stabilisierung relativer Häufigkeiten herangezogen, um 3
die axiomatischen Eigenschaften von Wahrscheinlichkeiten als 2
mathematische Objekte zu motivieren. Diese Erfahrungstatsa-
1
che stand auch am Anfang von Abschn. 4.2 Pate, als wir die
Definition des Erwartungswertes einer Zufallsvariablen über die n
durchschnittliche Auszahlung pro Spiel auf lange Sicht ver- 0 50 100 150 200 250 300
ständlich gemacht haben. Das folgende Schwache Gesetz großer
Zahlen stellt ebenfalls einen Zusammenhang zwischen arithme- Abb. 4.6 Simulierte arithmetische Mittel der Augensumme beim Wür-
tischen Mitteln und Erwartungswerten her. Es geht dabei jedoch felwurf
vom axiomatischen Wahrscheinlichkeitsbegriff aus.
man das Ereignis Aj als Treffer in einem j -ten Versuch einer
Das Schwache Gesetz großer Zahlen Bernoulli-Kette
P der Länge n, so kann das mit Rn WD X n D
n1 j D1 1fAj g bezeichnete arithmetische Mittel als zufälli-
Es seien X1 ; X2 ; : : : ; Xn stochastisch unabhängige Zu- ge relative Trefferhäufigkeit angesehen werden. Das Schwache
fallsvariablen mit gleichem Erwartungswert WD EX1 Gesetz großer Zahlen bedeutet dann in „komplementärer For-
und gleicher Varianz 2 WD V .X1 /. Die Zufallsvariable mulierung“
1X
n
lim P .jRn pj < "/ D 1 für jedes " > 0: (4.22)
X n WD Xj n!1
n j D1
Dieses Hauptergebnis der Ars Conjectandi von Jakob Bernoulli
bezeichne das arithmetische Mittel von X1 ; : : : ; Xn . Dann besagt, dass sich die Wahrscheinlichkeit von Ereignissen, deren
gilt für jedes " > 0: Eintreten oder Nichteintreten unter unabhängigen und gleichen
Bedingungen beliebig oft wiederholt beobachtbar ist, wie eine
lim P jX n j " D 0: (4.21) physikalische Konstante messen lässt: Die Wahrscheinlichkeit,
n!1
Kapitel 4
dass sich die relative Trefferhäufigkeit Rn in einer Bernoulli-
Kette vom Umfang n von der Trefferwahrscheinlichkeit p um
weniger als einen beliebig kleinen, vorgegebenen Wert " unter-
Beweis Da die Erwartungswertbildung linear ist und glei- scheidet, konvergiert beim Grenzübergang n ! 1 gegen eins.
che Erwartungswerte vorliegen, gilt EX n D . Wegen der In der Sprache der Analysis heißt (4.22), dass es zu jedem " > 0
Unabhängigkeit ist auch die Varianzbildung
Pn additiv, und der und zu jedem mit 0 < < 1 eine von " und abhängende
Faktor 1=n vor der Summe j D1 Xj führt zu V .X n / D natürliche Zahl n0 mit der Eigenschaft
2=n. Mithilfe der Tschebyschow-Ungleichung folgt dann
P jX n j " 2 =.n "2 / und somit die Behauptung. P .jRn pj < "/ 1 (4.23)
Kommentar Die Aussage des schwachen Gesetzes großer für jedes feste n n0 gibt. In Abschn. 6.2 werden wir dieses
Zahlen bedeutet, dass die Folge der arithmetischen Mittel un- Ergebnis dahingehend zu einem Starken Gesetz großer Zahlen
abhängiger Zufallsvariablen mit gleichem Erwartungswert verschärfen, dass man die in (4.23) stehende Wahrscheinlich-
und gleicher Varianz stochastisch gegen konvergiert (siehe keitsaussage für genügend großes n0 simultan für jedes n n0
Abschn. 6.2). In diesem Sinn präzisiert es unsere Vorstellung, behaupten kann, dass also
dass der Erwartungswert ein auf die Dauer erhaltener durch- !
schnittlicher Wert sein sollte. J \
1
P fjRn pj < "g 1
nDn0
Abb. 4.6 zeigt Plots der arithmetischen Mittel X n , n D
1; : : : ; 300, der Augenzahlen X1 ; : : : ; Xn von n D 300 simu- gilt.
lierten Würfen mit einem echten Würfel. Es ist deutlich zu
erkennen, dass sich diese Mittel gegen den Erwartungswert
E.X1 / D D 3:5 stabilisieren.
4.3 Wichtige diskrete Verteilungen
Sind A1 ; : : : ; An stochastisch unabhängige Ereignisse mit glei-
cher Wahrscheinlichkeit p, so kann man in der Situation des Mit der hypergeometrischen Verteilung und der Binomialvertei-
obigen Satzes speziell Xj WD 1fAj g, j D 1; : : : ; n, setzen. Es lung sind uns bereits zwei wichtige diskrete Verteilungsmodelle
gilt dann D EX1 D P .A1 / D p und 2 D p.1 p/. Deutet begegnet. Beide treten beim n-maligen rein zufälligen Ziehen
94 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
aus einer Urne auf, die r rote und s schwarze Kugeln enthält. X C Y die Binomialverteilung Bin.m C n; p/ besitzt. Hier-
Die zufällige Anzahl X der gezogenen roten Kugeln besitzt die zu betrachten wir das Standard-Modell einer Bernoulli-Kette
hypergeometrische Verteilung Hyp.n; r; s/, falls das Ziehen oh- der Länge m C n wie im Beispiel über die Bernoulli-Kette
ne Zurücklegen erfolgt. Wird mit Zurücklegen gezogen, so hat und die Binomialverteilung in Abschn. 3.3. In dem dort kon-
X die Binomialverteilung Bin.n; p/ mit p D r=.r C s/, vgl. die struierten Grundraum f0; 1gmCn gibt es unabhängige Ereignisse
in den großen Beispiel-Boxen in Abschn. 2.6 zu diesen Vertei- A1 ; : : : ; A
PmCn mit gleicher Wahrscheinlichkeit
Pn p. Setzen wir
m
lungen geführte Diskussion. Der Vollständigkeit halber führen X WD j D1 1fAj g und Y WD j D1 1fAmCj g, so sind X
wir beide Verteilungen noch einmal an. und Y unabhängig und besitzen P die geforderten Verteilungen.
Außerdem ist X C Y D jmCn D1 1fA j g binomialverteilt mit Pa-
rametern m C n und p, was zu zeigen war. Der Beweis mithilfe
Definition der hypergeometrischen Verteilung der Faltungsformel erfolgt durch direkte Rechnung: Für jedes
Die Zufallsvariable X besitzt eine hypergeometrische k 2 f0; 1; : : : ; ng gilt
Verteilung mit Parametern n; r und s (r; s 2 N; n
r C s), falls gilt: X
k
P .X C Y D k/ D P .X D j ; Y D k j /
r s
j D0
P .X D k/ D rCs
k nk
; k D 0; 1; : : : ; n: X
k
n D P .X D j / P .Y D k j /
j D0
Wir schreiben hierfür kurz X Hyp.n; r; s/. ! !
X k
m j n
D p .1 p/mj p kj .1 p/nkCj
j D0
j kj
! !
Definition der Binomialverteilung X k
m n
k mCnk
D p .1 p/ :
Die Zufallsvariable X besitzt eine Binomialverteilung j D0
j kj
mit Parametern n und p, 0 < p < 1, in Zeichen
X Bin.n; p/, falls gilt: Hieraus folgt die Behauptung, denn die letzte Summe ist wegen
P
! der Beziehung jkD0 P .Z D j / D 1 für eine Zufallsvariable
n k
P .X D k/ D p .1 p/nk ; k D 0; 1; : : : ; n: Z Hyp.k; m; n/ gleich mCnk
.
k
Kapitel 4
Kapitel 4
Video 4.4 Die geometrische Verteilung
Definition der negativen Binomialverteilung
Die Zufallsvariable X besitzt eine negative Binomialver-
teilung mit Parametern r und p, r 2 N, 0 < p < 1,
wenn gilt:
!
k Cr 1
Die Stabdiagramme und auch die Erzeugungsweise der geo- P .X D k/ D .1 p/k p r ; k 2 N0 :
k
metrischen Verteilung lassen vermuten, dass bei wachsendem
p sowohl der Erwartungswert als auch die Varianz der geo- In diesem Fall schreiben wir kurz X Nb.r; p/.
metrischen Verteilung abnehmen. In der Tat gilt der folgende
Sachverhalt:
Offenbar geht die negative Binomialverteilung für den Fall r D
Satz (Erwartungswert und Varianz von G.p/) 1 in die geometrische
Verteilung
es gilt also G.p/ D
über;
Nb.1; p/. Wegen kCr1
k
D .1/ k r
k
und der Binomialreihe
Für eine Zufallsvariable X mit der geometrischen Vertei-
!
lung G.p/ gilt: X1
˛ k
˛
.1 C x/ D x ; ˛ 2 R; jxj < 1; (4.25)
1p 1p k
kD0
E.X / D ; V .X / D :
p p2
(s. z. B. [1], Kap. 15, Übersicht über Potenzreihen oder Video
4.5) folgt
!
Beweis Der Nachweis kann mithilfe der allgemeinen Trans- X 1 X1
r
formationsformel erfolgen und ist dem Leser als Übungsaufgabe P .X D k/ D ..1 p//k p r D p r p r D 1:
k
4.23 überlassen. kD0 kD0
96 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
(X = k) (X = k)
0.6 0.6 Das Additionsgesetz für die Verteilung Nb.r; p/
p = 0.8, r = 2 p = 0.5, r = 2
0.4 0.4 a) Es seien X1 ; : : : ; Xr unabhängige Zufallsvariablen mit
der gleichen geometrischen Verteilung G.p/. Dann
0.2 0.2
besitzt die Summe X1 C : : : C Xr die negative Bino-
mialverteilung Nb.r; p/.
b) Die Zufallsvariablen X und Y seien stochastisch unab-
k k hängig, wobei X Nb.r; p/ und Y Nb.s; p/ mit
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
r; s 2 N. Dann gilt X C Y Nb.r C s; p/.
(X = k) (X = k)
0.6 0.6
p = 0.8, r = 3 p = 0.5, r = 3 Beweis Wegen G.p/ D Nb..1; p/ ergibt sich a) durch In-
0.4 0.4 duktion aus b), sodass nur b) zu zeigen ist. Mit (4.26) und der
diskreten Faltungsformel gilt für jedes k 2 N0
0.2 0.2
X
k
P .X C Y D k/ D P .X D j ; Y D k j /
k k j D0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
X
k
Abb. 4.8 Stabdiagramme von negativen Binomialverteilungen D P .X D j / P .Y D k j /
j D0
! !
Somit definiert die negative Binomialverteilung in der Tat eine X k
r s
rCs
Dp ..1 p//k
Wahrscheinlichkeitsverteilung auf N0 . Das Adjektiv „negative“ j k j
j D0
rührt von der Darstellung !
! .r C s/ rCs
r r D p ..1 p//k ;
P .X D k/ D p ..1 p//k ; k 2 N0 ; (4.26) k
k
was zu zeigen war. Dabei ergibt sich das letzte Gleichheits-
her. zeichen, wenn man die in (4.25) stehenden Binomialreihen für
˛ D r und ˛ D s miteinander multipliziert (Cauchy-Produkt)
Kapitel 4
Abb. 4.8 zeigt Stabdiagramme von negativen Binomialvertei- Folgerung Ist X eine Zufallsvariable mit der negativen Bi-
lungen Nb.r; p/ für r D 2 (oben) und r D 3 (unten). Es ist nomialverteilung Nb.r; p/, so gelten
deutlich zu erkennen, dass bei Vergrößerung von p bei gleichem
r eine „stärkere Verschmierung“ der Wahrscheinlichkeitsmas- 1p 1p
E.X / D r ; V .X / D r : J
sen stattfindet. Gleiches trifft bei Vergrößerung von r bei festem p p2
p zu.
Wir kommen jetzt zu einer weiteren grundlegenden diskre-
ten Verteilung mit zahlreichen Anwendungen, der nach dem
Für die Verteilungen Bin.n; p/, Nb.r; p/ Mathematiker Simeon Denise Poisson (1781–1840) benannten
Poisson-Verteilung.
und Po./ gelten Additionsgesetze
Intuitiv ist klar, dass bei einer Bernoulli-Kette die Anzahl der Die Verteilung Bin.n; p/ nähert sich für großes
Nieten vor dem ersten und zwischen dem j -ten und (j C 1)-
ten Treffer (j D 1; 2; : : : ; r 1) unabhängige Zufallsvariablen n und kleines p einer Poisson-Verteilung an
sein sollten. Da nach jedem Treffer die Bernoulli-Kette neu Die Poisson-Verteilung entsteht als Approximation der Binomi-
startet, sollte eine Zufallsvariable mit der negativen Binomial- alverteilung Bin.n; p/ bei großem n und kleinem p. Genauer
verteilung die additive Überlagerung von unabhängigen geo- gesagt betrachten wir eine Folge von Verteilungen Bin.n; pn /,
metrisch verteilten Zufallsvariablen darstellen. In der Tat gilt n 1, mit konstantem Erwartungswert
folgender Zusammenhang zwischen den Verteilungen Nb.r; p/
und G.p/. WD n pn ; 0 < < 1; (4.27)
4.3 Wichtige diskrete Verteilungen 97
0.3 0.3
k n 0.2 0.2
lim 1 D 1; lim 1 D e ;
n!1 n n!1 n 0.1 0.1
k k
folgt dann für jedes feste k 2 N0 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 10
!
n k k Abb. 4.9 Stabdiagramme von Poisson-Verteilungen
lim pn .1 pn /nk D e : (4.28)
n!1 k kŠ
Die Wahrscheinlichkeit für das Auftreten von k Treffern in triert, wohingegen bei wachsendem sowohl eine Vergrößerung
obiger Bernoulli-Kette
P konvergiert also gegen den Ausdruck des Schwerpunktes als auch eine „stärkere Verschmierung“
e k =kŠ. Wegen 1 kD0 e
k
=kŠ D e e D 1 bildet die stattfindet. Die Erklärung hierfür liefert das folgende Resultat.
rechte Seite von (4.28) eine Wahrscheinlichkeitsverteilung auf Den Beweis überlassen wir dem Leser als Übung (Aufga-
N0 , und es ergibt sich folgende Definition. be 4.24).
Kapitel 4
Ist X eine Zufallsvariable mit der Poisson-Verteilung
Po./, so gelten
E.X / D ; V .X / D :
Unter der Lupe: Eine Poisson-Approximation von Zählvariablen durch geeignete Kopplung
Die Kopplungsmethode zielt darauf ab, bei vorgegebenen Ferner besitzt die Zufallsvariable Tn WD Y1 C : : : C Yn nach
Verteilungen möglichst weit übereinstimmende Zufallsvaria- dem Additionsgesetz für die Poisson-Verteilung die Vertei-
blen mit diesen Verteilungen zu konstruieren lung Po./, wobei D p1 C : : : C pn .
Das folgende Resultat des Mathematikers Lucien Marie Le Nach Konstruktion unterscheiden sich Xj und Yj und so-
Cam (1924–2000) ist eine Verallgemeinerung der Aussage mit auch Sn WD X1 C : : : C Xn und Tn nur wenig. Da
(4.28) mit konkreter Fehlerabschätzung. das Ereignis fXj ¤ Yj g genau dann eintritt, wenn entwe-
der fYj 2g oder fYj D 0; Zj D 1g gilt, folgt ja wegen
Satz (Le Cam, 1960) Seien A1 ; : : : ; An unabhängige Er- P .Yj 2/ D 1 P .Yj D 0/ P .Yj D 1/ zunächst
eignisse mit P .Aj / WD pj > 0 für j D 1; : : : ; n sowie
Sn WD 1fA1 g C C 1fAn g, WD p1 C C pn . Dann
P .Xj ¤ Yj / D P .Yj 2/ C P .Yj D 0; Zj D 1/
gilt:
X1 ˇ ˇ
X
ˇ kˇ n
D 1 epj pj epj C epj .1 .1 pj /epj /
ˇP .Sn D k/ e ˇ 2 pj2 : J
ˇ kŠ ˇ
kD0 j D1 D pj .1 epj / pj2 :
vielen möglichen, aber einzeln unwahrscheinlichen Ereignis- der s verschiedene, zweckmäßigerweise mit 1; 2; : : : ; s bezeich-
sen eintreten. Neben den Zerfällen von Atomen wie beim nete Ausgänge besitzt. Der Ausgang k wird Treffer k-ter Art
Rutherford-Geiger-Experiment sind etwa auch die Anzahl re- genannt; er trete mit der Wahrscheinlichkeit pk auf. Dabei sind
gistrierter Photonen oder Elektronen bei sehr geringem Fluss p1 ; : : : ; ps nichtnegative Zahlen mit der Eigenschaft p1 C C
angenähert poissonverteilt. Gleiches gilt für die Anzahl feh- ps D 1. Der Vorgang werde n-mal in unabhängiger Folge
lerhafter Teile in Produktionsserien, die Anzahl von Gewittern durchgeführt. Ein einfaches Beispiel für diese Situation ist der
innerhalb eines festen Zeitraums in einer bestimmten Region n-malige Würfelwurf; hier gilt s D 6, und ein Treffer k-ter Art
oder die Anzahl von Unfällen oder Selbstmorden, bezogen auf bedeutet, dass die Augenzahl k auftritt. Bei einem echten Wür-
eine gewisse große Population und eine festgelegte Zeitdauer. fel würde man p1 D : : : D p6 D 1=6 setzen.
Protokolliert man die Ergebnisse der n Versuche in Form ei-
ner Strichliste (Abb. 4.10), so steht am Ende fest, wie oft jede
Die Multinomialverteilung verallgemeinert einzelne Trefferart aufgetreten ist. Die vor Durchführung der
die Binomialverteilung auf Experimente Versuche zufällige Anzahl der Treffer k-ter Art wird mit Xk be-
zeichnet, k 2 f1; : : : ; sg.
mit mehr als zwei Ausgängen
Selbstfrage 9
Die Binomialverteilung entsteht bei der unabhängigen Wieder- Können Sie einen Grundraum angeben, auf dem X1 ; : : : ; Xs als
holung eines Experiments mit zwei Ausgängen. In Verallgemei- Abbildungen definiert sind?
nerung dazu betrachten wir jetzt einen stochastischen Vorgang,
4.3 Wichtige diskrete Verteilungen 99
Die Poisson-Verteilung und spontane Phänomene E.Xn;j / D =n. Ferner fordern wir die in der Physik fast
unbesehen akzeptierte Regularitätsbedingung
1910 untersuchten Ernest Rutherford (1871–1937) und Hans
Wilhelm Geiger (1882–1945) ein radioaktives Präparat über 0 1
2 608 je 7 Sekunden lange Zeitintervalle. Dabei zählten sie [
n
lim P @ fXn;j 2gA D 0: (4.30)
insgesamt 10 097 Zerfälle, also durchschnittlich 3.87 Zer- n!1
j D1
fälle pro Intervall. Die folgende Tabelle gibt für jedes k D
0; 1; : : : ; 14 die Anzahl nk der Zeitintervalle an, in denen k Bei feiner werdender Intervalleinteilung soll also das Auftre-
Zerfälle beobachtet wurden. ten von mehr als einem Zerfall in irgendeinem Teilintervall
immer unwahrscheinlicher werden. Damit liegt es nahe, Xn;j
k 0 1 2 3 4 5 6 7 durch die Indikatorvariable 1fXn;j 1g anzunähern, die in
nk 57 203 383 525 532 408 273 139 den Fällen Xn;j D 0 und Xn;j D 1 mit Xn;j übereinstimmt.
Konsequenterweise betrachten wir dann die Indikatorsumme
k 8 9 10 11 12 13 14
nk 45 27 10 4 0 1 1 X
n
Sn WD 1fXn;j 1g
j D1
Die nachstehende Abbildung zeigt die zugehörigen relativen
Häufigkeiten (blau) sowie ein Stabdiagramm der Poisson- als eine Approximation der in (4.29) stehenden Summe und
Verteilung mit Parameter D 3:87 (orange). somit als Näherung für X . Da die Ereignisse fXn;j 1g
(j D 1; : : : ; n) unabhängig sind und die gleiche Wahrschein-
lichkeit pn WD P .Xn;1 1/ besitzen, gilt Sn Bin.n; pn /,
0.2 wobei
X
0.1 pn j P .Xn;1 D j / D E.Xn;1/ D :
j 1
n
Kapitel 4
1 2 3 4 5 6 7 8 9 10 11 12 13 14
die Grenzwertaussage
Um diese frappierende Übereinstimmung zu begreifen, neh-
men wir idealisierend an, dass während eines Untersu- k
lim P .Sn D k/ D e :
chungszeitraums nur ein ganz geringer Anteil der Atome des n!1 kŠ
Präparates zerfällt. Ferner soll jedes Atom nur von einem Zu-
stand hoher Energie in einen Grundzustand niedriger Energie Zerlegt man das Ereignis fX D kg nach den Fällen fX D
zerfallen können, was (wenn überhaupt) unabhängig von den Sn g und fX ¤ Sn g, so ergibt sich
anderen Atomen ohne Alterungserscheinung völlig spontan
geschehe. P .X D k/ D P .X D k; X D Sn / C P .X D k; X ¤ Sn /
D P .Sn D k; X D Sn / C P .X D k; X ¤ Sn /
Als Untersuchungszeitraum wählen wir o.B.d.A. das Inter-
vall I WD .0; 1 und schreiben X für die zufällige Anzahl D P .Sn D k/ P .Sn D k; X ¤ Sn /
der Zerfälle in I sowie WD EX für den Erwartungswert C P .X D k; X ¤ Sn /:
von X (die sog. Intensität des radioaktiven Prozesses). Wir S
behaupten, dass X unter gewissen mathematischen Annah- Da aus dem Ereignis fX ¤ Sn g das Ereignis jnD1 fXn;j 2g
men Po./-verteilt ist. Hierzu zerlegen wir I in die Intervalle folgt, liefert (4.30) die Beziehung limn!1 P .X ¤ Sn / D 0
Ij WD ..j 1/=n; j =n (j D 1; : : : ; n) und schreiben Xn;j und somit
für die Anzahl der Zerfälle in Ij , sodass
lim P .Sn D k; X ¤ Sn / D 0 D lim P .X D k; X ¤ Sn /:
n!1 n!1
X D Xn;1 C Xn;2 C : : : C Xn;n (4.29)
Insgesamt erhalten wir dann wie behauptet
gilt. Durch obige Annahmen motiviert unterstellen wir dabei
die Unabhängigkeit und identische
Pn Verteilung der Summan- k
den. Wegen E.X / D P .X D k/ D lim P .Sn D k/ D e :
j D1 E.Xn;j / folgt insbesondere n!1 kŠ
100 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
X1 = 3
Beispiel Ein echter Würfel wird sechsmal in unabhängiger
Folge geworfen. Mit welcher Wahrscheinlichkeit tritt jede Au-
Experiment
Der Zufallsvektor .X1 ; : : : ; Xs / hat eine Multinomialver- die Verteilung Mult.nI 1=4; 1=2; 1=4/, d. h., es gilt
teilung mit Parametern n und p1 ; : : : ; ps (s 2, n 1,
p1 0, . . . , ps 0, p1 C C ps D 1), falls für P .XAA D i; XAa D j ; Xaa D k/
k1 ; : : : ; ks 2 N0 mit k1 C : : : C ks D n gilt: i j k
nŠ 1 1 1
D
nŠ Y
s
k iŠj ŠkŠ 4 2 4
P .X1 D k1 ; : : : ; Xs D ks / D Qs pj j (4.31)
j D1 kj Š j D1 für jede Wahl von i; j ; k 0 mit i C j C k D n. J
Andernfalls sei P .X1 D k1 ; : : : ; Xs D ks / WD 0 gesetzt.
Für einen multinomialverteilten Zufallsvektor schreiben Man sollte auf keinen Fall die Definition der Multinomial-
wir kurz verteilung auswendig lernen, sondern die Entstehung dieser
Verteilung verinnerlichen: Es handelt sich um die gemeinsa-
.X1 ; : : : ; Xs / Mult.nI p1 ; : : : ; ps /: me Verteilung von Trefferanzahlen, nämlich den Treffern j -ter
Art in n unabhängig voneinander durchgeführten Experimenten
(j D 1; : : : ; s). Da wir Trefferarten immer zu Gruppen zusam-
Video 4.7 Die Multinomialverteilung menfassen können – so kann beim Würfeln eine 1; 2 oder 3 als
Treffer erster Art, eine 4 oder 5 als Treffer zweiter Art und ei-
ne 6 als Treffer dritter Art interpretiert werden – ist folgendes
Resultat offensichtlich. Sie sind aufgefordert, einen formalen
Nachweis der ersten Aussage durch Marginalverteilungsbildung
in Übungsaufgabe 4.30 zu führen.
4.4 Kovarianz und Korrelation 101
1p 1p
G.p/ N0 .1 p/k p
p p2
!
kCr 1 r r.1 p/ r.1 p/
Nb.r; p/ N0 p .1 p/k
k p p2
k
Po./ N0 e
kŠ
X
s
Y s
nŠ k
Mult.nI p1 ; : : : ; ps / k D .k1 ; : : : ; ks / 2 N0s W kj D n P .X D k/ D pj
j D1
k1 Š ks Š j D1 j
Folgerung Falls .X1 ; : : : ; Xs / Mult.nI p1 ; : : : ; ps /, so scher Hilfsmittel, s. nächstes Kapitel) auch in größerer Allge-
gelten: meinheit gelten.
a) Xi Bin.n; pi /, i D 1; : : : ; s. Der Grund für die Namensgebung Kovarianz („mit der Va-
b) Es sei T1 C C T` eine Zerlegung der Menge f1; : : : ; sg in rianz“) wird klar, wenn wir die Varianz der Summe zweier
Kapitel 4
nichtleere Mengen T1 ; : : : ; T` , ` 2. Für Zufallsvariablen X und Y berechnen wollen. Nach Definition
X X der Varianz und wegen der Linearität der Erwartungswertbil-
Yr WD Xk ; qr WD pk r D 1; : : : ; `; dung gilt
k2Tr k2Tr
V .X C Y / D E .X C Y E.X C Y //2
gilt dann: .Y1 ; : : : ; Y` / Mult.nI q1 ; : : : ; q` /: J
D E .X EX C Y EY /2
Die Situation unabhängiger gleichartiger Versuche ist insbeson-
dere dann gegeben, wenn man n-mal rein zufällig mit Zurückle- D E.X EX /2 C E.Y EY /2
gen aus einer Urne zieht, die verschiedenfarbige Kugeln enthält, C 2E Œ.X EX /.Y EY /
wobei rj Kugeln die Farbe j tragen (j D 1; : : : ; s). Ein Treffer D V .X / C V .X / C 2E Œ.X EX /.Y EY / :
j -ter Art bedeutet dann das Ziehen einer Kugel der Farbe j . Er-
folgt das Ziehen ohne Zurücklegen, so besitzt der Zufallsvektor Die Varianz der Summe ist also nicht einfach die Summe der
der Trefferanzahlen die in Aufgabe 4.8 behandelte mehrdimen- einzelnen Varianzen, sondern es tritt ein zusätzlicher Term auf,
sionale hypergeometrische Verteilung. der von der gemeinsamen Verteilung von X und Y abhängt.
Aus Unabhängigkeit folgt Unkorreliertheit, Mit der in der Tab. 4.2 gegebenen gemeinsamen Verteilung er-
gibt sich durch direkte Rechnung
aber nicht umgekehrt
X
6
616
Die wichtigsten Eigenschaften der Kovarianz sind nachstehend E.X Y / D i j P .X D i; Y D j / D 17:111
aufgeführt. i ;j D1
36
m n
Cov ai Xi ; bj Yj Cov.X C Y ; X Y / D Cov.X ; X / C Cov.Y ; X /
i D1 j D1 Cov.X ; Y / Cov.Y ; Y /
X
m X
n X
m X
n D V .X / V .Y / D 0;
DE ai bj Xi Yj E ai Xi E bj Yj
i D1 j D1 i D1 j D1 sodass X C Y und X Y unkorreliert sind. Besitzen X und
Y jeweils eine Gleichverteilung auf den Werten 1; 2; : : : ; 6 und
X
m X
n X
m X
n
D ai bj E.Xi Yj / ai bj E.Xi / E.Yj / modellieren hiermit die Augenzahlen beim zweifachen Würfel-
i D1 j D1 i D1 j D1
wurf, so ergibt sich
X
m X
n 1
D ai bj Cov.Xi ; Yj / P .X C Y D 12; X Y D 0/ D ;
36
i D1 j D1
1 1
und somit e). Behauptung f) folgt aus b) und e). P .X C Y D 12/ P .X Y D 0/ D :
36 6
Dies zeigt, dass X CY und X Y nicht stochastisch unabhängig
Beispiel (erste und größte Augenzahl) Es seien X und
sind. Summe und Differenz der Augenzahlen beim zweifachen
Y das Ergebnis des ersten Wurfs bzw. die höchste geworfene
Würfelwurf bilden somit ein einfaches Beispiel für unkorrelier-
Augenzahl beim zweifachen Würfelwurf. Es gilt EX D 3:5,
te, aber nicht unabhängige Zufallsvariablen. J
und nach (4.17) mit k D 6 folgt V .X / D 35=12. Aus der
Tab. 4.2 entnimmt man P .Y D j / D .2j 1/=36, j D Selbstfrage 10
1; : : : ; 6, und somit folgt
Warum gilt V .X / D V .Y /?
1 X
6
161
EY D j .2j 1/ D 4:472;
36 j D1 36
Sind A1 ; : : : ; An Ereignisse, so kann man in Eigenschaft f) der
X
6 Kovarianz speziell Xj D 1fAj g, j D 1; : : : ; n, setzen. Wegen
1 791
EY 2 D j 2 .2j 1/ D 21:972;
36 j D1 36 Cov.1fAi g; 1fAj g/ D E.1fAi g1fAj g/ E1fAi gE1fAj g
2 555 D E.1fAi Aj g/ P .Ai /P .Aj /
V .Y / D EY 2 .EY /2 D 1:971: D P .Ai Aj / P .Ai /P .Aj /
1 296
4.4 Kovarianz und Korrelation 103
ergibt sich folgendes nützliche Resultat für die Varianz einer Indem man die Quotienten der Ausdrücke (4.33) für zwei
Zählvariablen. aufeinanderfolgende Werte von c betrachtet, folgt mit direk-
ter Rechnung, dass die Varianz der Verteilung Pol.n; r; s; c/
monoton mit c wächst, was durch die „variabilitätsfördernde
Die Varianz einer Indikatorsumme Wirkung“ zusätzlicher Kugeln plausibel ist. Insbesondere ist die
Varianz der hypergeometrischen Verteilung Hyp.n; r; s/ klei-
Für eine Indikatorsumme X D 1fA1 g C : : : C 1fAn g gilt
ner als die sich für c D 0 ergebende Varianz der Verteilung
X
n Bin.n; p/ mit p D r=.r C s/, siehe Abb. 4.4. J
V .X / D P .Aj /.1 P .Aj //
j D1 Wir wenden uns nun dem Korrelationskoeffizienten p .X ; Y / zu,
X der sich aus der Kovarianz nach Division durch V .X /V .Y /
C2 P .Ai Aj / P .Ai /P .Aj / : ergibt. Er entsteht quasi als „Abfallprodukt“ aus einem Op-
1i <j n
timierungsproblem. Hierzu stellen wir uns die Aufgabe, die
Realisierungen einer Zufallsvariablen Y aufgrund der Kenntnis
der Realisierungen von X in einem noch zu präzisierenden Sinn
Video 4.8 Die Varianz einer Zählvariablen möglichst gut vorherzusagen. Ein Beispiel hierfür wäre die Vor-
hersage der größten Augenzahl beim zweifachen Würfelwurf
durch die Augenzahl des ersten Wurfes. Wir fassen allgemein
eine Vorhersage als Funktion g W R ! R mit der Deutung
von g.X .!// als Prognosewert für Y .!/ bei Kenntnis der Rea-
lisierung X .!/ auf. Da die einfachste nicht konstante Funktion
einer reellen Variablen von der Gestalt y D g.x/ D a C bx ist,
P
Wie schon der Erwartungswert EX D jnD1 P .Aj / lässt sich liegt der Versuch nahe, Y .!/ nach geeigneter Wahl von a und
somit auch die Varianz einer Indikatorsumme in einfacher Wei- b durch a C bX .!/ vorherzusagen. Dabei orientiert sich diese
se ohne Zuhilfenahme der Verteilung bestimmen. Sind die Ai Wahl am Gütekriterium, die mittlere quadratische Abweichung
gleich wahrscheinlich und hängt die Wahrscheinlichkeit der E.Y a bX /2 des Prognosefehlers durch geeignete Wahl von
Durchschnitte Ai Aj nicht von i und j ab, vereinfacht sich diese a und b zu minimieren.
Darstellung zu
Kapitel 4
Beispiel (Pólya-Verteilung) Im Pólyaschen Urnenmodell min E.Y a bX /2 (4.34)
a;b
von Abschn. 3.1 wird n-mal rein zufällig aus einer Urne mit r
roten und s schwarzen Kugeln gezogen, wobei nach jedem Zug besitzt die Lösung
die gezogene sowie c weitere Kugeln derselben Farbe zurück-
gelegt werden. Bezeichnet Aj das Ereignis, im j -ten
P Zug eine Cov.X ; Y /
rote Kugel zu ziehen, so besitzt die Anzahl X D jnD1 1fAj g b D ; a D E.Y / b E.X /; (4.35)
V .X /
der gezogenen roten Kugeln die in (3.13) angegebene Pólya-
Verteilung Pol.n; r; s; c/. Nach Aufgabe 3.26 gilt und der Minimalwert M in (4.34) ergibt sich zu
r r.r C c/
P .Aj / D ; P .Ai Aj / D M D V .Y / .1 2 .X ; Y //: (4.36)
r Cs .r C s/.r C s C c/
beschreibt h als Funktion von b eine Parabel, welche für b D Beweis Die beiden ersten Aussagen folgen aus der Nichtne-
Cov.X ; Y /=V .X / ihren nichtnegativen Minimalwert M an- gativität von M in (4.36). Im Fall j .X ; Y /j D 1 gilt M D 0
nimmt. Einsetzen von b liefert dann wie behauptet und somit 0 D E.Y a bX /2 , also P .Y D a C bX / D 1 für
gewisse reelle Zahlen a und b. Die Umkehrung gilt ebenfalls.
Cov.X ; Y /2 Cov.X ; Y /2 Der Zusatz in c) gilt, weil .X ; Y / und Cov.X ; Y / das gleiche
M D V .Y / 2 C
V .X / V .X / Vorzeichen besitzen.
2
Cov.X ; Y /
D V .Y / 1 Wir möchten noch eine Eigenschaft des Korrelationskoeffizien-
V .X / V .Y /
ten notieren, die man sich merken sollte. Wegen
p Cov.aX C
D V .Y / .1 2 .X ; Y //: b; cY V .aX C b/ D
p C d / D ac Cov.X ; Y / sowie
jaj V .X / ergibt sich für a; c ¤ 0
nau berechnet aufgeführt. größere Schwestern, es besteht also – wohltuend vage formu-
Aus dieser Tabelle wird deutlich, welche Kritik man an einem liert – ein „statistischer Zusammenhang“ zwischen den Größen
aufgrund mathematischer Optimalitätsgesichtspunkte erhalte- von Geschwistern. Zu dessen Quantifizierung liegt es nahe, eine
nen Verfahren anbringen muss. Zunächst wird jeder, der das Trendgerade festzulegen, die in einem zu präzisierenden Sinn
Maximum der größten Augenzahl nach einer Vier im ersten möglichst gut zu den Daten passt.
Wurf mit 4:72 vorhersagt, Gelächter hervorrufen, denn das Ma- Carl Friedrich Gauß (1777–1855) und Adrien-Marie Legendre
ximum kann ja nur 4, 5 oder 6 sein. Diese Kritik bezieht sich (1752–1833) schlugen vor, bei Vorliegen einer durch Datenpaa-
also auf den Wertebereich der Vorhersagefunktion. Noch wahn- re .xj ; yj / 2 R2 , 1 j n, gegebenen Punktwolke in einem
witziger fällt ja die Vorhersage des Maximums zu 5:72 aus, .x; y/-Koordinatensystem eine Ausgleichsgerade y D a Cb x
wenn schon der erste Wurf eine Sechs ergeben hat. Kritisie- so zu bestimmen, dass sie die Eigenschaft
ren kann man natürlich auch, dass nur affine Funktionen in
Betracht gezogen wurden. Hierauf gehen wir in Abschn. 4.5 X
n X
n
.yj a b xj /2 D min .yj a bxj /2 (4.37)
näher ein. Die beste Vorhersage im quadratischen Mittel, die a;b
j D1 j D1
nur Vorhersagefunktionen mit Wertebereich f1; : : : ; 6g zulässt,
ist Gegenstand von Aufgabe 4.35. J
y Größe der Schwester
Folgerung Für Zufallsvariablen X und Y gelten: (in cm) •
a) Cov.X ; Y /2 V .X /V .Y / (Cauchy–Schwarz-Ungleichung)
170
b) j .X ; Y /j 1, •
c) j .X ; Y /j D 1 () 9a; b 2 R mit P .Y D a C bX / D 1. • •
Dabei gilt b > 0 im Fall .X ; Y / D 1 und b < 0 im Fall • •
•
.X ; Y / D 1. J 160
• •
Größe des
Bruders
Tab. 4.4 Beste affine Vorhersage der größten Augenzahl durch die erste 150 • (in cm)
Augenzahl k im quadratischen Mittel x
165 170 175 180 185
k 1 2 3 4 5 6
g.k/ 3.22 3.72 4.22 4.72 5.22 5.72 Abb. 4.11 Größen von 11 Geschwisterpaaren mit Regressionsgerade
4.4 Kovarianz und Korrelation 105
y y = a + bx ρ ≈ −0.156 ρ ≈ 0.466
yj •
•
a + bxj •
ρ ≈ 0.925 ρ ≈ −0.782
• •
•
xj x
Abb. 4.12 Zur Methode der kleinsten Quadrate: Die Summe der Qua-
dratflächen ist durch geeignete Wahl von a und b zu minimieren
Kapitel 4
1X 1X 1X
n n n effizienten.
x WD xj ; y WD yj ; x2 WD .xj x/2 ;
n j D1 n j D1 n j D1 Abb. 4.14 sollte als warnendes Beispiel dafür dienen, dass
ein starker funktionaler Zusammenhang zwischen Merkmalen
1X 1X
n n
y2 WD .yj y/2 ; xy WD .xj x/.yj y/; vorliegen kann, der nicht durch den Korrelationskoeffizienten
n j D1 n j D1 erfasst wird. Man sieht eine Punktwolke, deren Punkte auf einer
Parabel liegen. Der empirische Korrelationskoeffizient dieser
so gelten EX D x, EY D y, Cov.X ; Y / D xy , V .X / D x2 Punktwolke ist jedoch exakt gleich null.
und V .Y / D y2 : Somit besitzt die Lösung .a ; b / der Aufgabe
(4.37) nach (4.35) die Gestalt
Selbstfrage 11
xy
b D 2 ; a D y b x: (4.38) Warum ist der empirische Korrelationskoeffizient der Punktwol-
x ke in Abb. 4.14 gleich null?
Die nach der Methode der kleinsten Quadrate gewonnene op-
timale Gerade y D a C b x heißt die (empirische) Regressi-
onsgerade von Y auf X . Dabei geht das Wort Regression auf Abschließend sei betont, dass oft vorschnell von Korrelation auf
Sir Francis Galton (1822–1911) zurück, der bei der Vererbung Kausalität geschlossen wird. So stellte man etwa bei Gehältern
von Erbsen einen Rückgang des durchschnittlichen Durchmes- von Berufsanfängern fest, dass Studiendauer und Einstiegsge-
sers feststellte. Wegen der zweiten Gleichung in (4.38) geht halt positiv korreliert sind, also ein langes Studium tendenziell
die Regressionsgerade durch den Schwerpunkt .x; y/ der Da- zu höheren Anfangsgehältern führt. Bei Unterscheidung nach
ten. Die Regressionsgerade zur Punktwolke der Größen der 11 dem Studienfach stellt sich hingegen in jedem einzelnen Fach
Geschwisterpaare ist in Abb. 4.11 veranschaulicht. Weiter gilt eine negative Korrelation zwischen Studiendauer und Einstiegs-
im Fall x2 > 0; y2 > 0: gehalt ein. Der Grund für diesen in Abb. 4.15 mit drei ver-
Pn schiedenen Studienfächern dargestellten auf den ersten Blick
xy j D1 .xj x/.yj y/ verwirrenden Sachverhalt ist einfach: Die Absolventen des rot
.X ; Y / D q D qP Pn :
x2 y2 n
.x x/ 2 .y y/ 2 gekennzeichneten Faches erzielen im Schnitt ein höheres Start-
j D1 j j D1 j
gehalt als ihre Kommilitonen im blau markierten Fach, weil
(4.39) ihr Studium augenscheinlich wesentlich aufwändiger ist. Das
106 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Sind X eine Zufallsvariable mit existierendem Erwar- Es seien X und Y Zufallsvariablen mit existierenden Er-
tungswert und A ein Ereignis mit P .A/ > 0, so heißt wartungswerten, A ein Ereignis mit P .A/ > 0 sowie
Z ein k-dimensionaler Zufallsvektor und z 2 Rk mit
1 X P .Z D z/ > 0. Dann gelten:
E.X jA/ WD X .!/ P .f!g/ (4.40)
P .A/ !2A\˝ a) E.X C Y jA/ D E.X jA/ C E.Y jA/,
0
b) E.aX jA/ D aE.X jA/, a 2 R,
bedingter Erwartungswert von X unter der Bedin- c) E.1B jA/ D P P .BjA/, B 2 A, P
gung A (bzw. unter der Hypothese A). d) E.X jA/ D j 1 xj P .X D xj jA/, falls j 1 P .X D
xj / D 1, P
Gilt speziell A D fZ D zg für einen k-dimensionalen e) E.X jZ D z/ D
P j 1 xj P .X D xj jZ D z/, falls
Zufallsvektor Z und ein z 2 Rk , so heißt
j 1 P .X D xj / D 1,
E.X jZ D z/ WD E.X jfZ D zg/ (4.41) f) E.X jZ D z/ D E.X /, falls X und Z unabhängig sind.
der Erwartungswertbildung in Abschn. 4.2 stets P durch die be- Beweis Wir schreiben kurz Aj WD fZ D zj g und sor-
dingte Verteilung PA ersetzen. In gleicher Weise ergibt sich d) tieren die Summanden auf der rechten Seite von (4.43) nach
aus der zu Beginn von Abschn. 4.2 formulierten Transformati- gleichen Werten zj für Z.!/. Zusammen mit PAj .f!g/ D
onsformel für den Erwartungswert. e) ist ein Spezialfall von d) P .f!g/=P .Z D zj / und PAj .f!g/ D 0 für ! 2 ˝ n Aj so-
mit A WD fZ D zg. Wegen P .X D xj jZ D z/ D P .X D xj / wie in der in (4.42) verwendeten Schreibweise EPAj folgt
im Fall der Unabhängigkeit von X und Z folgt f) aus e).
E .X h.Z//2
Beispiel Beim zweifachen Wurf mit einem echten Würfel sei XX
Xj die Augenzahl des j -ten Wurfs. Wie groß ist der bedingte D .X .!/ h.zj //2 P .f!g/
Erwartungswert von X1 unter der Bedingung X1 C X2 5? j 1 !2Aj
X X
Zur Beantwortung dieser Frage beachten wir, dass sich das Er- D P .Z D zj / .X .!/ h.zj //2 PAj .f!g/
eignis A WD fX1 C X2 5g im Grundraum ˝ WD f.i; j / W j 1 !2Aj
i; j 2 f1; 2; 3; 4; 5; 6gg in der Form A D f.1; 1/; .1; 2/; .1; 3/; X X
.1; 4/; .2; 1/; .2; 2/; .2; 3/; .3; 1/; .3; 2/; .4; 1/g darstellt. Wegen D P .Z D zj / .X .!/ h.zj //2 PAj .f!g/
P .A/ D 10=36 und P .f!g/ D 1=36, ! 2 ˝, folgt nach Defini- j 1 !2˝0
tion des bedingten Erwartungswertes X
D P .Z D zj /EPAj .X h.zj //2 :
E.X1 jA/ D E.X1 jX1 C X2 5/ j 1
1
36
.1 C 1 C 1 C 1 C 2 C 2 C 2 C 3 C 3 C 4/ Die MQA EPAj .X h.zj //2 wird nach der allgemeinen Mini-
D
10=36 malitätseigenschaft V .U / D mina2R E.U a/2 der Varianz
D 2: einer Zufallsvariablen U für die Wahl
Aus Symmetriegründen gilt E.X2 jA/ D 2. J h.zj / WD EPAj .X / D E.X jAj / D E.X jZ D zj /; j 1;
Wir wenden uns nun dem Problem zu, die Realisierungen X .!/
minimal. Die in (4.44) getroffene Festsetzung h.z/ WD 0 für
einer Zufallsvariablen X mithilfe der Realisierungen Z.!/ ei-
z 2 Rk n fz1 ; z2 ; : : :g ist willkürlich. Sie dient nur dazu, die
nes k-dimensionalen Zufallsvektors Z vorherzusagen. Diese
Funktion h auf ganz Rk zu definieren.
Vorhersage erfolgt über eine Funktion h W Rk ! R, wobei
h.Z.!// als Prognosewert für X .!/ bei Kenntnis der Realisie-
rung Z.!/ angesehen wird. Als Kriterium für die Qualität der
Vorhersage diene die mittlere quadratische Abweichung (MQA) Die bedingte Erwartung E.X jZ / ist eine von Z
X abhängende Zufallsvariable
Kapitel 4
E .X h.Z//2 D .X .!/ h.Z.!///2 P .f!g/ (4.43)
!2˝0 Bilden wir die Komposition von Z und der eben konstruierten
Abbildung h, so entsteht die folgende zentrale Begriffsbildung.
zwischen tatsächlichem und vorhergesagtem Wert. Hierfür müs-
sen wir natürlich die zusätzliche Annahmen E.X 2/ < 1 und
E.h.Z/2/ < 1 treffen.
Definition der bedingten Erwartung
Welche Prognose-Funktion h liefert die kleinstmögliche MQA?
Die Antwort erschließt sich relativ leicht, wenn man bedenkt, Die mit h wie in (4.44) für jedes ! 2 ˝ durch
dass die mittlere quadratische Abweichung E.X a/2 für die
Wahl a WD EX minimal wird. In unserer Situation führt die E.X jZ/.!/ WD h.Z.!//
(
Lösung auf den bedingten Erwartungswert. E.X jZ D Z.!//; falls Z.!/ 2 fz1 ; z2 ; : : :g
D
0 sonst,
Satz über den bedingten Erwartungswert als beste Vor-
hersage im quadratischen Mittel definierte Zufallsvariable E.X jZ/ heißt bedingte Erwar-
tung von X bei gegebenem Z .
Der Zufallsvektor Z nehme die verschiedenen Werte
z1 ; z2 ; : : : mit positiven Wahrscheinlichkeiten an, wobei
P
j 1 P .Z D zj / D 1 gelte. Dann wird die mittlere qua- Man beachte, dass die Realisierungen E.X jZ/.!/, ! 2 ˝, von
dratische Abweichung (4.43) minimal, falls
E.X jZ/ nur vom Wert Z.!/ abhängen. Die bedingte Erwartung
( E.X jZ/ ist somit als Funktion auf ˝ konstant auf den Mengen
E.X jZ D zj /; falls z D zj für ein j 1 fZ D zj g, j 1.
h.z/ WD
0; falls z 2 Rk n fz1 ; z2 ; : : :g
(4.44) Beispiel Beim zweifachen Würfelwurf seien Xj die Augen-
zahl des j -ten Wurfs sowie M WD max.X1 ; X2 / die höchs-
gesetzt wird. te Augenzahl. Welche Gestalt besitzt die bedingte Erwartung
E.M jX1/?
108 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
In diesem Beispiel ist aus Sicht obiger Definition Z D X1 und Setzt man in (4.45) speziell X D 1B für ein Ereignis B, so ent-
X D M . Unter der Bedingung X1 D j gilt M D j , falls steht wegen der Eigenschaft E.1B jA/ D P .BjA/ des bedingten
das Ereignis X2 j eintritt, was mit der Wahrscheinlichkeit Erwartungswertes die Formel von der totalen Wahrscheinlich-
j =6 geschieht, andernfalls gilt M D X2 . Somit nimmt unter der keit.
Bedingung X1 D 6 die Zufallsvariable M den Wert 6 mit der
(bedingten) Wahrscheinlichkeit 1 an, und im Fall X1 D j mit
j < 6 werden die Werte j und j C 1; : : : ; 6 mit den (bedingten) Man kann Erwartungswerte durch Bedingen
Wahrscheinlichkeiten j =6 bzw. 1=6; : : : ; 1=6 angenommen. Mit
der Konvention, eine Summe über die leere Menge gleich 0 zu
nach einer Zufallsvariablen iteriert ausrechnen
setzen, folgt für j 2 f1; : : : ; 6g
X6 Iterierte Erwartungswertbildung
j 1
E.M jX1 D j / D j C k
6 6 Gilt im obigen Satz speziell Aj D fZ D zj g für ei-
kDj C1
nen Zufallsvektor Z, der die Werte z1 ; z2 ; : : : mit positiver
1 j .j C 1/ Wahrscheinlichkeit annimmt, so geht (4.45) über in
D j 2 C 21
6 2 X
j .j 1/ E.X / D E.X jZ D zj / P .Z D zj /: (4.46)
D 3:5 C ; j 1
12
und somit
X1 .X1 1/ Nach Definition der bedingten Erwartung E.X jZ/ steht auf der
E.M jX1/ D 3:5 C : rechten Seite von (4.46) der Erwartungswert von E.X jZ/. So-
12
mit besitzt Darstellung (4.46) die Kurzform
Setzt man die möglichen Realisierungen 1, 2; : : : ; 6 für X1 ein,
so ergeben sich als Vorhersagewerte für M die auf zwei Stellen EX D E.E.X jZ//: (4.47)
gerundeten Werte 3.5, 3.67, 4, 4.5, 5.17, 6. Auch hier treten (als
jeweils bedingte Erwartungswerte) nicht ganzzahlige Werte auf. Gleichung (4.46) kann als eine iterierte Erwartungswertbildung
Würde man den Wertebereich einer Prognosefunktion auf die verstanden werden. Man erhält EX , indem man zunächst die
Menge f1; 2; : : : ; 6g einschränken, so ergäbe sich eine andere bedingten Erwartungswerte von X bei gegebenen Realisierun-
Lösung (Aufgabe 4.35). J gen zj von Z bestimmt, diese mit den Wahrscheinlichkeiten
P .Z D zj / gewichtet und dann aufsummiert. Natürlich machen
Kapitel 4
Einer unter mehreren möglichen Grundräumen für dieses Prob- Die Substitutionsregel besagt, dass man die durch Bedingung
lem ist die (abzählbare) Menge ˝ aller endlichen Sequenzen aus Z D z gegebene Information über Z in die Funktion g.X ; Z/
Nullen und Einsen, die nur am Ende zwei direkt aufeinanderfol- „einsetzen“, also den Zufallsvektor Z durch dessen Realisie-
gende Einsen aufweisen. Wir gehen an dieser Stelle nicht auf rung z ersetzen kann.
die Existenz des Erwartungswertes von X und die Gleichung
P
!2˝ P .f!g/ D 1 ein (siehe Aufgabe 4.36), sondern machen Beispiel (Augensumme mit zufälliger Wurfanzahl) Ein
deutlich, wie die Formel vom totalen Erwartungswert in dieser
echter Würfel wird geworfen. Fällt die Augenzahl k, so wer-
Situation angewendet werden kann.
den danach k echte Würfel geworfen. Welchen Erwartungswert
Aufgrund von Abb. 4.16 drängt sich auf, nach den Ergebnis- hat die insgesamt gewürfelte Augensumme? Zur Beantwortung
sen der beiden ersten Versuche zu bedingen. Hierzu bezeichne dieser Frage wählen wir den Grundraum ˝ D f1; 2; : : : ; 6g7 D
A1 das Ereignis, dass der erste Versuch eine Niete ergibt. Der f! D .a0 ; a1 ; : : : ; a6 / W 1 aj 6 für j D 0; : : : ; 6g mit der
konträre Fall, dass die Bernoulli-Kette mit einem Treffer be- Gleichverteilung P auf ˝. Die durch Xj .!/ WD aj definierte
ginnt, wird in die beiden Unterfälle aufgeteilt, dass sich im Zufallsvariable Xj gibt die Augenzahl des .j C 1/-ten Wurfs
zweiten Versuch eine Niete bzw. ein Treffer einstellt. Diese Er- an. Die Zufallsvariablen X0 ; X1 ; : : : ; X6 sind unabhängig, und
eignisse werden mit A2 bzw. A3 bezeichnet. Offenbar gelten die durch
A1 C A2 C A3 D ˝ sowie P .A1 / D q, P .A2/ D pq und
P .A3 / D p 2 . Tritt A1 ein, so verbleibt man nach einem im X
X0 .!/
Hinblick auf den Doppeltreffer vergeblichen Versuch im Start- X .!/ WD X0 .!/ C Xj .!/; ! 2 ˝;
zustand, was sich in der Gleichung j D1
Kapitel 4
ergibt sich für die Wartezeit Y auf das mit gleicher Wahrschein- j D1
Beweis Mit der Abkürzung pz WD P .Z D z/ gilt Dieses Ergebnis sollte auch plausibel sein. Es werden ja „im
1 X Schnitt 4:5.D 1 C 3:5/ Würfelwürfe“ durchgeführt, und jeder
E.g.X ; Z/jZ D z/ D g.X .!/; Z.!//P .f!g/ Wurf trägt im Durchschnitt den Wert 3.5 zur Gesantsumme bei.
pz
!2˝0 WZ.!/Dz J
1 X
D g.X .!/; z/P .f!g/
pz Selbstfrage 14
!2˝0 WZ.!/Dz
Warum gilt E.kjX0 D k/ D k?
D E.g.X ; z/jZ D z/:
110 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Unter der Lupe: Zwischen Angst und Gier: Die Sechs verliert
Ein Problem des optimalen Stoppens vom erreichten Punktestand k betrachtet, also den mit Ek .G/
abgekürzten bedingten Erwartungswert von G unter dem-
Ein echter Würfel wird wiederholt geworfen. Solange kei-
jenigen Ereignis Ak , das aus allen zu einem Punktestand
ne Sechs auftritt, werden die erzielten Augenzahlen auf ein
von k führenden Wurfsequenzen besteht. Wenn wir formal
Punktekonto addiert. Das Spiel kann jederzeit gestoppt wer-
A0 WD ˝ setzen, läuft k hierbei von 0 bis 19. Der maximale
den. Der erzielte Punktestand ist dann der Gewinn (in Euro).
Wert 19 wird erreicht, wenn man mit 14 Punkten eine Fünf
Kommt eine Sechs, so fällt man auf 0 Punkte zurück und
würfelt. Nach Definition gilt offenbar EG D E0 .G/.
gewinnt nichts. Würfelt man etwa 4,5,2,2 und stoppt dann,
so beträgt der Gewinn 13 Euro. Bei der Sequenz 3,1,6 geht Da man mit mindestens 15 Punkten stoppt und diese Punkt-
man leer aus, da nach den ersten beiden Würfen das Spiel zahl als Gewinn erhält, gilt
nicht beendet wurde. Welche Strategie sollte verfolgt wer-
den, wenn man das Spiel oft wiederholt spielen müsste? Ek .G/ D k; falls k 2 f15; 16; 17; 18; 19g: (4.49)
Eine Entscheidung zwischen Weiterwürfeln und Stoppen
sollte offenbar vom erreichten Punktestand und nicht von Für k 14 betrachten wir das zufällige Ergebnis X des
der Anzahl der Würfe, die man ohne Sechs überstanden hat, nächsten Wurfs. Die Formel vom totalen Erwartungswert,
abhängig gemacht werden, denn die Wahrscheinlichkeit für angewendet auf Ek .G/, besagt
eine Sechs wird ja nicht größer, je länger sie ausgeblieben
ist. Aber lohnt es sich, bei k erreichten Punkten weiter- X
6
zuwürfeln? Hierzu betrachten wir den Erwartungswert des Ek .G/ D Ek .GjX D j / P .X D j /: (4.50)
zufälligen Punktestandes Xk nach einem gedanklichen wei- j D1
teren Wurf. Da Xk die Werte k C 1; : : : ; k C 5 und 0 jeweils
mit Wahrscheinlichkeit 1=6 annimmt, gilt Da eine Sechs verliert, gilt Ek .GjX D 6/ D 0. Im Fall
X D j mit j 5 erhält man weitere j Punkte, es gilt al-
1X so Ek .GjX D j / D EkCj .G/. Wegen P .X D j / D 1=6
5
5k C 15
E.Xk / D .k C j / D (j D 1; : : : ; 6) nimmt dann (4.50) die Gestalt
6 j D1 6
1X
5
und somit E.Xk / > k () k < 15. Nach diesem aus der Ek .G/ D EkCj .G/
Kapitel 4
Bedingte Wahrscheinlichkeiten Die gesuchte bedingte Verteilung ist also die Binomialvertei-
lung Bin.n; =. C // oder kurz
P .X 2 BjZ D z/ als Funktion von B:
Die bedingte Verteilung PXXCY Dn D Bin.n; =. C //:
In gleicher Weise entsteht die hypergeometrische Verteilung als
Definition der bedingten Verteilung bedingte Verteilung bei gegebener Summe von zwei unabhän-
gigen binomialverteilten Zufallsvariablen (Aufgabe 4.11). Eine
Es seien X und Z n- bzw. k-dimensionale diskrete Zu- Verallgemeinerung des obigen Beispiels auf die Multinomial-
fallsvektoren sowie z 2 Rk mit P .Z D z/ > 0. Dann verteilung findet sich in Aufgabe 4.40. J
heißt das Wahrscheinlichkeitsmaß
( Nach (4.46) und (4.47) kann der Erwartungswert einer Zufalls-
Bk ! Œ0; 1 variablen durch Bedingen nach einer anderen Zufallsvariablen
PZDz W
X
B 7! PZDz
X
.B/ WD P .X 2 BjZ D z/ iteriert berechnet werden. Die Frage, ob es eine analoge Vorge-
hensweise zur Bestimmung der Varianz gibt, führt auf folgende
bedingte Verteilung von X unter der Bedingung Begriffsbildung.
Z D z.
Definition der bedingten Varianz
P
Gilt j 1 P .X D xj / D 1, so ist die bedingte Verteilung PZDz
X
Es seien X eine Zufallsvariable mit existierender Vari-
durch das System der Wahrscheinlichkeiten anz, Z ein k-dimensionaler Zufallsvektor und z 2 Rk mit
P .Z D z/ > 0. Dann heißt
P .X D xj jZ D z/; j 1;
eindeutig bestimmt, denn es gilt V .X jZ D z/ WD E .X E.X jZ D z//2 jZ D z
X
P .X 2 BjZ D z/ D P .X D xj jZ D z/: die bedingte Varianz von X unter der Bedingung
j Wxj 2B Z D z.
Man beachte auch, dass Nimmt Z die Werte z1 ; z2 ; : : : mit positiven Wahrschein-
X lichkeiten an, so heißt die durch
E.X jZ D z/ D xj P .X D xj jZ D z/
j 1 V .X jZ/.!/
(
Kapitel 4
nach Eigenschaft e) des bedingten Erwartungswertes der Erwar- V .X jZ D Z.!//; falls Z.!/ 2 fz1 ; z2 ; : : :g
tungswert der bedingten Verteilung von X unter der Bedingung WD
0 sonst,
Z D z ist.
(! 2 ˝) definierte Zufallsvariable V .X jZ/ die bedingte
Beispiel (Binomialverteilung als bedingte Verteilung) Varianz von X bei gegebenem Z .
Die Zufallsvariablen X und Y seien stochastisch unabhängig,
wobei X Po./ und Y Po./ mit ; > 0. Welche be-
dingte Verteilung besitzt X unter der Bedingung X CY D n mit Nach Definition ist V .X jZ D z/ die Varianz der bedingten Ver-
festem n 2 N? Da X und Y N0 -wertig sind, kann X unter der teilung von X unter der Bedingung Z D z. Nimmt X die Werte
Bedingung X C Y D n jeden Wert k 2 f0; 1; : : : ; ng annehmen. x1 ; x2 ; : : : an, so berechnet sich V .X jZ D z/ gemäß
Für ein solches k gilt X 2
P .X D k; X C Y D n/ V .X jZ D z/ D xj E.X jZ D z/ P .X D xj jZ D z/:
P .X D kjX C Y D n/ D : j 1
P .X C Y D n/
Die Zufallsvariable V .X jZ/ ist ebenso wie die bedingte Erwar-
Da X CY nach dem Additionsgesetz für die Poisson-Verteilung
tung E.X jZ/ auf den Mengen fZ D zj g, j 1, konstant.
die Verteilung Po. C / besitzt und das Ereignis fX D k; X C
Die Festsetzung V .X jZ/.!/ WD 0 im Fall Z.!/ … fz1 ; z2 ; : : :g
Y D ng gleichbedeutend mit fX D k; Y D n kg ist, folgt
dient nur dazu, dass V .X jZ/ auf ganz ˝ definiert ist.
wegen der Unabhängigkeit von X und Y
Das angekündigte Resultat zur iterierten Berechnung der Vari-
P .X D k/ P .Y D n k/ anz lautet wie folgt:
P .X D kjX C Y D n/ D
P .X C Y D n/
k nk
e kŠ e .nk/Š Satz über die iterierte Berechnung der Varianz
D n
e.C/ .C/
nŠ In der Situation der obigen Definition gilt
! k nk
n V .X / D V .E.X jZ// C E.V .X jZ//: (4.51)
D 1 :
k C C
112 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Schreiben wir auf der rechten Seite X EX D X h.zj / C Definition der erzeugenden Funktion
h.zj / EX mit h.zj / WD E.X jZ D zj /, so liefern die binomi- Für eine N0 -wertige Zufallsvariable X heißt die durch
sche Formel und die Linearität des bedingten Erwartungswerts
sowie die Substitutionsregel X
1
X gX .t / WD P .X D k/ t k ; jt j 1; (4.52)
V .X / D E .X h.zj //2 jZ D zj P .Z D zj / kD0
j 1
X definierte Potenzreihe gX die erzeugende Funktion
C2 .h.zj / EX /2 von X .
j 1
E X h.zj /jZ D zj P .Z D zj /
X
C .h.zj / EX /2 P .Z D zj /:
Kommentar
j 1
Allgemein nennt man für eine reelle Zahlenfolge .ak /k0 die
Wegen E.X h.zj /jZ D zj / D E.X jZ D zj / h.zj / D Potenzreihe
0 verschwindet hier der gemischte Term. Der X 1
Perste Term ist g.t / WD ak t k (4.53)
nach Definition der bedingten Varianz gleich j 1 V .X jZ D
zj /P .Z D zj /, also gleich E.V .X jZ//, und der letzte Term kD0
gleich V .E.X jZ//. die erzeugende Funktion von .ak /k0 . Hiermit ist also gX die
erzeugende Funktion der Folge .P .X D k//k0 . In (4.53)
Nach diesem Satz ergibt sich also die Varianz von X als Summe setzen wir voraus, dass der Konvergenzradius von g nicht
aus der Varianz der bedingten Erwartung von X bei gegebenem verschwindet. Wegen
Z und des Erwartungswerts der bedingten Varianz von X bei
X
1
Kapitel 4
Beispiel (Augensumme mit zufälliger Wurfanzahl, ist diese Bedingung für erzeugende Funktionen von Zufalls-
Fortsetzung) In Fortsetzung des Beispiels der Augensum- variablen stets erfüllt.
me mit zufälliger Wurfanzahl wollen wir die Varianz der Die erzeugende Funktion einer Zufallsvariablen X hängt nur
P 0 von der Verteilung P X von X und nicht von der speziellen
insgesamt gewürfelten Augensumme X WD X0 C jXD1 Xj be-
stimmen. Hierzu bedingen wir nach der Zufallsvariablen X0 . Gestalt des zugrunde liegenden Wahrscheinlichkeitsraums
Die bedingte Verteilung von X unter der Bedingung X0 D k ist ab. Aus diesem Grund wird gX auch die erzeugende Funk-
P tion von P X genannt. Wegen
die Verteilung der Zufallsvariablen k C jkD1 Xj . Wir müssen
diese Verteilung nicht kennen, um deren Varianz zu bestimmen, gX .0/ D P .X D 0/
sondern nutzen die Summenstruktur aus. Da sich Varianzen bei
Addition von Konstanten nicht ändern und V .Xj / D 35=12 gilt, und
folgt wegen der Unabhängigkeit von X1 ; : : : ; X6 dj X 1
j
gX .t /j t D0 D .k/j P .X D k/t kj j t D0
dt
35 kDj
V .X jX0 D k/ D k ; k D 1; 2; : : : ; 6;
12 D j Š P .X D j /
also .j D 1; 2; : : :/ kann aus der Kenntnis von gX die Verteilung
35 von X zurückgewonnen werden. Folglich gilt der Eindeutig-
V .X jX0/ D X0 : keitssatz
12 P X D P Y () gX D gY (4.54)
Wegen E.X jX0/ D 4:5 X0 folgt
für N0 -wertige Zufallsvariablen X und Y .
Nach der allgemeinen Transformationsformel (4.15) gilt
35
V .X / D V .4:5 X0 / C E X0
12 gX .t / D E.t X /; jt j 1: (4.55)
35 35
D 4:52 C 3:5 69:27: J J
12 12
4.6 Erzeugende Funktionen 113
Beispiel Selbstfrage 15
a) Eine Bin.n; p/-verteilte Zufallsvariable X besitzt die erzeu- Können Sie das Additionsgesetz für die Poisson-Verteilung be-
gende Funktion weisen?
!
X
n
n k Dass man mithilfe erzeugender Funktionen sehr einfach Erwar-
gX .t / D p .1 p/nk t k
k tungswert und Varianz von Verteilungen berechnen kann, zeigt
kD0
folgendes Resultat. In diesem Zusammenhang erinnern wir an
D .1 p C pt /n : (4.56) die abkürzende Schreibweise
b) Ist X eine Zufallsvariable mit der Poisson-Verteilung Po./, .k/r D k.k 1/ : : : .k r C 1/:
so gilt
X
1 Satz über erzeugende Funktionen und Momente
k k
gX .t / D e t D e et
kŠ Es seien X eine N0 -wertige Zufallsvariable mit erzeugen-
kD0
der Funktion gX sowie r eine natürliche Zahl. Dann sind
.t 1/
De : (4.57) folgende Aussagen äquivalent:
Kapitel 4
Sind X ; Y unabhängige N0 -wertige Zufallsvariablen, so kDr
gilt
welche ihrerseits gleichbedeutend mit der Konvergenz der Po-
gX CY .t / D gX .t / gY .t /; jt j 1: tenzreihe
dr
1X
r
gX .t / D .k/r P .X D k/ t kr
dt
kDr
Beweis Da mit X und Y auch t X und t Y stochastisch unab- im Randpunkt t D 1 des Intervalls .1; 1/ ist. Nach dem
hängig sind, folgt mit der Darstellung (4.55) Abelschen Grenzwertsatz (s. z. B. [1], Abschn. 11.1) gilt dann
.r/
E.X /r D gX .1/.
gX CY .t / D E.t X CY / D E.t X t Y /
D E.t X / E.t Y / Kommentar Man nennt E.X /r das r-te faktorielle Moment
D gX .t / gY .t /; jt j 1: von X . Die Existenz (Endlichkeit) des r-ten faktoriellen Mo-
mentes ist also gleichbedeutend mit der Existenz der linksseiti-
gen r-ten Ableitung der erzeugenden Funktion an der Stelle 1.
Beispiel Sind X und Y unabhängige Zufallsvariablen mit
.r/ .r/
X Bin.m; p/ und Y Bin.n; p/, so folgt mit (4.56) und Wir schreiben im Folgenden kurz gX .1/ D gX .1/ sowie
der Multiplikationsformel .1/ .2/
gX0 .1/ D gX .1/, gX00 .1/ D gX .1/ usw. Mithilfe des obigen Sat-
zes lassen sich Erwartungswert und Varianz von X sehr leicht
gX CY .t / D .1 p C pt /m .1 p C pt /n aus gX berechnen, wobei rekursiv vorgegangen wird:
D .1 p C pt /mCn : E.X / D gX0 .1/
Mit dem Eindeutigkeitssatz (4.54) und (4.56) ergibt sich das E.X 2 / D EŒX .X 1/ C EX D gX00 .1/ C gX0 .1/ usw.
schon aus Abschn. 4.3 bekannte Additionsgesetz X C Y Insbesondere ergibt sich
Bin.m C n; p/. Völlig analog beweist man die Additionsgesetze
für die Poisson-Verteilung und die negative Binomialverteilung. V .X / D gX00 .1/ C gX0 .1/ .gX0 .1//2: (4.58)
J J
114 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Mithilfe erzeugender Funktionen lässt sich ein einfacher ge- Mit k WD n C i s C j , also j D k n i s ergibt sich
schlossener Ausdruck für P .Sn D k/ angeben. ! ! !
nCj 1 kis1 kis1
Problemanalyse und Strategie Die Zufallsvariablen D D :
X1 ; : : : ; Xn seien unabhängig und je gleichverteilt auf den j k isn n1
Werten 1; 2; : : : ; s, wobei s 2. Im Folgenden leiten wir
einen geschlossenen Ausdruck für die Verteilung der Sum- Der letzte Binomialkoeffizient ist nur dann von null verschie-
me Sn D X1 C : : : C Xn her. Für s D 6 erhält man somit die den, falls k i s 1 n 1 gilt, was gleichbedeutend
Verteilung der Augensumme beim n-fachen Wurf mit einem mit i b kn
s
c ist. Weiter gilt n k n s, da andernfalls
echten Würfel. P .Sn D k/ D 0 wäre. Es folgt
Beispiel Für eine Bin.n; p/-verteilte Zufallsvariable X folgt In Anwendungen treten häufig randomisierte Summen, also
mit gX .t / D .1 p C pt /n Summen von Zufallsvariablen mit einer zufälligen Anzahl von
Summanden, auf. Beispielsweise ist die Anzahl der einer Versi-
gX0 .t / D np.1 p C pt /n1 cherung in einem bestimmten Zeitraum gemeldeten Schadens-
gX00 .t / D n.n 1/p 2 .1 p C pt /n2 ; fälle zufällig, und die Gesamt-Schadenshöhe setzt sich additiv
aus den zufälligen Schadenshöhen der einzelnen Schadensfälle
und wir erhalten die schon bekannten Resultate zusammen.
E.X / D gX0 .1/ D np; Wir betrachten hier den Fall stochastisch unabhängiger N0 -
wertiger Zufallsvariablen N ; X1 ; X2 ; : : :, die alle auf einem
V .X / D gX00 .1/ C gX0 .1/ .gX0 .1//2 gemeinsamen Wahrscheinlichkeitsraum .˝; A; P / definiert sei-
D n.n 1/p 2 C np n2 p 2 en. Dabei mögen X1 ; X2 ; : : : alle die gleiche Verteilung und
somit auch die gleiche erzeugende Funktion g besitzen. Die er-
D np.1 p/:
zeugende Funktion von N sei '.t / D E.t N /. Mit S0 WD 0,
Völlig analog ergeben sich Erwartungswert und Varianz für die Sk WD X1 C C Xk , k 1, ist die randomisierte Summe SN
Poisson-Verteilung und die negative Binomialverteilung (Auf- durch
gabe 4.42). J SN .!/ WD SN .!/ .!/; ! 2 ˝;
4.6 Erzeugende Funktionen 115
Der einfache Galton-Watson-Prozess Man kann vermuten, dass w entscheidend von dem als
existent angenommenen Erwartungswert WD g 0 .1/ der Re-
Francis Galton (1822–1911) formulierte im Jahre 1873 das
produktionsverteilung abhängt. Gilt > 1 bzw. D 1 bzw.
folgende Problem: Mit welcher Wahrscheinlichkeit stirbt die
< 1, so heißt der Galton-Watson-Prozess superkritisch
männliche Linie der Nachkommenschaft eines Mannes aus,
bzw. kritisch bzw. subkritisch. In der Tat ist die Aussterbe-
wenn dieser und jeder seiner Söhne, Enkel usw. unabhängig
wahrscheinlichkeit w die kleinste nichtnegative Lösung der
voneinander mit der gleichen Wahrscheinlichkeit pk genau k
Gleichung g.t / D t , und es gilt w < 1 im superkritischen
Söhne hat .k 2 f0; 1; 2; : : :g/?
Fall > 1. Unter den Annahmen p1 < 1 und 1 gilt
In neutraler Einkleidung und mit weiteren vereinfachenden w D 1.
Annahmen liege eine Population von Individuen vor, die al-
le eine Lebensdauer von einer Zeiteinheit besitzen und sich Diese Behauptungen sind relativ leicht einzusehen. Zunächst
ungeschlechtlich vermehren. Dabei kommen die Individuen ist wegen
einer Generation simultan zur Welt und sterben auch gleich-
zeitig. Wir bezeichnen mit Mn den Umfang der Population g.w/ D g lim 'n .0/
n!1
zur Zeit n 1 und setzen M0 WD 1.
D lim g.'n .0//
n!1
Die Folge .pk /k0 definiert eine Wahrscheinlichkeitsvertei-
lung auf N0 , die sog. Reproduktionsverteilung. Die erzeu- D lim 'nC1 .0/ D w
n!1
gende Funktion dieser Verteilung sei mit
w ein Fixpunkt von g. Für einen weiteren Fixpunkt x 0 gilt
X
1
x D g.x/ g.0/ D '1 .0/ und somit induktiv x 'n .0/,
k
g.t / WD pk t ; jt j 1;
n 2 N, also x w D limn!1 'n .0/.
kD0
bezeichnet. Wir nehmen an, dass sich jedes Individuum in je- Falls p0 C p1 D 1, so folgt P .Mn D 0/ D 1 p1n und
der Generation unabhängig von den anderen Individuen nach somit w D 1 für p1 < 1 (in diesem P Fall ist 1/.
dieser Verteilung fortpflanzt. Diese Annahme führt zur Re- Falls p0 C p1 < 1, so ist g 0 .t / D 1 kD1 kpk t
k1
auf Œ0; 1
produktionsgleichung streng monoton und g.t / dort strikt konvex. g kann dann
höchstens zwei Fixpunkte haben. Die beiden Möglichkeiten
X
Mn D g 0 .1/ 1 bzw. D g 0 .1/ > 1 sind nachstehend
Kapitel 4
.j /
MnC1 D XnC1 : (4.59) veranschaulicht. Die Behauptungen ergeben sich unmittelbar
j D1 aus dem Mittelwertsatz (falls g 0 .1/ 1/ bzw. aus dem Zwi-
schenwertsatz (falls g 0 .1/ > 1/.
.j /
Dabei seien fXn W n; j 2 Ng unabhängige N0 -wertige Zu-
.j /
fallsvariablen mit obiger erzeugender Funktion, und XnC1 g(t) g(t)
bezeichne die Anzahl der Nachkommen des j -ten Indivi-
duums in der n-ten Generation. Die durch (4.59) rekursiv
definierte Folge .Mn /n0 heißt (einfacher) Galton-Watson-
Prozess (kurz: GW-Prozess).
Bezeichnet 'n die erzeugende Funktion von Mn , so folgt
aus (4.59) und (4.60) 'nC1 .t / D 'n .g.t // und somit wegen t w t
0 1 0 1
(= w)
'1 .t / D g.t /, dass
'n .t / D .g ı ı g/.t / Als Beispiel betrachten wir für > 1 die geometrische
Reproduktionsverteilung mit Erwartungswert und erzeu-
die n-fach iterierte Anwendung von g ist. Die Wahrschein- gender Funktion g.t / D 1=. C t t /, also
lichkeit, dass der Prozess ausstirbt, ist
! k
[1 1
pk WD ; k 2 N0 :
w WD P fMn D 0g : C1 C1
nD1
Die Gleichung g.t / D t führt auf die quadratische Gleichung
Da P stetig von unten ist, folgt wegen fMk D 0g t 2 . C 1/t C 1 D 0, die neben der trivialen Lösung 1
fMkC1 D 0g, k 1, die Darstellung die Lösung 1= < 1 besitzt. Der Galton-Watson-Prozess mit
w D lim P .Mn D 0/ D lim gn .0/: dieser Reproduktionsverteilung stirbt also mit Wahrschein-
n!1 n!1 lichkeit 1= aus.
116 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
definiert. Indem man das Ereignis fSN D j g nach dem ange- also
nommenen Wert von N zerlegt und beachtet, dass N und Sk gSN .t / D '.g.t //: (4.60)
nach dem Blockungslemma stochastisch unabhängig sind, er-
gibt sich
Beispiel Die Wahrscheinlichkeit, dass ein ankommendes ra-
X
1
dioaktives Teilchen von einem Messgerät erfasst wird, sei p.
P .SN D j / D P .N D k; Sk D j / Die zufällige Anzahl N der von einem radioaktiven Präparat
kD0 in einem bestimmten Zeitintervall
t emittierten Teilchen sei
X1
poissonverteilt mit Parameter . Setzen wir Xj D 1, falls das j -
D P .N D k/ P .Sk D j /: te Teilchen wahrgenommen wird (Xj D 0 sonst; j D 1; 2; : : :),
P
kD0
so gibt die randomisierte Summe SN D jND1 Xj die Anzahl
Die Multiplikationsformel für erzeugende Funktionen liefert der im Zeitintervall
t erfassten Teilchen an. Unter der Annah-
gSk .t / D g.t /k , und wir erhalten me, dass N ; X1 ; X2 ; : : : stochastisch unabhängig sind und die
Xj die Binomialverteilung Bin.1; p/ besitzen, erhalten wir mit
X
1
gSN .t / D P .SN D j / t j (4.60) sowie (4.56) und (4.57) für die erzeugende Funktion der
j D0
Anzahl registrierter Teilchen
X
1 X
1
D P .N D k/ P .Sk D j / t j gSN .t / D e.g.t /1/ D e.1pCpt 1/
kD0 j D0 D ep.t 1/ :
X
1
D P .N D k/ .g.t //k ; Nach dem Eindeutigkeitssatz und (4.57) hat SN somit die
kD0 Poisson-Verteilung Po.p/. J
Kapitel 4
Zusammenfassung 117
Zusammenfassung
In diesem Kapitel sind alle auftretenden Zufallsvariablen und " > 0. Hierbei ist X n das arithmetische Mittel von n unab-
Zufallsvektoren auf einem diskreten Wahrscheinlichkeitsraum hängigen Zufallsvariablen mit gleichem Erwartungswert und
.˝; A; P / definiert. Da es damit eine abzählbare Menge ˝0 mit gleicher Varianz.
P .˝0/ D 1 gibt, nehmen solche Zufallsvariablen und Zufalls-
vektoren nur abzählbar viele verschiedene Werte mit positiven Wichtige diskrete Verteilungen sind die hypergeometrische
Wahrscheinlichkeiten an. Sie sind in diesem Sinne diskret. Verteilung Hyp.n; r; s/, die Binomialverteilung Bin.n; p/, die
geometrische Verteilung G.p/, die negative Binomialvertei-
Ist X D .X1 ; : : : ; Xk / ein k-dimensionaler Zufallsvektor, so lung Nb.r; p/, die Poisson-Verteilung Po./ und die Multi-
erhält man die Verteilungen der einzelnen Komponenten Xj nomialverteilung Mult.nI p1 ; : : : ; ps /. Die Anzahl der Nieten
durch Marginalverteilungsbildung (engl.: marginal distribu- vor dem r-ten Treffer in einer Bernoulli-Kette mit Trefferwahr-
tion), also durch Summieren der Wahrscheinlichkeiten P .X1 D scheinlichkeit p hat die Verteilung Nb.r; p/. Im Spezialfall
x1 ; : : : ; Xk D xk / über alle xi mit i ¤ j . Die gemeinsame r D 1 entsteht hier die gedächtnislose geometrische Vertei-
Verteilung (joint distribution) von X1 ; : : : ; Xk ist i. Allg. nicht lung G.p/. Die Verteilung Po./ ergibt sich als Gesetz seltener
durch die k Marginalverteilungen bestimmt. Über die diskrete Ereignisse aus der Binomialverteilung für n ! 1, pn ! 0
Faltungsformel (convolution formula) und npn ! . Für die Verteilungen Bin.n; p/, Nb.r; p/ und
X Po./ gelten Additionsgesetze. Die Multinomialverteilung
P .X C Y D z/ D P .X D x/P .Y D z x/ entsteht als gemeinsame Verteilung der Trefferanzahlen in n un-
xWP .X Dx/>0
abhängigen gleichartigen Experimenten, die jeweils s mögliche
Ausgänge besitzen.
kann die Verteilung der Summe zweier unabhängiger Zufalls- Für unabhängige Zufallsvariablen gilt V .X C Y / D V .X / C
variablen bestimmt werden. V .Y /, sonst steht auf der rechten Seite das Zweifache der
Der Erwartungswert (expected value, expectation) einer Zu- Kovarianz (covariance) Cov.X ; Y / D E..X EX /.Y
fallsvariablen ist durch die im Fall einer unendlichen Menge EY // als zusätzlicher Summand. Die Kovarianzbildung ist
˝0 als absolut konvergent vorausgesetzte Summe E.X / D
P
ein bilinearespFunktional. Durch die Normierung .X ; Y / D
Cov.X ; Y /= V .X /V .Y / ergibt sich der Korrelationskoef-
!2˝0 X .!/P .f!g/ definiert. Aus obiger Darstellung folgen
fizient (coefficient of correlation) .X ; Y /. Letzterer tritt im
Kapitel 4
die Linearität der Erwartungswertbildung und durch Zusam-
menfassen der Summanden nach gleichen Werten von X .!/ die Ergebnis der Approximationsaufgabe E.Y a bX /2 D
Transformationsformel mina;b Š auf, denn der resultierende Minimalwert ergibt sich zu
V .Y /.1 2 .X ; Y //. Da dieser Wert nichtnegativ ist, folgt die
X
E.X / D x P .X D x/: Cauchy-Schwarzsche Ungleichung (Cauchy-Schwarz inequa-
lity) Cov.X ; Y /2 V .X /V .Y /. Die obige Approximations-
x2RWP .X Dx/>0
aufgabe führt zur Methode der kleinsten Quadrate (method
of least squares), wenn der Zufallsvektor .X ; Y / endlich viele
Der Erwartungswert einer Zufallsvariablen hängt also nur von
Wertepaare .xj ; yj / mit gleicher Wahrscheinlichkeit annimmt.
deren Verteilung ab. Die Gleichung E1A D P .A/ für ein Ereig-
nis A zeigt zusammen mit der
P Linearität, dass P
der Erwartungs- Für ein Ereignis A mit P .A/ > 0 definiert man den bedingten
wert einer Indikatorsumme jnD1 1fAj g gleich jnD1 P .Aj / ist. Erwartungswert (conditional expected value) von X unter der
Hiermit ergibt sich u. a. unmittelbar der Erwartungswert der Bedingung A durch
Binomialverteilung Bin.n; p/ zu np. Für unabhängige Zufalls-
variablen X und Y gilt die Multiplikationsregel E.X Y / D 1 X
EX EY . E.X jA/ D X .!/P .f!g/:
P .A/ !2˝ \A
0
Die Varianz (variance) V .X / WD E.X EX /2 einer Zu-
fallsvariablen misst die Stärke der Streuung einer Verteilung Für einen Zufallsvektor Z schreibt man E.X jZ D z/ WD
um den Erwartungswert. Unter affinen Transformationen gilt E.X jfZ D zg/. Nimmt X die Werte x1 ; x2 ; : : : an, so gilt
V .aX C b/ D a2 V .X /, und somit kann jede nichtausge- X
artete (non-degenerate) Zufallsvariable X mithilfe der auch E.X jZ D z/ D xj P .X D xj jZ D z/:
Standardisierung (standardization)
p genannten Transformation j 1
X 7! .X EX /= V .X / in eine standardisierte Zufallsva-
riable mit dem Erwartungswert 0 und der Varianz 1 überführt Somit ist E.X jZ D z/ der Erwartungswert der bedingten Ver-
werden. Die Tschebyschow-Ungleichung (Chebyshev’s ine- teilung (conditional distribution) von X unter der Bedingung
quality) P .jX Ej "/ V .X /="2 liefert einen kurzen Z D z. Nimmt der Zufallsvektor Z die Werte z1 ; z2 ; : : : 2
Beweis des Schwachen Gesetzes großer Zahlen (weak law of Rk mit positiven Wahrscheinlichkeiten an, so löst die durch
large numbers) P .jX n j "/ ! 0 bei n ! 1 für jedes h.zj / WD E.X jZ D zj /, j 1, und h.z/ WD 0 für z 2
118 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
Kapitel 4
und Mädchengeburten gleich wahrscheinlich sind und dass die
Es werden unabhängig voneinander Kugeln auf n Fächer ver- Geschlechter der Neugeborenen stochastisch unabhängig von-
teilt, wobei jede Kugel in jedes Fach mit Wahrscheinlichkeit 1=n einander sind.
gelangt. Es sei Wn die (zufällige) Anzahl der Kugeln, die benö-
tigt wird, bis jedes Fach mindestens eine Kugel enthält. Zeigen a) Welche Verteilung (Erwartungswert, Varianz) besitzt die An-
Sie: zahl der Mädchen in einer Familie?
Pn 1 b) Welche Verteilung (Erwartungswert, Varianz) besitzt die An-
a) E.Wn / D n j D1 j . zahl der Jungen in einer Familie?
P Pn1 1
b) V .Wn / D n2 jn1D1 j
1
2 n j D1 j . a) Es bezeichne Sn die Gesamtanzahl der Mädchen in einer aus
n Familien bestehenden Gesellschaft. Benennen Sie die Ver-
teilung von Sn und zeigen Sie:
4.3 Ein echter Würfel wird solange in unabhängiger
Folge geworfen, bis die erste Sechs auftritt. Welche Verteilung p 1
besitzt die Anzahl der davor geworfenen Einsen? P .jSn nj K 2n/ 2 ; K > 0:
K
4.4 Es werden n echte Würfel gleichzeitig geworfen. Was bedeutet diese Ungleichung für K D 10 und eine aus
Diejenigen, die eine Sechs zeigen, werden beiseitegelegt, und 500 000 Familien bestehenden Gesellschaft?
die (falls noch vorhanden) übrigen Würfel werden wiederum
gleichzeitig geworfen und die erzielten Sechsen beiseitegelegt. 4.7 In einer Urne befinden sich 10 rote, 20 blaue, 30
Der Vorgang wird solange wiederholt, bis auch der letzte Würfel weiße und 40 schwarze Kugeln. Es werden rein zufällig 25 Ku-
eine Sechs zeigt. Die Zufallsvariable Mn bezeichne die Anzahl geln mit Zurücklegen gezogen. Es sei R (bzw. B; W ; S/ die
der dafür nötigen Würfe. Zeigen Sie: Anzahl gezogener roter (bzw. blauer, weißer, schwarzer) Ku-
k n geln. Welche Verteilungen besitzen
a) P .Mn > k/ D 1 1 56 , k 2 N0 . a) .R; B; W ; S/?
Pn n
k1 .k / b) .R C B; W ; S/?
b) E.Mn / D kD1 .1/ k.
1. 56 / c) R C B C W ?
120 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
4.19 Beim Pokerspiel Texas Hold’em wird ein 52- 4.26 Es sei .pn /n1 eine Folge aus .0; 1/ mit
Blatt-Kartenspiel gut gemischt; jeder von insgesamt 10 Spielern limn!1 npn D , wobei 0 < < 1. Zeigen Sie:
erhält zu Beginn zwei Karten. Mit welcher Wahrscheinlichkeit !
bekommt mindestens ein Spieler zwei Asse? n k k
lim pn .1 pn /nk D e ; k 2 N0 :
n!1 k kŠ
4.20 Es sei X Bin.n; p/ mit 0 < p < 1. Zeigen Sie
die Gültigkeit der Rekursionsformel
4.27 Es sei X Po./. Für welche Werte von k wird
.n k/p P .X D k/ maximal?
P .X D k C 1/ D P .X D k/;
.k C 1/.1 p/
4.28 Ein echter Würfel wird 8-mal in unabhängiger
k D 0; : : : ; n 1, und überlegen Sie sich hiermit, für wel- Folge geworfen. Wie groß ist die Wahrscheinlichkeit, dass je-
chen Wert bzw. welche Werte von k die Wahrscheinlichkeit de Augenzahl mindestens einmal auftritt?
P .X D k/ maximal wird.
4.29 Beim Spiel Kniffel werden fünf Würfel gleichzei-
4.21 In Kommunikationssystemen werden die von der tig geworfen. Mit welcher Wahrscheinlichkeit erhält man
Informationsquelle erzeugten Nachrichten in eine Bitfolge um-
gewandelt, die an den Empfänger übertragen werden soll. Um a) einen Kniffel (5 gleiche Augenzahlen)?
die durch Rauschen und Überlagerung verursachten Störungen b) einen Vierling (4 gleiche Augenzahlen)?
zu unterdrücken und die Zuverlässigkeit der Übertragung zu c) ein Full House (Drilling und Zwilling, also z. B. 55522)?
erhöhen, fügt man einer binären Quellfolge kontrolliert Redun- d) einen Drilling ohne weiteren Zwilling (z. B. 33361)?
danz hinzu. Letztere hilft, Übertragungsfehler zu erkennen und e) zwei Zwillinge (z. B. 55226)?
eventuell sogar zu korrigieren. Wir machen die Annahme, dass f) einen Zwilling (z. B. 44153)?
jedes zu übertragende Bit unabhängig von anderen Bits mit der- g) fünf verschiedene Augenzahlen?
selben Wahrscheinlichkeit p in dem Sinne gestört wird, dass 0
in 1 und 1 in 0 umgewandelt wird. Die zu übertragenden Code- 4.30 Der Zufallsvektor .X1 ; : : : ; Xs / besitze die Mul-
wörter mögen jeweils aus k Bits bestehen. tinomialverteilung Mult.n; p1 ; : : : ; ps /. Leiten Sie aus (4.31)
a) Es werden n Wörter übertragen. Welche Verteilung besitzt durch Zerlegung des Ereignisses fX1 D k1 g nach den Wer-
die Anzahl X der nicht (d. h. in keinem Bit) gestörten Wör- ten der übrigen Zufallsvariablen die Verteilungsaussage X1
ter? Bin.n; p1 / her.
b) Zur Übertragung werden nur Codewörter verwendet, die ei-
Kapitel 4
ne Korrektur von bis zu zwei Bitfehlern pro Wort gestatten. 4.31 Leiten Sie die Varianz np.1 p/ einer Bin.n; p/-
Wie groß ist die Wahrscheinlichkeit, dass ein übertragenes verteilten Zufallsvariablen X über die Darstellungsformel her.
Codewort korrekt auf Empfängerseite ankommt (evtl. nach
Korrektur)? Welche Verteilung besitzt die Anzahl der richtig 4.32 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
erkannten unter n übertragenen Codewörtern? blen mit gleicher Verteilung und der Eigenschaft EX12 < 1.
P
Ferner seien WD EX1 , 2 WD V .X1 / und X n WD nkD1 Xk =n.
4.22 Peter wirft 10-mal in unabhängiger Folge einen Zeigen Sie:
echten Würfel. Immer wenn eine Sechs auftritt, wirft Claudia
eine echte Münze (Zahl/Wappen). Welche Verteilung besitzt die a) E.X n / D .
Anzahl der dabei erzielten Wappen? b) V .X n / D 2 =n.
c) Cov.Xj ; X n / D 2 =n. p
4.23 Es sei X G.p/. Zeigen Sie: d) .X1 2X2 ; X n / D 1= 5n.
1p
a) E.X / D p
,
1p
4.33 Der Zufallsvektor .X1 ; : : : ; Xs / besitze die Multi-
b) V .X / D p2
. nomialverteilung Mult.n; p1 ; : : : ; ps /, wobei p1 > 0; : : : ; ps >
0 vorausgesetzt ist. Zeigen Sie:
4.24 Es sei X Po./. Zeigen Sie: a) Cov.Xi ; Xj / D n pi pj (i ¤ j ),
q p pj
E.X / D V .X / D : b) .Xi ; Xj / D .1pi i/.1pj/
(i ¤ j ).
4.25 Ein echter Würfel wird in unabhängiger Folge 4.34 In der Situation des zweifachen Wurfs mit einem
geworfen. Bestimmen Sie die Wahrscheinlichkeiten folgender echten Würfel seien Xj die Augenzahl des j -ten Wurfs sowie
Ereignisse: M WD max.X1 ; X2 /. Zeigen Sie:
a) mindestens eine Sechs in sechs Würfen,
b) mindestens zwei Sechsen in 12 Würfen, M 2 C M .M 1/=2
E.X1 jM / D :
c) mindestens drei Sechsen in 18 Würfen. 2M 1
122 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
4.35 Beim zweifachen Würfelwurf seien Xj die Au- 4.41 Es gelte X Nb.r; p/. Zeigen Sie, dass X die
genzahl des j -ten Wurfs sowie M WD max.X1 ; X2 / die höchs- erzeugende Funktion
te Augenzahl. Es soll die mittlere quadratische Abweichung r
E.M h.X1 //2 durch geeignete Wahl einer Funktion h mini- p
gX .t / D ; jt j < 1;
miert werden. Dabei darf h nur die Werte 1; 2; : : : ; 6 annehmen. 1 .1 p/t
Zeigen Sie: Die unter diesen Bedingungen optimale Funktion
h ist durch h.1/ 2 f3; 4g, h.2/ D h.3/ D 4, h.4/ 2 f4; 5g, besitzt.
h.5/ D 5 und h.6/ D 6 gegeben.
4.42 Leiten Sie mithilfe der erzeugenden Funktion
4.36 In einer Bernoulli-Kette mit Trefferwahrschein- Erwartungswert und Varianz der Poisson-Verteilung und der ne-
lichkeit p 2 .0; 1/ bezeichne X die Anzahl der Versuche, bis gativen Binomialverteilung her.
zum ersten Mal direkt hintereinander zwei Treffer aufgetreten
sind. Es sei wn WD P .X D n/, n 2, gesetzt. Zeigen Sie: 4.43 Die Zufallsvariable X sei poissonverteilt mit Para-
meter . Zeigen Sie:
PkC1 D q wk C pq wk1 ; k 3,
a) w
a) EŒX .X 1/.X 2/ D 3 .
b) P1kD2 wk D 1,
c) 1 b) EX 3 D 3 C 32 C .
kD2 k wk < 1 (d. h., EX existiert).
c) E.X /3 D .
4.47 Es sei X eine Zufallsvariable mit der Eigenschaft 4.50 Es sei X eine N0 -wertige Zufallsvariable mit 0 <
b X c, wobei b < c. Zeigen Sie: P .X D 0/ < 1 und der Eigenschaft
a) V .X / 14 .c b/2. P .X D m C kjX k/ D P .X D m/ (4.61)
b) V .X / D 14 .c b/2 () P .X D b/ D P .X D c/ D 12 .
für jede Wahl von k; m 2 N0 . Zeigen Sie: Es gibt ein p 2 .0; 1/
4.48 Es sei X eine Zufallsvariable mit EX D 0 und mit X G.p/.
EX 2 < 1. Zeigen Sie die Ungleichung von Cantelli:
4.51 Zeigen Sie: In der Situation und mit den Bezeich-
V .X / nungen der Jordanschen Formel gilt
P .X "/ " > 0:
V .X / C "2 !
X
n
j k j 1
P .X k/ D .1/ Sj ; k D 0; 1; : : : ; n:
4.49 k1
j Dk
a) X1 ; : : : ; Xn seien Zufallsvariablen mit EXj DW und
V .Xj / DW 2 für j D 1; : : : ; n. Weiter existiere eine na- 4.52 Wir betrachten die Gleichverteilung P auf der
türliche Zahl k, sodass für ji j j k die Zufallsvariablen Menge
Xi und Xj unkorreliert sind. Zeigen Sie:
0ˇ ˇ 1 ˝ WD f.a1 ; : : : ; an / j fa1 ; : : : ; an g D f1; : : : ; ngg;
ˇ n ˇ
ˇ1 X ˇ
lim P @ˇˇ Xj ˇˇ "A D 0 für jedes " > 0: also eine rein zufällige Permutation der Zahlen 1; 2; : : : ; n. Mit
n!1 ˇ n j D1 ˇ Aj WD f.a1 ; a2 ; : : : ; an / 2P
˝ j aj D j g für j 2 f1; : : : ; ng gibt
die Zufallsvariable Xn WD jnD1 1fAj g die Anzahl der Fixpunk-
b) Ein echter Würfel werde in unabhängiger Folge geworfen. te einer solchen Permutation an. Zeigen Sie:
Die Zufallsvariable Yj bezeichne die beim j -ten Wurf erziel- a) E.Xn / D 1,
te Augenzahl, und für j 1 sei Aj WD fYj < Yj C1 g. Zeigen Pnk .1/j
Sie mithilfe von Teil a): b) P .Xn D k/ D 1
kŠ j D0 jŠ
,k D 0; 1; : : : ; n;
e1
0ˇ ˇ 1 c) limn!1 P .Xn D k/ D kŠ
,k 2 N0 ,
ˇ n ˇ
ˇ1 X 5 ˇ
lim P @ˇˇ 1fAj g ˇˇ "A D 0 für jedes " > 0: d) V .Xn / D 1.
n!1
ˇ n j D1 12 ˇ
Kapitel 4
124 4 Diskrete Verteilungsmodelle – wenn der Zufall zählt
Antwort 7 Es gilt Antwort 13 Es folgtP aus dem Großen Umordnungssatz für Rei-
X
1 X
1 hen, da die Reihe !2˝0 X .!/P .f!g/ als absolut konvergent
P .X k/ D P .X D j / D p.1 p/j vorausgesetzt ist.
j Dk j Dk
Antwort 14 Setzen Sie X D 1˝ in Eigenschaft b) des beding-
X
1
ten Erwartungswertes zu Beginn dieses Abschnitts und beachten
D p.1 p/k .1 p/` D .1 p/k :
Sie die Eigenschaft c).
`D0
Wegen fX D k C mg fX kg folgt nach Definition der Antwort 15 Sind X und Y unabhängige poissonverteilte Zu-
bedingten Wahrscheinlichkeit fallsvariablen mit Parametern bzw. , so besitzen X und Y die
erzeugenden Funktionen gX .t / D e.t 1/ und gY .t / D e.t 1/ .
P .X D k C m/ p.1 p/kCm
P .X D k C mjX k/ D D Nach der Multiplikationsformel hat X CY die erzeugende Funk-
P .X k/ .1 p/k tion gX .t /gY .t / D e.C/.t 1/ . Der Eindeutigkeitssatz ergibt,
D p.1 p/ D P .X D m/:
m
dass X C Y poissonverteilt mit Parameter C ist.
Stetige Verteilungen und
allgemeine Betrachtungen – 5
jetzt wird es analytisch
Besitzt jede stetige
Verteilungsfunktion eine
Dichte?
Wie überträgt sich die
Dichte eines Zufallsvektors
unter einer regulären
Transformation?
Wie ist der Erwartungswert
einer Zufallsvariablen
definiert?
Wie entsteht die
Normalverteilung
Nk .; ˙/?
Was besagt die
Multiplikationsformel für
charakteristische
Funktionen?
Kapitel 5
5.4 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 154
5.5 Charakteristische Funktionen (Fourier-Transformation) . . . . . . . . . 159
5.6 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.7 Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Stoppzeiten und Martingale . . . . . . . . . . . . . . . . . . . . . . . . 176
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Antworten zu den Selbstfragen . . . . . . . . . . . . . . . . . . . . . . . 191
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 125
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_5
126 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
zugrunde gelegt, auf dem alle auftretenden Zufallsvariablen defi- und Lebesgue-Integral in Abschn. 8.5). Da sich die Dich-
niert sind. te f auf einer Lebesgue-Nullmenge abändern lässt, ohne
den Wert des Integrals in (5.2) zu beeinflussen, ist die Dich-
te einer stetigen Zufallsvariablen nur fast überall eindeutig
bestimmt. Sie kann also insbesondere an endlich vielen Stel-
5.1 Verteilungsfunktionen len beliebig modifiziert werden. Wer bereits Kenntnisse der
Maß- und Integrationstheorie besitzt, erkennt, dass die Ver-
und Dichten teilung einer stetigen Zufallsvariablen als absolut stetig bzgl.
des Borel-Lebesgue-Maßes 1 angenommen wird.
In diesem Abschnitt führen wir stetige Zufallsvariablen und Zu- Besitzt X eine Dichte, so stellt sich die Wahrscheinlichkeit
fallsvektoren sowie die Begriffe Verteilungsfunktion und Dichte P .a X b/ anschaulich als Fläche zwischen dem Gra-
ein. Die folgende Definition nimmt Bezug auf die am Ende von phen von f und der x-Achse über dem Intervall Œa; b dar
Abschn. 2.4 angestellten Betrachtungen. (siehe etwa Abb. 2.6). J
5.1 Verteilungsfunktionen und Dichten 127
f (t) ist für eine diskrete Zufallsvariable durch die Angabe aller xj
1 mit P .X D xj / > 0 sowie der Wahrscheinlichkeiten P .X D
xj /, j 1, und im Fall einer stetigen Zufallsvariablen durch
deren Dichte festgelegt. Das folgende Konzept fasst beide Fälle
zusammen.
F .x/ WD P .X x/; x 2 R;
Beispiel Die Festsetzung definierte Funktion F W R ! Œ0; 1 die Verteilungsfunk-
( tion von X .
1 jx 1j; falls 0 x 2;
f .x/ WD (5.3)
0 sonst;
Man beachte, dass auch hier nicht auf den zugrunde liegenden
definiert eine Wahrscheinlichkeitsdichte, denn f ist nicht- Wahrscheinlichkeitsraum .˝; A; P / Bezug genommen wird,
negativ
R1 und als stetige Funktion Borel-messbar. Weiter gilt weil P .X x/ D P X ..1; x/ nur von der Verteilung von
1 f .t / dt D 1. Abb. 5.1 zeigt, dass der Graph von f eine X abhängt. Aus diesem Grund nennt man F auch die Vertei-
Dreiecksgestalt besitzt, und so heißt eine Zufallsvariable X mit lungsfunktion von P X .
der Dichte f dreiecksverteilt im Intervall Œ0; 2. J
Ist X eine diskrete Zufallsvariable, so heißt F eine diskrete
Verteilungsfunktion. Gilt P .X 2 D/ D 1 für eine abzählbare
Selbstfrage 1 Menge D R, so besitzt F die Gestalt
Wie groß ist P .0:2 < X 0:8/, wenn X die obige Dichte X
besitzt? F .x/ D P .X D y/: (5.5)
y2DWyx
Kapitel 5
1
Die Verteilung P X einer reellen Zufallsvariablen ist als Wahr-
scheinlichkeitsmaß eine auf der Borelschen -Algebra B defi-
nierte Funktion, deren Argumente Mengen sind. Diese Funktion F (x) = (X ≤ x)
1 • •
•
•
ϕ(x) 0.75 •
•
0.5 (X = 7)
•
0.2 0.25 •
•
•
•
x
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
−3 −2 −1 0 1 2 3
1 1
F (x)
F (x0 ) •
x t x t
x
x0
Abb. 5.4 Dichte (links) und zugehörige Verteilungsfunktion (rechts)
einer stetigen Zufallsvariablen Abb. 5.5 Graph einer Verteilungsfunktion
Der Wert F .x/ ist also anschaulich die unter der Dichte f bis Verteilungsfunktionen legen Verteilungen fest
zur Stelle x von links erreichte Fläche (Abb. 5.4).
Angesichts der Abb. 5.3 und 5.4 ist das folgende Resultat nicht Die Verteilungsfunktion F einer Zufallsvariablen X legt die
verwunderlich (siehe auch die Definition einer maßdefinieren- Verteilung P X als Wahrscheinlichkeitsmaß auf der Borel-
den Funktion in Abschn. 8.3). schen -Algebra in eindeutiger Weise fest. Wegen F .x/ D
P X ..1; x/, x 2 R, folgt dieser Sachverhalt daraus, dass
ein Wahrscheinlichkeitsmaß auf B nach dem Eindeutigkeits-
Eigenschaften einer Verteilungsfunktion satz für Maße schon durch seine Werte auf dem Mengensystem
J D f.1; x j x 2 Rg bestimmt ist. Das nachstehende Resul-
Die Verteilungsfunktion F einer Zufallsvariablen X be- tat besagt, dass die obigen Eigenschaften von F im Hinblick auf
sitzt folgende Eigenschaften: das „Erzeugen einer Verteilung“ charakteristisch sind.
Aus x y folgt F .x/ F .y/ (F ist monoton wach-
send),
für jedes x 2 R und jede Folge .xn / mit xn Existenzsatz
xnC1 , n 1, und limn!1 xn D x gilt F .x/ D Zu jeder monoton wachsenden rechtsseitig stetigen Funk-
limn!1 F .xn / (F ist rechtsseitig stetig), tion F W R ! Œ0; 1 mit (5.7) gibt es eine Zufallsvariable
es gilt X mit der Verteilungsfunktion F .
lim F .x/ D 0; lim F .x/ D 1 (5.7)
x!1 x!1
(„F kommt von 0 und geht nach 1“). Beweis Nach dem Satz über maßdefinierende Funktionen in
Abschn. 8.3 gibt es genau ein Wahrscheinlichkeitsmaß QF auf
B mit der Eigenschaft
Beweis Die Monotonie von F folgt aus der Monotonie von
P X , denn x y impliziert .1; x .1; y. Zum Nach- QF ..a; b/ D F .b/ F .a/ für alle a; b mit a b:
weis der rechtsseitigen Stetigkeit von F seien x 2 R beliebig
Kapitel 5
und .xn / eine beliebige Folge mit xn xnC1 , n 1, und Die kanonische Konstruktion ˝ WD R, A WD B, P WD QF und
limn!1 xn D x. Dann wird durch An WD .1; xn , n 1, X WD idR liefert dann die Behauptung.
eine absteigende Mengenfolge .An / mit An # A WD .1; x
definiert. Da P X stetig von oben ist, ergibt sich Es besteht also eine bijektive Zuordnung zwischen Verteilungen
reeller Zufallsvariablen (Wahrscheinlichkeitsmaßen auf B) und
F .x/ D P X .A/ D lim P X .An / D lim F .xn /: monoton wachsenden rechtsseitig stetigen Funktionen F W R !
n!1 n!1
Œ0; 1 mit (5.7). Im Folgenden werden wir uns etwas genauer mit
Die letzte Eigenschaft folgt analog unter Verwendung der Ste- Verteilungsfunktionen befassen.
tigkeit von P X .
Die in Abb. 5.5 dargestellte Verteilungsfunktion F einer Zu-
Selbstfrage 2 fallsvariablen X besitzt an der Stelle x0 eine Sprungstelle.
Können Sie den Beweis selbst zu Ende führen? Wie der folgende Satz zeigt, ist die Sprunghöhe gleich der
Wahrscheinlichkeit P .X D x0 /, vgl. auch Abb. 5.3. Zur For-
mulierung des Satzes, dessen Beweis Gegenstand von Aufgabe
Abb. 5.5 illustriert die obigen Eigenschaften einer Verteilungs- 5.1 ist, bezeichne allgemein
funktion F . Um die rechtsseitige Stetigkeit von F an der Stelle
x0 zu kennzeichnen, ist der Punkt .x0 ; F .x0 // durch einen aus- F .x/ WD lim F .xn /
gefüllten Kreis hervorgehoben. x1 x2 :::;xn !x
5.1 Verteilungsfunktionen und Dichten 129
3/4
1/8
Da die Verteilungsfunktion F einer Zufallsvariablen X rechts-
seitig stetig ist, liegt somit in einem Punkt x genau dann eine
Stetigkeitsstelle von F vor, wenn P .X D x/ D 0 gilt. Eine 1 2 1 2 7 8 x
0 9 9 3 3 9 9
1
Verteilungsfunktion kann höchstens abzählbar viele Unstetig-
keitsstellen besitzen (Aufgabe 5.2), und diese können sogar in Abb. 5.6 Cantorsche Verteilungsfunktion
R dicht liegen (Aufgabe 5.35 c)). Selbstverständlich ist die Ver-
teilungsfunktion einer stetigen Zufallsvariablen X stetig, denn
es ist Video 5.1 Die Cantorsche Verteilungsfunktion
Z
P .X D x/ D f .t /1fxg.t / dt D 0;
R
Kapitel 5
F .x/ WD 3=4 gesetzt. In gleicher Weise verfährt man mit den nicht, ist jede Verteilungsfunktion fast überall differenzierbar
jeweils mittleren Dritteln der noch nicht erfassten vier Inter- (siehe die Hintergrund-und-Ausblick-Box über absolut stetige
valle Œ0; 1=9, Œ2=9; 1=3, Œ2=3; 7=9, Œ8=9; 1 und setzt auf dem und singuläre Verteilungsfunktionen).
j -ten dieser Intervalle F .x/ WD .2j 1/=8. Fährt man so un-
begrenzt fort, so entsteht eine stetige Funktion F , die auf jedem Sind t Stetigkeitspunkt einer Dichte f und eine kleine posi-
der offenen Intervalle .1=3; 2=3/, .1=9; 2=9/, .7=9; 8=9/; : : : dif- tive Zahl, so gilt (vgl. Abb. 5.7)
ferenzierbar ist und dort die Ableitung 0 besitzt. Da die Summe
der Längen dieser Intervalle gleich Z
t C
P .t X t C / D f .x/ dx f .t /
X kC1 1
1X 2 k
1
1 t
2k D D1
3 3 3
kD0 kD0 und somit
ist, besitzt F fast überall auf dem Intervall Œ0; 1 die Ableitung 0, 1
ist also nicht in der Form (5.6) darstellbar. f .t / P .t X t C /: (5.8)
Abb. 5.6 zeigt den Versuch, die auch Teufelstreppe genann-
te Cantorsche Verteilungsfunktion zu approximieren (vgl. auch Der Wert f .t / ist also approximativ gleich der Wahrschein-
[1], Abschn. 9.4 und 16.2). J lichkeit, dass X einen Wert im Intervall Œt ; t C
t annimmt,
130 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Nach einem berühmten Satz von Henri Lebesgue aus dem dann die fast überall existierende und ggf. auf einer Null-
Jahr 1904 ist jede Verteilungsfunktion F W R ! Œ0; 1 als menge durch F 0 .x/ WD 0 zu ergänzende Ableitung F 0 eine
monotone Funktion fast überall differenzierbar. Setzt man Dichte von F .
F 0 .x/ WD 0 für jede Stelle x, an der F nicht differenzier-
bar ist, so gilt Jede absolut stetige Verteilungsfunktion ist insbesondere ste-
tig. Dass die Umkehrung i. Allg. nicht gilt, zeigt das Beispiel
Zb der Cantorschen Verteilungsfunktion. Letztere ist singulär
in dem Sinne, dass F 0 .x/ D 0 für fast alle x gilt. Für ei-
F 0 .t / dt F .b/ F .a/; a; b 2 R; a b;
ne singuläre Verteilungsfunktion ist somit die linke Seite von
a (5.9) identisch gleich null, sodass man durch Integration der
Ableitung „nichts von F zurückgewinnt“. Jede diskrete Ver-
und damit auch
teilungsfunktion ist singulär. Dieser Sachverhalt erschließt
Zx sich unmittelbar, wenn die Sprungstellen von F isoliert von-
F 0 .t / dt F .x/; x 2 R: (5.9) einanderliegen, er gilt aber auch, wenn die Sprungstellen
eine in R dichte Menge bilden. Überraschenderweise gibt
1
es streng monoton wachsende stetige Verteilungsfunktionen,
Verteilungsfunktionen, bei denen hier stets das Gleichheits- die singulär sind (s. [4], S. 427).
zeichen eintritt, sind wie folgt charakterisiert: Nach dem Lebesgueschen Zerlegungssatz besitzt jede Vertei-
Eine Verteilungsfunktion F heißt absolut stetig, wenn zu je- lungsfunktion F genau eine Darstellung der Gestalt
dem kompakten Intervall Œa; b R und zu jedem " > 0
ein ı > 0 existiert, sodass für jedes n 1 und jede Wahl F D a1 Fd C a2 Fcs C a3 Fac
von u1 ; : : : ; un und v1 ; : : : ; vn mit a u1 < v1 u2 <
v2 : : : uP n < vn b und max1j n .vj uj / ı die mit nichtnegativen Zahlen ai , wobei a1 C a2 C a3 D 1. Des
Ungleichung jnD1 jF .vj / F .uj /j < " erfüllt ist. Weiteren sind Fd eine diskrete, Fcs eine stetige singuläre und
Fac eine absolut stetige Verteilungsfunktion.
Nach dem Hauptsatz der Differenzial- und Integralrechnung
für das Lebesgue-Integral ist jede Verteilungsfunktion F ab- Abschließend sei gesagt, dass F genau dann absolut stetig
solut stetig, die sich in der Form bzw. singulär ist, wenn das nach dem Existenzsatz zu F
korrespondierende Wahrscheinlichkeitsmaß F absolut ste-
Zx tig bzw. singulär bzgl. des Borel-Lebesgue-Maßes im Sinne
F .x/ D f .t / dt ; x 2 R; der Definition der absoluten Stetigkeit bzw. der Singularität
1 von Maßen ist, vgl. Abschn. 8.8. Die beiden ersten Summan-
den in obiger Darstellung bilden den singulären und a3 Fac
mit einer nichtnegativen messbaren Funktion f schreiben den absolut stetigen Anteil von F im Sinne des Satzes über
lässt. Dabei gilt F 0 .x/ D f .x/ für fast alle x. Andererseits die Lebesgue-Zerlegung in Abschn. 8.8. Weiteres zu dem in
impliziert die absolute Stetigkeit von F , dass in (5.9) für je- dieser Box angesprochenen Themenkomplex findet sich in
des x das Gleichheitszeichen eintritt. Konsequenterweise ist [10], S. 296 ff.
Kapitel 5
f (x1 , x2 )
Definition eines stetigen Zufallsvektors
Ein k-dimensionaler Zufallsvektor X D .X1 ; : : : ; Xk /
heißt (absolut) stetig (verteilt), wenn es eine nichtnegati-
ve Borel-messbare Funktion f W Rk ! R mit
x2
Z
f .x/ dx D 1
Rk
x1
Kapitel 5
für den Fall k D 2. Die Gleichverteilung U.B/ modelliert die so erhält man die sog. marginalen Dichten der Komponenten
rein zufällige Wahl eines Punktes aus B. Der Buchstabe U weckt X1 ; : : : ; Xk von X analog zum Fall diskreter Zufallsvektoren
Assoziationen an das Wort uniform. J (vgl. Abschn. 4.1) aus f durch Integration über die nicht in-
teressierenden Variablen.
f (x1 , x2 )
f (x1 , x2 )
Marginalverteilungsbildung bei Dichten
Ist X D .X1 ; : : : ; Xk / ein stetiger Zufallsvektor mit Dichte
f , so sind X1 ; : : : ; Xk stetige Zufallsvariablen. Die mit fj
bezeichnete Dichte von Xj ergibt sich zu
1 1 Z1 Z1
x2 x2
x1 x1 fj .t / D f .x1 ; : : : ; xj 1 ; t ; xj C1 ; : : : ; xk /
1 1 dx1 : : : dxj 1 dxj C1 : : : dxk :
Abb. 5.8 Dichte der Gleichverteilung auf dem Einheitsquadrat (links)
(5.12)
und auf dem Einheitskreis (rechts)
132 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
zu schreiben. J
Beweis Um Schreibaufwand zu sparen, führen wir den Be-
weis nur für den Fall k D 2 sowie j D 1 (siehe auch Abb. 5.10).
Ist B1 2 B1 eine beliebige Borel-Menge, so ist B WD B1 R Beispiel (Marginalverteilungsbildung) Der Zufallsvek-
eine Borel-Menge in R2 . Mit (5.10) folgt tor .X ; Y / besitze eine Gleichverteilung im Bereich A WD
f.x; y/ 2 Œ0; 12 j 0 x y 1g (Abb. 5.11 links), also
P X1 .B1 / D P .X11.B1 // D P .X11.B1 / \ X21 .R// die Dichte h.x; y/ WD 2, falls .x; y/ 2 A und h.x; y/ WD 0
sonst. Durch Marginalverteilungsbildung ergibt sich die margi-
D P X .B1 R/ nale Dichte f von X zu
Z
D f .x1 ; x2 / dx1 dx2 Z1 Z1
B
Z f .x/ D h.x; y/ dy D 2 1 dy D 2.1 x/
D 1B1 .x1 /f .x1 ; x2 / dx1 dx2 : 1 x
erhalten. Der Satz von Tonelli liefert auch, dass f1 eine messba-
re Funktion und (als Integral über eine nichtnegative Funktion) y
f (x) g(x)
nichtnegativ ist. Somit ist X1 eine stetige Zufallsvariable mit der 1 2
Dichte f1 .
A
1
Kommentar
Mit dem Satz von Tonelli ergibt sich allgemeiner, dass für
jedes j 2 f1; : : : ; k 1g und jede Wahl von i1 ; : : : ; ij mit
1 i1 < : : : < ij k der Zufallsvektor .Xi1 ; : : : ; Xij / eine 1 x 1 x
Dichte besitzt, die man durch Integration von f über alle x`
mit ` … fi1 ; : : : ; ij g erhält. Abb. 5.11 Bereich A (links) und Dichten von X bzw. Y (rechts)
5.1 Verteilungsfunktionen und Dichten 133
gelten. J y
Die Ungleichung x F 0 ist eine Konsequenz der Gleichung
y
Die Verteilungsfunktion einer Zufallsvariablen X ordnet einer x F D P .X 2 .x; y/ (Aufgabe 5.36). Im Fall k D 2 gilt
reellen Zahl x die Wahrscheinlichkeit P .X x/ zu. Definiert (s. Abb. 5.12)
man die Kleiner-Gleich-Relation für Vektoren x D .x1 ; : : : ; xk /
und y D .y1 ; : : : ; yk / komponentenweise durch x y, falls yx F D F .y1 ; y2 / F .x1 ; y2 / F .y1 ; x2 / C F .x1 ; x2 /:
xj yj für jedes j 2 f1; : : : ; kg, so ergibt sich in direkter Mit Mitteln der Maß- und Integrationstheorie kann gezeigt wer-
Verallgemeinerung der Definition der Verteilungsfunktion einer den, dass zu jeder rechtsseitig stetigen Funktion F W Rk !
reellen Zufallsvariablen: Œ0; 1, die die verallgemeinerte Monotonieeigenschaft besitzt
und die oben angegebenen Grenzwertbeziehungen erfüllt, ge-
Verteilungsfunktion eines Zufallsvektors nau ein Wahrscheinlichkeitsmaß QF auf Bk existiert, das F als
Verteilungsfunktion hat, für das also QF ..1; x/ D F .x/,
Für einen Zufallsvektor X D .X1 ; : : : ; Xk / heißt die durch x 2 Rk , gilt (vgl. die Hintergrund-und-Ausblick-Box über maß-
definierende Funktionen auf Rk in Abschn. 8.4).
F .x/ WD P .X x/ D P .X1 x1 ; : : : ; Xk xk /;
Kapitel 5
die gegen .1; x konvergiert und P X stetig von oben ist. für beliebige Borel-Mengen B1 ; : : : ; Bk gilt. Besitzen
In gleicher Weise gilt limn!1 F .x .n/ / D 0, falls mindestens X1 ; : : : ; Xk eine gemeinsame Dichte f , so nimmt dieses Krite-
.n/
eine Komponentenfolge .xj / gegen 1 konvergiert. Konver- rium die folgende Gestalt an:
.n/
giert jede Komponentenfolge .xj / gegen unendlich, so gilt
limn!1 F .x .n/ / D 1, da P X stetig von unten ist und die Folge Stochastische Unabhängigkeit und Dichten
.1; x .n/ dann von unten gegen Rk konvergiert. Der Mono-
tonie einer Verteilungsfunktion im Fall k D 1 entspricht im Der k-dimensionale Zufallsvektor X WD .X1 ; : : : ; Xk / be-
Fall k 2 die schon bei maßdefinierenden Funktionen auf sitze die Dichte f . Bezeichnet fj die marginale Dichte
dem Rk (siehe die Hintergrund-und-Ausblick-Box über maß- von Xj , j D 1; : : : ; k, so sind X1 ; : : : ; Xk genau dann
definierende Funktionen auf Rk in Abschn. 8.4) festgestellte stochastisch unabhängig, wenn gilt:
verallgemeinerte Monotonieeigenschaft
Y
k
yx F 0 8x; y 2 Rk mit x y: f .x/ D fj .xj /
Dabei gilt mit WD . 1 ; : : : ; k / und s. / WD 1 C : : : C k j D1
X 1 1
yx F WD .1/ks. / F .y1 1 x1 1 ; : : : ; yk k xk k /: für k -fast alle x D .x1 ; : : : ; xk / 2 Rk .
2f0;1gk
134 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
y
P•
M• •
Θ
• •
U x
1/2
•
H
Bertrandsches Paradoxon: Modelle 2 (links) und 3 (rechts)
Bertrandsches Paradoxon: Problemstellung (links) und Modell 1 Modell 3: Es sei P gleichverteilt im Einheitskreis. Ist P vom
(rechts) Mittelpunkt verschieden (dies geschieht mit Wahrscheinlich-
keit eins), so betrachten wir die Sehne, deren Mittelsenk-
Modell 1: Eine Sehne ist durch ihren Abstand vom Kreismit- rechte durch P und den Kreismittelpunkt geht (obiges Bild
telpunkt und ihre Richtung festgelegt. Da Letztere irrelevant rechts). Diepso generierte rein zufällige Sehne ist genau dann
ist, wählen wir eine Sehne parallel zur y-Achse, wobei länger als 3, wenn P in den konzentrischen Kreis mit
der Schnittpunkt U auf der x-Achse die Gleichverteilung Radius 1=2 fällt. Die Wahrscheinlichkeit hierfür ist der Flä-
U.1; 1/ besitzt (obiges Bild rechts). Da der Höhenfußpunkt chenanteil .1=2/2= D 1=4. Die unterschiedlichen Werte
H des gleichseitigen Dreiecks den Kreisradius halbiert (obi- 1=2, 1=3 und 1=4 zeigen, dass erst ein präzises stochastisches
ges Bild links), ist die so erzeugte rein zufällige Sehne genau Modell Wahrscheinlichkeitsaussagen ermöglicht!
Beweis Der Beweis ergibt sich wie folgt elegant mit Techni- hat die Dichte
ken der Maßtheorie: Wie im Kommentar nach dem allgemeinen k
1 X 2
k
1
Unabhängigkeitskriterium in Abschn. 3.3 dargelegt, ist (3.35) 'k .x/ D p exp xj ;
gleichbedeutend mit (3.36). Nach Voraussetzung hat P X die k - 2 2 j D1
Kapitel 5
Dichte f . Wegen
x D .x1 ; : : : ; xk / 2 Rk , und jedes Xj ist eindimensio-
O
k k Z
Y
nal standardnormalverteilt,
p besitzt also die Dichte fj .t / D
P Xj .B1 : : : Bk / D fj .xj / dxj exp.t 2 =2/= 2, t 2 R. Damit gilt
j D1 j D1B
j Y
k
Wie simuliert man die Gleichverteilung im Einheitsintervall? Dass die Periodenlänge m vorliegt, bedeutet nur, dass alle
Zahlen j =m, 0 j < m, nach .m 1/-maligem Aufruf
Zufallsvorgänge werden häufig mit dem Computer simuliert. von (5.16) aufgetreten sind. Die obigen Bedingungen sa-
Bausteine hierfür sind gleichverteilte Pseudozufallszahlen, gen jedoch nichts über die statistische Qualität der erzeugten
die von Pseudozufallszahlengeneratoren (kurz: Zufallsgene- Zufallszahlen aus. So besitzt etwa das lineare Kongruenz-
ratoren) erzeugt werden und versuchen, die Gleichverteilung schema zj C1 D zj C 1 (mod m) maximale Periodenlänge;
U.0; 1/ sowie stochastische Unabhängigkeit nachzubilden. diese Folge wird man jedoch kaum als zufällig erzeugt
Hinter jedem Zufallsgenerator verbirgt sich ein Algorith- ansehen. Um die Aussicht auf die Vermeidung derart patho-
mus, der eine deterministische Folge x0 ; x1 ; x2 ; : : : im Inter- logischer Fälle zu vergrößern, sollte man a nicht zu klein und
vall Œ0; 1 erzeugt. Dabei sollen x0 ; x1 ; x2 ; : : : „unabhängig nicht zu groß wählen.
voneinander und gleichverteilt in Œ0; 1“ wirken. Zufalls-
generatoren versuchen, dieser Vorstellung durch Simulati- 1 1
on der diskreten Gleichverteilung auf der Menge ˝m WD
f m0 ; m1 ; m2 ; : : : ; m1
m
g mit einer großen natürlichen Zahl m
(z. B. m D 232 ) möglichst gut zu entsprechen (siehe Auf-
gabe 5.37). Der n-maligen unabhängigen rein zufälligen
Auswahl einer Zahl aus ˝m entspricht dann die Gleich-
verteilung auf dem n-fachen kartesischen Produkt ˝mn , die
ihrerseits für m ! 1 die (stetige) Gleichverteilung auf
Œ0; 1n approximiert (Aufgabe 5.38). Natürlich können die 0 0
von einem Zufallsgenerator erzeugten Zahlenreihen diese 0 1 0 1
Wünsche nur bedingt erfüllen. Dabei müssen gute Generato-
ren verschiedene Tests hinsichtlich der statistischen Qualität Von linearen Kongruenzgeneratoren erzeugte Punktepaare
der produzierten Zufallszahlen bestehen.
Eine prinzipielle Schwäche linearer Kongruenzgeneratoren
Der häufig verwendete lineare Kongruenzgenerator basiert ist deren Gitterstruktur. Diese Namensgebung bedeutet, dass
auf nichtnegativen ganzen Zahlen m (Modul), a (Faktor), b für jedes d 2 die Vektoren .xi ; xi C1 ; : : : ; xi Cd 1 /, i 0,
(Inkrement) und z0 (Anfangsglied) mit z0 m 1 und ver- auf einem Gitter im Rd liegen (Aufgabe 5.39). So fallen die
wendet das iterative Kongruenzschema 256 Pseudozufalls-Paare .x0 ; x1 /; : : : ; .x255 ; x256 / des Kon-
gruenzgenerators mit m D 256, a D 25, b D 1 und z0 D 1
zj C1 a zj C b mod m; j 0: (5.16) auf insgesamt 16 Geraden (s. obige Abb. links).
Ein guter linearer Kongruenzgenerator sollte eine hinrei-
Durch die Normierungsvorschrift chend feine Gitterstruktur besitzen. Der Spektraltest prä-
zisiert diese Idee, indem für den Fall d D 2 in Œ0; 12
zj
xj WD ; j 0; (5.17) der breiteste Streifen zwischen irgendwelchen parallelen
m Geraden im Gitter betrachtet wird, der kein Punktepaar
.xi ; xi C1 / enthält. Je schmaler dieser Streifen, desto bes-
entsteht dann eine Folge x0 ; x1 ; : : : im Einheitsintervall. ser ist nach dem Wertmaßstab dieses Tests die statistische
Kapitel 5
Als Beispiel diene der Fall m D 100, a D 18, b D 11 und Qualität der Pseudozufalls-Paare .xi ; xi C1 /, i 0. Im Fall
z0 D 40. Hier gilt (bitte nachrechnen!) z1 D 31, z2 D 69, d D 3 bildet man analog im Einheitswürfel den größten
z3 D 53, z4 D 65, z5 D 81 und z6 D 69 D z2 . Dies be- Streifen zwischen parallelen Ebenen, der keinen der Punk-
deutet, dass der Generator schon nach zwei Schritten eine te .xi ; xi C1 ; xi C2 /, i 0, enthält. Durch geeignete Wahl
Periode der Länge vier läuft. Die wünschenswerte maximale von a wird dann versucht, die Breite dieses punktfreien
Periodenlänge m wird genau dann erreicht, wenn gilt (siehe Streifens zu minimieren. Dieser Gittereffekt wird kaum sicht-
z. B. [18]): bar, wenn bei großem Modul m relativ wenige Punktepaare
.xj ; xj C1 / geplottet werden. So sehen z. B. die ersten 250
b ist teilerfremd zu m, Paare .x0 ; x1 /; : : : ; .x249 ; x250 / des Generators mit m D 224 ,
jede Primzahl, die m teilt, teilt auch a 1, a D 54 677, b D 1, z0 D 1 „unabhängig und in Œ0; 12
ist m durch 4 teilbar, so auch a 1. gleichverteilt“ aus (obiges Bild rechts).
136 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
P .Y 2 B/ D P .X 2 T 1 .B//; B 2 Bs ; Selbstfrage 4
Können Sie den Beweis für fallendes T selbstständig zu Ende
gegeben ist, kann sich die Frage nur darauf beziehen, ob man führen?
diese Verteilung einfach beschreiben kann, etwa über die Ver-
teilungsfunktion oder eine Dichte.
Kommentar Sie sollten die Dichte g nach der in c) angege-
Wir stellen jetzt drei Methoden vor, mit denen man dieses benen Formel nicht nur durch formales Differenzieren herleiten
Problem angehen kann. Diese grundsätzlichen Vorgehenswei- können, sondern damit auch eine intuitive Vorstellung verbin-
sen können schlagwortartig als den. Nach (5.8) mit x anstelle von t gilt ja für jede Stetigkeits-
„Methode Verteilungsfunktion“, stelle x von f die Approximation
„Methode Transformationssatz (Trafosatz)“ und f .x/ P .x X x C /
„Methode Ergänzen, Trafosatz und Marginalverteilung“
bei kleinem positiven (siehe auch Abb. 5.7). Eine streng mo-
bezeichnet werden. noton wachsende Transformation T bildet das Intervall Œx; x C
Bei der Methode Verteilungsfunktion geht es darum, direkt aus auf das Intervall ŒT .x/; T .x C / ab, das seinerseits mit
der Verteilungsfunktion von X diejenige von Y zu erhalten. Wir y WD T .x/ und der Differenzierbarkeitsvoraussetzung durch
haben hier bewusst keinen Fettdruck verwendet, weil diese Me- das Intervall Œy; y C T 0 .x/ approximiert wird. Aus einem
thode fast ausschließlich im Fall k D s D 1 angewendet wird. kleinen Intervall der Länge ist also eines der approximativen
Länge T 0 .x/ geworden. Wegen
P .y Y T 0 .x// P .x X x C /
Satz (Methode Verteilungsfunktion, k D s D 1) g.y/
Kapitel 5
T 0 .x/ T 0 .x/
Es sei X eine Zufallsvariable mit Verteilungsfunktion F f .x/ f .x/ f .T 1 .y//
und einer bis auf endlich viele Stellen stetigen Dichte f , 0 D 0 D 0 1
T .x/ T .x/ T .T .y//
wobei P .X 2 O/ D 1 für ein offenes Intervall O. Die
Restriktion der Abbildung T W R ! R auf O sei stetig „muss“ die in c) angegebene Darstellung für die Dichte von Y
differenzierbar und streng monoton mit T 0 .x/ ¤ 0; x 2 gelten. Ist T fallend, so wird aus Œx; x C das Intervall ŒT .x C
O. Bezeichnen T 1 W T .O/ ! O die Inverse von T auf /; T .x/. Dieses wird durch das Intervall Œy C T 0 .x/; y mit
T .O/ und G die Verteilungsfunktion von Y WD T .X /, so der Länge jT 0 .x/j approximiert. J
gelten:
Beispiel (Lokations-Skalen-Familien) Wir betrachten für
a) Ist T streng monoton wachsend, so ist
; 2 R mit > 0 die affine Abbildung
G.y/ D F .T 1 .y//; y 2 T .O/: T .x/ WD x C ; x 2 R: (5.18)
b) Ist T streng monoton fallend, so ist Besitzt die Zufallsvariable X die Dichte f , so ist nach Teil c)
des obigen Satzes die Dichte von Y WD X C durch
G.y/ D 1 F .T 1 .y//; y 2 T .O/: 1 y
g.y/ D f ; y 2 R;
5.2 Transformationen von Verteilungen 137
gegeben. Die obige Zuordnung T wird auch als Lokations- f (x) F (x)
Skalen-Transformation bezeichnet, weil eine Verschiebung 1
Wendepunkte 1
√
und eine Skalenänderung bewirken. Die Bedeutung der Trans- σ 2π
formation (5.18) im Hinblick auf Anwendungen ist immens,
erlaubt sie doch, aus einer gegebenen Verteilung eine ganze
Klasse von Verteilungen zu generieren, die durch zwei Parame- 0.5
ter, nämlich und , charakterisiert ist. Ist X0 eine Zufallsva-
riable mit Verteilungsfunktion F0 und Dichte f0 , so heißt die
Menge der Verteilungsfunktionen
n ˇ o x
ˇ μ−σ μ μ+σ x μ
F; ./ D F0 ˇ 2 R; > 0 (5.19)
Abb. 5.13 Dichte (links) und Verteilungsfunktion (rechts) der Normal-
die von F0 erzeugte Lokations-Skalen-Familie. Die zugehörigen
verteilung N.; 2 /
Dichten sind
n 1 ˇˇ o
f; ./ D f0 ˇ 2 R; > 0 : Es ist üblich, die Verteilungsfunktion der Standardnormalvertei-
lung mit
Eine Lokations-Skalen-Familie, die von der Verteilung von X0
erzeugt wird, besteht also aus den Verteilungen aller Zufallsva- Zx 2
1 t
riablen X WD X0 C mit 2 R und > 0. J ˚.x/ WD p exp dt ; x 2 R; (5.20)
2 2
1
Ist X0 standardnormalverteilt, so hat X0 C zu bezeichnen. Da die Funktion x 7! exp.x 2 =2/ nicht elemen-
tar integrierbar ist, gibt es für ˚ keine in geschlossener Form
die Normalverteilung N.; 2 / angebbare Stammfunktion, wenn man von einer Potenzreihe ab-
sieht (s. Aufgabe 5.15). In Tab. 5.1 sind Werte für ˚ angegeben.
Wählen wir im obigen Beispiel als erzeugende Verteilung spezi-
Wegen der Symmetrie der Standardnormalverteilungsdichte '
ell die Standardnormalverteilung N.0; 1/ mit der in (5.4) ange-
um 0 ist der Graph der Funktion ˚ punktsymmetrisch zu
gebenen Dichte ', so ergibt sich als Lokations-Skalen-Familie
.0; 1=2/ (siehe Abb. 5.14). Diese Eigenschaft spiegelt sich in
die Menge aller (eindimensionalen) Normalverteilungen im Sin-
der Gleichung
ne der folgenden Definition.
˚.x/ D 1 ˚.x/; x 2 R; (5.21)
Definition der Normalverteilung
wider. Insbesondere erhält man aus Tab. 5.1 damit auch Werte
Die Zufallsvariable X hat eine Normalverteilung mit Pa- ˚.x/ für negatives x, also z. B. ˚.1/ D 1 ˚.1/ D 1
rametern und 2 (kurz: X N.; 2 //, falls X die 0:8413 D 0:1587.
durch
Nach der Erzeugungsweise der Normalverteilung N.; 2 /
aus der Standardnormalverteilung N.0; 1/ über die Lokations-
1 .x /2
f .x/ WD p exp ; x 2 R; Skalen-Transformation
2 2 2
Kapitel 5
gegebene Dichte f besitzt. X0 N.0; 1/ H) X WD X0 C N.; 2 / (5.22)
1
Kommentar Es ist allgemein üblich, den zweiten Parameter
der Normalverteilung N.; 2 / als 2 (und nicht als ) zu wäh- Φ(x)
len. Wir werden später sehen, dass der Erwartungswert und
2 die Varianz dieser Verteilung sind. J
0.5
Abb. 5.13 zeigt die Dichte (links) und die Verteilungsfunktion
(rechts) der Normalverteilung N.; 2 /. Eine einfache Kurven-
diskussion ergibt, dass die Dichte symmetrisch um x D ist
und an den Stellen C und Wendepunkte besitzt. x
−3 0 3
Selbstfrage 5
Warum sind an den Stellen ˙ Wendepunkte? Abb. 5.14 Graph der Verteilungsfunktion ˚ der Standardnormalvertei-
lung N.0; 1/
138 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Tab. 5.1 Verteilungsfunktion ˚ der Standardnormalverteilung (für lässt sich die Verteilungsfunktion der Normalverteilung
x < 0 verwende man die Beziehung (5.21)) N.; 2 / mithilfe von ˚ ausdrücken, denn es ist
x ˚.x/ x ˚.x/ x ˚.x/ x
0.00 0.5000 1.00 0.8413 2.00 0.9772 P .X x/ D P .X0 C x/ D P X0
x
0.02 0.5080 1.02 0.8461 2.02 0.9783
D˚ (5.23)
0.04 0.5160 1.04 0.8508 2.04 0.9793
0.06 0.5239 1.06 0.8554 2.06 0.9803
(siehe (5.19)).
0.08 0.5319 1.08 0.8599 2.08 0.9812
0.10 0.5398 1.10 0.8643 2.10 0.9821 Selbstfrage 6
0.12 0.5478 1.12 0.8686 2.12 0.9830 Wie groß ist die Wahrscheinlichkeit P .2 X 5/, wenn X
0.14 0.5557 1.14 0.8729 2.14 0.9838 die Normalverteilung N.4; 4/ besitzt?
0.16 0.5636 1.16 0.8770 2.16 0.9846
0.18 0.5714 1.18 0.8810 2.18 0.9854
0.20 0.5793 1.20 0.8849 2.20 0.9861 Wir werden der Normalverteilung noch an verschiedenen Stel-
0.22 0.5871 1.22 0.8888 2.22 0.9868
len begegnen und uns jetzt einer weiteren wichtigen Lokations-
Skalen-Familie zuwenden. Starten wir hierzu im Beispiel einer
0.24 0.5948 1.24 0.8925 2.24 0.9875
allgemeinen Lokations-Skalen-Familie mit der Dichte f0 .x/ D
0.26 0.6026 1.26 0.8962 2.26 0.9881
1 für 0 < x < 1 und f0 .x/ WD 0 sonst, also mit einer auf .0; 1/
0.28 0.6103 1.28 0.8997 2.28 0.9887
gleichverteilten Zufallsvariablen X0 , und wenden für a; b 2 R
0.30 0.6179 1.30 0.9032 2.30 0.9893
mit a < b die Transformation
0.32 0.6255 1.32 0.9066 2.32 0.9898
0.34 0.6331 1.34 0.9099 2.34 0.9904 T .x/ WD a C .b a/x; x 2 R; (5.24)
0.36 0.6406 1.36 0.9131 2.36 0.9909
an, so entsteht die Gleichverteilung auf .a; b/ im Sinne der fol-
0.38 0.6480 1.38 0.9162 2.38 0.9913
genden Definition.
0.40 0.6554 1.40 0.9192 2.40 0.9918
0.42 0.6628 1.42 0.9222 2.42 0.9922
0.44 0.6700 1.44 0.9251 2.44 0.9927 Definition der stetigen Gleichverteilung
0.46 0.6772 1.46 0.9279 2.46 0.9931
0.48 0.6844 1.48 0.9306 2.48 0.9934 Die Zufallsvariable X hat eine (stetige) Gleichverteilung
0.50 0.6915 1.50 0.9332 2.50 0.9938
auf dem Intervall .a; b/ (kurz: X U.a; b//, falls X die
Dichte
0.52 0.6985 1.52 0.9357 2.52 0.9941
0.54 0.7054 1.54 0.9382 2.54 0.9945 1
0.56 0.7123 1.56 0.9406 2.56 0.9948 f .x/ WD ; falls a < x < b;
ba
0.58 0.7190 1.58 0.9429 2.58 0.9951
0.60 0.7257 1.60 0.9452 2.60 0.9953 und f .x/ WD 0 sonst, besitzt.
0.62 0.7324 1.62 0.9474 2.62 0.9956
0.64 0.7389 1.64 0.9495 2.64 0.9959
0.66 0.7454 1.66 0.9515 2.66 0.9961 Die Dichte der Gleichverteilung U.a; b/ ist in Abb. 5.15 links
0.68 0.7517 1.68 0.9535 2.68 0.9963 skizziert. Das rechte Bild zeigt die durch F .x/ D 0, falls x a,
0.70 0.7580 1.70 0.9554 2.70 0.9965 und F .x/ D 1, falls x b, sowie
Kapitel 5
gegebene Verteilungsfunktion von X . Man beachte, dass die wenn der k-dimensionale Zufallsvektor X eine Dichte (bzgl. des
Gleichverteilung bereits in Abschn. 5.1 allgemein auf Borel- Borel-Lebesgue-Maßes k ) besitzt und die Transformation T
Mengen im Rk mit positivem, endlichen Borel-Lebesgue-Maß dimensionserhaltend ist, also den Rk in sich abbildet.
eingeführt wurde. Die Gleichverteilung U.a; b/ ist aber so wich-
tig, dass wir obige Definition gesondert aufgenommen haben.
Aufgrund der Transformation (5.24) und den Betrachtungen in Satz (Methode Transformationssatz, k D s > 1)
der Hintergrund-und-Ausblick-Box über den linearen Kongru- Es sei X ein k-dimensionaler Zufallsvektor mit einer
enzgenerator ist klar, wie wir z. B. eine Gleichverteilung auf Dichte f , die außerhalb einer offenen Menge O ver-
dem Intervall .4; 7/ simulieren können. Wir transformieren die schwinde; es gelte also fx j f .x/ > 0g O. Weiter sei
erhaltenen, auf .0; 1/ gleichverteilten Pseudozufallszahlen xj T W Rk ! Rk eine Borel-messbare Abbildung, deren
einfach gemäß xj 7! 4 C 3xj . Restriktion auf O stetig differenzierbar sei, eine nirgends
Man beachte, dass die Verteilungsfunktion F mit Ausnahme der verschwindende Funktionaldeterminante besitze und O
Stellen x D a und x D b differenzierbar ist und dort die Glei- bijektiv auf T .O/ Rk abbilde. Dann ist die durch
chung f .x/ D F 0 .x/ erfüllt. Wie die Dichte f an den Stellen a (
f .T 1 .y//
und b definiert wird, ist unerheblich, da eine solche Festlegung j det T 0 .T 1 .y//j
; falls y 2 T .O/;
g.y/ WD
die Verteilung nicht beeinflusst. 0; falls y 2 Rk n T .O/;
Das folgende Beispiel zeigt, dass die Anwendung der Methode
Verteilungsfunktion auch dann zum Erfolg führen kann, wenn definierte Funktion g eine Dichte von Y WD T .X/.
die Transformation T nicht notwendig streng monoton ist (siehe
auch Aufgabe 5.3).
Dieser Satz findet sich als Transformationssatz für k -Dichten
in Abschn. 8.8. Er wird dort in maßtheoretischer Formulierung
Beispiel (Quadrat-Transformation) Es sei X eine Zu- bewiesen, ohne die Sprache von Zufallsvektoren zu verwen-
fallsvariable mit Verteilungsfunktion F und stückweise stetiger den. Ausgangspunkt ist der in Abschn. 22.3 von [1] behandelte
Dichte f . Wir betrachten die Transformation T W R ! R, Transformationssatz für Gebietsintegrale. Nach diesem Satz gilt
T .x/ WD x 2 , und damit die Zufallsvariable Y WD X 2 . Für die für jede offene Teilmenge M von T .O/
Verteilungsfunktion G von Y gilt wegen der Stetigkeit von F
die Beziehung G.y/ D P .Y 0/ D 0 für y 0 sowie für P .Y 2 M / D P .X 2 T 1 .M //
Z
y>0
D f .x/ dx
p p
G.y/ D P .X 2 y/ D P . y X y/ T 1 .M /
p p Z
D F . y/ F . y/: f .T 1 .y//
D dy:
j det T 0 .T 1 .y//j
Differenziation liefert dann für y > 0 M
Kapitel 5
g.y/ D p f . y/ C f . y/ ; y > 0; (5.26) angegebene Gestalt „besitzen muss“. Wir betrachten hierzu ei-
2 y ne Stelle x, an der die Dichte f von X stetig ist. Ist Bx ein
x enthaltender Quader, so gilt bei kleinem k .Bx / (vgl. die
und g.y/ WD 0 sonst, eine Dichte von Y . J Hintergrund-und-Ausblick-Box in Abschn. 8.8)
P .X 2 Bx /
f .x/ :
k .Bx /
Unter einer regulären Transformation T
ergibt sich die Dichte g von Y D T .X / Unter der Transformation T geht Bx in T .Bx / über. Auf Bx
0
wird T durch die lineare Abbildung z 7! T .x/ z approximiert,
zu g.y/ D f .T 1 .y//=j det T 0 .T 1 .y//j und es gilt k .T .Bx // j det T 0 .x/j k .Bx /. Setzen wir y D
T .x/ und damit x D T 1 .y/, so gilt für die Dichte von Y an
Wir wollen es an dieser Stelle mit weiteren Beispielen zur Me- der Stelle y
thode Verteilungsfunktion bewenden lassen, möchten aber schon
jetzt darauf hinweisen, dass uns diese Methode im Zusammen- P .Y 2 T .Bx // P .X 2 Bx / k .Bx /
g.y/ D
hang mit wichtigen Verteilungen wie z. B. der Lognormalver- k
.T .Bx // k .Bx / k .T .Bx //
teilung und der Weibull-Verteilung begegnen wird. Stattdessen 1 f .T 1 .y//
wenden wir uns der Methode Transformationssatz (kurz: Tra- f .x/ 0 D : J
fosatz) zu. Diese Methode kommt immer dann zur Geltung, j det T .x/j j det T 0 .T 1 .y//j
140 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
> 1
Beispiel (Box-Muller-Methode) Formuliert man das Bei- so geht dieser Ausdruck wegen A1 D A> und
spiel zur Box-Muller-Methode in Abschn. 8.8, also den Fall p
j det Aj D det ˙ in
k D s D 2, O D .0; 1/2 , p f D 1O und T .x/ WD
.T1 .x/; T2p
.x// mit T1 .x/ D 2 log x1 cos.2x2 / und 1 1 > 1
g.y/ D p exp .y / ˙ .y /
T2 .x/ D 2 log x1 sin.2x2 /, x D .x1 ; x2 /, in die Sprache .2/k=2 det ˙ 2
von Zufallsvariablen um, so ergibt sich folgende Aussage:
über. Die Dichte und damit auch die Verteilung von Y hängen
Sind X1 ; X2 stochastisch unabhängige und je U.0; 1/-verteilte also von der Transformationsmatrix A nur über die in (5.27)
Zufallsvariablen, so sind die durch definierte Matrix ˙ ab. Offenbar ist ˙ symmetrisch und po-
p sitiv definit, da A invertierbar ist. Da es zu jeder vorgegebenen
Y1 WD 2 log X1 cos .2X2 / ; symmetrischen und positiv definiten Matrix ˙ eine invertierba-
p
Y2 WD 2 log X1 sin .2X2 / re Matrix A mit ˙ D AA> gibt (Cholesky-Zerlegung!), haben
wir gezeigt, dass die nachfolgende Definition – bei der wir den
definierten Zufallsvariablen Y1 , Y2 stochastisch unabhängig und Zufallsvektor als X und nicht als Y schreiben – widerspruchsfrei
je N.0; 1/-verteilt. Diese Erkenntnis kann verwendet werden, ist. Außerdem haben wir gesehen, wie man einen Zufallsvektor
um aus zwei Pseudozufallszahlen x1 ; x2 mit der Gleichvertei- mit dieser Verteilung mithilfe einer affinen Transformation er-
lung auf .0; 1/ zwei Pseudozufallszahlen y1 ; y2 mit einer Stan- zeugt.
dardnormalverteilung zu erzeugen. Aus letzteren erhält man
dann mit der affinen Transformation yj 7! yj C (j D 1; 2)
zwei Pseudozufallszahlen mit der Normalverteilung N.; 2 /. Definition der k-dimensionalen Normalverteilung
J
Es seien 2 Rk und ˙ eine symmetrische
Wie im nächsten Beispiel ist es oft vorteilhaft, Vektoren des positiv-definite (k k)-Matrix. Der Zufallsvektor
Rk und k-dimensionale Zufallsvektoren als Spaltenvektoren zu X D .X1 ; : : : ; Xk / hat eine (nichtausgeartete) k-
schreiben. Dies ist insbesondere dann der Fall, wenn Abbildun- dimensionale Normalverteilung mit Parametern
gen durch Matrizen definiert werden. und ˙ , falls X die Dichte
1 1 > 1
Beispiel (affine Abbildung) Wir betrachten die affine Ab- f .x/ D p exp .x / ˙ .x / ;
.2/k=2 det ˙ 2
bildung
T .x/ WD A x C ; x 2 Rk ; x 2 Rk , besitzt. In diesem Fall schreiben wir kurz
mit einer invertierbaren (k k)-Matrix A und einem (Spalten-)
Vektor 2 Rk . Diese stetig differenzierbare Transformation X Nk .; ˙/:
bildet den Rk auf sich ab und besitzt die Funktionaldeterminan-
te det A. Ist X ein k-dimensionaler Zufallsvektor mit Dichte f ,
so hat der Zufallsvektor Y WD AX C b nach dem Transformati- Kommentar Es ist üblich, im Fall k 2 ohne Benennung
onssatz die Dichte der Dimension von einer mehrdimensionalen oder multivariaten
f .A1 .y // Normalverteilung zu sprechen. Die mehrdimensionale Normal-
g.y/ D ; y 2 Rk : J
j det Aj verteilung ist die wichtigste multivariate Verteilung. Wir werden
im nächsten Abschnitt sehen, dass die j -te Komponente j des
Vektors D .1 ; : : : ; k / gleich dem Erwartungswert von Xj
ist, und dass die Einträge ij der (k k)-Matrix ˙ D .ij /
Die k-dimensionale Normalverteilung entsteht
Kapitel 5
Was ergibt sich, wenn wir die obige affine Transformation auf
einen k-dimensionalen Zufallsvektor X mit der Standardnor- f (x, y)
malverteilung im Rk anwenden? Schreiben wir den transponier-
ten Zeilenvektor eines Spaltenvektors x mit x > , so stellt sich die
Dichte von X in der Form
Y k 2 >
1 xj 1 x x
f .x/ D p exp D k=2
exp
j D1
2 2 .2/ 2
Zur Struktur der k-dimensionalen Normalverteilung (i. Allg. schief liegende) rechtwinklige Koordinatensystem
der v1 ; : : : ; vk angetragen. Nach Erzeugung von k unabhän-
Die Dichte eines Nk .; ˙/-normalverteilten Zufallsvektors
gigen und p je N.0; 1/ verteilten Zufallsvariablen Y1 ; : : : ; Yk
X ist konstant auf den Mengen
trägt man j Yj in Richtung von vj auf (j D 1; : : : ; k)
fx 2 Rk j .x /> ˙ 1 .x / D cg; c > 0; (s. nachstehende Abbildung).
√
positiv definite Matrix besitzt ˙ ein vollständiges Sys- λ1 Y1
λ2 Y2
tem v1 ; : : : ; vk von normierten und paarweise orthogona-
len Eigenvektoren mit zugehörigen positiven Eigenwerten v2
•
1 ; : : : ; k . Es gilt also μ2 •
v1
˙ vj D j vj ; j D 1; : : : ; k; (5.28)
μ1
sowie v> >
i vj D 1 für i D j und vi vj D 0 sonst. Bezeichnen
V D .v1 ; : : : ; vk / die orthonormale Matrix der Eigenvek-
toren und
WD diag.1 ; : : : ; k / die Diagonalmatrix der Wegen ˙ 1 D V
1 V > folgt
Eigenwerte von ˙, so können wir die Gleichungen (5.28) >
in der kompakten Form .x /> ˙ 1 .x / D V > .x /
1 V > .x /
X
k
zj2
˙V DV
D ;
j D1
j
> 1
schreiben. Wegen V D V ist diese Gleichung nach
Rechtsmultiplikation mit V > äquivalent zu wobei
˙ D V
V >: zj D vj> .x /; j D 1; : : : ; n:
p p
Mit
1=2 WD diag. 1 ; : : : ; k / und A WD V
1=2 , gilt Somit ist die Menge fx 2 Rk W .x /> ˙ 1 .x / D 1g
>
dann ˙ D A A . Sind Y1 ; : : : ; Yk stochastisch unabhän- ein Ellipsoid in Rk mit Zentrum und Hauptachsen in Rich-
gig und je standardnormalverteilt, und setzen wir Y WD tung von vp1 ; : : : ; vk . Die Länge der Hauptachse in Richtung
.Y1 ; : : : ; Yk /> , so besitzt nach den vor der Definition der von vj ist j , 1 j k.
k-dimensionalen Normalverteilung angestellten Betrachtun-
gen der Zufallsvektor AY C die gleiche Verteilung wie X.
Wegen A D V
1=2 gilt also die sog. Hauptkomponentendar-
√
stellung
λ2
p p √
λ1
μ2 •
X V
1=2 Y C D 1 Y1 v1 C : : : C k Yk vk C :
Diese Erzeugungsweise der Normalverteilung Nk .; ˙/
μ1
lässt sich leicht veranschaulichen: Im Punkt 2 Rk wird das
Kapitel 5
Dichte der zweidimensionalen Normalverteilung mit Parame- zeichnung verbirgt sich eine Vorgehensweise, die im Fall einer
tern 1 D 2 D 0 und 11 D 2:25, 12 D 1:2 sowie 22 D 1. Abbildung T W Rk ! Rs mit s < k, also einer dimensionsredu-
Die Höhenlinien der Dichte einer k-dimensionalen Normalver- zierenden Transformation, gewinnbringend eingesetzt werden
teilung sind Ellipsoide, deren Lage und Gestalt von und ˙ kann.
abhängt (siehe die Unter-der-Lupe-Box über die Hauptkompo-
nentendarstellung). J Ist es nämlich möglich, die Abbildung T D .T1 ; : : : ; Ts / durch
Hinzunahme geeigneter Funktionen Tj W Rk ! R für j D
s C 1; : : : ; k so zu einer durch
y D .y1 ; : : : ; ys / 2 Rs . Z /
min.1;t
Als Beispiel für die Methode Ergänzen, Trafosatz und Margi- fX1 CX2 .t / D 1 ds; 0 < t < 2;
nalverteilung betrachten wir die durch T .x/ WD x1 C x2 , x D max.0;t 1/
.x1 ; x2 / 2 R2 , definierte Summen-Abbildung T W R2 ! R. Um
e W R2 ! R2 zu erhalten, kann man als er- an. Außerdem ist fX1 CX2 .t / D 0, falls t 0 oder t 2. Im Fall
eine Transformation T
0 < t 1 folgt aus obiger Gleichung fX1 CX2 .t / D t , im Fall
gänzende Komponenten-Abbildung T2 W R2 ! R, T2 .x/ WD x1 ,
1 < t < 2 ergibt sich fX1 CX2 .t / D 2 t . Die Summe X1 C X2
wählen, denn dann ist
besitzt also die in Abb. 5.1 dargestellte Dreiecksverteilung auf
! ! !
1 1 x x C x dem Intervall .0; 2/. J
e.x1 ; x2 / D
T >
1
D
1 2
1 0 x2 x1 Mit der Faltungsformel erhält man das folgende wichtige Re-
sultat, dass durch Induktion auch für mehr als zwei Zufallsva-
e
eine lineare Abbildung mit invertierbarer Matrix, sodass für T riablen gültig bleibt.
die Voraussetzungen des Transformationssatzes erfüllt sind. Be-
sitzt X D .X1 ; X2 / die Dichte f , so hat Te.X/ D .X1 C
X2 ; X1 / nach dem Transformationssatz unter Beachtung von Additionsgesetz für die Normalverteilung
e0 .x/j D 1 die Dichte
j det T
Es seien X und Y unabhängige Zufallsvariablen, wobei
e e1 .y1 ; y2 // D f .y2 ; y1 y2 /:
g .y1 ; y2 / D f .T X N.; 2 / und Y N.; 2 / mit ; 2 R und 2 >
0, 2 > 0. Dann gilt
Bildet man jetzt die Marginalverteilung von X1 C X2 , integriert
man also über y2 , so ergibt sich die Dichte von X1 C X2 zu X C Y N. C ; 2 C 2 /:
Z1
g.y1 / D f .y2 ; y1 y2 / dy2 :
1 Beweis Nach (5.22) können wir ohne Beschränkung der
Allgemeinheit D D 0 annehmen. Setzt man in die Fal-
Für den Spezialfall, dass X1 und X2 unabhängig sind, verwen- tungsformel die Dichten von X und Y ein und zieht Konstanten
den wir eine andere Notation und schreiben die Zufallsvariable vor das Integral, so folgt
als Index an die Dichte. Aus obiger Gleichung ergibt sich
Kapitel 5
Aus diesem Additionsgesetz ergibt sich ohne formale Bildung ergänzen wir durch die Komponente x 7! x2 zu der Transfor-
der Marginalverteilung durch Integration der gemeinsamen mation Te.x/ WD .T .x/; x2 /, x 2 R2 . Diese bildet die offene
Dichte über die nicht interessierenden Koordinaten, dass die Menge O WD f.x1 ; x2 / 2 R2 j x2 ¤ 0g eineindeutig auf sich
Komponenten eines multivariat normalverteilten Zufallsvektors selbst ab, und sie besitzt die Funktionaldeterminante
eindimensional normalverteilt sind. In der Beispiel-Box über !
marginale und bedingte Verteilungen bei multivariater Normal- 1
xx12 1
verteilung in Abschn. 5.6 werden wir allgemeiner zeigen, dass e 0
T .x1 ; x2 / D det x2 2 D ¤ 0; x 2 O:
0 1 x2
auch die gemeinsamen Verteilungen irgendwelcher Komponen-
ten von X multivariate Normalverteilungen sind.
Nach dem Transformationssatz hat Y e WD T e.X1 ; X2 / D
.T .X1 ; X2 /; X2 / auf O und damit – da 2 .N / D 0 gilt – auf
Folgerung Der Zufallsvektor X D .X1 ; : : : ; Xk / besitze
ganz R2 die Dichte e g .y1 ; y2 / D f .y1 y2 ; y2 /jy2 j: Durch Inte-
die k-dimensionale Normalverteilung Nk .; ˙/, wobei D
gration bzgl. y2 ergibt sich die Dichte von Y D X1 =X2 zu
.1 ; : : : ; k /> , ˙ D .ij /1i ;j k . Dann gilt
Xj N.j ; jj /; j D 1; : : : ; k: J Z1
g.y/ D f .ys; s/ jsj ds (5.30)
Beweis Wir nutzen die Verteilungsgleichheit X AY C 1
mit ˙ D A A> und Y D .Y1 ; : : : ; Yk /> aus. Dabei sind R1
Y1 ; : : : ; Yk unabhängige und je N.0; 1/-normalverteilte Zufalls- und damit zu 1 fX1 .ys/fX2 .s/jsj ds, wenn X1 und X2 unab-
variablen. Mit A D .aij /1i ;j k folgt dann hängig sind und die Dichten fX1 bzw. fX2 besitzen. In gleicher
Weise können die Dichten von X1 X2 und X1 X2 erhalten
X
k
werden. Man beachte dass Teil a) leicht aus der Faltungsformel
Xj aj ` Y` C j :
folgt, denn die Dichte von X2 ist fX2 .s/ D fX2 .s/.
`D1
Kapitel 5
ten fX1 bzw. fX2 , so gelten:
R1 Der Graph von f ist symmetrisch zur Ordinate und wie die
a) fX1 X2 .t / D 1 fX1 .t C s/ fX2 .s/ ds,
R1 Dichte ' der Standardnormalverteilung glockenförmig. Die
b) fX1 X2 .t / D 1 fX1 st fX2 .s/ jsj 1
ds, Dichte f fällt aber für t ! ˙1 im Vergleich zu ' wesentlich
R1
c) fX1 =X2 .t / D 1 fX1 .t s/ fX2 .s/ jsj ds; t 2 R. langsamer ab (Abb. 5.17).
Die Verteilung mit der Dichte f heißt Cauchy-Verteilung Folgerung c) aus dem Satz über Erzeuger und Messbarkeit
C.0; 1/. Sie entsteht allgemeiner als Verteilung des Quotienten in Abschn. 8.4) ergibt sich aus der für jedes t 2 R geltenden
X1 =X2 zweier Zufallsvariablen mit einer rotationsinvarianten Ereignis-Gleichheit
gemeinsamen Dichte (Aufgabe 5.21). Dass der Quotient zwei- X n
5
Maß-Integrals. Wer damit (noch) nicht vertraut ist, sollte in der
r=1 r=5 nachfolgenden Definition ein formales „Integral-Analogon“ von
(5.32) sehen.
4
r=2 r=4
3
r=3 Definition des Erwartungswertes (allgemeiner Fall)
2 Es seien .˝; A; P / ein Wahrscheinlichkeitsraum und X W
˝ ! R eine Zufallsvariable. Der Erwartungswert von X
1 existiert, falls gilt:
Z
0 t jX j dP < 1: (5.34)
0 0.2 0.4 0.6 0.8 1.0
˝
Abb. 5.18 Dichte grW5 der r-ten Ordnungsstatistik von 5 in .0; 1/
gleichverteilten Zufallsvariablen In diesem Fall heißt
Z
E.X / WD X dP (5.35)
Beispiel (Gleichverteilung U.0; 1/) Besitzen X1 ; : : : ; Xn
˝
die Gleichverteilung U.0; 1/, so hat die r-te Ordnungsstatistik
XrWn die Dichte der Erwartungswert von X .
nŠ
grWn .t / D t k1 .1 t /nk ; 0 t 1;
.k 1/Š.n k/Š
Die wichtigste Botschaft dieser Definition ist, dass die nachste-
und grWn .t / D 0 sonst. Abb. 5.18 zeigt die Graphen dieser Dich- henden, im Fall eines diskreten Wahrscheinlichkeitsraums for-
ten für den Fall n D 5. Es handelt sich hierbei um Spezialfälle mulierten und bewiesenen Eigenschaften der Erwartungswert-
der in Aufgabe 5.33 behandelten Betaverteilung. J bildung unverändert gültig bleiben, sind sie doch ein Spezialfall
der in Abschn. 8.5 aufgeführten Eigenschaften integrierbarer
Funktionen.
5.3 Kenngrößen von Verteilungen
In diesem Abschnitt behandeln wir die wichtigsten Kenngrößen Eigenschaften der Erwartungswertbildung
von Verteilungen. Hierzu zählen Erwartungswert und Varianz,
höhere Momente sowie Quantile. Für Zufallsvektoren kommen Es seien X und Y R-wertige Zufallsvariablen auf
die Begriffe Kovarianz, Korrelation und Kovarianzmatrix hinzu. .˝; A; P / mit existierenden Erwartungswerten und a 2
Wir beginnen mit Erwartungswerten und den davon abgeleiteten R. Dann existieren auch die Erwartungswerte von X C Y
Begriffen Varianz, Kovarianz und Korrelation, die alle bereits im und aX , und es gelten:
Kapitel über diskrete Verteilungen auftraten. a) E.aX / D aEX (Homogenität),
Sind .˝; A; P / ein diskreter Wahrscheinlichkeitsraum und X b) E.X C Y / D EX C EY (Additivität),
eine auf ˝ definierte Zufallsvariable, so wurde der Erwartungs- c) E .1A / D P .A/; A 2 A,
d) aus X Y folgt EX EY (Monotonie),
wert von X als X
e) jE.X /j EjX j (Dreiecksungleichung).
Kapitel 5
E.X / WD X .!/ P .f!g/ (5.32)
!2˝0
EX WD E.X /; Jensen-Ungleichung
Es seien M R ein Intervall, X eine Zufallsvariable mit
wenn keine Verwechslungen zu befürchten sind. P .X 2 M / D 1 und g W M ! R eine konvexe Funktion.
Ist X eine nichtnegative Zufallsvariable, so existiert der Er- Gelten EjX j < 1 und Ejg.X /j < 1, so folgt
wartungswert von X genau dann, wenn EX < 1. Für eine
allgemeine Zufallsvariable ist demnach die Existenz des Er- Eg.X / g.EX /:
wartungswertes von X gleichbedeutend mit dem Bestehen
der Ungleichung
Ist g strikt konvex und die Verteilung von X nicht ausge-
EjX j < 1: (5.38) artet, so ist obige Ungleichung strikt.
J
Bevor wir uns mit der konkreten Bestimmung von Erwartungs-
werten für stetige Zufallsvariablen befassen, sei ein Ergebnis Beweis Zunächst gilt EX 2 M , was im Fall M D R aus
aus Abschn. 8.6 in die Sprache von Zufallsvariablen und Wahr- EjX j < 1 und andernfalls aus der Monotonie der Erwartungs-
scheinlichkeitsmaßen umformuliert. wertbildung folgt. Nach den Vorbemerkungen liegt der Graph
5.3 Kenngrößen von Verteilungen 147
von g oberhalb der Stützgeraden an g im Punkt .EX ; g.EX //, Dabei haben wir kurz dz für die Integration bzgl. des Borel-
d. h., es gibt ein a 2 R mit Lebesgue-Maßes k geschrieben. Zusammen ergibt sich also
die erste Behauptung des Satzes. Die zweite folgt aus den je-
g.x/ a.x EX / C g.EX /; x 2 M:
weiligen Teilen b) der oben zitierten Sätze.
Die Monotonie der Erwartungswertbildung liefert dann
Eg.X / E Œa.X EX / C g.EX / Kommentar Formel (5.39) ist das „stetige Analogon“ der
Gleichung
D a 0 C g.EX / D g.EX /: X
Der Zusatz folgt aus (8.35), wenn man für das dort stehende f E g.Z/ D g.z/ P .Z D z/
die nichtnegative Funktion Y WD g.X / a.X EX / g.EX / z2Rk WP .ZDz/>0
auf ˝ betrachtet. Letztere ist im Fall der strikten Konvexität von für diskret verteilte Zufallsvektoren. Für den Spezialfall einer
g bis auf die Menge f! 2 ˝ j X .!/ D EX g strikt positiv. Aus reellen Zufallsvariablen X und die Funktion g.x/ D x, x 2 R,
EY D 0 würde dann Y D 0 P -fast sicher und somit X D EX erhalten wir aus (5.39) das folgende stetige Analogon der Trans-
P -fast sicher folgen. Eine Entartung der Verteilung von X war formationsformel (5.33) für diskrete Zufallsvariablen. J
jedoch ausgeschlossen.
Diejenigen, die (noch) nicht mit der allgemeinen Maß- und In- Z1
tegrationstheorie vertraut sind, werden sich natürlich an dieser jxj f .x/ dx < 1:
Stelle fragen, wie man zum Beispiel überprüft, ob eine stetige 1
Zufallsvariable X mit Dichte f einen Erwartungswert besitzt,
und wie man diesen gegebenenfalls konkret berechnet. Wir ge- In diesem Fall gilt
ben hierzu ein allgemeines Resultat an und zeigen auch, welche
Z1
Sätze aus Kap. 8 in den Beweis eingehen.
EX D x f .x/ dx: (5.40)
1
Die allgemeine Transformationsformel (Erwartungs-
werte von Funktionen stetiger Zufallsvektoren)
Es seien Z ein k-dimensionaler Zufallsvektor mit Dich- Kommentar (5.39) und (5.40) sind „die Rezepte“ zur Be-
te f und g W Rk ! R eine messbare Funktion. Dann rechnung von Erwartungswerten, sofern keine elegantere Me-
existiert der Erwartungswert der Zufallsvariablen g.Z/ D thode zur Verfügung steht. So sollte vor deren Befolgung wie
g ı Z genau dann, wenn gilt: schon bei diskreten Zufallsvariablen mehrfach geschehen stets
Z versucht werden, strukturelle Eigenschaften der Erwartungs-
jg.z/j f .z/ dz < 1: wertbildung wie etwa die Linearität auszunutzen. Man beachte,
dass jede Zufallsvariable, die mit Wahrscheinlichkeit eins Werte
Rk in einem kompakten Intervall annimmt, einen Erwartungswert
In diesem Fall folgt besitzt, denn P .a X b/ D 1 zieht jX j max.jaj; jbj/ und
damit EjX j max.jaj; jbj/ nach sich. J
Z
Kapitel 5
E g.Z/ D g.z/ f .z/ dz: (5.39) Beispiel
Rk
Für eine Zufallsvariable X mit der Gleichverteilung U.a; b/,
also der Dichte f D .b a/1 1Œa;b , gilt
Zb
Beweis Nach dem Transformationssatz für Integrale am Ende 1 1 x 2 ˇˇb aCb
von Abschn. 8.5 gilt EX D x dx D ˇ D :
Z Z ba ba 2 a 2
a
Ejg.Z/j D jg.Z/j dP D jg.z/j P Z .dz/: Der Erwartungswert von X ist also – kaum verwunderlich –
˝ Rk das Symmetriezentrum der Dichte f .
Da die Verteilung P Z von Z die Dichte f bzgl. k besitzt, gilt Eine Zufallsvariable mit der Cauchy-Verteilung C.0; 1/, also
nach dem Satz über den Zusammenhang zwischen - und - der Dichte f .x/ D 1=..1 C x 2 //, x 2 R, besitzt keinen
Integralen in Abschn. 8.8 Erwartungswert, da
Z Z Z1
jxj
jg.z/j P .dz/ D
Z
jg.z/j f .z/ dz: dx D 1:
1 C x2
Rk Rk 1
148 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Man beachte hierzu, dass Kommentar Der Begriff Moment stammt aus der Mechanik,
Zn wo insbesondere die Bezeichnungen Drehmoment und Träg-
x log.1 C n2 / heitsmoment geläufig sind. Nach obigen Definitionen sind also
dx D ! 1 für n ! 1: J
1 C x2 2 der Erwartungswert das erste Moment und die Varianz das zwei-
0 te zentrale Moment. Man spricht auch von den Momenten der
Verteilung von X , da Erwartungswerte einer Funktion von X
Kommentar Ist X eine Zufallsvariable mit Verteilungsfunk- bzw. einer Funktion von .X ; Y / nur von der Verteilung P X bzw.
tion F , so findet man häufig auch die Schreibweise der gemeinsamen Verteilung P .X ;Y / von X und Y abhängen.
Z1 Besitzen X eine Dichte f und .X ; Y / eine gemeinsame Dichte
Eg.X / D g.x/ dF .x/ h, so gelten nach der allgemeinen Transformationsformel (5.39)
mit den Abkürzungen WD EX und WD EY
1
Z
für den als existent vorausgesetzten Erwartungswert einer Funk-
tion g von X . Diese „dF -Notation“ steht synonym für das EX D k
x k f .x/ dx;
Maß-Integral Z
Z1 Z1 E.X EX /k D .x /k f .x/ dx;
g.x/ dF .x/ WD g.x/ P .dx/:
X
Z
1 1 V .X / D .x /2 f .x/ dx;
Da wir nur die beiden Fälle betrachten, dass X entweder diskret
Z
oder stetig verteilt ist, gilt im ersten Fall
EjX j D
p
jxjp f .x/ dx;
Z1 X
g.x/ dF .x/ D g.xj / P .X D xj / “
1 j 1 Cov.X ; Y / D .x /.y / h.x; y/ dxdy:
P
(falls j 1 P .X D xj / D 1) und im zweiten
Dabei erstrecken sich alle Integrale grundsätzlich über R und
Z1 Z1 im konkreten Einzelfall über den Positivitätsbereich von f bzw.
g.x/ dF .x/ D g.x/ f .x/ dx: von h. Wir betonen an dieser Stelle ausdrücklich, dass alle im
1 1 vorigen Kapitel hergeleiteten strukturellen Eigenschaften der
Varianz- und Kovarianzbildung erhalten bleiben, weil sie auf
Dabei besitzt X die Lebesgue-Dichte f . J
den grundlegenden Eigenschaften der Erwartungswertbildung
(namentlich der Linearität) fußen. Insbesondere sei hervorgeho-
ben, dass auch die Schlussfolgerung
Momente sind Erwartungswerte von Potenzen
einer Zufallsvariablen X ; Y unabhängig H) Cov.X ; Y / D 0
Wichtige Erwartungswerte von Funktionen einer Zufallsvaria-
ganz allgemein gültig bleibt. Wegen Cov.X ; Y / D E.X Y /
blen oder Funktionen zweier Zufallsvariablen sind mit Namen
EX EY ist diese Implikation gleichbedeutend mit der nach-
belegt, die größtenteils schon aus dem vorigen Kapitel bekannt
folgenden, bereits im vorigen Kapitel im Spezialfall diskreter
sind. Bei der folgenden Definition wird stillschweigend unter-
Zufallsvariablen formulierten Aussage, deren Beweis wichtige
stellt, dass die Zufallsvariablen X und Y auf dem gleichen
J
Kapitel 5
Abschn. 8.5 und dem Satz von Tonelli gilt unter Weglassung Beispiel (Normalverteilung) Die Zufallsvariable X sei
der Integrationsgrenzen 1 und 1 N.0; 1/-normalverteilt, besitze also die Dichte
“ 2
1 x
EjX Y j D jx yjP .X ;Y / .dx; dy/ '.x/ D p exp ; x 2 R:
2 2
“
D jxj jyjP X ˝ P Y .dx; dy/ Für k 2 N gilt wegen der Symmetrie von ' um 0, der Substitu-
tion u D x 2 =2 und der Definition der Gammafunktion
Z Z
D jxj P X .dx/ jyj P Y .dy/ Z1 2
1 x
EjX j D p
k
jxjk exp dx
2 2
D EjX j EjY j: 1
Z1
Folglich gilt EjX Y j < 1. Wir können jetzt jeweils die Be- 2 k x2
D p x exp dx
tragsstriche weglassen und erhalten wie behauptet E.X Y / D 2 2
EX EY . 0
Z1
2k=2
Beispiel (Gleichverteilung) Das k-te Moment einer Zu- D p u.kC1/=21 eu du
fallsvariablen X mit der Gleichverteilung U.0; 1/ ist durch 0
2k=2 kC1
Z1 D p < 1:
1 2
EX k D x k dx D ; k 2 N;
kC1 Somit existiert für jedes k 2 N das k-te Moment von X . Wie-
0
derum wegen der Symmetrie von ' um 0 ergeben sich dann
gegeben. Hiermit erhält man
EX 2mC1 D 0; m 2 N0 ;
1 1 1
V .X / D EX 2 .EX /2 D D : sowie
3 4 12
Y
m
2m 2m C 1
Besitzt Y die Gleichverteilung U.a; b/, so gilt die Verteilungs- EX 2m
D p D .2j 1/; m 2 N:
gleichheit Y .b a/X C a und folglich 2 j D1
EY k D E ..b a/X C a/k p dabei aus .x C 1/ D
Das letzte Gleichheitszeichen folgt
2 ! 3 x .x/, x > 0, und .1=2/ D . Insbesondere erhält man
X k
k EX D 0 und V .X / D EX 2 D 1.
D E4 .b a/j X j akj 5
j D0
j Besitzt X die Normalverteilung N.; 2 /, so gilt X Y C
! mit Y N.0; 1/. Nach den Rechenregeln für Erwartungswert
X k .b a/j
k
und Varianz erhalten wir
D akj : J
j j C 1
j D0 EX D E.Y C / D EY C D ;
Wir benötigen in der Folge die i. Allg. aus den Analysis- V .X / D V .Y C / D 2 V .Y / D 2 :
Grundvorlesungen bekannte Gammafunktion. Diese ist für
Die Parameter und 2 der Normalverteilung N.; 2 / sind
Kapitel 5
jedes x > 0 durch
also Erwartungswert bzw. Varianz dieser Verteilung. J
Z1
.x/ WD t x1 et dt (5.41) In Aufgabe 4.46 haben wir gesehen, dass der Erwartungswert
einer N0 -wertigen Zufallsvariablen X in der Form
0
X
1
definiert. Die Funktion W .0; 1/ ! R besitzt folgende Ei- EX D P .X n/
genschaften: nD1
gilt dann
x
0
˙.X/ D E .X E X/.X E X/>
Abb. 5.19 Erwartungswert als Differenz zweier Flächeninhalte 20 1 3
X1 E X1
6B :: C 7
D E6
4@
B
:
C X1 E X1 Xk E Xk 7 :
A 5
nachstehende Eigenschaft ist eine Verallgemeinerung dieses Re-
sultats. Der Beweis ist eine direkte Anwendung des Satzes von Xk E Xk
Tonelli, der für alle, die bereits Kenntnisse der Maß- und Inte-
grationstheorie besitzen, als Aufgabe 5.41 formuliert ist.
Rechenregeln
Die Kovarianzmatrix eines Zufallsvektors X ist also genau dann ergeben. Gilt m D k, so ist X verteilungsgleich mit AY C ,
singulär, wenn X mit Wahrscheinlichkeit 1 in eine Hyperebene wobei AA> D ˙ und Y Nk .0; Ik /. Somit folgt BX C
H des Rk , also eine Menge der Gestalt H D fx 2 Rk j c > x D BAY C B C mit einer regulären Matrix BA, und BX C ist
g mit c ¤ 0 und 2 R fällt. Diese Eigenschaft trifft etwa für (k-dimensional) normalverteilt. Im Fall m < k ergänzen wir die
einen Zufallsvektor mit einer Multinomialverteilung zu (Aufga- Matrix B durch Hinzufügen von k m Zeilen zu einer regulären
be 5.7). Matrix C . Dann ist nach dem Gezeigten C X normalverteilt, und
nach den Ausführungen in der großen Beispiel-Box in Abschn.
Das folgende Resultat zeigt, dass die Parameter und ˙ der
5.6 hat dann auch BX als gemeinsame Verteilung von Kompo-
nichtausgearteten k-dimensionalen Normalverteilung Nk .; ˙/
nenten von C X eine (m-dimensionale) Normalverteilung. Eine
den Erwartungswertvektor bzw. die Kovarianzmatrix dieser Ver-
Addition von ändert daran nichts.
teilung darstellen. Aus diesem Grunde sagt man auch, ein
Zufallsvektor X habe eine nichtausgeartete k-dimensionale Nor-
malverteilung mit Erwartungswert(vektor) und Kovarianzma-
trix ˙. Das p-Quantil teilt die Gesamtfläche unter
einer Dichte im Verhältnis p zu 1 p auf
Erwartungswert und Kovarianzmatrix von Nk .; ˙ / Wir wenden uns nun Quantilen als weiteren wichtigen Kenn-
größen von Verteilungen zu.
Für einen Zufallsvektor X Nk .; ˙/ gilt
Kapitel 5
Nk .; ˙/, und ist ˙ eine Diagonalmatrix, so sind X1 ; : : : ; Xk
stochastisch unabhängig. Für die k-dimensionale Normalvertei- Selbstfrage 9
lung gilt zudem noch folgendes wichtiges Reproduktionsgesetz: Bei welcher der Richtungen „)“ und „(“ geht die rechtssei-
tige Stetigkeit von F ein?
BX C Nm .B C ; B˙B > /: für das p-Quantil zu F . Abb. 5.20 veranschaulicht diese Be-
griffsbildung.
In dem in Abb. 5.20 für p D p3 skizzierten „Normalfall“, dass
Beweis Es ist nur zu zeigen, dass BX C normalverteilt ist, F an der Stelle Qp eine positive Ableitung hat, gilt
da sich die Parameter aus den Rechenregeln
P .X Qp / D F .Qp / D p;
E.BX C / D BE.X/ C ; ˙.BX C / D B ˙.X/ B >
P .X Qp / D 1 F .Qp / D 1 p:
152 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Selbstfrage 10
x Welchen Quartilsabstand besitzt die Normalverteilung
Qp1 Qp2 Qp3
N.; 2 /?
Abb. 5.20 Zur Definition des p-Quantils
EX a D E.X a/ D E.a X / D a EX β
P .X a/ D P .X a 0/ D P .a X 0/ D P .X a/
D 1 P .X a/;
x
α X
also b). Behauptung c) folgt unmittelbar aus b).
Abb. 5.23 Erzeugungsweise der Cauchy-Verteilung
Ein prominentes Beispiel einer symmetrischen Verteilung,
die keinen Erwartungswert besitzt, ist die Cauchy-Verteilung
C.˛; ˇ/. Sie entsteht aus der bereits bekannten Cauchy- rein zufällig Partikel in Richtung der x-Achse aus. Dabei sei der
Verteilung C.0; 1/ durch die Lokations-Skalen-Transformation von der Geraden y D ˇ gegen den Uhrzeigersinn aus gemes-
sene Winkel , unter dem das Teilchen die Quelle verlässt, auf
X0 C.0; 1/ H) ˇX0 C ˛ C.˛; ˇ/: dem Intervall .0; / gleichverteilt. Der zufällige Ankunftspunkt
X des Teilchens auf der x-Achse besitzt dann die Verteilung
C.˛; ˇ/ (Aufgabe 5.27).
Definition der Cauchy-Verteilung
Die Zufallsvariable X hat eine Cauchy-Verteilung mit Satz über die Quantiltransformation
Parametern ˛ und ˇ (˛ 2 R; ˇ > 0), kurz: X C.˛; ˇ/,
falls X die Dichte Es seien F W R ! Œ0; 1 eine Verteilungsfunktion und U
eine Zufallsvariable mit U U.0; 1/. Dann besitzt die
ˇ Zufallsvariable
f .x/ D ; x 2 R;
.ˇ 2 C .x ˛/2 /
X WD F 1 .U /
besitzt.
(sog. Quantiltransformation) die Verteilungsfunktion F .
Kapitel 5
(Aufgabe 5.28). einfache Möglichkeit, aus einer auf .0; 1/ gleichverteilten Pseu-
dozufallszahl eine Pseudozufallszahl zu der Verteilungsfunktion
Eine physikalische Erzeugungsweise der Verteilung C.˛; ˇ/ F zu erzeugen. Dieser Sachverhalt trifft zwar nicht für die Nor-
zeigt Abb. 5.23. Eine im Punkt .˛; ˇ/ angebrachte Quelle sendet malverteilung, wohl aber etwa für die Cauchy-Verteilung zu.
Wohingegen die Quantiltransformation U 7! X WD F 1 .U / In diesem Abschnitt lernen wir weitere grundlegende stetige
aus einer Zufallsvariablen U U.0; 1/ eine Zufallsvariable X Verteilungen und deren Eigenschaften sowie Erzeugungsweisen
mit der Verteilungsfunktion F erzeugt, geht bei der nachste- und Querverbindungen zwischen ihnen kennen. Wir beginnen
hend erklärten Wahrscheinlichkeitsintegral-Transformation eine mit der Exponentialverteilung.
Zufallsvariable mit einer stetigen Verteilungsfunktion in eine
Zufallsvariable mit der Gleichverteilung U.0; 1/ über.
Definition der Exponentialverteilung
Video 5.2 Quantil- und Wahrscheinlichkeitsintegral-Transfor-
Die Zufallsvariable X hat eine Exponentialverteilung
mation
mit Parameter > 0, kurz: X Exp./, falls X die
Dichte
f .x/ D ex ; x 0;
Wahrscheinlichkeitsintegral-Transformation
Offenbar wird durch diese Festsetzung in der Tat eine Wahr-
Es sei X eine Zufallsvariable mit stetiger Verteilungs-
R 1definiert, denn f ist bis auf die Stelle 0
scheinlichkeitsdichte
funktion F . Dann besitzt die durch die sog. Wahrschein- stetig, und es gilt 1 f .x/ dx D 1. Der Graph von f ist in
lichkeitsintegral-Transformation X 7! F .X / erklärte Abb. 5.24 dargestellt.
Zufallsvariable
Die Verteilungsfunktion der Verteilung Exp./ ist durch
U WD F .X / D F ı X (
1 exp.x/; falls x 0;
F .x/ D (5.48)
die Gleichverteilung U.0; 1/. 0 sonst;
Beweis Es sei p mit 0 < p < 1 beliebig. Wegen der Äquiva- Aus der Verteilungsfunktion ergibt sich unmittelbar, dass der
lenz (5.44) und der Stetigkeit von F gilt Parameter die Rolle eines Skalenparameters spielt. Genauer
gilt
P .U < p/ D P .F .X / < p/ D P .X < F 1 .p// 1
X Exp.1/ H) X Exp./I (5.49)
D P .X F 1 .p// D F .F 1 .p// D p:
Hiermit ergibt sich jede Exponentialverteilung lässt sich also aus der Exponenti-
alverteilung Exp.1/ durch eine Multiplikation erzeugen. Die
1 1
P .U p/ D lim P U < p C D lim p C D p;
n!1 n n!1 n
f (x)
was zu zeigen war. λ
Selbstfrage 12
Kapitel 5
Warum ist die Stetigkeit von F für obigen Sachverhalt auch not-
wendig?
5.4 Wichtige stetige Verteilungen Abb. 5.24 Dichte der Exponentialverteilung Exp./
F (x)
Wir haben bereits mit der Gleichverteilung U.a; b/, der Nor-
malverteilung N.; 2 / und der Cauchy-Verteilung C.˛; ˇ/
1
drei wichtige Verteilungen kennengelernt. Diese Verteilungen
sind jeweils Mitglieder von Lokations-Skalen-Familien, die
durch die Gleichverteilung U.0; 1/, die Standardnormalvertei-
lung N.0; 1/ und die Cauchy-Verteilung C.0; 1/ erzeugt werden,
denn es gelten
X U.0; 1/ H) a C .b a/X U.a; b/, x
X N.0; 1/ H) C X N.; 2 /,
X C.0; 1/ H) ˛ C ˇX C.˛; ˇ/. Abb. 5.25 Verteilungsfunktion der Exponentialverteilung Exp./
5.4 Wichtige stetige Verteilungen 155
1
U U.0; 1/ H) log.1 U / Exp./:
Aus der Dichte erhält man Erwartungswert und Varianz der Ex-
x
ponentialverteilung mithilfe direkter Integration zu
Kapitel 5
schwedischen Ingenieur und Mathematiker Ernst Hjalmar Wa- Gammafunktion ausdrücken (Aufgabe 5.30):
loddi Weibull (1887–1979) benannten Weibull-Verteilungen. Sie
finden u. a. bei der Modellierung von Niederschlagsmengen,
Windgeschwindigkeiten und zufälligen Lebensdauern in der Satz Es sei X Wei.; ˛/. Dann gilt
Qualitätssicherung Verwendung.
1 C ˛k
EX D k
; k 2 N:
k=˛
Definition der Weibull-Verteilung
Insbesondere folgt
Eine positive Zufallsvariable X hat eine Weibull-
Verteilung mit Parametern ˛ > 0 und > 0, falls X
1 1
die Dichte EX D 1C ;
1=˛ ˛
!
f .x/ D ˛ x ˛1 exp .x ˛ / ; x > 0; (5.51) 1 2 1 2
V .X / D 1C 1C : J
2=˛ ˛ ˛
und f .x/ D 0 sonst, besitzt, und wir schreiben hierfür
kurz X Wei.˛; /. Abschließend erinnern wir daran, dass uns die Weibull-
Verteilung Wei.2; 1=2/ in Aufgabe 2.36 als Grenzverteilung der
156 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Zeit bis zur ersten Kollision in einem Fächer-Modell mit n Fä- Wie bei der Normalverteilung gibt es auch bei der Gammaver-
chern begegnet ist. Bezeichnet Xn die Anzahl der rein zufällig teilung .˛; / zumindest für allgemeines ˛ keinen geschlosse-
und unabhängig voneinander platzierten Teilchen, bis zum ers- nen Ausdruck für die Verteilungsfunktion und die Quantile. Für
ten Mal ein Teilchen in ein bereits besetztes Fach gelangt, so die Momente gilt das folgende Resultat:
gilt
Satz Die Zufallsvariable X besitze die Gammaverteilung
Xn 1
lim P p t D 1 exp t 2 ; t > 0: .˛; /. Dann gilt
n!1 n 2
.k C ˛/
Die rechte Seite ist die Verteilungsfunktion der Weibull- EX k D ; k 2 N: (5.57)
Verteilung Wei.2; 1=2/. k .˛/
1
X .˛; 1/ H) X .˛; /: (5.56)
Beweis Setzt man die durch (5.55) gegebenen Dichten fX
und fY von X bzw. Y in die Faltungsformel (5.29) ein, so folgt
Wohingegen der Parameter ˛ die Gestalt der Dichte wesentlich wegen fX .s/ D 0 für s 0 sowie fY .t s/ D 0 für s t
beeinflusst, bewirkt wie bei der Exponentialverteilung also
nur eine Skalenänderung. Abb. 5.27 zeigt Dichten der Gamma- Zt
verteilung für D 1 und verschiedene Werte von ˛. fX CY .t / D fX .s/ fY .t s/ ds
Kapitel 5
f (x)
Zt
˛ ˇ t
• α = 1/2 D e s ˛1 .t s/ˇ1 ds:
.˛/ .ˇ/
•α=1 0
˛Cˇ
Abb. 5.27 Dichten der Gammaverteilung mit D 1 für verschiedene g.t / D t ˛Cˇ1 exp.t /; t > 0;
Werte von ˛ .˛ C ˇ/
5.4 Wichtige stetige Verteilungen 157
R1
besitzt, liefert die Normierungsbedingung 1 D g.t /dt D Kommentar Nach obigem Resultat ist die Chi-Quadrat-
R1 0
Verteilung mit k Freiheitsgraden nichts anderes als die Gamma-
0 fX CY .t /dt die Beziehung
verteilung .˛; / mit ˛ D k=2 und D 1=2. Konsequenter-
Z1 weise folgt aus dem Additionsgesetz für die Gammaverteilung
.˛/ .ˇ/
u˛1 .1 u/ˇ1 du D ; (5.58) das
.˛ C ˇ/
0
Kommentar Das in (5.58) stehende Integral Sind X und Y unabhängige Zufallsvariablen mit den Chi-
Quadrat-Verteilungen X 2k und Y 2` , so folgt X C
Z1 Y 2kC` .
B.˛; ˇ/ WD u˛1 .1 u/ˇ1 du (5.59)
0
heißt (als Funktion von ˛ > 0 und ˇ > 0 betrachtet) Eulersche Dieses Resultat ergibt sich auch sofort aufgrund der Erzeu-
Betafunktion. Gleichung (5.58) zeigt, dass diese nach Leon- gungsweise der Chi-Quadrat-Verteilung. J
hard Euler (1707–1783) benannte Funktion über die Beziehung
Als weitere Verteilung stellen wir die Lognormalverteilung vor.
.˛/ .ˇ/ Sie dient u. a. zur Modellierung von Aktienkursen im sog.
B.˛; ˇ/ D ; ˛; ˇ > 0: (5.60)
.˛ C ˇ/ Black-Scholes-Modell der Finanzmathematik.
mit der in (5.41) definierten Gammafunktion zusammenhängt.
J
Definition der Lognormalverteilung
Die nachfolgende Chi-Quadrat-Verteilung ist insbesondere in
Die positive Zufallsvariable X besitzt eine Lognormal-
der Statistik wichtig. Sie lässt sich wie folgt direkt aus der Nor-
verteilung mit Parametern und 2 ( 2 R; > 0),
malverteilung ableiten.
kurz: X LN.; 2 /, falls gilt:
Kapitel 5
anz von X angeben, ohne die genaue Gestalt der Verteilung F .x/ WD P .X x/ D P .log X log x/
wie Verteilungsfunktion und Dichte zu kennen. Wegen EY12 D
log x
V .Y1 / D 1 und D˚
V .Y12 / D EY14 .EY12 /2 D 3 1 D 2
die Verteilungsfunktion von X , und offenbar ist F .x/ D 0 für
folgt wegen der Additivität von Erwartungswert- und Varianz- x 0. Hiermit erhält man durch Differenziation (Kettenregel!)
bildung EX D k und V .X / D 2k. das folgende Resultat:
Mithilfe der Faltungsformel (Aufgabe 5.31) erhält man durch
Induktion über k das folgende Resultat:
Satz (über die Dichte der Lognormalverteilung) Eine
Zufallsvariable X mit der Lognormalverteilung LN.; 2 / be-
Satz (über die Dichte der k2 -Verteilung) Eine Zufalls-
sitzt die Dichte
variable X mit der 2k -Verteilung besitzt die Dichte
1 1 .log x /2
f .x/ D
k x
x 2 1 e 2 ; x > 0; f .x/ D p exp ; x > 0;
2k=2 .k=2/ x 2 2 2
P .N t D k/ D P .XkC1 > t x/ fk .x/ dx nach außen und geeignete Substitutionen berechnen, wobei
sich die rechte Seite von (5.62) ergibt.
0
Zt Nt
n
D e.t x/ x k1 ex dx
.k 1/Š 8 •
0 •
7
.t /k 6 •
D et : •
kŠ 5
4 •
Die Zufallsvariable N t besitzt also die Poisson-Verteilung 3 •
Po.t /. 2 •
1 •
Die Familie .N t / t 0 N0 -wertiger Zufallsvariablen heißt
Poisson-Prozess mit Intensität . Sie besitzt folgende cha- 0 S1 S2 S3 S4 S5 S6 S7 S8 t
rakteristische Eigenschaften (die üblicherweise zur Definiti-
on eines Poisson-Prozesses dienen): Realisierung eines Poisson-Prozesses
5.5 Charakteristische Funktionen (Fourier-Transformation) 159
f (x)
Die behandelten stetigen Verteilungen sind tabellarisch in der
Kapitel 5
Übersicht dargestellt.
Ist .˝; A; P / ein im Folgenden fest gewählter Wahrscheinlich- Besitzt X eine Dichte f , so berechnet sich 'X gemäß
keitsraum, und sind U , V reelle Zufallsvariablen auf ˝, so ist
Z WD U C iV eine C-wertige Zufallsvariable auf ˝. Hierbei ist Z1
C mit der -Algebra B.C/ WD ffu C iv j .u; v/ 2 Bg W B 2 B2 g 'X .t / D eitx f .x/ dx
versehen. Das Symbol i bezeichne die imaginäre Einheit in C; 1
es gilt also i2 D 1. Ist Z D U C iV eine komplexwer- Z1 Z1
tige Zufallsvariable mit Realteil U D Re Z und Imaginärteil D cos.tx/f .x/ dx C i sin.tx/f .x/ dx:
V D Im Z, so definieren wir
1 1
1
Selbstfrage 17 Im
0.5 Re
Elementare Eigenschaften von 'X
Für die charakteristische Funktion 'X einer Zufallsvaria-
blen X gelten:
a) 'X .0/ D 1, j'X .t /j 1, t 2 R,
b) 'X ist gleichmäßig stetig,
c) 'X .t / D 'X .t /, t 2 R,
d) 'aX Cb .t / D eit b 'X .at /, a; b; t 2 R.
Abb. 5.29 Charakteristische Funktionen der Poisson-Verteilungen
Po./ mit D 1 (blau), D 5 (rot) und D 10 (grün)
Beweis a) folgt unmittelbar aus der Definition von 'X und
(5.63). Zum Nachweis von b) schreiben wir im Folgenden ab-
kürzend ' D 'X . Mit (5.63) ergibt sich mit P .X 2 fa C hm j m 2 Zg D 1/ (Aufgabe 5.53). Für die
Poisson-Verteilung ist diese Eigenschaft mit a D 0 und h D 1
ˇ ˇ erfüllt.
j'.t C h/ '.t /j D ˇE ei.t Ch/X eitX ˇ
Die folgenden Ergebnisse zeigen, dass die Existenz von Mo-
D jE.eitX .eihX 1//j
menten von X mit Glattheitseigenschaften von 'X verknüpft ist.
EjeihX 1j:
Nach dem Satz über die Stetigkeit eines Parameterintegrals am Charakteristische Funktionen und Momente
Ende von Abschn. 8.6 gilt limh!0 EjeihX 1j D 0. Zusammen Gilt EjX jk < 1 für ein k 1, so ist 'X k mal stetig
mit der obigen Ungleichungskette folgt die gleichmäßige Ste- differenzierbar, und es gilt für r D 1; : : : ; k
tigkeit von '. Der Nachweis von c) und d) ist Gegenstand von
Aufgabe 5.50. Z1
.r/ dr 'X
'X .t / D .t / D .ix/r eitx P X .dx/; t 2 R;
dt r
Beispiel (Normalverteilung N.; 2 /) Wegen X0 1
N.0; 1/ H) X WD X0 C N.; 2 / ist die charakteristi-
insbesondere also
sche Funktion der Normalverteilung N.; 2 / nach Eigenschaft
d) mit a D und b D und 'X0 .t / D exp.t 2 =2/ durch .r/
'X .0/ D ir EX r ; r D 1; : : : ; k: (5.66)
Kapitel 5
2t 2 Mit der Abkürzung x ^ y WD min.x; y/ gilt weiter für
'X .t / D exp it ; t 2 R; (5.65)
2 jedes t 2 R
ˇ ˇ
gegeben. J ˇ Xk
.it /r ˇ 2jtX jk jtX jkC1
ˇ rˇ
ˇ X
' .t / EX ˇ E ^
ˇ rŠ ˇ kŠ .k C 1/Š
rD0
Nach Eigenschaft a) liegen die Werte der charakteristischen
(5.67)
Funktion im abgeschlossenen Einheitskreis der komplexen Zah-
lenebene. Dass im Fall einer standardnormalverteilten Zufalls-
variablen X nur reelle Werte auftreten, liegt daran, dass die
Verteilung von X symmetrisch zu null ist (siehe Aufgabe 5.8). Beweis Mit ' WD 'X gilt für h 2 R mit h ¤ 0
Allgemein ist das Bild f'X .t / j t 2 Rg eine Kurve im Einheits- Z ihx
'.t C h/ '.t / e 1
kreis. Da die Funktion t 7! eit 2-periodisch ist, besitzen auch D eitx P X .dx/:
die charakteristischen Funktionen der Binomialverteilung und h h
der Poisson-Verteilung diese Periode. Abb. 5.29 zeigt die Kur- Wegen
ven t 7! 'X .t /, 0 t 2 für die Poisson-Verteilungen Po./ ˇ ihx ˇ
ˇe 1ˇ eihx 1
mit D 1 (blau), D 5 (rot) und D 10 (grün). Gilt allge- ˇ ˇ
ˇ h ˇ jxj und lim
h
D ix
mein j'X .2=h/j D 1 für ein h > 0, so existiert ein a 2 R h!0
162 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
liefert der Satz von der Ableitung eines Parameterintegrals am Beweis Es sei o.B.d.A. n D 2 und abkürzend X D X1 , Y D
Ende von Abschn. 8.6 die Existenz der Ableitung ' 0 von ' und X2 gesetzt. Da sich die Multiplikationsformel für Erwartungs-
die Identität werte unabhängiger reeller Zufallsvariablen durch Zerlegung in
Z Real- und Imaginärteil unmittelbar auf C-wertige Zufallsvaria-
' 0 .t / D ix eitx P X .dx/; t 2 R: blen überträgt und mit X und Y auch eitX und eit Y unabhängig
sind, folgt
Die Darstellung für ' .r/ .t / ergibt sich jetzt durch Induktion über
r, 1 r k. Zum Nachweis der Abschätzung (5.67) verwen- 'X CY .t / D E eit .X CY /
den wir, dass für den Restterm
D E eitX eit Y
Xk
.ix/r D E eitX E eit Y
Rk .x/ WD eix ; x 2 R; k 2 N0 ;
rD0
rŠ D 'X .t / 'Y .t /:
gesetzt. Wegen Z1
1
ˇ ˇ jf .x/ f .y/j jeitx eity j j'.t /j dt ;
ˇ it a ˇ ˇ Zb ˇ 2
ˇe e it b ˇ ˇ ˇ
ˇ ˇ D ˇ eit d ˇ b a 1
ˇ ˇ ˇ ˇ
it ˇ ˇ
a sodass der Satz von der dominierten Konvergenz die Stetigkeit
liefert der Satz von Fubini von f liefert. Für a; b 2 R mit a < b gilt mit dem Satz von
2 3 Fubini
Z1 ZT it .xa/ it .xb/
4 1 e e
I .T / D dt 5 P X .dx/: Zb Zb Z1
2 it 1
1 T f .x/ dx D eitx '.t / dt dx
2
a a 1
Setzen wir
Z1 Zb
ZT 1
sin x D '.t / eitx dx dt
S.T / WD dx; T 0; 2
x 1 a
0
ZT
so folgt wegen 1 eit a eit b
D lim '.t / dt ;
T !1 2 it
ZT T
sin t #
dt D sgn.#/S.T j#j/; T 0; # 2 R;
t sodass die Reellwertigkeit von f aus Teil a) folgt. Des Weiteren
0
ergibt sich die Stetigkeit von f sowie P X D f 1 .
und Symmetrieüberlegungen
Z1 ZT Der Grenzwert in Teil a) des Satzes über Umkehrformeln ist
1 sin.t .x a// sin.t .x b// gleich der Differenz F .b/ F .a/, wenn a und b Stetigkeits-
I .T / D dt P X .dx/
t stellen von F sind. Da F durch die Werte F .a/ in allen
1 0
Stetigkeitsstellen eindeutig bestimmt ist, folgt aus der Gleich-
Z1 heit zweier charakteristischer Funktionen, dass die zugehörigen
D g.x; T / P X .dx/; Verteilungen identisch sind. In diesem Sinn charakterisiert 'X
1 die Verteilung von X . Wir halten dieses Ergebnis wie folgt fest:
wobei
sgn.x a/S.T jx aj/ sgn.x b/ S.T jx bj/
g.x; T / WD : Eindeutigkeitssatz für charakteristische Funktionen
Kapitel 5
Die Funktion g.x; T / ist beschränkt, und nach (8.76) gilt Sind X und Y Zufallsvariablen, so gilt:
8
ˆ P X D P Y () 'X .t / D 'Y .t /; t 2 R:
<0; falls x < a oder x > b;
a;b .x/ WD lim g.x; T / D 1=2; falls x D a oder x D b;
T !1 :̂1; falls a < x < b:
Der Zusammenhang zwischen der Existenz von Momenten von
Der Satz von der dominierten Konvergenz ergibt jetzt X und Differenzierbarkeitseigenschaften von 'X zeigt, dass das
Z1 Verhalten einer Verteilung „in den Flanken“ mit „Glattheitsei-
lim I .T / D a;b .x/ P
X
.dx/ genschaften“ der charakteristischen Funktion verknüpft ist. Wie
T !1 die gerade bewiesene Umkehrformel b) zeigt, hängt andererseits
1
das Verhalten der charakteristischen Funktion für jt j ! 1 mit
1 X 1
D P .fag/ C P X ..a; b// C P X .fbg/; „Glattheitseigenschaften“ der Verteilungsfunktion zusammen.
2 2 Diesbzgl. soll noch eine später benötigte Ungleichung bewiesen
was zu zeigen war. werden.
164 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Auch für Zufallsvektoren lassen sich charakteristische Funk- Um die nichttriviale Richtung „(“ zu zeigen, beachte man
tionen definieren. Aus einem Eindeutigkeitssatz ergibt sich die Gültigkeit der Gleichungskette
der Satz von Radon-Herglotz-Cramér-Wold, wonach eine >
multivariate Verteilung durch die Verteilungen aller eindi- 'X .a/ D E eia X
mensionalen Projektionen festgelegt ist. Dieser Sachverhalt
bildet u. a. den Ausgangspunkt der Computertomographie. D 'a> X .1/ D 'a> Y .1/
>
Für einen k-dimensionalen Zufallsvektor X D .X1 ; : : : ; Xk /> D E eia Y D 'Y .a/; a 2 Rk :
heißt die durch
Nach dem Eindeutigkeitssatz (5.71) folgt X Y.
'X .t / WD E exp.it > X/
Mithilfe dieses Satzes kann man die multivariate Normalver-
definierte Abbildung 'X W Rk ! C die charakteristische teilung auf anderem Weg und allgemeiner einführen: Fasst
Funktion von X. man eine Zufallsvariable, die einen Wert mit Wahrscheinlich-
keit 1 annimmt, also die Varianz 0 besitzt, als (ausgeartete)
Wie im Fall k D 1 gelten auch hier Normalverteilung auf, so definiert man:
'X .0/ D 1; j'X .t /j 1,
'X ist gleichmäßig stetig,
'X .t / D 'X .t /, Definition der allgemeinen k-dimensionalen Nor-
malverteilung
und direkt aus der Definition folgt das Verhalten
Der Zufallsvektor X D .X1 ; : : : ; Xk /> besitzt eine k-
>
'AXCb .t / D eit b 'X A> t dimensionale Normalverteilung, falls gilt:
Eindeutigkeitssatzes für Maße erfüllt, gilt auch für k- die Verteilung von X durch WD EX und ˙ WD
dimensionale Zufallsvektoren X und Y der Eindeutigkeits- ˙.X/ eindeutig festgelegt ist. Man sagt, X besitze eine k-
satz dimensionale Normalverteilung mit Erwartungswert und
Kovarianzmatrix ˙ und schreibt hierfür X Nk .; ˙/.
X Y () 'X .t / D 'Y .t /; t 2 Rk : (5.71)
Die charakteristische Funktion 'X von X ist durch
Daran knüpft nahtlos ein bedeutendes Resultat der Mathema-
tiker Johann Karl August Radon (1887–1956), Gustav Her- t > ˙t
>
'X .t / D exp i t ; t 2 Rk ;
glotz (1881–1953), Harald Cramér (1893–1985) und Herman 2
Ole Andreas Wold (1908–1992) an.
gegeben. Diese Darstellung folgt aus der Verteilungsgleich-
heit t > X N.t > ; t > ˙t/ sowie (5.65). Die Existenz
Satz von Radon-Herglotz-Cramér-Wold
der Verteilung Nk .; ˙/ erhält man jetzt auch für nicht
unbedingt invertierbares ˙ aus der Cholesky-Zerlegung
Sind X und Y k-dimensionale Zufallsvektoren, so gilt ˙ D A A> und dem Ansatz X WD AY C und Y D
X Y () a> X a> Y 8a 2 Rk : .Y1 ; : : : ; Yk /> mit unabhängigen, je N.0; 1/-verteilten Zu-
fallsvariablen Y1 ; : : : ; Yk .
5.6 Bedingte Verteilungen 165
Kapitel 5
die Realisierung z einer Zufallsvariablen Z mit der Gleich-
verteilung U.0; 1/ beobachtet. Danach führt man als zweites
Teilexperiment n-mal in unabhängiger Folge ein Bernoulli- Definition einer Übergangswahrscheinlichkeit
Experiment mit Trefferwahrscheinlichkeit z durch. Die Zufalls-
variable X beschreibe die Anzahl der dabei erzielten Treffer. In obiger Situation heißt eine Abbildung
Welche Verteilung besitzt X ?
P1;2 W ˝1 A2 ! R
Aufgrund der Rahmenbedingungen dieses zweistufigen stochas-
tischen Vorgangs hat X unter der Bedingung Z D z die
Binomialverteilung Bin.n; z/. Man beachte jedoch, dass wegen Übergangswahrscheinlichkeit von .˝1 ; A1 / nach
P .Z D z/ D 0 für jedes z die bedingte Wahrscheinlichkeit .˝2 ; A2 /, falls gilt:
P .X D kjZ D z/ nicht definiert ist. Trotzdem sollte die Fest- Für jedes !1 2 ˝1 ist P1;2 .!1 ; / W A2 ! R ein Wahr-
legung scheinlichkeitsmaß auf A2 ,
! Für jedes A2 2 A2 ist P1;2 .; A2 / W ˝1 ! R eine
n k
P .X D kjZ D z/ WD z .1 z/nk ; k D 0; 1; : : : ; n; .A1 ; B1 /-messbare Abbildung.
k
166 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Kommentar Diese Definition ist offenbar eine direkte Ver- zweimaliger Anwendung des Satzes von der monotonen Kon-
allgemeinerung von (3.2). Die Forderung nach der Messbarkeit vergenz
der Abbildung P1;2 .; A2 / W ˝1 ! R für festes A2 2 A2 ist
! Z 2Z 3
im diskreten Fall entbehrlich, da dann als -Algebra A1 die X
1
Potenzmenge P .˝1 / zugrunde liegt. Wie wir gleich sehen wer- P An D 4 1P An .!1 ; !2 / P1;2 .!1 ; d!2 /5 P1 .d!1 /
den, wird die Messbarkeit jedoch jetzt benötigt, wenn man die nD1 ˝1 ˝2
Startverteilung P1 und die Übergangswahrscheinlichkeit P1;2 zu 2 3
Z 1 Z
X
einem Wahrscheinlichkeitsmaß P auf der Produkt--Algebra 4
D 1An .!1 ; !2 /P1;2.!1 ; d!2 /5 P1 .d!1 /
A1 ˝ A2 über ˝1 ˝2 koppelt. J
˝1 nD1 ˝
2
2 3
1 Z
X Z
Existenz und Eindeutigkeit der Kopplung D 4 1An .!1 ; !2 / P1;2 .!1 ; d!2 /5 P1 .d!1 /
nD1 ˝
Es seien .˝1 ; A1 ; P1 / ein Wahrscheinlichkeitsraum, 1 ˝2
.˝2 ; A2 / ein Messraum und P1;2 eine Übergangswahr- X
1
ein Wahrscheinlichkeitsmaß P auf A WD A1 ˝ A2 defi- Die Verteilung eines Zufallsvektors .Z; X/ ist
niert. Es heißt Kopplung von P1 und P1;2 und wird mit durch P Z und die bedingte Verteilung PZX von X
P1 ˝ P1;2 bezeichnet. P ist das einzige Wahrscheinlich- bei gegebenem Z festgelegt
keitsmaß auf A mit der Eigenschaft
Z Kommentar Die obige Vorgehensweise bedeutet für den
P .A1 A2 / D P1;2.!1 ; A2 / P1 .d!1 / (5.74) Spezialfall .˝1 ; A1 / D .Rk ; Bk /, .˝2 ; A2 / D .Rn ; Bn /, dass
A1 wir ein Wahrscheinlichkeitsmaß auf der -Algebra BkCn kon-
struieren können, indem wir ein Wahrscheinlichkeitsmaß P1 auf
für jede Wahl von A1 2 A1 und A2 2 A2 . Bk angeben und dann für jedes z 2 Rk ein Wahrscheinlich-
keitsmaß P1;2 .z; / auf Bn spezifizieren. Dabei muss nur die
Abbildung Rk 3 z 7! P1;2 .z; C / für jedes C 2 Bn messbar
sein.
Beweis Ist allgemein f W ˝1 ˝2 ! R eine nichtnega-
tive A-messbare Funktion, so ist (vgl. die Ausführungen vor Man beachte, dass wir mit der kanonischen Konstruktion Z WD
dem Satz von Tonelli in Abschn. 8.9) die Abbildung !2 7! idRk und X WD idRn die Kopplung P als gemeinsame Verteilung
f .!1 ; !2 / für jedes feste !1 2 ˝1 A2 -messbar und somit das zweier Zufallsvektoren Z und X ansehen können; es gilt also
innere Integral in (5.73) wohldefiniert. Zum Nachweis der Aus- P D P .Z;X/. Weiter ist P1 D P Z die (marginale) Verteilung von
sage Z, denn nach (5.74) gilt wegen P1;2.z; Rn / D 1 für jede Menge
B 2 Bk
Z
Kapitel 5
PZDz
X
WD P1;2.z; /:
P .Z;X/.B C / D P .Z 2 B; X 2 C /
Z x
−4 −3 −2 −1 0 1 2 3 4
D PZDzX
.C / P Z .dz/; (5.77)
B
Abb. 5.30 Dichten f1 (blau) und f2 (rot) der Normalverteilungen
N.2; 1/ bzw. N.2; 1=2/ und Mischungsdichte 0:7f1 C 0:3f2 (orange)
B 2 B ; C 2 B , an. Setzt man speziell B D R , so ergibt sich
k n k
zu schreiben, obwohl im Fall P .Z D z/ D 0 keine elementare Nimmt Z (ausschließlich) die Werte z1 ; : : : ; zs mit positiven
bedingte Wahrscheinlichkeit im Sinne von P .AjB/ D P .A \ Wahrscheinlichkeiten an, und besitzt der Zufallsvektor X unter
B/=P .B/ für P .B/ > 0 vorliegt. Gleichung (5.78) geht dann in der Bedingung Z D zj die Lebesgue-Dichte fj , j 2 f1; : : : ; sg,
so gilt
Z
Z
P .X 2 C / D P .X 2 C jZ D z/ P Z .dz/ (5.79)
P .X 2 C jZ D zj / D fj .x/ dx:
Rn
C
über. Da bzgl. der Verteilung von Z integriert wird, kann
der Integrand P .X 2 C jZ D z/ als Funktion von z nach Mit der Abkürzung pj WD P .Z D zj / erhalten wir dann
den in Abschn. 8.6 angestellten Überlegungen auf einer P Z - Z
Nullmenge modifiziert werden, ohne den Wert (D P .X 2 C /) P .X 2 C / D f .x/ dx;
des Integrals zu ändern.
C
Man beachte, dass wir im einführenden Beispiel zu diesem Ab-
schnitt die Verteilung von X nach Gleichung (5.79) hergeleitet wobei
haben. In der Situation des Beispiels ist C D fkg, und die Inte-
gration P Z .dz/ bedeutet dz. J f .x/ WD p1 f1 .x/ C : : : C ps fs .x/; x 2 Rn ;
Kapitel 5
Beispiel (Spezialfall: Z ist diskret verteilt) Ist in der obi- tion der Dichten f1 ; : : : ; fs . Man spricht in diesem Fall auch
gen Situation Z ein diskreter Zufallsvektor, so kann man für von einer diskreten Mischung endlich vieler stetiger Verteilun-
jedes z 2 M WD fz 2 Rn j P .Z D z/ > 0g und jedes C 2 Bk gen und nennt f eine Mischungsdichte. Es kommt für diese
die elementare bedingte Wahrscheinlichkeit Bildung offenbar nicht auf die Werte z1 ; : : : ; zs an, sondern
nur auf die Wahrscheinlichkeiten p1 ; : : : ; ps . Mischungsvertei-
P .X 2 C ; Z D z/
PZDz
X
.C / WD P .X 2 C jZ D z/ D lungen treten etwa dann auf, wenn sich eine Population aus
P .Z D z/ Teilpopulationen zusammensetzt und ein Merkmal, das durch
eine Zufallsvariable X modelliert wird, in der j -ten Teilpo-
bilden. Nach der Formel von der totalen Wahrscheinlichkeit gilt
pulation eine Dichte fj besitzt, j D 1; : : : ; s. Tritt bei rein
dann
zufälliger Auswahl eines Elementes der Population mit der
X
P .X 2 C / D P .X 2 C jZ D z/ P .Z D z/; Wahrscheinlichkeit pj ein Element der j -ten Teilpopulation auf,
z2M
so hat X die Mischungsdichte p1 f1 C : : : C ps fs . Abb. 5.30
zeigt zwei Normalverteilungsdichten und eine daraus gebildete
was Gleichung (5.79) entspricht. In diesem Fall ist es irrele- Mischungsdichte. J
vant, wie wir den Integranden in (5.79) auf der Menge Rn n M
definieren. Eine Möglichkeit wäre, ein beliebiges Wahrschein- Ein Spezialfall dieses Beispiels entsteht für eine Indikatorvaria-
lichkeitsmaß Q auf Bk zu wählen und P .X 2 C jZ D z/ WD ble Z D 1A mit A 2 A und P .A/ > 0. In diesem Fall heißt das
168 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
P .Z D z; X D x/ D P .Z D z/ P .X D xjZ D z/
Als Konsequenz dieser Überlegungen bietet sich die folgen-
de Möglichkeit an, mithilfe von Pseudozufallszahlen, die im für jedes z 2 Rk mit P .Z D z/ > 0.
Intervall .0; 1/ gleichverteilt sind, Realisierungen eines Zufalls-
vektors X mit einer Gleichverteilung in einer eventuell recht Sind Z und X stetige Zufallsvektoren auf einem allgemeinen
komplizierten Borel-Menge B0 zu erhalten. GiltŚ B0 B für Wahrscheinlichkeitsraum, die die Dichten fZ bzw. fX und die
n gemeinsame Dichte fZ;X besitzen, so ist eine Bildung wie oben
einen achsenparallelen Quader der Gestalt B D j D1 Œaj ; bj ,
so erzeuge solange unabhängige und je in B gleichverteilte Zu- nicht möglich, da P .Z D z/ D 0 für jedes z 2 Rk gilt. In
fallsvektoren X1 ; X2 ; : : :, bis die Bedingung Xj 2 B0 erfüllt ist. diesem Fall erhält man wie folgt eine bedingte Verteilung von X
Im letzteren Fall liegt ein Zufallsvektor mit der Gleichvertei- unter der Bedingung Z:
lung U.B0 / vor. Eine Realisierung eines in B gleichverteilten
Zufallsvektors Y erzeugt man mithilfe von n unabhängigen und
je in .0; 1/ gleichverteilten Zufallsvariablen U1 ; : : : ; Un , indem Bedingte Dichte
man U ej WD aj C Uj .bj aj /, 1 j n, sowie X WD
Es seien Z und X k- bzw. n-dimensionale Zufallsvekto-
e1; : : : ; U
.U e n / setzt. Realisierungen der Uj gewinnt man mithilfe ren auf einem Wahrscheinlichkeitsraum .˝; A; P /. Der
J
Kapitel 5
von gleichverteilten Pseudozufallszahlen. Zufallsvektor .Z; X/ besitze die gemeinsame Dichte fZ;X .
Weiter seien fZ die marginale Dichte von Z und z 2 Rk
Selbstfrage 20 mit fZ .z/ > 0. Dann heißt die durch
Wie würden Sie die Gleichverteilung im Kreis K WD f.x; y/ 2
R2 j x 2 C y 2 1g simulieren? fZ;X .z; x/
f .xjz/ WD
fZ .z/
Wir betrachten jetzt den wichtigen Spezialfall, dass der Zufalls- definierte Funktion f .jz/ W Rn ! R die bedingte Dichte
vektor Z in (5.79) eine Lebesgue-Dichte besitzt. von X unter der Bedingung Z D z.
Beispiel (Spezialfall: Z ist stetig verteilt) Ist Z ein steti- Die Namensgebung bedingte Dichte wird dadurch gerechtfer-
ger Zufallsvektor mit Lebesgue-Dichte g, so nimmt Gleichung tigt, dass f .jz/ für festes z eine nichtnegative und nach Sätzen
(5.79) die spezielle Gestalt der Maßtheorie messbare Funktion ist, für die
Z Z
P .X 2 C / D P .X 2 C jZ D z/ g.z/ dz (5.80) f .xjz/ dx D 1
Rn Rn
5.6 Bedingte Verteilungen 169
Kapitel 5
ist der nachfolgende Satz von Fubini für Übergangswahrschein- gibt sich dann aus obigem Resultat:
lichkeiten.
Bedingter Erwartungswert
Satz von Fubini für P1 ˝ P1;2 Es seien X eine Zufallsvariable Z ein k-dimensionaler Zu-
Ist in der Situation des Satzes über die Existenz und Ein- fallsvektor. Falls EjX j < 1, so gilt
deutigkeit der Kopplung f W ˝1 ˝2 ! R eine A1 ˝ Z
A2 -messbare nichtnegative oder P1 ˝ P1;2 -integrierbare E.X / D E.X jZ D z/ P Z .dz/: (5.82)
Funktion, so gilt Rk
Z
Dabei ist
f dP1 ˝ P1;2 (5.81) Z
˝1 ˝2 E.X jZ D z/ WD x PZDz
X
.dx/ (5.83)
2 3
Z Z R
D 4 f .!1 ; !2 /P1;2.!1 ; d!2 /5 P1 .d!1 /: der bedingte Erwartungswert von X unter der Bedin-
˝1 ˝2 gung Z D z.
170 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Es seien X ein k- und Y ein `-dimensionaler Zufallsvektor. an. Somit folgt h.x; y/ D u.x; y/v.y/, wobei
Der .k C `/-dimensionale Zufallsvektor .X; Y/ besitze eine
nichtausgeartete Normalverteilung. Welche bedingte Vertei- 1 .x /> .A1 /1 .x /
lung besitzt X unter der Bedingung Y D y? u.x; y/ D exp ;
.2/k=2jA1 j1=2 2
Problemanalyse und Strategie Wir notieren X und Y als 1 .y /> S.y /
v.y/ D exp :
Spaltenvektoren und treffen die Annahme .2/`=2j˙j1=2 jAj1=2 2
! ! ! !
X ˙11 ˙12 Da u.; y/ die Dichte der Normalverteilung Nk .; A1 / dar-
NkC` ; ˙ ; wobei ˙ D :
Y ˙21 ˙22 stellt und sich die marginale
R Dichte g von Y durch Integra-
tion gemäß g.y/ D h.x; y/dx ergibt sowie v.y/ nicht von
Hierbei bezeichnen ˙11 und ˙22 die k-reihigen bzw. `- x abhängt, gilt g.y/ D v.y/, y 2 R` , d. h., v ist die margina-
reihigen Kovarianzmatrizen von X bzw. Y, ˙12 die (k le Dichte von Y.
`)-Matrix der „Kreuz-Kovarianzen“ Cov.Xi ; Yj / (1 i
k; 1 j `) und ˙21 deren Transponierte sowie Aus (5.87) und (5.86) erhält man ˙22 S D S˙22 D I` und
X1 ; : : : ; Xk bzw. Y1 ; : : : ; Y` die Komponenten von X bzw. Y. 1
somit S D ˙22 R Y N` .; ˙22 /, denn die
. Hiermit folgt
Weiter seien h die gemeinsame Dichte von X und Y sowie f Normierungsbedingung 1 D g.y/ dy liefert ohne Matri-
und g die marginalen Dichten von X bzw. Y. Wir bestimmen zenrechnung die Identität j˙j1=2 jAj1=2 D j˙22 j1=2 .
zunächst g und dann die bedingte Dichte von X unter der
Bedingung Y D y als Quotienten h.x; y/=g.y/. Man beachte, dass wir in Verallgemeinerung der Folge-
rung aus dem Additionsgesetz für die Normalverteilung in
Lösung Schreiben wir kurz Abschn. 5.2 gezeigt haben, dass auch die gemeinsame Vertei-
! lung irgendwelcher Komponenten eines multivariat normal-
x verteilten Zufallsvektors eine multivariate Normalverteilung
Q.x; y/ WD .x /> .y / >
˙ 1
y ist.
und setzen allgemein jDj WD detD für eine quadratische Die Darstellung h.x; y/ D u.x; y/g.y/ liefert auch, dass
Matrix D, so gilt nach Definition einer multivariaten Nor- u.x; y/ D h.x; y/=g.y/ die bedingte Dichte von X unter
malverteilung der Bedingung Y D y ist. Aus der Gestalt von u.x; y/ ist
klar, dass die bedingte Verteilung von X unter der Bedingung
1 Q.x; y/
h.x; y/ D exp : Y D y die Normalverteilung Nk . A1 B.y /; A1 / ist.
.2/.kC`/=2j˙j1=2 2
Um die Matrizen A1 B und A1 in Abhängigkeit von ˙ij
Partitioniert man die Inverse ˙ 1 von ˙ gemäß (i; j 2 f1; 2g) auszudrücken, verwenden wir Gleichung
!1 ! (5.86), wonach B > D ˙22 1
˙21 A gilt. Setzt man diesen
˙11 ˙12 A B >
Ausdruck für B in (5.84) ein, so ergibt sich A D .˙11
DW ;
˙21 ˙22 B> C 1
˙12 ˙22 ˙21 /1 und somit
Der bedingte Erwartungswert E.X jZ D z/ ist also nichts an- 5.7 Bedingte Erwartungen
deres als der Erwartungswert der bedingten Verteilung von X
unter der Bedingung Z D z. Besitzt X unter der Bedingung In Abschn. 4.5 hatten wir für eine auf einem diskreten Wahr-
Z D z die bedingte Dichte f .jz/, so gilt scheinlichkeitsraum definierte Zufallsvariable mit EjX j < 1
Z und ein Ereignis A mit P .A/ > 0 den bedingten Erwartungs-
E.X jZ D z/ D x f .xjz/ dx: wert
R 1 X
E.X jA/ WD X .!/ P .f!g/
P .A/ !2A\˝
Man beachte auch, dass Gleichung (5.82) eine Verallgemeine- 0
rung von (4.46) darstellt. von X unter der Bedingung A definiert. Dabei ist ˝0 eine ab-
zählbare Teilmenge der potenziell überabzählbaren Menge ˝
Beispiel (Bivariate Normalverteilung) Der Zufallsvektor mit P .˝0/ D 1.
.X ; Y / besitze die nichtausgeartete bivariate Normalverteilung Ist Z ein k-dimensionaler Zufallsvektor auf ˝, der (nur) die
! !! Werte z1 ; z2 ; : : : mit positiven Wahrscheinlichkeiten annimmt,
2 so lieferte die durch h.z/ WD E.X jZ D zj /, falls z 2
N2 ; ;
2 fz1 ; z2 ; : : :g, und h.z/ WD 0, sonst, definierte Funktion h W Rk !
R im Fall E.X 2 / < 1 die Bestapproximation von X durch
wobei D EX , D EY , 2 D V .X /, 2 D V .Y /, D Z im quadratischen Mittel, und die durch E.X jZ/ WD h ı Z
.X ; Y /. definierte Zufallsvariable wurde bedingte Erwartung von Z bei
gegebenem Z genannt, siehe Abschn. 4.5.
Es liegt somit ein Spezialfall der allgemeinen Situation der gro-
ßen Beispiel-Box über marginale und bedingte Veteilungen bei
multivariater Normalverteilung mit k D ` D 1 und
E.X jG/ ist G-messbar und liefert gleiche
2 2
˙11 D . /; ˙22 D . /; ˙12 D . / Integrale wie X über die Mengen aus G
1
vor. Wegen ˙22 D 2 ist nach (5.88) die bedingte Verteilung In diesem Abschnitt knüpfen wir an die damaligen Betrach-
von X unter der Bedingung Y D y die Normalverteilung tungen an, legen aber jetzt einen beliebigen Wahrscheinlich-
keitsraum .˝; A; P / zugrunde. Weiter seien X eine reelle
Zufallsvariable auf ˝ mit EjX j < 1 und G A eine belie-
N C .y /; 2 .1 2 / :
bige Sub--Algebra von A. Nehmen wir an, wir könnten (nur)
das Eintreten oder Nichteintreten der Ereignisse A aus G be-
Folglich gilt obachten. Gibt es unter dieser Bedingung eine Zufallsvariable,
die messbar bzgl. G ist und eine möglichst gute Approxima-
E.X jY D y/ D C .y /I tion von X darstellt? Natürlich müssen wir spezifizieren, was
unter dem Wort „Approximation“ zu verstehen ist, denn wir
der bedingte Erwartungswert ist also eine affine Funktion von haben nicht E.X 2 / < 1 vorausgesetzt, was z. B. eine Approxi-
y. mation im quadratischen Mittel ermöglichen würde. Bevor wir
diese Spezifizierung vornehmen und einen entsprechenden Satz
Nach dem Satz über das Optimierungsproblem mina;b E.Y a formulieren, sei gesagt, dass im Fall des eingangs erwähnten
bX /2 in Abschn. 4.4 (unter Vertauschung der Rollen von X und k-dimensionalen Zufallsvektors Z die Sub--Algebra G gleich
Y ) wird die mittlere quadratische Abweichung E.X a bY /2
Kapitel 5
der von Z erzeugten -Algebra .Z/ D Z 1 .Bk / ist. Wir wer-
für die Wahl den auf diesen Punkt noch später zurückkommen.
Cov.X ; Y /
bD D ;
V .Y / Satz (Kolmogorov, 1933)
a D E.X / bE.Y / D Es seien X 2 L1 .˝; A; P / und G A eine Sub--
Algebra von A. Dann existiert eine Zufallsvariable Y 2
minimal. Die sog. bedingte Erwartung L1 .˝; A; P / mit folgenden Eigenschaften:
a) Y ist G -messbar.
E.X jY / D C .Y /
b) Es gilt
Z Z
(vgl. Abschn. 5.7) liefert also eine Bestapproximation von X im
quadratischen Mittel durch eine affine Funktion von Y . Nach Y dP D X dP ; A 2 A: (5.89)
dem Satz über die bedingte Erwartung als Orthogonalprojektion A A
im nächsten Abschnitt ist diese Approximation sogar bestmög-
lich innerhalb der größeren Klasse aller messbaren Funktionen Die Zufallsvariable Y ist P -f.s. eindeutig bestimmt.
h.Y / von Y mit Eh.Y /2 < 1. J
172 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
e P -f.s.
und somit Y D Y Achtung Wir haben gesehen, dass die Zufallsvariable Y
Um die Existenz von Y zu zeigen, machen wir o.B.d.A. die An- nur P -f.s. eindeutig bestimmt ist. Insofern ist E.X jG / streng
nahme X 0. Durch genommen eine (nach obigem Satz nichtleere) Menge von
Z Zufallsvariablen, wobei je zwei Elemente dieser Menge mit
.A/ WD X dP ; A 2 G; Wahrscheinlichkeit eins übereinstimmen. So gesehen ist al-
so E.X jG / ein Element des Banach-Raumes L1 .˝; G ; P / der
A
Äquivalenzklassen P -fast sicher gleicher Zufallsvariablen, vgl.
wird ein Maß auf G definiert, das als Maß mit der Dichte den Kommentar am Ende von Abschn. 8.7. In dieser Sichtweise
X bzgl. der Restriktion PjG von P auf G absolut stetig bzgl. nennt man jedes Element der Menge E.X jG / eine Version der
PjG ist. Der Satz von Radon-Nikodým zeigt, dass eine mit bedingten Erwartung. Wir folgen aber dem allgemeinen Brauch,
Y bezeichnete Dichte bzgl. PjG besitzt. Nach Definition der jede Zufallsvariable Y mit den Eigenschaften a) und b) als be-
Radon-Nikodým-Dichte ist Y G -messbar, und es gilt dingte Erwartung von X gegeben G zu bezeichnen. Wichtig ist,
Z Z dass alle Gleichungen zwischen bedingten Erwartungen, wenn
.A/ D Y dPjG D Y dP ; A 2 G ; letztere als Zufallsvariablen angesehen werden, jeweils nur P -
fast sicher gelten. J
A A
ˇ
variablen Y bei; nicht nur aus diesem Grund werden wir spä- GD Aj ˇI J : (5.90)
ter noch einen zweiten Beweis führen. Wichtig ist zunächst, j 2I
dass Sie sich die beiden an Y gestellten Bedingungen deut-
Mit J WD fj 2 J j P .Aj / > 0g gilt dann
lich vor Augen führen. Die Forderung der G -Messbarkeit ist Z
umso schwerer zu erfüllen, je kleiner G als Sub--Algebra X 1
E.X jG / D 1fAj g X dP : (5.91)
von A ist. Im Extremfall G D f;; ˝g sind nur konstante P .Aj /
Kapitel 5
j 2J
Abbildungen G -messbar. Forderung b) der Gleichheit der In- Aj
tegrale von X und Y über jede Menge aus G reduziert sich In der Tat ist die mit Y abgekürzte rechte Seite als Abbil-
aber dann auf nur zwei Gleichungen, nämlich eine für A D ; dung auf ˝ konstant auf jeder der Mengen Aj , j 2 J , und
und eine zweite für A D ˝. Die zweite Gleichung ist nur damit G -messbar. Um Bedingung (5.89) nachzuprüfen, be-
erfüllt, wenn Y W E.X / gesetzt wird, und die erste gilt achten wir zunächst, dass für jedes i 2 J mit P .Ai / > 0 die
trivialerweise. Der andere Extremfall G D A ist ebenfalls Gleichheit Z Z
schnell abgehandelt: Hier kann man Y WD X setzen, denn X
Y dP D X dP (5.92)
ist ja dann G -messbar.
Durch die Bedingung a) der G -Messbarkeit ist die Zufallsva- Ai Ai
riable Y prinzipiell „einfacher“ als X . Die Forderung b) der besteht, denn für das Integral von Y über Ai liefert nur der
Gleichheit von Integralen präzisiert die oben noch vage ge- Summand mit j D i in (5.91) den Beitrag
haltene Formulierung, dass Y eine „Approximation von X “ Z Z Z
1
sein sollte. X dP 1 dP D X dP :
Bedingung (5.89) wird in der Folge auch oft in der Form P .Ai /
Ai Ai Ai
E.Y 1A / D E.X 1A/; A 2 G; Sollte J n J ¤ ; gelten, also ein i mit P .Ai / D 0 exis-
Da nach (5.90) jede Menge A aus G eine endliche oder ab- Gilt E.X 2 / < 1, so ist E.X jG/
zählbar unendliche Vereinigung von Mengen Ai mit (5.92)
ist, folgt (5.89). J
eine Orthogonalprojektion
X
1 auf L2 .˝; A; P /. Mit kU k2 WD hU ; U i gelten
D 1fAj g E.X jZ D zj / n o
j D1 kX E.X jG /k2 D inf kX W k2 j W 2 L2 .˝; G ; P /
D h.Z/
mit der in (4.44) angegebenen Funktion h. Dass im Fall G D sowie hX E.X jG /; W i D 0, W 2 L2 .˝; G ; P /.
.Z/ (unter viel allgemeineren Bedingungen an Z) die bedingte
Erwartung eine Funktion von Z ist, ist ein wichtiger Sach-
verhalt, der aus dem am Ende dieses Abschnittes vorgestellten
Faktorisierungslemma folgt. Beweis
˚ Es seien L2 .G / WD L2 .˝; G ; P / sowie WD
inf kX W k W W 2 L2 .G / . Nach Definition von existiert
Abb. 5.31 illustriert die Situation des letzten Beispiels anhand
des Spezialfalls ˝ D .0; 1, A D B \ ˝ und der Gleich- eine Folge .Yn / aus L2 .G / mit limn!1 kX Yn k D . Wegen
verteilung P auf ˝ sowie X D id˝ . Dabei wählen wir als
Sub--Algebra G das System G D .A1 ; A2 ; A3 ; A4 / mit Aj D kX Ym k2 C kX Yn k2
2 1
..j 1/=4; j =4, j D 1; 2; 3; 4. Hier gelten 1
Z D 2X .Ym C Yn / C kYm Yn k2
1 2j 1 2 2
X dP D ; j D 1; 2; 3; 4; 1
P .Aj / 8 2
2 C kYm Yn k 2
Aj 2
sowie
X 4
2j 1 ist .Yn / eine Cauchy-Folge in L2 .G /. Nach dem Satz von Riesz-
E.X jG / D 1fAj g: Fischer in Abschn. 8.7 ist der Raum L2 .G / vollständig, und
8
j D1 somit existiert ein Y aus L2 .G / mit limn!1 kYn Y k D 0. Die
Kapitel 5
Minkowski-Ungleichung kX Y k kX Yn k C kYn Y k lie-
X(ω) (X|G)(ω)
fert beim Grenzübergang n ! 1 die Gleichheit kX Y k D .
Wegen Y 2 L2 .G / ist Y nach Definition G -messbar, sodass
1
nur noch (5.89) zu zeigen ist. Hierzu beachten wir, dass mit
• W 2 L2 .G / und t 2 R auch Y C tW 2 L2 .G / gilt, was
3/4 kX Y tW k2 kX Y k2 und folglich
•
2t E W .X Y / C t 2 kW k2 0 .t 2 R; W 2 L2 .G //
1/2
•
impliziert. Da t beliebig ist, ergibt sich
1/4
• E W .X Y / D 0; W 2 L2 .G /; (5.93)
0 ( ]( ]( ]( ]
A1 A2 A3 A4 ω insbesondere also E .1A .X Y // D 0, A 2 G .
0 1 1 3 1
4 2 4
Abb. 5.31 Bedingte Erwartung am Beispiel ˝ D .0; 1, X D id˝ und Die nachstehenden Eigenschaften sind grundlegend im Umgang
der Gleichverteilung sowie G D .A1 ; A2 ; A3 ; A4 / mit bedingten Erwartungen.
174 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Wählt
R man speziell Y R D 1B mit B 2 G , so geht (5.95) in
Eigenschaften bedingter Erwartungen A\B EŒX j G dP D A\B X dP über. Wegen A \ B 2 G gilt
dann (5.95) nach Definition von E.X jG /. Der Rest der Behaup-
Seien .˝; A; P / ein Wahrscheinlichkeitsraum, G A ei- tung folgt jetzt mit algebraischer Induktion. Für den Nachweis
ne Sub--Algebra von A und X ; Y 2 L1 .˝; A; P /. Dann von g) beachten wir zunächst, dass die Konstante E.X / G -
gelten (bei b)-h) jeweils P -f.s.): messbar ist. Zu zeigen bleibt
a) E .E.X jG // D E.X /.
EŒE.X jG /1A D EŒE.X /1A ; A 2 G:
b) Ist X G -messbar, so gilt E.X jG / D X .
c) E.aX C bY jG / D aE.X jG / C bE.Y jG /, a; b 2 R. Für beliebiges A 2 G sind nach Voraussetzung X und 1A
d) Falls X Y P -f.s.,ˇsofolgt E.X jG / E.Y jG /. unabhängige Zufallsvariablen. Nach Definition der bedingten
e) jE.X jG /j E jX jˇG . Erwartung und mit der Multiplikationsformel für Erwartungs-
f) Es gelte EjX Y j < 1, und Y sei G -messbar. Dann folgt werte wird dann die linke Seite zu E.X 1A / D E.X /E.1A/, was
mit der rechten Seite übereinstimmt. Um das erste Gleichheits-
E .X Y jG / D Y E.X jG /: (5.94) zeichen in h) zu zeigen, sei A 2 F (und damit auch A 2 G ). Es
g) Sind .X / und G unabhängig, so gilt folgt
Z Z Z
ˇ
E.X jG / D E.X /: ˇ
E EŒX jG F dP D EŒX jG dP D X dP
A A A
h) Ist F G eine weitere -Algebra, so gilt Z
ˇ ˇ D EŒX jF dP :
E E.X jG /ˇF D E.X jF / D E E.X jF /ˇG :
A
D aE.1A X / C bE.1A Y /
Y dP D E Y 1A D E lim Yn 1A
D EŒ1A .aX C bY /: n!1
A
Dabei wurde beim zweiten Gleichheitszeichen die Definition h i
der bedingten Erwartung verwendet. Um d) zu zeigen, setzen D E lim .Yn 1A / D lim E Yn 1A
n!1 n!1
wir A WD fE.X jG / > E.Y jG /g. Es gilt A 2 G , und wegen
D lim E Xn 1A
X Y P -f.s. folgt weiter n!1
h i
0 EŒ1A .Y X / D EŒ1A .E.Y jG / E.X jG //: D E lim Xn 1A
n!1
Z
Da der Integrand E.Y jG /E.X jG / auf A strikt negativ ist, folgt
P .A/ D 0. Der Nachweis von e) ist Gegenstand von Aufgabe D E X 1A D X dP :
5.55. Für den Beweis von f) kann o.B.d.A. X 0 und Y 0 A
angenommen werden (sonst jeweils Zerlegung in Positiv- und
Somit folgt Y D E.X jG /.
Negativteil!). Die rechte Seite von (5.94) ist G -messbar. Zu zei-
gen ist Selbstfrage 24
Z Z
Y E.X jG / dP D X Y dP 8A 2 G : (5.95) Warum gelten in der obigen Gleichungskette das vierte, fünfte
und sechste Gleichheitszeichen?
A A
5.7 Bedingte Erwartungen 175
Z
(Ω, Z −1 (A )) (Ω , A )
Jensen-Ungleichung für bedingte Erwartungen
h
Seien g W R ! R eine konvexe Funktion und X 2 Y
L1 .˝; A; P / mit Ejg.X /j < 1. Ist G A eine Sub-
-Algebra von A, so gilt ( , B)
E g.X /jG g EŒX jG P -f.s. Abb. 5.32 Zum Faktorisierunglemma
E.X jZ D z/ WD h.z/
Im Fall G D .Z / ist E.X jG/ eine messbare (ein) bedingter Erwartungswert von X unter der Be-
Funktion von Z dingung Z D z.
Kapitel 5
Wir werden jetzt sehen, dass im Fall G D .Z/ für ei-
ne abstrakt-wertige Zufallsvariable Z die bedingte Erwartung Wegen .Z/ D Z 1 .A0 / gilt für jedes A0 2 A0
E.X jG / eine messbare Funktion von Z ist. Der Grund hierfür Z Z Z
ist das folgende Resultat. h dP Z D h ı Z dP D EŒX j.Z/ dP
A0 Z 1 .A0 / Z 1 .A0 /
Dass die obige Definition von E.X jZ D z/ mit der in (5.83) In der Folge schreiben wir kurz .Xn / D .Xn /n0 .
gegebenen kompatibel ist, sieht man wie folgt ein: Ist Z wie in
(5.83) ein k-dimensionaler Zufallsvektor, und setzen wir Kommentar
Z
g.z/ WD x PZDz X
.dx/; Interpretiert man 0; 1; 2; : : : als Zeitpunkte, zu denen
R
man das Eintreten oder Nichteintreten der Ereignisse aus
F0 ; F1 ; F2 ; : : : beobachten kann, so spiegelt eine Filtration
z 2 Rk , für den Erwartungswert von X unter der bedingten als aufsteigende Folge von -Algebren den zeitlichen Verlauf
Verteilung PZDz
X
, so gilt mit T WD X .1B ı Z/ für jedes B 2 Bk des mit der Inklusion FnC1
Fn verbundenen Informations-
Z Z
gewinns wider. Diese Vorstellung wird noch konkreter, wenn
X dP D T .Z; X / dP man die zu einer Folge .Xn / von Zufallsvariablen gehörende
Z1 .B/ ˝ natürliche Filtration F X betrachtet. Zu FnX gehören alle Er-
Z eignisse in A, die sich durch X0 ; : : : ; Xn beschreiben lassen.
D T .z; x/ P .Z;X /.dz; dx/ Offenbar ist die Folge .Xn / an F X adaptiert.
BR Der Begriff Stoppzeit hat einen Bezug zu Glücksspielen.
Z Die intuitive Vorstellung ist hier, ein Spiel zu einem zufalls-
D x 1B .z/ P .Z;X /.dz; dx/ abhängigen Zeitpunkt zu beenden. Bedingung (5.97) stellt
BR dann sicher, dass zum Stoppen kein Wissen aus der Zukunft
Z
Z verwendet wird, sondern nur die bis zum Zeitpunkt n vor-
D x PZDz
X
.dx/ P Z .dz/ handene Information einfließt.
B R Aus (5.97) folgt f D kg 2 Fk Fn für jedes k n und
Z somit
D g dP Z :
[
n
B f ng D f D kg 2 Fn :
Diese Gleichungskette zeigt, dass die Funktion g in der Tat die kD0
charakteristischen Gleichungen (5.96) erfüllt.
Umgekehrt ergibt sich aus f ng für jedes n 0 die Be-
ziehung f D ng D f ng n f n 1g 2 Fn . Somit ist
5.8 Stoppzeiten und Martingale (5.97) zu
Eine Folge .Xn /n0 von Zufallsvariablen Xn W ˝ ! ˝ 0 in die Menge A0 eine Stoppzeit bzgl. der natürlichen Filtrati-
heißt (an F) adaptiert, falls für jedes n 0 die Zufalls- on F X , denn es gilt für jedes n 0
variable Xn (Fn ; A0 )-messbar ist.
Die zu einer Folge .Xn /n0 wie oben assoziierte Filtration \
n1
f D ng D fXn 2 A0 g \ fXj … A0 g 2 .X0 ; : : : ; Xn /:
F X D .FnX /n0 mit
j D0
FnX WD .X0 ; X1 ; : : : ; Xn /
b) Eine triviale Stoppzeit ist die feste Stoppzeit .!/ WD c, ! 2
heißt natürliche Filtration von .Xn /n0 . ˝, für ein vorgegebenes c 2 N0 , denn es gilt f D ng D ˝
oder f D ng D ;, je nachdem, ob n D c oder n ¤ c ist.
5.8 Stoppzeiten und Martingale 177
Eine Urne enthalte fünf Kugeln, von denen drei die Zahl 1 Wert 0 stoppen, da ein weiterer Zug bei noch zwei ausste-
und zwei die Zahl 1 tragen. Man zieht rein zufällig ohne Zu- henden Kugeln mit der Aufschrift 1 ungünstig wäre. Sollte
rücklegen Kugeln aus dieser Urne. Hierbei darf man jederzeit auch die zweite Kugel den Wert 1 tragen, ziehen wir auf je-
stoppen. Die Summe der erhaltenen Werte ist der Gewinn. den Fall noch zweimal (mit der Aussicht auf den Wert 0 beim
Gibt es eine Stoppregel (Stoppzeit), sodass der erwartete Ge- Stoppen nach vier Zügen). Nur wenn bei diesen beiden Zü-
winn positiv ist? gen die letzte Kugel mit der Aufschrift 1 dabei ist, ziehen
wir noch die letzte Kugel, die ja dann mit einer 1 beschriftet
Problemanalyse und Strategie Um diese Frage zu beant- ist. Diese Überlegungen münden in die folgende Stoppzeit
worten, stellen wir zunächst ein geeignetes Modell auf. (bzgl. der natürlichen Filtration):
Hierzu setzen wir
Wir setzen
n ˇX5 o 8
ˇ
˝ WD ! WD .a1 ; : : : ; a5 / 2 f1; 1g5 ˇ 1faj D 1g D 2 ; ˆ
ˆ 1; falls X1 .!/ D 1;
ˆ
ˆ
j D1 ˆ
ˆ 2; falls X1 .!/ D 1; X2 .!/ D 1;
ˆ
ˆ
<4; falls X1 .!/ D X2 .!/ D 1;
betrachten also als Grundraum die zehnelementige Menge .!/ WD
aller 5-Tupel mit genau 2 Einsen und 3 „Minus-Einsen“. ˆ
ˆ X3 .!/ D X4 .!/ D 1;
ˆ
ˆ
Weiter setzen wir Xj .!/ WD aj , j D 1; : : : ; 5. In diesem ˆ
ˆ falls X1 .!/ D X2 .!/ D 1;
ˆ5;
Modell beschreibt also Xj die Zahl auf der im j -ten Zug ge- :̂ X3 .!/X4.!/ D 1:
zogenen Kugel. Als Wahrscheinlichkeitsmaß P wählen wir
die Gleichverteilung auf ˝. Pn
Mit Sn WD j D1 Xj ist die gestoppte Summe S der Gewinn.
Lösung Man beachte, dass wir mindestens eine Kugel zie- Es gilt
hen und somit die Realisierung von X1 beobachten müssen.
Sollte X1 D 1 gelten, würden wir sofort stoppen, denn unter E .S / D 1 P .S D 1/ C .1/ P .S D 1/
den übrigen Kugeln befinden sich ja dann noch drei mit der 2 3 2 2 1
Aufschrift 1 und nur eine Kugel, die die Zahl 1 trägt. Im D1 D :
5 5 4 3 5
Fall X1 D 1 sollten wir eine weitere Kugel ziehen, denn
das Resultat 1 stellt sich ja auch ein, wenn wir alle Kugeln Der Erwartungswert des Gewinns ist also bei dieser Stopp-
ziehen. Sollte dann X2 D 1 gelten, so würden wir mit dem zeit in der Tat positiv.
c) In der Situation von a) ist die Letzteintrittszeit Kommentar Bitte überlegen Sie sich (Aufgabe 5.57), dass
A in der Tat eine Sub--Algebra von A ist. Die -Algebra
WD supfn 0 j Xn 2 A0 g A wird manchmal auch -Algebra der Ereignisse bis zur Zeit
genannt. Sie besteht aus allen Ereignissen, deren Eintreten oder
mit der zusätzlichen Festsetzung sup ; WD 0 i. Allg. (z. B. bei Nichteintreten bis zum zufallsabhängigen Stoppzeitpunkt be-
unabhängigen Zufallsvariablen) keine Stoppzeit, denn es gilt obachtet werden kann. Im Fall einer festen Stoppzeit c für
c 2 N0 gilt A D Fc , da f ng D ˝, falls n c, und
Kapitel 5
\
1
f D ng D fXn 2 Ag \ fXk … Ag: J f ng D ;, falls n < c. J
kDnC1
Beispiel Es sei .Xn / eine Folge reeller Zufallsvariablen mit
Selbstfrage 26 der natürlichen Filtration Fn D .X0 ; : : : ; Xn /. Für eine reelle
Ist mit auch 2 eine Stoppzeit? Zahl a sei WD inffn 0 j Xn ag die Ersteintrittszeit in das
Intervall Œa; 1/. Weiter seien
˚
A WD supfXk j k 0g > a 1 ;
˚
Definition ( -Algebra der -Vergangenheit) B WD supfXk j k 0g > a C 1 :
Ist eine Stoppzeit bzgl. einer Filtration F WD .Fn /n0 , Es gilt f ng A und somit A \ f ng D f ng 2 Fn ,
so heißt das Mengensystem n 0, also A 2 A . Jedoch gilt i. Allg. B … A , da zur Zeit
nicht klar ist, ob die Folge .Xn / irgendwann auch den Wert
A WD fA 2 A W A \ f ng 2 Fn 8 n 0g (5.98) a C 1 überschreiten wird. J
-Algebra der -Vergangenheit. Will man eine Folge .Xn / von Zufallsvariablen zu einem zu-
fälligen Zeitpunkt stoppen, so interessiert der Wert, den die
178 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
X
n
c) Martingal, falls für jedes n 0 gilt: Xn WD Yj ; n 1;
j D0
E.XnC1 jFn / D Xn P -f.s. (5.101)
so gilt mit den Eigenschaften b), c) und g) bedingter Erwar-
tungen aus Abschn. 5.7 (jeweils P -fast sicher)
Kommentar Im Spezialfall FnX D .X0 ; : : : ; Xn / der natür-
lichen Filtration lassen wir den erklärenden Zusatz „bzgl. F“ E.XnC1 jX0 ; : : : ; Xn / D E.YnC1 C Xn jX0 ; : : : ; Xn /
weg und sprechen kurz von einem Submartingal (bzw. Super- D E.YnC1 jX0 ; : : : ; Xn / C Xn
martingal bzw. Martingal). Die Ungleichungen (5.99) – (5.101)
D E.YnC1 / C Xn :
nehmen dann die Form
E.XnC1 jX0 ; : : : ; Xn / Xn P -f.s.; (5.102) Partialsummen unabhängiger integrierbarer Zufallsvariablen
E.XnC1 jX0 ; : : : ; Xn / Xn P -f.s.; (5.103) bilden also genau dann ein Martingal, wenn jeder Sum-
mand Yn den Erwartungswert null besitzt. Ein Submartingal
E.XnC1 jX0 ; : : : ; Xn / D Xn P -f.s. (5.104)
bzw. Supermartingal ergibt sich genau dann, wenn stets
an. J E.Yn / 0 bzw. E.Yn / 0 gilt.
5.8 Stoppzeiten und Martingale 179
Die Doob-Zerlegung
Beweis Wegen EjX j < 1 ist auch Xn integrierbar. Nach Es seien .˝; A; P / ein W-Raum, F WD .Fn /n0 eine
Definition von E.X jFn / ist Xn Fn -messbar, und somit ist die Filtration und .Xn /n0 eine an F adaptierte Folge von P -
Folge .Xn / adaptiert. Mit der Turmeigenschaft h) für bedingte integrierbaren Zufallsvariablen auf ˝. Dann existiert eine
Erwartungen in Abschn. 5.7 folgt eindeutig bestimmte Zerlegung der Gestalt
ˇ
E.XnC1 jFn / D E E.X jFnC1 /ˇFn D E.X jFn/ D Xn : X n D Mn C V n ; n 0:
Kapitel 5
Dabei gilt jedes Gleichheitszeichen P -fast sicher.
Hierbei ist .Mn / ein Martingal, und die Folge .Vn / ist
prävisibel mit V0 D 0. .Xn / ist genau dann ein Submar-
Es sei .Xn / ein Martingal bzgl. einer Filtration F. Interpretiert
tingal, wenn .Vn /n0 P -f.s. monoton wächst.
man X0 als Anfangskapital und Xn Xn1 als Gewinn oder
(bei einem negativen Wert) Verlust in einem n-ten Spiel pro
eingesetztem Euro (wobei das Spiel auch eine risikobehaftete
Finanzinvestition sein könnte), so liefert die Martingaleigen- Beweis Die Existenz einer Darstellung wie oben ist schnell
schaft (5.101) die Gleichung gezeigt. Setzt man
so gilt Xn D Mn C Vn , und .Vn / ist prävisibel mit V0 D 0. Des Gilt Cn 0 für jedes n, so bleibt die Aussage gültig, wenn man
Weiteren ist die Folge .Mn / wegen jeweils „Martingal“ durch „Submartingal“ bzw. jeweils durch
h i „Supermartingal“ ersetzt. J
ˇ ˇ
E Mn Mn1 ˇFn1 D E Xn E Xn jFn1 ˇFn1 D 0
Beweis Die Folge C X ist adaptiert, und wegen (5.107)
ein Martingal. Um die Eindeutigkeit der Zerlegung zu zeigen, ist .C X /n für jedes n integrierbar. Aufgrund der Fn1 -
nehmen wir Xn D Mn CVn D Mn0 CVn0 mit Martingalen Mn ; Mn0 Messbarkeit von Cn folgt mit Eigenschaft f) der bedingten
und prävisiblen Folgen Vn und Vn0 sowie V0 D V00 D 0 an. Erwartung in Abschn. 5.7
Wegen Mn Mn0 D Vn0 Vn ist dann .Mn Mn0 / ein prävisibles
Martingal. Nach Aufgabe 5.63 gilt Mn Mn0 D M0 M00 D 0. EŒ.C X /n .C X /n1 jFn1 D EŒCn .Xn Xn1 /jFn1
D Cn EŒXn Xn1 jFn1
Die Folge .Xn / ist genau dann ein Submartingal, wenn für jedes
n gilt: D 0:
Xn E.XnC1 jFn / D E.MnC1 jFn / C E.VnC1 jFn / P -f.s. Für ein Sub- bzw. Supermartingal ist das letzte „D“ durch „“
bzw. durch „“ zu ersetzen.
Wegen E.MnC1 jFn / D Mn P -f.s. und E.VnC1 jFn / D VnC1 P -
f.s. ist die obige Ungleichung wegen Xn D Mn C Vn zu Xn Selbstfrage 27
Xn CVn1 Vn P -f.s. und somit zu Vn VnC1 P -f.s. äquivalent. Warum ist die Folge C X adaptiert?
Sind F D .Fn /n0 eine Filtration und .Xn /n0 eine an F adap- Kommentar Eine hinreichende Bedingung für (5.107) ist die
tierte Folge von Zufallsvariablen auf ˝, so beschreibt (mit der gleichmäßige Beschränktheit der Folge .Cn /. In einer Spiel-
Interpretation von Ck als Spieleinsatz beim k-ten Spiel und Xk situation ist Letztere durch Höchsteinsätze gewährleistet. Man
als Kapital eines Spielers nach dem k-ten Spiel) die Zufallsva- beachte, dass die Tansformation X 7! C X auch dann Sinn
riable macht, wenn X D .Xn /n0 nicht unbedingt ein Martingal dar-
stellt, sondern nur eine bzgl. F adaptierte Folge ist. Ist C D .Cn /
X
n
prävisibel, und ist die Bedingung (5.107) erfüllt, so nennt man
Yn WD Ck .Xk Xk1 / (5.106) den Übergang von X zu C X auch (diskretes) stochastisches
kD1 Integral von C bzgl. X . J
den (Gesamt)-Gewinn nach dem n-ten Spiel.
Gestoppte Martingale bleiben Martingale,
Definition (Spielsystem, Martingaltransformation) und im Mittel ändert sich nichts
Ist in obiger Situation die Folge .Cn /n0 prävisibel bzgl. Der obige Satz besagt, dass es unmöglich ist, durch geschickte
F, so heißt .Cn /n0 ein Spielsystem für .Xn /. Man Wahl des Einsatzes aus einem fairen Spiel ein vorteilhaftes Spiel
schreibt die Gleichungen (5.106) in der Kurzform zu machen. Die nächsten Resultate zeigen, dass diesbzgl. auch
keine noch so geschickte Stoppstrategie hilft. Die erste Aussage
Y WD C X ; Yn WD .C X /n : besagt, dass gestoppte Martingale Martingale bleiben. Zu ihrer
Formulierung verwenden wir die Notation
Kapitel 5
Die Begriffsbildung Martingaltransformation wird durch nach- Satz (gestoppte Martingale bleiben Martingale)
stehendes Resultat verständlich. Seien .Xn /n0 ein Martingal bzgl. .Fn / und eine Stopp-
zeit. Sei .X ^n /n0 definiert durch
Satz (mit X D .Xn / ist auch C X ein Martingal) Es
seien X D .Xn /n0 ein Martingal bzgl. .Fn /n0 und C D X ^n .!/ WD X .!/^n .!/; ! 2 ˝:
.Cn /n0 prävisibel bzgl. .Fn /. Gilt
Dann ist auch die gestoppte Folge .X ^n /n0 ein Martin-
Cn .Xn Xn1 / 2 L1 .˝; A; P /; n 1; (5.107) gal. Eine entsprechende Aussage gilt für Submartingale
und Supermartingale.
so ist C X ein Martingal.
5.8 Stoppzeiten und Martingale 181
Beweis Betrachte das Spielsystem Cn WD 1f ng, n 1. In einem zweiten Beweisschritt setzen wir ^ k WD min.; k/
Es gilt f ng 2 Fn1 , und somit ist Cn Fn1 -messbar. Nach und approximieren E.X / durch E.X ^k /. Es gilt
Definition von Ck gilt
jE.X / E.X ^k /j EjX X ^k j
X
n
ˇ X1 ˇ
Yn WD Ck .Xk Xk1 / D X ^n X0 : ˇ ˇ
kD1
D Eˇ 1f ng.Xn Xn1 /ˇ
nDkC1
Nach obigem Satz über die Martingaltransformation ist .Yn /n0 X
1
ein Martingal. Damit ist auch .X ^n /n0 ein Martingal, denn es E 1f ng jXn Xn1 j
gilt nDkC1
E X ^.nC1/ jFn D E YnC1 C X0 jFn X
1
Kapitel 5
Wegen der Martingaleigenschaft verschwindet der letzte be-
X1
EjX j EjX0 j C E 1f ngjXn Xn1 j dingte Erwartungswert, und wir erhalten wie behauptet
nD1
E.X ^k / D E.X0 /.
X
1
D EjX0 j C E 1f ngjXn Xn1 j : Folgerung Für Sub- bzw. Supermartingale gilt unter den Vor-
nD1 aussetzungen des obigen Satzes
Rechnet man den rechts stehenden Erwartungswert iteriert
E.X / E.X0 / bzw. E.X / E.X0 /: J
durch Bedingen nach X0 ; : : : ; Xn1 aus, so liefert die Unglei-
chung (5.108)
Beweis Die Martingaleigenschaft wurde erst bei der Behand-
X
1
lung des bedingten Erwartungswertes in (5.109) verwendet. Für
EjX j EjX0 j C E.c1f ng/
ein Submartingal ist dieser bedingte Erwartungswert nichtnega-
nD1
tiv, für ein Supermartingal kleiner oder gleich null. Hieraus folgt
EjX0 j C c E./ < 1: die Behauptung.
182 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Beispiel: Der Satz von Doob über optionales Stoppen und das Spieler-Ruin-Problem
Zwei Spieler A und B mit einem Anfangskapital von a Sk ; : : : ; Smk S.m1/k sämtlich kleiner als k sein müssen. Es
bzw. b Euro spielen wiederholt ein Spiel, bei dem A mit gilt also
Wahrscheinlichkeit p und B mit Wahrscheinlichkeit 1 p
gewinnt, wobei jeweils ein Euro seinen Besitzer wechselt. \
m
˚
f mk C 1g Sj k S.j 1/k < k
Wie groß ist die Wahrscheinlichkeit, dass Spieler B bei die-
j D1
sem Spiel bankrott geht? Der Satz von Doob gestattet eine
elegante Lösung dieses schon in einer Unter-der-Lupe-Box und damit wegen der stochastischen Unabhängigkeit dieser
in Abschn. 3.5 vorgestellten Spieler-Ruin-Problems. Zuwächse (Blockungslemma!) und deren identischer Vertei-
lung
Problemanalyse und Strategie Um den Satz von Doob
˚ m
anwenden zu können, formulieren wir das Spieler-Ruin- P . mk C 1/ P .Sk < k/ D .1 p k /m :
Problem hier wie folgt: Seien X1 ; X2 ; : : : unabhängige und
identisch verteilte Zufallsvariablen auf einem Wahrschein- Zu n 2 N gibt es ein m mit mk C 1 n .m C 1/k, was
lichkeitsraum .˝; A; P / mit P .X1 D 1/ D p D 1 q D m n=k 1 zur Folge hat. Also erhalten wir
1 P .X1 D 1/, wobei 0 < p < 1. Hier stehe fXi D 1g n
bzw. fXi D 1g für das Ereignis, dass Spieler A in der i- P . n/ P . mk C 1/ .1 p k /m 1 p k k 1
ten Spielrunde einen Euro von Spieler B gewinnt oder einen 1 h 1=k in
Euro an Spieler B verliert. Setzen wir S0 WD 0 sowie Sn WD 1 pk 1 pk :
X1 C: : :CXn , n 1, so gibt – solange a C1 Sn b 1 P1
gilt – die Zufallsvariable Sn den Zuwachs (in Euro) des Ka- Wegen nD1 P . n/ < 1 gilt E./ < 1.
pitals von Spieler A nach dem n-ten Spiel („zur Zeit n“) an. Sei nun zunächst p ¤ q, also p ¤ 1=2. Es gilt
Lösung Die Zeit bis zum Ruin eines der beiden Spieler ist
X1 1 1
q q q
durch E D pC q D 1:
p p p
˚
WD inf n 1 j Sn 2 fa; bg Setzen wir M0 WD 1 und
gegeben. Die nachstehende Abbildung zeigt einen möglichen n Xj
Y Sn
q q
Spielverlauf als Polygonzug für den Fall a D 3 und b D 4. Mn WD D ; n 1;
Hier ist Spieler B nach 8 Spielrunden bankrott. j D1
p p
D
τ =8 p p
−a Wegen P .S D a/ D 1 P .S D b/ folgt dann mithilfe
direkter Rechnung
Wegen a
1 pq
\
n1
P .S D b/ D aCb :
f D ng D fa C 1 Sj b 1g \ fSn 2 fa; bgg 1 pq
j D1
2 .X1 ; : : : ; Xn / Im Fall p D 1=2 ist .Sn / ein Martingal, und der Satz von
Doob ergibt
ist eine Stoppzeit bzgl. der natürlichen Filtration. Gesucht
ist die Ruinwahrscheinlichkeit P .S D b/ von Spieler B. Um 0 D E.S0 / D E.S / D bP .S D b/ aP .S D a/
den Satz von Doob anwenden zu können, muss E./ < 1
gelten. Diese Bedingung ist relativ schnell nachgewiesen: und somit das ebenfalls schon aus Abschn. 3.5 (Unter-
Setzen wir k WD aCb, so folgt für gegebenes m 1 aus dem der-Lupe-Box zum Spieler-Ruin-Problem) bekannte Resultat
Ereignis f mk C 1g, dass die Zuwächse Sk S0 ; S2k P .S D b/ D a=.a C b/.
5.8 Stoppzeiten und Martingale 183
Wir haben schon mehrfach randomisierte Summen, also Sum- gilt .X1 ; : : : ; Xn / D .S1 ; : : : ; Sn /. Somit ist N auch eine
men von Zufallsvariablen mit einer zufälligen Anzahl von Stoppzeit bzgl. ..S1 ; : : : ; Sn /n1 /. Mit den Eigenschaften f)
Summanden, kennengelernt (etwa im Zusammenhang mit der und g) bedingter Erwartungen in Abschn. 5.7 gilt weiter (P -f.s.)
Augensumme bei zufälliger Wurfanzahl in Abschn. 4.5). Das ˇ
nachstehende, aus dem Satz von Doob über optionales Stoppen E 1fN ngjSn Sn1 jˇS1 ; : : : ; Sn1
ˇ
folgende und auf Abraham Wald (1902–1950) zurückgehende D E 1fN ngjXn jˇS1 ; : : : ; Sn1
Resultat zeigt, dass das Ergebnis von Aufgabe 4.44 a) auch un-
ter gegenüber dort modifizierten Voraussetzungen gültig ist. D EjX1 j 1fN ng:
Kapitel 5
184 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Zusammenfassung
Die Verteilung einer Zufallsvariablen X ist durch die Vertei- diese Größen sind auf dem Erwartungswertbegriff aufgebaut,
lungsfunktion (engl.: distribution function) F .x/ D P .X der für Zufallsvariablen auf einem allgemeinen Wahrscheinlich-
R
x/; x 2 R; von X festgelegt. F ist monoton wachsend sowie keitstraum in der Maßtheorie als Integral EX D X dP über
rechtsseitig stetig, und es gelten F .x/ ! 0 bei x ! 1 und dem Grundraum ˝ eingeführt wird. Dabei setzt man EjX j < 1
F .x/ ! 1 bei x ! 1. Umgekehrt existiert zu jeder Funktion voraus. Ist X eine Funktion g eines k-dimensionalen Zufalls-
F W R ! Œ0; 1 mit diesen Eigenschaften eine Zufallsvariable vektors Z, der eine Dichte f (bzgl. des Borel-Lebesgue-Maßes)
X mit der Verteilungsfunktion F . Ist X diskret verteilt, gilt also besitzt, so kann man Eg.Z/ über
P .X 2 D/ D 1 für eine Z
Pabzählbare Menge D R, so nimmt
F die Gestalt F .x/ D t 2DWt x P .X D t / an. Eine Zufallsva- Eg.Z/ D g.x/ f .x/ dx
riable X heißt (absolut) stetig (verteilt) (X has an (absolutely) Rk
continuous distribution), wenn es eine nichtnegative messbare R
Funktion f mit R EX D xf .x/ dx, wenn X
berechnen. Insbesondere ist also
Z eine Dichte f besitzt, für die jxjf .x/ dx < 1 gilt. Für ei-
P .X 2 B/ D P X .B/ D f .x/ dx; B 2 B; (5.110) nen Zufallsvektor definiert man den Erwartungswertvektor als
Vektor der Erwartungswerte der einzelnen Komponenten und
B die Kovarianzmatrix als Matrix, deren Einträge die Kovarian-
zen zwischen den Komponenten sind. Eine Kovarianzmatrix ist
R x (density) von X bzw. von P . In
X
gibt. Man nennt f die Dichte
diesem Fall gilt F .x/ D 1 f .t / dt , x 2 R. symmetrisch und positiv semidefinit, und sie ist genau dann sin-
gulär, wenn mit Wahrscheinlichkeit eins eine lineare Beziehung
Die obige Definition überträgt sich unmittelbar auf einen k- zwischen den Komponenten des Zufallsvektors besteht.
dimensionalen Zufallsvektor X D .X1 ; : : : ; Xk /, wenn man in
(5.110) X durch X und B durch Bk ersetzt. Die Dichte f heißt Zu einer Verteilungsfunktion F (einer Zufallsvariablen X ) ist
dann auch gemeinsame Dichte (joint density) von X1 ; : : : ; Xk . die Quantilfunktion (quantile function) F 1 W .0; 1/ ! R
Aus f erhält man die marginalen Dichten der Xj durch In- durch F 1 .p/ WD inffx 2 R j F .x/ pg definiert. Der
tegration. Stetige Zufallsvariablen sind unabhängig, wenn die Wert F 1 .p/ heißt p-Quantil (p-quantile) von F bzw. von P X .
gemeinsame Dichte das Produkt der marginalen Dichten ist. Die Wichtige Quantile sind der Median (median) für p D 1=2 und
Dichte der Summe zweier unabhängiger Zufallsvariablen X und das untere (lower) bzw. obere Quartil (upper quartile), die
Y gewinnt man über die Faltungsformel (convolution formula) sich für p D 1=4 bzw. p D 3=4 ergeben. Für eine symme-
trische Verteilung (symmetric distribution) sind unter schwa-
Z1 chen Voraussetzungen Median und Erwartungswert gleich. Ist
fX CY .t / D fX .s/fY .t s/ ds: U eine Zufallsvariable mit der Gleichverteilung U.0; 1/, so
1 liefert die Quantiltransformation (quantile transformation)
X WD F 1 .U / eine Zufallsvariable X mit Verteilungsfunkti-
Sind X ein k-dimensionaler Zufallsvektor mit Dichte f und T W on F . Besitzt X eine stetige Verteilungsfunktion, so ergibt die
Rk ! Rs eine Borel-messbare Abbildung, so hat der Zufalls- Wahrscheinlichkeitsintegral-Transformation (probability in-
vektor Y WD T .X/ unter gewissen Voraussetzungen ebenfalls tegral transform) U WD F .X / eine Zufallsvariable mit der
eine Dichte. Gilt im Fall k D s P .X 2 O/ D 1 für eine Verteilung U.0; 1/.
Kapitel 5
allgemeinere Klasse der Weibull-Verteilungen (Weibull distri- PZX W Rk Bn ist eine Übergangswahrscheinlichkeit von
butions) Wei.˛; / mit der Verteilungsfunktion F .x/ D 1 .Rk ; Bk / nach .Rn ; Bn /, und man schreibt PZDz
X
./ D PZX .z; /.
exp.x ˛ /, x > 0. Die Gammaverteilung (Gamma distribu- Besitzt .Z; X/ eine Dichte fZ;X , und ist fZ die marginale
tion) .˛; / besitzt die für x > 0 positive Dichte f .x/ D Dichte von Z, so erhält man aus der gemeinsamen Dichte
˛ x ˛1 ex = .˛/. Sie enthält für ˛ D k=2 und D 1=2 als über die bedingte Dichte (conditional density) f .xjz/ WD
Spezialfall die Chi-Quadrat-Verteilung (Chi square distributi- fZ;X .x; z/=fZ .z/ von X unter der Bedingung Z D z die be-
on) mit k Freiheitsgraden. Letztere ist die Verteilung der Summe dingte Verteilung von X bei gegebenem Z D z.
von k Quadraten unabhängiger und je N.0; 1/-verteilter Zufalls-
variablen. Die Lognormalverteilung (lognormal distribution) Sind X eine Zufallsvariable mit EjX j < 1 und G eine Sub-
LN.; 2 / ist die Verteilung von eX , wobei X N.; 2 /-verteilt -Algebra von A, so heißt jede G -messbare Zufallsvariable Y
ist. Für die Normalverteilung und die Gammaverteilung gelten mit E.Y 1A / D E.X 1A /, A 2 G , bedingte Erwartung von
Additionsgesetze (convolution theorems), die mit der Faltungs- X unter der Bedingung G (conditional expectation), und man
formel (convolution formula) hergeleitet werden können. schreibt Y DW E.X jG /. Die Existenz von Y folgt aus dem Satz
von Radon-Nikodým, und Y ist P -f.s. eindeutig bestimmt. Im
Die charakteristische Funktion (characteristic function) 'X Fall E.X 2 / < 1 ist E.X jG / die Orthogonalprojektion von X
einer Zufallsvariablen X ist durch 'X .t / D E .exp.itX //, auf den Teilraum L2 .˝; G ; P / bzgl. des (positiv-semidefiniten)
t 2 R, definiert. Dabei wird der komplexwertige Erwartungs- Skalarproduktes hU ; V i D E.U V /. Auch bedingte Erwartun-
wert durch Zerlegung in Real- und Imaginärteil eingeführt. Die gen sind linear und monoton, und bzgl. G messbare Faktoren
Funktion 'X ist gleichmäßig stetig, und sie gestattet im Fall können wie Konstanten vor den bedingten Erwartungswert ge-
EjX jk < 1 eine Taylorentwicklung bis zur Ordnung k um 0, zogen werden. Ist G D .Z/ für eine Zufallsvariabe Z, so ist
.r/
wobei 'X .0/ D ir EX r , r D 1; : : : ; k. Sind X und Y unabhän- E.X jG / nach dem Faktorisierungslemma eine messbare Funk-
gig, so gilt 'X CY D 'X 'Y . Über Umkehrformeln (inversion tion von Z.
formulae) lässt sich aus 'X die Verteilung zurückgewinnen. Es
gilt also der Eindeutigkeitssatz (uniqueness theorem) X Eine aufsteigende Folge F WD .Fn /n0 von Sub--Algebren
Y () 'X D 'Y . Für den Fall, dass j'X j integrierbar ist, besitzt von A heißt Filtration (filtration). Eine Abbildung W ˝ !
X die stetige, beschränkte Dichte N0 [ f1g heißt Stoppzeit (stopping time) bzgl. F, falls f D
ng 2 Fn für jedes n 0. Gilt P . < 1/ D 1, so heißt
Z1 endlich (finite). Zufallsvariablen X0 ; X1 ; : : : heißen (an F) ad-
1
f .x/ D eitx 'X .t / dt ; x 2 R: aptiert (adapted to F), falls Xn (Fn ; A0 )-messbar ist, n 0.
2
1 Die zu einer Folge .Xn / assoziierte Filtration F X D .FnX / mit
FnX WD .X0 ; X1 ; : : : ; Xn / heißt natürliche Filtration (na-
Sind .˝1 ; A1 ; P1 / ein Wahrscheinlichkeitsraum, .˝2 ; A2 / ein
tural filtration). Sind eine endliche Stoppzeit bzgl. F und
Messraum und P1;2 W ˝1 A2 ! R eine Funktion (sog. Über-
X0 :X1 ; : : : eine an F adaptierte Folge reeller Zufallsvariablen,
gangswahrscheinlichkeit) (transition probability) derart, dass
so ist die durch X .!/ WD X .!/ .!/, falls .!/ < 1, und
P1;2 .!1 ; / ein Wahrscheinlichkeitsmaß auf A2 und P1;2 .; A2 /
X .!/ WD 0, sonst, definierte Abbildung X messbar bzgl. der
eine messbare Funktion ist (!1 2 ˝1 ; A2 2 A2 ), so wird durch
2 3 sog. -Algebra der -Vergangenheit, die durch A WD fA 2
Z Z A W A \ f ng 2 Fn 8 n 0g definiert ist. Sind X0 ; X1 ; : : :
P .A/ WD 4 1A .!1 ; !2 /P1;2 .!1 ; d!2 /5 P1 .d!1 / integrierbar, so heißt die Folge .Xn / (bzgl. F) ein Martingal
˝1 ˝2
(martingale), falls für jedes n 0 gilt: E.XnC1 jFn / D Xn P -
f.s. Für Super- bzw. Submartingale steht hier stets „“ bzw.
ein Wahrscheinlichkeitsmaß P DW P1 ˝ P1;2 (sog. Kopplung „“.
von P1 und P1;2 ) auf der Produkt--Algebra A1 ˝ A2 definiert,
das durch seine Werte auf Rechteckmengen A1 A2 2 A1 A2 Eine Folge C0 ; C1 ; : : : von Zufallsvariablen heißt prävisibel
Kapitel 5
eindeutig bestimmt ist. (previsible) bzgl. F, falls C0 konstant und für jedes n 1 die
Zufallsvariable Cn Fn1 -messbar ist. Sind .Cn / prävisibel und
In der Sprache von Zufallsvektoren bedeutet dieses Resultat,
dass man die Verteilung eines (k C n)-dimensionalen Zufalls- P EjCn .Xn Xn1 /j < 1,
.Xn / ein Martingal, so ist im Fall
n 1, auch die durch Yn WD nkD1 Ck .Xk Xk1 / definier-
vektors .Z; X/ durch die Verteilung P Z von Z und die bedingte te Folge .Yn / ein Martingal. Mit einer Stoppzeit und einem
Verteilung (conditional distribution) PZX von X bei gegebenem Martingal .Xn / bzgl. F ist auch die gestoppte Folge .X ^n / ein
Z gemäß P .Z;X/ D P Z ˝ PZX koppeln kann. Es gilt dann Martingal bzgl. F. Gilt E./ < 1, so gilt unter einer Zusatz-
Z bedingung E.X / D E.X0 / (Satz von Doob über optionales
P .Z 2 B; X 2 C / D PZDz X
.C / P Z .dz/; B 2 Bk ; C 2 Bn : Stoppen).
B
186 5 Stetige Verteilungen und allgemeine Betrachtungen – jetzt wird es analytisch
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
1
5.3 Die Zufallsvariable X besitze eine Gleichvertei- F .x/ WD 1 ; x 0;
lung in .0; 2/. Welche Verteilung besitzt Y WD sin X ? 1Cx
P .t XrWn t C "/
lim D gr;n .t / 5.10 Der Zufallsvektor .X ; Y / besitze eine Gleichver-
"!0 "
teilung im Einheitskreis B WD f.x; y/ W x 2 C y 2 1g. Welche
für jede Stetigkeitsstelle t der Dichte f von X1 her. marginalen Dichten haben X und Y ? Sind X und Y stochastisch
unabhängig?
5.5 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas-
Kapitel 5
tisch unabhängig. Die Verteilungsfunktion von Xj sei mit Fj 5.11 Die Zufallsvariable X habe die stetige Vertei-
bezeichnet, j D 1; : : : ; n. Zeigen Sie: lungsfunktion F . Welche Verteilungsfunktion besitzen die Zu-
Q fallsvariablen
a) P maxj D1;:::;n Xj t D jnD1 Fj .t /, t 2 R,
Qn
b) P minj D1;:::;n Xj t D 1 j D1 .1 Fj .t //, t 2 R. a) X 4 ,
b) jX j,
5.6 Es sei X eine Zufallsvariable mit nichtausgearte- c) X ?
ter Verteilung. Zeigen Sie:
5.12 Wie ist die Zahl a zu wählen, damit die durch
a) E X1 > E1X , f .x/ WD a exp.jxj/, x 2 R, definierte Funktion eine Dich-
b) E.log
X / < log.EX /, te wird? Wie lautet die zugehörige Verteilungsfunktion?
c) E eX > eEX .
Dabei mögen alle auftretenden Erwartungswerte existieren, und 5.13 Der Messfehler einer Waage kann aufgrund von
für a) und b) sei P .X > 0/ D 1 vorausgesetzt. Erfahrungswerten als approximativ normalverteilt mit Parame-
tern D 0 (entspricht optimaler Justierung) und 2 D 0:2025
5.7 Der Zufallsvektor X D .X1 ; : : : ; Xs / sei multino- mg2 angenommen werden. Wie groß ist die Wahrscheinlichkeit,
mialverteilt mit Parametern n und p1 ; : : : ; ps . Zeigen Sie, dass dass eine Messung um weniger als 0:45 mg (weniger als 0:9 mg)
die Kovarianzmatrix von X singulär ist. vom wahren Wert abweicht?
Aufgaben 187
5.14 Die Zufallsvariable X sei N.; 2 /-verteilt. Wie 5.20 In der kinetischen Gastheorie werden die Kompo-
groß ist die Wahrscheinlichkeit, dass X vom Erwartungswert nenten Vj des Geschwindigkeitsvektors V D .V1 ; V2 ; V3 / eines
betragsmäßig um höchstens das k-Fache der Standardabwei- einzelnen Moleküls mit Masse m als stochastisch unabhängige
chung abweicht, k 2 f1; 2; 3g? und je N.0; kT =m/-verteilte Zufallsvariablen betrachtet. Hier-
q
bei bezeichnen k die Boltzmann-Konstante und T die absolute
5.15 Zeigen Sie, dass die Verteilungsfunktion ˚ der Temperatur. Zeigen Sie, dass Y WD V1 C V22 C V32 die Dichte
2
Kapitel 5
p b) V .X / D V .Y / D 181
,
2 3 2 3 2 1 1
f .x1 ; x2 / D exp x1 x1 x2 x2 ; .x1 ; x2 / 2 R : c) Cov.X ; Y / D 36 , .X ; Y / D 2 .
2
2 2
a) Bestimmen Sie die Dichten der Marginalverteilungen von X1 5.26 Der Zufallsvektor .X1 ; : : : ; Xk / besitze eine
und X2 . Sind X1 ; X2 stochastisch unabhängig? nichtausgeartete Normalverteilung Nk .I ˙/. Zeigen Sie: Ist ˙
b) Welche gemeinsame Dichte besitzen Y1 WD X1 C X2 und eine Diagonalmatrix, so sind X1 ; : : : ; Xk stochastisch unabhän-
Y2 WD X1 X2 ? Sind Y1 und Y2 unabhängig? gig.
5.19 Die Zufallsvariablen X ; Y seien unabhängig und 5.27 Zeigen Sie, dass in der Situation von Abb. 5.23
je Exp./-verteilt, wobei > 0. Zeigen Sie: Der Quotient X =Y der zufällige Ankunftspunkt X auf der x-Achse die Cauchy-
besitzt die Verteilungsfunktion Verteilung C.˛; ˇ/ besitzt.
a) EX k D jk1 ˛Cj ˇ n ˇ
D0 ˛CˇCj , k 2 N, ˇY Y n
ˇ
˛ˇ ˇ r s ˇ n ": (5.112)
b) EX D ˛Cˇ˛
, V .X / D .˛CˇC1/.˛Cˇ/ 2. ˇ j j ˇ
ˇj D1 j D1 ˇ
c) Sind V und W stochastisch unabhängige Zufallsvariablen,
wobei V .˛; / und W .ˇ; /, so gilt
b) Es seien Pmn die Gleichverteilung auf ˝mn (vgl. Aufgabe 5.37)
V sowie uj ; vj 2 Œ0; 1 mit uj < vj für j D 1; : : : ; n. Weiter sei
BE.˛; ˇ/: A WD f.a1 ; : : : ; an / 2 ˝mn W uj aj vj für j D 1; : : : ; ng.
V CW
Zeigen Sie mithilfe von (5.112):
5.34 Die Zufallsvariable Z besitze eine Gamma- ˇ ˇ
ˇ Y ˇ
Verteilung .r; ˇ/, wobei r 2 N. Die bedingte Verteilung der ˇ n n
ˇ n
ˇP .A/ .v u ˇ
j ˇ
/ :
Zufallsvariablen X unter der Bedingung Z D z, z > 0, sei die ˇ m j
m
ˇ j D1 ˇ
Poisson-Verteilung Po.z/. Welche Verteilung hat X ?
Aufgaben 189
5.39 Es sei zj C1 azj C b (mod m) das iterative li- 5.45 Die Zufallsvariablen X1 ; X2 ; : : : seien identisch
neare Kongruenzschema des linearen Kongruenzgenerators mit verteilt, wobei EjX1 j < 1. Zeigen Sie:
Startwert z0 , Modul m, Faktor a und Inkrement b (siehe die
1
Hintergrund-und-Ausblick-Box über den linearen Kongruenz- lim E max jXj j D 0:
n!1 n j D1;:::;n
generator in Abschn. 5.2). Weiter seien d 2 N mit d 2 und
5.46 Es sei .X1 ; X2 / ein zweidimensionaler Zufalls-
Zi WD .zi ; zi C1 ; : : : ; zi Cd 1 /> ; 0 i < m:
vektor mit 0 < V .X1 / < 1, 0 < V .X2 / < 1. Zeigen Sie:
Mit WD .X1; X2 / gilt für jedes " > 0:
Dabei bezeichne u> den zu einem Zeilenvektor u transponierten 0 1 p
[2 q
Kapitel 5
5.42 Es seien X eine Zufallsvariable und p eine positi- b) Ist Y eine Zufallsvariable mit Dichte g, so besitzt Y die cha-
ve reelle Zahl. Man prüfe, ob die folgenden Aussagen äquivalent rakteristische Funktion
sind: 2
.t / D f .t /; t 2 R:
a) EjX p c
P1 j < 1,
b) nD1 P jX j > n1=p < 1. 5.52
a) Es seien X und Y unabhängige und je Exp.1/-verteilte Zu-
5.43
fallsvariablen. Bestimmen Sie Dichte und charakteristische
a) Es sei X eine Zufallsvariable mit EjX jp < 1 für ein p > 0. Funktion von Z WD X Y .
Zeigen Sie: Es gilt EjX jq < 1 für jedes q 2 .0; p/. b) Zeigen Sie: Eine Zufallsvariable mit der Cauchy-Verteilung
b) Geben Sie ein Beispiel für eine Zufallsvariable X mit C.0; 1/ besitzt die charakteristische Funktion .t / D
EjX j D 1 und EjX jp < 1 für jedes p mit 0 < p < 1 exp.jt j/, t 2 R.
an. c) Es seien X1 ; : : : ; Xn unabhängig und identisch verteilt mit
Cauchy-Verteilung C.˛; ˇ/. Dann gilt:
5.44 Es sei X eine Zufallsvariable mit EX 4 < 1 und 1 X
n
5.53 Es sei h eine positive reelle Zahl. Die Zufallsvaria- 5.60 Es seien .Xn /n0 und .Yn /n0 Submartingale bzgl.
ble X besitzt eine Gitterverteilung mit Spanne h, falls ein a 2 R der gleichen Filtration F D .Fn /n0 . Zeigen Sie, dass auch
existiert, sodass P X .fa C hm j m 2 Zg/ D 1 gilt. (Beispiele für .max.Xn ; Yn //n0 ein Submartingal bzgl. F ist.
a D 0; h D 1: Binomialverteilung, Poissonverteilung). Bewei-
sen Sie die Äquivalenz der folgenden Aussagen: 5.61 Es seien und Stoppzeiten bzgl. einer Filtra-
X tion F D .Fn /n0 mit der Eigenschaft . Zeigen Sie,
a) ˇ eine Gitterverteilung mit Spanne h.
ˇ besitzt
b) ˇ'X 2 ˇ D 1. dass für die zugehörigen -Algebren A und A der - bzw.
h
c) j'X .t /j ist periodisch mit Periode 2 . -Vergangenheit die Inklusion A A besteht.
h
5.54 Es sei X eine Zufallsvariable mit charakteristi- 5.62 Es sei .Xn /n0 ein Martingal bzgl. einer Filtration
scher Funktion '. Zeigen Sie: Es gilt F mit E.Xn2 / < 1 für jedes n 0. Zeigen Sie:
Kapitel 5
Antwort 5 Ein Wendepunkt an einer Stelle x liegt vor, wenn F .x/ F .F 1 .p//, und wegen der rechtsseitigen Stetigkeit
f 00 .x/ D 0 gilt. Mit der Ketten- und Produktregel ergibt sich von F gilt F .F 1 .p// p.
.x /2 2 Antwort 10 Nach (5.45) und Tab. 5.2 ist das obere Quartil
f 00 .x/ D f .x/ durch
4
Antwort 6 Mit D 4 und 2 D 4 gilt nach (5.23) gegeben. Wegen ˚ 1 .0:25/ D ˚ 1 .0:75/ D 0:667 ist der
Quartilsabstand Q3=4 .F / Q1=4 .F / gleich 1:334.
x4
P .X x/ D ˚ Antwort 11 Bezeichnet F die Verteilungsfunktion von X , so
2
ist wegen der Stetigkeit von F Aussage (5.46) gleichbedeutend
und damit wegen P .a X b/ D P .a < X b/ mit
Nun ist mit geeigneten Substitutionen und unter der Vorausset- Antwort 17 Im Fall X Po./ gilt
zung f .a C t / D f .a t /
X 1
k it k X1
1 it k k
ZaCt Zt E eitX D e e D e e
kŠ kŠ
kD0 kD0
F .a C t / D f .x/ dx D f .a C u/ du
1 1
D e exp eit D exp..eit 1//:
Zt Zat
D f .a u/ du D f .x/ dx Antwort 18 Es seien W D U C iV , Z D X C iY die
1 1 Zerlegungen von W und Z in Real- und Imaginärteil. Es gilt
Z1 W Z D UX V Y C i.U Y C V X /. Hier sind wegen der Un-
D f .x/ dx D 1 F .a t /: abhängigkeit von W und Z auf der rechten Seite die Faktoren
jedes auftretenden Paars von Zufallsvariablen stochastisch un-
at
abhängig. Die bekannte Multiplikationsformel liefert somit
Antwort 12 Andernfalls gäbe es mindestens ein x0 mit F .x0 / E.W Z/ D EU EX EV EY C i.EU EY C EV EX /:
F .x0 / > 0. Damit wäre P .F .X / 2 .F .x0 /; F .x0 /// D 0,
also U D F .X / nicht gleichverteilt auf .0; 1/. Die rechte Seite ist gleich EW EZ.
.˛/ .˛/
0 B
Z
D PZDz
X
.C /P Z.dz/;
Antwort 16 Wir zerlegen Z D U C iV und c D a C i b jeweils
in Real- und Imaginärteil. Dann gilt B
Nach Definition des Integrals einer komplexwertigen Zufallsva- Antwort 22 Hat man die Existenz von Y im Fall X 0
riablen folgt gezeigt, so liefert die Zerlegung X D X C X in Positiv-
und
R R G -messbare
Negativteil
C
R Y1 und Y2 mit
RZufallsvariablen
E.cZ/ D E .aU bV / C iE .aV C bU / A Y1 dP D A X dP und A Y2 dP D A X dP für jedes
A 2 G . Dann leistet Y WD Y1 Y2 das Verlangte.
D aEU bEV C i .aEV C bEU /
D .a C ib/ .EU C iEV / Antwort 23 Ist .In / eine aufsteigende Folge endlicher Teil-
D c EZ: mengen von I mit In " I , so gilt Y 1fIn g ! Y 1fI g (element-
weise auf ˝). Weiter gilt jY 1fIn gj jY j, und die Behauptung
Dabei existieren wegen EjZj < 1 alle auftretenden Erwar- folgt aufgrund der Additivität des Integrals mit dem Satz von
tungswerte. der dominierten Konvergenz.
Antworten zu den Selbstfragen 193
X
n
.C X /n D Ck .Xk Xk1 /:
kD1
Kapitel 5
Konvergenzbegriffe und
Grenzwertsätze – Stochastik 6
für große Stichproben
Wie stehen die Begriffe fast
sichere Konvergenz,
stochastische Konvergenz,
Konvergenz im p -ten
Mittel und
Verteilungskonvergenz
zueinander?
Was besagt das starke
Gesetz großer Zahlen?
Was besagt der
Stetigkeitssatz von
Lévy-Cramér?
Warum ist der Zentrale
Grenzwertsatz von
Lindeberg-Feller zentral ?
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 195
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_6
196 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
In diesem Kapitel lernen wir mit der fast sicheren Konvergenz, Selbstfrage 1
der stochastischen Konvergenz, der Konvergenz im p-ten Mittel Ist der Grenzwert einer fast sicher konvergenten Folge mit
und der Verteilungskonvergenz die wichtigsten Konvergenzbegrif- Wahrscheinlichkeit eins eindeutig bestimmt?
fe der Stochastik kennen. Hauptergebnisse sind das starke Gesetz
großer Zahlen von Kolmogorov und die Zentralen Grenzwertsätze
von Lindeberg-Lévy und Lindeberg-Feller. Diese Resultate zählen zu Wie wir sehen werden, ist der obige Konvergenzbegriff recht
den Glanzlichtern der klassischen Wahrscheinlichkeitstheorie, und einschneidend, und die fast sichere Konvergenz einer Folge von
sie sind bei der Untersuchung statistischer Verfahren für große Zufallsvariablen kann oft nur mit einigem technischen Aufwand
Stichproben unverzichtbar. Wir haben beim Beweis des Zentralen nachgewiesen werden. Eine handliche notwendige und hinrei-
Grenzwertsatzes von Lindeberg-Lévy bewusst auf charakteristische chende Bedingung für die fast sichere Konvergenz liefert der
Funktionen verzichtet und einen relativ elementaren Zugang von nachstehende Satz.
Stein gewählt. Damit wird dieser Satz auch für Leserinnen und Le-
ser zugänglich, die mit charakteristischen Funktionen nicht vertraut
sind. Bei allen Betrachtungen sei im Folgenden ein fester Wahr- Charakterisierung der fast sicheren Konvergenz
scheinlichkeitsraum .˝; A; P / zugrunde gelegt. Wir erinnern an Die folgenden Aussagen sind äquivalent:
dieser Stelle an die bequeme Notation, bei Ereignissen, die mithilfe
f.s.
von Zufallsvariablen geschrieben werden, die hierdurch gegebenen a) Xn ! X ,
Elemente ! 2 ˝ zu unterdrücken. So ist etwa für reelle Zufallsva- b) limn!1 P supkn jXk X j > " D 0 8" > 0.
riablen X ; X1 ; X2 ; : : : und k 2 N sowie " > 0
n o n o
sup jXn X j > " WD ! 2 ˝ j sup jXn .!/ X .!/j > " :
nk nk Beweis Die nachfolgende Beweisführung macht starken Ge-
brauch von der am Ende des Kapitelvorworts in Erinnerung
gerufenen Konvention, durch Zufallsvariablen definierte Ereig-
nisse in kompakter Form ohne „! 2 ˝ j “ zu schreiben.
6.1 Konvergenz fast sicher,
stochastisch und im p-ten Mittel Um „a) ) b)“ zu zeigen, seien " > 0 beliebig sowie An WD
fsupkn jXk X j > "g, C WD flimn!1 Xn D X g und Bn WD
C \ An gesetzt. Nach Voraussetzung gilt dann P .C / D 1, und
In der Analysis lernt man zu Beginn des Studiums die punkt- zu zeigen ist limn!1 P .An / D 0. Die Definition des Supre-
weise und die gleichmäßige Konvergenz von Funktionenfolgen
kennen. In der Stochastik ist bereits die punktweise Konver- T Bn
BnC1 , n 1, und die Definition von C und
mums liefert
An ergibt 1 nD1 Bn D ;. Da P stetig von oben ist und wegen
genz zu stark, da Mengen, die die Wahrscheinlichkeit null P .C / D 1 die Gleichheit P .An / D P .Bn/ besteht, folgt wie
besitzen, irrelevant sind. Nach diesen Vorbemerkungen drängt behauptet
sich der folgende Konvergenzbegriff für reelle Zufallsvariablen
X ; X1 ; X2 ; : : : auf einem Wahrscheinlichkeitsraum .˝; A; P / 0 D lim P .Bn / D lim P .An /:
n!1 n!1
nahezu auf.
Für die Umkehrung „b) ) a)“ seien An und C wie oben sowie
D" WD flim supn!1 jXn X j > "g. Nach Definition des Li-
Definition der fast sicheren Konvergenz mes superior erhalten wir D" An für jedes n 1 und somit
P .D" / D 0, da nach Voraussetzung P .An / gegen null konver-
Die Folge .Xn /n1 konvergiert (P -)fast sicher gegen X , giert. Weiter gilt
wenn
[1
n o C Dc
lim sup jXn X j >
1
P ! 2 ˝ j lim Xn .!/ D X .!/ D 1 (6.1) n!1 k
n!1 kD1
f.s.
und somit wegen der -Subadditivität von P
gilt, und wir schreiben hierfür Xn ! X .
X
1
0 P .C c / P .D1=k / D 0; also P .C / D 1:
kD1
Fast sichere Konvergenz bedeutet punktweise Mithilfe des Lemmas von Borel-Cantelli in Abschn. 3.4 erhält
man folgende hinreichende Bedingung für fast sichere Konver-
Konvergenz fast überall
Kapitel 6
genz.
Nennen wir eine Menge ˝0 2 A eine Eins-Menge, wenn
f.s.
P .˝0/ D 1 gilt, so besagt Xn ! X , dass die Folge .Xn / Reihenkriterium für fast sichere Konvergenz
auf einer Eins-Menge punktweise gegen X konvergiert. Fast P1
Gilt nD1 P .jXn X j > "/ < 1 für jedes " > 0, so
sichere Konvergenz bedeutet also „fast überall punktweise Kon- f.s.
vergenz“. Dass die in (6.1) stehende Menge zur -Algebra A folgt Xn ! X .
gehört, zeigt Übungsaufgabe 6.1.
6.1 Konvergenz fast sicher, stochastisch und im p-ten Mittel 197
Beweis Aus der Konvergenz obiger Reihe ergibt sich mit dem Aus der Teilmengenbeziehung
Lemma von Borel-Cantelli sowie nach Definition des Limes Su- ( )
perior einer Mengenfolge fjXn X j > "g sup jXk X j > " ; " > 0;
!
\1 [1 kn
P fjXk X j > "g D 0 8" > 0: (6.2)
erhalten wir zusammen mit der Charakterisierung der fast siche-
nD1 kDn
ren Konvergenz:
Wegen
( )
[
1
fjXk X j > "g D sup jXk X j > " Satz über fast sichere und stochastische Konvergenz
kDn kn
f.s. P
und der Tatsache, dass diese Mengen absteigende Folgen bil- Aus Xn ! X folgt Xn
! X.
den, ist die linke Seite von (6.2) gleich limn!1 P .fsupkn jXk
X j > "g/. Die Charakterisierung der fast sicheren Konvergenz
liefert somit die Behauptung. Die Umkehrung dieser Aussage gilt in einem diskreten Wahr-
scheinlichkeitsraum (Aufgabe 6.3). Wie das folgende Beispiel
Video 6.1 Fast sichere und stochastische Konvergenz zeigt, ist jedoch die fast sichere Konvergenz i. Allg. stärker als
die stochastische Konvergenz.
Stochastische Konvergenz von Xn gegen X besagt also, dass X1 (ω) X2 (ω) X3 (ω)
für jedes (noch so kleine) " > 0 das Wahrscheinlichkeitsmaß
derjenigen ! 2 ˝, für die Xn .!/ außerhalb des "-Schlauchs
um X .!/ liegt, für n ! 1 gegen null konvergiert.
Anstelle von stochastischer Konvergenz oder auch P -stochasti-
scher Konvergenz findet man häufig die synonyme Bezeichnung
Konvergenz in Wahrscheinlichkeit. Gilt P .X D a/ D 1 für ein 1 ω 1 ω 1 ω
a 2 R, ist also P X D ıa die Einpunktverteilung (Dirac-Maß) im
P P X4 (ω) X5 (ω) X6 (ω)
Punkt a, so schreibt man anstelle von Xn
! X auch Xn
! a.
P
Im Fall Xn =an
! 0 für eine Zahlenfolge .an / mit an ¤ 0,
Kapitel 6
a) Xn
P
! X. Es seien X; X1 ; X2 ; : : : Rk -wertige Zufallsvektoren auf
b) Jede Teilfolge .Xnk /k1 von .Xn /n1 besitzt eine wei- einem Wahrscheinlichkeitsraum .˝; A; P /. Die Folge
f.s. .Xn /n1 konvergiert
tere Teilfolge .Xn0k /k1 mit Xn0k ! X .
f.s.
a) fast sicher gegen X (in Zeichen: Xn ! X), falls
Beweis Wir zeigen zunächst die Gültigkeit der Implikation P f! 2 ˝ W lim Xn .!/ D X.!/g D 1;
n!1
„a) ) b)“ und starten hierzu mit einer beliebigen Teilfol-
ge .Xnk /k1 von .Xn /. Da für jedes feste k 2 N die Folge P
P .jXn X j > 1=k/ gegen 0 konvergiert, gibt es eine Teilfolge b) stochastisch gegen X (kurz: Xn
! X), falls
.Xn0k /k1 mit
lim P .kXn Xk1 > "/ D 0 8" > 0:
n!1
1 1
P jXn0k X j > 2; k 1:
k k
Wählen wir zu vorgegebenem " > 0 die natürliche Zahl k so Im Rk gibt es neben der Maximum-Norm noch viele weitere
groß, dass die Ungleichung k 1 < " erfüllt ist, so folgt Normen wie z. B. die Summenbetragsnorm kxk1 WD jx1 jC: : :C
! jxk j oder die euklidische Norm. Da je zwei Normen k k und
X1
k k auf dem Rk in dem Sinne äquivalent sind, dass es positive
P sup jXn0r X j > " P .jXn0r X j > "/ Konstanten ˛ und ˇ mit
rk rDk
X
1
1 k k ˛ k k ; k k ˇ k k
P jXn0r X j >
r
rDk
gibt (siehe z. B. [1], Abschn. 19.3), könnten wir in der Definiti-
X
1
1 on der stochastischen Konvergenz anstelle der Maximum-Norm
: auch jede andere Norm wählen.
r2
rDk
P1 2
Bekanntlich ist die Konvergenz von Folgen im Rk zur Konver-
Wegen limk!1 rDk r D 0 liefert das Kriterium für fast si- genz jeder der k Koordinatenfolgen äquivalent. Ein analoges
f.s.
chere Konvergenz Xn0k ! X . Resultat gilt sowohl für die fast sichere als auch für die stochas-
tische Konvergenz von Zufallsvektoren im Rk . Versuchen Sie
Für die Beweisrichtung „b) ) a)“ seien " > 0 beliebig und kurz
sich einmal selbst an einem Beweis (siehe Aufgabe 6.21)!
an WD P .jXn X j > "/ gesetzt. Zu zeigen ist die Konvergenz
an ! 0. Nach Voraussetzung gibt es zu jeder Teilfolge .ank /k1
von .an / eine weitere Teilfolge .an0k /k1 mit Xn0k ! X , al-
f.s. Satz (Äquivalenz zu komponentenweiser Konver-
genz) Es seien X D .X .1/ ; : : : ; X .k/ / und Xn D
P .1/ .k/
so auch Xn0k
! X und somit limk!1 an0k D 0. Hieraus folgt
Kapitel 6
Kommentar Im Fall p D 1 spricht man kurz von Konver- Dass aus der stochastischen Konvergenz i. Allg. nicht die Kon-
genz im Mittel, für p D 2 ist die Sprechweise Konvergenz im vergenz im p-ten Mittel folgt, zeigt das nachstehende Beispiel.
200 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
p p p p
Beispiel Es seien ˝ WD Œ0; 1, A WD ˝ \ B, P WD 1˝ sowie so gilt En D En 1fAn g C En 1fBn g C En 1fCn g. Hier ist
X W 0 sowie Xn definiert durch der erste Summand auf der rechten Seite höchstens gleich " und
( der dritte wegen t p t s für t 1 kleiner oder gleich Esn . Der
n1=p ; falls 0 ! 1=n; zweite Summand ist wegen
Xn .!/ WD
0 sonst:
1fBn g
pn 1fBn g D sn sp
P
n
Dann gilt Xn ! X , denn es ist P .jXn X j > "/ D P .Xn D
n1=p / D 1=n ! 0. Andererseits gilt EjXn X jp D n 1=n D 1 höchstens gleich Esn =".sp/=p , sodass wir
für jedes n, was zeigt, dass keine Konvergenz im p-ten Mittel
vorliegt. J Epn " C Esn =".sp/=p C Esn
p
Zwischen der fast sicheren Konvergenz und der Konvergenz und somit lim supn!1 En " erhalten. Da " beliebig war,
im p-ten Mittel besteht ohne zusätzliche Voraussetzungen kei- folgt die Behauptung.
nerlei Hierarchie. So konvergiert die Folge .Xn / im obigen
Beispiel fast sicher gegen X , es liegt aber keine Konvergenz
im p-ten Mittel vor. Auf der anderen Seite konvergiert die Fol- 6.2 Das starke Gesetz großer Zahlen
ge .Xn / aus dem Beispiel zu Abb. 6.1 im p-ten Mittel gegen
X 0, aber nicht fast sicher. Das nachstehende Resultat gibt In diesem Abschnitt betrachten wir eine Folge X1 ; X2 ; : : : sto-
eine hinreichende Bedingung an, unter der aus der fast sicheren chastisch unabhängiger identisch verteilter reeller Zufallsvaria-
Konvergenz die Konvergenz im p-ten Mittel folgt. blen (kurz: u.i.v.-Folge) auf einem Wahrscheinlichkeitsraum
.˝; A; P /. Existiert das zweite Moment von X1 , gilt also
f.s.
EX12 < 1, so existieren auch der mit WD E.X1 / bezeich-
Satz Es gelte Xn ! X . Gibt es eine nichtnegative Zufallsva- nete Erwartungswert von X1 sowie die Varianz 2 WD V .X1 /,
riable Y 2 Lp (also E.Y p / < 1) mit der Eigenschaft jXn j Y und es gilt das schwache Gesetz großer Zahlen
P -fast sicher für jedes n 1, so folgt
1X
n
P
Lp Xj
! ;
Xn ! X : J n j D1
Beweis Es sei Zn WD jXn X jp . Wegen jXn j Y P -f.s. P4.2. Die Folge .X n / der arithmetischen Mittel
vgl. Abschn.
f.s. X n WD n1 jnD1 Xj konvergiert also für n ! 1 stochastisch
für jedes n und Xn ! X folgt jX j Y P -f.s., und somit gilt
f.s. gegen den Erwartungswert der zugrunde liegenden Verteilung.
jZn j .2Y /p P -f.s., n 1. Wegen Zn ! 0 liefert der Satz
von der dominierten Konvergenz wie behauptet E.Zn / ! 0.
Arithmetische Mittel von u.i.v.-Folgen aus L 1
Kommentar Aus der stochastischen Konvergenz folgt die konvergieren fast sicher
Konvergenz im Mittel, wenn die Folge .Xn / gleichgradig in-
tegrierbar ist, also der Bedingung Die obige Aussage lässt nur die Interpretation zu, dass es zu
jedem vorgegebenen " > 0 und jedem ı > 0 ein von " und
lim sup E ŒjXn j1fjXnj ag D 0 (6.5) ı abhängendes n0 gibt, sodass für jedes (einzelne) feste n mit
a!1 n1
n n0 die Ungleichung
genügt. Wir werden im Folgenden nicht auf diese Begriffs-
P jX n j > " ı
bildung eingehen, sondern verweisen hier auf weiterführende
Literatur. Abschließend zeigen wir noch, dass die Konvergenz erfüllt ist.SWollen wir erreichen, dass sogar die unendliche Ver-
im p-ten Mittel eine umso stärkere Eigenschaft darstellt, je grö- einigung 1 nDn0 fjX n j > "g eine Wahrscheinlichkeit besitzt,
ßer p ist (siehe hierzu auch Aufgabe 8.43). J die höchstens gleich ı ist, so müssen wir die fast sichere Kon-
vergenz
Satz Es seien X ; X1 ; X2 ; : : : Zufallsvariablen auf .˝; A; P /
1X
n
sowie 0 < p s < 1. Dann gilt: f.s.
Xj !
Kapitel 6
n j D1
Ls Lp
Xn ! X H) Xn ! X : J
nachweisen, denn diese ist nach der Charakterisierung der fast
sicheren Konvergenz in Abschn. 6.1 gleichbedeutend mit
Beweis Es seien n WD jXn X j sowie " > 0 beliebig.
Setzen wir !
[
1
lim P jX n j > " D 0 für jedes " > 0:
An D fn "1=p g; Bn D f"1=p < n < 1g; Cn D f1 n g; n!1
kDn
6.2 Das starke Gesetz großer Zahlen 201
In dieser Hinsicht bildet das folgende Resultat ein Hauptergeb- zweiten Schritt die Zufallsvariable Xn in der Höhe n und set-
nis der klassischen Wahrscheinlichkeitstheorie. zen
Yn WD Xn 1fXn ng
Starkes Gesetz großer Zahlen von Kolmogorov
sowie Tn WD Y1 C Y2 C : : : C Yn , n 1.
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum .˝; A; P /. Dann sind Wir behaupten, dass
folgende Aussagen äquivalent:
Sn Tn f.s.
P f.s. ! 0 (6.8)
a) n1 jnD1 Xj ! X für eine Zufallsvariable X . n n
b) EjX1j < 1 . gilt und somit „nur“
In diesem Fall gilt X D EX1 P -fast sicher und somit
Tn f.s.
! EX1 (6.9)
1 X
n
f.s.
n
Xj ! EX1 :
n j D1 zu zeigen ist. Der Beweis von (6.8) ist schnell erbracht: Wegen
der identischen Verteilung der Xj und der Darstellungsformel
(5.42) für den Erwartungswert gilt
Wegen
Zu jedem ! aus einer Eins-Menge ˝0 gibt es also ein (von !
Z1 Zn abhängendes) n0 mit Xk .!/ D Yk .!/ für jedes k n0 . Für
X
1
jedes solche ! gilt demnach für jedes n n0
P .jX1j > t / dt D P .jX1j t / dt
ˇ ˇ
0 nD1n1
ˇ Sn .!/ Tn .!/ ˇ 1 Xn0
ˇ ˇ
X1
ˇ n n ˇ n jXj .!/ Yj .!/j:
P .jX1j n/ j D1
nD0
Da die rechte Seite gegen null konvergiert, folgt (6.8).
ergibt sich b) aus (6.7) und der Darstellungsformel (5.42) für
Um (6.9) nachzuweisen, untersuchen wir zunächst Tn =n entlang
den Erwartungswert.
der für ein beliebiges ˛ > 1 durch
Kapitel 6
Den Beweis der Richtung „b) ) a)“ unterteilen wir der Über- ˘
sichtlichkeit halber in mehrere Schritte. Zunächst zeigt eine kn WD ˛ n D maxf` 2 N j ` ˛g; n 1;
Zerlegung in Positiv- und Negativteil, dass ohne Beschränkung
der Allgemeinheit Xn 0 angenommen werden kann (Übungs- definierten Teilfolge. Wir behaupten die Gültigkeit von
aufgabe 6.6). Um Zufallsvariablen mit existierenden Varianzen
zu erhalten, die (hoffentlich) eine ausreichend gute Approxi- Tkn f.s.
! EX1 (6.10)
mation der Ausgangsfolge .Xn / bilden, stutzen wir in einem kn
202 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
und weisen diese Konvergenz nach, indem wir Hieraus folgt die Abschätzung
1 X 1 X
1 kn EX1 Sn Sn
EY 2 ˝.˛/ WD lim inf lim sup ˛ EX1 :
"2 nD1 kn2 j D1 j ˛ n!1 n n!1 n
T 1
1 X 1 X
1 kn Setzen wir schließlich ˝ WD rD1 ˝ 1 C r
1
, so gilt
D EŒX12 1fX1 j g P .˝ / D 1 und
"2 nD1 kn2 j D1
Sn .!/
1 X 1 D EX1
1
lim 8! 2 ˝ ;
EŒX12 1fX1 kn g n!1 n
"2 nD1 kn
" # f.s.
also Sn =n ! EX1 .
1 X1
1
D 2 E X1 2
1fX1 kn g :
" k
nD1 n Selbstfrage 4
Nach Aufgabe 5.52 besitzt das arithmetische Mittel von un-
Dabei haben wir beim letzten Ungleichheitszeichen den Sach- abhängigen Zufallsvariablen mit gleicher Cauchy-Verteilung
verhalt j kn und beim letzten Gleichheitszeichen den Satz C.˛; ˇ/ die gleiche Verteilung wie jeder Summand. Warum
von der monotonen Konvergenz verwendet. Um den Nachweis widerspricht dieses Ergebnis nicht dem starken Gesetz großer
von (6.13) abzuschließen, setzen wir M WD 2˛=.˛ 1/ sowie Zahlen?
für festes x > 0 n0 WD minfn 1 j kn xg. Die Ungleichung
Kapitel 6
Beispiel: Monte-Carlo-Integration
Selbst hochdimensionale Integrale können mithilfe von 0.88081, 0.88006, 0.88120, 0.87852, 0.87832 und 0.88132.
Pseudozufallszahlen beliebig genau bestimmt werden. In jedem dieser Fälle ist die betragsmäßige Abweichung vom
Rb wahren Wert höchstens gleich 0:002.
Es gibt verschiedene Methoden, um ein Integral
Pn a f .x/ dx R
durch eine geeignete Linearkombination j D0 aj f .xj / der Gilt B f 2 .x/ dx < 1, so können wir die Varianz der in
Funktionswerte von f in gewissen Stützstellen xj zu ap- (6.14) definierten Größe In angeben und eine Fehlerabschät-
proximieren. Bei den Newton-Cotes-Formeln liegen diese zung durchführen: Es ist dann
Stützstellen äquidistant, bei den Gauß-Quadraturformeln bil-
den sie Nullstellen orthogonaler Polynome. Die Theorie f2 WD V .jBjf .U1 // D jBj2 Ef 2 .U1 / .Ef .U1 //2
beschränkt sich fast ausschließlich auf den eindimensiona- 0 0 12 1
len Fall; numerische Quadratur in mehreren Dimensionen ist Z Z
B 1 1 @ C
ein weitestgehend offenes Forschungsgebiet. D jBj2 @ f 2 .x/ dx f .x/ dx A A
jBj jBj2
Was passiert, wenn wir die Wahl der Stützstellen Meister B B
Zufall überlassen? Hierzu seien B eine beschränkte Borel-
Menge im Rk mit 0 < jBj WD k .B/ und f eine auf B und somit V .In / D f2 =n. Die Varianz des Schätzers In
definierte messbare, Lebesgue-integrierbare und nicht fast für I konvergiert also invers proportional mit der Anzahl
überall konstante Funktion, die nicht notwendig stetig sein der Stützstellen gegen null, und diese Geschwindigkeit hängt
muss. Ist U ein Zufallsvektor mit der Gleichverteilung U.B/ nicht von der Dimension k des Problems ab! Eine Aussage
auf B, so existiert der Erwartungswert
R der Zufallsvariablen über den zufälligen Schätzfehler In I macht der Zentrale
f .U/, und es gilt Ef .U/ D B f .x/ jBj 1
dx D jBjI
, wobei Grenzwertsatz von Lindeberg-Lévy. Wenden wir diesen auf
R
I WD B f .x/ dx. die u.i.v.-Folge Xj WD jBjf .Uj /, j 1, an, so folgt
Ist .Un /n1 eine u.i.v.-Folge k-dimensionaler Zufallsvek- Pn P
toren mit U1 U.B/, so ist .f .Un //n1 eine u.i.v.- j D1 Xj nEX1 jBj jnD1 f .Uj / nI
p D p
Folge von Zufallsvariablen mit Erwartungswert Ef .U1 / D n V .X1 / n jBj2 V .f .U1 //
I =jBj. Nach dem starken Gesetz großer Zahlen gilt dann p
P f.s.
n .In I / D
n1 jnD1 f .Uj / ! I =jBj und somit D
! N.0; 1/
f
1X
n
f.s. für n ! 1.
In WD jBj f .Uj / ! I : (6.14)
n j D1
Wählt man zu einem kleinen ˛ 2 .0; 1/ die Zahl h D h˛
durch h˛ D ˚ 1 .1 ˛=2/, so ergibt sich
Wählt man also die Stützstellen aus dem Integrationsbereich
B rein zufällig und unabhängig voneinander, so ist die Zu-
h˛ f
fallsvariable In , deren Realisierungen man durch Simulation P jIn I j p !1˛
n
erhält, ein sinnvoller Schätzer für I . Realisierungen der Uj
gewinnt man mithilfe von Pseudozufallszahlen wie im Bei- und somit
spiel nach Abb. 5.30 beschrieben.
Als Zahlenbeispiel betrachten wir den Bereich B WD Œ0; 13 h˛ f h˛ f
lim P In p I In C p D 1 ˛:
und die Funktion f .x1 ; x2 ; x3 / WD sin.x1 C x2 C x3 /. In die- n!1 n n
sem Fall berechnet sich das Integral
Für ˛ D 0:05 ist h˛ D 1:96, und so enthält für großes n ein
Z1 Z1 Z 1 zufälliges Intervall mit Mittelpunkt In (dem mit Pseudozu-p
I WD sin.x1 C x2 C x3 / dx1 dx2 dx3 fallszahlen simulierten Wert) und Intervallbreite 3:92f = n
0 0 0
die unbekannte Zahl I mit großer Wahrscheinlichkeit 0:95.
Dass f nicht bekannt ist, bereitet kein großes Problem,
zu I D cos.3/C3 cos.1/3 cos.2/1 D 0:879354 : : : Zehn da es durch ein von U1 ; : : : ; Un abhängendes n ersetzt
Simulationen mit jeweils n D 10 000 Pseudozufallspunk- werden kann, ohne obige Grenzwertaussage zu ändern (Auf-
Kapitel 6
ten ergaben die Werte 0.87911, 0.87772, 0.88080, 0.87891, gabe 6.13).
204 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
wenn zusätzlich EX12 < 1 vorausgesetzt wird. Man beachte, Mithilfe der Kolmogorov-Ungleichung ergibt sich mit dem
dass in der Kolmogorov-Ungleichung nur die Unabhängigkeit, Kolmogorov-Kriterium eine hinreichende Bedingung für ein
aber nicht die identische Verteilung der Zufallsvariablen vor- starkes Gesetz großer Zahlen für nicht notwendig identisch
ausgesetzt ist. Zudem erinnern wir an die Definition Sk WD verteilte Zufallsvariablen mit existierender Varianz. Zur Vor-
Pk
j D1 Xj . J bereitung dieses Resultats stellen wir zwei Hilfssätze aus der
Analysis voran. Das erste ist nach Ernesto Cesàro (1859–1906),
das zweite nach Leopold Kronecker (1823–1891) benannt.
Kolmogorov-Ungleichung
Es seien X1 ; : : : ; Xn unabhängige Zufallsvariablen mit Das Lemma von Cesàro
EXj2 < 1, j D 1; : : : ; n. Dann gilt:
Sind .bn / eine Folge reeller Zahlen mit bn ! b 2 R für
n ! 1 und .an / eine monoton wachsende Folge positiver
1
P max jSk j " 2 V .Sn /; " > 0; reeller Zahlen mit limn!1 an D 1 (kurz: an " 1), so
1kn "
gilt mit der Festsetzung a0 WD b0 WD 0:
Pk
wobei Sk D j D1 .Xj EXj /, k D 1; : : : ; n.
1 X
n
lim .aj aj 1 /bj 1 D b:
n!1 an
j D1
Ak WD f! 2 ˝ j jSk .!/j "; jSj .!/j < " für j D 1; : : : ; k 1g b " bn b C " für jedes n k: (6.15)
P n
Setzen wir cn WD an1 j D1 .aj aj 1 /bj 1 , so folgt für n > k
P „erstmals zum Zeitpunkt k“ jSk .!/j " gilt,
das Ereignis, dass
so folgt wegen nkD1 Ak ˝
1 X
k
an ak
V .Sn / D ESn2 cn .aj aj 1 /bj 1 C .b C "/
an j D1 an
Xn
E Sn2 1fAk g und somit lim supn!1 cn b C ": Da " beliebig war, erhalten
kD1 wir lim supn!1 cn b. Verwendet man die erste Ungleichung
Xn
in (6.15), so ergibt sich völlig analog die noch fehlende Abschät-
D E .Sk C .Sn Sk //2 1fAk g zung lim infn!1 cn b.
kD1
X
n
Man beachte, dass sich für an D n das einfach zu merkende, als
E .Sk2 C 2Sk .Sn Sk //1fAk g Grenzwertsatz von Cauchy bekannte Resultat ergibt, dass mit
kD1 einer Folge auch die Folge der arithmetischen Mittel gegen den
Xn
X
n gleichen Grenzwert konvergiert.
D E Sk2 1fAk g C 2 E ŒSk .Sn Sk /1fAk g :
kD1 kD1
Das Lemma von Kronecker
Nach Definition von Ak gilt E Sk2 1fAk g "2 P .Ak /. Da die
Zufallsvariablen 1fAk gSk und Sn Sk nur von X1 ; : : : ; Xk bzw. Es seien .xn / eine reelle Folge und .an / eine Folge positi-
nur von XkC1 ; : : : ; Xn abhängen, sind sie nach dem Blockungs- ver Zahlen mit an " 1. Dann gilt:
lemma stochastisch unabhängig, was
X
1
xn 1 X
n
Ist konvergent, so folgt lim xj D 0:
E ŒSk .Sn Sk /1fAk g D E.Sk 1fAk g/ E.Sn Sk / an n!1 an
nD1 j D1
D E.Sk 1fAk g/ 0 D 0
In fast jeder reellen Zahl tritt jeder vorgegebene Ziffernblock mit der Wahrscheinlichkeit 1=10 geschieht. Die dj sind also
beliebiger Länge unter den Nachkommastellen asymptotisch identisch verteilt mit (6.16). Da für ein beliebiges k 2 und
mit gleicher relativer Häufigkeit auf. jede beliebige Wahl von m1 ; : : : ; mk 2 f0; 1; : : : ; 9g das Er-
eignis fd1 D m1 ; : : : ; dk D mk g genau dann eintritt, wenn
Eine reelle Zahl heißt normal (zur Basis 10), wenn in ih-
U in ein Intervall der Länge 10k fällt, gilt
rer Dezimalentwicklung unter den Nachkommastellen für
jedes k 1 jeder mögliche k-stellige Ziffernblock mit glei-
cher asymptotischer relativer Häufigkeit auftritt. In diesem Y
k
P .d1 D m1 ; : : : ; dk D mk / D P .dj D mj /;
Sinn kann offenbar keine rationale Zahl normal sein, da ihre
j D1
Dezimalentwicklung stets periodisch wird. Da es für die Nor-
malität einer Zahl nur auf die Nachkommastellen ankommt und somit sind d1 ; d2 ; : : : stochastisch unabhängig.
und insbesondere natürliche Zahlen nicht normal sind, fragen
wir, ob es normale Zahlen im Einheitsintervall ˝ WD .0; 1/ Setzen wir jetzt für festes m 2 f0; 1 : : : ; 9g Xj WD 1fdj D
gibt. mg, so ist .Xn /n1 eine u.i.v.-Folge mit EX1 D P .X1 D
1
m/ D 10 . Nach dem starken Gesetz großer Zahlen von Kol-
Um die eingangs gegebene verbale Beschreibung zu präzisie-
mogorov folgt somit für n ! 1
ren, halten wir zunächst fest, dass jede reelle Zahl ! 2 .0; 1/
genau eine nicht in einer unendlichen Folge von Neunen en-
1X 1X
n n
f.s. 1
dende Dezimalentwicklung Xj D 1fdj D mg ! :
n j D1 n j D1 10
X
1
dj .!/
!D D 0:d1 .!/d2.!/ : : :
10j Fast jede Zahl aus .0; 1/ besitzt also die Eigenschaft, dass je-
j D1
de Ziffer in der Folge der Nachkommastellen asymptotisch
mit dj .!/ 2 f0; 1; : : : ; 9g für jedes j besitzt. Die Ziffer mit gleicher relativer Häufigkeit auftritt.
dj .!/ steht dabei für die j -te Nachkommastelle von !. So Ist nun .i1 ; : : : ; ik / 2 f0; 1; : : : ; 9gk ein beliebiger Ziffern-
1
gilt z. B. 11 D 0:090909 : : : block, so setzen wir für ` 1
Ein k-stelliger Ziffernblock ist durch ein k-tupel
Y` WD 1fd` D i1 ; : : : ; d`Ck1 D ik g:
.i1 ; : : : ; ik / 2 f0; 1; : : : ; 9gk definiert. Eine Zahl ! 2 .0; 1/
ist genau dann normal, wenn für jedes k 1 und für jedes
der 10k möglichen Tupel .i1 ; : : : ; ik / gilt: Dann sind Y1 ; Y2 ; : : : identisch verteilte Zufallsvariablen mit
EY1 D P .X` D i1 ; : : : ; X`Ck1 D ik / D 10k . Darüber hi-
naus sind für jede Wahl von `; n 2 N die Zufallsvariablen Y`
1 X
n
1
lim 1fd` .!/ D i1 ; : : : ; d`Ck1 .!/ D ik g D k : und Yn stochastisch unabhängig, falls jn `j k C 1 gilt,
n!1 n 10
`D1 weil Y` und Yn dann von disjunkten Blöcken der unabhängi-
gen dj gebildet werden. Nach Aufgabe 6.25 gilt
Wir fassen d1 ; d2 ; : : : als Zufallsvariablen auf dem Grund-
1X 1X
n n
raum ˝ mit der Spur--Algebra A D B \ ˝ auf und legen f.s. 1
Y` D 1fd` D i1 ; : : : ; d`Ck1 D ik g ! k
als Wahrscheinlichkeitsmaß P die Gleichverteilung 1j˝ auf n n 10
`D1 `D1
˝ zugrunde. Den Schlüssel für eine auf Émile Borel (1909)
zurückgehende Aussage über normale Zahlen in .0; 1/ und für n ! 1. Dieses als Borels Satz über normale Zahlen
damit allgemeiner über normale Zahlen in R bildet die Beob- bekannte Resultat zeigt, dass nicht normale Zahlen eine Null-
achtung, dass .dj /j 1 eine Folge stochastisch unabhängiger menge bilden. Es ist jedoch bis heute ein ungelöstes Problem,
und identisch verteilter Zufallsvariablen ist, wobei ob konkrete Zahlen wie oder die Eulersche Zahl e normal
sind.
1
P .dj D m/ D ; m D 0; 1; : : : ; 9; (6.16) Man mache sich klar, dass wir anstelle der Dezimaldar-
10
stellung auch die Dualentwicklung oder eine allgemeine g-
gilt. Gilt U U.0; 1/, so tritt das Ereignis fdj D mg genau adische Entwicklung (mit entsprechender Definition einer
Kapitel 6
dann ein, wenn U in eine Vereinigung von 10j 1 paarweise normalen Zahl) hätten wählen können und sinngemäß zum
disjunkten Intervallen der jeweiligen Länge 10j fällt, was gleichen Ergebnis gelangt wären.
206 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
Das Fluktuationsverhalten von Partialsummen unabhängiger setzen und die Definition des Limes superior einer Mengen-
identisch verteilter Zufallsvariablen mit endlichem zweiten folge (vgl. Abschn. 3.4) beachten:
Moment ist genauestens bekannt.
!!
Es sei .Xn / eine Folge stochastisch unabhängiger und iden- \
1 [
1
P A1=k n B1=k D 1:
tisch verteilter Zufallsvariablen mit EX1 D 0 und V .X1 / D
kD1 kD1
1. Nach dem starken Gesetz großer Zahlen gilt dann mit
an WD n für die Folge .Sn / der Partialsummen Sn D X1 C
Dass eine solche Folge .n / existiert, hat für den Fall
: : : C Xn
P .X1 D 1/ D P .X1 D 1/ D 1=2 zuerst der russische
Sn Mathematiker Alexander Chintschin (1894–1959) bewiesen.
lim D 0 P -fast sicher: (6.17) Die Gestalt dieser Folge gibt dem folgenden Resultat dessen
n!1 an
Namen, siehe z. B. [4], S. 149.
Wir können hier die normierende Folge .an / sogar deutlich
verkleinern, ohne an der Grenzwertaussage etwas zu ändern.
Wählen wir zum Beispiel an WD n1=2C" für ein " > 0, so folgt Das Gesetz vom iterierten Logarithmus
aus der Konvergenz
In der obigen Situation gilt
X1
1 X1
1
D <1
a 2 n1C2" Sn
nD1 n nD1 P lim sup p D 1 D 1;
n!1 2n log log n
und dem Kolmogorov-Kriterium, dass (6.17) auch für diese
p Sn
Wahl von an gilt. Der Versuch, " D 0 und somit an D n P lim inf p D 1 D 1:
n!1 2n log log n
zu setzen,
p würde jedoch scheitern. Wir werden sehen, dass
Sn = n in Verteilung gegen eine Standardnormalverteilung
konvergieren würde.
Eine natürliche Frage betrifft das fast sichere Fluktuations- Die nachstehende
p Abbildung zeigtp
Graphen der Funktionen
verhalten von .Sn /n1 . Gibt es eine monoton wachsende n 7! 2n log log n und n 7! 2n log log n zusammen
Folge .n / positiver Zahlen, sodass für jedes feste positive mit zwei mithilfe von Pseudozufallszahlen erzeugten Fol-
" Folgendes gilt: gen .Sn / der Länge n D 2 500, denen jeweils das Modell
P .X1 D 1/ D P .X1 D 1/ D 1=2 zugrunde lag.
Sn
P 1 C " für unendlich viele n D 0;
n √
± 2n log log n
Sn 50
P 1 " für unendlich viele n D 1‹
n
25
Da der Durchschnitt von abzählbar vielen Eins-Mengen
ebenfalls eine Eins-Menge ist und die Vereinigung von ab-
zählbar vielen Mengen der Wahrscheinlichkeit 0 ebenfalls 0
500 2500 n
die Wahrscheinlichkeit 0 besitzt, folgt aus obigen Wahr-
scheinlichkeitsaussagen, wenn wir − 25
Sn Sn
A" WD lim sup 1 C " ; B" WD lim sup 1" − 50
n!1 n n!1 n
Kapitel 6
6.3 Verteilungskonvergenz 207
6.3 Verteilungskonvergenz
Kolmogorov-Kriterium
Es sei .Xn /n1 eine unabhängige Folge von Zufallsvaria- Wir wissen bereits, dass eine Folge von Zufallsvariablen fast
blen mit EXn2 < 1, n 1. Gilt für eine Folge .an / sicher, stochastisch oder auch im p-ten Mittel konvergieren
positiver reeller Zahlen mit an " 1 kann. In diesem Abschnitt lernen wir mit der Verteilungs-
konvergenz einen weiteren Konvergenzbegriff für Folgen von
X
1
V .Xn / Zufallsvariablen kennen, dem sowohl in theoretischer Hinsicht
< 1; als auch im Hinblick auf statistische Anwendungen eine zen-
an2
nD1 trale Rolle zukommt. Für die weiteren Betrachtungen seien
Pn X ; X1 ; X2 ; : : : reelle Zufallsvariablen auf einem Wahrschein-
f.s.
so folgt 1
an j D1 .Xj EXj / ! 0. lichkeitsraum .˝; A; P / mit zugehörigen Verteilungsfunktio-
nen
1 X
n
Das nachstehende Beispiel zeigt, dass es wenig Sinn machen
lim .Xj EXj / D 0 P -fast sicher. J würde, die Konvergenz der Folge .Fn / auch in Punkten zu for-
n!1 n
j D1
dern, in denen die Grenzfunktion F unstetig ist.
208 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
.3
◦ ◦ .2
x x
1/n −1/n
.1
Abb. 6.2 Graphen der Funktionen Fn (links) und Gn (rechts)
x
Beispiel Wir betrachten Folgen .Xn / und .Yn / mit P .Xn D −3 −2 −1 0 1 2 3 4 5
1=n/ D P .Yn D 1=n/ D 1, n 1. Die Zufallsvariablen Xn
und Yn besitzen also Einpunktverteilungen in 1=n bzw. 1=n. Abb. 6.3 Dichte der Gumbelschen Extremwertverteilung
Wegen limn!1 1=n D limn!1 1=n D 0 sollten sowohl Xn
als auch Yn in Verteilung gegen eine Zufallsvariable X konver-
gieren, die eine Einpunktverteilung in 0 besitzt. Nun hat Xn die und somit für genügend großes n
Verteilungsfunktion
n ex n
( Fn .x/ D 1 e.xClog n/ D 1 :
0; falls x < 1=n; n
Fn .x/ D
1 sonst; Es folgt
und Yn die Verteilungsfunktion lim Fn .x/ D G.x/; x 2 R;
n!1
(
0; falls x < 1=n; wobei G die durch G.x/ WD exp. exp.x// definierte Ver-
Gn .x/ D teilungsfunktion der sog. Extremwertverteilung von Gumbel
1 sonst
bezeichnet. Es gilt also
(s. Abb. 6.2), und es gilt D
( max Yj log n
! Z;
j D1;:::;n
0; falls x < 0;
lim Fn .x/ D lim Gn .x/ D
n!1 n!1 1; falls x > 0; wobei Z die Verteilungsfunktion G besitzt. Die Dichte g der
nach dem Mathematiker Emil Julius Gumbel (1891–1966) be-
aber 0 D limn!1 Fn .0/ ¤ limn!1 Gn .0/ D 1. Eine Zufalls- nannten Verteilung mit der Verteilungsfunktion G ist in Abb. 6.3
variable X mit P .X D 0/ D 1 besitzt die Verteilungsfunktion skizziert. J
F .x/ D 0, falls x < 0, und F .x/ D 1 sonst. Da die Konver-
genz in (6.18) nur in den Stetigkeitsstellen der Grenzfunktion Wohingegen der Grenzwert einer fast sicher konvergenten Fol-
D D ge von Zufallsvariablen P -fast sicher eindeutig ist und Gleiches
gefordert wird, gilt also Xn
! X und Yn
! X , wie es sein
für die stochastische Konvergenz und die Konvergenz im p-ten
sollte. J
Mittel gilt, kann bei einer nach Verteilung konvergenten Folge
Im nächsten Beispiel tritt eine Grenzverteilung auf, die in der nur geschlossen werden, dass die Grenzverteilung eindeutig be-
Extremwertstochastik eine bedeutende Rolle spielt. stimmt ist. Es gilt also
D D
Xn ! Y H) P X D P Y :
! X und Xn
Beispiel Die Zufallsvariablen Y1 ; Y2 ; : : : seien stochastisch
unabhängig und je exponentialverteilt mit Parameter 1, besitzen Bezeichnen nämlich F bzw. G die Verteilungsfunktionen von
also die Verteilungsfunktion X bzw. Y , so zieht die gemachte Voraussetzung die Gleichheit
( F .x/ D G.x/ 8x 2 C .F / \ C .G/ nach sich. Aufgrund der
1 exp.t /; falls t 0; rechtsseitigen Stetigkeit von F und G und der Abzählbarkeit
P .Y1 t / D
0 sonst : der Menge aller Unstetigkeitsstellen von F oder G gilt dann
F D G und somit P X D P Y .
Wir betrachten die Zufallsvariablen
Kapitel 6
f.s. Lp
Xn −→ X Xn −→ X Satz von Pólya
Ist die Grenzverteilungsfunktion F einer verteilungskon-
D
vergenten Folge Xn ! X von Zufallsvariablen Xn mit
Verteilungsfunktionen Fn stetig, so gilt
Xn −→ X
lim sup jFn .x/ F .x/j D 0:
n!1 x2R
und somit limn!1 P .Xn C Yn t / D P .X C a t / für eine einfache analytische Überlegung (Aufgabe 6.35) zeigt, dass
t a 2 C .F /, was zu zeigen war. Der Nachweis von b) ist eine aus der Konvergenz Fn .x/ ! F .x/ 8x 2 C .F / die Konver-
Übungsaufgabe. genz Fn1 .p/ ! F 1 .p/ in jeder Stetigkeitsstelle p von F 1
folgt. Es gilt also
Achtung Die Rechenregeln
lim Yn .p/ D Y .p/ 8p 2 C .F 1 /:
n!1
f.s. f.s. f.s.
Xn ! X ; Yn ! Y H) Xn C Yn ! X C Y ;
P P P
Da F 1 als monotone Funktion höchstens abzählbar viele Un-
Xn
! X ; Yn
! Y H) Xn C Yn
!X CY stetigkeitsstellen besitzt, folgt (6.21).
gelten nicht ohne Weiteres auch für die Verteilungskonvergenz.
Als Gegenbeispiel betrachten wir eine Zufallsvariable X
N.0; 1/ und setzen Xn WD Yn WD X für n 1 sowie Y WD X .
Verteilungskonvergenz vererbt sich
D D unter stetigen Abbildungen
Dann gelten Xn
! X und wegen Y N.0; 1/ auch Yn
! Y.
D
Es gilt aber Xn C Yn D 2Xn D 2X und somit Xn C Yn ! Die Nützlichkeit des Satzes von Skorokhod zeigt sich beim
N.0; 4/ 2X . Wegen X CY 0 konvergiert also Xn CYn nicht Nachweis des folgenden wichtigen Resultats.
D
in Verteilung gegen X C Y . Gilt jedoch allgemein .Xn ; Yn /
!
.X ; Y / im Sinne der in der Hintergrund-und-Ausblick-Box über
Veteilungskonvergenz und den zentralen Grenzwertsatz im Rk Abbildungssatz
in Abschn. 6.4 definierten Verteilungskonvergenz von Zufalls- Es seien X ; X1 ; X2 ; : : : Zufallsvariablen auf einem Wahr-
D
vektoren, so folgt Xn CYn
! X CY nach dem dort formulierten scheinlichkeitsraum .˝; A; P / und h W R ! R eine
Abbildungssatz. J messbare Funktion, die P X -fast überall stetig ist, also
P X .C .h// D 1 erfüllt. Dann gilt:
Obwohl Verteilungskonvergenz mit fast sicherer Konvergenz
D D
auf den ersten Blick wenig gemeinsam hat, besteht ein direkter Xn
! X H) h.Xn /
! h.X /:
Zusammenhang zwischen beiden Begriffen, wie das folgende,
auf den ukrainischen Mathematiker Anatolie Wladimirowitsch
Skorokhod (1930–2011) zurückgehende Resultat besagt.
Beweis Es seien . e̋ ; A e; e
P / und Yn ; Y wie im Beweis des
Satzes von Skorokhod. Nach diesem Satz existiert eine Men-
Satz von Skorokhod ge e̋ 0 2 A e mit e P . e̋ 0 / D 1 und limn!1 Yn .t / D Y .t /,
Es seien X ; X1 ; X2 ; : : : reelle Zufallsvariablen auf t 2 0 . Wegen 1 D P X .C .h// D e
e̋ P Y .C .h// gilt e
P . e̋ 1 / D
D 1, wobei e̋ 1 WD e̋ 0 \ Y 1 .C .h//. Für jedes t 2 e̋ 1 gilt
.˝; A; P / mit Xn ! X . Dann existieren auf einem limn!1 h.Yn .t // D h.Y .t // und somit h.Yn / ! h.Y / P e-fast
geeigneten Wahrscheinlichkeitsraum . e̋ ; A e; e
P / Zufalls- sicher. Da aus der fast sicheren Konvergenz die Verteilungskon-
variablen Y ; Y1 ; Y2 ; : : : mit vergenz folgt (s. Abb. 6.4), erhalten wir
e
PY D PX; e
P Yn D P Xn ; n 1; (6.20) D
e !e
P h.Yn / P h.Y / ;
D
also insbesondere Yn
! Y , und was wegen e eh.Y / D P h.X / äquivalent zu
P h.Yn / D P h.Xn / und P
D
lim Yn D Y e
P -fast sicher: (6.21) h.Xn /
! h.X / ist.
n!1
Selbstfrage 7
e
Warum gilt P h.Yn /
DP h.Xn /
?
Beweis Es seien F ; F1 ; F2 ; : : : die Verteilungsfunktionen von
X ; X1 ; X2 ; : : : Wir setzen
e; e Achtung Gilt EjXn j < 1 und EjX j < 1, so folgt aus
. e̋ ; A P / WD ..0; 1/; B \ .0; 1/; 1 j.0;1//; D D
Xn ! X i. Allg. nicht EXn ! EX . Obwohl mit Xn ! X
Kapitel 6
1
wobei j.0;1/ das auf das Intervall .0; 1/ eingeschränkte Borel- die Konvergenz Eh.Xn / ! Eh.X / für alle stetigen beschränk-
Lebesgue-Maß bezeichnet, sowie ten Funktionen h verknüpft ist, trifft dieser Sachverhalt für die
Funktion h.x/ D x zumindest ohne zusätzliche Voraussetzun-
Y .p/ WD F 1 .p/; Yn .p/ WD Fn1 .p/; n 1; p 2 e̋ : gen nicht zu. Ein instruktives Beispiel sind Zufallsvariablen
X ; X1 ; X2 : : : mit identischer Normalverteilung N.0; 1/, für die
Dabei ist allgemein G 1 die in (5.43) definierte Quantilfunktion D
zu einer Verteilungsfunktion G. Nach dem Satz über die Quan- ! X (und auch EXn ! EX ) gilt. Addieren
trivialerweise Xn
P
tiltransformation am Ende von Abschn. 5.3 gilt dann (6.20), und wir zu Xn eine Zufallsvariable Yn mit Yn
! 0, so gilt nach dem
6.3 Verteilungskonvergenz 211
Kriterien für Verteilungskonvergenz Völlig analog zeigt man lim supn!1 Fn .x/ F .x/, indem
man zu " > 0 eine Funktion g" aus Cb;1 mit der Eigenschaft
Die folgenden Aussagen sind äquivalent: 1.1;x g" 1.1;xC" wählt.
D
a) Xn ! X, Wir werden jetzt mit dem Konzept der Straffheit eine notwen-
b) limn!1 Eh.Xn / D Eh.X / 8h 2 Cb , dige Bedingung für Verteilungskonvergenz kennenlernen und
c) limn!1 Eh.Xn / D Eh.X / 8h 2 Cb;1 . beginnen hierzu mit einem auf Eduard Helly (1884–1943) zu-
rückgehenden Resultat.
Beweis Wir zeigen zunächst die Implikation „a ) b)“. Es Auswahlsatz von Helly
Kapitel 6
Auf dieser Seite haben wir die wichtigsten Konvergenzbe- Maßtheorie keine Rolle spielen. Die Konvergenz dem Maße
griffe für Funktionenfolgen in der Analysis, der Maßtheorie nach wird in Kap. 8 nicht behandelt. Sie besagt, dass für jedes
und der Stochastik zusammengestellt. Als gemeinsamer De- (noch so kleine) " > 0 das Maß der Menge aller !, für die
finitionsbereich der betrachteten reellwertigen Funktionen fn .!/ außerhalb des "-Schlauchs um f .!/ liegt, gegen null
sei eine nichtleere Menge ˝ zugrunde gelegt. konvergiert. Wir nehmen die Konvergenz dem Maße nach
hier auf, weil sie im Spezialfall eines Wahrscheinlichkeits-
maßes auf die stochastische Konvergenz führt. Für die Kon-
Konvergenzbegriffe der Analysis vergenz im p-ten Mittel wird natürlich vorausgesetzt, dass
Punktweise Konvergenz: die Funktionen fn und f p-fach integrierbar sind. Die Kon-
vergenz im p-ten Mittel ist vielleicht schon aus dem ersten
fn ! f W() lim fn .!/ D f .!/ 8! 2 ˝: Studienjahr für den Spezialfall des Lebesgue-Integrals auf
n!1
einem kompakten Intervall ˝ bekannt, siehe z. B. Abschn.
Gleichmäßige Konvergenz: 19.6 in [1]. Sie wird dort üblicherweise „Konvergenz bzgl.
der Lp -Norm“ genannt, weil die Menge der Äquivalenzklas-
fn H) f W() lim sup jfn .!/ f .!/j D 0:
n!1 !2˝ sen -fast überall gleicher Funktionen im Fall p 1 einen
R 1=p
Banach-Raum bzgl. der Norm kgkp WD jgjp d bildet
(s. den Kommentar am Ende von Abschn. 8.7). Das Beispiel
Das Beispiel ˝ D Œ0; 1, fn .!/ D ! n , f .!/ D 0 für zu Abb. 6.1 zeigt, dass eine dem Maße nach oder im p-ten
0 ! < 1 und f .1/ D 1 zeigt, dass die punktweise Mittel konvergente Folge in keinem einzigen Punkt konver-
Konvergenz der schwächere dieser Begriffe ist. Man beach- gieren muss.
te, dass der Wertebereich der Funktionen fn und f deutlich
In der Stochastik legt man einen Wahrscheinlichkeitsraum
allgemeiner sein kann, um punktweise und gleichmäßige
.˝; A; P / zugrunde und verwendet für die dann Zufalls-
Konvergenz von fn gegen f definieren zu können. Ist dieser
variablen genannten Funktionen auf ˝ die Bezeichnungen
Wertebereiche etwa ein metrischer Raum mit Metrik d , so
Xn WD fn und X WD f .
bedeutet punktweise Konvergenz von fn gegen f die Kon-
vergenz d .fn .!/; f .!// ! 0 für n ! 1 für jedes feste
! 2 ˝, und gleichmäßige Konvergenz von fn gegen f ist
gegeben durch limn!1 sup!2˝ d .fn .!/; f .!// D 0. Konvergenzbegriffe der Stochastik
Eine Modifikation der punktweisen Konvergenz sowie zwei P -fast sichere Konvergenz:
deutlich andere Konvergenzbegriffe ergeben sich, wenn die f.s.
Menge ˝ mit einer -Algebra A P .˝/ versehen ist Xn ! X W() P .f! j lim Xn .!/ D X .!/g/ D 1:
n!1
und ein Maß auf A zugrunde liegt. Man betrachtet dann
messbare Funktionen, was im Hinblick auf eine tragfähige Stochastische Konvergenz:
Theorie und Anwendungen jedoch keinerlei Einschränkung P
bedeutet. ! X W() lim P .jXn X j > "/ D 0 8" > 0:
Xn
n!1
Konvergenz im p-ten Mittel, 0 < p < 1: Die ersten drei Konvergenzbegriffe sind die entsprechen-
Z den Konvergenzbegriffe der Maßtheorie, spezialisiert auf
Lp den Fall eines Wahrscheinlichkeitsmaßes. Die Verteilungs-
fn ! f W() lim jfn f jp d D 0:
n!1 konvergenz verwendet die Verteilungsfunktionen Fn .x/ D
˝ P .Xn x/ und F .x/ D P .X x/ von Xn bzw. X . Sie ist
äquivalent zur Konvergenz
Die Konvergenz -fast überall ist die natürliche Ab- lim Eh.Xn / D Eh.X /
n!1
schwächung der punktweisen Konvergenz (überall), da -
Nullmengen, also Mengen N 2 A mit .N / D 0, in der für jede stetige beschränkte Funktion h W R ! R.
6.3 Verteilungskonvergenz 213
Beweis Es sei Q WD fr1 ; r2 ; : : :g die Menge der rationalen sich in Aufgabe 6.9, dass jede endliche Menge Q von Wahr-
Zahlen. Wegen 0 Fn .r1 / 1, n 1, gibt es nach dem Satz scheinlichkeitsmaßen straff ist.
von Bolzano-Weierstraß (vgl. [1], Abschn. 8.3) eine Teilfolge
.Fn1;j /j 1 von .Fn /, für die der Grenzwert Beispiel Es seien X1 ; X2 ; : : : Zufallsvariablen mit existieren-
den Erwartungswerten, für die die Folge .EjXn j/n1 beschränkt
G.r1 / WD lim Fn1;j .r1 / ist. Gilt etwa EjXn j M < 1 für jedes n, so ergibt sich mit
j !1
der Markov-Ungleichung für jedes c > 0
existiert. Da die Folge .Fn1;j .r2 //, j 1, beschränkt ist, lie-
fert der gleiche Satz eine mit .Fn2;j / bezeichnete Teilfolge von EjXn j M
P .jXnj > c/ :
.Fn1;j /j 1 , für die der Grenzwert c c
G.r2 / WD lim Fn2;j .r2 / Legen wir somit zu vorgegebenem " > 0 die Zahl c durch c WD
j !1 M " fest und setzen K WD Œc; c, so folgt
existiert. Fahren wir so fort, so ist .Fnj /j 1 mit nj WD nj ;j , P Xn .K/ D P .jXnj c/ D 1 P .jXnj > c/ 1 "
j 1, eine Teilfolge von .Fn /, sodass der Grenzwert
für jedes n 1. Die Menge fP Xn j n 1g ist somit straff. J
G.r/ WD lim Fnj .r/
j !1
Beispiel Die Zufallsvariable Xn sei Exp.n /-verteilt, n 1.
für jede rationale Zahl r existiert. Setzen wir Wegen EXn D EjXn j D 1=n ist die Menge fP Xn j n 1g
straff, wenn die Folge .1=n /n1 beschränkt ist. Dies ist genau
F .x/ WD inffG.r/ j r 2 Q; r > xg; x 2 R;
dann der Fall, wenn es ein a > 0 mit n 1=a, n 1, gibt. Die-
se Bedingung ist aber auch notwendig für die Straffheit. Würde
so ist F W R ! Œ0; 1 eine wohldefinierte monoton wachsende
es nämlich eine Teilfolge .nk /k1 mit nk ! 0 für k ! 1
Funktion. Zu jedem x 2 R und jedem " > 0 gibt es ein r 2 Q
geben, so würde für jede (noch so große) Zahl L > 0
mit x < r und G.r/ < F .x/ C ". Für jedes y 2 R mit x y <
r gilt dann F .y/ G.r/ < F .x/ C ". Somit ist F rechtsseitig
P .Xnk > L/ D exp.nk L/ ! 1
stetig. Ist F an der Stelle x stetig, so wählen wir zu beliebigem
" > 0 ein y < x mit F .x/ " < F .y/ und dann r; s 2 Q mit für k ! 1 gelten. Folglich kann es keine kompakte Menge
y < r < x < s und G.s/ < F .x/ C ". Wegen F .x/ " < K geben, für die zu vorgegebenem " > 0 für jedes n 1 die
G.r/ G.s/ < F .x/ C " und Fn .r/ Fn .x/ Fn .s/, n 1, Ungleichung P .Xn 2 K/ 1 " erfüllt ist. J
folgt dann
F .x/ " lim inf Fnk .x/ lim sup Fnk .x/ F .x/ C ";
k!1 k!1 Straffheit und relative Kompaktheit
also limk!1 Fnk .x/ D F .x/, da " > 0 beliebig war.
sind äquivalent
Das Beispiel der Folge .Fn / mit Fn .x/ D 1Œn;1/.x/ zeigt, dass
Straffheitskriterium
die Funktion F im Auswahlsatz von Helly keine Verteilungs-
funktion sein muss. In diesem Fall „wandert die bei Fn im Punkt Für eine Menge Q von Wahrscheinlichkeitsmaßen auf B
n konzentrierte Wahrscheinlichkeitsmasse nach unendlich ab“, sind folgende Aussagen äquivalent:
und für die Grenzfunktion F gilt F 0. Es stellt sich somit in
a) Q ist straff.
natürlicher Weise die Frage nach einer Bedingung an die Folge
b) Zu jeder Folge .Qn /n1 aus Q existieren eine Teilfolge
.Fn /, die garantiert, dass die Funktion im Satz von Helly eine
.Qnk /k1 und ein Wahrscheinlichkeitsmaß Q (welches
Verteilungsfunktion ist, also auch die Bedingungen F .x/ ! 1
nicht notwendig zu Q gehören muss!) mit
für x ! 1 und F .x/ ! 0 für x ! 1 erfüllt.
D
Qnk
!Q für k ! 1: (6.23)
Definition der Straffheit
Eine Menge Q von Wahrscheinlichkeitsmaßen auf der -
Algebra B heißt straff, falls es zu jedem " > 0 eine Beweis a) ) b): Es sei Fn die Verteilungsfunktion von Qn ,
Kapitel 6
kompakte Menge K R gibt, sodass gilt: also Fn .x/ D Qn ..1; x/, n 1; x 2 R. Nach dem Aus-
wahlsatz von Helly existieren eine Teilfolge .Fnk /k1 und eine
Q.K/ 1 " 8 Q 2 Q: monoton wachsende, rechtsseitig stetige Funktion F mit (6.22).
Da Q straff ist, gibt es zu beliebig vorgegebenem " > 0 reelle
Zahlen a; b mit a < b und
Diese Definition verhindert gerade, dass etwa wie im obigen
Beispiel Masse nach unendlich abwandert. Bitte überlegen Sie Qn ..a; b/ D Fn .b/ Fn .a/ 1 " 8 n 1:
214 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
Sind a0 ; b 0 2 C .F / mit a0 < a, b 0 > b, so folgt Beweis a) ergibt sich unmittelbar aus der Implikation b) ) a)
des Straffheitskriteriums. Um b) zu zeigen, nehmen wir an, die
1 " Qnk ..a; b/ Folge .Xn / würde nicht nach Verteilung gegen Q konvergieren.
Qnk ..a0 ; b 0 / Bezeichnen Fn die Verteilungsfunktion von Xn und F die Ver-
teilungsfunktion von Q, so gäbe es dann eine Stetigkeitsstelle
D Fnk .b 0 / Fnk .a0 /
x von F und ein " > 0, sodass für eine geeignete Teilfolge
! F .b 0 / F .a0 / für k ! 1: .Fnk /k1 von .Fn /
Also gilt limx!1 F .x/ D 1; limx!1 F .x/ D 0, und somit ist jFnk .x/ F .x/j > "; k 1; (6.25)
F eine Verteilungsfunktion. Wählen wir Q als das zu F gehö-
rende Wahrscheinlichkeitsmaß, so gilt (6.23). gelten würde. Da nach Voraussetzung die Menge fP Xn j n 1g
und damit auch die Teilmenge fP Xnk j k 1g straff ist, gibt es
b) ) a): Angenommen, Q sei nicht straff. Dann gibt es ein nach dem Straffheitskriterium eine Teilfolge .Xn0k / von .Xnk /,
" > 0 und eine Folge .Qn /n1 aus Q mit Qn .Œn; n/ < 1 ", die nach Voraussetzung nach Verteilung gegen Q konvergieren
n 1. Nach Voraussetzung existieren eine Teilfolge .Qnk /k1 müsste. Insbesondere müsste also Fn0k .x/ ! F .x/ für k ! 1
und ein Wahrscheinlichkeitsmaß Q mit (6.23). Wir wählen Ste- gelten, was jedoch (6.25) widerspricht.
tigkeitsstellen a; b der Verteilungsfunktion von Q so, dass gilt:
" Kommentar Die Straffheit einer Menge fP Xn j n 1g von
Q..a; b/ 1 : (6.24) Verteilungen von Zufallsvariablen wird als Straffheit der Folge
2
.Xn /n1 bezeichnet. Synonym hierfür ist auch die Sprechweise
Für hinreichend großes k gilt .a; b Œnk ; nk und somit die Folge .Xn /n1 ist stochastisch beschränkt. In Anlehnung an
die in der Analysis gebräuchliche Landau-Notation an D O.1/
1 " > Qnk .Œnk ; nk / für eine beschränkte Zahlenfolge .an / motiviert diese Sprech-
Qnk ..a; b/ weise die Schreibweise
! Q..a; b/ für k ! 1; Xn D OP .1/ (für n ! 1/
was jedoch im Widerspruch zu (6.24) steht. für die Straffheit von .Xn /n1 (vgl. die oP -Notation (6.4)). All-
gemeiner definiert man für eine Zahlenfolge .an / mit an ¤ 0,
Selbstfrage 8 n 1, die stochastische Beschränktheit der Folge .Xn =an /n1
Warum können wir Stetigkeitsstellen a und b der Verteilungs- durch
funktion von Q mit (6.24) wählen? Xn
Xn D OP .an / W() D OP .1/:
an
Wir können somit die im letzten Beispiel gefundene Charakteri-
Kommentar Die im obigen Straffheitskriterium in b) for-
sierung einer Folge .Xn / mit Xn Exp.n / wie folgt kompakt
mulierte Eigenschaft der Menge Q heißt relative Kompaktheit
formulieren:
von Q. Das Straffheitskriterium besagt also, dass Straffheit und
relative Kompaktheit äquivalent zueinander sind. Man beach- Xn D OP .1/ () inf n > 0: J
te die Analogie zum Begriff der relativen Kompaktheit einer n2N
Aus dem Straffheitskriterium können wir zwei wichtige Stetigkeitssatz von Lévy–Cramér
Schlussfolgerungen ziehen.
Es sei .Xn /n1 eine Folge von Zufallsvariablen mit zuge-
hörigen Verteilungsfunktionen Fn und charakteristischen
Satz über Straffheit und Verteilungskonvergenz Funktionen 'n . Dann sind folgende Aussagen äquivalent:
D D
a) Die Verteilungskonvergenz Xn ! X hat die Straff- a) Es gibt eine Verteilungsfunktion F mit Fn
! F.
heit der Menge fP Xn j n 1g zur Folge. Straffheit ist b) Für jedes t 2 R existiert '.t / WD limn!1 'n .t /, und
Kapitel 6
also eine notwendige Bedingung für Verteilungskon- die Funktion ' W R ! C ist stetig im Nullpunkt.
vergenz. Falls a) oder b) gilt, so ist ' die charakteristische Funktion
b) Ist fP Xn j n 1g straff und existiert ein Wahr- von F , es gilt also
scheinlichkeitsmaß Q, sodass jede schwach konvergen-
te Teilfolge .P Xnk /k1 gegen Q konvergiert, so gilt Z
D '.t / D eitx dF .x/; t 2 R:
P Xn
! Q.
6.4 Zentrale Grenzwertsätze 215
n = 20
Zentraler Grenzwertsatz von Lindeberg-Lévy
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum .˝; A; P / mit endlicher,
Kapitel 6
Video 6.2 Zentraler Grenzwertsatz für die Binomialverteilung an, so zeigt sich, dass die Grenzwerte limx!˙1 xg.x/ existie-
ren und somit die Funktion x ! xg.x/ gleichmäßig stetig ist.
Wegen (6.28) und der gleichmäßigen Stetigkeit von f ist dann
auch g 0 gleichmäßig stetig. Mit (6.28) folgt jetzt
Ef .Sn / D Eg 0 .Sn / E Sn g.Sn /
1 X
n
Kommentar Wir möchten dem Beweis einige Anmerkungen D Eg 0 .Sn / p E Xj g.Sn /
n j D1
voranstellen. Schreiben wir " Pn !#
p X1 j D2 Xj
Sn WD X1 C : : : C Xn ; n 1; D Eg .Sn / nE X1 g p C p
0
:
n n
für die n-te Partialsumme der Folge .Xn /, so steht auf der lin-
ken Seite von (6.26) gerade die aus Sn durch Standardisierung Dabei wurde beim zweiten Gleichheitszeichen verwendet, dass
hervorgehende Zufallsvariable die Paare .Xj ; X n /, j D 1; : : : ; n, aus Symmetriegrün-
den
Pn die gleiche
p Verteilung besitzen. Setzen wir kurz Zn WD
n X = n, so liefert eine Taylor-Entwicklung von g um die
Sn ESn 1 X Xj j D2 j
Sn D p D p : Stelle Zn
V .Sn / n j D1
X1 X1
g p C Zn D g .Zn / C g 0 .Zn / p
Da die Zufallsvariable .Xj /= standardisiert sind, also den n n
Erwartungswert 0 und die Varianz 1 besitzen, können wir im
X 1 X1
Beweis o.B.d.A. den Fall D EX1 D 0 und 2 D V .X1 / D 1 C g 0 Zn C n p g 0 .Zn / p
n n
annehmen. J
mit einer Zufallsvariablen n , wobei jn j 1. Mit
Beweis Nach den Vorbemerkungen und Kriterium c) für Ver-
teilungskonvergenz müssen wir für jede Funktion h 2 Cb;1 die X1
n WD g 0 Zn C n p g 0 .Zn / (6.29)
Konvergenz n
besteht. Da die Verteilungsfunktion ˚ der Standardnormalver- ten Zufallsvariablen liegt für großes n mit der approximativen
teilung stetig ist, gilt nach dem Satz von Pólya in Abschn. 6.3, Wahrscheinlichkeit
dass selbst der betragsmäßig größte Abstand p
0.682 in den Grenzen ESn ˙ 1 pV .Sn /,
ˇ S n ˇ
ˇ n ˇ 0.954 in den Grenzen ESn ˙ 2 pV .Sn /,
n WD sup ˇP p x ˚.x/ˇ
x2R n 0.997 in den Grenzen ESn ˙ 3 V .Sn /. J
zwischen der Verteilungsfunktion
p der standardisierten Summe
Sn D .Sn n/=. n/ und der Funktion ˚ gegen null kon- Beispiel Ein echter Würfel wird n-mal in unabhängiger Folge
vergiert. In diesem Zusammenhang ist es naheliegend, nach der geworfen; die Zufallsvariable Xj beschreibe das Ergebnis des
Konvergenzgeschwindigkeit von n gegen null zu fragen. Dies- j -ten Wurfs, 1 j n. Wir nehmen an, dass X1 ; : : : ; Xn
bezüglich gilt der Satz von Berry-Esseen: Falls EjX1 j3 < 1, so unabhängig und je auf f1; : : : ; 6g gleichverteilt sind. Wegen
gilt EX1 D 3:5 und V .X1 / D 35=12 2:917 (vgl. (4.17)) gilt dann
nach obigen Faustregeln für die mit Sn WD X1 C : : : C Xn be-
C ˇˇ X1 ˇˇ3 zeichnete Augensumme im Fall n D 100: Die Augensumme aus
n p Eˇ ˇ
n 100 Würfelwürfen liegt mit der approximativen Wahrschein-
p p lichkeit
für eine Konstante C mit 0:4097 . 10 C 3/=.6 2/ p
C 0:4690 . Die Konvergenzgeschwindigkeit beim Zen- 0.682 in den Grenzen 350 ˙ 291:7, also zwischen 333 und
tralen Grenzwertsatz von Lindeberg-Lévy ist also unter der 367, p
schwachen zusätzlichenpMomentenbedingung EjX1 j3 < 1 von 0.954 in den Grenzen 350 ˙ 2 291:7, also zwischen 316
der Größenordnung 1= n. und 384, p
0.997 in den Grenzen 350 ˙ 3 291:7, also zwischen 299
Video 6.3 Zentraler Grenzwertsatz für die Binomialverteilung: und 401. J
Optimale Fehlerabschätzung Wendet man den Satz von Lindeberg-Lévy auf Indikatorvaria-
blen Xj D 1fAj g unabhängiger Ereignisse Aj mit gleicher
Wahrscheinlichkeit p 2 .0; 1/ an, so ergibt sich das folgende
klassische Resultat von Abraham de Moivre (1667–1754) und
Pierre Simon Laplace (1749–1827).
Die Botschaft des Zentralen Grenzwertsatzes von Lindeberg- Zentraler Grenzwertsatz von de Moivre-Laplace
Lévy ist salopp formuliert, dass eine Summe Sn aus vielen Es sei Sn eine Zufallsvariable mit der Binomialverteilung
unabhängigen und identisch verteilten Summanden „im Limes Bin.n; p/, wobei 0 < p < 1. Dann gilt
n ! 1 die Verteilung eines einzelnen Summanden bis auf Er-
wartungswert und Varianz vergisst“. Durch Differenzbildung in Sn np D
p
! N.0; 1/ für n ! 1:
(6.30) ergibt sich np.1 p/
Sn n
lim P a p b D ˚.b/ ˚.a/ (6.31)
n!1 n
Beispiel Wir hatten in Aufgabe 4.25 die Anzahl der Sech-
für jede Wahl von a; b mit a < b. Wählt man in (6.31) speziell
sen in 6n unabhängigen Würfen eines echten Würfels betrachtet
b D k 2 N und a D b, so folgt wegen ESn D n und
und für n 2 f1; 2; 3g die Wahrscheinlichkeit bestimmt, dass in
V .Sn / D n 2 sowie ˚.k/ D 1 ˚.k/
6n Würfen mindestens n Sechsen auftreten. Diese Wahrschein-
p p lichkeiten berechneten sich zu 0:665 für n D 1, 0:618 für n D 2
lim P .ESn k V .Sn / Sn ESn C k V .Sn //
n!1 und 0:597 für n D 3, Damals wurde behauptet, dass sich hier
D 2˚.k/ 1: für n ! 1 der Grenzwert 1=2 ergibt. Diese Behauptung bestä-
tigt sich unmittelbar mit dem Zentralen Grenzwertsatz von de
Die Wahrscheinlichkeit, dass sich die Summe Sn von ihrem Er- Moivre-Laplace: Da die mit Sn bezeichnete Anzahl der Sechsen
wartungswert betragsmäßig um höchstens das k-Fache der Stan- in n Würfelwürfen die Verteilung Bin.n; 1=6/ besitzt, gilt
dardabweichung unterscheidet, stabilisiert sich also für n ! 1
gegen einen nur von k abhängenden Wert. Für die Fälle k D 1, Sn n 16 D
k D 2 und k D 3 gelten mit Tab. 5.1 die Beziehungen q
! N.0; 1/ für n ! 1
Kapitel 6
n 16 65
2˚.1/ 1 0:682;
2˚.2/ 1 0:954;
und somit
S6n n
2˚.3/ 1 0:997: P .S6n n/ D P q 0
6n 16 65
Obige Grenzwertaussage liefert somit die folgenden Faustre- 1
geln: Die Summe Sn von n unabhängigen und identisch verteil- ! 1 ˚.0/ D : J
2
218 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
Wie das folgende Beispiel zeigt, sind die Voraussetzungen des wegen (6.32) die Beziehung
Satzes von Lindeberg-Lévy selbst in einfachen Situationen nicht 2 2
gegeben. n1 C : : : C nkn
D1 (6.33)
besteht.
Beispiel (Anzahl der Rekorde) Es sei ˝n die Menge der
Permutationen der Zahlen 1; : : : ; n mit der Gleichverteilung Pn
auf ˝n . Bezeichnet Zentraler Grenzwertsatz von Lindeberg-Feller
An;j WD f.a1 ; : : : ; an / 2 ˝n j aj D max.a1 ; : : : ; aj /g Ist in obiger Situation eines Dreiecksschemas die
Lindeberg-Bedingung
das Ereignis, dass an der j -ten Stelle ein Rekord auftritt, so
haben wir in Aufgabe 3.28 gesehen, dass An;1 ; : : : ; An;n stochas- X
kn h i
tisch unabhängige Ereignisse sind und die Wahrscheinlichkeiten Ln ."/ WD E Ynj2 1fjYnj j "g ! 0 für jedes " > 0
Pn .An;j / D 1=j , j D 1; : : : ; n, besitzen. Die zufällige Anzahl j D1
Rn der Rekorde hat dann die Darstellung
erfüllt, so gilt
Rn D 1fAn;1 g C 1fAn;2 g C : : : C 1fAn;n g D
Sn
! N.0; 1/:
als Summe von unabhängigen, aber nicht identisch verteilten
Zufallsvariablen. Man beachte, dass für jedes n ein anderer
Grundraum (mit der Potenzmenge als -Algebra) und ein ande-
res Wahrscheinlichkeitsmaß vorliegen. Wir werden sehen, dass Beweis Wir stellen zunächst eine Vorbetrachtung über kom-
mit einer Verallgemeinerung des Zentralen Grenzwertsatzes von plexe Zahlen an. Sind z1 ; : : : ; zn ; w1 ; : : : ; wn 2 C mit
Lindeberg-Lévy gezeigt werden kann, dass Rn nach Standardi- jzj j; jwj j 1 für j D 1; : : : ; n, so gilt die leicht durch Indukti-
sierung für n ! 1 asymptotisch standardnormalverteilt ist. J on einzusehende Ungleichung
ˇYn Y
n ˇ X n
ˇ ˇ
Durch dieses Beispiel motiviert betrachten wir jetzt eine im ˇ zj wj ˇ jzj wj j (6.34)
Vergleich zum Satz von Lindeberg-Lévy allgemeinere Situati- j D1 j D1 j D1
on, bei der die Summanden von Sn zwar weiterhin stochastisch
unabhängig sind, aber nicht mehr die gleiche Verteilung besit- (Aufgabe 6.38). Bezeichnet 'nj die charakteristische Funktion
zen müssen. Genauer legen wir eine Dreiecksschema genannte von Xnj , so ist nach der Multiplikationsformel für charakteristi-
Qn
doppelt-indizierte Folge von Zufallsvariablen sche Funktionen die Funktion 'n D jkD1 'nj die charakteristi-
sche Funktion von Sn . Nach (5.64) und dem Stetigkeitssatz von
fXnj j n 2 N; j D 1; : : : ; kn g Lévy-Cramér ist somit die Konvergenz
zugrunde. Über diese setzen wir voraus, dass für jedes n die 2
t
n-te Zeile Xn1 ; Xn2 ; : : : ; Xnkn aus stochastisch unabhängigen lim 'n .t / D exp ; t 2 R;
n!1 2
Zufallsvariablen besteht. Dabei könnten Xn1 ; Xn2 ; : : : ; Xnkn für
jedes n auf einem anderen Wahrscheinlichkeitsraum definiert zu zeigen. Hierzu schreiben wir wegen (6.33) exp.t 2 =2/ in der
sein. Man beachte, dass sich die bisher betrachtete Situati- Form
on dieser allgemeineren unterordnet: Von einer unendlichen
2 Y kn
!
2 2
Folge X1 ; X2 ; : : : unabhängiger Zufallsvariablen stehen in der t nj t
n-ten Zeile des Dreiecksschemas die Zufallsvariablen Xn1 D exp D nj .t /; nj .t / D exp :
2 j D1
2
X1 ; : : : ; Xnn D Xn ; in diesem Fall ist also kn D n.
2
Wir nehmen weiter 0 < nj WD V .Xnj / < 1 an und setzen Da nj nach (5.65) die charakteristische Funktion einer mit
2
anj WD EXnj sowie Znj bezeichneten N.0; nj /-normalverteilten Zufallsvariablen
ist, folgt nach (6.34) und (5.67)
n2 WD n1
2 2
C : : : C nk : (6.32)
n
ˇYkn Y
kn ˇ
ˇ ˇ
Mit Sn WD Xn1 C : : : C Xnkn gilt dann ˇ 'nj .t / nj .t /ˇ
j D1 j D1
Sn E Sn X n k
Sn WD p D Ynj ; X
kn
V .Sn / j D1 j'nj .t / nj .t /j
Kapitel 6
j D1
wobei kn ˇ
X 2 2ˇ kn ˇ 2 2ˇ
Xnj anj ˇ nj t ˇ X ˇ nj t ˇ
Ynj WD ; j D 1; : : : ; kn : ˇ'nj .t / 1 C ˇC ˇ nj .t / 1 C ˇ
n 2 2
j D1 j D1
Man beachte, dass EYnj D 0 gilt und dass mit 0 1
Xkn h i X kn h i
V .Xnj / 2
nj c@ E Ynj2 .1 ^ jYnj j/ C E Znj 2
.1 ^ jZnj j/ A :
2
nj WD V .Ynj / D D j D1 j D1
n2 n2
6.4 Zentrale Grenzwertsätze 219
Zu zeigen bleibt also, dass beide Summen innerhalb der großen an. Die Lindeberg-Bedingung Ln ."/ ! 0 für jedes " > 0
Klammer für n ! 1 gegen 0 streben. Für die erste Summe gilt garantiert, dass jeder der Summanden Xnj , 1 j kn , nur
zu beliebigem " > 0 einen kleinen Einfluss auf die Summe Sn besitzt. Nach (6.35)
2 2
gilt ja – wenn wir nj D nj =n2 setzen –
X
kn h i
E Ynj2 .1 ^ jYnj j/ 2
maxj D1;:::;kn nj
j D1 lim D 0:
2 2
kn h i h i
n!1 n1 C : : : C nk
X n
E Ynj2 jYnj j1fjYnj j < "g C E Ynj2 1fjYnj j "g
j D1
Diese sog. Feller-Bedingung besagt, dass die maximale Va-
rianz eines einzelnen Summanden Xnj im Vergleich zur
X
kn X
kn
Varianz der Summe asymptotisch verschwindet. Mit der
2
" nj C Ln ."/: Markov-Ungleichung ergibt sich hieraus die sog. asympto-
j D1 j D1
tische Vernachlässigbarkeit
Wegen (6.33) und der Lindeberg-Bedingung folgt
1
h i lim max P jXnj anj j " D 0 8" > 0
X
kn
n!1 n2 1j kn
lim sup E Ynj2 .1 ^ jYnj j/ ";
n!1
j D1 der Zufallsvariablen .Xnj anj /=n , 1 j kn ; n 1.
und somit konvergiert die erste Summe gegen 0. Für die zweite Setzt man die asymptotische Vernachlässigbarkeit voraus, so
Summe beachten wir, dass Znj nj Z mit Z N.0; 1/ gilt. ist die Lindeberg-Bedingung sogar notwendig für die Gültig-
Damit ergibt sich keit des Zentralen Grenzwertsatzes. J
X
kn
D EjZj3 3
nj Satz von Ljapunov
j D1
X
kn In der Situation des Satzes von Lindeberg-Feller existiere
EjZj3 max nj 2
nj ein ı > 0 mit
j D1;:::;kn
j D1
1 X
kn
lim E jXnj anj j2Cı D 0 (6.36)
D EjZj 3
max nj : n!1 n2Cı j D1
j D1;:::;kn
\
k
für einen solchen Raum ist die Menge CŒ0; 1 der auf dem In-
P .Xn 2 K/ D P fjXn.j / j cg 1 "; tervall Œ0; 1 stetigen Funktionen mit der Metrik .f ; g/ WD
j D1 max0t 1 jf .t / g.t /j.
6.4 Zentrale Grenzwertsätze 221
Der Satz von Donsker: Ein Zentraler Grenzwertsatz für Par- Einpunktverteilung in 0 als ausgeartete Normalverteilung mit
tialsummenprozesse Varianz 0 auffassen. Mit dem multivariaten Zentralen Grenz-
wertsatz zeigt man, dass für jedes k 2 N und jede Wahl von
Es sei .Xn /n1 eine u.i.v.-Folge von Zufallsvariablen auf ei-
t1 ; : : : ; tk 2 Œ0; 1 mit 0 t1 < : : : < tk 1 die Folge der
nem Wahrscheinlichkeitsraum .˝; A; P / mit EX1 D 0 und
P Zufallsvektoren .Wn .t1 /; : : : ; Wn .tk // in Verteilung gegen ei-
V .X1 / D 1. Mit Sk WD jkD1 Xj , k 1, gilt nach dem ne k-dimensionale Normalverteilung mit Erwartungswert 0
Zentralen Grenzwertsatz von Lindeberg-Lévy und Kovarianzmatrix .min.ti ; tj //1i ;j k konvergiert.
1 D Nach einem berühmten Satz des US-amerikanischen Mathe-
p Sn
! N.0; 1/ für n ! 1:
n matikers Monroe Davis Donsker (1924–1991) (siehe z. B.
[5], S. 86 ff.) konvergiert die Folge .Wn / in Verteilung gegen
Eine weitreichende Verallgemeinerung dieses Resultats er- einen stochastischen Prozess (Familie von Zufallsvariablen)
D
gibt sich, wenn wir die Zufallsvariablen W D .W .t //0t 1. Diese Verteilungskonvergenz Wn
!W
ist definiert durch die Konvergenz
Sbnt c Xbnt cC1
Wn .t / WD p C .nt bnt c/ p ; (6.37)
n n lim Eh.Wn / D Eh.W /
n!1
0 t 1, S0 WD 0, betrachten. Man beachte, dass wir
das Argument ! 2 ˝ in der Notation sowohl bei Sbnt c und für jede beschränkte Funktion h W C Œ0; 1 ! R, die ste-
Xbnt cC1 als auch bei Wn .t / unterdrückt haben. Die Realisie- tig bzgl. der Supremumsmetrik ist. Sie beinhaltet die oben
rungen von Wn ./ sind aufgrund des linear interpolierenden beschriebene Konvergenz der sog. endlich-dimensionalen
D
Charakters des zweiten Summanden in (6.37) stetige Funk- Verteilungen und wegen Wn .1/
! N.0; 1/ insbesondere den
tionen auf Œ0; 1. Zentralen Grenzwertsatz von Lindeberg-Lévy.
Die Familie Wn WD .Wn .t //0t 1 heißt n-ter Partialsum-
menprozess von .Xn /. Versieht man die Menge C Œ0; 1 mit
der von den (durch die Supremumsmetrik induzierten) offe- 1
nen Mengen erzeugten Borelschen -Algebra, so ist Wn eine
0 t
C Œ0; 1-wertige Zufallsvariable auf ˝. Nachstehende Abbil- 0.5 1.0
dung zeigt drei Realisierungen von Wn für n D 100 im Fall −1
P .X1 D ˙1/ D 1=2.
−2
2
Realisierungen von W1 000
1
Zusammenfassung
Für Zufallsvariablen X ; X1 ; X2 ; : : : auf einem Wahrscheinlich- point) x von F . Ist F stetig, so liegt nach dem Satz von Pólya
keitsraum .˝; A; P / definiert man die P -fast sichere Konver- sogar gleichmäßige Konvergenz vor. Die Konvergenz Xn
!X
D
genz (engl.: almost sure convergence) von Xn gegen X durch ist gleichbedeutend mit
n o
P ! 2 ˝ j lim Xn .!/ D X .!/ D 1 lim Eh.Xn / D Eh.X / 8h 2 Cb :
n!1 n!1
! N.0; 1/:
für die Partialsummen Sn D X1 C : : : C Xn von unabhängigen V .Sn /
zentrierten Zufallsvariablen mit endlichen Varianzen. Letzterer folgt auch aus der Ljapunov-Bedingung (Ljapunov
D condition):
Die Verteilungskonvergenz Xn ! X (convergence in distri-
bution) ist definiert über die punktweise Konvergenz Fn .x/ ! 1 X
kn
F .x/ der Verteilungsfunktionen Fn von Xn gegen die Vertei- Es gibt ein ı > 0 mit lim EjXnj anj j2Cı D 0:
n!1 n2Cı j D1
lungsfunktion F von X in jeder Stetigkeitsstelle (continuity
224 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
6.4 Es seien X; X1 ; X2 ; : : : (als Spaltenvektoren auf- 6.9 Zeigen Sie, dass eine endliche Menge Q von
gefasste) d -dimensionale Zufallsvektoren auf einem Wahr- Wahrscheinlichkeitsmaßen auf B1 straff ist.
P
scheinlichkeitsraum .˝; A; P / mit Xn
! X und A; A1 ; A2 ; : : :
P
reelle .k d /-Matrizen mit An ! A. Zeigen Sie: An Xn
! 6.10 In einer Folge .Xn /n1 von Zufallsvariablen habe
A X. Xn die charakteristische Funktion
f.s. Cov.X1 ; Y1 / Yn an D
Rn ! p D %.X1 ; Y1 /:
!Z
V .X1 / V .Y1 / n
Kapitel 6
6.6 Zeigen Sie, dass für den Beweis des starken für eine Zufallsvariable Z. Zeigen Sie: Sind .bn / und .n / re-
Gesetzes großer Zahlen o.B.d.A. die Nichtnegativität der Zu- elle Folgen mit n > 0, n 1, und .an bn /=n ! 0 sowie
fallsvariablen Xn angenommen werden kann. n =n ! 1, so folgt
Rechenaufgaben Beweisaufgaben
6.16 Der Lufthansa Airbus A380 bietet insgesamt 526 6.21 Beweisen Sie den Satz über die Äquivalenz der
Fluggästen Platz. Da Kunden manchmal ihren Flug nicht an- fast sicheren bzw. stochastischen Konvergenz von Zufallsvekto-
treten, lassen Fluggesellschaften zwecks optimaler Auslastung ren zur jeweils komponentenweisen Konvergenz in Abschn. 6.1.
Kapitel 6
6.23 Es sei .Xn / eine Folge unabhängiger Zufalls- 6.29 Es seien X ; X1 ; X2 ; : : : I Y1 ; Y2 ; : : : Zufallsvaria-
variablen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit D
blen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn
!
P .Xn D 1/ D 1=n und P .Xn D 0/ D 1 1=n, n 1. Zei- P
gen Sie, dass die Folge .Xn / stochastisch, aber nicht fast sicher ! a für ein a 2 R. Zeigen Sie:
X und Yn
gegen null konvergiert.
D
Xn Yn
! a X:
6.24 Es sei V die Menge aller reellen Zufallsvariablen
auf einem Wahrscheinlichkeitsraum .˝; A; P / und d W V
6.30 Es seien Xn ; Yn , n 1, Zufallsvariablen auf
V ! Œ0; 1 durch
einem Wahrscheinlichkeitsraum .˝; A; P / sowie .an /, .bn / be-
d .X ; Y / WD inff" 0 j P .jX Y j > "/ "g schränkte Zahlenfolgen mit limn!1 an D 0. Weiter gelte Xn D
OP .1/ und Yn D OP .1/. Zeigen Sie:
definiert. Zeigen Sie: Für X ; Y ; Z; X1 ; X2 ; : : : 2 V gelten: a) Xn C Yn D OP .1/; Xn Yn D OP .1/,
a) d .X ; Y / D minf" > 0 j P .jX Y j > "/ "g. b) Xn C bn D OP .1/; bn Xn D OP .1/,
b) d .X ; Y / D 0 () X D Y P -f.s., c) an Xn D oP .1/.
c) d .X ; Z/ d .X ; Y / C d .Y ; Z/,
P
d) limn!1 d .Xn ; X / D 0 () Xn
! X. 6.31 Es sei Xn N.n ; n2 /, n 1. Zeigen Sie:
Pn f.s. Pn f.s. Y1
Zeigen Sie: 1
Yj ! 0 H) 1
Xj ! 0. sin t t
n j D1 n j D1 D cos j ; t 2 R:
t j D1
2
6.27 Es sei .Xn / eine Folge unabhängiger Zufallsvaria-
blen auf einem Wahrscheinlichkeitsraum .˝; A; P / mit Xn 6.33 Es seien 2 R, .Zn / eine Folge von Zufallsva-
Bin.1; 1=n/, n 1. Zeigen Sie: riablen und .an / eine Folge positiver reeller Zahlen mit
1 X
n
D P
lim Xj D 1 P -fast sicher: an .Zn /
! N.0; 1/ und Zn
!
Kapitel 6
n!1 log n
j D1
folgt
1 X
n
Sn2 WD .Xj X n /2
n 1 j D1 Tn D
p
! N.0; 1/:
P V .Tn /
die sog. Stichprobenvarianz, wobei X n WD n1 jnD1 Xj . Zei-
gen Sie:
6.40 Es sei .Xn /n1 eine
PnFolge von unabhängigen
a) Sn2 konvergiert P -fast sicher gegen 2 . Indikatorvariablen und Sn WD
P1 j D1 Xj . Zeigen Sie: Aus
b) Mit WD EX1 und 2 WD E.X1 /4 4 > 0 gilt
nD1 V .Xn / D 1 folgt die Gültigkeit des Zentralen Grenz-
p 2 D p D
n Sn 2 ! N.0; 2 /: wertsatzes .Sn ESn /= V .Sn / ! N.0; 1/.
Kapitel 6
228 6 Konvergenzbegriffe und Grenzwertsätze – Stochastik für große Stichproben
f.s. f.s.
Antwort 1 Ja, denn aus Xn ! X und Xn ! Y für Zufalls- Antwort 4 Weil der Erwartungswert der Cauchy-Verteilung
variablen X und Y auf .˝; A; P / folgt wegen nicht existiert.
n o n o
lim Xn D X \ lim Xn D Y fX D Y g Antwort 5 Die Vereinigung der paarweise disjunkten Ereignis-
n!1 n!1 se A1 ; : : : ; An ist gerade das Ereignis fmax1kn jSk j "g.
und der Tatsache, dass der Schnitt zweier Eins-Mengen wieder
eine Eins-Menge ist, die Aussage P .X D Y / D 1, also X D Y Antwort 6 Weil die Verteilungsfunktion F der Einpunktvertei-
P -f.s. Man beachte, dass die obige Inklusion wie folgt zu lesen lung in a an der Stelle a von 0 nach 1 springt und somit für
ist: Gelten für ein ! 2 ˝ sowohl limn!1 Xn .!/ D X .!/ als x < a konstant gleich 0 und für x > a konstant gleich 1 ist.
auch limn!1 Xn .!/ D Y .!/, so folgt X .!/ D Y .!/. eYn D P Xn folgt für jede Borel-Menge B
Antwort 7 Wegen P
Antwort 2 Aus der Voraussetzung und dem Teilfolgenkriteri-
um ergibt sich, dass eine geeignete Teilfolge von .Xn / sowohl P h.Yn / .B/ D e
e P Yn .h1 .B// D P Xn .h1 .B//
fast sicher gegen X als auch fast sicher gegen Y konver- D P h.Xn / .B/:
giert. Da der fast sichere Grenzwert mit Wahrscheinlichkeit eins
eindeutig bestimmt ist, folgt die Behauptung. Eine andere Be-
weismöglichkeit besteht darin, die aus der Dreiecksungleichung Antwort 8 Weil die Menge der Stetigkeitsstellen in R dicht
folgende Abschätzung liegt.
P .jX Y j > 2"/ P .jXn X j > "/ C P .jXn Y j > "/
Antwort 9 Es ist der Satz von der dominierten Konvergenz. Die
zu verwenden. Da die rechte Seite für n ! 1 gegen null kon- Folge der in (6.29) definierten Zufallsvariablen n konvergiert
vergiert, folgt P .jX Y j > 2"/ D 0 für jedes " > 0 und somit wegen der gleichmäßigen Stetigkeit von g 0 punktweise auf ˝
ebenfalls die Behauptung. gegen null, und sie ist betragsmäßig durch die integrierbare kon-
stante Funktion 2 supx2R jg 0 .x/j nach oben beschränkt. Ebenso
Antwort 3 Letztere erhält man für die Wahl g.t / D t 2 und argumentiert man für X12 n ; hier ist die integrierbare Majorante
X EX anstelle von X . gleich 2X12 supx2R jg 0 .x/j.
Kapitel 6
Grundlagen der
7
Kapitel 7
Mathematischen Statistik –
vom Schätzen und Testen
Welche Eigenschaften
sollte ein guter Schätzer
besitzen?
Wie unterscheiden sich
Fehler erster und zweiter
Art eines Tests?
Welches Testproblem wird
durch den
Ein-Stichproben-t -Test
behandelt?
Was besagt das Lemma
von Neyman-Pearson?
Wie erhält man
nichtparametrische
Konfidenzbereiche für
Quantile?
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 229
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_7
230 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
In diesem Kapitel lernen wir die wichtigsten Grundbegriffe und Beispiel (Bernoulli-Kette, Binomialverteilung) Ein
Kapitel 7
Konzepte der Mathematischen Statistik kennen. Hierzu gehören auch als Versuch bezeichneter stochastischer Vorgang mit den
die Begriffe statistisches Modell, Verteilungsannahme, Schätzer, beiden möglichen Ausgängen Erfolg/Treffer (1) und Misserfolg/
Maximum-Likelihood-Schätzmethode, Konfidenzbereich und statis- Niete (0) werde n-mal in unabhängiger Folge unter gleichen
tischer Test. Wünschenswerte Eigenschaften von Schätzern reeller Bedingungen durchgeführt. Wir modellieren diese bekannte Si-
Parameter sind eine kleine mittlere quadratische Abweichung und tuation durch unabhängige Zufallsvariablen X1 ; : : : ; Xn mit der
damit einhergehend Erwartungstreue sowie kleine Varianz. Bei Fol- gleichen Binomialverteilung Bin.1; #/. Dabei beschreibe Xj
gen von Schätzern kommen asymptotische Erwartungstreue und den Ausgang des j -ten Versuchs. Im Gegensatz zu früher se-
Konsistenz hinzu. Die Cramér-Rao-Ungleichung zeigt, dass die Va- hen wir die Erfolgswahrscheinlichkeit # realistischerweise als
rianz eines erwartungstreuen Schätzers in einem regulären statisti- unbekannt an. Diese veränderte Sichtweise drücken wir durch
schen Modell durch die Inverse der Fisher-Information nach unten den Buchstaben #, der in der schließenden Statistik ganz all-
beschränkt ist. gemein einen unbekannten Parameter bezeichnet, anstelle des
vertrauteren p aus.
Ein Konfidenzbereich ist ein Bereichsschätzverfahren. Dieses garan-
tiert, dass – ganz gleich, welcher unbekannte Parameter zugrunde Wenn # die wahre Erfolgswahrscheinlichkeit ist, tritt ein Daten-
liegt – eine zufallsabhängige Teilmenge des Parameterraums diesen n-Tupel x D .x1 ; : : : ; xn / aus Nullen und Einsen mit der
unbekannten Parameter mit einer vorgegebenen hohen Mindest- Wahrscheinlichkeit
wahrscheinlichkeit überdeckt. Mit dem Satz von Student erhält
man Konfidenzintervalle für den Erwartungswert einer Normalver- Y
n
P# .X D x/ D # xj .1 #/1xj
teilung bei unbekannter Varianz. Asymptotische Konfidenzbereiche
j D1
für große Stichprobenumfänge ergeben sich oft mithilfe Zentraler
Grenzwertsätze. auf. Dabei haben wir X WD .X1 ; : : : ; Xn / gesetzt und die
Mit einem statistischen Test prüft man eine Hypothese über einen Abhängigkeit der Verteilung von X von # durch Indizierung
unbekannten Parameter. Grundbegriffe im Zusammenhang mit sta- gekennzeichnet. Die Anzahl S WD X1 C : : : C Xn der Erfolge
tistischen Tests sind Hypothese und Alternative, kritischer Bereich, besitzt die Binomialverteilung Bin.n; #/. Es gilt also
Testgröße, Fehler erster und zweiter Art, Gütefunktion und Test zum !
Niveau ˛. Bei Folgen von Tests treten die Konzepte asymptotisches n k
P# .S D k/ D # .1 #/nk ; k D 0; : : : ; n; (7.1)
Niveau und Konsistenz auf. Mit dem Binomialtest, dem Ein- und k
Zwei-Stichproben-t -Test, dem F -Test für den Varianzquotienten,
dem exakten Test von Fisher und dem Chi-Quadrat-Anpassungstest wenn # die wahre Erfolgswahrscheinlichkeit ist.
lernen wir wichtige Testverfahren kennen.
Der springende Punkt ist nun, dass der stochastische Vorgang
Das Lemma von Neyman-Pearson zeigt, wie man mithilfe des Likeli- (wie z. B. der Wurf einer Reißzwecke, vgl. Abb. 2.2) n-mal
hoodquotienten optimale randomisierte Tests konstruiert, wenn ein durchgeführt wurde und sich insgesamt k Treffer ergaben. Was
Zwei-Alternativ-Problem vorliegt. Hieraus ergeben sich gleichmäßig kann man mit dieser Information über das unbekannte # aus-
beste einseitige Tests bei monotonem Dichtequotienten. sagen? Wie groß ist #, wenn etwa in 100 Versuchen 38 Treffer
auftreten?
Das Kapitel schließt mit einigen Grundbegriffen, Konzepten und
Resultaten der Nichtparametrischen Statistik. Hierzu gehören die Da die in (7.1) stehende Wahrscheinlichkeit bei gegebenem n
empirische Verteilungsfunktion, der Satz von Glivenko-Cantelli, die und k 2 f0; : : : ; ng für jedes # 2 .0; 1/ strikt positiv ist, müssen
nichtparametrische Schätzung von Quantilen, der Vorzeichentest wir die entmutigende Erkenntnis ziehen, dass bei 38 Erfolgen in
für den Median sowie der Wilcoxon-Rangsummentest als nichtpa- 100 Versuchen nur die triviale Antwort „es gilt 0 < # < 1“ mit
rametrisches Analogon zum Zwei-Stichproben-t -Test. Sicherheit richtig ist! Jede genauere Aussage über # kann prin-
zipiell falsch sein. Wir müssen uns also offenbar damit abfinden,
dass beim Schließen von Daten auf eine die Daten generierende
7.1 Einführende Betrachtungen Wahrscheinlichkeitsverteilung Fehler unvermeidlich sind. An-
dererseits werden wir etwa bei k Treffern in n Versuchen Werte
Mit diesem Abschnitt steigen wir in die Mathematische Statistik für # als „glaubwürdiger“ bzw. „unglaubwürdiger“ ansehen, für
ein. Im Gegensatz zur deskriptiven Statistik, die sich insbesonde- die die Wahrscheinlichkeit in (7.1) groß bzw. klein ist. Maxi-
re mit der Aufbereitung von Daten und der Angabe statistischer miert man P# .S D k/ als Funktion von #, so ergibt sich als
Maßzahlen beschäftigt (siehe z. B. [14], Kap. 5), fasst man in der Lösung der Wert
Mathematischen Statistik vorliegende Daten x als Realisierung
einer Zufallsvariablen X auf. Dabei zeichnet man für X aufgrund k
#D ;
der Rahmenbedingungen des stochastischen Vorgangs eine ge- n
wisse Klasse von Verteilungen aus, die man für möglich ansieht.
also die relative Trefferhäufigkeit (Aufgabe 7.15).
Innerhalb dieser Klasse sucht man dann nach einer Verteilung,
die die Daten in einem zu präzisierenden Sinn möglichst gut er- Dieser prinzipielle Ansatz, bei gewonnenen Daten deren Auf-
klärt. Das prinzipielle Ziel besteht darin, über die Daten hinaus tretenswahrscheinlichkeit in Abhängigkeit verschiedener, durch
Schlussfolgerungen zu ziehen. Die damit verbundenen grund- einen Parameter beschriebener stochastischer Modelle zu maxi-
sätzlichen Probleme lassen sich am besten anhand eines einfa- mieren, heißt Maximum-Likelihood-Schätzmethode. Man zeich-
chen wegweisenden Beispiels erläutern. net dann denjenigen Wert von #, der diese Funktion maximiert,
7.1 Einführende Betrachtungen 231
als glaubwürdigsten aus und nennt ihn Maximum-Likelihood- Im Gegensatz zur Wahrscheinlichkeitstheorie besteht der spe-
zifische Aspekt der Statistik darin, dass die Verteilung P von
Kapitel 7
Schätzwert für #. Offenbar sagt jedoch dieser Schätzwert
k=n nichts über den Schätzfehler k=n # aus, da # unbe- X als nicht vollständig bekannt angesehen wird und aufgrund
kannt ist. Um hier Erkenntnisse zu gewinnen, müssen wir die einer Realisierung x von X eine Aussage über P getroffen
Verteilung der zufälligen relativen Trefferhäufigkeit S=n als werden soll. Dabei werden bei jedem konkreten Problem ge-
Schätz-Vorschrift (kurz: Schätzer) für # studieren, denn k ist wisse Kenntnisse hinsichtlich der Rahmenbedingungen eines
ja eine Realisierung der Zufallsvariablen S. Wir werden z. B. in stochastischen Vorgangs vorhanden sein. Diese führen zu ei-
Abschn. 7.3 ein von n, S und einer gewählten Zahl ˛ 2 .0; 1/, ner Einschränkung der Menge aller möglichen Verteilungen von
aber nicht von # abhängendes zufälliges Intervall I konstruie- X und somit zur Auszeichnung einer speziellen Klasse P von
ren, das der Ungleichung überhaupt für möglich angesehenen Verteilungen von X über
.X ; B/, der sog. Verteilungsannahme. Dabei indiziert man die
P# .I 3 #/ 1 ˛ für jedes # 2 Œ0; 1 Elemente P 2 P üblicherweise durch einen Parameter #. Es
gebe also eine bijektive Abbildung eines Parameterraums
genügt. Dabei wurde bewusst „I 3 #“ und nicht „# 2 I “ auf P , wobei das Bild von # unter dieser Abbildung mit P#
geschrieben, um den Gesichtspunkt hervorzuheben, dass das bezeichnet werde. Diese Betrachtungen münden in die folgende
zufällige Intervall I den unbekannten, aber nicht zufälligen Definition.
Parameter # enthält.
Nach diesen Überlegungen sollte auch klar sein, dass Fehler un-
Definition eines statistischen Modells
vermeidlich sind, wenn man aufgrund von x oder der daraus
abgeleiteten Trefferanzahl k eine Entscheidung darüber tref- Ein statistisches Modellist ein Tripel .X ; B; .P# /#2 /.
fen soll, ob # in einer vorgegebenen echten Teilmenge 0 von Dabei sind
WD .0; 1/ liegt oder nicht. Derartige Testprobleme werden in
Abschn. 7.4 behandelt. J X ¤ ; der Stichprobenraum,
B eine -Algebra über X ,
Mit diesem Hintergrund stellen wir jetzt den allgemeinen An- ¤ ; der Parameterraum,
satz der schließenden Statistik vor. Dieser Grundansatz betrach- P# ein Wahrscheinlichkeitsmaß auf B, # 2 ,
tet zufallsbehaftete Daten als Realisierung x einer Zufallsva- 3 # ! P# eine als Parametrisierung bezeichnete
riablen X . Somit ist x Funktionswert X .!/ einer auf einem injektive Abbildung.
Wahrscheinlichkeitsraum .˝; A; P / definierten Abbildung X ,
und man nennt x auch eine Stichprobe zur Zufallsvariablen X .
Der mit X bezeichnete Wertebereich von X heißt Stichproben- Kommentar Oft wird ein statistisches Modell auch statisti-
raum. Dabei ist X mit einer geeigneten -Algebra B versehen, scher Raum genannt. Offenbar unterscheidet sich ein solches
und X W ˝ ! X wird als .A; B/-messbar vorausgesetzt. Ist X Modell von einem Wahrscheinlichkeitsraum nur dadurch, dass
eine Borelsche Teilmenge eines Rn , so besteht B aus den Borel- anstelle eines Wahrscheinlichkeitsmaßes P jetzt eine ganze
schen Teilmengen von X . Familie .P# /#2 auftritt. Diese bildet den Modellrahmen für
weitere Betrachtungen. Der Statistiker nimmt an, dass eines
dieser Wahrscheinlichkeitsmaße P# die zufallsbehafteten Da-
Jedes Verfahren der Mathematischen Statistik ten x 2 X in dem Sinne „erzeugt hat“, dass x Realisierung
einer Zufallsvariablen X mit Verteilung P# ist. Da die Parame-
benutzt Wahrscheinlichkeits-Modelle trisierung 3 # ! P# injektiv ist, gibt es also genau einen
„wahren“ Parameter #, der über die Verteilung P# das Auftreten
Gilt X Rn , so ist X D .X1 ; : : : ; Xn / ein n-dimensionaler Zu-
der möglichen Realisierungen von X „steuert“. Das Ziel besteht
fallsvektor mit Komponenten X1 ; : : : ; Xn . Sind X1 ; : : : ; Xn un-
darin, aufgrund von x eine Aussage über # zu machen. Eine sol-
abhängig und identisch verteilt, so nennt man x D .x1 ; : : : ; xn /
eine Stichprobe vom Umfang n. che Aussage kann in Form eines Schätzwertes b #.x/ 2 oder
eines Schätzbereiches C .x/ geschehen. Manchmal kann
Bei Fragestellungen der schließenden Statistik interessiert man auch ein Testproblem in Form einer Zerlegung D 0 C 1
sich für die durch P X .B/ WD P .X 1.B//, B 2 B, definierte des Parameterraums in zwei nichtleere disjunkte Teilmengen 0
Verteilung P X von X ; wie schon früher bleibt der zugrun- und 1 vorliegen, wobei entschieden werden soll, ob der wahre
de liegende Wahrscheinlichkeitsraum .˝; A; P / auch hier im Parameter in 0 oder in 1 liegt. J
Hintergrund. Wir werden oft stillschweigend die kanonische
Konstruktion Video 7.1 Statistik: Grundprobleme am Beispiel der Binomial-
verteilung
˝ WD X ; A WD B; X WD id˝
Hintergrund und Ausblick: Ein kurzer Abriss der Geschichte der Statistik
Der Ursprung der Mathematischen Statistik ist die politische um begründete Schlüsse zu ziehen, ist somit nicht die Staa-
Arithmetik tenkunde, sondern die politische Arithmetik.
Oft assoziiert man mit Statistik Tabellen und grafische Dar-
Nachdem sich im 19. Jahrhundert der Gedanke durchgesetzt
stellungen und denkt vielleicht an Arbeitslosen-, Krebs- oder
hatte, dass der Wahrscheinlichkeitsbegriff wissenschaftlich
Kriminalitätsstatistiken. Der Gebrauch des Wortes Statis-
gesicherte Erkenntnisse durch geeignetes Auswerten von Da-
tik in solchen Zusammensetzungen spiegelt einen wichtigen
ten ermöglicht, entstand ab ca. 1900 die Mathematische
Teilaspekt der Statistik in Form der amtlichen Statistik wider.
Statistik. Obgleich es bis dahin schon diverse Techniken wie
Diese reicht bis ca. 3000 v. Chr. zurück, wo sie Unterlagen
etwa die Methode der kleinsten Quadrate oder den Satz von
für die Planung des Pyramidenbaus bildete und Einwohner-
Bayes gab, existierte noch keine kohärente Theorie. Den Be-
sowie Standesregister und Grundsteuerkataster umfasste. Die
ginn einer solchen markierte ein Aufsatz von Karl Pearson
amtliche Statistik in Deutschland ist seit 1950 im Statis-
(1857–1936) im Jahr 1900, in dem der Chi-Quadrat-Test ein-
tischen Bundesamt in Wiesbaden sowie in 14 statistischen
geführt wurde. Weitere Meilensteine waren die Entdeckung
Landesämtern institutionalisiert.
der t -Verteilung durch William Sealy Gosset (1876–1937)
Der Ursprung des Wortes Statistik liegt im Staatswesen im Jahr 1908 sowie eine Arbeit von Sir Ronald Aylmer
(italienisch statista D Staatsmann). In diesem Sinn steht Sta- Fisher (1890–1962) im Jahr 1925, in der mit den Begrif-
tistik für eine Sammlung von Daten, z. B. über Bevölkerung fen Konsistenz, Suffizienz, Effizienz, Fisher-Information und
und Handel, die für einen Staatsmann von Interesse sind. Maximum-Likelihood-Schätzung die Grundlagen der Schätz-
Als Universitätsstatistik wurde die von Hermann Conring theorie gelegt wurden. Fisher war zudem der Urheber der
(1606–1681) begründete wissenschaftliche Staatskunde als statistischen Versuchsplanung und der Varianzanalyse. 1933
„Wissenschaft und Lehre von den Staatsmerkwürdigkeiten“ publizierten Jerzy Neyman (1894–1981) und Egon Sharpe
bezeichnet. Gottfried Achenwall (1719–1772) definierte Sta- Pearson (1895–1980) eine grundlegende Arbeit zum optima-
tistik im Sinne von Staatskunde. Der Gebrauch des Wortes len Testen, und 1950 wurde durch Abraham Wald (1902–
Statistik in dieser Bedeutung verschwand um 1800. 1950) eine Theorie optimaler statistischer Entscheidungen
begründet.
Einer der ersten, der sich – abgesehen von Astronomen
wie Tycho Brahe (1546–1601) und Johannes Kepler (1571–
Während lange ausschließlich spezielle parametrische Ver-
1630) – mit Fragen der Gewinnung von Erkenntnissen aus
teilungsannahmen (insbesondere die einer zugrunde liegen-
vorliegenden Daten beschäftigte und damit zusammen mit
den Normalverteilung) gemacht wurden, entstand ab ca.
(Sir) William Petty (1623–1687) in England die sog. poli-
1930 die Nichtparametrische Statistik. Seit etwa 1960 wird
tische Arithmetik etablierte, war John Graunt (1620–1674),
die Entwicklung der Statistik maßgeblich von immer schnel-
der als Begründer der Biometrie und der Bevölkerungsstatis-
leren Computern bestimmt. Waren es zunächst Fragen der
tik gilt. Petty führte statistische Methoden in die politische
Robustheit von Verfahren gegenüber Abweichungen von
Ökonomie ein. Ein weiterer Vertreter der politischen Arith-
Modellannahmen, so kam später verstärkt der Aspekt hinzu,
metik war Edmond Halley (1656–1742). Mit der Erstellung
sich weiteren Anwendungen zu öffnen und „Daten für sich
der Sterbetafeln der Stadt Breslau 1693 war er ein Pionier der
selbst sprechen zu lassen“, also explorative Datenanalyse zu
Sozialstatistik. In Deutschland wurde die politische Arith-
betreiben. Auch die Bootstrap-Verfahren, die die beobach-
metik vor allem durch Johann Peter Süßmilch (1707–1767)
teten Daten für weitere Simulationen verwenden, um etwa
vertreten.
die Verteilung einer komplizierten Teststatistik zu approxi-
Ab ca. 1800 begann man, die mit der politischen Arithmetik mieren, wären ohne leistungsfähige Computer undenkbar.
verbundene Herangehensweise, nämlich Erkenntnisgewinn Aufgrund fast explosionsartig ansteigender Speicherkapazi-
aus der Analyse von Daten zu ziehen, als Statistik zu be- täten und Rechengeschwindigkeiten ist aus der explorativen
zeichnen. Auf der britischen Insel, wo ca. 100 Jahre später Datenanalyse mittlerweile ein data mining geworden, al-
die Mathematische Statistik ihren Ausgang nahm, war Sir so eine Kunst, aus einem Berg an Daten etwas Wertvolles
John Sinclair of Ulbster (1754–1835) der erste, der in seiner zu extrahieren. Als weiterführende Literatur zur Geschich-
Abhandlung Statistical Account of Scotland drawn up from te der Statistik seien u. a. [8], [12] und [13] empfohlen.
the communications of the ministers of the different parishes Der Aufsatz [8] thematisiert die Bedeutung der Statistik im
(1791–1799) das Wort Statistik in diesem Sinn verwende- Zusammenhang mit dem von vielen Wissenschaftsorganisa-
te. Der Ursprung der Statistik als eigenständige Wissenschaft tionen getragenen Aufruf, das Jahr 2013 zum Internationalen
von der Gewinnung, Analyse und Interpretation von Daten, Jahr der Statistik zu erklären.
7.1 Einführende Betrachtungen 233
Kapitel 7
des Eingangsbeispiels zu diesem Abschnitt wird durch das sta- • ϑ1 • ϑ2
tistische Modell .X ; B; .P# /#2 / mit X WD f0; 1gn , B WD
P .X /, WD Œ0; 1 und
fϑ2 fϑ3
Y
n fϑ1
P# .X D x/ D xj
# .1 #/ 1xj
j D1
!
n k gegeben. Die Verteilung P# von X WD .X1 ; : : : ; Xn / ist festge-
P# .S D k/ D # .1 #/nk ; k D 0; : : : ; n;
k legt durch die gemeinsame Dichte
vor. J n
Y
1 .xj /2
f .x; #/ D p exp
j D1
2 2 2
Beispiel (Qualitätskontrolle) Eine Warensendung vom 0 1
n Xn
Umfang N enthalte # defekte und N # intakte Einheiten, 1 1
wobei # unbekannt ist. In der statistischen Qualitätskontrolle D p exp @ 2 .xj / A
2
2 2 j D1
entnimmt man der Sendung eine rein zufällige Stichprobe (Teil-
menge) vom Umfang n, um hieraus den Ausschussanteil #=N
in der Sendung zu schätzen. Wir setzen Xj WD 1 bzw. Xj WD 0, von X1 ; : : : ; Xn . Hierbei ist x D .x1 ; : : : ; xn / 2 X WD Rn . J
falls das j -te entnommene Exemplar bei einer solchen Stich-
probenentnahme (Ziehen ohne Zurücklegen) defekt bzw. intakt In jedem dieser Beispiele könnte die Fragestellung darin be-
ist. Wie im vorigen Beispiel kann auch hier X D f0; 1gn ge- stehen, den unbekannten wahren Parameter # aufgrund der
wählt werden. Im Gegensatz zu oben sind X1 ; : : : ; Xn zwar je Daten x 2 X zu schätzen. Abb. 7.1 verdeutlicht im Fall X D R
binomialverteilt Xj Bin.1; #=N /, jedoch nicht mehr sto- ein schon im Eingangsbeispiel beobachtetes prinzipielles Prob-
chastisch unabhängig. Setzen wir WD f0; 1; : : : ; N g, X WD lem. In der Abbildung entsprechen verschiedenen Werten von #
.X1 ; : : : ; Xn /, so gilt mit der Abkürzung k WD x1 C : : : C xn für unterschiedliche Dichten f# ./ D f .; #/. Das Wahrscheinlich-
jedes x D .x1 ; : : : ; xn / 2 X keitsmaß P# besitzt also eine (Lebesgue-)Dichte f# .
Üblicherweise ist für ein beobachtetes x für jedes # 2 die
Y
k1
# j Y N # j
nk1
Ungleichung f# .x/ > 0 erfüllt. Bei stetigen Dichten gilt dann
P# .X D x/ D : P# .Œx "; x C "/ > 0, # 2 , für jedes noch so kleine " > 0,
j D0
N j j D0 N k j
was bedeutet, dass für den wahren Parameter # nur die triviale
Aussage „es gilt # 2 “ mit Sicherheit richtig ist. Nicht ganz so
Dabei wurden die erste Pfadregel und die Kommutativität der extrem ist die Situation im Beispiel der statistischen Qualitäts-
Multiplikation verwendet. J kontrolle. Hat man aber etwa aus einer Sendung mit k D 10 000
Einheiten eine Stichprobe vom Umfang n D 50 entnommen und
Beispiel (Wiederholte Messung) Eine physikalische in dieser genau ein defektes Exemplar gefunden, so kann man
Größe werde n-mal unter gleichen, sich gegenseitig nicht be- mit Sicherheit nur schließen, dass die Sendung mindestens ein
einflussenden Bedingungen fehlerbehaftet gemessen. Wir mo- defektes und höchstens 9 951 defekte Exemplare enthält.
dellieren diese Situation durch unabhängige Zufallsvariablen Wie diese Beispiele zeigen, können i. Allg. Daten durch meh-
X1 ; : : : ; Xn mit gleicher Normalverteilung N.; 2 /. Dabei ste- rere Werte von # über die Verteilung P# erzeugt worden sein.
hen für den unbekannten wahren Wert der physikalischen Es kann also nur darum gehen, Wahrscheinlichkeiten für fal-
Größe (z. B. die Zeit, die eine Kugel benötigt, eine Rampe hin- sche Aussagen über den wahren Parameter klein zu halten. Man
unterzurollen) und die Varianz 2 für die Ungenauigkeit des beachte, dass solche Wahrscheinlichkeiten wiederum vom un-
Messverfahrens. Die Realisierungen der Xj sind die Messergeb- bekannten Wert # über die Wahrscheinlichkeitsverteilung P#
nisse. abhängen.
In diesem Fall ist der Parameterraum eines statistischen Modells Da erst durch Festlegung von # in einem statistischen Modell
durch Wahrscheinlichkeitsaussagen möglich sind, wird dieser Para-
meter auch bei Erwartungswerten, Varianzen o. Ä. als Index
WD f# D .; 2 / j 2 R; 2 > 0g angebracht; man schreibt also für eine messbare reellwertige
234 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Funktion g auf dem Stichprobenraum, für die die auftretenden zwanglos durch einen endlich-dimensionalen Parameter be-
Kapitel 7
Kenngrößen existieren, schreiben lässt, ist prinzipiell näher an der Wirklichkeit, weil sie
kein enges Rahmen-Korsett spezifiziert, sondern in den getrof-
E# g.X /; V# g.X / fenen Annahmen viel schwächer bleibt. So ist etwa die Existenz
einer Dichte eine schwache Voraussetzung in einer Situation, in
für den Erwartungswert bzw. die Varianz von g.X / unter der
der eine hohe Messgenauigkeit vorliegt und gleiche Datenwer-
Verteilung P# .
te kaum vorkommen. Bei einer derartigen nichtparametrischen
In der Folge werden wir statistische Modelle betrachten, bei de- Verteilungsannahme interessiert man sich meist für eine reelle
nen wie in den obigen Beispielen entweder diskrete oder stetige Kenngröße der durch die Dichte f1 gegebenen Verteilung von
Verteilungen auftreten. Konzeptionell besteht hier kein Unter- X1 wie etwa den Erwartungswert oder den Median. Wir wer-
schied, wenn man eine diskrete Verteilung als Verteilung mit den in Abschn. 7.6 einige Methoden der Nichtparametrischen
einer Zähldichte P# .X D x/ bzgl. eines geeigneten Zähl-Maßes Statistik kennenlernen.
ansieht. Zudem behandeln wir meist statistische Modelle, bei
denen X D .X1 ; : : : ; Xn / mit unabhängigen und identisch
verteilten Zufallsvariablen X1 ; : : : ; Xn gilt. Dabei besitzt X1 7.2 Punktschätzung
entweder eine Lebesgue-Dichte f1 .t ; #/ oder eine diskrete Ver-
teilung. Im letzteren Fall setzen wir Es sei .X ; B; .P# /#2 / ein parametrisches statistisches Modell
mit Rd . Wir stellen uns die Aufgabe, aufgrund einer Rea-
f1 .t ; #/ WD P# .X1 D t /; lisierung x 2 X der Zufallsvariablen X einen möglichst guten
verwenden also die gleiche Schreibweise. Näherungswert für # anzugeben. Da x vor Beobachtung des
Zufallsvorgangs nicht bekannt ist, muss ein Schätzverfahren je-
dem x 2 X einen mit T .x/ bezeichneten Schätzwert für #
zuordnen und somit eine auf X definierte Abbildung sein. Ei-
Es gibt parametrische und nichtparametrische ne solche bezeichnet man in der Mathematischen Statistik ganz
statistische Modelle allgemein als Stichprobenfunktion oder Statistik. Ist # wie et-
wa im Beispiel der wiederholten Messung mehrdimensional, so
Bevor wir uns Schätzproblemen zuwenden, sei noch auf eine ist häufig nur ein niederdimensionaler (meist eindimensionaler)
Grob-Klassifikation statistischer Modelle in parametrische und Aspekt von # von Belang, der durch eine Funktion W ! R`
nichtparametrische Modelle hingewiesen. In den obigen Bei- mit ` d beschrieben ist. So interessiert im Fall der Nor-
spielen gilt stets Rd für ein d 1. Man könnte weitere malverteilung mit # D .; 2 / häufig nur der Erwartungswert
solche Beispiele angeben, indem man – die Unabhängigkeit und DW .#/; die unbekannte Varianz wird dann als sog. Störpa-
identische Verteilung von X1 ; : : : ; Xn unterstellt – irgendeine rameter angesehen.
andere, durch einen endlich-dimensionalen Parameter beschrie-
bene Verteilungs-Klasse für X1 wählt. Diese könnte z. B. sein:
die Poisson-Verteilungen Po.#/, # 2 WD .0; 1/, Definition eines (Punkt-)Schätzers
die Exponentialverteilungen Exp. /, # 2 WD .0; 1/, Es seien .X ; B; .P# /#2 / ein parametrisches statistisches
die Klasse der Gammaverteilungen G.˛; /, wobei # WD Modell mit Rd und W ! R` .
.˛; / 2 WD .0; 1/2 ,
die Klasse der Weibull-Verteilungen Wei.˛; /, wobei # WD Ein (Punkt-)Schätzer für .# / ist eine messbare Abbil-
.˛; / 2 WD .0; 1/2 . dung T W X ! R` . Für x 2 X heißt T .x/ Schätzwert
für .# / zur Beobachtung x.
In derartigen Fällen spricht man von einem parametrischen
statistischen Modell. Ein solches liegt vor, wenn der Parame-
terraum für ein d 1 Teilmenge des Rd ist; andernfalls ist
das statistische Modell nichtparametrisch. Ein solches Modell Kommentar
ergibt sich z. B., wenn man – wiederum unter Annahme der Un- Das optionale Präfix Punkt- rührt daher, dass die Schätzwerte
abhängigkeit und identischen Verteilung von X1 ; : : : ; Xn – nur T .x/ einzelne Werte und damit „Punkte“ im R` sind. Offen-
voraussetzt, dass X1 irgendeine, auf dem Bereich ff1 > 0g D bar wird bei der obigen Definition zugelassen, dass Werte
ft 2 R j f1 .t / > 0g stetige Lebesgue-Dichte f1 besitzt. Da diese T .x/ 2 R` n ./ auftreten können, wenn ./ echte Teil-
Dichte die Verteilung von X WD .X1 ; : : : ; Xn / über die Produkt- menge des R` ist. Ist etwa im Beispiel Bernoulli-Kette der
Dichte Parameterraum das offene Intervall .0; 1/, weil aus guten
f1 .x1 / : : : f1 .xn /; .x1 ; : : : ; xn / 2 Rn ; Gründen die extremen Werte # D 0 und # D 1 ausgeschlos-
sen werden können, so kann die durch
festlegt, können wir sie formal als Parameter ansehen. Der Pa-
rameterraum ist dann die Menge aller Lebesgue-Dichten f1 , 1
T .x/ WD .x1 C : : : C xn /
die auf ihrem Positivitätsbereich ff1 > 0g stetig sind. n
Eine solche nichtparametrische Verteilungsannahme, bei der definierte relative Trefferhäufigkeit als Schätzer T W X ! R
sich die Menge der für möglich erachteten Verteilungen nicht für .#/ WD # auch die Werte 0 und 1 annehmen.
7.2 Punktschätzung 235
Die obige sehr allgemein gehaltene Definition lässt offenbar 0.1 (T10 = t), 0.7 (T10 = t),
0.4 0.4
Kapitel 7
auch Schätzer für .#/ zu, die kaum sinnvoll sind. So ist es
z. B. möglich, ein festes #0 2 zu wählen und 0.3 0.3
0.2 0.2
T .x/ WD .#0 /; x 2 X;
0.1 0.1
zu setzen. Dieser Schätzer ist vollkommen daten-ignorant. t t
Eine der Aufgaben der Mathematischen Statistik besteht da- 0 0.5 1 0.5 1
0.1 (T20 = t), 0.7 (T20 = t),
rin, Kriterien für die Qualität von Schätzern zu entwickeln 0.4 0.4
und Prinzipien für die Konstruktion guter Schätzer bereit- 0.3 0.3
zustellen. Dabei ist grundsätzlich zu beachten, dass jede
0.2 0.2
Aussage über #, die sich auf zufällige Daten, nämlich ei-
ne Realisierung x der Zufallsvariablen X stützt, falsch sein 0.1 0.1
kann. Da # über die Verteilung P# von X den Zufallscharak-
t t
ter der Realisierung x 2 X „steuert“, ist ja auch der Schätzer 0 0.5 1 0 0.5 1
T für .#/ als Zufallsvariable auf X mit Werten in R` und 0.1 (T50 = t), 0.7 (T50 = t),
0.4 0.4
einer von # abhängenden Verteilung P#T auf B` anzusehen.
Wir können von einem guten Schätzer T also nur erhoffen, 0.3 0.3
dass dessen Verteilung P#T für jedes # 2 in einem zu prä- 0.2 0.2
zisierenden Sinne stark um den Wert .#/ konzentriert ist. J 0.1 0.1
t t
Beispiel (Binomialfall, relative Trefferhäufigkeit) Um 0 0.5 1 0 0.5 1
diesen letzten Punkt zu verdeutlichen, betrachten wir wieder
Abb. 7.2 Verteilungen der relativen Trefferhäufigkeit für # D 0:1 und
die Situation einer Bernoulli-Kette der Länge n mit unbe-
# D 0:7 und verschiedene Werte von n
kannter Trefferwahrscheinlichkeit #, also unabhängige und je
Bin.1; #/-verteilte Zufallsvariablen X1 ; : : : ; Xn , wobei # 2
WD Œ0; 1, und als Schätzer Tn D Tn .X1 ; : : : ; Xn / für # die Mit (7.2) und (7.3) folgt aus der Tschebyschow-Ungleichung
zufällige relative Trefferhäufigkeit
lim P# .jTn #j > "/ D 0 8" > 0: (7.4)
n!1
1 X
n
Tn WD Xj : Diese Eigenschaft wird später Konsistenz der Schätzfolge .Tn /
n j D1 für # genannt werden. Hierbei betrachtet man .Tn / als eine
Folge von Schätzern für #, wobei unabhängige und identisch
Mit Rechenregeln für Erwartungswert und Varianz sowie Xj Bin.1; #/-verteilte Zufallsvariablen X1 ; X2 ; : : : auf einem ge-
Bin.1; #/ gelten für jedes (unbekannte) # 2 meinsamen Wahrscheinlichkeitsraum zugrunde gelegt werden.
Für jedes n ist dann Tn wie oben eine Funktion von X1 ; : : : ; Xn .
E# .Tn / D #; (7.2) J
#.1 #/
V# .Tn / D : (7.3) Wir wollen jetzt die wichtigsten wünschenswerten Eigenschaf-
n
ten für Schätzer formulieren und danach zwei grundlegende
Man beachte, dass Tn eine Zufallsvariable ist, die unter Schätzverfahren vorstellen.
dem wahren Parameter # die möglichen Werte k=n, k 2 Für die folgende Definition legen wir ein parametrisches statis-
f0; 1; : : : ; ng mit den Wahrscheinlichkeiten tisches Modell .X ; B; .P# /#2 / mit Rd sowie eine reelle
! Funktion W ! R zu Grunde. Zu schätzen sei also ein reel-
k n k
P# Tn D D # .1 #/nk ler Aspekt eines möglicherweise vektorwertigen Parameters #.
n k Wir setzen weiter stillschweigend voraus, dass alle auftretenden
Erwartungswerte existieren.
annimmt. Diese mit dem Faktor 1=n skalierte Binomialver-
teilung Bin.n; #/ ist die Verteilung des Schätzers Tn (kurz:
Schätz-Verteilung von Tn ) unter P# , siehe Abb. 7.2 für # D 0:1 Definition
und # D 0:7 sowie n 2 f10; 20; 50g.
Es sei T W X ! R ein Schätzer für .#/.
Beziehung (7.2) besagt, dass der Erwartungswert E# .Tn / als
MQAT .#/ WD E# .T .#//2 heißt mittlere quadra-
physikalischer Schwerpunkt der Schätzverteilung von Tn gleich
tische Abweichung von T (an der Stelle # ).
# ist, und zwar unabhängig vom konkreten Wert dieses un-
T heißt erwartungstreu (für .# )), falls gilt:
bekannten Parameters. Ein solcher Schätzer wird das Attribut
erwartungstreu erhalten, s. u. Gleichung (7.3) beinhaltet den E# .T / D .#/ 8# 2 :
Stichprobenumfang n. Wie nicht anders zu erwarten, wird bei
größerem n, also immer breiterer Datenbasis, die Varianz der bT .#/ WD E# .T / .#/ heißt Verzerrung von T (an
Schätzverteilung kleiner und damit die Schätzung genauer, vgl. der Stelle # ).
Abb. 7.2.
236 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Die mittlere quadratische Abweichung ist ein mathematisch be- schließt deshalb Schätzer wie das obige T0 aus, die eine zu star-
Kapitel 7
quemes Gütemaß für einen Schätzer, und man würde mit diesem ke Präferenz für spezielle Parameterwerte besitzen. Trotzdem
Maßstab einen Schätzer T e einem Schätzer T vorziehen, wenn sollten nicht nur erwartungstreue Schätzer in Betracht gezogen
MQAe T .#/ MQA T .#/ für jedes # 2 gelten würde, wenn werden. Es kann nämlich sein, dass für ein Schätzproblem über-
also Te gleichmäßig besser wäre als T . Unter allen denkbaren haupt kein erwartungstreuer Schätzer existiert (Aufgabe 7.37)
Schätzern für .#/ einen gleichmäßig besten finden zu wollen, oder dass ein erwartungstreuer Schätzer, von anderen Kriterien
ist aber ein hoffnungsloses Unterfangen, denn aufgrund der all- aus beurteilt, unsinnig sein kann.
gemeinen Gleichung V .Y / D E.Y 2 / .EY /2 gilt In statistischen Modellen, bei denen Realisierungen eines Zu-
fallsvektors X D .X1 ; : : : ; Xn / mit unabhängigen und identisch
MQAT .#/ D V# .T / C bT .#/ :
2
verteilten Komponenten X1 ; : : : ; Xn beobachtet werden, liegt
es nahe, Eigenschaften von Schätzern in Abhängigkeit des
Die mittlere quadratische Abweichung setzt sich also additiv aus Stichprobenumfangs n zu studieren und hier insbesondere das
der Varianz des Schätzers und dem Quadrat seiner Verzerrung asymptotische Verhalten solcher Schätzer für n ! 1. Wir neh-
zusammen. Für den Schätzer T0 .#0 / mit einem festen Wert men hierfür an, dass für jedes n 2 N (oder zumindest für jedes
#0 2 gelten V# .T0 / D 0, bT0 .#/ D .#0 / .#/ und somit genügend große n) die Funktion Tn W Xn ! R ein Schätzer für
.#/ sei. Hierbei ist Xn der Stichprobenraum für .X1 ; : : : ; Xn /.
MQAT0 .#/ D ..#0/ .#//2; # 2 : Man nennt dann .Tn /n1 eine Schätzfolge.
Kapitel 7
Unter der Lupe: Antworten auf heikle Fragen: Die Randomized-Response-Technik
Durch Randomisierung bleibt die Anonymität des Befragten lation rein zufällig entnommene Person Merkmalträger ist,
gewährleistet. also schon einmal Rauschgift genommen hat. Wir nehmen
X1 ; : : : ; Xn als unabhängige Zufallsvariablen an. Ist Ki das
Würden Sie die Frage „Haben Sie schon einmal Rauschgift
Ereignis, dass die (im Bild von links gesehen) i-te Karte ge-
genommen?“ ehrlich beantworten? Vermutlich nicht, und Sie
zogen wurde, so gelten P .Ki / D 1=3 .i D 1; 2; 3/ und
wären damit kaum allein. In der Tat ist bei solch heiklen Fra-
P .Xj D 1jK1/ D #, P .Xj D 1jK2/ D 1, P .Xj D 1jK3 / D
gen kaum eine offene Antwort zu erwarten. Helfen kann hier
0. Mit der Formel von der totalen Wahrscheinlichkeit folgt
die Randomized-Response-Technik, die in einfacher Form
wie folgt beschrieben werden kann: Dem Befragten werden
X
3
die drei im Bild zu sehenden Karten gezeigt. Nach gutem Mi- P# .Xj D 1/ D P# .Xi D 1jKi / P .Ki /
schen wählt er (wobei die Interviewerin nicht zusieht) eine i D1
Karte rein zufällig aus und beantwortet die darauf stehende
# C1
Frage mit Ja oder Nein. Dann mischt er die Karten, und die D :
Interviewerin wendet sich ihm wieder zu. Da eine Ja-Antwort 3
nicht ursächlich auf die heikle Frage zurückzuführen ist, ist P
Anonymität gewährleistet. Schreiben wir Rn D n1 jnD1 1fXj D 1g für den relati-
ven Anteil der Ja-Antworten unter n Befragten und setzen
b
# n WD 3Rn 1, so ergibt sich
Haben Sie Ist auf Ist auf
schon einmal dieser Karte dieser Karte E# Œb
# n D 3E# .Rn / 1
Rauschgift eine Eins? eine Eins? D 3..# C 1/=3/ 1
genommen?
1 D #:
b
# n ist also ein erwartungstreuer Schätzer für #. Es folgt
Zur Randomized-Response-Technik
V# .b
# n / D 9 V# .Rn /
Nehmen wir an, von 3 000 Befragten hätten 1 150 mit Ja 9
geantwortet. Jede Karte wurde von ca. 1 000 Befragten gezo- D V# .1fX1 D 1g/
n
gen. Ca. 1 000 Ja-Antworten sind also auf die mittlere Karte 9 # C1 # C1
zurückzuführen, die übrigen 150 auf die linke. Da ca. 1 000- D 1
n 3 3
mal die linke Karte gezogen wurde, ist der Prozentsatz der
Merkmalträger ungefähr 15 %. 2 C #.1 #/
D :
n
Zur Modellierung setzen wir Xj WD 1 .0/, falls der j -te
Befragte mit Ja (Nein) antwortet (j D 1; : : : ; n). Weiter Die Varianz hat sich also im Vergleich zur Schätzung ohne
bezeichne # die Wahrscheinlichkeit, dass eine der Popu- Randomisierung (vgl. (7.3)) vergrößert, was zu erwarten war.
X
n
log Lx .#/ D n log # # xj :
Es wirkt gekünstelt, die Dichte bzw. Zähldichte f .x; #/ nur an- j D1
ders zu notieren und mit dem Etikett likelihood zu versehen. Die
Schreibweise Lx .#/ offenbart jedoch die für die Mathematische Nullsetzen der Ableitung dieser Funktion ergibt 0 D n=#
P n
Statistik charakteristische Sichtweise, dass Daten x vorliegen j D1 xj und somit den ML-Schätzwert
und man innerhalb des gesteckten Modellrahmens nach einem
passenden, durch den Parameter # beschriebenen Modell sucht. b n 1
#.x/ D Pn D :
Was die Tragweite der ML-Schätzmethode betrifft, so existiert j D1 xj xn
in vielen statistischen Anwendungen ein eindeutig bestimm- Pn
Da die Ableitung n=# j D1 xj
für hinreichend kleines # po-
ter ML-Schätzer b #, und er ist gewöhnlich ein „guter“ Schät-
zer für #. Häufig ist eine offene Teilmenge in Rd und sitiv ist, streng monoton fällt und für # > b #.x/ negativ wird,
f .x; #/ nach # differenzierbar, sodass man versuchen wird, liegt ein eindeutiges Maximum der Likelihood-Funktion vor.
einen ML-Schätzer durch Differenziation zu erhalten. Dabei Der ML-Schätzer b # n für den Parameter # der Exponentialver-
kann es zweckmäßig sein, statt Lx die sog. Loglikelihood- teilung ist also
Funktion log Lx zu betrachten, die wegen der Monotonie der
Logarithmus-Funktion ihr Maximum an der gleichen Stelle b n 1
# n D Pn D :
hat. Gilt nämlich X D .X1 ; : : : ; Xn / mit Zufallsvariablen j D1 Xj Xn
X1 ; : : : ; Xn , die unter P# unabhängig und identisch verteilt sind
und eine Dichte bzw. Zähldichte f1 .t ; #/, t 2 R, besitzen, so Dieser Schätzer ist nicht erwartungstreu. Die Schätzfolge
hat X die Dichte bzw. Zähldichte .b
# n /n1 ist asymptotisch erwartungstreu und konsistent für #,
vgl. Aufgabe 7.21. J
Y
n
f .x; #/ D f1 .xj ; #/; x D .x1 ; : : : ; xn / 2 Rn :
Im folgenden Beispiel kann man den ML-Schätzer nicht mit
j D1
Mitteln der Analysis erhalten, da der Parameterraum D N
eine diskrete Menge ist.
Somit ergibt sich für jedes x 2 Rn mit f .x; #/ > 0
X
n Beispiel (Das Taxi-Problem) In einer Urne befinden sich
log f .x; #/ D log f1 .xj ; #/: # gleichartige, von 1 bis # nummerierte Kugeln. Dabei sei
j D1 # 2 WD N unbekannt. Es werden rein zufällig und unabhän-
gig voneinander n Kugeln mit Zurücklegen gezogen. Bezeichnet
Differenziation nach #, also Bildung des Gradienten im Fall Xj die Nummer der j -ten gezogenen Kugel, so sind die Zu-
d > 1, liefert die sog. Loglikelihood-Gleichungen fallsvariablen X1 ; : : : ; Xn unabhängig und je gleichverteilt auf
f1; 2; : : : ; #g. Setzen wir X WD .X1 ; : : : ; Xn /, so liegt ein statis-
d
log f .x; #/ D 0 tisches Modell mit X D N n vor. Wegen P# .Xj D xj / D 1=#
d# für xj 2 f1; : : : ; #g und P# .Xj D xj / D 0 für xj > # gilt für
x D .x1 ; : : : ; xn / 2 X
als notwendige Bedingung für das Vorliegen eines Maximums.
( n
Diese Gleichung sind nur in den wenigsten Fällen explizit lös- 1
; falls max1j n xj #;
bar, sodass numerische Verfahren eingesetzt werden müssen, Lx .#/ D P# .X D x/ D #
0 sonst.
siehe Aufgabe 7.25.
7.2 Punktschätzung 239
P
Offenbar wird Lx maximal, wenn b # n .x/ WD max1j n xj ge- x n D n1 jnD1 xj . Einsetzen von x n für in Lx und Ma-
Kapitel 7
setzt wird. Der ML-Schätzer b
# n ist also ximierung des entstehenden Ausdrucks bzgl. 2 liefert nach
Logarithmieren und Bildung der Ableitung nach 2 mittels di-
P 2
b
# n WD max Xj : rekter Rechnung die Lösung 2 D n1 jnD1 xj x n . J
1j n
Dieser unterschätzt den wahren Wert # systematisch und ist so- Achtung In der Literatur findet sich oft die Sprechweise „die
mit nicht erwartungstreu, denn für # 2 gilt ML-Schätzer für und 2 der Normalverteilung sind
X
#
1X
n
E# .b
# n/ D k P# max Xj D k b
n D X n ; bn2 D .Xj X n /2 “:
1j n n j D1
kD1
X
#
<# P# max Xj D k Wir schließen uns hier an, obwohl wir im Fall eines vektorwer-
1j n
kD1 tigen Parameters keine ML-Schätzung für einen reellwertigen
D #: Aspekt .#/ wie z. B. .#/ D vorgenommen, sondern nur b n
und bn2 als Komponenten des ML-Schätzers b
# n für # D .; 2 /
Die Schätzfolge .b # n / ist jedoch asymptotisch erwartungstreu identifiziert haben.
und konsistent für #, s. Aufgabe 7.17. Ein erwartungstreuer Natürlich bietet sich ganz allgemein der aus einem ML-Schätzer
Schätzer für # ist b
# W X ! für # abgeleitete Schätzer
Tn .x/ D
b
# n .x/nC1 .b
b
# n .x/ 1/nC1
# n .x/n .b
# n .x/ 1/n
; b
.#/ WD .b
#/;
vgl. Aufgabe 7.17. Dieser ist jedoch insofern unsinnig, als für .#/ an, wenn ein statistisches Modell .X ; B; .P# /#2 / mit
er nicht ganzzahlige Werte annimmt. So gilt etwa Tn .x/ D Rd vorliegt und .#/ zu schätzen ist, wobei W ! R` .
J
109:458 : : : für das Zahlenbeispiel n D 10, b
# n .x/ D 100.
Die hier beschriebene Situation ist als Taxi-Problem bekannt, Die folgenden Eigenschaften der ML-Schätzer für und 2
wenn # als die unbekannte Anzahl von Taxis in einer großen und hier insbesondere die Unabhängigkeit von b n und bn2 sind
Stadt angesehen wird. Die Zufallsvariable Xj kann dann als grundlegend für statistische Verfahren, die als Verteilungsan-
Nummer des j -ten zufällig an einem Beobachter vorbeifahren- nahme eine Normalverteilung unterstellen.
den Taxis gedeutet werden. J
1X 1X
n n
1X 1 X bn2 D
n n
2 b
n D X n D Xj ; .Xj X n /2
b
n WD X n WD Xj ; bn2 WD Xj X n n j D1 n j D1
n j D1 n j D1
stochastisch unabhängig, und es gelten
gegeben sind.
Zum Nachweis dieser Behauptung betrachten wir die 2 n b2
X n N ; ; 2n1 : (7.6)
Likelihood-Funktion zu x D .x1 ; : : : ; xn /, also n 2 n
Yn
1 .xj /2
Lx ; 2 D p exp
j D1
2 2 2
0 1 Beweis Es sei Zj WD Xj .j D 1; : : : ; n/ sowie Z WD
n X n .Z1 ; : : : ; Zn /> . Wegen Zj N.0; 2 / und der Unabhängigkeit
1 1
D p exp @ 2 .xj /2 A : von Z1 ; : : : ; Zn besitzt Z die Normalverteilung Nn 0; 2 In .
2 2 j D1 Dabei bezeichnen 0 den Nullvektor in Rn und In die n-reihige
Einheitsmatrix. Es sei H D .hij /1i ;j n eine beliebige or-
Hier ist es bequem, die Maximierung in zwei Schritten durch- thogonale .n n/-Matrix mit hnj D n1=2 , 1 j n.
zuführen, und zwar zunächst bzgl. bei festem 2 und danach Setzen wir Y WD .Y1 ; : : : ; Yn /> WD H Z, so hat Y wegen
bzgl.P 2 . Die erste Aufgabe führt auf die Minimierung der Sum- H H > D In nach dem Reproduktionsgesetz für die
Normal-
me jnD1 .xj /2 bzgl. . Diese Aufgabe besitzt die Lösung verteilung in Abschn. 5.3 die Verteilung Nn 0; 2 In , und nach
240 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Aufgabe 5.26 sind Y1 ; : : : ; Yn stochastisch unabhängig. Die Or- Ist .Yn /n1 eine Folge unabhängiger und identisch verteilter
Kapitel 7
thogonalität von H und hnj n1=2 liefern Zufallsvariablen auf einem Wahrscheinlichkeitsraum .˝; A; P /
mit existierendem Erwartungswert WD E Y1 , so gilt nach die-
Y12 C C Yn2 D Z12 C C Zn2 ; sem Gesetz
1 X
n
p 1X
n
Yn D p Zj D n X n lim Yj D P -fast sicher:
n j D1 n!1 n
j D1
Pn
und folglich mit der Abkürzung Z n WD n1 j D1 Zj Die Folge der auch als Stichprobenmittel
P bezeichneten arithme-
tischen Mittel Y n D n1 jnD1 Yj konvergiert also P -f.s. und
X
n
2 X
n
2 X
n
2
damit auch stochastisch gegen den Erwartungswert der zugrun-
Xj X n D Zj Z n D Zj2 nZ n de liegenden Verteilung.
j D1 j D1 j D1
Ist nun X1 ; X2 ; : : : ; eine Folge unabhängiger und identisch ver-
X
n X
n1
teilter Zufallsvariablen mit EjX1 jd < 1 für ein d 2 N, existiert
D Yj2 Yn2 D Yj2 : also das d -te Moment von X1 , so konvergiert nach obigem Ge-
j D1 j D1 setz für jedes k 2 f1; : : : ; d g die Folge
Diese ist ganz allgemein ein erwartungstreuer Schätzer für die definiert. Man ersetzt folglich zur Schätzung von #k D
unbekannte Varianz einer Verteilung, wenn X1 ; : : : ; Xn stochas- hk .1 ; : : : ; d / die j durch die entsprechenden Stichproben-
tisch unabhängige Zufallsvariablen mit dieser Verteilung sind momente b j ;n .
(Aufgabe 7.22).
Beispiel (Gammaverteilung) Die Zufallsvariablen
X1 ; : : : ; Xn seien unabhängig und je .˛; /-verteilt, vgl.
Die Momentenmethode verwendet (5.55). Der Parameter # WD .˛; / 2 WD .0; 1/2 sei un-
Stichprobenmomente zur Schätzung bekannt. Nach (5.57) gilt
von Funktionen von Momenten .˛ C 1/ ˛
1 D EX1 D D ;
.˛/
Wir möchten jetzt mit der Momentenmethode ein zweites
.˛ C 2/ ˛.˛ C 1/
Schätzprinzip vorstellen. Dieses ist unmittelbar einsichtig, wenn 2 D EX1 D 2
2
D ;
man an das starke Gesetz großer Zahlen von Kolmogorov denkt. .˛/ 2
7.2 Punktschätzung 241
Kapitel 7
Definition eines regulären statistischen Modells
21 1
#1 D h1 .1 ; 2 / D ; #2 D h2 .1 ; 2 / D Ein statistisches Modell .X ; B; .P# /#2 / mit R
2 21 2 21 heißt regulär, falls gilt:
Im Gegensatz hierzu ist der ML-Schätzer für # nicht in explizi- d) Für jedes # 2 gilt
ter Form angebbar (Aufgabe 7.25). J
0 < If .#/ WD V# .U# / < 1: (7.8)
In manchen Fällen stimmen Momentenschätzer und ML-
Schätzer überein. So ist im Fall der Normalverteilung der Die Zahl If .#/ heißt Fisher-Information von f
ML-Schätzer b n D X n auch der Momentenschätzer für . Glei- bzgl. # .
ches trifft wegen
1X 1X 2
n n
Selbstfrage 4
bn2 D
2
.Xj X n /2 D X Xn Können Sie (unter den bislang aufgetretenen) ein nicht reguläres
n j D1 n j D1 j
statistisches Modell identifizieren?
Wegen Xj Bin.1; #/ gilt V# .Xj / D #.1 #/. Da die Vari- kann als lokale Änderungsrate der Dichte f .x; #/ an der Stel-
anzbildung bei Summen unabhängiger Zufallsvariablen additiv le # D #0 , bezogen auf den Wert f .x; #0 /, angesehen werden.
7.2 Punktschätzung 243
Kapitel 7
der Dichte f .; #0 /, so ergibt sich If .#0 / als gemittelte Ver- Warum gilt die Gleichung (7.15)?
sion dieser Rate. Ist If .#0 / groß, so ändert sich die Verteilung
schnell, wenn wir von #0 zu Parameterwerten in der Nähe von
#0 übergehen. Wir sollten also in der Lage sein, den Parameter- Aus der Cauchy-Schwarz-Ungleichung erhält man unmittelbar
wert #0 gut zu schätzen. Ist umgekehrt If .#0 / klein, so wäre die die folgende, auf Harald Cramér (1893–1985) und Radhakrish-
Verteilung P#0 auch zu Verteilungen P# ähnlich, bei denen sich na Rao (*1920) zurückgehende Ungleichung.
# deutlicher von #0 unterscheidet. Es wäre dann schwieriger,
#0 zu schätzen. Wäre sogar If .#0 / D 0 für jedes # in einem
Cramér-Rao-Ungleichung
Teilintervall 0 von , so gälte
Es seien .X ; B; .P# /#2 / ein reguläres statistisches Mo-
d dell und T W X ! R ein Schätzer für # mit E# jT j < 1,
P# log f .X ; #/ D 0 D 1; # 2 0 ;
d# # 2 , und
Z
da die Varianz von U# genau dann verschwindet, wenn U# mit d d
Wahrscheinlichkeit eins nur den Wert E# .U# / D 0 annimmt. E# T D T .x/ f .x; #/ dx: (7.16)
d# d#
Somit wäre die Dichte bzw. Zähldichte f .x; #/ für (fast) alle
x 2 X auf 0 konstant und keine Beobachtung könnte die Para- Dann folgt
2
meterwerte aus 0 unterscheiden. d
E .T /
d# #
V# .T / ; # 2 : (7.17)
Ein weiteres Merkmal der Fisher-Information ist deren Additi- If .#/
vität im Fall unabhängiger Zufallsvariablen. Hierzu betrachten
wir ein statistisches Modell mit X D .X1 ; : : : ; Xn /, wobei die
Zufallsvariablen X1 ; : : : ; Xn unter P# unabhängig und identisch
verteilt sind. Besitzt X1 die Dichte oder Zähldichte f1 .t ; #/, Beweis Es sei o.B.d.A. V# .T / < 1. Die Cauchy-Schwarz-
t 2 X1 R, und sind die obigen Regularitätsvoraussetzungen Ungleichung und (7.8) liefern
a) bis d) für f1 erfüllt, gilt also insbesondere Cov# .U# ; T /2 V# .U# / V# .T / D If .#/ V# .T /:
Z 2 Wegen E# .U# / D 0 folgt
d
0 < If1 .#/ WD log f1 .t ; #/ f1 .t ; #/dt < 1 (7.14) Cov# .U# ; T / D E# .U# T /
d#
X1 Z
d
D T .x/ log f .x; #/ f .x; #/ dx
für jedes # 2 , so gelten a) bis d) auch für die Dichte d#
Z
d
Y
n D T .x/ f .x; #/ dx
f .x; #/ WD f1 .xj ; #/; x D .x1 ; : : : ; xn / d#
j D1 d
D E# .T /:
d#
von X D .X1 ; : : : ; Xn / auf X , wobei X D X1 : : :
X1 (n Faktoren). Wegen der Unabhängigkeit und identischen Kommentar Bedingung (7.16) ist eine Regularitätsbedin-
Verteilung von X1 ; : : : ; Xn folgt gung an den Schätzer T , die wie (7.7) eine Vertauschbarkeit
von Differenziation und Integration bedeutet und bei endlichem
d
If .#/ D V# .U# / D V# log f .X ; #/ X trivialerweise erfüllt ist. Ist unter obigen Voraussetzungen
d# der Schätzer T erwartungstreu für #, so geht die Cramér-Rao-
0 1
X n
d Ungleichung in
D V# @ log f1 .Xj ; #/A 1
d# V# .T / ; # 2 ;
j D1 If .#/
X
n
d über. Je größer die Fisher-Information, desto kleiner kann al-
D V# log f1 .Xj ; #/ so die Varianz eines erwartungstreuen Schätzers werden. Liegen
j D1
d#
wie in den in der Gleichung (7.15) resultierenden Ausführungen
d zur Additivität der Fisher-Information unabhängige und iden-
D n V# log f1 .X1 ; #/
d# tisch verteilte Zufallsvariablen X1 ; : : : ; Xn mit gleicher Dichte
oder Zähldichte f1 .t ; #/ vor, so gilt mit der in (7.14) einge-
und somit führten „Fisher-Information für eine Beobachtung“ If1 .#/ und
(7.15) für jeden auf X1 ; : : : ; Xn basierenden erwartungstreuen
If .#/ D n If1 .#/: (7.15) Schätzer Tn
1
Die Fisher-Information nimmt also proportional zur Anzahl n V# .Tn / ; # 2 :
der Beobachtungen zu. Dieses Phänomen haben wir schon in nIf1 .#/
Gleichung (7.13) im Spezialfall einer Bernoulli-Kette der Länge Dabei haben wir den Stichprobenumfang n als Index an T
n kennengelernt. J kenntlich gemacht.
244 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7
Unter der Lupe: Wann tritt in der Cramér-Rao-Ungleichung das Gleichheitszeichen ein?
Nur für einparametrige Exponentialfamilien kann die untere aus Stetigkeitsgründen bei der folgenden Aussage auf ratio-
Schranke angenommen werden. nale # 2 beschränken kann:
Schreiben wir kurz .#/ WD E# .T /, so folgt mit a.#/ WD ˇ T .x/ .#/
ˇ
0 .#/=If .#/ sowie If .#/ D V# .U# / und der im Be- x 2 Xˇ ¤ U# .x/ für ein # 2 D 0:
a.#/
weis der Cramér-Rao-Ungleichung eingesehenen Gleichheit
Cov# .U# ; T / D 0 .#/ Für -fast alle x 2 X gilt also
0 V# .T a.#/U# / D V# .T / C a.#/2V# .U# / d 1 .#/
log f .x; #/ D T .x/ :
2a.#/Cov# .T ; U# / d# a.#/ a.#/
0 .#/2
D V# .T / : Durch unbestimmte Integration über # folgt jetzt, dass für
If .#/ -fast alle x die Dichte f .x; #/ die Gestalt
Diese Abschätzung bestätigt nicht nur die Cramér-Rao-
f .x; #/ D b.#/ h.x/ eQ.#/T .x/ (7.18)
Ungleichung, sondern zeigt auch, dass in (7.17) genau dann
Gleichheit eintritt, wenn für jedes # 2 die Varianz
besitzen muss. Hier sind h W X ! .0; 1/ eine messbare
V# .T a.#/U# / verschwindet, wenn also die Zufallsvaria-
Funktion, Q W R! R eine Stammfunktion von 1=a.#/ und
ble T a.#/U# P# -fast sicher gleich ihrem Erwartungswert
b.#/ eine durch f .x; #/ dx D 1 bestimmte Normierungs-
.#/ ist oder gleichbedeutend
funktion.
P# .T .#/ ¤ a.#/U# / D 0 ; # 2 ; Man nennt eine Verteilungsfamilie .P# /#2 auf .X ; B/ ein-
parametrige Exponentialfamilie bezüglich T , falls R
gilt. Weil P# eine strikt positive Dichte f .; #/ bzgl. des mit ein offenes Intervall ist und die Dichte oder Zähldichte von
bezeichneten Borel-Lebesgue-Maßes oder Zählmaßes auf P# auf X durch (7.18) gegeben ist. Dabei setzt man die Funk-
X besitzt, folgt somit tion Q als stetig differenzierbar mit Q0 .#/ ¤ 0; # 2 ,
voraus. Die untere Schranke in der Cramér-Rao-Ungleichung
.fx 2 X j T .x/ .#/ ¤ a.#/U# .x/g/ D 0: kann also nur angenommen werden, wenn die zugrunde lie-
gende Verteilungsdichte eine ganz spezielle Struktur besitzt.
Da diese Aussage für jedes # 2 gilt, ergibt sich unter Be- Einfache Beispiele einparametriger Exponentialfamilien sind
achtung der Tatsache, dass die abzählbare Vereinigung von die Binomialverteilung, die Poisson-Verteilung und die Ex-
-Nullmengen ebenfalls eine -Nullmenge ist und man sich ponentialverteilung (Aufgabe 7.26).
Ein erwartungstreuer Schätzer T für # heißt Cramér-Rao- nachgewiesen. Da die relative Trefferhäufigkeit Tn D X n D
P
effizient, falls n1 jnD1 Xj ein erwartungstreuer Schätzer für # ist und die
1 Varianz
V# .T / D ; # 2 ;
If .#/
#.1 #/ 1
gilt, falls also in der Cramér-Rao-Ungleichung das Gleichheits- V# .Tn / D D
zeichen eintritt. J n If .#/
Beispiel (Relative Trefferhäufigkeit) In der Standard- besitzt, nimmt dieser Schätzer für jedes # 2 .0; 1/ die
situation einer Bernoulli-Kette der Länge n haben wir die Cramér-Rao-Schranke 1=If .#/ an und ist somit in obigem Sinn
Fisher-Information If .#/ zu Cramér-Rao-effizient, also gleichmäßig bester erwartungstreuer
Schätzer. Letztere Aussage gilt auch, wenn wir den Parameter-
n raum um die extremen Werte 0 und 1 erweitern, denn es gilt
If .#/ D ; 0 < # < 1;
#.1 #/ V0 .Tn / D V1 .Tn / D 0. J
7.2 Punktschätzung 245
Kapitel 7
Hintergrund und Ausblick: Bayes-Schätzung
Wie lässt sich bei Schätzproblemen Vorwissen über Parame- der A-posteriori-Verteilung von G bei gegebenem X D x
ter nutzen? die gesuchte Bayes-Schätzung.
Wir betrachten ein statistisches Modell .X ; B; .P# /#2 /, Besitzt X bei gegebenem G D # die Binomialverteilung
wobei der Einfachheit halber R ein Intervall sei. Im Un- Bin.n; #/, gilt also f .xj#/ D xn # x .1 #/nx für x D
terschied zum bisherigen Ansatz, durch geeignete Wahl eines 0; : : : ; n, und legt man für G die Beta-Dichte
erwartungstreuen Schätzers T für # die mittlere quadratische
Abweichung E# .T #/2 gleichmäßig in # minimieren zu # ˛1 .1 #/ˇ1
wollen, verfolgen Bayes-Verfahren ein anderes Ziel. Sie be- .#/ D ˛;ˇ .#/ D ; 0 < # < 1;
B.˛; ˇ/
trachten den Parameter # als zufallsabhängig und legen für #
eine sog. A-priori-Verteilung auf den Borelschen Teilmengen zugrunde, s. nachfolgende Abbildung und Aufgabe 5.33, so
von zugrunde. Wir nehmen an, dass diese Verteilung durch ergibt sich mit (7.20) die A-posteriori-Dichte von G unter
eine Lebesgue-Dichte über gegeben ist. Durch geeigne- X D x zu
te Wahl von T soll dann das als Bayes-Risiko von T bzgl. # xC˛1 .1 #/nxCˇ1
g.#jx/ D :
bezeichnete Integral B.x C ˛; n x C ˇ/
Z
R.; T / WD E# .T #/2 .#/ d# (7.19) γα,β (ϑ)
α = 1, β = 5 α = 5, β = 1
minimiert werden. Ein Schätzer T W X ! mit
R.; T / D inffR.; T / j T W X ! Schätzer für #g α = 2, β = 4 α = 4, β = 2
α=β=3
heißt Bayes-Schätzer für # zur A-priori-Verteilung .
Um einen solchen Schätzer zu bestimmen, sehen wir die
Dichte (bzw. Zähldichte) f .x; #/ von X (WD idX ) als be-
dingte Dichte f .xj#/ WD f .x; #/ unter der Bedingung an,
ϑ
dass die Zufallsvariable G WD id mit der Dichte die Rea- 0 0.2 0.4 0.6 0.8 1.0
lisierung # ergeben hat, und verwenden die Notation f .xj#/
anstelle von f .x; #/. In dieser Deutung ist dann das Produkt Die A-posteriori-Verteilung von G unter X D x ist also die
.#/f .xj#/ die gemeinsame Dichte von G und X . Weiter Betaverteilung B.x C ˛; n x C ˇ/. Der Erwartungswert
ist Z dieser Verteilung ist nach Aufgabe 5.33 b) gleich
m.x/ WD .#/f .xj#/ d#; x 2 X ; Z1
xC˛
T .x/ WD # g.#jx/ d# D :
die marginale Dichte (bzw. Zähldichte) von X und in Analo- nC˛Cˇ
0
gie zur Bayes-Formel
.#/f .xj#/ Dieser Bayes-Schätzer ist verschieden vom ML-Schätzer
g.#jx/ WD R (7.20) b
.t /f .xjt / dt #.x/ D x=n. So ergibt sich etwa bei x D 38 Treffern
die sog. A-posteriori-Dichte von G bei gegebenem X D x. in n D 100 unabhängigen Versuchen mit gleicher unbe-
Diese Dichte kann als Update von aufgrund der Stichprobe kannter Trefferwahrscheinlichkeit unter der Betaverteilung
x 2 X angesehen werden. mit ˛ D 1 und ˇ D 5 als A-priori-Verteilung der Bayes-
Schätzwert 39=106 0:368. Gewichtet man hingegen große
Ersetzen
R wir in (7.19) E# .T #/2 durch das Integral Werte von # stärker und wählt als A-priori-Verteilung die
X
.T .x/ #/2 f .xj#/ dx (bei einer Zähldichte steht hier ei- Betaverteilung B.5; 1/, so ist der Bayes-Schätzwert gleich
ne Summe) und vertauschen unter Verwendung des Satzes 32=106 0:406. Schreiben wir
von Tonelli die Integrationsreihenfolge, so ergibt sich wegen
.#/f .xj#/ D g.#jx/m.x/ die Darstellung Xn C ˛
2 3 Tn WD
Z Z nC˛Cˇ
R.; T / D 4 .# T .x// g.#jx/ d# 5 m.x/ dx:
2
mit Xn Bin.n; #/ unter G D # für den auf dem Stichpro-
X benumfang n basierenden Bayes-Schätzer, so gelten
Hieran liest man die Gestalt eines Bayes-Schätzers ab: Man
muss für jedes x 2 X den Schätzwert T .x/ so wählen, dass n# C ˛
E# .Tn / D ! #;
das in eckigen Klammern stehende Integral minimal wird. nC˛Cˇ
Da Letzteres gleich EŒ.G T .x//2 jX D x ist, liefert der n#.1 #/
bedingte Erwartungswert V# .Tn / D ! 0:
Z .n C ˛ C ˇ/2
T .x/ WD E.GjX D x/ D # g.#jx/ d# Die Folge der Bayes-Schätzer ist somit für n ! 1 asymp-
totisch erwartungstreu und konsistent für #.
246 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
7.3 Konfidenzbereiche Nicht # variiert zufällig, sondern x und damit C .x/. Wird
Kapitel 7
A.#/ D fx 2 X j .x; #/ 2 e
C g; # 2 :
X 1/2 (X = j)
Kapitel 7
C̃
0.15
x
0.1
W’ ≤ α/2 W’ ≤ α/2
0.05
A(ϑ)
0 5 15 20 j
A(1/2)
Θ
ϑ C(x) mit a.#/; A.#/ 2 X , also „Intervalle in X “ sind. Durch die aus
(7.22) resultierende Forderung
Abb. 7.4 Allgemeines Konstruktionsprinzip für Konfidenzbereiche !
X
A.#/
n j
# .1 #/nj 1 ˛ 8# 2
j
j Da.#/
ist (7.21) gleichbedeutend mit
sind a.#/ und A.#/ nicht eindeutig bestimmt. Eine praktikable
P# .A.#// 1 ˛ 8# 2 : (7.22) Möglichkeit ergibt sich, wenn
8 ˇ k1 ! 9
Wir müssen also nur für jedes # 2 eine Menge A.#/ X < ˇX n =
ˇ ˛
mit (7.22) angeben. Um e C und damit auch die Mengen C .x/, a.#/ D max k 2 X ˇ # j .1 #/nj ; (7.24)
x 2 X , „klein“ zu machen, wird man die Mengen A.#/, # 2 , : ˇ j 2;
j D0
so wählen, dass sie im Fall eines endlichen Stichprobenraums 8 ˇ n ! 9
< ˇ X n ˛=
X möglichst wenige Punkte enthalten oder – für den Fall, dass ˇ
A.#/ D min k 2 X ˇ # j .1 #/nj
X ein Intervall ist – möglichst kurze Teilintervalle von X sind. : ˇ j 2;
j DkC1
Damit wir trotzdem (7.22) erfüllen können, ist es plausibel, die
Menge A.#/ so zu wählen, dass sie diejenigen Stichproben- (7.25)
werte x enthält, für welche die Dichte oder Zähldichte f .x; #/
und
besonders groß ist.
A.#/ WD fx 2 X W a.#/ x A.#/g (7.26)
Video 7.3 Konfidenzbereich für das p der Binomialvertei-
lung II gesetzt wird. Nach Definition gilt dann offenbar (7.22). Diese
Konstruktion bedeutet anschaulich, dass man für jedes # beim
Stabdiagramm der Binomialverteilung Bin.n; #/ auf beiden
Flanken eine Wahrscheinlichkeitsmasse von jeweils höchstens
˛=2 abzweigt. Die übrig bleibenden Werte j mit a.#/ j
A.#/ haben dann unter P# zusammen eine Wahrscheinlichkeit
von mindestens 1 ˛. Sie bilden die Teilmenge A.#/ von X ,
vgl. Abb. 7.5. In der Abbildung ist n D 20, # D 1=2, ˛ D 0:1,
sowie a.#/ D 6, A.#/ D 14.
Beispiel (Binomialverteilung, zweiseitige Konfidenzin-
tervalle) Die Zufallsvariable X besitze eine Binomialvertei- Um die in (7.26) stehende Ungleichungskette nach # aufzulö-
lung Bin.n; #/, wobei # 2 D Œ0; 1 unbekannt sei. Hier ist sen, setzen wir C .x/ WD .`.x/; L.x//, wobei
X D f0; 1; : : : ; ng. Durch Betrachten der Quotienten
`.x/ WD inff# 2 jA.#/ D xg; (7.27)
P# .X D k/ .n k C 1/# L.x/ WD supf# 2 ja.#/ D xg: (7.28)
D .k D 1; : : : ; n; # ¤ 1/
P# .X D k 1/ k.1 #/
Mithilfe von Übungsaufgabe 7.38 ergibt sich dann
folgt, dass die nach obigem Rezept zu konstruierenden Mengen
A.#/ vom Typ
# 2 C .x/ () x 2 A.#/ 8.x; #/ 2 X ; (7.29)
20 0.8 n = 50
0.6
x
0.4
10 0.2
0
5
5 10 15 20 25 30
und somit
Kapitel 7
20
˚ 1 .1 ˛2 / ˚ 1 .1 ˛2 /
P X n p Xn C p D 1 ˛:
n n
Folglich ist
" #
10 ˚ 1 1 ˛2 ˚ 1 1 ˛2
Xn p ; Xn C p
n n
5 ein (1 ˛)-Konfidenzintervall für , dies jedoch nur unter der
x meist unrealistischen Annahme, 2 sei bekannt.
1
An dieser Stelle kommt William Sealy Gosset (1876–1937)
0 1 ins Spiel, der unter dem Pseudonym Student veröffentlichte,
L(x)
weil ihm sein Arbeitsvertrag bei der Dubliner Brauerei Arthur
Abb. 7.8 Obere Konfidenzgrenzen für den Parameter # der Binomial- Guinness & Son jegliches Publizieren verbot. Gosset ersetzte
verteilung (n D 20, ˛ D 0:05) zunächst das unbekannte im Nenner von (7.31) durch einen
auf X1 ; : : : ; Xn basierenden Schätzer, nämlich die Stichproben-
standardabweichung
Analog zu Abb. 7.6 zeigt Abb. 7.8 für den Fall n D 20 und
v
˛ D 0:05 die (blau eingezeichneten) konkreten einseitigen u
u 1 X n
Konfidenzintervalle Œ0; e
L.x//. Zusätzlich wurden aus Abb. 7.6 Sn WD t .Xj X n /2 ; (7.32)
die orangefarbenen zweiseitigen Intervalle .`.x/; L.x// über- n 1 j D1
nommen. Nach Konstruktion gilt für jedes x mit x 19 die
p
Ungleichung e L.x/ < L.x/. Wie nicht anders zu erwarten, sind also durch Sn2 . Hierdurch ist das unbekannte formal ver-
also unter Aufgabe jeglicher Absicherung nach unten die ein- schwunden, es ist jedoch eine neue Zufallsvariable entstanden,
seitigen oberen Konfidenzschranken kleiner als die jeweiligen deren Verteilung möglicherweise von 2 abhängt. Die große
oberen Konfidenzgrenzen eines zweiseitigen Konfidenzinter- Leistung von Gosset bestand darin, diese Verteilung herzuleiten
valls. Der hiermit verbundene Genauigkeitsgewinn hinsichtlich und als nicht von 2 abhängig zu identifizieren. Wir definieren
einer Abschätzung von # nach oben wirkt sich umso stärker aus, zunächst diese Verteilung und stellen dann das zentrale Resultat
je kleiner x ist. So gilt für den eingezeichneten Fall x D 3 von Gosset vor.
e
L.3/ D 0:344. Im Unterschied dazu ist das zweiseitige kon-
krete Konfidenzintervall gleich Œ0:032; 0:379. Auf Kosten einer
fehlenden unteren Konfidenzschranke für # liegt die einseitige Definition der tk -Verteilung
obere Konfidenzschranke um knapp 10 % unter der entsprechen-
den oberen Grenze eines zweiseitigen Konfidenzintervalls. J Es seien N0 ; N1 ; : : : ; Nk unabhängige und je N.0; 1/-
normalverteilte Zufallsvariablen. Dann heißt die Vertei-
lung des Quotienten
Unter Normalverteilung erhält man einen N0
Konfidenzbereich für durch studentisieren Y WD q P (7.33)
1 k 2
k j D1 Nj
Wir stellen jetzt Konfidenzbereiche für die Parameter der
Normalverteilung vor. Dabei legen wir ein statistisches Mo- (Studentsche) t-Verteilung mit k Freiheitsgraden oder
dell zu Grunde, bei dem die beobachtbaren Zufallsvariablen kurz tk -Verteilung, und wir schreiben hierfür Y tk .
X1 ; : : : ; Xn unabhängig und je N.; 2 /-verteilt sind. Von be-
sonderer Bedeutung ist in dieser Situation ein Konfidenzbereich
für . Um die damit verbundenen Probleme zu verdeutlichen,
2 Kommentar Da Zähler und Nenner in der Definition von Y
nehmen wir zunächst an, die Varianz P sei bekannt. Mithilfe nach dem Blockungslemma stochastisch unabhängig sind und
des Stichprobenmittels X n D n1 jnD1 Xj und der Zufallsva-
die im Nenner stehende Quadratsumme eine 2k -Verteilung be-
riablen p
sitzt, kann man die tk -Verteilung auch wie folgt definieren: Sind
n Xn
U WD (7.31) N ; Zk unabhängige Zufallsvariablen, wobei N N.0; 1/ und
Zk 2k , so gilt definitionsgemäß
lässt sich dann unmittelbar ein Konfidenzintervall für ange-
ben: Da U die Verteilung N.0; 1/ besitzt, gilt für ˛ 2 .0; 1/ und N
2R q tk : (7.34)
˛ ˛
1
Z
k k
P jU j ˚ 1 1 D 2˚ ˚ 1 1 1
2 2 Mit Teil c) des Satzes über die Dichte von Differenz, Pro-
D1˛ dukt und Quotient zweier unabhängiger Zufallsvariablen in
250 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
fk (x) Tab. 7.2 p-Quantile tkIp der t -Verteilung mit k Freiheitsgraden. In der
Kapitel 7
Selbstfrage 6 μ0 Xn
Kapitel 7
Können Sie exemplarisch das Intervall in b) herleiten?
Tab. 7.3 p-Quantile 2kIp der 2 -Verteilung mit k Freiheitsgraden unabhängige Komponenten besitzt, aber (möglicherweise) nur
Kapitel 7
Kapitel 7
chastisch unabhängig sind. Mit dem Additionsgesetz für die
Chi-Quadrat-Verteilung in Abschn. 5.4 erhält man
2
.m C n 2/Sm;n Xm − Y n
2mCn2 : (7.40)
2
Da nach dem Blockungslemma alle Zufallsvariablen in (7.36) Abb. 7.11 Ein- und zweiseitiger Konfidenzbereich für (schema-
und (7.39) unabhängig sind und damit auch Sm;n 2
stochastisch tisch)
unabhängig von der standardnormalverteilten Zufallsvariablen
in (7.37) ist, liefern (7.40), der Satz von Student und die Er-
Wenn man ein einseitiges Konfidenzintervall wählt, sollte je-
zeugungsweise der Studentschen t -Verteilung (vgl. (7.34)) die
doch vor der Datenerhebung klar sein, um welches der Intervalle
Verteilungsaussage
in b) und c) es sich handelt. Auf keinen Fall ist es erlaubt,
q sich nach Bestimmung beider konkreter einseitiger Intervalle
mn
mCn
X m Y n . / das passendere herauszusuchen und zu behaupten, man hät-
tmCn2 : (7.41) te es mit einem Konfidenzbereichs-Verfahren erhalten, das die
Sm;n
Vertrauenswahrscheinlichkeit 1 ˛ besitzt! Bei diesem „Best-
Kürzt man die hier auftretende Zufallsvariable mit T ab, so er- of-Verfahren“ bildet man jedoch de facto den Durchschnitt der
geben die Wahrscheinlichkeitsaussagen Intervalle in b) und c). Schreiben wir kurz I für das Intervall in
b) und J für das Intervall in c), so gilt nach (2.28)
P# jT j tmCn2I1˛=2 D 1 ˛;
P# .I \ J 3 / 1 2˛;
P# .T tmCn2I1˛ / D 1 ˛;
P# .T tmCn2I1˛ / D 1 ˛: denn es ist P# .I 3 / 1 ˛ und P# .J 3 / 1 ˛.
Der Schnitt der Intervalle I und J ist also nur ein Konfidenz-
Durch Auflösen des jeweiligen Ereignisses nach ergeben intervall zur geringeren Konfidenzwahrscheinlichkeit 1 2˛.
sich die folgenden (1 ˛)-Konfidenzbereiche für : Möchte man also durch Schnitt-Bildung von I und J ein zwei-
seitiges .1 ˛/-Konfidenzintervall erhalten, so müssen I und
J jeweils Konfidenzintervalle zur Konfidenzwahrscheinlichkeit
Konfidenzbereiche für
1 ˛=2 sein. Dann sind aber bei der Bildung von I und J je-
weils cm;nI˛ durch cm;nI˛=2 zu ersetzen, und man gelangt zum
Sind X1 ; : : : ; Xm ; Y1 ; : : : ; Yn unabhängige Zufallsvaria- zweiseitigen Intervall. J
blen mit Xi N.; 2 / (i D 1; : : : ; m) und Yj
N.; 2 / (j D 1; : : : ; n), so ist mit der Abkürzung
r Mit dem Zentralen Grenzwertsatz erhält man
mCn oft approximative Konfidenzintervalle bei
cm;nIp WD tmCn2I1p
mn
großem Stichprobenumfang
jedes der folgenden Intervalle ein Konfidenzbereich für
zur Konfidenzwahrscheinlichkeit 1 ˛: Häufig lassen sich Konfidenzbereiche für große Stichprobenum-
fänge approximativ mithilfe von Grenzwertsätzen konstruieren.
a) ŒX m Y n cm;nI˛=2 Sm;n ; X m Y n C cm;nI˛=2 Sm;n , Hierzu betrachten wir analog zu Schätzfolgen die Situation, dass
b) ŒX m Y n cm;nI˛ Sm;n ; 1/, Realisierungen eines Zufallsvektors X D .X1 ; : : : ; Xn / mit un-
c) .1; X m Y n C cm;nI˛ Sm;n . abhängigen und identisch verteilten Komponenten X1 ; : : : ; Xn
beobachtet werden und Cn für jedes n 2 N (oder zumindest für
jedes genügend große n) eine Abbildung von Xn nach P .Rd /
ist. Dabei sei Xn der Stichprobenraum für .X1 ; : : : ; Xn /.
Kommentar Welches der obigen Intervalle in einer konkre-
ten Situation gewählt wird, hängt ganz von der Fragestellung ab.
Wegen cm;nI˛=2 > cm;nI˛ liegen die Intervalle in a) und b) wie in Definition eines asymptotischen Konfidenzbereichs
Abb. 7.11 skizziert. Sollte sich der Wert 0 wie in der Abbildung
angedeutet zwischen dem linken Endpunkt des zweiseitigen und In obiger Situation heißt die Folge .Cn / asymptotischer
Konfidenzbereich für .# / zum Niveau 1 ˛, falls gilt:
dem linken Endpunkt des nach oben unbeschränkten Intervalls
befinden, so kann man bei Verwendung des letzten Intervalls
lim inf P# .fx 2 Xn j Cn .x/ 3 .#/g/ 1 ˛ 8# 2 :
ziemlich sicher sein, dass > 0 und somit > gilt, beim n!1
zweiseitigen Intervall jedoch nicht. Schlägt sich eine Behand-
lung gegenüber einem Placebo prinzipiell in größeren Werten
des untersuchten Merkmals nieder, so kommt man also bei Wahl Man beachte, dass die obige Bedingung insbesondere dann er-
des nach oben unbeschränkten Konfidenzintervalls leichter zur füllt ist, wenn anstelle des Limes inferior der Limes existiert und
begründeten Antwort „es gilt > “. für jedes # 2 gleich 1 ˛ ist.
254 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7
Was verbirgt sich hinter den „Fehlerbereichen“ der For- j D 1; : : : ; n. Obwohl das Ziehen ohne Zurücklegen erfolgt,
schungsgruppe Wahlen? arbeiten wir mit dem Modell stochastisch unabhängiger und
Auf der Website http://www.forschungsgruppe.de findet man je Bin.1; #/-verteilter Zufallsvariablen X1 ; : : : ; Xn , da N im
unter dem Punkt Zur Methodik der Politbarometer-Untersu- Vergleich zu n sehr groß ist.
chungen u. a. die Aussage
Ein approximatives 95 %-Konfidenzintervall für # aufgrund
. . . ergeben sich bei einem Stichprobenumfang von n D 1 250 der zufälligen relativen Trefferhäufigkeit Tn (Anteil der
folgende Vertrauensbereiche: Der Fehlerbereich beträgt bei ei- Partei-A-Anhänger unter den Befragten) ist nach (7.44) und
nem Parteianteil von 40 Prozent rund ˙ drei Prozentpunkte und
bei einem Parteianteil von 10 Prozent rund ˙ zwei Prozent-
(7.45)
punkte.
h 1:96 p 1:96 p i
Um diese Behauptung kritisch zu hinterfragen, legen wir ein Tn p Tn .1 Tn /; Tn C p Tn .1 Tn / :
vereinfachendes Binomial-Urnenmodell zugrunde. Hierbei n n
stellen wir uns vor, in einer Urne sei für jeden von N Wahl-
berechtigten eine Kugel. Von diesen Kugeln seien r rote, was Die halbe Länge dieses Intervalls ist bei n D 1 250:
einer Präferenz für eine bestimmte „Partei A“ entspricht. Von (
Interesse ist der unbekannte Anteil # WD r=N der (momen- 1:96 p 0:027: : : bei Tn D 0:4
tanen) Anhänger dieser Partei. Wir stellen uns vor, aus dieser p Tn .1 Tn / D
1 250 0:017: :: bei Tn D 0:1
fiktiven Urne würde eine rein zufällige Stichprobe vom Um-
fang n gezogen und setzen
Die zu Beginn zitierte Behauptung der Forschungsgruppe
Xj WD 1fj -ter Befragter präferiert Partei Ag; Wahlen hat also ihre Berechtigung.
Beispiel (Binomialverteilung) Die Zufallsvariablen äquivalent. Dabei hängen `n und Ln von X1 ; : : : ; Xn ab. Somit
X1 ; : : : ; Xn seien unabhängig und je Bin.1;P
#/-verteilt, wo- ist die durch Cn WD Œ`n ; Ln definierte Folge .Cn / ein asympto-
bei # 2 D .0; 1/. Setzen wir Tn WD n1 jnD1 Xj , so gilt tischer (1 ˛)-Konfidenzbereich für #, denn es gilt
nach dem Zentralen Grenzwertsatz von De Moivre-Laplace für
jedes h > 0 lim P# .`n # Ln / D 1 ˛ 8# 2 : (7.43)
n!1
ˇp ˇ !
ˇ n.T #/ ˇ
ˇ n ˇ Dass obige Konfidenzgrenzen schon für n D 50 brauchbar sind,
lim P# ˇ p ˇ h D ˚.h/ ˚.h/: (7.42)
n!1 ˇ #.1 #/ ˇ zeigt ein Vergleich mit Tab. 7.1. So liefern `n und Ln bei ei-
ner Konfidenzwahrscheinlichkeit 0:95 und k D 20 Treffern das
Wegen ˚.h/ ˚.h/ D 2˚.h/ 1 ist dann mit der Wahl Intervall Œ0:276; 0:538, verglichen mit dem aus Tab. 7.1 ent-
˛
h˛ WD ˚ 1 1 nommenen Intervall Œ0:264; 0:548. J
2
die rechte Seite von (7.42) gleich 1 ˛, also Video 7.4 Konfidenzbereich für das p der Binomialvertei-
(ˇp ˇ ) lung III
ˇ n.T #/ ˇ
ˇ n ˇ
An .#/ WD ˇ p ˇ h˛
ˇ #.1 #/ ˇ
der Praxis kann man `n und Ln verwenden, falls je mindestens
Kapitel 7
50 Treffer und Nieten auftreten, was insbesondere einen Min- Asymptotisches Konfidenzintervall für einen Erwar-
deststichprobenumfang von n D 100 voraussetzt. Die obigen tungswert
Grenzen `n und Ln erlauben auch, einen solchen Mindest-
stichprobenumfang zu planen, wenn ein Konfidenzintervall eine Sind X1 ; : : : ; Xn unabhängige identisch verteilte Zufalls-
vorgegebene Höchstlänge nicht überschreiten soll (siehe Aufga- variablen mit 0 < V .X1 / < 1, so ist
be 7.30).
˚ 1 .1 ˛=2/Sn ˚ 1 .1 ˛=2/Sn
Xn p ; Xn C p
Die Gestalt von `n und Ln liefert die schon beim Konfidenz- n n
intervall für den Erwartungswert der Normalverteilung beob-
achtete Faustregel, dass der Stichprobenumfang n vervierfacht ein asymptotisches .1 ˛/-Konfidenzintervall für den Er-
werden muss, um ein halb so langes Konfidenzintervall zu er- wartungswert von X1 .
halten. J
entscheidet. Die übliche, eine Asymmetrie zwischen 0 und 1 Tab. 7.4 Wirkungstabelle eines Tests
Kapitel 7
widerspiegelnde Redensart ist hier „zu testen ist die Hypothe- Entscheidung Wirklichkeit
se H0 gegen die Alternative H1 “. Häufig findet man auch die
# 2 0 # 2 1
Sprechweisen Nullhypothese für H0 und Alternativhypothese
H0 gilt richtige Entscheidung Fehler 2. Art
für H1 . Da die Entscheidungsregel nur zwei Antworten zulässt,
H1 gilt Fehler 1. Art richtige Entscheidung
ist die nachstehende formale Definition verständlich.
Beispiel (Tea tasting lady) Eine Lady trinkt ihren Tee stets
Definition eines nichtrandomisierten Tests
mit Milch. Sie behauptet, allein am Geschmack unterscheiden
Ist in obiger Situation K X eine messbare Menge, so zu können, ob zuerst Milch oder zuerst Tee eingegossen wurde.
heißt die Indikatorfunktion 1K nichtrandomisierter Test Dabei sei sie zwar nicht unfehlbar; sie würde aber im Vergleich
(kurz: Test) zur Prüfung der Hypothese H0 gegen die zum blinden Raten öfter die richtige Eingießreihenfolge treffen.
Alternative H1 . Die Menge K heißt kritischer Bereich
des Tests. Die Abbildung 1K ist wie folgt zu interpretie- Um der Lady eine Chance zu geben, ihre Behauptung unter Be-
ren: weis zu stellen, ist folgendes Verfahren denkbar: Es werden ihr
n mal zwei Tassen Tee gereicht, von denen jeweils eine vom Typ
(
x 2 K ; also 1K .x/ D 1; so Entscheidung für H1 ; „Milch vor Tee“ und die andere vom Typ „Tee vor Milch“ ist.
Falls Die Reihenfolge beider Tassen wird durch Münzwurf festgelegt.
x … K ; also 1K .x/ D 0; so Entscheidung für H0 : Hinreichend lange Pausen zwischen den n Geschmacksproben
garantieren, dass die Lady unbeeinflusst von früheren Ent-
scheidungen urteilen kann. Aufgrund dieser Versuchsanordnung
können wir die n Geschmacksproben als Bernoulli-Kette der
Kommentar Gilt x 2 K , fällt also die Beobachtung in
Länge n mit unbekannter Trefferwahrscheinlichkeit # model-
den kritischen Bereich, so sagt man auch, die Hypothese H0
lieren, wobei die richtige Zuordnung als Treffer angesehen wird.
wird verworfen. Das Komplement X n K des kritischen Be-
Da der Fall # < 1=2 ausgeschlossen ist (der Strategie des Ra-
reichs wird Annahmebereich genannt. Gilt x 2 X n K , so sagt
tens entspricht ja schon # D 1=2), ist eine Antwort auf die Frage
man auch, die Beobachtung x steht nicht im Widerspruch zu
„gilt # D 1=2 oder # > 1=2?“ zu finden.
H0 . Das Wort Annahmebereich bezieht sich also auf Annah-
me von H0 . Man beachte, dass aufgrund der eineindeutigen Wir beschreiben diese Situation durch ein statistisches Modell
Zuordnung zwischen Ereignissen und Indikatorfunktionen ein mit X WD f0; 1gn , B WD P .X / und WD Œ1=2; 1 sowie
nichtrandomisierter Test auch mit dem (seinem) kritischen Be- X D .X1 ; : : : ; Xn /, wobei X1 ; : : : ; Xn unter P# unabhängi-
reich identifiziert werde kann. Das Attribut nichtrandomisiert ge und je Bin.1; #/-verteilte Zufallsvariablen sind. Dabei ist
deutet an, dass es auch randomisierte Tests gibt. Dies ist aus Xj WD 1 bzw. Xj WD 0 gesetzt, falls die Lady das j -te Tas-
mathematischen Optimalitätsgesichtspunkten der Fall, und wir senpaar richtig bzw. falsch zuordnet. Setzen wir 0 WD f1=2g
werden hierauf in Abschn. 7.5 eingehen. J und 1 WD .1=2; 1, so bedeutet die Hypothese H0 W # 2 0
blindes Raten, und H1 W # 2 1 besagt, dass die Lady die
Da die Beobachtung x i. Allg. von jedem # 2 über die Ver- Eingießreihenfolge mehr oder weniger gut vorhersagen kann.
teilung P# erzeugt worden sein kann, sind Fehlentscheidungen Wir schreiben in der Folge Hypothese und Alternative auch als
beim Testen unvermeidlich. H0 W # D 1=2, H1 W # > 1=2.
Um einen Test für H0 gegen H1 festzulegen, müssen wir ei-
Fehler erster und zweiter Art ne Menge K X als kritischen Bereich auszeichnen. Hier
liegt es nahe, die Testentscheidung von einem n-Tupel x D
Es sei 1K ein nichtrandomisierter Test. Gelten # 2 0 und .x1 ; : : : ; xn / 2 X nur über dessen Einsen-Anzahl T .x/ WD
x 2 K , so liegt ein Fehler 1. Art vor. Ein Fehler 2. Art x1 C : : : C xn , also nur von der Anzahl der richtigen Tassen-
entsteht, wenn # 2 1 und x … K gelten. zuordnungen, abhängig zu machen. Da T als Abbildung auf X
die Werte 0; 1; : : : ; n annimmt und nur große Werte von T gegen
ein blindes Raten sprechen, bietet sich ein kritischer Bereich der
Man begeht also einen Fehler 1. Art (ohne dies zu wissen, Gestalt fT cg D fx 2 X j T .x/ cg an. Man würde also
denn man kennt ja # nicht!), wenn man die Hypothese H0 die Hypothese H0 blinden Ratens zugunsten einer Attestierung
fälschlicherweise verwirft. Ein Fehler 2. Art tritt auf, wenn besonderer geschmacklicher Fähigkeiten verwerfen, wenn die
fälschlicherweise gegen H0 kein Einwand erhoben wird. Die Lady mindestens c Tassenpaare richtig zuordnet.
unterschiedlichen Möglichkeiten sind in der Wirkungstabelle
Wie sollten wir c wählen? Sprechen etwa im Fall n D 20 min-
eines Tests (Tab. 7.4) veranschaulicht. Der Ausdruck Wirklich-
destens 17 richtig zugeordnete Paare gegen H0 ? Oder hat die
keit unterstellt dabei, dass wir an die Angemessenheit des durch
Lady bei so vielen richtigen Zuordnungen nur geraten und dabei
das statistische Modell .X ; B; .P# /#2 / gesteckten Rahmens
großes Glück gehabt? Wir sehen, dass hier ein Fehler 1. Art dem
glauben.
fälschlichen Attestieren besonderer geschmacklicher Fähigkei-
Das nachfolgende klassische Beispiel diene zur Erläuterung der ten entspricht. Ein Fehler 2. Art wäre, ihr solche Fähigkeiten
bisher vorgestellten Begriffsbildungen. abzusprechen, obwohl sie (in Form von #) mehr oder weniger
7.4 Statistische Tests 257
stark vorhanden sind. Es ist klar, dass wir mit dem Wert c das g20,14 (ϑ)
Kapitel 7
Auftreten von Fehlern erster und 2. Art beeinflussen können. 1
Vergrößern wir c, so lehnen wir H0 seltener ab und begehen so-
mit seltener einen Fehler 1. Art. Hingegen nimmt die Aussicht 0.8
auf einen Fehler 2. Art zu. J
0.6
Typisch an diesem Beispiel ist, dass der kritische Bereich K
X oft mithilfe einer messbaren Funktion T W X ! R be-
schrieben werden kann. Diese Funktion heißt Teststatistik oder 0.4
Prüfgröße. Der kritische Bereich ist dann meist von der Form
0.2
fT cg D fx 2 X j T .x/ cg
0
oder fT cg D fx 2 X j T .x/ cg. ϑ
0.5 0.6 0.7 0.8 0.9 1
Die Konstante c heißt kritischer Wert. Die Hypothese wird
also abgelehnt, wenn die Teststatistik mindestens oder höchs- Abb. 7.12 Gütefunktion g20;14 im Beispiel der tea tasting lady
tens gleich einem bestimmten Wert ist. Im ersten Fall liegt ein
oberer, im zweiten ein unterer Ablehnbereich vor. In beiden
Fällen nennt man den kritischen Bereich einseitig. Es kommt gleich fT20 14g. Da x1 ; : : : ; x20 unter P# Realisierungen
auch vor, dass H0 abgelehnt wird, wenn für Konstanten c1 ; c2 der unabhängigen und je Bin.1; #/-verteilten Zufallsvariablen
mit c1 < c2 mindestens eine der Ungleichungen T c2 oder X1 ; : : : ; X20 sind und die zufällige Trefferanzahl T20 D X1 C
T c1 zutrifft. In diesem Fall spricht man von einem zweiseiti- : : : C X20 die Verteilung Bin.20; #/ besitzt, ist die Gütefunktion
gen Ablehnbereich, da die Ablehnung sowohl für zu große als dieses Tests durch
auch für zu kleine Werte von T erfolgt. !
X
20
20 k
g20;14 .#/ WD # .1 #/20k
k
kD14
Definition der Gütefunktion eines Tests
gegeben. Hier haben wir das Zahlenpaar .20; 14/ als Index an
Die durch g geschrieben, um den kritischen Bereich, nämlich mindestens
14 Treffer in 20 Versuchen, deutlich zu machen. Abb. 7.12 zeigt
gK .#/ WD P# .X 2 K / den Graphen dieser Gütefunktion.
definierte Funktion gK W ! Œ0; 1 heißt Gütefunktion Wegen g20;14.0:5/ D 0:0576 : : : haben wir mit obigem Ver-
des Tests 1K mit kritischem Bereich K X für H0 W # 2 fahren erreicht, dass der Lady im Falle blinden Ratens nur
0 gegen H1 W # 2 1 . mit der kleinen Wahrscheinlichkeit von ungefähr 0:058 beson-
dere geschmackliche Fähigkeiten zugesprochen werden. Wir
können diese Wahrscheinlichkeit für einen Fehler 1. Art ver-
kleinern, indem wir den Wert 14 vergrößern und z. B. erst eine
Kommentar Die Gütefunktion eines Tests ordnet jedem # 2 Entscheidung für H1 treffen, wenn mindestens 15 oder sogar
die Verwerfungswahrscheinlichkeit der Hypothese H0 unter mindestens 16 von 20 Tassen-Paaren richtig zugeordnet wer-
P# zu. Die ideale Gütefunktion eines Tests hätte die Gestalt den. So ist etwa P0:5 .T20 15/ 0:0207 und P0:5 .T20
gK .#/ D 0 für jedes # 2 0 und gK .#/ D 1 für jedes # 2 1 . 16/ 0:0059. Die Frage, ab welcher Mindesttrefferanzahl man
Die erste Eigenschaft besagt, dass man nie einen Fehler 1. Art H0 verwerfen sollte, hängt von den Konsequenzen eines Feh-
begeht, denn dieser würde ja in einer fälschlichen Ablehnung lers 1. Art ab. Im vorliegenden Fall bestünde z. B. die Gefahr
von H0 bestehen. Gilt # 2 1 , so möchte man die (nicht gel- einer gesellschaftlichen Bloßstellung der Lady bei einem weite-
tende) Hypothese H0 ablehnen. Insofern bedeutet der Idealfall ren Geschmackstest, wenn man ihr Fähigkeiten zubilligt, die sie
gK 1 auf 1 , dass kein Fehler 2. Art begangen wird. gar nicht besitzt. Abb. 7.12 zeigt, dass aufgrund der Monotonie
der Funktion g20;14 mit einer größeren Trefferwahrscheinlich-
Man beachte, dass es zwei datenblinde triviale Tests gibt, näm-
keit # der Lady plausiblerweise auch die Wahrscheinlichkeit
lich diejenigen mit kritischen Bereichen K D ; und K D X .
wächst, mindestens 14 Treffer in 20 Versuchen zu erzielen. Ist
Der erste lehnt H0 nie ab, was einen Fehler 1. Art kategorisch
etwa # D 0:9, so gelangen wir bei obigem Verfahren mit der
ausschließt. Der zweite Test lehnt H0 immer ab, was bedeutet,
Wahrscheinlichkeit g20;14 .0:9/ D 0:997 : : : zur richtigen Ant-
dass ein Fehler 2. Art nicht auftritt. J
wort „H1 trifft zu“, entscheiden uns also nur mit der sehr kleinen
Wahrscheinlichkeit 0:002 : : : fälschlicherweise für H0 . Beträgt
Beispiel (Tea tasting lady, Fortsetzung) Reichen wir # hingegen nur 0.7, so gelangen wir mit der Wahrscheinlichkeit
der Lady n D 20 Tassenpaare und verwerfen die Hypothese 1 g20;14 .0:7/ D P0:7 .T20 13/ D 0:392 zur falschen Ent-
H0 W # D 1=2 genau dann, wenn mindestens 14 Paare rich- scheidung „H0 gilt“. Die Wahrscheinlichkeit, fälschlicherweise
tig zugeordnet werden, so ist mit T20 W f0; 1g20 ! f0; : : : ; ng, für H0 zu entscheiden, d. h. tatsächlich vorhandene geschmack-
T20 .x1 ; : : : ; x20 / D x1 C : : : C x20 , der kritische Bereich liche Fähigkeiten abzusprechen, hängt also stark davon ab, wie
258 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
schen Situation die Wahl von H0 und H1 (diese sind rein formal
Kapitel 7
gn (μ)
Kapitel 7
1
1
∗
g20,15 (ϑ)
0.5
n = 10
n=4
n=2
α
0
ϑ α
0 0.5 1
μ0 μ
Abb. 7.14 Gütefunktion beim zweiseitigen Binomialtest
∗
gn (μ) Man beachte, dass hier im Unterschied zum einseitigen Gauß-
Kapitel 7
1
Test der Hypothesen- und Alternativenbereich durch 0 WD
f.; 2 / j 0 ; 2 > 0g bzw. 1 WD f.; 2 / j > 0 ; 2 >
0g gegeben sind. Der „Stör“-Parameter 2 ist für die Fragestel-
lung nicht von Interesse.
Es liegt nahe, für das obige Testproblem die in (7.47) defi-
nierte Prüfgröße Tn des Gauß-Tests zu studentisieren und die
n=9
im Nenner auftretende Standardabweichung durch die in (7.32)
n=4
definierte Stichprobenstandardabweichung Sn zu ersetzen. Auf
n=2
diese Weise entsteht die Prüfgröße
p
α n .X n 0 /
Tn WD (7.51)
μ0 μ
Sn
des Ein-Stichproben-t -Tests. Da nur große Werte von Tn ge-
Abb. 7.16 Gütefunktion des zweiseitigen Gauß-Tests für verschiedene gen H0 sprechen, würde man die Hypothese ablehnen, wenn
Stichprobenumfänge
Tn einen noch festzulegenden kritischen Wert überschreitet. Die
Darstellung
Wie das folgende Beispiel zeigt, hängt es ganz von der Frage- p p
stellung ab, ob der Gauß-Test ein- oder zweiseitig durchgeführt n .X n / n . 0 /
Tn D C (7.52)
wird. Sn Sn
zeigt, wie der kritische Wert gewählt werden muss, wenn der
Beispiel (Konsumenten- und Produzentenrisiko) Ei- Test ein vorgegebenes Niveau ˛ besitzen soll. Ist D 0 , so
ne Abfüllmaschine für Milchflaschen ist so konstruiert, dass hat Tn nach dem Satz von Student eine tn1 -Verteilung. Ist der
die zufällige Abfüllmenge X (gemessen in ml) angenähert als wahre Erwartungswert, so hat der erste Summand in (7.52) eine
N.; 2 /-verteilt angenommen werden kann. Dabei gilt D 2. tn1 -Verteilung. Da der zweite für < 0 negativ ist, ergibt
Mithilfe einer Stichprobe soll überprüft werden, ob die Maschi- sich für solche
ne im Mittel mindestens 1 l einfüllt, also 1 000 ml gilt. Das !
p
Produzentenrisiko besteht darin, dass > 1 000 ml gilt, denn n.X n /
dann würde systematisch im Mittel mehr eingefüllt, als nötig P; 2 .Tn tn1I1˛ / P; 2 tn1I1˛
Sn
wäre. Im Gegensatz dazu handelt es sich beim Konsumentenrisi-
ko um die Möglichkeit, dass die Maschine zu niedrig eingestellt D ˛:
ist, also < 1 000 ml gilt. Möchte eine Verbraucherorganisa-
tion dem Hersteller statistisch nachweisen, dass die Maschine Also gilt P# .Tn tn1I1˛ / ˛ für jedes # D .; 2 / 2 0 ,
zu niedrig eingestellt ist, so testet sie unter Verwendung der und somit hat der Test, der H0 genau dann ablehnt, wenn Tn
Prüfgröße (7.47) die Hypothese H0 W 1 000 gegen die tn1;1˛ gilt, das Niveau ˛. Die Gütefunktion
Alternative H1 W < 1 000. Lehnt der Test die Hypothese gn .#/ D P# .Tn tn1I1˛ /; # 2 ; (7.53)
H0 zum Niveau ˛ ab, so ist man bei kleinem ˛ praktisch si-
cher, dass die Maschine zu niedrig eingestellt ist. Prüft man in dieses Tests hängt von n, 0 und # D .; 2 / nur über ı WD
dieser Situation die Hypothese H0 W D 0 gegen die zwei- p
n. 0 /= ab und führt auf die nichtzentrale t -Verteilung,
seitige Alternative H1 W ¤ 0 , so möchte man testen, ob siehe Übungsaufgabe 7.7.
die Maschine richtig eingestellt ist, wobei sowohl systematische
Abweichungen nach oben und nach unten entdeckt werden sol- Soll die Hypothese
len. Ein einseitiger Test sollte nur verwendet werden, wenn vor
H0 W D 0 gegen die Alternative H1 W ¤ 0
der Datenerhebung klar ist, ob man sich gegenüber großen oder
kleinen Werten von im Vergleich zu 0 absichern will. An- getestet werden, so erfolgt Ablehnung von H0 genau dann,
dernfalls erschleicht man sich Signifikanz. J wenn jTn j tn1I1˛=2 gilt. Da Tn im Fall D 0 die tn1 -
Verteilung besitzt, hat dieser Test das Niveau ˛.
Der Ein-Stichproben-t-Test prüft Hypothesen Beispiel Nach der Fertigpackungsverordnung von 1981 dür-
über den Erwartungswert einer fen nach Gewicht oder Volumen gekennzeichnete Fertigpackun-
Normalverteilung bei unbekannter Varianz gen gleicher Nennfüllmenge nur so hergestellt werden, dass die
Füllmenge im Mittel die Nennfüllmenge nicht unterschreitet
Wir legen jetzt ein statistisches Modell mit unabhängigen und je und eine in Abhängigkeit von der Nennfüllmenge festgelegte
N.; 2 /-verteilten Zufallsvariablen zugrunde, wobei und 2 Minusabweichung von der Nennfüllmenge nicht überschreitet.
(beide) unbekannt sind. Zu prüfen sei wieder Letztere beträgt bei einer Nennfüllmenge von einem Liter 15 ml;
sie darf nur von höchstens 2 % der Fertigpackungen überschrit-
H0 W 0 gegen H1 W > 0 : (7.50) ten werden. Fertigpackungen müssen regelmäßig überprüft wer-
7.4 Statistische Tests 261
Kapitel 7
Unter der Lupe: Typische Fehler im Umgang mit statistischen Tests
Über Wahrscheinlichkeiten von Hypothesen, Datenschnup- H1 angenommen wurde. In der Praxis weiß man aber nicht,
pern und Signifikanzerschleichung. ob H0 oder H1 zutrifft, da man sich sonst die Testdurchfüh-
rung ersparen könnte.
Ein oft begangener Fehler im Umgang mit Tests ist der
fälschliche Rückschluss vom Testergebnis auf die „Wahr-
Es ist ferner vom Grundprinzip statistischer Tests her un-
scheinlichkeit, dass H0 bzw. H1 gilt“. Ergibt ein Niveau-
zulässig, Hypothesen, die im Rahmen eines „Schnupperns“
˛-Test die Ablehnung von H0 aufgrund von x 2 X , so ist
in Daten gewonnen wurden, anhand dieser Daten zu testen.
eine Formulierung wie „Die Wahrscheinlichkeit ist höchs-
Der Test kann dann nur dem Wunsch des Hypothesen-
tens ˛, dass aufgrund des Testergebnisses die Hypothese H0
Formulierers entsprechend antworten. Haben sich z. B. in
zutrifft“ sinnlos, da das Signifikanzniveau nicht angibt, mit
einer Bernoulli-Kette mit unbekannter Trefferwahrschein-
welcher Wahrscheinlichkeit eine aufgrund einer Beobach-
lichkeit # in 100 Versuchen 60 Treffer ergeben, so muss
tung x getroffene Entscheidung falsch ist, vgl. hierzu die
die Hypothese H0 W # D 0:6 anhand „unvoreingenom-
Übungsaufgaben 7.3, 7.4 und 7.5. Das Signifikanzniveau ˛
mener“, unter denselben Bedingungen gewonnener Daten
charakterisiert nur in dem Sinne das Testverfahren, dass bei
geprüft werden.
Unterstellung der Gültigkeit von H0 die Wahrscheinlichkeit
für eine Ablehnung von H0 höchstens ˛ ist. Problematisch im Umgang mit Tests ist auch, dass fast nur
Führt man etwa einen Test zum Niveau 0.05 unter unabhän- signifikante Ergebnisse veröffentlicht werden, da man die
gigen gleichartigen Bedingungen 1 000-mal durch, so wird anderen als uninteressant einstuft. Der damit einhergehende
sich für den Fall, dass die Hypothese H0 gilt, in etwa 50 Fäl- Verzerrungs-Effekt des Verschweigens nichtsignifikanter Er-
len ein signifikantes Ergebnis, also eine Ablehnung von H0 , gebnisse wird publication bias genannt. Auf der Jagd nach
einstellen. In jedem dieser ca. 50 Fälle wurde mit Sicherheit Signifikanz wird manchmal auch verzweifelt nach einem
eine falsche Entscheidung getroffen. Diese Sicherheit war Test gesucht, der gegebenen Daten diese höhere Weihe er-
aber nur vorhanden, weil wir a priori die Gültigkeit von H0 teilt (für kompliziertere, hier nicht behandelte Testprobleme
für alle 1 000 Testläufe unterstellt hatten! In gleicher Weise existieren häufig mehrere Tests, die jeweils zur „Aufdeckung
wird sich bei Unterstellung der Alternative H1 in 1 000 unab- bestimmter Alternativen“ besonders geeignet sind). Hat man
hängigen Testdurchführungen ein gewisser Prozentsatz von etwa nach neun vergeblichen Anläufen endlich einen solchen
signifikanten Ergebnissen, also Ablehnungen von H0 , ein- Test gefunden, so ist es ein dreistes Erschleichen von Si-
stellen. Hier hat man in jedem dieser Fälle mit Sicherheit gnifikanz, das Nichtablehnen der Hypothese durch die neun
eine richtige Entscheidung getroffen, weil die Gültigkeit von anderen Tests zu verschweigen.
Legt man die Richtung eines einseitigen Tests nach Erhebung der Hypothese H0 W D 0 gegen die Alternative H1 W
der Daten fest, so täuscht man Signifikanz vor. ¤ 0 zum gleichen Niveau ˛ und zum gleichem Stichpro-
benumfang n.
Die Abbildung zeigt die Gütefunktionen des einseitigen
Gauß-Tests der Hypothese H0 W 0 gegen die Alter- Es ist nicht verwunderlich, dass der einseitige Test Alterna-
native H1 W > 0 (blau) und des zweiseitigen Gauß-Tests tiven > 0 mit größerer Wahrscheinlichkeit erkennt und
somit leichter zu einem signifikanten Resultat kommt als der
zweiseitige Test, der im Hinblick auf die zweiseitige Alter-
1 native ¤ 0 hin konzipiert wurde. Der zweiseitige Test
lehnt ja die Hypothese D 0 „erst“ ab, wenn die Un-
gleichung jTn j ˚ 1 .1 ˛=2/ erfüllt ist. Der einseitige
Test mit oberem Ablehnbereich kommt jedoch schon im Fall
Tn ˚ 1 .1 ˛/ zu einer Ablehnung der Nullhypothese. In
gleicher Weise lehnt der Test mit unterem Ablehnbereich die
Hypothese D 0 (sogar: 0 ) zugunsten der Alternati-
ve < 0 ab, wenn Tn ˚ 1 .1 ˛/ gilt. Wenn man also
α nach Beobachtung der Teststatistik Tn die Richtung der Al-
μ0 μ ternative festlegt und sich gegen H0 W D 0 entscheidet,
wenn jTn j ˚ 1 .1˛/ gilt, so hat man de facto einen zwei-
Gütefunktionen des ein- und zweiseitigen Gauß-Tests bei gleichem seitigen Test zum Niveau 2˛ durchgeführt. Das Testergebnis
Stichprobenumfang ist also in Wirklichkeit weniger signifikant.
262 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7
Es liege ein statistisches Modell .X ; B; .P# /#2 / vor, wo- T .x1 ; : : : ; xn / D x1 C : : : C xn . Da P# .T c/ nach Auf-
bei die Hypothese H0 W # 2 0 gegen die Alternative gabe 7.38 a) monoton in # wächst, wird das Supremum
H1 W # 2 1 getestet werden soll. Die Testentscheidung in (7.54) für # D #0 angenommen, und der p-Wert zu
gründe auf einer Prüfgröße T W X ! R. Dabei erfolge eine x D .x1 ; : : : ; xn / ist
Ablehnung von H0 für große Werte von T .
!
Anstatt einen Höchstwert ˛ für die Wahrscheinlichkeit eines X
n
n j
p.x/ D P#0 .T T .x// D # .1 #0 /nj :
Fehlers erster Art festzulegen und dann den kritischen Wert j 0
j DT .x/
für T zu wählen, stellen Statistik-Programmpakete meist ei-
nen sog. p-Wert p.x/ zur Beobachtung x 2 X bereit. Hierzu
beachte man, dass bei Wahl von c als kritischem Wert Setzen wir speziell #0 D 0:5 und n D 20 sowie T .x/ D 13,
so folgt p.x/ D 0:0576, vgl. das Beispiel der tea tasting lady
˛.c/ WD sup P# .T c/ (7.54) zu Abb. 7.13.
#20
Wird in obiger Situation H0 W # D 1=2 gegen H1 W # ¤ 1=2
die kleinste Zahl ˛ ist, für die dieser Test noch das Niveau ˛ getestet und die Prüfgröße T .x/ D jx1 C : : : C xn n=2j
besitzt. gewählt, so ist der p-Wert zu x gleich
Der p-Wert p.x/ zu x 2 X ist durch ˛.T .x// definiert. n1 !
1 X
n
n
Er liefert sofort eine Anweisung an jemanden, der einen p.x/ D P0:5 .T T .x// D :
Test zum Niveau ˛ durchführen möchte: Ist p.x/ ˛, so 2 j
j Dn=2CT .x/
lehnt man H0 ab, andernfalls erhebt man keinen Einwand
gegen H0 .
Problematisch an der Verwendung von p-Werten ist u. a.,
Als Beispiel betrachten wir einen einseitigen Binomialtest dass sie leicht missverstanden werden. So wäre es ein gro-
der Hypothese H0 W # 2 0 WD .0; #0 gegen die ßer Irrtum zu glauben, dass etwa im Falle p.x/ D 0:017
Alternative H1 W # 2 1 WD .#0 ; 1/, der auf Realisierun- die Hypothese H0 „mit der Wahrscheinlichkeit 0:017 richtig
gen x1 ; : : : ; xn von unabhängigen und je Bin.1; #/-verteilten sei “ (s. auch die Unter-der-Lupe-Box zu typischen Fehlern
Zufallsvariablen X1 ; : : : ; Xn gründet. Die Prüfgröße T ist im Umgang mit statistischen Tests).
den. Diese Überprüfung besteht zunächst aus der Feststellung trachtet, wenn die Ungleichung
der sog. Losgröße, also der Gesamtmenge der Fertigpackungen
tn1I0:995
gleicher Nennfüllmenge, gleicher Aufmachung und gleicher x n 0 C p sn
Herstellung, die am selben Ort abgefüllt sind. n
Aus einem Los wird dann eine Zufallsstichprobe vom Umfang gilt, bedeutet die amtliche Prüfung, dass ein einseitiger t -Test
n entnommen, wobei n in Abhängigkeit von der Losgröße fest- der Hypothese H0 W 0 gegen die Alternative H1 W > 0
gelegt ist. So gilt etwa n D 13, wenn die Losgröße zwischen zum Niveau ˛ D 0:005 durchgeführt wird. J
501 und 3 200 liegt. Die Vorschriften über die mittlere Füll-
menge sind erfüllt, wenn der festgestellte Mittelwert x n der
amtlich gemessenen Füllmengen x1 ; : : : ; xn , vermehrt um den Der Zwei-Stichproben-t-Test prüft auf
Betrag k sn , mindestens gleich der Nennfüllmenge ist. Dabei Gleichheit der Erwartungswerte von
ist sn die Stichprobenstandardabweichung, und k wird für die
Stichprobenumfänge 8, 13 und 20 (diese entsprechen Losgrö-
Normalverteilungen mit unbekannter Varianz
ßen zwischen 100 und 500, 501 bis 3 200 und größer als 3 200)
Wir nehmen jetzt an, dass X1 ; : : : ; Xm und Y1 ; : : : ; Yn unab-
zu k D 1:237, k D 0:847 und k D 0:640 festgelegt. Ein Ver-
hängige Zufallsvariablen mit den Normalverteilungen Xi
gleich mit Tab. 7.2 zeigt, dass k durch
N.; 2 /, i D 1; : : : ; m, und Yj N.; 2 /, j D 1; : : : ; n, sind.
Die Parameter ; und 2 sind unbekannt. In dieser Situation
tn1I0:995 prüft der Zwei-Stichproben-t -Test die Hypothese H0 W
k WD p
n gegen die Alternative H1 W > (einseitiger Test) bzw.
H0 W D gegen H1 W ¤ (zweiseitiger Test). Die Prüf-
gegeben ist. Schreiben wir 0 für die Nennfüllmenge und größe ist
für die mittlere Füllmenge, so zeigt die beschriebene Vorge- q
hensweise, dass die zufallsbehaftete Füllmenge als N.; 2 /- mn
.X m Y n /
mCn
normalverteilt betrachtet wird, wobei 2 unbekannt ist. Da man Tm;n D
die Vorschriften über die mittlere Füllmenge als erfüllt be- Sm;n
7.4 Statistische Tests 263
2
mit Sm;n wie in (7.38). Nach (7.41) hat Tm;n im Fall D Bei verbundenen Stichproben wird die gleiche
Kapitel 7
(unabhängig von 2 ) eine tmCn2 -Verteilung. Größe zweimal gemessen
Hiermit ist klar, dass der zweiseitige Zwei-Stichproben-t -Test
H0 W D genau dann zum Niveau ˛ ablehnt, wenn Im Unterschied zu unabhängigen Stichproben treten in den An-
wendungen häufig verbundene oder gepaarte Stichproben auf.
jTm;n j tmCn2I1˛=2 Dies ist immer dann der Fall, wenn für jede Beobachtungsein-
heit die gleiche Zielgröße zweimal gemessen wird, und zwar
gilt. Andernfalls besteht kein Einwand gegen H0 . in verschiedenen „Zuständen“ dieser Einheit. Beispiele hierfür
sind der Blutdruck (Zielgröße) einer Person (Beobachtungsein-
Der einseitige Zwei-Stichproben-t -Test lehnt H0 W zu-
heit) vor und nach Einnahme eines Medikaments (Zustand 1
gunsten von H1 W > ab, wenn Tm;n tmCn2I1˛ gilt.
bzw. 2) oder der Bremsweg (Zielgröße) eines Testfahrzeugs
Analog testet man H0 W gegen H1 W < . Dieser Test
(Beobachtungseinheit), das mit zwei Reifensätzen unterschied-
ist ein Test zum Niveau ˛, denn wegen
licher Profilsorten (Zustand 1 bzw. Zustand 2) bestückt wird.
p mn
mCn .X m Y n .// Modellieren Xj bzw. Yj die zufallsbehafteten Zielgrößen-Werte
Cı
Tm;n D Sm;n
der j -ten Beobachtungseinheit im Zustand 1 bzw. Zustand 2, so
können zwar die Paare .Xj ; Yj /, j D 1; : : : ; n als unabhängige
identisch verteilte bivariate Zufallsvektoren angesehen werden.
mit Für jedes j sind Xj und Yj jedoch nicht stochastisch unabhän-
r gig, da sie sich auf dieselbe Beobachtungseinheit beziehen.
mn
ıD
mCn In diesem Fall betrachtet man die stochastisch unabhängigen
und identisch verteilten Differenzen Zj WD Xj Yj , j D
wächst seine Gütefunktion streng monoton in ı. Nach Aufga- 1; : : : ; n, der Zielgröße in den beiden Zuständen. Haben die un-
be 7.7 hat Tm;n unter P# , # D .; ; 2 /, eine nichtzentrale terschiedlichen Zustände keinen systematischen Effekt auf die
tmCn2 -Verteilung mit Nichtzentralitätsparameter ı. Zielgröße, so sollte die Verteilung von Z1 symmetrisch um 0
sein. Nimmt man spezieller an, dass Z1 N.; 2 / gilt, wo-
Beispiel In einem Werk werden Widerstände in zwei unter- bei und 2 unbekannt sind, so testet der t -Test für verbundene
schiedlichen Fertigungslinien produziert. Es soll geprüft wer- Stichproben die Hypothese H0 W 0 gegen die Alternative
den, ob die in jeder der Linien hergestellten Widerstände im H1 W > 0 (einseitiger Test) bzw. die Hypothese H0 W D 0
P
Mittel den gleichen Wert (gemessen in Ohm) besitzen. Dabei gegen H1 W ¤ 0 (zweiseitiger Test). Mit Z n D n1 jnD1 Zj
wird unterstellt, dass die zufallsbehafteten Widerstandswerte als ist die Prüfgröße
Realisierungen unabhängiger normalverteilter Zufallsvariablen p
mit gleicher unbekannter Varianz, aber möglicherweise unter- n Zn
Tn WD q P
schiedlichen (und ebenfalls unbekannten) Erwartungswerten .n 1/1 jnD1 .Zj Z n /2
bzw. für Fertigungslinie 1 bzw. 2 angesehen werden können.
Bei der Messung der Widerstandswerte einer aus der Ferti- die gleiche wie in (7.51), nur mit dem Unterschied, dass das dor-
gungslinie 1 entnommenen Stichprobe x1 ; : : : ; xm vom Umfang tige Xj durch Zj ersetzt wird. Gilt D 0, so hat Tn nach dem
m D 15 ergaben sich Stichprobenmittelwert und Stichproben- Satz von Student eine tn1 -Verteilung. Die Hypothese H0 wird
P zum Niveau ˛ abgelehnt, falls Tn tn1I1˛ gilt, andernfalls
varianz zu x 15 D 151:1 bzw. 15 2
i D1 .xi x 15 / =.15 1/ D 2:56.
Die entsprechenden, aus einer Stichprobe vom Umfang n D 11 erhebt man keinen Einwand gegen H0 . Beim zweiseitigen Test
aus der Fertigungslinie 2 erhaltenen Werte waren y 11 D 152:8 erfolgt Ablehnung von H0 zum Niveau ˛ genau dann, wenn
P jTn j tn1I1˛=2 gilt (siehe hierzu Aufgabe 7.33).
und j11D1 .yj y 11 /2 =.11 1/ D 2:27.
Da die Hypothese H0 W D gegen H1 W ¤ getestet wer-
den soll, verwenden wir den zweiseitigen Zwei-Stichproben- Der F-Test für den Varianzquotienten prüft auf
t -Test. Aus den obigen Stichprobenvarianzen ergibt sich die Gleichheit der Varianzen bei unabhängigen
2
Realisierung von Sm;n (mit m D 15, n D 11) zu
normalverteilten Stichproben
2 1
s15;11 D .14 2:56 C 10 2:27/ D 2:44: In Verallgemeinerung der beim Zwei-Stichproben-t -Test ge-
15 C 11 2
machten Annahmen setzen wir jetzt voraus, dass X1 ; : : : ; Xm ;
Folglich nimmt die Prüfgröße T15;11 den Wert Y1 ; : : : ; Yn unabhängige Zufallsvariablen mit den Normalver-
r teilungen N.; 2 / für i D 1; : : : ; m und N.; 2 / für j D
15 11 151:1 152:8 1; : : : ; n sind. Dabei sind ; ; 2 und 2 unbekannt. Die Va-
T15;11 D p D 2:74 rianzen der Beobachtungen in der Behandlungs- und der Kon-
15 C 11 2:44
trollgruppe können also verschieden sein. Will man in dieser
an. Zum üblichen Signifikanzniveau ˛ D 0:05 ergibt sich aus Situation die Hypothese
Tab. 7.2 der kritische Wert zu t24I0:975 D 2:064. Wegen jT15;11j
2:064 wird die Hypothese abgelehnt. J H0 W 2 D 2
264 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
r
s 1 2 3 4 5 6 7 8 9
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07
gegen die (zweiseitige) Alternative H1 W 2 ¤ 2 testen, so (1890–1962) zurückgehende Fr;s -Verteilung ist also die Ver-
2 2 teilung zweier unabhängiger reduziert Chi-Quadrat-verteilter
Pm und 2durch
bietet sich an, die unbekannten Varianzen
1
die Stichprobenvarianzen .m 1/ i D1 .Xi X m / und Zufallsvariablen mit r bzw. s Freiheitsgraden. Die Dichte der
P
.n 1/1 jnD1 .Yj Y n /2 zu schätzen und als Prüfgröße den Fr;s -Verteilung ist nach Aufgabe 7.43 durch
sog. Varianzquotienten r r=2
Pm s
t r=21
1
i D1 .Xi X m /
2 fr;s .t / WD r s
.rCs/=2 (7.56)
Qm;n WD m1
Pn (7.55) B ;
2 2
1 C rs t
1 2
n1 j D1 .Yj Y n /
für t > 0 und fr;s .t / WD 0 sonst, gegeben. Tab. 7.5 gibt für aus-
zu verwenden. Bei Gültigkeit der Hypothese kann man hier ge- gewählte Werte von r und s das mit Fr;sIp bezeichnete p-Quantil
danklich Zähler und Nenner durch die dann gleiche Varianz 2 der Fr;s -Verteilung für p D 0:95 an. Aufgrund der Erzeugungs-
dividieren und erhält, dass Qm;n die nachstehend definierte Ver- weise der Fr;s -Verteilung gilt
teilung mit r WD m 1 und s WD n 1 besitzt.
1
Fr;sIp D (7.57)
Fs;rI1p
Definition der Fr;s -Verteilung
Sind R und S unabhängige Zufallsvariablen mit R 2r (Aufgabe 7.8), sodass mithilfe von Tab. 7.5 für gewisse Werte
und S 2s , so heißt die Verteilung des Quotienten von r und s auch 5 %-Quantile bestimmt werden können. So
gilt z. B. F8;9I0:05 D 1=F9;8I0:95 D 1=3:39 D 0:295. J
1
r
R
Q WD 1
Der F -Test für den Varianzquotienten lehnt die Hypothese H0 W
s
S 2 D 2 zum Niveau ˛ genau dann ab, wenn
(Fishersche) F-Verteilung mit r Zähler- und s Nenner- Qm;n Fm1;n1I˛=2 oder Qm;n Fm1;n1I1˛=2
Freiheitsgraden, und wir schreiben hierfür
gilt. Im Fall m D 9 und n D 10 würde man also H0 zum Ni-
Q Fr;s : veau ˛ D 0:1 verwerfen, wenn Q9;10 F8;9W0:95 D 3:23 oder
Q9;10 F8;9W0:05 D 1=F9;8W0:95 D 1=3:39 D 0:295 gilt. Bei solch
kleinen Stichprobenumfängen können sich also die Schätzwerte
Selbstfrage 8 für 2 und 2 um den Faktor 3 unterscheiden, ohne dass dieser
Sehen Sie, dass Qm;n unter H0 Fm1;n1 -verteilt ist? Unterschied zum Niveau ˛ D 0:1 signifikant wäre.
Analog zu früher lehnt man die Hypothese H0 W 2 2 ge-
gen die einseitige Alternative H1 W 2 > 2 zum Niveau ˛
Kommentar Dividiert man eine Chi-Quadrat-verteilte Zu- ab, wenn Qm;n Fm1;n1I1˛ gilt. Da die Gütefunktion die-
fallsvariable durch die Anzahl der Freiheitsgrade, so entsteht ei- ses Tests streng monoton in 2 = 2 wächst, besitzt dieser Test
ne sog. reduzierte Chi-Quadrat-Verteilung. Die auf R. A. Fisher das Niveau ˛ (Aufgabe 7.8).
7.4 Statistische Tests 265
Der exakte Test von Fisher prüft auf Gleichheit konkreten Wert von p) mindestens s Treffer in der X -Stichprobe
Kapitel 7
zu beobachten, ist
zweier Wahrscheinlichkeiten m n
Xk
j kj
Wir betrachten jetzt ein Zwei-Stichproben-Problem mit unab- mCn :
hängigen Zufallsvariablen X1 ; : : : ; Xm ; Y1 ; : : : ; Yn , wobei Xi j Ds k
Bin.1; p/ für i D 1; : : : ; m und Yj Bin.1; q/ für j D
Ist dieser Wert höchstens ˛, so wird H0 zum Niveau ˛ abge-
1; : : : ; n. Als Anwendungsszenarium können m C n Perso-
nen dienen, von denen m nach einer neuen und n nach einer lehnt. Gilt in Wahrheit p < q, so wäre diese Wahrscheinlichkeit
herkömmlichen (alten) Methode behandelt werden. Das Be- im Vergleich zum Fall p D q noch kleiner. Formal ist also der
kritische Bereich dieses Tests durch
handlungsergebnis schlage sich in den Möglichkeiten Erfolg
(1) und Misserfolg (0) nieder, sodass p und q die unbekann- n ˇXk o
ˇ
ten Erfolgswahrscheinlichkeiten für die neue bzw. alte Methode K WD .x1 ; : : : ; xm ; y1 ; : : : ; yn / 2 X ˇ hm;n;k .j / ˛
sind. Der Parameterraum eines statistischen Modells mit X WD j Ds
f0; 1gmCn ist dann Pm Pn
mit k D i D1 xi C j D1 yj und s D x1 C : : : C xm gegeben.
WD f# WD .p; q/ j 0 < p; q < 1g D .0; 1/2 ; Beim zweiseitigen Test H0 W p D q gegen H1 W p ¤ q würde
man analog zum zweiseitigen Binomialtest ebenfalls mit der hy-
und es gilt für .x1 ; : : : ; xm ; y1 ; : : : ; yn / 2 X pergeometrischen Verteilung (7.58) arbeiten, aber von jedem der
beiden Enden ausgehend jeweils die Wahrscheinlichkeitsmasse
P# .X1 D x1 ; : : : ; Xm D xm ; Y1 D y1 ; : : : ; Yn D yn / ˛=2 wegnehmen.
D p s .1 p/ms q t .1 q/nt :
Beispiel Als Zahlenbeispiel für diesen Test betrachten wir
Dabei sind s D x1 C : : : C xm und t D y1 C : : : C yn die
den Fall m D 12 und n D 10. Es mögen sich insgesamt k D 9
jeweiligen Anzahlen der Erfolge in den beiden Stichproben. In
Heilerfolge (Treffer) ergeben haben, von denen s D 7 auf die
dieser Situation testet man üblicherweise die Hypothese
nach der neuen und nur zwei auf die nach der alten Methode
H0 W p q behandelten Patienten fallen.
gegen die Alternative H1 W p > q (einseitiger Test) oder die Hy- Erfolg Misserfolg Gesamt
pothese H0 W p D q gegen die Alternative H1 W p ¤ q (zwei- neu 7 5 12
seitiger Test). Offenbar entspricht H0 der Teilmenge 0 WD alt 2 8 10
f.p; q/ 2 j p qg von . Da die relativen Trefferhäufigkei- Gesamt 9 13 22
ten s=m und t =n Schätzwerte für die Wahrscheinlichkeiten p
bzw. q darstellen, erscheint es plausibel, H0 abzulehnen, wenn Da die neue Methode von vorneherein nicht schlechter als die
s=m im Vergleich zu t =n „zu groß ist“. Da sich „zu groß“ nur alte erachtet wird, untersuchen wir (unter p D q) die bedingte
auf die Verteilung
P der zufälligen relativen
P Trefferhäufigkeiten Wahrscheinlichkeit, bei insgesamt k D 12 Heilerfolgen min-
X m WD m1 jmD1 Xj und Y n WD n1 jnD1 Yj unter H0 bezie- destens 7 davon unter den nach der neuen Methode behandelten
hen kann und diese Verteilung selbst für diejenigen .p; q/ 2 0 Patienten anzutreffen. Diese ist
mit p D q, also „auf der Grenze zwischen Hypothese und Al- 12 10
ternative“, vom unbekannten p abhängt, ist zunächst nicht klar, X9
j 9j
wie eine Teststatistik und ein zugehöriger kritischer Wert ausse- 22 0:073
j D7 9
hen könnten.
An dieser Stelle kommt eine Idee von R. A. Fisher ins Spiel. und somit nicht klein genug, um die Hypothese H0 W p q auf
p D dem 5 %-Niveau zu verwerfen, wohl aber auf dem 10 %-Niveau.
Stellen wir uns vor, esPgälte
m Pnq, und wir hätten insge- Hätten wir 8 Heilerfolge nach der neuen und nur einen nach der
samt k WD s C t D i D1 xi C j D1 yj Treffer beobachtet.
Schreiben wir S WD X1 C : : : C Xm und T WD Y1 C : : : C Yn alten beobachtet, so hätte sich der p-Wert
für die zufälligen Trefferzahlen aus beiden Stichproben, so ist 12 10
X9
j 9j
nach Aufgabe 4.11 die bedingte Verteilung von S unter der 22 0:014
Bedingung S C T D k durch die nicht von p abhängende hy- j D8 9
pergeometrische Verteilung Hyp.k; m; n/ gegeben. Es gilt also
für alle infrage kommenden j und eine Ablehnung von H0 zum Niveau 0:05 ergeben. J
m n
j kj
P .S D j jS C T D k/ D mCn DW hm;n;k .j /: (7.58) Konsistenz ist eine wünschenswerte Eigenschaft
k
einer Testfolge
Der sog. exakte Test von Fisher beurteilt die Signifikanz einer
Realisierung s von S nach dieser Verteilung, also bedingt nach Ganz analog zur Vorgehensweise bei Punktschätzern und Kon-
der beobachteten Gesamttrefferzahl k D s Ct . Die Wahrschein- fidenzbereichen möchten wir jetzt asymptotische Eigenschaften
lichkeit, unter dieser Bedingung und p D q (unabhängig vom von Tests definieren und untersuchen. Hierzu betrachten wir
266 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
der Einfachheit halber eine Folge unabhängiger und identisch denen das statistische Modell nichtparametrisch ist, nicht immer
Kapitel 7
verteilter Zufallsvariablen X1 ; X2 ; : : :, deren Verteilung von ei- gegeben. Zumindest sollte man sich stets überlegen, welche al-
nem Parameter # 2 abhängt. Zu testen sei die Hypothese ternativen Verteilungen asymptotisch für n ! 1 mit immer
H0 W # 2 0 gegen die Alternative H1 W # 2 1 . Dabei sind größerer Sicherheit erkannt werden können. J
0 , 1 disjunkte nichtleere Mengen, deren Vereinigung ist.
Der Stichprobenraum für .X1 ; : : : ; Xn / sei mit Xn bezeichnet. Beispiel (Asymptotischer einseitiger Binomialtest) Es
Ein auf X1 ; : : : ; Xn basierender Test für H0 gegen H1 ist eine seien X1 ; : : : ; Xn ; : : : unabhängige und je Bin.1; #/-verteilte
mit Zufallsvariablen, wobei # 2 WD .0; 1/. Zu testen sei die Hy-
'n WD 1fKn g pothese H0 W # #0 gegen die Alternative H1 W # > #0 ;
es gilt also 0 D .0; #0 und 1 D .#0 ; 1/. Dabei ist #0 ein
abgekürzte Indikatorfunktion eines kritischen Bereichs Kn
Wert, der vor Beobachtung von X1 ; : : : ; Xn festgelegt wird. Wir
Xn . Gilt 'n .x/ D 1 für x 2 Xn , so wird H0 aufgrund der Rea-
möchten eine Testfolge .'n / konstruieren, die asymptotisch ein
lisierung x von .X1 ; : : : ; Xn / abgelehnt, andernfalls erhebt man
vorgegebenes Niveau ˛ besitzt und konsistent für H0 gegen H1
keinen Einwand gegen H0 . Im Allgemeinen wird 'n D 1fTn
ist. Setzen wir
cn g mit einer Prüfgröße Tn W Xn ! R und einem kritischen p
Wert cn gelten. cn WD n#0 C n#0 .1 #0 / ˚ 1 .1 ˛/ (7.59)
Wir werden bei Wahrscheinlichkeitsbetrachtungen stets P# und für .x1 ; : : : ; xn / 2 Xn WD f0; 1gn
schreiben, also eine Abhängigkeit der gemeinsamen Verteilung X
n
g'n .#/ WD E# 'n D P# ..X1 ; : : : ; Xn / 2 Kn / ; # 2 ; Da nach Aufgabe 7.38 a) die Funktion G'n streng monoton
wächst, hat die Testfolge .'n / asymptotisch das Niveau ˛.
gegeben ist. Um die Konsistenz von .'n / nachzuweisen, sei #1 mit #0 <
#1 < 1 beliebig gewählt. Weiter sei " > 0 mit " < #1 #0 .
Aufgrund des schwachen Gesetzes großer Zahlen gilt
Asymptotisches Niveau, Konsistenz
ˇ X ˇ
ˇ1 n ˇ
Eine Testfolge .'n / für H0 W # 2 0 gegen H1 W # 2 1 ˇ
P #1 ˇ ˇ
Xj #1 ˇ < " ! 1 für n ! 1: (7.60)
n j D1
hat asymptotisch das Niveau ˛, ˛ 2 .0; 1/, falls gilt:
Wird n so groß gewählt, dass die Ungleichung
lim sup g'n .#/ ˛ 8# 2 0 ; p
n!1 n.#1 #0 "/
an WD p ˚ 1 .1 ˛/
heißt konsistent für H0 gegen H1 , falls gilt: #0 .1 #0 /
ˇ1 n ˇ j D1 Xj n#0
ˇ X # ˇ < " p a
ˇn j 1ˇ n
j D1 n#0 .1 #0 /
Kommentar Die erste Forderung besagt, dass die Wahr- Pn
j D1 Xj n#0
scheinlichkeit für einen Fehler erster Art – unabhängig vom p 1
˚ .1 ˛/
konkreten Parameterwert # 2 0 – asymptotisch für n ! 1 n#0 .1 #0 /
höchstens gleich einem vorgegebenen Wert ˛ ist. Die zwei- X n
Man beachte, dass wir die Abhängigkeit der Gütefunktion vom Der Chi-Quadrat-Anpassungstest prüft
Kapitel 7
Stichprobenumfang n schon im Fall der tea tasting lady anhand
die Verträglichkeit von relativen Häufigkeiten
von Abb. 7.13 und im Fall des ein- und zweiseitigen Gauß-Tests
mit den Abb. 7.15 und 7.16 veranschaulicht haben. Die Gestalt mit hypothetischen Wahrscheinlichkeiten
der Gütefunktionen (7.48) und (7.49) des ein- bzw. zweiseitigen
Gauß-Tests zeigt, dass diese Verfahren, jeweils als Testfolgen Wir lernen jetzt mit dem von Karl Pearson (1857–1938) entwi-
betrachtet, konsistent sind. In diesem Fall kann man sogar mit ckelten Chi-Quadrat-Anpassungstest (im Folgenden kurz Chi-
elementaren Mitteln beweisen, dass die Wahrscheinlichkeit für Quadrat-Test genannt) eines der ältesten Testverfahren der
einen Fehler 2. Art exponentiell schnell gegen null konvergiert Statistik kennen. In seiner einfachsten Form prüft dieser Test
(Aufgabe 7.42). die Güte der Anpassung von relativen Häufigkeiten an hypo-
thetische Wahrscheinlichkeiten in einem multinomialen Ver-
Selbstfrage 9 suchsschema. Hierzu betrachten wir n unabhängige gleichartige
Versuche (Experimente) mit jeweils s möglichen Ausgängen
Können Sie die Konsistenz des ein- und zweiseitigen Gauß-
1; 2; : : : ; s, die wir wie früher Treffer 1. Art, : : : ,Treffer s-ter
Tests zeigen?
Art nennen. Beispiele sind der Würfelwurf mit den Ergebnissen
1 bis 6 (s D 6/ oder ein Keimungsversuch bei Samen mit den
Ausgängen normaler Keimling, anormaler Keimling und fauler
Beispiel (Planung des Stichprobenumfangs) Wir wol-
Keimling (s D 3).
len jetzt in der Situation des vorigen Beispiels eine Näherungs-
formel für den nötigen Mindeststichprobenumfang n angeben, Bezeichnet pj die Wahrscheinlichkeit für einen Treffer j -
um einen vorgegebenen Wert #1 , #1 > #0 , mit einer ebenfalls ter Art, so hat der Zufallsvektor X WD .X1 ; : : : ; Xs /
vorgegebenen Wahrscheinlichkeit ˇ, wobei ˛ < ˇ < 1, zu „er- der Trefferanzahlen nach (4.31) die Multinomialverteilung
kennen“. Die Forderung Mult.nI p1 ; : : : ; ps /. Der Wertebereich für X ist die Menge
0 1
Xn Xn WD fk D .k1 ; : : : ; ks / 2 N0s j k1 C : : : C ks D ng
ˇ D P #1 @ Xj cn A
Š
j D1
aller möglichen Vektoren von Trefferanzahlen. Wir nehmen an,
dass p1 ; : : : ; ps unbekannt sind und legen als Parameterraum
mit cn wie in (7.59) geht für eines statistischen Modells die Menge
P p die standardisierte Zufallsvariable
Sn WD . jnD1 Xj n#1 /= n#1 .1 #1 / in 8 9
< ˇ X
s =
p ! ˇ
p WD # WD .p1 ; : : : ; ps /ˇp1 > 0; : : : ; ps > 0; pj D 1
Š n.#0 #1 / C #0 .1 #0 /˚ 1 .1 ˛/ : ;
ˇ D P#1 Sn
p j D1
#1 .1 #1 /
zugrunde. Zu testen sei die Hypothese
über. Durch Approximation mit der Standardnormalverteilung
(obwohl der Ausdruck rechts vom Größer-Zeichen von n ab- H0 W # D #0 D .1 ; : : : ; s /
hängt) ergibt sich
gegen die Alternative H1 W # ¤ #0 . Dabei ist #0 ein Vektor mit
s !
#0 .1 #0 / p #0 #1 vorgegebenen Wahrscheinlichkeiten. Im Fall s D 6 und 1 D
1
ˇ 1 ˚ ˚ .1 ˛/ C np ; : : : D 6 D 1=6 geht es also etwa darum, einen Würfel auf
#1 .1 #1 / #1 .1 #1 / Echtheit zu prüfen. Im Folgenden schreiben wir kurz
also nŠ Y s
k
" s #2 mn .k/ WD j; k 2 Xn ;
k1 Š : : : ks Š j D1 j
#1 .1 #1 / #0 .1 #0 /
n ˚ 1 .1 ˇ/ ˚ 1 .1 ˛/ :
.#0 #1 /2 #1 .1 #1 / für die Wahrscheinlichkeit P#0 .X D k/.
Als Zahlenbeispiel diene der Fall #0 D 1=2, #1 D 0:6, ˛ D 0:1 Um einen Test für H0 gegen H1 zu konstruieren liegt es nahe,
und ˇ D 0:9. Mit ˚ 1 .0:1/ D ˚ 1 .0:9/ D 1:282 liefert die diejenigen k in einen kritischen Bereich K Xn aufzu-
obige Approximation hier den Näherungswert n 161, wobei nehmen, die unter H0 am unwahrscheinlichsten sind, also die
auf die nächstkleinere ganze Zahl gerundet wurde. Der mithil- kleinsten Werte für mn .k/ liefern. Als Zahlenbeispiel betrach-
fe des Computer-Algebra-Systems MAPLE berechnete exakte ten wir den Fall n D 4, s D 3 und 1 D 2 D 1=4,
Wert von n beträgt 163. 3 D 1=2. Hier besteht der Stichprobenraum X4 aus 15 Tripeln,
die zusammen mit ihren nach aufsteigender Größe sortierten
Im Eingangsbeispiel der tea tasting lady sollten also der Lady
H0 -Wahrscheinlichkeiten in Tab. 7.6 aufgelistet sind (die Be-
ca. 160 Tassenpaare gereicht werden, damit bei einer zugelas-
deutung der letzten Spalte wird später erklärt).
senen Wahrscheinlichkeit von 0:1 für einen Fehler erster Art
die Wahrscheinlichkeit 0.9 beträgt, dass der Test besondere Nehmen wir die obersten 5 Tripel in Tab. 7.6 in den kritischen
geschmackliche Fähigkeiten entdeckt, wenn ihre Erfolgswahr- Bereich auf, setzen wir also
scheinlichkeit, die richtige Eingießreihenfolge zu treffen, in
Wirklichkeit 0:6 ist. J K WD f.k1 ; k2 ; k3 / 2 X4 j k3 D 0g ;
268 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Tab. 7.6 Der Größe nach sortierte H0 -Wahrscheinlichkeiten im Fall und die Ungleichungen log t t 1 und log t 1 1=t , t > 0,
Kapitel 7
k
p .k/ WD e : Dabei wurde
kŠ
p
In .C / WD f.k1 ; : : : ; ks / j jkj nj j C n; 1 j sg
Letztere kann man für beliebiges C > 0 für ! 1 gleichmä-
p
ßig für alle k mit k 2 I .; C / WD f` 2 N0 j j` j C g und
approximieren. Genauer gilt mit 0
s 2 1
X
2 1 1 kj nj
1 .k / fn .k/ WD q Q exp @ A
g .k/ WD p exp .2n/s1 js D1 j 2 j D1 nj
2 2
die Grenzwertaussage gesetzt. Da somit bei großem n kleine Werte von mn .k/ großen
ˇ ˇ Werten der hier auftretenden Summe
ˇ p .k/ ˇ
lim sup ˇ 1ˇˇ D 0: (7.62) X s 2
!1 k2I .;C / ˇ g .k/ 2 kj nj
n .k1 ; : : : ; ks / WD (7.64)
nj
p j D1
Diese ergibt sich, wenn man zk WD .k /= setzt und nur
Werte k 2 I .; C / und damit nur zk mit jzk j C betrachtet. entsprechen, ist es sinnvoll, den kritischen Bereich K durch
Für L .k/ WD log p .k/ gilt dann 8 9
< ˇ s =
ˇ X kj nj 2
zk 1 K WD k 2 Xn ˇˇ c
L .k C 1/ L .k/ D log 1 C p C ; : nj ;
j D1
7.4 Statistische Tests 269
Kapitel 7
Hintergrund und Ausblick: Das lineare statistische Modell
Regressions- und Varianzanalyse: Zwei Anwendungsfelder englischsprachigen Literatur mit ANOVA (analysis of var-
der Statistik iance) abgekürzten Varianzanalyse. Bei diesem Verfahren,
das zunächst in der landwirtschaftlichen Versuchstechnik
In der experimentellen Forschung untersucht man oft den
angewandt wurde, studiert man Mittelwerts-Einflüsse ei-
Einfluss quantitativer Größen auf eine Zielgröße. So ist et-
ner oder mehrerer qualitativer Größen, die auch Faktoren
wa die Zugfestigkeit von Stahl als Zielgröße u. a. abhängig
genannt werden, auf eine quantitative Zielgröße. Je nach
vom Eisen- und Kohlenstoffanteil und der Wärmebehand-
Anzahl dieser Faktoren spricht man von einer einfachen,
lung. Ein Regressionsmodell beschreibt einen funktionalen
zweifachen ... Varianzanalyse. Bei der einfachen Varianzana-
Zusammenhang zwischen den auch Regressoren genannten
lyse werden die verschiedenen Werte des Faktors auch Stufen
Einflussgrößen und der Zielgröße. Mit einer Regressionsana-
genannt und als Gruppen interpretiert. Gibt es k Gruppen,
lyse möchte man dann die Effekte der Regressoren auf die
und stehen für die i-te Gruppe ni Beobachtungen zur Verfü-
Zielgröße bestimmen und zukünftige Beobachtungen vorher-
gung, so formuliert man das Modell
sagen.
Da Messfehler und unbekannte weitere Einflüsse bei Ver- Yij D i C "ij ; i D 1 : : : ; k; j D 1; : : : ; ni : (7.67)
suchswiederholungen unterschiedliche Resultate zeigen, tritt
ein im Modell als additiv angenommener Zufallsfehler auf. Hierbei sind die "ij unabhängige Zufallsvariablen mit
Bei Vorliegen von m Einflussgrößen hat das allgemeine li- E"ij D 0 und gleicher, unbekannter Varianz 2 , und i ist
neare Regressionsmodell die Gestalt der unbekannte Erwartungswert von Yij .
Pk >
Mit s WD k, n WD i D1 ni , # WD .1 ; : : : ; k / ord-
Yi D ˇ0 C ˇ1 f1 .x .i / / C : : : C ˇp fp .x .i / / C "i ; (7.65)
net sich (7.67) dem linearen Modell (7.66) unter, wenn
i D 1; : : : ; n. Dabei stehen i für die Nummer des Versuchs, wir Y DW .Y11 ; : : : ; Y1n1 ; : : : ; Yk1 ; : : : ; Yknk /> und " DW
Yi für eine Zufallsvariable, die das Ergebnis für die Zielgröße ."11 ; : : : ; "1n1 ; : : : ; "k1 ; : : : ; "knk /> setzen und die ersten n1
im i-ten Versuch modelliert, und Zeilen der Matrix D gleich dem ersten Einheitsvektor im Rs ,
die nächsten n2 Zeilen gleich dem zweiten Einheitsvektor im
.i /
x .i / WD .x1 ; : : : ; xm
.i /
/; i D 1; : : : ; n; Rs wählen usw.
die für den i-ten Versuch ausgewählte Kombination der Da nach (7.66) E.Y / D D# in dem von den Spaltenvektoren
m Einflussgrößen. f1 ; : : : ; fp sind bekannte reelle Funk- von D aufgespannten Untervektorraum V des Rn liegt, löst
tionen mit i. Allg. unterschiedlichen Definitionsbereichen, man zur Schätzung von # die Aufgabe
und ˇ0 ; ˇ1 ; : : : ; ˇp sind unbekannte Parameter. Ein wichtiger
kY D#k2 D minŠ;
Spezialfall von (7.65) ist das Modell Yi D ˇ0 C ˇ1 xi C "i #
der einfachen linearen Regression.
fällt also Lot von Y auf V (s. Abbildung). Das zum Lotfuß-
Mit Y WD .Y1 ; : : : ; Yn /> , s WD p C 1, D WD .dij / 2 Rns , punkt gehörende eindeutig bestimmte b # D .D > D/1 D > Y
wobei di 1 WD 1 und dij WD fj 1 .x .i / / für 1 i n und heißt Kleinste-Quadrate-Schätzer für #.
2 j s sowie # WD .ˇ0 ; : : : ; ˇp /> und " WD ."1 ; : : : ; "n />
ist (7.65) ein Spezialfall des folgenden linearen statistischen
Modells.
Y − Dϑ
Y
Definition eines linearen statistischen Modells •
Die Gleichung Dϑ
Y D D# C " (7.66) 0 V
heißt lineares statistisches Modell. Hierbei sind
Orthogonale Projektion von Y auf den Unterraum V
Y ein n-dimensionaler Zufallsvektor,
D 2 Rns eine Matrix mit n > s und rg.D/ D s, Ein erwartungstreuer Schätzer für 2 ist
# 2 Rs ein unbekannter Parametervektor,
" ein n-dimensionaler Zufallsvektor mit E."/ D 0 1
b2 D kY Db
#k2 :
und E.""> / D 2 In , wobei 2 > 0 unbekannt ist. ns
Gilt speziell " Nn .0; 2 In / (sog. lineares Gauß-Modell),
Das lineare statistische Modell enthält als Spezialfall auch so sind b # und b2 stochastisch unabhängig, wobei b #
das Modell der von R. A. Fisher begründeten und in der Ns .#; 2 .D > D/1 /, .n s/b2 = 2 2ns .
270 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
festzulegen, d. h., die Hypothese H0 für große Werte von wobei die .s 1/ .s 1/-Matrix A die Einträge
Kapitel 7
X
s 2 Beweis Bezeichnet Fs1 die Verteilungsfunktion einer 2s1 -
Un;j
Tn D verteilten Zufallsvariablen, so gilt wegen der Verteilungskonver-
j D1
j genz von Tn unter H0
!2
X
s1 2
Un;j 1 X
s1 g'n .#0 / D P#0 Tn 2s1I1˛
D C Un;
j s ! 1 Fs1 2s1I1˛
j D1 D1
Xs1 D 1 .1 ˛/
ıij 1
D C Un;i Un;j D ˛;
i ;j D1
j s
was die erste Behauptung beweist. Der Nachweis der Konsistenz
D Un> AUn ; ist Gegenstand von Aufgabe 7.47.
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 271
Kapitel 7
Unter der Lupe: Der Chi-Quadrat-Test als Monte-Carlo-Test
Wie schätzt man den p-Wert bei kleinem Stichprobenum- Treffer j -ter Art ergibt .j D 1; : : : ; s/. Die so simulierten
fang? Trefferanzahlen seien mit k1;m ; k2;m ; : : : ; ks;m bezeichnet.
Es gibt viele Untersuchungen darüber, ab welchem Stichpro- 2) Mithilfe von k1;m ; : : : ; ks;m berechnet man den Wert
benumfang n die Verteilung von Tn unter H0 gut durch eine
X s 2
2s1 -Verteilung approximiert wird und somit die Einhal- 2 kj ;m nj
tung eines angestrebten Niveaus ˛ durch Wahl des kritischen n;m WD :
j D1
nj
Wertes als .1 ˛/-Quantil dieser Verteilung für praktische
Zwecke hinreichend genau ist. Die übliche Empfehlung hier-
2 2
zu ist, dass n die Ungleichung n min .1 ; : : : ; s / 5 3) Gilt n;m n .k/, so wird Z um eins erhöht.
erfüllen sollte.
Nach den M Durchläufen ist dann die relative Häufigkeit
Um den 2 -Test auch im Fall n min .1 ; : : : ; s / < 5 durch- Z=M ein Schätzwert für den p-Wert p.k/ D P#0 .Tn
führen zu können, bietet sich neben der Methode, die H0 - 2n .k//. Bei einer zugelassenen Wahrscheinlichkeit ˛ für ei-
Verteilung von Tn analog zum Vorgehen in Tab. 7.6 exakt zu nen Fehler erster Art lehnt man die Hypothese H0 ab, falls
bestimmen, die Möglichkeit an, den Wert 2n .k/ zu berech- Z=M ˛ gilt, andernfalls nicht.
nen und anschließend den p-Wert p.k/ D P#0 .Tn 2n .k//
zu schätzen. Bei diesem sog. Monte-Carlo-Test geht man wie Als Beispiel betrachten wir einen Test auf Echtheit eines
folgt vor: Würfels, d. h. den Fall s D 6 und 1 D : : : D 6 D 1=6.
Anhand von 24 Würfen dieses Würfels haben sich der Vek-
Man wählt eine große Zahl M , z. B. M D 10 000, und setzt tor k D .4; 3; 3; 4; 7; 3/ von Trefferanzahlen und somit der
einen Zähler Z auf den Anfangswert 0. Dann führt man für Wert 2 .k/ D 3 ergeben. Bei M D 10 000 Simulationen
24
einen Laufindex m D 1; 2; : : : ; M M -mal hintereinander der 2 -Testgröße trat in Z D 7 413 Fällen ein Wert von min-
folgenden Algorithmus durch: destens 3 auf. Der geschätzte p-Wert Z=M D 0:7413 ist
1) Mithilfe von Pseudozufallszahlen wird n-mal ein Expe- so groß, dass gegen die Echtheit des Würfels kein Einwand
riment simuliert, das mit Wahrscheinlichkeit j einen besteht.
Kommentar Der 2 -Test ist weit verbreitet. So wird er etwa besteht. Da die Daten nahezu perfekt mit der Theorie in Ein-
von Finanzämtern routinemäßig bei der Kontrolle von bargeld- klang stehen, ist hier bisweilen der Verdacht geäußert worden,
intensiven Betrieben eingesetzt. Dabei geht man u. a. davon Mendel habe seine Zahlen manipuliert. Den erst im Jahr 1900
aus, dass bei Erlösen im mindestens dreistelligen Bereich die publizierten Chi-Quadrat-Test konnte er jedoch nicht kennen.
letzte Vorkommastelle auf den möglichen Ziffern 0; 1; : : : ; 9 J
approximativ gleichverteilt ist. Werden Zahlen systematisch
manipuliert oder erfunden, um die Steuerlast zu drücken, so
treten solche Veränderungen insbesondere in dieser Stelle auf, 7.5 Optimalitätsfragen: Das Lemma
was durch einen 2 -Test entdeckt werden kann. Signifikante von Neyman-Pearson
Abweichungen von der Gleichverteilung, die nicht vom Finanz-
beamten erklärt werden können, führen dann oftmals zu einem Die im vorigen Abschnitt vorgestellten Testverfahren wurden
Erklärungsbedarf beim Betrieb. J rein heuristisch motiviert. In diesem Abschnitt formulieren wir
Optimalitätsgesichtspunkte für Tests und beweisen u. a., dass
Beispiel (Mendels Erbsen) Der Ordenspriester und Natur- der einseitige Binomialtest und der einseitige Gauß-Test in ei-
forscher Gregor Mendel (1822–1884) publizierte 1865 verschie- nem zu definierenden Sinn gleichmäßig beste Tests sind. Im
dene Ergebnisse im Zusammenhang mit seiner Vererbungslehre. Hinblick auf optimale Tests bei Problemen im Zusammenhang
So beobachtete er in einem Experiment Form (rund, kantig) und mit diskreten Verteilungen muss der bisherige Testbegriff erwei-
Farbe (gelb, grün) von gezüchteten Erbsen. Nach seiner Theorie tert werden.
sollten sich die Wahrscheinlichkeiten für die Merkmalausprä-
gungen (r, ge), (r, gr), (k, ge) und (k, gr) verhalten wie 9:3:3:1.
Er zählte unter n D 556 Erbsen 315-mal (r, ge), 108-mal (r, gr),
Randomisierte Tests schöpfen bei diskreten
101-mal (k, ge) und 32-mal (k, gr). Verteilungen ein gegebenes Niveau voll aus
Wird die Theorie durch diese Daten gestützt? Hierzu führen
wir einen Chi-Quadrat-Test mit s D 4, 1 D 9=16, 2 D Definition eines randomisierten Tests
3=16 D 3 , 4 D 1=16 und n D 556, k1 D 315, k2 D 108,
k3 D 101 und k4 D 32 durch. Eine direkte Rechnung ergibt, Jede (messbare) Funktion ' W X ! Œ0; 1 heißt rando-
dass die Chi-Quadrat-Testgröße (7.64) den Wert 0:470 annimmt. misierter Test für das Testproblem H0 W # 2 0 gegen
Ein Vergleich mit dem 0:95-Quantil 7:81 der 23 -Verteilung (vgl. H1 W # 2 1 .
Tab. 7.3) zeigt, dass keinerlei Einwand gegen Mendels Theorie
272 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Dabei sind T W X ! R eine Teststatistik, 2 Œ0; 1 eine Abb. 7.17 zeigt die Gütefunktionen des nichtrandomisierten
Randomisierungswahrscheinlichkeit und c ein kritischer Wert. Tests 1fT > 13g (blau) und des randomisierten Tests 1fT >
Man randomisiert also nur dann, wenn das Testergebnis ge- 13g C 1fT D 13g (rot). Da man beim randomisierten Test
wissermaßen auf der Kippe steht. Die Gütefunktion g' eines für jedes # > 1=2 mit einer kleineren Wahrscheinlichkeit
randomisierten Tests ist einen Fehler zweiter Art begeht, ist dieser Test bei Einhal-
tung eines vorgegebenen Höchstwerts von ˛.D 0:1/ für die
g' .#/ D E# '; # 2 ; Wahrscheinlichkeit eines Fehlers erster Art im Vergleich zum
R nichtrandomisierten Test gleichmäßig besser. J
es gilt also g' .#/ D X '.x/f .x; #/ dx, wenn X unter P# eine
Dichte f .x; #/ besitzt. Im Fall einer Zähldichte ist das Integral
durch eine Summe zu ersetzen. Hat ' wie in (7.69) die Gestalt Im Folgenden bezeichne
' D 1fT >cg C 1fT Dcg , so folgt ( )
ˇ
ˇ
g' .#/ D P# .T > c/ C P# .T D c/; # 2 : J ˚˛ WD ' W X ! Œ0; 1ˇ sup g' .#/ ˛
#20
Beispiel (Tea tasting lady, Fortsetzung) Reichen wir der die Menge aller randomisierten Tests zum Niveau ˛ für das Test-
tea tasting lady n D 20 Tassenpaare und lehnen die Hypothese problem H0 W # 2 0 gegen H1 W # 2 1 .
H0 W # D 1=2 blinden Ratens ab, falls sie mindestens 14 Tref-
fer erzielt, also die richtige Eingießreihenfolge trifft, so ist die
Wahrscheinlichkeit für einen Fehler erster Art bei diesem Ver- Unverfälschter Test, gleichmäßig bester Test
fahren gleich
20 X 20
! Ein Test ' 2 ˚˛ heißt
1 20
P1=2 .T 14/ D D 0:0577: unverfälscht (zum Niveau ˛), falls gilt:
20 j D14
j
Dabei ist T die binomialverteilte zufällige Trefferzahl. g' .#/ ˛ für jedes # 2 1 ;
Wollen wir einen Test konstruieren, dessen Wahrscheinlichkeit gleichmäßig bester Test (zum Niveau ˛), falls für je-
für einen Fehler erster Art gleich 0:1 ist, so bietet sich an, H0 den anderen Test 2 ˚˛ gilt:
auch noch bei 13 Treffern zu verwerfen. Die Wahrscheinlichkeit
für einen Fehler erster Art wäre dann aber mit P1=2 .T 13/ D g' .#/ g .#/ für jedes # 2 1 :
0:1316 zu groß. Hier kommt der Randomisierungsgedanke ins
Spiel: Lehnen wir H0 im Fall T 14 und mit der Wahrschein-
lichkeit im Fall T D 13 ab, so ist die Wahrscheinlichkeit für
einen Fehler erster Art bei diesem Verfahren gleich Kommentar Die Unverfälschtheit eines Tests ist eine selbst-
verständliche Eigenschaft, denn man möchte sich zumindest
P1=2 .T 14/ C P1=2.T D 13/ D 0:0577 C 0:0739: nicht mit einer kleineren Wahrscheinlichkeit für die Alternati-
Soll sich der Wert 0:1 ergeben, so berechnet sich zu ve entscheiden, wenn diese vorliegt, als wenn in Wahrheit H0
gilt. Der Verlauf der Gütefunktion des Tests in Abb. 7.14 zeigt,
0:1 0:0577
D D 0:5724; dass dieser Test nicht unverfälscht zum Niveau ˛ ist, denn seine
0:0739 Gütefunktion nimmt in der Nähe von 0 D f0:5g Werte kleiner
und es entsteht der Test (7.69) mit c D 13 und D 0:5724. als ˛ an.
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 273
Ein gleichmäßig bester Test wird in der englischsprachigen Lite- woraus ˛ P0 .
> c/ P0 .
D c/ folgt. Wir unterscheiden
die Fälle P0 .
D c/ D 0 und P0 .
D c/ > 0. Im ersten gilt
Kapitel 7
ratur als uniformly most powerful bezeichnet und mit UMP-Test
abgekürzt, was auch wir tun werden. Ein UMP-Test existiert nur P0 .
> c/ D ˛, und somit ist ' D 1f
>cg ein NP-Test mit
in seltenen Fällen. Oft muss man sich auf unverfälschte Tests E0 ' D ˛. Im zweiten Fall gilt
beschränken, um einen solchen Test zu erhalten. Letzterer wird
dann UMPU-Test genannt (von uniformly most powerful un- ˛ P0 .
> c/
WD 2 Œ0; 1:
biased). J P0 .
D c/
Folglich ist der in (7.69) gegebene Test (mit
anstelle von T )
ein NP-Test mit E0 ' D P0 .
> c/ C P0 .
D c/ D ˛.
Beim Zwei-Alternativ-Problem sind Hypothese
b) Es seien ' ein NP-Test wie in (7.70) mit E0 ' D ˛ und 2
und Alternative einfach ˚˛ ein beliebiger Test zum Niveau ˛. Dann gilt
Z
Um einen UMP-Test zu konstruieren beginnen wir mit der
besonders einfachen Situation, dass in einem statistischen Mo- E1 ' E1 D .'.x/ .x//f1 .x/ dx:
dell .X ; B; .P# /#2 / der Parameterraum D f#0 ; #1 g eine X
zweielementige Menge ist und man sich zwischen den beiden
Dabei ist im diskreten Fall das Integral durch eine Summe zu
Möglichkeiten H0 W # D #0 und H1 W # D #1 zu entschei-
ersetzen. Gilt '.x/ > .x/, so folgt '.x/ > 0 und damit ins-
den hat. Hypothese und Alternative sind somit einfach in dem
besondere
.x/ c, also f1 .x/ cf0 .x/. Ist andererseits
Sinne, dass 0 D f#0 g und 1 D f#1 g einelementige Mengen
'.x/ < .x/, so folgt '.x/ < 1 und somit
.x/ c, also
sind (sog. Zwei-Alternativ-Problem). Wir setzen voraus, dass
auch f1 .x/ cf0 .x/. Insgesamt erhält man die Ungleichung
die beobachtbare Zufallsvariable (oder Zufallsvektor) X D idX
.'.x/ .x//.f1 .x/ cf0 .x// 0; x 2 X : Integriert (bzw.
sowohl unter P0 WD P#0 als auch unter P1 WD P#1 entweder ei-
summiert) man hier über x, so ergibt sich unter Weglassung des
ne Lebesgue- oder eine Zähldichte besitzt, die mit f0 bzw. f1
Arguments x bei Funktionen sowie des Integrations- bzw. Sum-
bezeichnet sei.
mationsbereichs X
Nach dem Maximum-Likelihood-Schätzprinzip liegt es nahe, Z Z Z Z
bei vorliegenden Daten x 2 X die beiden Dichte-Werte f1 .x/ 'f1 dx f1 dx c 'f0 dx f0 dx :
und f0 .x/ miteinander zu vergleichen und H0 abzulehnen, wenn
f1 .x/ wesentlich größer als f0 .x/ ist. Hierzu betrachtet man den R R
Wegen ˛ D 'f0 dx D E0 ' und f0 dx D E0R ˛ ist
sog. Likelihoodquotienten
( R rechte Seite nichtnegativ, und es folgt E1 ' D 'f1 dx
die
f1 .x/ f1 dx D E1 , was zu zeigen war.
; falls f0 .x/ > 0;
.x/ WD f0 .x/
1; falls f0 .x/ D 0: Bezeichnen
Nach den Statistikern Jerzy Neyman (1894–1981) und Egon ˛.'/ WD E0 '; ˇ.'/ WD 1 E1 '
Sharpe Pearson (1895–1980) heißt ein Test ' für dieses Testpro-
blem Neyman-Pearson-Test (kurz: NP-Test), falls es ein c 2 R, die Wahrscheinlichkeiten für einen Fehler erster bzw. zweiter
c 0, gibt, sodass ' die Gestalt Art eines Tests ' im Zwei-Alternativ-Problem, so nennt man
( die Menge R aller möglichen „Fehlerwahrscheinlichkeitspunk-
1; falls
.x/ > c; te“ .˛.'/; ˇ.'// von Tests ' W X ! Œ0; 1 die Risikomenge
'.x/ D (7.70) des Testproblems. Diese Menge enthält die Punkte .0; 1/ und
0; falls
.x/ < c;
.1; 0/, und sie ist punktsymmetrisch zu .1=2; 1=2/ sowie kon-
vex (Aufgabe 7.48). Die typische Gestalt einer Risikomenge ist
besitzt. Dabei wird zunächst nichts für den Fall
.x/ D c
in Abb. 7.18 skizziert.
festgelegt. Die Prüfgröße eines NP-Tests ist also der Likelihood-
quotient, und c ist ein kritischer Wert, der durch die Forderung Das Lemma von Neyman-Pearson besagt, dass die Fehlerwahr-
an das Testniveau bestimmt wird. scheinlichkeitspunkte der NP-Tests auf dem „linken unteren
Rand“ @.R \ f.x; y/ 2 R2 j x C y 1g/ der Risikomenge
R liegen.
Lemma von Neyman-Pearson (1932)
a) In obiger Situation existiert zu jedem ˛ 2 .0; 1/ ein Kommentar Ist X eine endliche Menge, so bedeutet die
NP-Test ' mit E0 ' D ˛. Konstruktion eines besten Tests, die Zielfunktion (Güte)
b) Jeder NP-Test ' mit E0 ' D ˛ ist ein bester Test zum X
Niveau ˛, d. h., für jeden anderen Test mit E0 ˛ g' .#1 / D '.x/ f1 .x/
gilt E1 ' E1 . x2X
β(ϕ) wobei cQ WD .log c log /= log gesetzt ist. Dies Pbedeutet, dass
Kapitel 7
1 jeder NP-Test ' wegen der Ganzzahligkeit von jnD1 xj die Ge-
stalt (7.69) mit c 2 f0; 1; : : : ; ng besitzt. Hierbei bestimmen sich
c und aus einer vorgegebenen Wahrscheinlichkeit ˛ 2 .0; 1/
für einen Fehler erster Art zu
0
Bei monotonem Dichtequotienten erhält man
0 1 α(ϕ) gleichmäßig beste einseitige Tests
Abb. 7.18 Risikomenge eines Zwei-Alternativ-Problems Die Tatsache, dass der eben konstruierte Test ' nicht von #1
abhängt, macht ihn zu einem UMP-Test für das Testproblem
H0 W # #0 gegen H1 W # > #0 . In der Tat: Zunächst ist '
(Niveau-Einhaltung) zu maximieren. Diese Fragestellung ist ein ein Test zum Niveau ˛ für H0 W # #0 , denn seine Gütefunkti-
lineares Optimierungsproblem, dessen Lösung sich durch fol- on ist wegen
gende heuristische Überlegung erahnen lässt: Wir betrachten
f0 .x/ als Kosten (Preis), mit denen wir durch die Festlegung g' .#/ D P# .Sn > c/ C P# .Sn D c/
'.x/ WD 1 den Stichprobenwert x und somit dessen Güte-
Beitrag (Leistung) f1 .x/ „kaufen“ können. Wegen (7.71) liegt D P# .Sn c/ C .1 /P# .Sn c C 1/
es nahe, das verfügbare Gesamt-Budget ˛ so auszugeben, dass
– solange die Mittel reichen – diejenigen x mit dem größten und Aufgabe 7.38 a) monoton wachsend. Sind nun 2 ˘˛
Leistungs-Preis-Verhältnis f1 .x/=f0.x/ „gekauft“ werden. Die- ein beliebiger konkurrierender Niveau-˛-Test und #1 > #0 be-
se Kosten/Nutzen-Rechnung führt unmittelbar zum Ansatz von liebig, so gilt wegen E#0 E#0 ' D ˛ nach Teil b) des
Neyman und Pearson. J Neyman-Pearson-Lemmas E#1 ' E#1 , da ' NP-Test für das
Zwei-Alternativ-Problem H0 W # D #0 gegen H1 W # D #1 ist.
Da #1 beliebig war, ist der ein vorgegebenes Testniveau ˛ voll
Beispiel Es sei X D .X1 ; : : : ; Xn /, wobei X1 ; : : : ; Xn unab- ausschöpfende einseitige Binomialtest gleichmäßig bester Test
hängig und je Bin.1; #/-verteilt sind. Wir testen (zunächst) die zum Niveau ˛.
einfache Hypothese H0 W # D #0 gegen H1 W # D #1 , wobei
0 < #0 < P #1 < 1. Mit X D f0; 1gn , x D .x1 ; : : : ; xn / 2 X Entscheidend an dieser Argumentation war, dass der Likeli-
sowie t D jnD1 xj gilt hoodquotient f1 .x/=f0 .x/ eine streng monoton wachsende
Funktion von x1 C: : :Cxn ist. Um ein allgemeineres Resultat zu
fj .x/ D P#j .X D x/ D #jt .1 #j /nt formulieren, legen wir ein statistisches Modell .X ; B; .P# /#2 /
mit X Rn und R zugrunde. Wir nehmen weiter an, dass
und somit P# eine Lebesgue-Dichte oder Zähldichte f .; #/ besitzt, und
t dass f W X ! R strikt positiv ist. Weiter sei T W X ! R
f1 .x/ #1 1 #1 nt
D eine Statistik.
f0 .x/ #0 1 #0
#1 .1 #0 / t 1 #1 n
D :
#0 .1 #1 / 1 #0 Verteilungen mit monotonem Dichtequotienten
Mit den Abkürzungen In obiger Situation heißt .P# /#2 Verteilungsklasse mit
n monotonem Dichtequotienten in T , wenn es zu belie-
#1 .1 #0 / 1 #1 bigen #0 ; #1 2 mit #0 < #1 eine streng monoton
WD .> 1/; WD
#0 .1 #1 / 1 #0 wachsende Funktion g#0 ;#1 .t / gibt, sodass gilt:
ergibt sich für jede positive Zahl c die Äquivalenzkette f .x; #1 /
8 9 8 9 D g#0 ;#1 .T .x//; x 2 X:
ˆ
< >>
= < >>
ˆ = f .x; #0 /
f1 .x/
D c () t log C log D log c
f0 .x/ :̂ > :̂ <>
<; ;
8 9 Beispiel (Einparametrige Exponentialfamilie) Besitzt
<>>
ˆ =
Xn
f .x; #/ wie in (7.18) die Gestalt
() t D xj D c; Q
:̂ < >
;
j D1 f .x; #/ D b.#/ h.x/ eQ.#/T .x/
7.5 Optimalitätsfragen: Das Lemma von Neyman-Pearson 275
mit einer streng monoton wachsenden Funktion Q, so liegt eine ja auch ein Niveau-˛-Test für H00 gegen H1 , und im Vergleich
mit diesem Test gilt E# ' E# für jedes # > #0 . Um diesen
Kapitel 7
Verteilungsklasse mit monotonem Dichtequotienten in T vor,
denn es gilt für #0 ; #1 2 mit #0 < #1 Nachweis zu führen, sei # 2 mit # < #0 beliebig. Zu
zeigen ist die Ungleichung ˛ WD E# ' ˛. Aufgrund der
f .x; #1 / b.#1/ .Q.#1 /Q.#0 //T .x/ strikten Monotonie des Dichtequotienten ist ' NP-Test für H0 W
D e :
f .x; #0 / b.#0/ # D # gegen H0 W # D #0 zum Niveau ˛ . Da der Test
e
' ˛ ebenfalls ein Test zum Niveau ˛ für H0 gegen H0 ist,
Beispiele hierfür sind die Binomialverteilungen Bin.n; #/, 0 < folgt nach dem Neyman-Pearson-Lemma ˛ E#0 ' D ˛.
# < 1, die Exponentialverteilungen Exp.#/, 0 < # < 1, die
Poisson-Verteilungen Po.#/, 0 < # < 1 (vgl. Aufgabe 7.26) Kommentar Mit diesem Ergebnis folgt u. a., dass der einsei-
und die Normalverteilungen N.#; 2 /, # 2 R, bei festem 2 . tige Gauß-Test UMP-Test für das Testproblem H W
0 0
J gegen H W > ist. Man beachte, dass die oben angestellten
1 0
Überlegungen auch für Testprobleme der Gestalt H0 W # #0
Selbstfrage 10 gegen H1 W # < #0 gültig bleiben. Man muss nur # durch #
Warum sind die Dichten der Normalverteilungen N.#; 2 /, und T durch T ersetzen, was dazu führt, dass sich beim Test
# 2 R, von obiger Gestalt? ' in (7.72) das Größer- und das Kleiner-Zeichen vertauschen.
Für zweiseitige Testprobleme der Gestalt H0 W # D #0 ge-
gen H1 W # ¤ #0 wie beim zweiseitigen Binomial- und beim
zweiseitigen Gauß-Test kann es i. Allg. keinen UMP-Test zum
Satz (UMP-Tests bei monotonem Dichtequotienten)
Niveau ˛ 2 .0; 1/ geben. Ein solcher Test ' wäre ja UMP-
Es seien .P# /#2 eine Verteilungsklasse mit monotonem Test für jedes der Testprobleme H0 gegen H1> W # > #0
Dichtequotienten in T und #0 2 . Dann existiert zu und H0 gegen H1< W # < #0 , und für seine Gütefunkti-
jedem ˛ 2 .0; 1/ ein UMP-Test zum Niveau ˛ für das on würde dann sowohl g' .#/ < ˛ für # < #0 als auch
Testproblem H0 W # #0 gegen H1 W # > #0 . Dieser Test g' .#/ > ˛ für # < #0 gelten (wir haben diese strikte Unglei-
besitzt die Gestalt chung beim Binomial- und beim Gauß-Test eingesehen, sie gilt
8 aber auch allgemeiner). Beschränkt man sich bei zweiseitigen
ˆ
<1; falls T .x/ > c; Testproblemen auf unverfälschte Tests, so lassen sich etwa in
'.x/ D ; falls T .x/ D c; (7.72) einparametrigen Exponentialfamilien gleichmäßig beste unver-
:̂0; falls T .x/ < c: fälschte (UMPU-)Tests konstruieren. Diese sind dann von der
Gestalt
8
Dabei sind c und 2 Œ0; 1 festgelegt durch ˆ
< 1 ; falls T .x/ < c1 oder T .x/ > c2 ;
'.x/ D j ; falls T .x/ D cj ; j D 1; 2;
E#0 ' D P#0 .T > c/ C P#0 .T D c/ D ˛: (7.73) :̂ 0 ; falls c < T .x/ < c ;
1 2
Wir müssen nur noch nachweisen, dass ' ein Test zum Niveau gegen die Alternative H1 W # … 0 testen, so liegt es nahe,
˛ für H0 gegen H1 ist, denn jeder beliebige solche Test ist # nach der Maximum-Likelihood-Methode zu schätzen, wobei
276 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
man einmal nur Argumente # der Likelihood-Funktion in 0 Dabei sind e# n der ML-Schätzer für # unter H0 W # 2 0 und
Kapitel 7
und damit
Soll die Hypothese H0 W D 0 gegen ¤ 0 getestet wer-
den, so ist 0 D f.; 2 / 2 j D 0 g. Die ML-Schätzer n
X
für und 2 wurden in Abschn. 7.2 zu bn D X n und bn2 D Mn D 2 log f1 .Xj ; b
# n / log f1 .Xj ; #0 / :
P n 2 j D1
n1 j D1 Xj X n hergeleitet. Die ML-Schätzaufgabe im
Zähler von (7.74) führt auf das Problem, in der obigen Dichte
Nimmt man hier unter Annahme der stochastischen Konver-
D 0 einzusetzen und bzgl. 2 zu maximieren. Als Lösung
P 2 genz von b # n gegen #0 unter P#0 eine Taylorentwicklung von
ergibt sich en2 WD n1 jnD1 Xj 0 , und somit erhält man log f1 .Xj ; #/ um # D #0 vor, so lässt sich (siehe die
Hintergrund-und-Ausblick-Box über die asymptotische Vertei-
f .X ; 0 ; en2 / lung von ML-Schätzern in Abschn. 7.2) die Darstellung
Q.X / D :
; b2 /
f .X ; b n n p p 2
Mn D I1 .#0 / n.b
# n #0 / C Rn
Eine direkte Rechnung (siehe Aufgabe 7.10) ergibt
zeigen, wobei Rn unter P#0 stochastisch gegen null konvergiert.
.n 1/ Q.X /2=n 1 D Tn2 ; p p
Da I1 .#0 / n.b # n #0 / nach Verteilung unter P#0 gegen ei-
p ne standardnormalverteilte Zufallsvariable N konvergiert (vgl.
wobei Tn D n.X n 0 /=Sn die Prüfgröße des Ein-
Stichproben-t -Tests ist, s. (7.51). Da kleinen Werten von Q.X / (7.11)), konvergiert Mn nach Verteilung gegen N 2 , und es gilt
große Werte von jTn j entsprechen, führt der verallgemeinerte N 2 21 .
LQ-Test in diesem Fall zum zweiseitigen t -Test. J
Kapitel 7
aus. Wir möchten zum Abschluss einige elementare Konzep-
1 •
te und Verfahren der nichtparametrischen Statistik vorstellen.
•
Hierzu gehören die empirische Verteilungsfunktion als Schätzer
einer unbekannten Verteilungsfunktion, Konfidenzbereichsver-
•
fahren für Quantile, der Vorzeichentest für den Median sowie •
0.5
als nichtparametrisches Analogon zum Zwei-Stichproben-t - •
Test der Wilcoxon-Rangsummentest. •
•
x
Die empirische Verteilungsfunktion Fn x6 x2 x7 x5 x1 x3
x8
x4
Hier spielen das starke Gesetz großer Zahlen und Monoto- Sei hierzu x 2 R beliebig gewählt. Falls xm;k1 x < xm;k
niebetrachtungen zusammen. für ein k 2 f2; : : : ; m 1g, so liefern (7.78), die Monotonie
von Fn! und F und die Definition von Dm;n !
Wir müssen zeigen, dass es eine Menge ˝0 2 A mit
P .˝0/ D 1 gibt, sodass mit der Notation (7.75)
Fn! .x/ Fn! .xm;k / F .xm;k / C Dm;n
!
Dabei sei allgemein H .x/ WD limy%x H .y/ gesetzt. Falls x < xm;1 (der Fall x xm;m1 wird entsprechend be-
handelt), so folgt
Um Dn! WD supx2R jFn! .x/ F .x/j abzuschätzen, setzen
wir xm;k WD F 1 .k=m/ (m 2, 1 k m 1) mit
Fn! .x/ F .x/ Fn! .x/ Fn! .xm;1 /
der Quantilfunktion F 1 von F , vgl. (5.43). Kombiniert man
die Ungleichungen F .F 1 .p// p F .F 1 .p// für ! 1 !
F .xm;1 / C Dm;n C Dm;n
p D k=m und p D .k 1/=m, so folgt m
wobei
mit Ax aus (7.76) und Bx aus (7.77), so liegt ˝0 in A, und
n
! es gilt P .˝0/ D 1, denn ˝0 ist abzählbarer Durchschnitt
Dm;n WD max jFn! .xm;k / F .xm;k /j; !
von Eins-Mengen. Ist ! 2 ˝0 , so folgt limn!1 Dm;n D 0
o
für jedes m 2 und somit wegen (7.80) lim supn!1 Dn!
jFn! .xm;k / F .xm;k /j j 1 k m 1 : 1
m
; m 2, also auch limn!1 Dn! D 0, was zu zeigen war.
nungsstatistiken von U1 ; : : : ; Un . Da Fn eine Funktion von Darstellung (7.82) mit F WD F0 dient der konkreten Berechnung
Kapitel 7
.F .X1Wn /; : : : ; F .XnWn // ist, haben wir folgendes Resultat erhal- der Testgröße, wenn Daten x1 ; : : : ; xn als Realisierungen von
ten: X1 ; : : : ; Xn vorliegen.
Sind X1 ; : : : ; Xn stochastisch unabhängig mit stetiger Ver- 0:038 0:080 0:104 0:106 0:137
teilungsfunktion F , so hängt die Verteilung von 0:179 0:202 0:225 0:230 0:237
ˇ ˇ
Fn D sup ˇFn .x/ F .x/ˇ 0:266 0:322 0:457 0:510 0:556
x2R
0:605 0:676 0:677 0:695 0:779
nicht von F ab. 0:782 0:787 0:835 0:854 0:983
Die Kolmogorov-Verteilung ist die Verteilung der Supre- Aus dem multivariaten Zentralen Grenzwertsatz folgt, dass
mumsnorm der Brownschen Brücke. für beliebiges k 2 N und beliebige Wahl von t1 ; : : : ; tk 2
Œ0; 1 mit 0 t1 < t2 < : : : < tk 1 die Verteilungskonver-
Sind X1 ; X2 ; : : : ; unabhängige Zufallsvariablen auf einem
genz
Wahrscheinlichkeitsraum .˝; A; P / mit der Gleichvertei-
lung U.0; 1/, so beschreibt D
p .Bn .t1 ; /; : : : ; Bn .tk //>
! Nk .0; ˙/ (7.84)
Bn .t / WD n .Fn .t / t / ; 0 t 1;
p besteht. Dabei sind die Einträge der Kovarianzmatrix ˙
die mit n multiplizierte Differenz zwischen der empiri- durch i ;j D min.ti ; tj / ti tj gegeben.
schen Verteilungsfunktion Fn von X1 ; : : : ; Xn und der Ver-
teilungsfunktion F .t / D t , 0 t 1, von X1 . Versieht man den Raum DŒ0; 1 mit einer geeigneten -
Algebra, so wird Bn ./ eine DŒ0; 1-wertige Zufallsvariable
Durch .Bn .t //0t 1 wird eine empirischer Standard-Prozess auf ˝, und es lässt sich dann über (7.84) hinaus
genannte Familie von Zufallsvariablen auf ˝ definiert.
Möchte man wie bei Fn das Argument ! der Xj und damit D
auch von Bn .t / betonen, so schreibt man Bn ./
! B./ bei n ! 1
p
Bn! .t / WD n Fn! .t / t ; 0 t 1: (im Sinne von Eh.Bn / ! Eh.B/ für jede stetige beschränk-
te Funktion h W DŒ0; 1 ! R) nachweisen, siehe z. B.
Für festes ! ist Œ0; 1 3 t ! Bn! .t / eine rechtsseitig stetige [5], S. 149–151. Dabei ist B./ die sog. Brownsche Brücke.
reelle Funktion auf Œ0; 1 mit linksseitigen Grenzwerten an Diese hängt mit dem Brown-Wiener-Prozess W ./ über die
allen Stellen t 2 .0; 1. Die Menge dieser Funktionen wird Beziehung B.t / D W .t / tW .1/ zusammen. Mit einer
als Càdlàg-Raum DŒ0; 1 bezeichnet (von französisch conti- Verallgemeinerung des in Abschn. 6.3 vorgestellten Abbil-
nue à droite, limites à gauche). dungssatzes überträgt sich die obige Verteilungskonvergenz
Die nachstehende Abbildung zeigt eine Realisierung von auf die Supremumsnorm, d. h., es gilt
B25 , wobei die Realisierungen von X1 ; : : : ; X25 mithilfe ei- p D
nes Zufallszahlengenerators erzeugt wurden. sup jBn .t /j D n sup jFn .t / t j
! sup jB.t /j:
0t 1 0t 1 0t 1
B25 (t)
Die Verteilung von sup0t 1 jB.t /j heißt Kolmogorov-
Verteilung. Ihre Verteilungsfunktion ist für x > 0 durch
0.5 X
1
K.x/ WD 1 2 .1/j 1 exp 2j 2 x 2 (7.85)
j D1
0 t
1 und K.x/ WD 0 für x 0 gegeben. Es gilt K.1:36/ D 0:95,
was die Empfehlung (7.83) erklärt.
Definition des empirischen p-Quantils sodass das empirische p-Quantil eine Ordnungsstatistik von
X1 ; : : : ; Xn ist.
Sind X1 ; : : : ; Xn unabhängige, identisch verteilte Zufalls-
variablen mit empirischer Verteilungsfunktion Fn sowie
p 2 .0; 1/, so heißt Selbstfrage 11
Warum gilt die obige Darstellung?
Qn;p WD Qp .Fn / WD Fn1 .p/ D inffx 2 R j Fn .x/ pg
empirisches p-Quantil von X1 ; : : : ; Xn . Im Spezialfall p D 1=2 nennt man Qn;1=2 den empirischen Me-
dian von X1 ; : : : ; Xn . In diesem Fall ist es üblich, bei geradem
7.6 Elemente der nichtparametrischen Statistik 281
n, also n D 2m für m 2 N, die modifizierte Größe b) Es sei .rn / eine Folge natürlicher Zahlen mit 1 rn n,
Kapitel 7
n 1, sowie
1
.XmWn C XmC1Wn / ; (7.86) rn p
2 D p C ın ; wobei nın ! 0:
n
also das arithmetische Mittel der beiden „innersten Ordnungs-
statistiken“, als empirischen Median zu bezeichnen. Durch diese Wir zeigen
Modifikation wird der empirische Median zu einem erwartungs-
p D p.1 p/
treuen Schätzer für den Median, wenn die Verteilung von X1 n Xrn Wn Qp ! N 0; 0 : (7.87)
symmetrisch ist (Aufgabe 7.12). F .Qp /2
Natürlich stellt sich die Frage, welche Eigenschaften Qn;p als Hieraus folgt die Behauptung. Um (7.87) nachzuweisen, sei u 2
Schätzer für Qp WD Qp .F / besitzt. Das nachstehende Resul- R beliebig. Bezeichnet ˚ die Verteilungsfunktion der Standard-
tat besagt, dass unter schwachen Voraussetzungen an das lokale Normalverteilung, so ist offenbar
Verhalten von F im Punkt Qp die Schätzfolge .Qn;p / (stark) !
p und dass der Schätzfehler Qn;p Qp nach
konsistent für Qp ist, p uF 0 .Qp /
Multiplikation mit n für n ! 1 asymptotisch normalverteilt lim P n.Xrn Wn Qp / u D ˚ p
n!1 p.1 p/
ist.
P ˚
zu zeigen. Mit Yn WD jnD1 1 Xj Qp C pun gilt aufgrund
Konsistenz und asymptotische Verteilung von Qn;p des mithilfe von (5.31) gegebenen Zusammenhangs zwischen
Ordnungsstatistiken und der Binomialverteilung
Die Verteilungsfunktion F sei an der Stelle Qp differen-
zierbar, wobei F 0 .Qp / > 0. Dann gelten: p u
P n.Xrn Wn Qp / u D P Xrn Wn Qp C p
a) limn!1 Qn;p D Qp P -fast sicher, n
p D p.1p/ D P .Yn rn /
b) n Qn;p Qp ! N 0; .F 0 .Qp //2 . !
Yn npn
DP p tn ;
npn .1 pn /
die Ableitung F 0 .Qp / ab. Je größer diese ist, desto stärker ist Tab. 7.8 ŒX.r/ ; X.nrC1/ ist ein 95 %-Konfidenzintervall für Q1=2
Kapitel 7
n 36 37 38 39 40 41 42 43 44 45
r 12 12 12 13 13 14 14 15 15 15
Mithilfe von Ordnungsstatistiken ergibt sich
ein Konfidenzintervall für den Median
Das zufällige Intervall ŒX.r/ ; X.s/ / enthält also den unbekannten
Wir greifen jetzt einen wichtigen Spezialfall der Quantils- Median mit einer von F unabhängigen, sich aus der Binomi-
schätzung, nämlich die Schätzung des Medians, wieder auf alverteilung Bin.n; 1=2/ ergebenden Wahrscheinlichkeit. Setzt
und nehmen hierfür an, dass die Verteilungsfunktion F ste- man speziell s D n r C 1 und beachtet die Gleichung
tig ist. In Ergänzung zu einer reinen (Punkt-)Schätzung von P .X.s/ D Q1=2 / D 0, so folgt wegen der Symmetrie der Vertei-
Q1=2 D Q1=2 .F / durch den empirischen Median Qn;1=2 (oder lung Bin.n; 1=2/
bei geradem n dessen modifizierte Form (7.86)) soll jetzt ein
!
Konfidenzbereich für Q1=2 angegeben werden. Xr1
n 1 n
P X.r/ Q1=2 X.nrC1/ D 1 2 : (7.90)
Man beachte, dass obige Annahmen wesentlich schwächer als j 2
j D0
die spezielle Normalverteilungsannahme Xj N.; 2 / sind.
Unter letzterer hatten wir in Abschn. 7.3 einen Konfidenzbe- Selbstfrage 12
reich für D Q1=2 mithilfe des Satzes von Student konstruiert.
Warum gilt P .X.s/ D Q1=2 / D 0?
Bezeichnet
Fc WD fF W R ! Œ0; 1 j F stetige Verteilungsfunktiong
Wählt man also r so, dass die auf der rechten Seite von (7.90)
die Menge aller stetigen Verteilungsfunktionen, so suchen wir stehende Summe höchstens gleich ˛=2 ist, so gilt (7.88) mit
jetzt zu gegebenem (kleinen) ˛ 2 .0; 1/ von X1 ; : : : ; Xn abhän- Un WD X.r/ , On WD X.nrC1/ ; das Intervall ŒX.r/ ; X.nrC1/
gende Zufallsvariablen Un und On mit ist also ein Konfidenzintervall zur Konfidenzwahrscheinlichkeit
1 ˛ für den unbekannten Median einer Verteilung mit stetiger
PF Un Q1=2 .F / On 1 ˛ 8F 2 Fc : (7.88) Verteilungsfunktion.
Durch die Indizierung der Wahrscheinlichkeit mit der unbe- Bei gegebener Konfidenzwahrscheinlichkeit wird man den Wert
kannten Verteilungsfunktion F haben wir analog zur Schreib- r in (7.90) größtmöglich wählen, um eine möglichst genaue
weise P# betont, dass Wahrscheinlichkeiten erst nach Festle- Antwort über die Lage von Q1=2 zu erhalten. Der größte Wert
gung eines stochastischen Modells gebildet werden können. von r, sodass das Intervall ŒX.r/ ; X.nrC1/ einen .1 ˛/-
Zudem macht die Notation Q1=2 .F / die Abhängigkeit des Me- Konfidenzbereich für den Median bildet, kann für n 45
dians von F deutlich. Im Folgenden werden wir jedoch P D PF Tab. 7.8 entnommen werden. Dabei ist eine Konfidenzwahr-
und Q1=2 D Q1=2 .F / schreiben, um die Notation nicht zu über- scheinlichkeit von 0:95 zugrunde gelegt.
laden.
Asymptotische Konfidenzintervalle für Q1=2 erhält man wie
Obere und untere Konfidenzgrenzen On und Un für Q1=2 erhält folgt mithilfe des Zentralen Grenzwertsatzes von de Moivre-
man in einfacher Weise mithilfe der Ordnungsstatistiken X.1/ D Laplace.
X1Wn ; : : : ; X.n/ D XnWn . Seien hierzu r, s Zahlen mit 1 r <
s n. Zerlegen wir das Ereignis fX.r/ Q1=2 g danach, ob
bereits X.s/ Q1=2 gilt (wegen X.r/ X.s/ ist dann erst recht Asymptotisches Konfidenzintervall für den Median
X.r/ Q1=2 ) oder aber X.r/ Q1=2 < X.s/ gilt, so ergibt sich
Es seien X1 ; X2 ; : : : unabhängige Zufallsvariablen mit ste-
P X.r/ Q1=2 < X.s/ D P X.r/ Q1=2 P X.s/ Q1=2 : tiger Verteilungsfunktion F und ˛ 2 .0; 1/. Mit
jn p
Rechts stehen die Verteilungsfunktionen von X.r/ und X.s/ , n 1 ˛k
ausgewertet an der Stelle Q1=2 . Nach dem Satz über die Ver- rn WD ˚ 1
2 2 2
teilung der r-ten Ordnungsstatistik am Ende von Abschn. 5.2
mit t D Q1=2 und F .t / D 1=2 folgt gilt dann
!
X s1
n 1 n lim P Xrn Wn Q1=2 Xnrn Wn D 1 ˛:
P X.r/ Q1=2 < X.s/ D : (7.89) n!1
j Dr
j 2
7.6 Elemente der nichtparametrischen Statistik 283
Kapitel 7
Unter der Lupe: Arithmetisches Mittel oder empirischer Median?
Wie schätzt man das Zentrum einer symmetrischen Vertei- Man nennt den Quotienten
lung?
F2
Es sei X1 ; X2 ; : : : eine Folge unabhängiger identisch verteil- AREF .Qn;1=2 ; X n / WD 1
D 4F 0 .Q1=2 /2 F2
ter Zufallsvariablen mit unbekannter Verteilungsfunktion F . 4F 0 .Q1=2 /2
Wir setzen nur voraus, dass die Verteilung von X1 symme-
trisch um einen unbekannten Wert ist. Es gebe also ein a 2 R die asymptotische relative Effizienz (ARE) von .Qn;1=2 / bzgl.
mit der Eigenschaft .X n / (jeweils als Schätzfolgen gesehen).
X1 a a X1 : Liegt eine Normalverteilung vor, gilt also F .x/ DW FN .x/ D
˚..x a/=/, so folgt F2 D 2 und
Dann ist a im Falle der Existenz des Erwartungswertes gleich
x a 1
E.X1 / und zugleich der Median von X1 . Besitzt die Vertei-
F 0 .x/ D ' ;
lung von X1 eine positive, endliche Varianz F2 , so gilt nach
dem Zentralen Grenzwertsatz von Lindeberg-Lévy
wobei ' die Dichte der Standardnormalverteilung bezeich-
p D net. Es ergibt sich
n Xn a ! N 0; F2 :
1 2 2
Nach Teil b) des Satzes über Konsistenz und asymptotische AREFN .Qn;1=2 ; X n / D 4'.0/2 D 0:6366;
Verteilung von Qn;p gilt 2
und somit ist das arithmetische Mittel dem empirischen Me-
p D 1
n Qn;1=2 a ! N 0; ; dian als Schätzer für den Erwartungswert einer zugrunde
4F 0 .Q1=2 /2 liegenden Normalverteilung unter dem Gesichtspunkt der
ARE deutlich überlegen. Man beachte jedoch, dass für Ver-
wenn wir voraussetzen, dass F an der Stelle Q1=2 eine posi-
teilungen mit nicht existierender Varianz das arithmetische
tive Ableitung besitzt.
Mittel als Schätzer unbrauchbar sein kann. So besitzt nach
Wenn man bei großem Stichprobenumfang n zwischen X n Aufgabe 5.52 das arithmetische Mittel von n unabhängi-
und Qn;1=2 als Schätzer für a wählen sollte, würde man ange- gen und je Cauchy-verteilten Zufallsvariablen die gleiche
sichts obiger Verteilungskonvergenzen denjenigen Schätzer Verteilung wie X1 . Hat X1 a eine t -Verteilung mit s Frei-
wählen, für den die Varianz der Limes-Normalverteilung, al- heitsgraden, so ist die ARE von .Qn;1=2/ bzgl. .X n / für s D 3
so die sog. asymptotische Varianz, den kleineren Wert liefert. und s D 4 größer als eins (Aufgabe 7.51).
Beweis Nach (7.90) gilt mit Sn Bin.n; 1=2/ Obwohl das obige Resultat rein mathematisch gesehen ein
Grenzwertsatz ist, stimmen die Werte für rn mit den in Tab. 7.8
P Xrn Wn Q1=2 Xnrn Wn D 1 2P .Sn rn 1/:
angegebenen Werten bemerkenswerterweise schon ab n D
Nun ist 32 überein. Im Fall n D 100 liefert obiges Resultat wegen
0 1 ˚ 1 .0:975/ 1:96 den Wert rn D 40 und somit die appro-
n ximativen 95 %-Konfidenzgrenzen X40W100 und X60W100 für den
B Sn C
P .Sn rn 1/ D P @ q 2
tn A ; Median.
1 1
n 2 .1 2 /
Die Aufgaben 7.13 und 7.50 zeigen, dass die oben angestellten
wobei Überlegungen auch greifen, wenn man allgemeiner Konfidenz-
rn 1 n2 grenzen für das p-Quantil Qp .F / einer unbekannten stetigen
tn D q Verteilungsfunktion angeben möchte.
n 12 .1 12 /
als spezielle parametrische Verteilungsannahme eine Normal- definiert. Soll die Hypothese H0 W Q1=2 .F / D 0 gegen die
Kapitel 7
verteilung unterstellt wird. Ist eine solche Annahme zweifelhaft, zweiseitige Alternative Q1=2 .F / ¤ 0 getestet werden, so be-
so bietet sich hier mit dem Vorzeichentest eines der ältesten sitzt Vn unter H0 die Binomialverteilung Bin.n; 1=2/, und H0
statistischen Verfahren als Alternative an. Der Vorzeichentest wird genau dann zum Niveau ˛ abgelehnt, wenn Vn k oder
wurde schon 1710 vom englischen Mathematiker, Physiker und Vn n k gilt. Dabei wird k wie in (7.93) gewählt, wobei nur
Mediziner John Arbuthnot (1667–1735) im Zusammenhang mit ˛ durch ˛=2 zu ersetzen ist.
der Untersuchung von Geschlechterverteilungen bei Neugebo-
renen verwendet.
Beispiel Bei 10 Dehnungsversuchen mit Nylonfäden einer
Die diesem Test zugrunde liegenden Annahmen sind denk- Produktserie ergab sich für die Kraft (in Newton), unter der die
bar schwach. So wird nur unterstellt, dass vorliegende Da- Fäden rissen, die Datenreihe
ten x1 ; : : : ; xn Realisierungen unabhängiger Zufallsvariablen
X1 ; : : : ; Xn mit gleicher unbekannter stetiger Verteilungsfunk- 81:7 81:1 80:2 81:9 79:2 81:2 79:8 81:4 79:7 82:5:
tion F sind. Der Vorzeichentest prüft dann die
Der Hersteller behauptet, dass mindestens die Hälfte der pro-
Hypothese H0 W Q1=2 .F / 0 duzierten Fäden erst oberhalb der Belastung 81.5 N reißt.
Modelliert man die obigen Werte x1 ; : : : ; x10 als Realisierun-
gegen die Alternative H1 W Q1=2 .F / > 0 : gen unabhängiger Zufallsvariablen X1 ; : : : ; X10 mit unbekann-
ter stetiger Verteilungsfunktion F , so kann die Behauptung des
Dabei ist 0 ein vorgegebener, nicht von x1 ; : : : ; xn abhängen- Herstellers als Hypothese H0 W Q1=2 .F / 81:5 formuliert
der Wert. Der Name Vorzeichentest erklärt sich aus der Gestalt werden. Der Wert der Vorzeichenstatistik in (7.91) (mit 0 WD
der Prüfgröße Vn .x1 ; : : : ; xn /, die die positiven Vorzeichen aller 81:5) ergibt sich für die obigen Daten zu V10 .x1 ; : : : ; x10 / D 3.
Differenzen xj 0 , j D 1; : : : ; n, zählt. Äquivalent hierzu ist Unter H1 W Q1=2 .F / < 81:5 ist ein vergleichsweise kleiner
die Darstellung Wert für V10 zu erwarten. Im Fall Q1=2 .F / D 81:5 besitzt V10
in (7.92) die Binomialverteilung Bin.10; 1=2/. Die Wahrschein-
X
n
lichkeit, dass eine Zufallsvariable mit dieser Verteilung einen
Vn .x1 ; : : : ; xn / D 1fxj > 0 g (7.91) Wert kleiner oder gleich 3 annimmt, beträgt
j D1
10
1 C 10 C 10 2
C 3 176
als Indikatorsumme. Da unter H1 der Median der zugrunde lie- 10
D 0:172 :
2 1 024
genden Verteilung größer als 0 ist, ist im Vergleich zu H0
eine größere Anzahl von Beobachtungen xj mit xj > 0 Die Hypothese des Herstellers kann somit (bei Zugrundelegung
zu erwarten. Folglich lehnt man H0 für zu große Werte von üblicher Fehlerwahrscheinlichkeiten von 0.05 oder 0.1 für einen
Vn .x1 ; : : : ; xn / ab. Selbstverständlich kann man auch die Hypo- Fehler erster Art) nicht verworfen werden. J
these Q1=2 .F / 0 gegen die Alternative Q1=2 .F / < 0 oder
Q1=2 .F / D 0 gegen die Alternative Q1=2 .F / ¤ 0 testen. Im Der Vorzeichentest kann auch in der Situation verbundener
ersten Fall ist unter der Alternative ein vergleichsweise kleiner Stichproben angewendet werden. Im Gegensatz zum t -Test für
Wert für Vn .x1 ; : : : ; xn / zu vermuten, im zweiten sprechen so- verbundene Stichproben, der eine N.; 2 /-Normalverteilung
wohl zu kleine als auch zu große Werte der Prüfgröße gegen die mit unbekannten Parametern für die als unabhängig und iden-
Hypothese, sodass ein zweiseitiger Ablehnbereich angebracht tisch verteilten Differenzen Zj D Xj Yj unterstellt, nimmt
ist. der Vorzeichentest nur an, dass die Zj symmetrisch um einen
Da die Zufallsvariable unbekannten Wert verteilt sind und eine (unbekannte) stetige
Verteilungsfunktion besitzen. Der Vorzeichentest für verbunde-
X
n ne Stichproben prüft dann die Hypothese H0 W 0 gegen die
Vn WD Vn .X1 ; : : : ; Xn / D 1fXj > 0 g (7.92) Alternative H1 W > 0 (einseitiger Test) bzw. die Hypothese
j D1 H0 W D 0 gegen H1 W P ¤ 0 (zweiseitiger Test). Die Prüf-
größe ist die Anzahl Tn D jnD1 1fZj > 0g der positiven Zj .
als Summe von Indikatoren unabhängiger Ereignisse mit glei- Im Fall D 0 besitzt Tn die Binomialverteilung Bin.n; 1=2/
cher Wahrscheinlichkeit P .X1 > 0 / D 1 F .0 / die (siehe Aufgabe 7.36).
Binomialverteilung Bin.n; 1F .0 // besitzt und unter H0 bzw.
H1 die Ungleichungen 1 F .0 / 1=2 bzw. 1 F .0 / > 1=2
gelten, führt das obige Testproblem auf einen einseitigen Bino- Im Vergleich zum Zwei-Stichproben-t-Test sind
mialtest mit oberem Ablehnbereich.
die Annahmen beim nichtparametrischen
Die Hypothese H0 wird somit genau dann zum Niveau ˛ abge- Zwei-Stichproben-Problem deutlich schwächer
lehnt, wenn Vn k gilt. Dabei ist k durch
( ˇ ! ) Wir wenden uns jetzt Zwei-Stichproben-Problemen zu und
ˇ r n X
n
erinnern in diesem Zusammenhang an den Zwei-Stichproben-
ˇ n
k D min r 2 f0; : : : ; ngˇ ˛ (7.93) t -Test. Diesem Test lag folgendes Modell zugrunde:
ˇ 2 j
j Dl X1 ; : : : ; Xm ; Y1 ; : : : ; Yn sind unabhängige Zufallsvariablen, und
7.6 Elemente der nichtparametrischen Statistik 285
Kapitel 7
Unter der Lupe: Wie verhält sich der Vorzeichentest unter lokalen Alternativen?
Die Güte des Vorzeichentests hängt entscheidend von der Unter Hn gilt Vn Bin.n; pn /, wobei
Ableitung F 0 .0 / ab.
a
Sind X1 ; X2 ; : : : unabhängige Zufallsvariablen mit stetiger pn WD Pn .Xn;1 > 0 / D 1 Gn .0 / D 1 F 0 p :
Verteilungsfunktion F , so testet die Prüfgröße n
X
n Dabei haben wir Pn für die gemeinsame Verteilung von
Vn WD 1fXj > 0 g Xn;1 ; : : : ; Xn;n unter Hn geschrieben.
j D1
Ist F in 0 differenzierbar, und gilt F 0 .0 / > 0, so folgt 0 <
des Vorzeichentests die Hypothese H0 W Q1=2 .F / 0 pn < 1 für jedes hinreichend große n sowie limn!1 pn D
gegen H1 W Q1=2 .F / > 0 . Im Fall Q1=2 .F / D 0 gilt 1=2 D F .0 /. Nach Aufgabe 6.15 gilt dann
Vn Bin.n; 1=2/, und so entsteht ein Test zum asymptoti-
schen Niveau ˛, wenn Ablehnung von H0 für !
Vn npn
p lim Pn p > t D 1 ˚.t /; t 2 R:
n n 1 n!1 npn .1 pn /
Vn > cn WD C ˚ .1 ˛/
2 2
erfolgt, denn dann gilt für n ! 1 Die Ablehnwahrscheinlichkeit von H0 unter Hn ist
0 1 !
Vn npn
B Vn n=2 cn n=2 C Pn .Vn > cn / D Pn p > tn ;
P .Vn > cn / D P @ q > q A npn .1 pn /
1 1
n 2 .1 2 / n 12 .1 12 /
0 1 wobei
B Vn n=2 C p p
D P @q > ˚ 1 .1 ˛/A cn npn
n
C 12 ˚ 1 .1 ˛/ npn
1 1
n 2 .1 2 / tn D p D 2
p :
npn .1 pn / pn .1 pn /
! 1 ˚.˚ 1 .1 ˛// D ˛:
Der Nenner des letzten Ausdrucks konvergiert gegen 1=2,
Wie verhält sich dieser Test bei wachsendem n, wenn die und für den Zähler gilt aufgrund der Differenzierbarkeitsvor-
Hypothese nicht gilt? Hierzu betrachten wir ein Dreiecks- aussetzung an F und F .0 / D 1=2
schema fXn;1 ; : : : ; Xn;n W n 1g, wobei Xn;1 ; : : : ; Xn;n für
jedes n 2 unabhängig p sind und die Verteilungsfunktion p 1 p a
Gn .t / WD F .t a= n/, t 2 R, besitzen. Dabei ist a > 0 ei- n p n D n F 0 p F .0 /
2 n
ne gegebene Zahl. Nehmen wir F .0 / D 1=2 an und setzen
voraus, dass F in einer Umgebung von 0 streng monoton ! aF 0 .0 /:
wächst, so gilt Gn .0 / < 1=2. Der Median von Gn ist al-
so größer als 0 . Da sich dieser Median bei wachsendem Somit folgt limn!1 tn D ˚ 1 .1 ˛/ 2aF 0 .0 /, und Auf-
n von oben dem Wert 0 annähert, wird eine bessere Da- gabe 6.12 liefert
tenbasis dahingehend kompensiert, dass die Alternative zu
H0 immer „schwerer erkennbar wird“. Wie verhält sich die lim Pn .Vn > cn / D 1 ˚ ˚ 1 .1 ˛/ 2aF 0 .0 / > ˛:
n!1
Ablehnwahrscheinlichkeit von H0 des Vorzeichentests ge-
genüber einer solchen Folge sog. lokaler Alternativen Die (Limes-)Wahrscheinlichkeit, dass der Vorzeichentest die
Hypothese H0 unter der Folge .Hn / von Alternativen ab-
Hn W Xn;1 ; : : : ; Xn;n u.i.v. Gn ; n 1‹ lehnt, wächst also monoton mit F 0 .0 /.
es gilt Xi N.; 2 / für i D 1; : : : ; m und Yj N.; 2 / für variablen sind, wobei X1 ; : : : ; Xm dieselbe Verteilungsfunktion
j D 1; : : : ; n. Unter dieser speziellen Normalverteilungsannah- F und Y1 ; : : : ; Yn dieselbe Verteilungsfunktion G besitzen. Es
me mit unbekannten Parametern ; und 2 wurde dann u. a. werde weiter angenommen, dass F und G stetig, aber ansons-
die Hypothese H0 W D der Gleichheit der Verteilungen von ten unbekannt sind. Zu testen ist die Hypothese H0 W F D G
X1 und Y1 gegen die Alternative H1 W ¤ getestet. gegen eine noch zu spezifizierende Alternative (die nicht un-
bedingt H1 W F ¤ G lauten muss). Diese Situation wird als
Die obigen mathematischen Annahmen sind bequem und bis- nichtparametrisches Zwei-Stichproben-Problem bezeichnet.
weilen auch gerechtfertigt, doch es gibt viele Situationen, in
denen die nachfolgende wesentlich schwächere nichtparame- Im Kern geht es bei einem Zwei-Stichproben-Problem um die
trische Verteilungsannahme geboten erscheint. Wir unterstellen Frage nach der Signifikanz festgestellter Unterschiede in zwei
wie oben, dass X1 ; : : : ; Xm und Y1 ; : : : ; Yn unabhängige Zufalls- zufallsbehafteten Datenreihen. Ein typisches Beispiel hierfür ist
286 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
der beiden Stichproben jeweils unter gleichen Bedingungen ent- r.Yj / D 1fXi Yj g C 1fYk Yj g;
i D1 kD1
standen, so ist obiges Rahmenmodell angemessen.
Zwei-Stichproben-Tests prüfen in dieser Situation die Hypo- i D 1; : : : ; m, j D 1; : : : ; n, definierten Ränge von
these H0 W F D G. Unter H0 haben alle Zufallsvariablen X1 ; : : : ; Xm und Y1 ; : : : ; Yn in der gemeinsamen Stichprobe
X1 ; : : : ; Xm ; Y1 ; : : : ; Yn die gleiche unbekannte Verteilungs- X1 ; : : : ; Xm ; Y1 ; : : : ; Yn . Die Zufallsvariablen r.Xi / und r.Yj /
funktion, deren genaue Gestalt jedoch nicht von Interesse ist. beschreiben die Anzahl aller X1 ; : : : ; Xm ; Y1 ; : : : ; Yn , die klei-
Im oben beschriebenen Kontext eines kontrollierten klinischen ner oder gleich Xi bzw. Yj sind.
Versuchs besagt die Gültigkeit von H0 , dass das auf möglichen
Da nach Aufgabe 7.49 nur mit Wahrscheinlichkeit null gleiche
Behandlungserfolg getestete Medikament gegenüber einem Pla-
Werte unter X1 ; : : : ; Xm ; Y1 ; : : : ; Yn auftreten und unter H0 W
cebo wirkungslos ist.
F D G jede Permutation der Komponenten des Zufallsvektors
Die allgemeinste Alternative zu H0 bedeutet, dass die bei- .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / die gleiche Verteilung besitzt, hat der
den Verteilungsfunktionen verschieden sind, dass also F .x/ ¤ Zufallsvektor
G.x/ für mindestens ein x gilt. Viele Zwei-Stichproben-Prüf-
verfahren, wie z. B. der im Folgenden vorgestellte Wilcoxon- .r.X1 /; : : : ; r.Xm /; r.Y1 /; : : : ; r.Yn //
Rangsummentest, zielen jedoch nicht darauf ab, jeden mögli-
chen Unterschied zwischen F und G „aufdecken zu wollen“, der Rang-Zahlen (Ränge) unter H0 W F D G mit Wahr-
sondern sind in erster Linie daraufhin zugeschnitten, potenzi- scheinlichkeit eins eine (von F unabhängige!) Gleichverteilung
elle Lage-Unterschiede zwischen F und G aufzuspüren. Ein auf der Menge aller Permutationen der Zahlen 1; : : : ; m C
solcher Lage-Unterschied besagt, dass die Verteilungsfunktion n. Konsequenterweise hat dann jede Prüfgröße Tm;n D
G gegenüber F verschoben ist, also eine (unbekannte) Zahl ı Tm;n .X1 : : : ; Xm ; Y1 ; : : : ; Yn /, die von X1 ; : : : ; YmCn nur über
mit G.x/ D F .x ı/, x 2 R, existiert (sog. Zwei-Stichproben- den obigen Zufallsvektor der Rang-Zahlen r.X1 /; : : : ; r.Ym /
Lokationsmodell). Besitzen F und G stetige Dichten f bzw. g, abhängt, unter H0 eine Verteilung, die nicht von der unbekann-
so gilt dann auch g.x/ D f .x ı/, x 2 R (Abb. 7.20). ten stetigen Verteilungsfunktion F abhängt. Man sagt dann,
Im Zwei-Stichproben-Lokationsmodell gibt es eine Zahl ı, so Tm;n sei verteilungsfrei auf H0 .
dass Y1 die gleiche Verteilung wie X1 C ı besitzt, denn wegen Die Prüfgröße des Wilcoxon-Rangsummentests ist
G.x/ D F .x ı/ gilt ja für jedes x 2 R
P .Y1 x/ D G.x/ D F .x ı/ X
m
Wm;n D Wm;n .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / WD r.Xi /;
D P .X1 x ı/ D P .X1 C ı x/: i D1
Der Zufallsvektor .X1 ; : : : ; Xm ; Y1 ; : : : ; Yn / hat also die gleiche
Verteilung wie also die Summe der Ränge von X1 ; : : : ; Xm in der gemeinsamen
Stichprobe mit Y1 ; : : : ; Yn . Die dieser Bildung zugrunde liegen-
.X1 ; : : : ; Xm ; XmC1 C ı; : : : ; XmCn C ı/ (7.94) de Heuristik ist einfach: Unter H0 W F D G besitzt der Vektor
7.6 Elemente der nichtparametrischen Statistik 287
1 2 3 4 5 6 7 8 9 H0 (W8,6 = k)
• • • • • • • • •
Kapitel 7
x3 x4 y5 y3 x2 y1 x1 y4 y2
0.05
Abb. 7.21 Rangbildung in zwei Stichproben
0.04
Ein Verfahren für das nichtparametrische Zwei-Stichproben- N. W. Smirnov (1900–1966) benannten sog. Kolmogorov-
Problem mit allgemeiner Alternative. Smirnov-Testgröße Km;n ab.
Möchte man in der Situation des nichtparametrischen Zwei- Wegen der Stetigkeit von F und G sind alle Xi ; Yj mit
Stichproben-Problems die Hypothese H0 W F D G gegen Wahrscheinlichkeit eins verschieden, und Fm bzw. Gn be-
die allgemeine Alternative H1 W F ¤ G testen, so bietet sich sitzen Sprungstellen mit Sprüngen der Höhe 1=m bzw. 1=n
an, die unbekannten stetigen Verteilungsfunktionen F und G an den Stellen X1 ; : : : ; Xm bzw. Y1 ; : : : ; Yn . Unter H0 W
durch die jeweiligen empirischen Verteilungsfunktionen F D G hängt die Verteilung von Km;n nicht von F
ab, da es für den Wert von Km;n nur auf die Ränge von
1 X 1X
m n
r.Xj /, j D 1; : : : ; m, von X1 ; : : : ; Xm in der gemeinsamen
Fm .x/ D 1fXi xg; Gn .x/ D 1fYj xg Stichprobe mit Y1 ; : : : ; Yn ankommt. Wie bei der Wilcoxon-
m i D1 n j D1
Rangsummenstatistik führt somit auch die Bestimmung der
H0 -Verteilung von Km;n auf ein rein kombinatorisches Prob-
zu schätzen und den Supremumsabstand
lem.
ˇ ˇ
Km;n WD sup ˇFm .x/ Gn .x/ˇ Liegen unabhängige Zufallsvariablen X1 ; X2 ; : : : und
x2R
Y1 ; Y2 ; : : : auf einem gemeinsamen Wahrscheinlichkeitsraum
zu bilden, s. nachstehende Abbildung im Fall m D n D 14. .˝; A; P / vor, so folgt aus dem Satz von Glivenko-Cantelli
unter der Hypothese H0
der m-Permutationen ohne Wiederholung aus f1; : : : ; m C ng Der Wilcoxon-Rangsummentest wird je nach Art der Alter-
besitzt, hat der Vektor .k C 1 R1 ; k C 1 R2 ; : : : ; k C 1 Rm / native als ein- oder zweiseitiger Test durchgeführt. Soll die
ebenfalls diese Gleichverteilung. Man beachte hierzu, dass die Hypothese H0 W F D G gegen die Lagealternative
Zuordnung .a1 ; : : : ; am / 7! .k C 1 a1 ; : : : ; k C 1 am / eine
mCn H1 W Es gibt ein ı < 0 mit G.x/ D F .x ı/; x 2 R;
bijektive Abbildung auf Perm .oW / darstellt. Aus der Vertei-
lungsgleichheit getestet werden, so lehnt man H0 genau dann zum Niveau ˛ ab,
wenn die Ungleichung Wm;n wm;nI˛ erfüllt ist. Dabei ist
.R1 ; : : : ; Rm / .k C 1 R1 ; : : : ; k C 1 Rm /
wm;nI˛ WD minfw W PH0 .Wm;n w/ ˛g:
folgt dann auch die Verteilungsgleichheit
Anschaulich zweigt man also analog zum einseitigen Binomial-
X
m X
m
Wm;n D Ri .k C 1 Ri / test beim Stabdiagramm der H0 -Verteilung von Wm;n von rechts
i D1 i D1
kommend so lange Wahrscheinlichkeitsmasse für den kritischen
Bereich ab, wie die vorgegebene Höchstwahrscheinlichkeit ˛
D m.k C 1/ Wm;n
für einen Fehler erster Art nicht überschritten wird. Die kriti-
und somit schen Werte wm;nI˛ sind für verschiedene Werte von m; n und
˛ 2 f0:05; 0:025g in Tab. 7.10 aufgeführt (Ablesebeispiel:
m.k C 1/ m.k C 1/
Wm;n Wm;n ; w9;7I0:05 D 93/.
2 2
Soll H0 gegen die sich gegenüber H1 durch das Vorzeichen von
was zu zeigen war. Der Nachweis von d) kann mithilfe be- ı unterscheidende Lagealternative
dingter Erwartungen und des Zentralen Grenzwertsatzes von
Lindeberg-Feller erfolgen. H1C W Es gibt ein ı > 0 mit G.x/ D F .x ı/; x 2 R;
7.6 Elemente der nichtparametrischen Statistik 289
Tab. 7.10 Kritische Werte wm;n;I˛ der Wilcoxon-Statistik Wm;n Tab. 7.11 Wachstum von Sojabohnen mit und ohne Düngung
Kapitel 7
˛ ˛ gedüngt 36.1 34.5 35.7 37.1 37.7 38.1 34.0 34.9
m n 0.050 0.025 m n 0.050 0.025 ungedüngt 35.5 33.9 32.0 35.4 34.3 34.7 32.3 32.4
8 3 57 58 11 4 102 104
4 63 64 5 109 112
5 68 70 6 116 119 Von 16 gleichartigen Sojapflanzen werden 8 rein zufällig ausge-
wählt und gedüngt, die übrigen Pflanzen wachsen ungedüngt.
6 74 76 7 124 127
Nach einer bestimmten Zeit wird die Höhe (in cm) aller 16
7 79 82 8 131 135 Pflanzen gemessen. Dabei ergaben sich die in Tab. 7.11 ange-
8 85 87 9 138 142 gebenen Werte.
9 3 68 70 10 145 150
Offenbar sind die gedüngten Pflanzen in der Tendenz stär-
4 75 77 11 153 157
ker gewachsen als die ungedüngten. Ist dieser Effekt jedoch
5 81 83 12 5 125 127
statistisch signifikant? Um diese Frage zu beantworten, sehen
6 87 89 6 133 136 wir die Daten als Realisierungen unabhängiger Zufallsvariablen
7 93 96 7 141 144 X1 ; : : : ; X8 ; Y1 ; : : : ; Y8 (diese modellieren die Pflanzenhöhe mit
8 99 102 8 148 152 bzw. ohne Düngung) mit stetigen Verteilungsfunktionen F
9 105 109 9 156 160 bzw. G an und testen zum Niveau ˛ D 0:05 die Hypothese
10 4 88 90 10 164 169 H0 W F D G gegen die Lagealternative H1 . Sortiert man alle
5 94 97 11 172 177 16 Werte der Größe nach, so besitzen die den gedüngten Pflan-
6 101 104
zen entsprechenden Werte die Ränge 7, 9, 12, 13, 14, 15 und 16.
12 180 185
Die Wilcoxon-Rangsummenstatistik W8;8 nimmt den Wert
7 108 111 13 5 141 144
8 115 118 6 150 153 w D 7 C 9 C 12 C 13 C 14 C 15 C 16 D 86
9 121 125 7 158 162
10 128 132 8 167 171 an. Aus Tab. 7.10 entnimmt man zu ˛ D 0:05 den kritischen
Wert 85. Wegen w 85 wird H0 verworfen. Die Daten sprechen
also auf dem 5 %-Niveau signifikant dafür, dass Düngung einen
getestet werden, so erfolgt die Ablehnung von H0 zum Niveau wachstumsfördernden Effekt besitzt. J
˛, wenn die Ungleichung
Die Normalverteilungsapproximation d) im Satz über die H0 -
Wm;n m.m C n C 1/ wm;nI˛ Verteilung von Wm;n lässt sich für den Fall m 10, n 10
verwenden. Der einseitige Test mit oberem Ablehnbereich lehnt
erfüllt ist. Der kritische Wert ergibt sich also unter Ausnutzung dann H0 zum Niveau ˛ ab, wenn mit k WD m C n die Unglei-
der Symmetrie der H0 -Verteilung von Wm;n , indem man den zur chung
Alternative H1 korrespondierenden kritischen Wert wm;nI˛ am r
Erwartungswert der H0 -Verteilung von Wm;n spiegelt. Im Fall m .k C 1/ 1 m n .k C 1/
Wm;n C ˚ .1 ˛/
m D 9, n D 7 und ˛ D 0:05 erhält man so den Wert 153 93 D 2 12
60. erfüllt ist. Beim einseitigen Test mit unterem Ablehnbereich er-
Ist H0 W F D G gegen die zweiseitige Lagealternative folgt ein Widerspruch zu H0 , falls
r
¤
H1 W Es gibt ein ı ¤ 0 mit G.x/ D F .x ı/; x 2 R; m .k C 1/ 1 m n .k C 1/
Wm;n ˚ .1 ˛/
2 12
zu testen, so wird H0 zum Niveau ˛ genau dann abgelehnt, wenn gilt. Der zweiseitige Test lehnt H0 zum Niveau ˛ ab, falls –
mindestens eine der beiden Ungleichungen jeweils nach Ersetzen von ˛ durch ˛=2 – mindestens eine dieser
beiden Ungleichungen erfüllt ist.
Wm;n wm;nI˛=2 oder Wm;n m.m C n C 1/ wm;nI˛=2
Die obigen Näherungen sind selbst für kleine Stichprobenum-
erfüllt ist. Im Zahlenbeispiel m D 9, n D 7 und ˛ D 0:05 erhält fänge gute Approximationen der exakten kritischen Werte. So
man aus Tab. 7.10 den Wert wm;nI˛=2 D 96. Der zweiseitige ergibt sich für den Fall m D 9, n D 8 und ˛ D 0:05 beim Test
Test lehnt also H0 zum Niveau 0:05 ab, falls W9;7 96 oder mit oberem Ablehnbereich der approximative kritische Wert zu
W9;7 57 gilt. r
9.17 C 1/ 9 7 .17 C 1/
1:645 D 98:095 : : : ;
2 12
Beispiel In einer Studie soll untersucht werden, ob ein be-
stimmtes Düngemittel einen positiven Einfluss auf das Wachs- was nach Aufrunden auf die nächstgrößere ganze Zahl den kri-
tum von Sojabohnen besitzt. Dabei sei schon vorab bekannt, tischen Wert 99 ergibt. Dieser stimmt mit dem aus Tab. 7.10
dass das Wachstum durch die Düngung nicht verringert wird. erhaltenen Wert überein.
290 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7
Wie verhält sich der Wilcoxon-Rangsummentest bei Nicht- Letztere ist 1/2, wenn X1 und Y1 die gleiche stetige Ver-
gültigkeit der Hypothese und wie ergibt sich die asymptoti- teilungsfunktion besitzen. Unter einer Lagealternative der
sche Normalverteilung von Wm;n unter H0 ? Gestalt (7.94) gilt P .Y1 X1 / > 1=2 bzw. P .Y1 X1 / <
1=2 je nachdem, ob ı < 0 oder ı > 0 gilt. Der Schwerpunkt
Die Wilcoxon-Rangsummenstatistik Wm;n geht mit Wahr-
der Verteilung von Wm;n ist dann im Vergleich zu H0 nach
scheinlichkeit eins durch Verschiebung aus der von den US-
rechts bzw. links verschoben.
amerikanischen Statistikern Henry Berthold Mann (1905–
2000) und Donald Ransom Whitney (1915–2001) vorge- Mithilfe der Darstellung (7.97) kann man auch die asymp-
schlagenen sog. Mann-Whitney-Statistik totische Normalverteilung von Wm;n sowohl unter der Hy-
pothese H0 als auch unter Alternativen erhalten. Aus (7.97)
X
m X
n
Mm;n WD 1fYk Xi g (7.96) folgt
i D1 kD1
m.m C 1/
hervor. Summiert man nämlich beide Seiten von (7.95) E.Wm;n / D C E.Mm;n /; V .Wm;n / D V .Mm;n /
2
über i von 1 bis m, so entsteht links die Wilcoxon-
Prüfgröße Wm;n . Da X1 ; : : : ; Xm mit Wahrscheinlichkeit und somit
einsPpaarweise
Pm verschieden sind, ist die erste Doppelsum-
me m Wm;n E.Wm;n / Mm;n E.Mm;n /
i D1 j D1 1fXj Xi g rechts mit Wahrscheinlichkeit p D p :
eins gleich m.m C 1/=2, und die zweite ist definitionsgemäß V .Wm;n / V .Mm;n /
gleich Mm;n . Es besteht also (mit Wahrscheinlichkeit eins)
die Translations-Beziehung Für Mm;n lässt sich eine asymptotische Normalverteilung
herleiten, indem man Mm;n durch die Summe
m .m C 1/
Wm;n D C Mm;n : (7.97)
2 X
m X
n
cm;n WD
M E.Mm;n jXi / C E.Mm;n jYj /
Obige Darstellungen geben einen Hinweis auf das Verhal-
ten von Wm;n bei Nichtgültigkeit der Hypothese. Wegen i D1 j D1
Kapitel 7
Zusammenfassung
Ausgangspunkt der Mathematischen Statistik ist ein statisti- ML-Methode). Besitzt X .D idX / die Lebesgue-Dichte bzw.
sches Modell (engl.: statistical model) .X ; B; .P# /#2 /. Dabei Zähldichte f .x; #/, so heißt für festes x 2 X die durch
sind X ein Stichprobenraum (sample space), B eine -Algebra Lx .#/ D f .x; #/ definierte Funktion Lx W ! R0 die
über X und .P# /#2 eine Verteilungsannahme (model as- Likelihood-Funktion zu x (likelihood function) und jeder Wert
sumption) genannte Familie von Wahrscheinlichkeitsmaßen auf b # 2 mit Lx .b #.x// D supfLx .#/ j # 2 g Maximum-
B, die durch einen Parameter # indiziert ist. Die Menge Likelihood-Schätzwert von # zu x (maximum likelihood
heißt Parameterraum (parameter space). Die Parametrisie- estimator). Unter einer Normalverteilungsannahme ist .b n ; bn2 /
rung (parametrization) genannte Zuordnung 3 # 7! P# P P
wird als injektiv vorausgesetzt. Man nimmt an, dass für ein mit b n D X n D n1 j D1 Xj und bn2 D n1 j D1 .Xj X n /2
n n
# 2 das Wahrscheinlichkeitsmaß P# tatsächlich zugrunde der ML-Schätzer für # WD .; 2 /. Die Zufallsvariablen X n
liegt; dieses # wird dann oft als „wahrer Parameter“ bezeichnet. und b2 sind stochastisch unabhängig, wobei X n N.; 2 =n/
n
Aufgabe der Mathematischen Statistik ist es, aus Daten x 2 X und nbn2 = 2 2n1 .
begründete Rückschlüsse über # zu ziehen. Dabei fasst man x
als Realisierung einer X -wertigen Zufallsvariablen auf. Der De- Bei einem regulären statistischen Modell (regular statistical
finitionsbereich von X bleibt im Hintergrund; man kann immer model) ist ein offenes Intervall, und die Dichte f ist auf
die kanonische Konstruktion ˝ WD X , A WD B und X WD idX X positiv sowie für jedes x stetig nach # differenzierbar.
wählen. Eine Verteilungsannahme heißt parametrisch (para- Ferner ist die Fisher-Information (Fisher information) genann-
metric), wenn Rd für ein d 2 N gilt, andernfalls nichtpa- ted Varianz If .#/ der Scorefunktion (score function) U# .x/ D
rametrisch (nonparametric). Eine typische Grundannahme bei d# log f .x; #/ ist für jedes # positivR und endlich. Dann gilt
Ein-Stichproben-Problemen (one-sample problem) ist, dass X für jeden Schätzer T mit d# E# T D T .x/ d# f .x; #/ dx die
d d
die Gestalt X D .X1 ; : : : ; Xn / mit unabhängigen, identisch Cramér-Rao-Ungleichung (Cramér-Rao lower bound)
verteilten (reellen) Zufallsvariablen X1 ; : : : ; Xn besitzt. Unter d 2
dieser Grundannahme liegt etwa ein parametrisches Modell vor, E .T /
d# #
V# .T / ; # 2 :
wenn für X1 eine Normalverteilung N.; 2 / mit unbekannten If .#/
2
Parametern und unterstellt wird. Demgegenüber handelt
es sich um eine nichtparametrische Verteilungsannahme, wenn Sind .X ; B; .P# /#2 / mit Rd ein statistisches Modell
man nur voraussetzt, dass X1 eine stetige Verteilungsfunktion und ˛ 2 .0; 1/, so heißt eine Abbildung C W X ! P .R` /
besitzt. Der Parameterraum ist dann die Menge aller stetigen Konfidenzbereich (confidence set) für # zur Konfidenzwahr-
Verteilungsfunktionen. scheinlichkeit (level of significance) 1 ˛, falls gilt:
In einem parametrischen statistischen Modell mit Rd und P# .fx 2 X j C .x/ 3 #g/ 1 ˛ 8# 2 :
W ! R` heißt jede messbare Abbildung T W X ! R`
(Punkt-)Schätzer ((point) estimator) für .#/. Im Fall ` D 1 Prinzipiell ergibt sich ein Konfidenzbereich, indem man für je-
nennt man T erwartungstreu für .#/ (unbiased), falls für des # 2 eine Menge A.#/ X mit P# .A.#// 1 ˛
jedes # 2 die Gleichung E# T D .#/ erfüllt ist. Da- angibt. Mit C .x/ WD f# 2 j x 2 A.#/g, x 2 X , gilt dann x 2
bei wurde auch der Erwartungswert mit # indiziert, um dessen A.#/ , C .x/ 3 #, und so ist C ein Konfidenzbereich für #
Abhängigkeit von # anzudeuten. Gleiches geschieht mit der Va- zur Konfidenzwahrscheinlichkeit 1 ˛. Gilt X D .X1 ; : : : ; Xn /
rianz. Die Größe MQAT .#/ WD E# .T .#//2 heißt mittlere mit unabhängigen und je N.; 2 /-normalverteilten Zufallsva-
quadratische Abweichung (mean square deviation) von T an riablen X1 ; : : : ; Xn , so ergibt sich ein Konfidenzintervall für
der Stelle #. Es gilt MQAT .#/ D V# .T / C bT .#/2 , wobei bei (auch) unbekanntem 2 durch Studentisieren zu
bT .#/ D E# .T / .#/ die Verzerrung (bias) von T an der
Stelle # bezeichnet. Ist für jedes n 1 Tn W Xn ! R` ein Schät- Sn tn1I1˛=2 Sn tn1I1˛=2
Xn p ; Xn C p :
zer für .#/, so nennt man .Tn / eine Schätzfolge (sequence of n n
estimators). Im Fall ` D 1 heißt .Tn / konsistent (consistent) für P
.#/, falls Dabei bezeichnen Sn2 D .n1/1 jnD1 .Xj X n /2 die Stichpro-
benvarianz von X1 ; : : : ; Xn und tn1I1˛=2 das .1 ˛=2/-Quantil
lim P# .jTn .#/j "/ D 0 8" > 0 der tn1 -Verteilung.
n!1
Bei einem statistischen Test (statistical test) ist der Parame-
gilt. Falls limn!1 E# .Tn / D .#/ für jedes # 2 erfüllt ist, so
terbereich in zwei disjunkte nichtleere Teilmengen 0 und
heißt .Tn / asymptotisch erwartungstreu (asymptotically un-
1 zerlegt. Ein nichtrandomisierter Test (nonrandomized test)
biased) für .#/.
zum Prüfen der Hypothese (hypothesis) H0 W # 2 0 gegen
Ein grundlegendes Schätzprinzip ist die Maximum- die Alternative (alternative hypothesis) H1 W # 2 1 ist eine
Likelihood-Methode (method of maximum likelihood) (kurz: Indikatorfunktion 1K eines sog. kritischen Bereichs (critical
292 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
region) K X . Gilt x 2 K , so wird H0 aufgrund von x 2 X unter allen Tests zum Niveau ˛ für H0 gegen H1 einen Test
Kapitel 7
abgelehnt, andernfalls erhebt man keinen Einwand gegen H0 . mit kleinster Wahrscheinlichkeit für einen Fehler zweiter Art.
Ein Fehler erster Art (type I error) besteht darin, die Hypothe- Dieser basiert auf dem Likelihoodquotienten (likelihood ratio)
se H0 abzulehnen, obwohl sie in Wirklichkeit zutrifft. Bei einem
.x/ WD f1 .x/=f0 .x/ und lehnt H0 für zu große Werte von
Fehler zweiter Art (type II error) erhebt man keinen Einwand
.x/ ab. Besitzt die Verteilungsklasse .P# /#2 einen monoto-
gegen H0 , obwohl in Wirklichkeit # 2 1 gilt. Die Gütefunk- nen Dichtequotienten in einer Statistik T , so gibt es zu jedem
tion (power function) gK eines Tests mit kritischem Bereich K ˛ 2 .0; 1/ einen gleichmäßig besten Test zum Niveau ˛ für
ordnet jedem # 2 die Ablehnwahrscheinlichkeit P# .X 2 K / H0 W # #0 gegen H1 W # > #0 .
der Hypothese H0 unter P# zu. Ein Test zum Niveau ˛ (level-
Sind X1 ; X2 ; : : : unabhängige Zufallsvariablen mit gleicher
˛-test) ist durch die Bedingung gK .#/ ˛, # 2 0 , definiert.
Verteilungsfunktion F , so konvergiert nach dem Satz von
Lehnt ein Niveau-˛-Test H0 ab, so sagt man, die Ablehnung von
Glivenko-Cantelli (Glivenko-Cantelli theorem) die Folge .Fn /
H0 sei signifikant zum Niveau ˛.
der empirischen Verteilungsfunktionen mit Wahrscheinlichkeit
Der kritische Bereich eines Tests ist meist durch eine Prüfgrö- einsPgleichmäßig gegen F . Dabei ist Fn durch Fn .x/ D
ße oder Testgröße T W X ! R (test statistic) in der Form n1 jnD1 1fXj xg, x 2 R, definiert. Ist F stetig, so hängt die
K D fT cg mit einem sog. kritischen Wert (critical value) Verteilung von d .Fn ; F / WD supx2R jFn .x/F .x/j nicht von F
c gegeben. Gilt R, so sind Testprobleme oft von der Ge- ab. Diese Beobachtung motiviert die Prüfgröße d .Fn; F0 /, wenn
stalt H0 W # #0 gegen H1 W # > #0 (einseitiger Test) oder die Hypothese H0 W F D F0 mit einer vollständig spezifizierten
H0 W # D #0 gegen H1 W # ¤ #0 (zweiseitiger Test). Dabei ist Verteilungsfunktion getestet werden soll.
#0 2 ein vorgegebener Wert.
Das p-Quantil Qp D Qp .F / D F 1 .p/ kann man nichtpara-
Der Ein-Stichproben-t-Test (one-sample t -test) prüft Hypo- metrisch mithilfe des empirischen p-Quantils Qn;p D Fn1 .p/
thesen der Form H0 W 0 gegen H1 W > 0 über schätzen. Besitzt F bei Qp eine positive Ableitung, so gilt
den Erwartungswert einer Normalverteilung bei unbekann- p D
p n.Qn;p Qp / ! N.0; 2 /, wobei 2 D p.1 p/=F 0 .Qp /2 .
ter Varianz. Seine Prüfgröße Tn D n.X n 0 /=Sn hat im
Ist F stetig, so ergibt sich ein Konfidenzbereich für den Median
Fall D 0 eine tn1 -Verteilung. Der Test kann auch als
Q1=2 mithilfe der Ordnungsstatistiken X.1/; : : : ; X.n/ . Asympto-
zweiseitiger Test durchgeführt werden. In gleicher Weise prüft
tische Konfidenzintervalle für Q1=2 erhält man mit dem Zentra-
der Zwei-Stichproben-t-Test (two-sample t -test) auf Gleich-
len Grenzwertsatz von de Moivre-Laplace.
heit der Erwartungswerte von Normalverteilungen mit gleicher
unbekannter Varianz. Der Chi-Quadrat-Anpassungstest (chi Wird F als stetig vorausgesetzt, so prüft der Vorzeichentest
square goodness-of-fit test) prüft die Verträglichkeit von rela- P H0 W Q1=2 0 über den
(sign test) Hypothesen der Form
tiven Häufigkeiten mit hypothetischen Wahrscheinlichkeiten in Median. Die Prüfgröße Vn D jnD1 1fXj > 0 g zählt die An-
einem multinomialen Versuchsschema. zahl der positiven Vorzeichen unter Xj 0 , j D 1; : : : ; n. Im
Fall Q1=2 D 0 hat Vn die Verteilung Bin.n; 1=2/.
Ein randomisierter Test (randomized test) für H0 gegen H1
ist eine messbare Funktion ' W X ! Œ0; 1. Dabei ist Der Wilcoxon-Rangsummentest (Wilcoxon’s rank-sum test)
die sog. Randomisierungswahrscheinlichkeit '.x/ als beding- prüft die Hypothese H0 W F D G, wenn stochastisch unab-
te Wahrscheinlichkeit zu interpretieren, die Hypothese H0 bei hängige Zufallsvariablen X1 ; : : : ; Xm ; Y1 ; : : : ; Yn vorliegen und
vorliegenden Daten x abzulehnen. Gilt D f#0 ; #1 g (sog. X1 ; : : : ; Xm die stetige Verteilungsfunktion F und Y1 ; : : : ; Yn
Zwei-Alternativ-Problem) und besitzt X für j 2 f0; 1g un- die stetige Verteilungsfunktion G besitzen. Die Prüfgröße Wm;n
ter P#j eine Lebesgue-Dichte oder Zähldichte fj , so gibt es dieses Tests ist die Summe aller Ränge von X1 ; : : : ; Xm in der
nach dem Lemma von Neyman-Pearson zu jedem ˛ 2 .0; 1/ gemeinsamen Stichprobe mit Y1 ; : : : ; Yn .
Aufgaben 293
Kapitel 7
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
7.9 Die Zufallsvariable X besitze eine Binomialver- 7.17 Es sei die Situation im Beispiel des Taxi-Problems
Kapitel 7
teilung Bin.3; #/, wobei # 2 WD f1=4; 3=4g. Bestimmen in Abschn. 7.2 zugrunde gelegt. Zeigen Sie:
Sie die Risikomenge des Zwei-Alternativ-Problems H0 W # D
#0 WD 1=4 gegen H1 W # D #1 WD 3=4. a) Die Folge .b # n / der ML-Schätzer ist asymptotisch erwar-
tungstreu und konsistent für #.
7.10 Leiten Sie die Beziehung b) Der durch
.n 1/ Q.X /2=n 1 D Tn2 b
# n .x/nC1 .b# n .x/ 1/nC1
Tn .x/ D
im Beispiel der Ein-Stichproben-t -Teststatistik am Ende von b
# n .x/n .b
# n .x/ 1/n
Abschn. 7.5 her.
definierte Schätzer Tn ist erwartungstreu für #.
7.11 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
blen mit gleicher stetiger Verteilungsfunktion F und empiri- 7.18 Es seien X1 ; : : : ; Xn stochastisch unabhängige
scher Verteilungsfunktion Fn . Bestimmen Sie die Verteilung Zufallsvariablen mit gleicher Poisson-Verteilung Po.#/, # 2
von WD .0; 1/ sei unbekannt. Zeigen Sie:
ˇ ˇ P
D sup ˇFn .x/ F .x/ˇ
F
n a) Das arithmetische Mittel X D n1 n X ist der ML-
n j D1 j
x2R
Schätzer für #.
im Fall n D 1. b) Die Fisher-Information If .#/ ist
7.12 Die Zufallsvariablen X1 ; : : : ; X2n seien stochas- n
If .#/ D ; # 2 :
tisch unabhängig mit gleicher symmetrischer Verteilung. Es #
gebe also ein a 2 R mit X1 a a X1 . Zeigen Sie: Ist
m WD n=2, so gilt (im Fall EjX1 j < 1) c) Der Schätzer X n ist Cramér-Rao-effizient.
XmW2n C XmC1W2n
E D a: 7.19 Ein Bernoulli-Experiment mit unbekannter Tref-
2 ferwahrscheinlichkeit # 2 .0; 1/ wird in unabhängiger Folge
durchgeführt. Beim .k C 1/-ten Mal (k 2 N0 ) sei der erste Tref-
7.13 Es seien X1 ; : : : ; Xn unabhängige Zufallsvaria-
fer aufgetreten.
blen mit gleicher stetiger Verteilungsfunktion. Zeigen Sie: In
Verallgemeinerung von (7.89) gilt: a) Bestimmen Sie den ML-Schätzwert b #.k/ für #.
! b
X n js1 b) Ist der Schätzer # erwartungstreu für #?
P X.r/ Qp < X.s/ D p .1 p/nj
j
j Dr 7.20 In der Situation des Beispiels des Taxi-Problems
in Abschn. 7.2 sei
7.14 In welcher Form tritt die Verteilung einer ge-
2X
n
eigneten Wilcoxon-Rangsummenstatistik bei der Ziehung der e
# n WD Xj 1:
Lottozahlen auf? n j D1
Kapitel 7
identisch verteilte Zufallsvariablen mit EX12 < 1. Zeigen Sie:
a) Zeigen Sie: In der Situation des Beispiels des Taxi-Problems
Mit 2 WD V .X1 / gilt
0 1 in Abschn. 7.2 ist die durch
1 X n o
n
E@ .Xj X n /2 A D 2 : C .x1 ; : : : ; xn / WD # 2 j # ˛ 1=n max xj
n 1 j D1 j D1;:::;n
7.23 Die Zufallsvariablen X1 ; : : : ; Xn seien stochas- definierte Abbildung C ein Konfidenzbereich für # zum Ni-
2
tisch unabhängig und je N.; /-verteilt, wobei und 2 veau 1 ˛.
unbekannt seien. Als Schätzer für 2 betrachte man b) Wie groß muss n mindestens sein, damit die größte beobach-
tete Nummer, versehen mit einem Sicherheitsaufschlag von
Xn
10 % (d. h. 1:1 maxj D1;:::;n xj ) eine obere Konfidenzschranke
2
Sn .c/ WD c .Xj X n / ; c > 0:
für # zum Niveau 0:99 darstellt, also
j D1
Für welche Wahl von c wird die mittlere quadratische Abwei-
chung E.Sn .c/ 2 /2 minimal? P# # 1:1 max Xj 0:99 8# 2
j D1;:::;n
7.32 Es sei die Situation des Beispiels „Konsumenten- 7.38 Zeigen Sie:
Kapitel 7
7.36 Welches Resultat ergibt die Anwendung des Vor- 7.42 Weisen Sie für die Verteilungsfunktion ˚ und die
zeichentests für verbundene Stichproben in der Situation von Dichte ' der Normalverteilung N.0; 1/ die Ungleichung
Aufgabe 7.33?
'.x/
1 ˚.x/ ; x > 0;
x
Beweisaufgaben nach. Zeigen Sie hiermit: Für die in (7.48) gegebene Gütefunk-
tion gn ./ des einseitigen Gauß-Tests gilt für jedes > 0 und
jedes hinreichend große n
7.37 Die Zufallsvariable X besitze eine hypergeome-
trische Verteilung Hyp.n; r; s/, wobei n; r 2 N bekannt sind 1 n. 0 /2
und s 2 N0 unbekannt ist. Der zu schätzende unbekannte Para- 1 gn ./ p exp :
2e 2 2
meter sei # WD r C s 2 WD fr; r C 1; r C 2; : : :g. Zeigen Sie:
Es existiert kein erwartungstreuer Schätzer T W X ! für #. Die Wahrscheinlichkeit für einen Fehler zweiter Art konvergiert
Dabei ist X WD f0; 1; : : : ; ng der Stichprobenraum für X . also exponentiell schnell gegen null.
Aufgaben 297
7.43 Die Zufallsvariable Q habe eine Fishersche Fr;s - 7.49 Es seien X1 ; X2 ; : : : ; unabhängige Zufallsvaria-
Kapitel 7
Verteilung. Zeigen Sie: blen mit stetigen Verteilungsfunktionen F1 ; F2 ; : : : Zeigen Sie:
[
a) Q besitzt die in (7.56) angegebene Dichte.
P fXi D Xj g D 0:
b) E.Q/ D s2 s
, s > 2. 1i <j <1
2s 2 .rCs2/
c) V .Q/ D r.s2/2 .s4/
, s > 4.
7.50 Es seien X1 ; X2 ; : : : unabhängige Zufallsvariablen
mit gleicher stetiger Verteilungsfunktion F . Die Ordnungssta-
7.44 Die Zufallsvariablen X1 ; X2 ; : : : ; Xn ; : : : seien tistiken von X1 ; : : : ; Xn seien mit X1Wn ; : : : ; XnWn bezeichnet.
stochastisch unabhängig und je Poisson-verteilt Po./, wobei Zeigen Sie: Ist für ˛ 2 .0; 1/ h˛ WD ˚ 1 .1 ˛=2/ gesetzt,
2 .0; 1/ unbekannt ist. Konstruieren Sie analog zum Beispiel und sind zu p 2 .0; 1/ rn ; sn 2 N durch
des asymptotischen einseitigen Binomialtests in Abschn. 7.4 p p
eine Testfolge .'n / zum asymptotischen Niveau ˛ für das Test- rn WD bnp h˛ np.1 p/c; sn WD bnp C h˛ np.1 p/c
problem H0 W 0 gegen H1 W > 0 und weisen Sie
deren Konsistenz nach. Dabei ist 0 2 .0; 1/ ein vorgegebener definiert, so gilt
Wert.
lim P Xrn Wn Qp Xsn Wn D 1 ˛:
n!1
7.48 Zeigen Sie, dass für die Risikomenge R aller Feh- b) Der Ausdruck in a) ist für s D 3 und s D 4 größer und für
lerwahrscheinlichkeitspunkte .˛.'/; ˇ.'// von Tests ' W X ! s 5 kleiner als 1, und im Limes für s ! 1 ergibt sich der
Œ0; 1 im Zwei-Alternativ-Problem gilt: Wert 2=.
a) R enthält die Punkte .1; 0/ und .0; 1/, 7.52 Beweisen Sie die Aussagen a) und b) des Satzes
b) R ist punktsymmetrisch zu .1=2; 1=2/, über die H0 -Verteilung der Wilcoxon-Rangsummenstatistik am
c) R ist konvex. Ende von Abschn. 7.6.
298 7 Grundlagen der Mathematischen Statistik – vom Schätzen und Testen
Kapitel 7
Antwort 1 Es sind MQAT0 .#/ D .#0 #/2 , MQAT .#/ D Antwort 8 Als Funktionen von X1 ; : : : ; Xm bzw. Y1 ; : : : ; Yn
#.1 #/, MQAeT .#/ D #.1 #/=2.
sind Zähler und Nenner in (7.55) nach dem Blockungslemma
stochastisch unabhängig. Mit (7.6) ist der Zähler nach Division
Antwort 2 Es sei " > 0 beliebig. Aus limn!1 E# Tn D .#/ durch 2 verteilt wie R=.m 1/, wobei R 2m1 . Ebenso ist
für jedes # 2 und der Dreiecksungleichung der Nenner nach Division durch 2 verteilt wie S=.n 1/, wo-
jTn .#/j jTn E# .Tn /j C jE# .Tn / .#/j bei S 2n1 . Hieraus folgt die behauptete Fm1;n1 -Verteilung
von Qm;n unter H0 .
folgt, dass für hinreichend großes n die Inklusion
n "o Antwort 9 Der einseitige Gauß-Test wie im Beispiel zu
fjTn .#/j > "g jTn E# .Tn /j > Abb. 7.15 kann kompakt als 'n D 1fTn ˚ 1 .1 ˛/g mit Tn
2
bestehen muss. Die Wahrscheinlichkeit des rechts stehenden wie in (7.47) geschrieben werden. Seine Gütefunktion ist nach
Ereignisses ist unter P# nach der Tschebyschow-Ungleichung (7.48) durch
nach oben durch 4V# .Tn /="2 beschränkt. Wegen V# .Tn / ! 0 p
n. 0 /
folgt die Behauptung. g'n ./ D 1 ˚ ˚ 1 .1 ˛/ ;
Antwort 3 Wegen jxjk 1 C jxjd für x 2 R gilt auch
EjX1 jk < 1. 2 R, gegeben. Für jedes > 0 gilt limn!1 g'n ./ D 1,
was die Konsistenz zeigt. Betrachtet man die Gütefunktion des
Antwort 4 Im Fall des Taxi-Problems hängt die Menge zweiseitigen Gauß-Tests 'n D 1fjTn j > ˚ 1 .1 ˛=2/g zum
f.x; #/ j f .x; #/ > 0g von # ab, was in einem regulären sta- Testen von H0 W D 0 gegen H1 W ¤ 0 in (7.49), so
tistischen Modell nicht zulässig ist. konvergieren für > 0 der erste Minuend gegen 1 und der
zweite gegen 0, im Fall < 0 ist es umgekehrt. In jedem
d
Antwort 5 Schreiben wir kurz W# D d# log f1 .X1 ; #/, so ist dieser Fälle konvergiert g'n ./ gegen 1, was die Konsistenz des
diese Gleichung gleichbedeutend mit zweiseitigen Gauß-Tests nachweist.
Z 2
d
V# .W# / D log f1 .t ; #/ f1 .t ; #/ dt : Antwort 10 Die Dichte der Normalverteilung N.#; 2 / ist
d#
X1
1 .x #/2
Auf der rechten Seite steht hier E# .W#2 /.
Wie im Kommentar f .x; #/ D p exp
2 2 2
auf nach der Definition eines regulären statistischen Modells
sieht man, dass E# .W# / D 0 gilt. Hieraus folgt die Behaup- 1 #2 x2 #
D p exp 2 exp 2 exp x ;
tung. 2 2 2 2
„ ƒ‚ … „ ƒ‚ …
DWb.#/ DWh.x/
Antwort 6 Bezeichnet In das zufällige Intervall in b), so gilt
wegen p
n Xn und wir können T .x/ WD x und Q.#/ WD #= 2 setzen.
In 3 () tn1I1˛
Sn
Antwort 11 Es ist
und dem Satz von Student sowie tn1I1˛ D tn1I˛
p ! X
n
n Xn Fn .x/ p () 1fXj xg np:
P; 2 .In 3 / D P; 2 tn1I˛ D ˛ j D1
Sn
für jede Wahl von .; 2 / 2 R R>0 , was zu zeigen war. Äquivalent hierzu ist, dass im Fall np 2 N die Ungleichung
XnpWn x und im Fall np … N die Ungleichung XbnpC1cWn x
Antwort 7 Indem man die Ungleichungen in der Wahrschein- erfüllt ist. Das kleinste solche x ist im ersten Fall XnpWn und im
lichkeitsaussage zweiten gleich XbnpC1cWn .
.n 1/Sn2 S
P; 2 2n1I˛=2 2
n1I1˛=2 D 1 ˛ Antwort 12 Es ist fX.s/ D Q1=2 g jnD1 fXj D Q1=2 g und
2
somit P .X.s/ D Q1=2 / nP .X1 D Q1=2 / D 0, da F stetig
in Ungleichungen für 2 umschreibt. ist.
Grundzüge der Maß- und
Integrationstheorie – vom 8
Messen und Mitteln
Kapitel 8
Was ist der Unterschied
zwischen einem Inhalt und
einem Maß?
Was besagt der
Maß-Fortsetzungssatz?
Wie vollzieht sich der
Aufbau des Integrals?
Unter welchen
Voraussetzungen darf man
Limes- und Integralbildung
vertauschen?
Was besagt der Satz von
Fubini?
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 299
N. Henze, Stochastik: Eine Einführung mit Grundzügen der Maßtheorie, https://doi.org/10.1007/978-3-662-59563-3_8
300 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Jahr eines Mathematikstudiums, dass die Fläche einer Teilmen- C D Aj W() C D Aj und Ai \ Aj D ; 8i ¤ j :
ge A des R2 , die von den Abszissenwerten a und b und den j D1 j D1
Graphen zweier über dem Intervall Œa; b stetiger Funktionen g P
und h mit g.x/ h.x/, a x b, eingespannt ist, gleich In gleicher Weise verwenden wir die Schreibweise j1D1 Aj
Rb
dem (Riemann- oder Lebesgue-)Integral a .h.x/ g.x// dx ist für eine abzählbar unendliche Vereinigung paarweise disjunk-
(siehe Abb. 8.1). ter Mengen.
Auch bei der in Abb. 8.2 links eingezeichneten Teilmenge A Die paarweise Disjunktheit der Rechtecke in Abb. 8.2 kann da-
des R2 ist man sich von der Anschauung her sicher, dass sie durch erreicht werden, dass jedes Rechteck kartesisches Produkt
einen bestimmten Flächeninhalt besitzt. Um diesen zu berech- .a; b .c; d zweier halboffener Intervalle ist und somit „nach
nen, bietet es sich an, die Menge A durch achsenparallele links unten offen wird“.
Rechtecke, deren Flächeninhalte man kennt, möglichst gut aus- Unterwirft man die Menge A einer Verschiebung oder Drehung,
zuschöpfen, um so mit der Summe der Flächeninhalte der in so sollte die resultierende Menge den gleichen Flächeninhalt
Abb. 8.2 rechts eingezeichneten Rechtecke zumindest eine un- aufweisen; der Flächeninhalt von A sollte also invariant gegen-
tere Schranke für die Fläche von A zu erhalten. Bei dieser über Bewegungen des R2 sein.
Vorgehensweise erkennt man bereits ein wichtiges Grundprin-
zip für den axiomatischen Aufbau einer Flächenmessung im Die hier aufgeworfenen Fragen gelten offenbar genauso im Hin-
R2 : Ist eine Menge B die disjunkte Vereinigung endlich vieler blick auf die Bestimmung des Rauminhalts im R3 oder das
Mengen B1 ; : : : ; Bn , so soll der Flächeninhalt von B gleich der Problem der Längenmessung im R1 . Ist ein irgendwie gearte-
Summe der Flächeninhalte von B1 ; : : : ; Bn sein. Dabei steht die tes „Gebilde“ A (im R1 , R2 oder R3 ) die disjunkte Vereinigung
Sprechweise „disjunkte Vereinigung“ hier und im Folgenden für endlich vieler „Teilgebilde“, so sollte sein „geometrischer In-
eine Vereinigung paarweise disjunkter Mengen. Um diese häu- halt“, also die Länge (im R1 ), die Fläche (im R2 ) oder das
fig vorkommende spezielle Situation auch in der Notation zu Volumen (im R3 ), gleich der Summe der geometrischen Inhalte
8.1 Inhaltsproblem und Maßproblem 301
(Längen bzw. Flächen bzw. Volumina) der einzelnen Teilgebil- Kilometern – den unserer Sonne übersteigt. Es ist verständlich,
de sein, und unterwirft man das Gebilde A einer Bewegung T , dass die Mengen C1 ; : : : ; Cn jede Vorstellungskraft sprengen.
so sollte das entstehende, zu A kongruente Gebilde T .A/ den Sie sind i. Allg. so kompliziert, dass ihre Existenz nur mit dem
gleichen geometrischen Inhalt besitzen. Dabei bezeichnen wir Auswahlaxiom der Mengenlehre gesichert werden kann.
allgemein die Menge der Bewegungen des Rk mit
Der Schlüssel für eine tragfähige Theorie der Volumenmes-
Dk WD fT W Rk ! Rk j 9U 2 Rkk ; U orthogonal sung im Rk besteht in einer auf den ersten Blick aussichtslos
scheinenden Vorgehensweise: Einer Idee des französischen Ma-
9b 2 Rk mit T .x/ D Ux C b; x 2 Rk g: thematikers Émile Borel (1871–1956) im Jahr 1894 folgend
verschärft man die obige Bedingung b), wonach der k-Inhalt
Vereinbart man noch, dass dem Einheitsintervall Œ0; 1 die Länge einer disjunkten Vereinigung zweier (und damit endlich vieler)
1, dem Einheitsquadrat Œ0; 12 die Fläche 1 und dem Ein- Mengen gleich der Summe der k-Inhalte der einzelnen Mengen
Kapitel 8
heitswürfel Œ0; 13 das Volumen 1 zukommt und unbeschränkte ist, dahingehend, dass bei der Addition der Inhalte paarweise
Mengen die Länge bzw. die Fläche bzw. das Volumen 1 erhal- disjunkter Mengen auch abzählbar unendliche und nicht nur
ten können, so stellt sich mit der Festsetzung endliche Summen zugelassen werden. Auf diese Weise entsteht
das sog. Maßproblem:
Œ0; 1 WD Œ0; 1/ [ f1g
genschaften
Eigenschaft b0 ) heißt -Additivität von k , in Verschärfung der
a) k .;/ D 0,
in b) formulierten endlichen Additivität. Ersterer kommt für
b) k .A
C B/ D k .A/ C k .B/, die weitere Entwicklung der Maß- und Integrationstheorie eine
c) k Œ0; 1k D 1,
Schlüsselrolle zu. Man beachte, dass Bedingung b0 ) in der Tat
d) k .T .A// D k .A/, A Rk , T 2 Dk ? eine gegenüber b) stringentere Forderung darstellt, da man in
b0 ) nur A1 WD A, A2 WD B und Aj WD ; für j 3 setzen muss,
um b) zu erhalten. Da gewisse Summanden in b0 ) gleich 1 sein
Offenbar sind diese Anforderungen an eine Funktion k , die je- können, vereinbaren wir, dass die in b0 ) auftretende Reihe den
der Teilmenge A des Rk einen k-dimensionalen geometrischen Wert 1 annimmt, falls dies für mindestens einen Summanden
Elementarinhalt (kurz: k-Inhalt) zuordnen soll, völlig natürlich. zutrifft. Andernfalls kann die unendliche Reihe reeller Zahlen
Der Knackpunkt ist, dass k auf der vollen Potenzmenge P .Rk / (mit dem Wert 1) divergieren oder konvergieren.
definiert sein soll, was beliebig abstruse Mengen einschließt.
Die nachfolgende kaum verwundernde Aussage stammt von
Nach einem Satz von Felix Hausdorff (1868–1942) aus dem dem italienischen Mathematiker Giuseppe Vitali (1875–1932).
Jahr 1914 ist das Inhaltsproblem im Fall k 3 unlösbar. Ihren Beweis führen wir im Zusammenhang mit der Existenz
Wie der polnische Mathematiker Stefan Banach (1892–1945) nicht Borelscher Mengen am Ende von Abschn. 8.4.
im Jahr 1923 zeigte, ist es für die Fälle k D 1 und k D 2 zwar
lösbar, aber nicht eindeutig.
Die Unlösbarkeit des Inhaltsproblems im Fall k 3 wird Satz von Vitali (1905)
unterstrichen durch einen Satz von Banach und Alfred Tarski
Das Maßproblem ist für kein k 1 lösbar.
(1902–1983) aus dem Jahr 1924, dessen Aussage so unglaublich
ist, dass er als Banach-Tarski-Paradoxon in die Literatur Ein-
gang fand. Dieses „Paradoxon“ besagt, dass man im Fall k 3
zu beliebigen beschränkten Mengen A; B Rk , die jeweils in- Video 8.1 Die Unlösbarkeit des Maßproblems
n R
k
nere Punkte besitzen, endlich viele Mengen C1 ; : : : ; CP
n
und Bewegungen T1 ; : : : ; Tn finden kann, sodass A D j D1 Cj
P
und B D jnD1 Tj .Cj / gilt. Wählt man etwa im R3 für A den
Einheitswürfel und für B eine Kugel mit Radius 106 , so kann
man nach obigem Ergebnis den Würfel in endlich viele Mengen
zerlegen und diese Teilstücke durch geeignete Bewegungen des
R3 so in paarweise disjunkte Mengen abbilden, dass deren Ver- Diese negativen Resultate und der Anschauung zuwiderlaufen-
einigung eine Kugel mit einem Radius ergibt, der – gemessen in den Phänomene machen eines deutlich: Es ist hoffnungslos, k
302 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
auf der Potenzmenge des Rk definieren und somit jeder Teil- Beispiel
menge A des Rk ein k-dimensionales Volumen k .A/ zuordnen Das System aller endlichen Teilmengen einer Menge ˝ bil-
zu wollen. Möchte man an den Forderungen a) bis d) festhal- det einen Ring. Dieser ist genau dann eine Algebra, wenn ˝
ten, so muss man sich offenbar als Definitionsbereich für k auf endlich ist.
ein gewisses, geeignetes System M P .Rk / von Teilmen- Der kleinste über einer Menge ˝ existierende Ring besteht
gen des Rk beschränken. Ähnliche Phänomene beobachtet man nur aus f;g, die kleinste Algebra aus f;; ˝g.
in der Stochastik, wo es vielfach auch nicht möglich ist, jeder Das System aller beschränkten Teilmengen des Rk bildet ei-
Teilmenge eines Ergebnisraums eine Wahrscheinlichkeit zuzu- nen Ring.
weisen, ohne grundlegende Forderungen zu verletzen. Das System Ok der offenen Mengen im Rk ist \-stabil und
Beim Aufbau einer „axiomatischen Theorie des Messens im [-stabil, ja sogar abgeschlossen gegenüber der Vereinigung
weitesten Sinn“ hat sich herausgestellt, dass eine Einschränkung beliebig vieler Mengen, aber kein Ring, da die Differenz of-
Kapitel 8
auf den Rk unnötig ist. Der bei dem jetzt vorgestellten abstrak- fener Mengen nicht notwendig offen ist. J
ten Aufbau entstehende Mehraufwand ist gering, der Gewinn an
Sowohl für den Aufbau der Maßtheorie als auch der Stochas-
Allgemeinheit insbesondere für die Stochastik und die Funktio-
tik sind Ringe und Algebren nicht reichhaltig genug, da sie
nalanalysis beträchtlich.
nur bzgl. der Bildung endlicher Vereinigungen und Durch-
schnitte abgeschlossen sind. Das zentrale Mengensystem für die
Maßtheorie und die Stochastik ist Gegenstand der folgenden
8.2 Mengensysteme Definition.
Im Folgenden betrachten wir eine beliebige, auch Grundraum
genannte nichtleere Menge ˝ und Mengensysteme über ˝,
Definition einer -Algebra
d. h. Teilmengen M der Potenzmenge P .˝/ von ˝. Ein sol-
ches Mengensystem M, das eine Menge von Teilmengen von ˝ Eine -Algebra über ˝ ist ein System A P .˝/ von
darstellt, wird als Definitionsbereich einer geeigneten „Inhalts- Teilmengen von ˝ mit folgenden Eigenschaften:
funktion“ oder „Maßfunktion“ fungieren, deren Eigenschaften
; 2 A,
genauer zu spezifizieren sind. Da man mit Mengen Operationen
aus A 2 A folgt Ac D ˝ S n A 2 A,
wie etwa Durchschnitts- oder Vereinigungsbildung durchführen
aus A1 ; A2 ; : : : 2 A folgt 1nD1 An 2 A.
möchte, sollte ein für die Maßtheorie sinnvolles Mengensystem
gewisse Abgeschlossenheitseigenschaften gegenüber solchen
mengentheoretischen Verknüpfungen aufweisen.
Eine -Algebra A ist also abgeschlossen gegenüber der Bil-
Ein Mengensystem M P .˝/ heißt durchschnittsstabil bzw. dung von Komplementen und Vereinigungen abzählbar vieler
vereinigungsstabil, falls es mit je zwei und damit je endlich (nicht notwendigerweise beliebig vieler) Mengen. Aus den bei-
vielen Mengen auch deren Durchschnitt bzw. deren Vereinigung den ersten Eigenschaften folgt ˝ D ;c 2 A. Setzt man in der
enthält, und man schreibt hierfür kurz \-stabil bzw. [-stabil. dritten Eigenschaft An WD ; für jedes n 3, so ergibt sich,
dass mit je zwei (und somit auch mit je endlich vielen) Mengen
aus A auch deren Vereinigung zu A gehört. Eine -Algebra ist
Definition eines Rings und einer Algebra
somit vereinigungsstabil und damit auch eine Algebra.
Ein Mengensystem R P .˝/ heißt Ring, falls gilt:
Selbstfrage 1
; 2 R,
Enthält eine -AlgebraTmit Mengen A1 ; A2 ; : : : auch die Durch-
aus A; B 2 R folgt A [ B 2 R,
schnitte A1 \ A2 und 1 nD1 An ?
aus A; B 2 R folgt A n B 2 R.
Gilt zusätzlich
Kommentar Das Präfix „-“ im Wort -Algebra steht für
˝ 2 R,
die Möglichkeit, abzählbar unendlich viele Mengen bei der
so heißt R eine Algebra. Vereinigungs- und Durchschnittsbildung zuzulassen. Dabei soll
der Buchstabe an „Summe“ erinnern. J
Wegen Beispiel
A \ B D A n .A n B/ Die kleinstmögliche -Algebra über ˝ ist A D f;; ˝g, die
größtmögliche die Potenzmenge A D P .˝/. Die erste ist
ist offenbar jeder Ring nicht nur [-stabil, sondern auch \-stabil. uninteressant, die zweite i. Allg. zu groß.
Wohingegen ein Ring abgeschlossen gegenüber der Bildung von Für jede Teilmenge A von ˝ ist das Mengensystem
Vereinigungen und Durchschnitten sowie Differenzen von Men-
gen ist, kann man wegen Ac D ˝ n A in einer Algebra auch A WD f;; A; Ac ; ˝g
unbedenklich Komplemente von Mengen bilden, ohne dieses
Mengensystem zu verlassen. eine -Algebra.
8.2 Mengensysteme 303
Es sei ˝ WD N und Ein Dynkin-System enthält die leere Menge sowie mit jeder
Menge auch deren Komplement. Vergleicht man die obigen
A0 WD fA ˝ j A endlich oder Ac endlichg: Eigenschaften mit den definierenden Eigenschaften einer -
Algebra, so folgt unmittelbar, dass jede -Algebra auch ein
Dann ist A0 eine Algebra (sog. Algebra der endlichen Dynkin-System ist. Dass hier die Umkehrung nur unter Zu-
oder co-endlichen Mengen), aber wegen der dritten definie- satzvoraussetzungen gilt, zeigen das folgende Beispiel und das
renden Eigenschaft keine -Algebra. Als solche müsste sie anschließende Resultat.
nämlich jede Teilmenge von ˝ enthalten, also gleich P .N/
sein. Die Menge der geraden Zahlen liegt aber zum Beispiel Beispiel Es sei ˝ WD f1; 2; : : : ; 2kg, wobei k 2 N. Dann ist
nicht in A0 . das System
Ist ˝ eine beliebige nichtleere Menge, so ist das System
Kapitel 8
D WD fD ˝ j 9m 2 f0; 1; : : : ; kg mit jDj D 2mg
A WD fA ˝ j A abzählbar oder Ac abzählbarg
aller Teilmengen von ˝ mit einer geraden Elementanzahl ein
der sog. abzählbaren oder co-abzählbaren Mengen eine Dynkin-System, aber im Fall k 2 keine -Algebra. J
-Algebra. Dabei sind die beiden ersten definierenden Ei-
genschaften einer -Algebra klar, denn die leere Menge ist Lemma (über \-stabile Dynkin-Systeme) Es sei D
abzählbar. Für den Nachweis der dritten Eigenschaft beach- P .˝/ ein \-stabiles Dynkin-System. Dann ist D eine -
te man: SindSalle Mengen An abzählbar, so ist auch deren
1
Algebra. J
Vereinigung
S1 nD1 c An abzählbar.
T1 c
Ist ein An0 nicht abzählbar,
so ist A
nD1 n D A
nD1 n in Acn0 enthalten und daher Beweis Wir müssen nur zeigen, dass D mit beliebigen Men-
abzählbar. Offenbar gilt A D P .˝/, falls ˝ abzählbar ist.
Sind A P .˝/ eine -Algebra und ˝0 eine Teilmenge von S1 A1 ; A2 ; : : : aus D auch deren Vereinigung enthält. Da sich
gen
nD1 An in der Form
˝, so ist das Mengensystem
[
1 X
1
˝0 \ A WD f˝0 \ A j A 2 Ag (8.1) An D A1 C An \ Ac1 \ : : : \ Acn1 (8.2)
nD1 nD2
eine -Algebra über ˝0 . Sie heißt Spur(- -Algebra) von
als disjunkte Vereinigung darstellen lässt und jede der rechts
A in ˝0 . Gilt ˝0 2 A, so besteht ˝0 \ A aus allen zu A
stehenden Mengen wegen der vorausgesetzten \-Stabilität zu
gehörenden Teilmengen von ˝0 . J
D gehört, folgt die Behauptung nach Definition eines Dynkin-
Systems.
Die von einem Mengensystem erzeugte -Algebra die M ¤ N , aber .M/ D .N / gilt. Zum Nachweis der letz-
ten Gleichung in konkreten Fällen ist folgendes Resultat – das
Ist M P .˝/ ein beliebiges nichtleeres System von Teil-
in analoger Weise gilt, wenn man durch ˛, oder ı ersetzt –
mengen von ˝, so setzen wir
hilfreich.
\
.M/ WD fA j A P .˝/ -Algebra und M Ag
Lemma (über Erzeugendensysteme) Es seien M; N
und nennen .M/ die von M erzeugte -Algebra. Das P .˝/ Mengensysteme. Dann gelten:
System M heißt ein Erzeugendensystem oder kurz ein
a) Aus M N folgt .M/ .N /,
Erzeuger von .M/.
b) .M/ D ..M//,
c) aus M .N / und N .M/ folgt .M/ D .N /. J
Ersetzt man in der Definition von .M/ das Wort -
Algebra durch Algebra bzw. Ring bzw. Dynkin-System, Selbstfrage 5
so entstehen die von M erzeugte Algebra ˛.M/ bzw. der Können Sie diese Aussagen beweisen?
von M erzeugte Ring .M/ bzw. das von M erzeugte
Dynkin-System ı.M/.
Ist A P .˝/ eine beliebige -Algebra mit M A, so gilt Die -Algebra der Borel-Mengen des Rk
nach Definition von .M/ als Durchschnitt aller -Algebren
Bezeichnet Ok das System der offenen Mengen des Rk , so
über ˝, die M enthalten, die Inklusion .M/ A. Die
ist die -Algebra der Borelschen Mengen des Rk durch
-Algebra .M/ ist also die eindeutig bestimmte kleinste -
Algebra über ˝, die das Mengensystem M umfasst. In gleicher
Bk WD .Ok /
Weise ist ˛.M/ die kleinste M enthaltende Algebra, .M/ der
kleinste M umfassende Ring und ı.M/ das kleinste M enthal-
tende Dynkin-System. definiert. Im Fall k D 1 schreiben wir kurz B WD B1 .
.M/ D fA ˝ j A endlichg;
˛.M/ D fA ˝ j A endlich oder Ac endlichg;
.M/ D fA ˝ j A abzählbar oder Ac abzählbarg; Mithilfe des obigen Lemmas sieht man schnell ein, dass die -
ı.M/ D .M/: Algebra Bk noch viele weitere Erzeugendensysteme besitzt. Zu
diesem Zweck setzen wir für x D .x1 ; : : : ; xk / 2 Rk und y D
Der Nachweis dieser Behauptungen erfolgt immer in der glei- .y1 ; : : : ; yk / 2 Rk kurz x y, falls für jedes j D 1; : : : ; k die
chen Weise und soll exemplarisch für .M/ geführt werden. Sei Beziehung xj yj gilt. In gleicher Weise verwenden wir die
8.2 Mengensysteme 305
T1
so gilt .x; y D nD1T .x; wn /. Als Schnitt abzählbar vieler of-
fener Mengen gehört 1 k k
nD1 .x; wn / zu .O /, was I .O /
k
k k k
zeigt. Um O .I / nachzuweisen, sei O 2 O , O ¤ ;, be-
liebig. Da O nur innere Punkte besitzt, gibt es zu jedem x 2 O
eine Menge C .x/ 2 I k mit x 2 C .x/ O. Weil die abzählba-
re Menge Q in R dicht liegt, kann sogar angenommen werden,
dass C .x/ zur Menge
Abb. 8.3 Die Menge .x; y k
IQ WD f.x; y 2 I k j x; y 2 Qk g I k
k
gehört. Da IQ abzählbar ist, ist die in der Darstellung O D
Bezeichnung x < y. Hiermit sind im Fall x < y allgemeine S
C .x/ stehende formal überabzählbare Vereinigung tat-
Kapitel 8
Intervalle der Form x2O
k
sächlich eine Vereinigung abzählbar vieler Mengen aus IQ .
.x; y/ WD fz 2 Rk j x < z < yg; k
Sie liegt also in der von IQ erzeugten -Algebra, was O k
k
.x; y WD fz 2 Rk j x < z yg .IQ / .I k / zeigt und den Nachweis von (8.3) abschließt.
Der Beweis des letzten Gleichheitszeichens ist Gegenstand von
usw. definiert. Schließlich setzen wir Aufgabe 8.23.
.1; x WD fz 2 Rk j z xg: Da jede -Algebra ein Dynkin-System ist, umfasst die kleins-
te M enthaltende -Algebra auch das kleinste M enthaltende
Im Fall k D 1 sind .x; y/ und .x; y ein offenes bzw. halb-
offenes Intervall, und .1; x ist ein bei x beginnender und Dynkin-System; es gilt also die Relation ı.M/ .M/. Für ein
durchschnittstabiles Mengensystem tritt hier sogar das Gleich-
nach links zeigender Halbstrahl. Im R2 sind .x; y/ ein offenes
heitszeichen ein.
Rechteck und .x; y ein Rechteck, das nach rechts oben hin ab-
geschlossen und nach links unten hin offen ist (Abb. 8.3). In
diesem Fall ist .1; x eine nach rechts oben bei x begrenzte Lemma Ist M P .˝/ ein \-stabiles Mengensystem, so gilt
„Viertel-Ebene“.
ı.M/ D .M/: J
Im Folgenden bezeichne
Ak das System aller abgeschlossenen Mengen des Rk , Beweis Es ist nur zu zeigen, dass ı.M/ \-stabil ist, denn
K k das System aller kompakten Mengen des Rk , dann ist ı.M/ eine M enthaltende -Algebra. Als solche muss
I k WD f.x; y j x; y 2 Rk ; x yg das um die leere Menge sie auch die kleinste M enthaltende -Algebra .M/ umfassen.
erweiterte System aller halboffenen Intervalle des Rk , Zum Nachweis der Eigenschaft
J k WD f.1; x j x 2 Rk g.
A; B 2 ı.M/ H) A \ B 2 ı.M/
Satz über Erzeugendensysteme der Borel-Mengen definieren wir für beliebiges A 2 ı.M/ das Mengensystem
Es gilt DA WD fB ˝ j B \ A 2 ı.M/g:
Bk D .Ak / D .K k / D .I k / D .J k /: Zu zeigen ist die Inklusion ı.M/ DA . Nachrechnen der de-
finierenden Eigenschaften liefert, dass DA ein Dynkin-System
ist. Ist A 2 M, so gilt aufgrund der \-Stabilität von M die Re-
lation M DA : Da DA ein Dynkin-System ist, folgt hieraus
Beweis Da eine -Algebra mit einer Menge auch deren ı.M/ DA und somit die Implikation
Komplement enthält und die abgeschlossenen Mengen die Kom-
plemente der offenen Mengen sind und umgekehrt, gelten Ak B 2 ı.M/; A 2 M H) B \ A 2 ı.M/:
.Ok / sowie Ok .Ak /. Wegen Bk D .Ok / folgt somit
Bk D .Ak / aus Teil c) des obigen Lemmas. Der Nachweis Vertauscht man hier die Rollen von A und B, so wird obige Zeile
von .Ak / D .K k / ist Gegenstand von Aufgabe 8.22. Um zu M DA für jedes A 2 ı.M/: Hieraus folgt ı.M/ DA ,
.Ok / D .I k / zu zeigen, weisen wir da DA ein Dynkin-System ist.
Hier sind die Mengen auf der rechten Seite paarweise disjunkt,
und A1 n B1 ist aufgrund der letzten Halbring-Eigenschaft ei-
ne endliche Vereinigung disjunkter Mengen aus H1 . In gleicher
Weise ist A2 n B2 eine endliche disjunkte Vereinigung von
Mengen aus H2 . Hieraus folgt die noch fehlende Halbring-
Eigenschaft für H1 H2 .
Das nächste Ergebnis zeigt, dass man den von einem Halbring
erzeugten Ring konstruktiv angeben kann.
Kapitel 8
8.3 Inhalte und Maße Kommentar Man beachte, P dass bei der Additivitätseigen-
schaft gefordert wird, dass jnD1 Aj in M liegt, denn ist ja
Im Folgenden wenden wir uns u. a. der Frage zu, für welche nur auf M definiert. Analoges gilt bei den Formulierungen der
Teilmengen des Rk ein k-dimensionaler Rauminhalt definiert -Additivität und der -Subadditivität.
werden kann, der den beim Inhalts- und Maßproblem in Abschn. Zum Nachweis der endlichen Additivität muss nur der Fall
8.1 formulierten Eigenschaften a), b0 ), c) und d) genügt. Im Hin- n D 2 betrachtet werden, wenn das Mengensystem M wie z. B.
blick auf andere Anwendungen, insbesondere in der Stochastik, ein Ring [-stabil oder – wie bei Dynkin-Systemen der Fall – zu-
führen wir den begonnenen abstrakten Aufbau weiter fort. Es ist mindest abgeschlossen gegenüber der Vereinigungsbildung von
jedoch hilfreich, bei den nachfolgenden Definitionen den oben endlich vielen paarweise disjunkten Mengen aus M ist. Ferner
angesprochenen Rauminhalt „im Hinterkopf zu haben“. Bevor ist unter den Zusatzvoraussetzungen ; 2 M und .;/ D 0 je-
wir fortfahren, sei an die in Abschn. 2.5 eingeführten Notatio- de -additive Mengenfunktion auf M auch endlich-additiv; man
Kapitel 8
nen muss die beim Nachweis der endlichen Additivität auftretenden
[
1 paarweise disjunkten Mengen A1 ; : : : ; An ja nur um Aj WD ;
An " A W() An AnC1 ; n 1; und A D für j > n zu einer unendlichen Folge ergänzen. J
j D1
\
1
Beispiel Es seien ˝ WD N, M WD P .˝/ und
An # A W() An
AnC1 ; n 1; und A D
j D1 (
0; falls A endlich
für auf- bzw. absteigende Mengenfolgen erinnert. .A/ WD für A ˝:
1; sonst
de. Die schwache Zusatzeigenschaft der -Endlichkeit dient und A 2 H mit jnD1 Aj A, so folgt
u. a. dazu, pathologische Mengenfunktionen, die nur die Wer-
te 0 und 1 annehmen, auszuschließen. Besitzt ein Maß die X
n
Eigenschaft .˝/ D 1, so spricht man von einem Wahrschein- .Aj / .A/:
lichkeitsmaß und schreibt P WD ; der Maßraum .˝; A; P / j D1
heißt dann Wahrscheinlichkeitsraum (siehe Kap. 2). J Sn
c) Sind A; A1 ; : : : ; An aus H mit A j D1 Aj , so gilt
Beispiel
X
n
Ist A eine Menge, so bezeichnen wir mit jAj die Mächtigkeit .A/ .Aj /:
von A. Insbesondere ist dann jAj die Anzahl der Elemente j D1
einer endlichen Menge A. Ist ˝ ¤ ; eine beliebige Menge,
so wird durch die Festsetzung d) ist -additiv () ist -subadditiv.
( e) Ist ein Inhalt auf einem Ring R, so gilt für A; B 2 R
jAj; falls A endlich mit A B und .A/ < 1
Z .A/ WD
1; sonst
.B n A/ D .B/ .A/ (Subtraktivität):
ein Maß auf P .˝/ definiert. Es heißt Zählmaß auf ˝.
f) Ist ein endlicher Inhalt auf einem Ring R, so gilt:
Es seien ˝ ¤ ; und A eine beliebige -Algebra über ˝.
ist genau dann -additiv und somit ein Prämaß, wenn
Für festes ! 2 ˝ heißt das durch
in folgendem Sinn ;-stetig ist: Für jede Folge .An / von
( Mengen aus R mit An # ; gilt limn!1 .An / D 0.
1; falls ! 2 A
ı! .A/ WD A2A
0; sonst
X
mj
für ein mj 2 N und paarweise disjunkte Mengen Wir kehren nun zu unserer geometrischen Anschauung zu-
Cj ;1 ; : : : ; Cj ;mj 2 H . Zusammen mit A \ A1 A1 und rück und definieren auf dem Halbring I k D f.x; y j x D
Pmj
.x1 ; : : : ; xk /; y D .y1 ; : : : ; yk / 2 Rk ; x yg durch
mD1 Cj ;m Aj (j D 2; : : : ; n/ ergeben dann die Additivi-
tät von zusammen mit b) und der in a) gezeigten Monotonie Y
n
von die Behauptung. Ik ..x; y/ WD .yj xj /
d) Es seien -additiv und A1 ; A2 ; : : : eine Folge aus H mit j D1
S1 S1 P
j D1 Aj 2 H . Zu zeigen ist j D1 Aj j1D1 .Aj /. eine Funktion Ik W I k ! R. Die Funktion Ik heißt k-
Unter nochmaliger Verwendung von Aufgabe 8.32 gilt dimensionaler geometrischer Elementarinhalt; sie ordnet
einem achsenparallelen Quader .x; y das Produkt der Seiten-
[
1 X
1
längen als k-dimensionalen geometrischen Elementarinhalt zu.
Aj D A1 C Aj \ Ac1 \ : : : \ Ajc 1
Kapitel 8
Das folgende Resultat ist aufgrund unserer geometrischen An-
j D1 j D2
schauung nicht verwunderlich.
X
1 X
mj
D A1 C Cj ;m
j D2 mD1 Satz über den geometrischen Elementarinhalt auf Ik
mit mj 2 N und disjunkten Mengen Cj ;1 ; : : : ; Cj ;mj 2 H . Die Es existiert genau ein Inhalt Ik W F k ! R auf dem Ring
-Additivität von ergibt F k der k-dimensionalen Figuren, der Ik fortsetzt, für den
0 1 " mj # also gilt:
[1 X
1 X
@ Aj A D .A1 / C Cj ;m :
Ik .A/ D Ik .A/; A 2 Ik:
j D1 j D2 mD1
Pmj
Wegen mD1 Cj ;m Aj folgt die Behauptung mit dem bereits
bewiesenen Teil b). Beweis In Aufgabe 8.33 wird allgemein bewiesen, dass ein
Es seien nun -subadditivPund A1 ; A2 ; : : : paarweise dis- auf einem Halbring H definierter Inhalt eine eindeutige Fort-
junkte Mengen aus H mit j1D1 Aj 2 H . Zu zeigen ist setzung auf den erzeugten Ring .H / besitzt. Es ist also nur zu
P P zeigen, dass Ik einen Inhalt auf dem Halbring I k darstellt, also
1
j D1 Aj D j1D1 .Aj /. Wegen der -Subadditivität ist die Bedingung Ik .;/ D 0 erfüllt und endlich-additiv ist. We-
hierbei nur die Ungleichung
„“ nachzuweisen. Nach Teil b) gen .x; x D ; ist nach Definition von Ik die erste Eigenschaft
P1 Pn gegeben. Zum Nachweis der Additivität von Ik stellen wir zu-
gilt j D1 Aj j D1 .Aj / für jedes n 1, sodass die
nächst eine Vorüberlegung an: Sind A WD .x; y 2 I k mit x < y
Behauptung für n ! 1 folgt.
und a 2 R mit xj < a < yj für ein j D 1; : : : ; k, so zerlegt die
e) folgt aus .B/ D .A/ C .B n A/ und .A/ < 1. durch
f) Es sei -additiv. Ist dann .An / eine Folge von Mengen aus Hj .a/ WD fz D .z1 ; : : : ; zk / 2 Rk j zj D ag
R mit An # ;, so sind Bj WD Aj nPAj C1 , j 1, paarweise
disjunkte Mengen aus R mit A1 D j1D1 Bj . Wegen der End- definierte Hyperebene die Menge A in zwei disjunkte Mengen
lichkeit von gilt .Bj / D .Aj / .Aj C1 /, j 1, und die A1 D .x; y 0 und A2 D .x 0 ; y aus I k . Dabei gehen x 0 aus x und
-Additivität von liefert y 0 aus y dadurch hervor, dass man jeweils die j -te Koordinate
in a ändert (Abb. 8.7 links).
X
1 X
n
.A1 / D .Bj / D lim ..Aj / .Aj C1 // Nach Definition von Ik gilt dann Ik .A/ D Ik .A1 / C Ik .A2 /.
n!1
j D1 j D1 Induktiv ergibt sich jetzt
D .A1 / lim .AnC1 / Ik .A/ D Ik .A1 / C : : : C Ik .An /; (8.6)
n!1
und folglich limn!1 .An / D 0. wenn eine Menge A 2 I k mithilfe endlich vieler Hyperebe-
Es sei nun als ;-stetig angenommen. Wir betrachten eine be- nen der oben beschriebenen Art in paarweise disjunkte Mengen
liebige Folge paarweise disjunkter Mengen A1 ; A2 ; : : : aus R A1 ; : : : ; An 2 I k zerlegt wird.
P
mit der Eigenschaft A WD j1D1 Aj 2 R. Setzen wir Bn WD
Pn
j D1 Aj , n 1, so gilt Cn WD A n Bn 2 R, n 1, sowie
Cn # ;. Die ;-Stetigkeit und die endliche Additivität von
ergeben dann
0 D lim .Cn / D lim ..A/ .Bn//
n!1 n!1
X
1
D .A/ lim .Bn / D .A/ .An /;
n!1
nD1
also die -Additivität von . Abb. 8.7 Aufspaltung einer Menge aus I 2 durch Hyperebenenschnitte
310 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Es seien nun A1 ; : : : ; An paarweise disjunkte und ohne Be- Dass Cn ¤ ; für jedes n 1 gilt, zeigen wir durch den Nach-
Pn nichtleerek Mengen aus I mit
k
schränkung der Allgemeinheit weis der Ungleichungen
der Eigenschaft A WD A 2 I . Wir behaupten die
Pj D1 j Ik .Cn / Ik .An / ".1 2n /; n 1: (8.8)
Gültigkeit von Ik .A/ D jnD1 Ik .Aj /, womit Ik als endlich-
additiv nachgewiesen wäre. Hierzu sei Aj DW .uj ; vj mit uj D n
Wegen Ik .An / " würde dann Ik .Cn / "=2 > 0 und so-
.uj 1 ; : : : ; uj k / und vj D .vj 1 ; : : : ; vj k /. Indem man die Menge mit die noch fehlende Aussage Cn ¤ ;, n 1, folgen. Der
A mit allen Hyperebenen Hi .uj i / und Hi .vj i / (i D 1; : : : ; k, Nachweis von (8.8) erfolgt durch Induktion über n, wobei der
j D 1; : : : ; n/ schneidet, zerfällt A in endlich viele paarwei- Induktionsanfang n D 1 wegen C1 D B1 mit (8.7) erbracht ist.
se disjunkte Mengen B1 ; : : : ; Bm 2 I k (siehe Abb. 8.7 rechts, Wir nehmen nun (8.8) für ein n an und beachten, dass wegen
im dortigen Beispiel ist n D 5 und m D 9). Jede der Mengen CnC1 D BnC1 \ Cn nach Aufgabe 8.25 die Beziehung
A1 ; : : : ; An spaltet sich in gewisse dieser B1 ; : : : ; Bm auf. Ver-
Kapitel 8
wendet man die in Gleichung (8.6) mündende Vorüberlegung Ik .CnC1 / D Ik .BnC1 / C Ik .Cn / Ik .BnC1 [ Cn /
für A und jedes einzelne Aj , so folgt die Behauptung.
besteht. Nach (8.7) gilt Ik .BnC1 / Ik .AnC1 / "=2nC1 , und
BnC1 [ Cn AnC1 [ An D An hat Ik .BnC1 [ Cn / Ik .An /
Im Hinblick auf die Existenz eines Maßes auf einer geeigneten
zur Folge – da monoton ist. Zusammen mit der Induktions-
-Algebra A
F k , das den Inhalt Ik fortsetzt, ist folgender
voraussetzung folgt
Sachverhalt entscheidend:
" 1
Ik .CnC1 / Ik .AnC1 / nC1 C Ik .An / " 1 n Ik .An /
2 2
Satz (Borel 1894)
1
D Ik .AnC1 / " 1 nC1 ;
Der Inhalt Ik auf F k ist -additiv, also ein Prämaß. 2
was zu zeigen war.
Um f) zu zeigen, beachte man, dass aus An # A die Konvergenz .M/, und wir erhalten A D .M/ DB , also insbesondere
A1 n An " A1 n A folgt. Die bereits bewiesenen Teile e) und c) A DMn für jedes n. Wegen A \ Mn " A, A 2 A, liefert die
liefern dann wegen .A1 / < 1 Stetigkeit von unten
Kapitel 8
und somit die Behauptung.
Bevor wir uns dem Problem widmen, ein auf einem Halbring H Y
k
..x; y/ D .yj xj /; .x; y 2 I k : J
definiertes Prämaß auf die erzeugte -Algebra fortzusetzen, soll
j D1
der Frage nachgegangen werden, inwieweit eine solche Fort-
setzung, sofern sie denn existiert, eindeutig bestimmt ist. Eine
Antwort hierauf gibt der folgende Satz. Die entscheidende Idee, wie ein auf einem Halbring H defi-
niertes Prämaß auf die erzeugte -Algebra .H / fortgesetzt
werden kann, besteht darin, in zwei Schritten vorzugehen. Da-
Eindeutigkeitssatz für Maße bei ist man zunächst ganz unbescheiden und erweitert auf
die volle Potenzmenge von ˝. Natürlich kann man nicht hof-
Es seien ˝ ¤ ;, A eine -Algebra über ˝, M P .˝/ fen, dass die so entstehende Mengenfunktion -additiv, also ein
ein \-stabiler Erzeuger von A und 1 sowie 2 Maße auf Maß ist, aber sie besitzt als sog. äußeres Maß gewisse wün-
A, die auf M übereinstimmen, für die also schenswerte Eigenschaften. In einem zweiten Schritt schränkt
man sich dann hinsichtlich des Definitionsbereichs wieder ein,
1 .M / D 2 .M /; M 2 M; erhält dafür aber ein Maß, das fortsetzt. Dabei ist der Defini-
tionsbereich dieses Maßes hinreichend reichhaltig, um die von
gilt. Gibt es eine aufsteigende Folge Mn " ˝ von Mengen H erzeugte -Algebra zu umfassen.
aus M mit der Eigenschaft
Nachrechnen der definierenden Eigenschaften zeigt, dass DB Ein äußeres Maß besitzt also die gegenüber einem Maß schwä-
ein Dynkin-System ist (Aufgabe 8.14). Wegen der Gleichheit cheren – weil aus der -Additivität folgenden – Eigenschaften
von 1 und 2 auf M und der \-Stabilität von M gilt M der Monotonie und -Subadditivität. Dafür ist es aber auf jeder
DB und somit ı.M/ DB . Da M \-stabil ist, gilt ı.M/ D Teilmenge von ˝ definiert.
312 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
X
1
"
.Bn;k / .An / C ; n 1:
2n
kD1
Abb. 8.8 Eine endliche Überdeckungsfolge aus I 2 für die Menge A aus S Doppelfolge .Bn;k /n;k1 eine Überdeckungsfolge aus M
Da die
Kapitel 8
Setzt man diese Ausdrücke in (8.9) ein, so folgt Jedes Prämaß auf einem Halbring H lässt sich
.E/ D .A \ B \ E/ C .A \ B \ E/ c auf die -Algebra .H / fortsetzen
C .Ac \ B \ E/ C .Ac \ B c \ E/ Die Definition der -Messbarkeit einer Menge A besagt, dass
A und Ac jede Teilmenge von ˝ in zwei Teile zerlegen, auf
für jedes E ˝ und somit – indem man hier E durch .A [ denen sich additiv verhält. Aus diesem Grund wird das
B/ \ E ersetzt – auch System A. / häufig auch als Gesamtheit der additiven Zer-
leger zu bezeichnet. Die Bedeutung der -Algebra A. /
.E \ .A [ B//
zeigt sich im Beweis des nachstehenden grundlegenden Maß-
D .A \ B \ E/ C .A \ B c \ E/ C .Ac \ B \ E/ Fortsetzungssatzes.
(8.11)
Kapitel 8
für jedes E ˝. Aus den beiden letzten Gleichungen ergibt Maß-Fortsetzungssatz
sich jetzt
Es seien H P .˝/ ein Halbring und W H ! Œ0; 1
..A [ B/ \ E/ C ..A [ B/c \ E/ D .E/ 8E ˝ ein Prämaß. Dann existiert mindestens ein Maß e
auf
.H / mit
.A/ D e.A/; A 2 H:
und somit wie behauptet A [ B 2 A. /.
Ist -endlich, so ist e
eindeutig bestimmt.
A. / zeigt. Also ist die Restriktion von auf die -Algebra D .An /:
A. / ein Maß. nD1
314 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Y
k
k ..x; y/ D .yj xj /; .x; y 2 I k : Abb. 8.9 zeigt, dass eine maßdefinierende Funktion Unstetig-
j D1 keitsstellen und auch Konstanzbereiche besitzen kann. Wegen
der (schwachen) Monotonie können Unstetigkeitsstellen nur
Dieses Maß heißt Borel-Lebesgue-Maß im Rk . Sprungstellen von G sein.
Der nachstehende Satz rechtfertigt die Begriffsbildung maßde-
finierende Funktion. Er zeigt, dass zu jeder solchen Funktion G
Durch das Borel-Lebesgue-Maß k wird in zufriedenstellender genau ein Maß auf der Borelschen -Algebra B korrespondiert,
Weise das Problem gelöst, möglichst vielen Teilmengen des Rk das jedem Intervall .x; y mit x < y den Wert G.y/ G.x/
ein k-dimensionales Volumen (k D 1: Länge, k D 2: Fläche) zuordnet. Als wichtiger Spezialfall wird sich auf anderem Wege
zuzuordnen, zumal wir im nächsten Abschnitt sehen werden, das Borel-Lebesgue-Maß auf B ergeben.
dass k bewegungsinvariant ist. Hintergrundinformationen über
k im Zusammenhang mit dem Lebesgue-Maß und dem Jordan-
Inhalt finden sich in einer Hintergrund-und-Ausblick-Box. Satz über maßdefinierende Funktionen
Ist G eine maßdefinierende Funktion, so existiert genau
Folgerung Sind A0 2 Bk eine Borel-Menge und Bk0 WD A0 \
ein Maß G auf der Borelschen -Algebra B mit
Bk P .A0 / die in (8.1) eingeführte Spur--Algebra von Bk in
A0 , so definiert man über die Festsetzung G ..a; b/ D G.b/ G.a/ 8.a; b 2 I 1 : (8.16)
Ak 0 .B/ k
WD .B/; B2 Bk0 ;
Dieses Maß ist -endlich. Ist G eine Verteilungsfunktion,
das Borel-Lebesgue-Maß auf Bk0 .
Man beachte, dass auf diese so ist G ein Wahrscheinlichkeitsmaß.
Weise aus .Rk ; Bk ; k / der neue Maßraum .A0 ; Bk0 ; Ak 0 / ent- Das Maß G heißt zu Ehren der Mathematiker Henri Léon
steht. Ein wichtiger Spezialfall ergibt sich, wenn k .A0 / D 1 Lebesgue (1875–1941) und Thomas Jean Stieltjes (1856–
gilt. In diesem Fall ist Ak 0 ein Wahrscheinlichkeitsmaß auf Bk0 , 1894) Lebesgue-Stieltjes-Maß zu G.
die sog. Gleichverteilung auf A0 . J
8.3 Inhalte und Maße 315
Kapitel 8
Bei der Fortsetzung eines Prämaßes auf einem Halbring
Lebesgue-messbar, wenn es Borel-Mengen E und F mit
H zu einem Maß auf .H / war ja in einem ersten Schritt
E A F und k .F n E/ D 0 gibt. Ein Vorteil des
ein äußeres Maß auf der Potenzmenge von ˝ konstru-
Borel-Lebesgue-Maßes gegenüber k besteht darin, dass die
iert worden. Danach wurde auf die -Algebra A. /
-Algebra Bk „näher an der Topologie des Rk ist“, da sie
der -messbaren Mengen eingeschränkt und erwies sich
von den offenen Mengen erzeugt wird.
dort als Maß. Im Beweis des Maß-Fortsetzungssatzes wur-
de die Beziehung .H / A. / gezeigt. Hier erhebt Wir merken noch an, dass jede der Inklusionen Bk Lk und
sich die natürliche Frage: Um wie viel ist A. / größer Lk P .Rk / strikt ist.
als .H /?
Aus historischer Sicht gab es vor den bahnbrechenden Ar-
Im Fall des geometrischen Elementarinhalts WD Ik auf beiten von Borel und Lebesgue eine Axiomatik der Volu-
F k heißt das Mengensystem A. / die -Algebra der menmessung im Rk , die sich auf den nach dem französi-
Lebesgue-messbaren Mengen im Rk . Sie wird mit Lk be- schen Mathematiker Camille Jordan (1838–1922) benannten
zeichnet. Die als k notierte Einschränkung von auf Lk Jordan-Inhalt gründete.
heißt Lebesgue-Maß im Rk . Ist allgemein ein Inhalt auf einem Ring R P .˝/, so
Wegen B L ist das Lebesgue-Maß
k k
k
eine Fortsetzung nennt man eine Menge A ˝ Jordan-messbar, wenn es
von k auf die -Algebra Lk . Eine wichtige Eigenschaft, zu jedem " > 0 Mengen E; F aus R mit E A F und
die das Lebesgue-Maß gegenüber k auszeichnet, ist seine .F n E/ < " gibt. Das System R dieser Mengen ist ein
Vollständigkeit. Dabei heißt ein Maß auf einer -Algebra Ring, der R enthält, und durch
A P .˝/ vollständig, falls gilt: Ist A 2 A eine Menge
.A/ WD supf.B/ j B A; B 2 Rg
mit .A/ D 0 (eine sog. -Nullmenge), und ist B A,
so gilt B 2 A. In diesem Fall spricht man auch von einem wird eine eindeutig bestimmte additive Fortsetzung von
vollständigen Maßraum. In einem solchen Maßraum sind auf R definiert. Der oben genannte Jordan-Inhalt entsteht,
also Teilmengen von -Nullmengen stets messbar und damit
wenn man den Elementarinhalt Ik auf dem Ring F k der
wegen der Monotonie von auch -Nullmengen.
k-dimensionalen Figuren betrachtet. Eine Menge A Rk
Ist A 2 Lk eine Lebesgue-messbare Menge mit k .A/ D 0, ist Jordan-messbar, wenn sie anschaulich gesprochen „be-
und ist B A eine beliebige Teilmenge von A, so gilt nach liebig genau zwischen zwei Figuren passt“. Insbesondere
Aufgabe 8.27 auch B 2 Lk . Das Lebesgue-Maß ist somit ist jede Jordan-messbare Teilmenge A des Rk beschränkt,
vollständig. und es gibt Borel-Mengen B und C mit B A C
und k .C n B/ D 0. Man beachte, dass die Menge A WD
Jeder Maßraum .˝; A; / lässt sich wie folgt vervollstän- Qk \ .0; 1k zwar Borel-, aber nicht Jordan-messbar ist. Als
digen: Das Mengensystem A WD fA ˝ j 9E; F 2 abzählbare Menge gehört A zu Bk , die kleinste Figur, die A
A mit E A F und .F n E/ D 0g ist eine A enthal- enthält, ist .0; 1k , die größte in A enthaltene Figur jedoch die
tende -Algebra. Die Mengen aus A liegen also sämtlich leere Menge. An diesem Beispiel ersieht man den entschei-
zwischen zwei Mengen aus A, deren Differenz eine - denden Fortschritt, der mit dem Übergang zu -additiven
Nullmenge bildet. Definiert man eine Mengenfunktion auf Mengenfunktionen auf -Algebren verbunden war!
316 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Beweis Durch (8.16) wird auf dem Halbring I 1 über R eine Mit Teil c) des Satzes über die Eigenschaften von Inhalten und
nichtnegative Mengenfunktion mit G .;/ D 0 (D G ..x; x/) (8.18) ergibt sich
definiert. Diese ist endlich-additiv und folglich ein Inhalt, denn
sind A1 ; : : : ; An paarweise disjunkte Mengen aus I 1 mit A WD X
m X
1
"
P n G .e
A/ G .e
An / G .An / C ;
j D1 Aj DW .x; y 2 I , wobei x < y, so gilt nach eventueller
1
nD1 nD1
2
Umnummerierung Aj D .xj ; yj , wobei x1 D x, yn D y und
xj C1 D yj , 1 j n 1. Ein Teleskopeffekt liefert dann wie sodass (8.17) die Behauptung liefert, da " > 0 beliebig war.
behauptet Die Eindeutigkeit von G folgt aus dem Eindeutigkeitssatz für
Maße.
X
n
X n
G Aj D G.yj / G.xj / D G.y/ G.x/ Selbstfrage 8
Kapitel 8
[
m also anschaulich als Flächeninhalt zwischen dem Graphen
e
A Œx C ı; y e
An : von f und der x-Achse über dem Intervall Œa; b, siehe
nD1 Abb. 2.6. J
8.3 Inhalte und Maße 317
Die Existenz und Eindeutigkeit vieler Maße auf Bk kann mit- Allgemein definiert man für eine Funktion G W Rk ! R und
hilfe maßdefinierender Funktionen gezeigt werden. a; b 2 Rk mit a b die alternierende Summe
Kapitel 8
Monotonie einer maßdefinierenden Funktion G W R ! R da- Offenbar gilt ba G D G.b/ G.a/ für k D 1, und im Fall
zu diente, über die Festsetzung G ..a; b/ WD G.b/ G.a/ k D 2 ist ba G die oben stehende viergliedrige alternierende
eine nichtnegative Mengenfunktion G auf I 1 zu definieren. Summe.
Im Fall k 2 benötigen wir eine Verallgemeinerung die-
Eine Funktion G W Rk ! R heißt maßdefinierende Funk-
ser Monotonieeigenschaft, um G auf dem Halbring I k aller
tion, falls gilt:
halboffenen k-dimensionalen Intervalle .a; b mit a; b 2
Rk ; a b festzulegen. Zur Illustration betrachten wir zu- G besitzt die verallgemeinerte Monotonieeigenschaft
nächst den Fall k D 2.
ba G 0 8.a; b 2 I k ;
Nehmen wir einmal an, wir hätten bereits ein endliches Maß
auf B2 . Sind a D .a1 ; a2 /, b D .b1 ; b2 / 2 R2 mit a b, G ist rechtsseitig stetig, d. h., es gilt
so gilt mit der Abkürzung Sx WD .1; x
G.x/ D lim G.xn /
n!1
.a; b D .1; b n S.a1 ;b2 / [ S.b1 ;a2 / :
für jedes x 2 Rk und jede Folge xn D .xn1 ; : : : ; xnk / mit
Schreiben wir
xnj # xj , j D 1; : : : ; k, bei n ! 1.
so folgt ..a; b/ D G.b/ .S.a1 ;b2 / [ S.b1 ;a2 / /. Wegen G ..a; b/ WD ba G 8.a; b 2 I k
S.a1 ;b2 / \ S.b1 ;a2 / D S.a1 ;a2 / gilt nach Teil a) des Satzes über
additive Mengenfunktionen auf einem Ring auf dem Halbring I k und weist völlig analog wie im Beweis
des Satzes über maßdefinierende Funktionen nach, dass für
.S.a1;b2 / [ S.b1 ;a2 / / D G.a1 ; b2 / C G.b1 ; a2 / G.a1 ; a2 / G die Voraussetzungen des Maß-Fortsetzungssatzes erfüllt
sind. Es existiert somit ein (wegen der -Endlichkeit von G
auf I k eindeutig bestimmtes) Maß G auf Bk mit der Eigen-
und somit schaft G ..a; b/ D ba G 8.a; b 2 I k , das wiederum als
Lebesgue-Stieltjes-Maß zu G bezeichnet wird.
..a; b/ D G.b1 ; b2 / G.a1 ; b2 /
Als prominentes Beispiel betrachten wir die durch
G.b1 ; a2 / C G.a1 ; a2 /:
Y
k
Das Maß des Rechtecks .a; b ergibt sich somit wie in der G.x/ WD xj ; x D .x1 ; : : : ; xk / 2 Rk ;
nachstehenden Abb. als alternierende Summe über die Werte j D1
der Funktion G in den vier Eckpunkten des Rechtecks.
definierte stetige Funktion G W Rk ! R. Wegen
Y
k
ba G D .bj aj / 0; .a; b 2 I k ;
j D1
8.4 Messbare Abbildungen, Beweis Die Aussagen a) und c) beweist man durch direktes
Nachprüfen der definierenden Eigenschaften einer -Algebra
Bildmaße unter Verwendung des Satzes über die Operationstreue der
Urbildabbildung (siehe Aufgabe 8.29). Aussage b) ist gleich-
In diesem Abschnitt geht es um eine Begriffsbildung, die sich in bedeutend mit
ganz natürlicher Weise ergibt, wenn man Abbildungen zwischen
Mengen betrachtet, die jeweils mit einer -Algebra versehen f 1 .M0 / D f 1 ..M0 // : (8.19)
sind. Zunächst seien ˝ und ˝ 0 beliebige nichtleere Mengen und Nach a) ist f 1 ..M0 // eine -Algebra mit f 1 .M0 /
f W ˝ ! ˝ 0 eine beliebige Abbildung. Die Urbildabbildung f 1 ..M0 //. Dies beweist in (8.19). Zum Nachweis der
zu f ist definiert durch umgekehrten Richtung beachte man, dass nach c) das System
( C 0 WD fA0 ˝ 0 j f 1 .A0 / 2 .f 1 .M0 //g eine -Algebra ist.
Kapitel 8
Die Definition der Messbarkeit einer Abbildung ist formal die Beweis Es ist nur die Implikation „(“ nachzuweisen. Die
gleiche wie diejenige der Stetigkeit einer Abbildung zwischen Voraussetzung besagt M0 Af . Da Af eine -Algebra ist,
topologischen Räumen. Sind A, A0 Topologien genannte Sys- folgt A0 D .M0 / Af .
teme offener Mengen auf ˝ bzw. ˝ 0 , so ist obige Definition
gerade die Definition der Stetigkeit von f , denn sie besagt, dass Folgerung
Urbilder offener Mengen offen sind.
a) Eine Abbildung f W ˝ ! R ist genau dann .A; B/-messbar,
0
Kommentar Die Forderung der .A; A /-Messbarkeit an f wenn gilt:
ist umso stärker, je feiner A0 bzw. je gröber A ist. Dabei nennen
f! 2 ˝ j f .!/ cg 2 A; c 2 R: (8.20)
wir allgemein ein Mengensystem M1 feiner bzw. gröber als ein
Mengensystem M2 , falls M1
M2 bzw. M1 M2 gilt.
b) Eine stetige Abbildung f W Rk ! Rm ist .Bk ; Bm /-messbar.
Kapitel 8
Im Fall A D P .˝/ ist jede Abbildung f W ˝ ! ˝ 0 .A; A0 /- c) Es seien fj W ˝ ! R, j D 1; : : : ; k, Abbildungen sowie
messbar. Hierbei darf A0 beliebig sein. Gleiches gilt, wenn die f D .f1 ; : : : ; fk / W ˝ ! Rk die vektorwertige Abbildung
gröbste -Algebra A0 D f;; ˝ 0 g über ˝ 0 vorliegt. Falls A D mit Komponenten f1 ; : : : ; fk . Dann gilt:
f;; ˝g und A0 D P .˝ 0 /, so sind die konstanten Abbildungen
f .!/ WD ! 0 , ! 2 ˝ (! 0 2 ˝ 0 fest), die einzigen .A; A0 /- f .A; Bk /-messbar () fj .A; B/-messbar; j D 1; : : : ; k:
messbaren Abbildungen. J
Die einfachste nichtkonstante .A; B/-messbare Abbildung ist
die Indikatorfuntion 1A W ˝ ! R einer Menge A 2 A. Diese Beweis a) Wegen .f.1; c j c 2 Rg/ D B (vgl. den Satz
nimmt auf A den Wert 1 und auf Ac den Wert 0 an. Oft wird 1A über Erzeugendensysteme der Borel-Mengen in Abschn. 8.2)
auch die charakteristische Funktion von A genannt und mit folgt die Behauptung aus obigem Satz.
A bezeichnet. Anstelle von 1A schreiben wir häufig 1fAg und
b) Die Stetigkeit von f ist gleichbedeutend mit f 1 .Om /
nennen 1A auch kurz den Indikator von A.
Ok , denn das Urbild einer offenen Menge unter einer stetigen
Man beachte, dass nach Definition der -Algebra Af folgende Abbildung ist offen. Wegen Om Bm und .Om / D Bm liefert
Äquivalenz gilt: der Satz über Erzeuger und Messbarkeit die Behauptung.
f ist .A; A0 /-messbar () A0 Af : J c) Zum Beweis von „)“ seien j 2 f1; : : : ; kg fest und Oj eine
beliebige offene Teilmenge von R. Dann ist die Menge O WD
Śj 1 Śk
mD1 R Oj mDj C1 R offen in R , und es gilt fj .Oj / D
k 1
Ganz analog zu stetigen Abbildungen gilt, dass die Verkettung
messbarer Abbildungen wieder messbar ist. f 1 .O/ 2 A, sodass wegen B D .O1 / und obigem Satz die
Behauptung folgt. Zum Nachweis der Richtung „(“ beachte
Śk
man, dass das Urbild einer Menge .a; b D j D1 .aj ; bj 2
Satz über die Verkettung messbarer Abbildungen
k 1
T k 1
I die Darstellung f ..a; b/ D j D1 fj ..aj ; bj / besitzt.
Sind .˝j ; Aj /, j D 1; 2; 3, Messräume und fj W ˝j ! Wegen fj1 ..aj ; bj / 2 A (j D 1; : : : ; k) ergibt sich die Be-
˝j C1 .Aj ; Aj C1 /-messbare Abbildungen .j D 1; 2/, so
ist die zusammengesetzte Abbildung hauptung aus .I k / D Bk und dem Satz über Erzeuger und
Messbarkeit.
(
˝1 ! ˝3
f2 ı f1 W Da wir auf dem Rk stets die Borel--Algebra Bk zugrunde le-
!1 7! f2 ı f1 .!1 / WD f2 .f1 .!1 // gen, sprechen wir im Falle einer .A; Bk /-messbaren Abbildung
kurz von einer Borel-messbaren Abbildung bzw. im Spezial-
.A1 ; A3 /-messbar. fall k D 1 von einer Borel-messbaren Funktion. Aus dem Satz
über Erzeuger und Messbarkeit ergibt sich unmittelbar:
Selbstfrage 9
Können Sie diese Aussage beweisen? Satz über Eigenschaften Borel-messbarer Funktionen
Es seien f ; g W ˝ ! R Borel-messbare Funktionen.
Das folgende wichtige Resultat besagt, dass zum Nachweis der Dann sind die folgenden Funktionen Borel-messbar:
Messbarkeit nur die Inklusion f 1 .M0 / A für einen Erzeu-
ger M0 von A0 nachgewiesen werden muss. a) a f C b g, a; b 2 R,
b) f g,
c) fg , falls g.!/ ¤ 0, ! 2 ˝,
Satz über Erzeuger und Messbarkeit d) max.f ; g/ und min.f ; g/.
Es seien .˝; A/, .˝ 0 ; A0 / Messräume, f W ˝ ! ˝ 0 eine
Abbildung und M0 A0 mit .M0 / D A0 . Dann gilt:
Beweis Nach Teil c) der obigen Folgerungen ist .f ; g/ W
f ist .A; A0 /-messbar () f 1 .M0 / A: ˝ ! R2 eine .A; B2 /-messbare Abbildung. Verknüpft man
diese mit den Borel-messbaren – da stetigen – Abbildungen
320 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Ergänzt man diese auch intuitiv klaren Definitionen durch die Mit messbaren numerischen Funktionen kann
willkürlichen Festlegungen man (fast) bedenkenlos rechnen
1 1 WD 1 C 1 WD 0; 0 .˙1/ WD .˙1/ 0 WD 0;
so sind Summe, Differenz und Produkt zweier Elemente aus Messbarkeitskriterien für numerische Funktionen
R erklärt. Man beachte, dass die für reelle Zahlen vertrauten Es seien .˝; A/ ein Messraum und f W ˝ ! R eine
Rechenregeln nur mit Einschränkungen für das Rechnen in R numerische Funktion. Dann sind folgende Aussagen äqui-
gelten. So sind die Addition und die Multiplikation in R zwar valent:
kommutativ, aber nicht assoziativ, und auch das Distributivge-
setz gilt nicht. Schränkt man jedoch die Addition auf .1; 1 a) f ist .A; B/-messbar,
oder Œ1; 1/ ein, so liegt Assoziativität vor. b) ff > cg 2 A 8c 2 R,
c) ff cg 2 A 8c 2 R,
Eine Umgebung von 1 bzw. von 1 ist eine Menge A R,
d) ff < cg 2 A 8c 2 R,
die ein Intervall der Form Œa; 1 WD Œa; 1/ [ f1g mit a 2 R
e) ff cg 2 A 8c 2 R.
bzw. Œ1; a WD .1; a [ f1g enthält. Hiermit ist die
Konvergenz von Folgen in R festgelegt: Eine Folge .xn / mit
Gliedern aus R konvergiert gegen 1 bzw. 1, falls es zu je-
dem a 2 R ein n0 gibt, sodass xn a bzw. xn a für jedes Beweis „a) ) b)“ folgt wegen .c; 1 2TB, und die Implika-
n n0 gilt. Man beachte, dass jede Folge aus R mindestens tion „b) ) c)“ ergibt sich aus ff cg D 1 1
nD1 ff > c n g.
einen Häufungspunkt in R besitzt, und dass der Limes superior c
Die Darstellung ff < cg D ff cg begründet den Schluss
und der Limes inferior von .an / als größter bzw. kleinster Häu- von c) auf d), und „d) ) e)“ erhält man mit ff cg D
T
fungspunkt in R existieren. Diese Überlegungen für Folgen in 1
nD1 ff < c C n g. Da das System fŒ1; c j c 2 Rg einen
1
R gelten sinngemäß auch für die punktweise Konvergenz von Erzeuger von B bildet (Aufgabe 8.6), folgt der verbleibende Be-
Folgen numerischer Funktionen fn W ˝ ! R. weisteil „e) ) a)“ aus dem Satz über Erzeuger und Messbarkeit.
Um von der Messbarkeit einer numerischen Funktion sprechen
zu können, versieht man die Menge R mit der -Algebra
Wie das nächste Resultat u. a. zeigt, sind Grenzwerte punkt-
B WD fB [ E j B 2 B; E f1; C1gg weise konvergenter messbarer numerischer Funktionen wieder
messbar, ganz im Gegensatz zu stetigen Funktionen, bei denen
der sog. in R Borelschen Mengen. ein entsprechender Sachverhalt nicht notwendigerweise gilt.
8.4 Messbare Abbildungen, Bildmaße 321
Kapitel 8
f W ˝ ! R; ! 7! f .!/ WD max.f .!/; 0/
T1
Beweis a): Wegen fsupn1 fn cg D nD1 ffn cg, einer numerischen Funktion f eine große Rolle (Abb. 8.10).
c 2 R, folgt die erste Behauptung aus
T dem obigen Satz, und
die zweite wegen finfn1 fn cg D 1 nD1 ffn cg ebenfalls.
Nach den obigen Überlegungen sind mit f auch f C und f
Teil b) ergibt sich aus a). messbar. Man beachte, dass sowohl f C als auch f nichtnega-
tiv sind, und dass
Wendet man dieses Ergebnis auf die Folge f1 ; : : : ; fn ; fn ;
fn ; : : : an, so ergibt sich Folgendes. f D f C f ; jf j D f C C f
gelten.
Folgerung Sind f1 ; : : : ; fn messbare numerische Funktio-
nen auf ˝, so sind auch die Funktionen max.f1 ; : : : ; fn / und Für spätere Zwecke notieren wir noch:
min.f1 ; : : : ; fn / messbar. J
Lemma Sind f ; g W ˝ ! R messbare numerische Funktio-
Auch die Bildung von Linearkombinationen und Produkten nen, so gehört jede der Mengen ff < gg, ff gg, ff D gg
messbarer Funktionen ergibt wieder eine messbare Funktion. und ff ¤ gg zu A. J
Beweis Sind f und g reellwertig, so sind f Cg und f g nach .fj I j 2 J / ist die kleinste -Algebra,
den beiden ersten Eigenschaften Borel-messbarer Funktionen
messbar. Sind nun f und g messbare numerische Funktio- bezüglich derer alle fj messbar sind
nen, so sind die durch fn WD max.n; min.f ; n//, gn WD
Die im Folgenden beschriebene Möglichkeit, -Algebren mit-
max.n; min.g; n// definierten Funktionen fn und gn nach der
hilfe von Abbildungen zu erzeugen, hat grundlegende Bedeu-
obigen Folgerung messbar. Nach dem eben Gezeigten sind we-
tung. Gegeben seien eine nichtleere Menge ˝, eine nichtleere
gen der Reellwertigkeit von fn und gn die Funktionen fn C gn
Indexmenge J , eine Familie ..˝j ; Aj //j 2J von Messräumen
und fn gn , n 1, messbar und somit nach dem obigen
und eine Familie .fj /j 2J von Abbildungen fj W ˝ ! ˝j .
Satz auch die Funktionen f C g D limn!1 .fn C gn / sowie
f g D limn!1 .fn gn /. Da die konstanten Funktionen a und b Wir stellen uns die Aufgabe, eine -Algebra A über ˝ zu kon-
für jede Wahl von a; b 2 R messbar sind, sind auch af und bg struieren, sodass für jedes j die Abbildung fj .A; Aj /-messbar
messbar und damit auch die Linearkombination af C bg. Spe- ist. Dabei soll diese -Algebra so klein wie möglich sein (man
ziell ist also f messbar und somit auch max.f ; f / D jf j. beachte, dass ohne diese zusätzliche Bedingung die triviale -
Algebra P .˝/ das Gewünschte leistet). Damit die Abbildung
fj .A; Aj /-messbar ist, muss die gesuchte -Algebra das Men-
Beim Aufbau des Integrals spielen der Positivteil gensystem fj1 .Aj / enthalten. Da diese Messbarkeit für jedes
j gelten
S soll, muss die gesuchte -Algebra das Mengensys-
f C W ˝ ! R; ! 7! f C .!/ WD max.f .!/; 0/ tem j 2J fj1 .Aj / umfassen. Dieses Mengensystem ist jedoch
322 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
i. Allg. keine -Algebra, sodass wir zur erzeugten -Algebra sich auch klar, dass die Mengen Ak eine Zerlegung des
übergehen müssen. Die folgende Definition ist somit selbstre- Grundraums ˝ liefern: Es gilt ˝ D A1 C A2 C : : :. Die
dend. -Algebra .f / ist identisch mit der -Algebra, die vom
Mengensystem M WD fA1 ; A2 ; : : :g erzeugt wird. J
Definition der von Abbildungen erzeugten -Algebra Als weiteres Beispiel einer durch Abbildungen erzeugten -
Algebra betrachten wir das Produkt von -Algebren.
Es seien ˝ ¤ ;, J ¤ ;, ..˝j ; Aj //j 2J eine Familie von
Messräumen und .fj /j 2J eine Familie von Abbildungen
fj W ˝ ! ˝j . Dann heißt Definition des Produkts von -Algebren
[
1
Seien .˝1 ; A1 /; : : : ; .˝n ; An /, n 2, Messräume und
Kapitel 8
.fj I j 2 J / WD fj .Aj /
j 2J ą
n
˝D ˝j
die von den Abbildungen fj (und den Messräumen j D1
.˝j ; Aj /) erzeugte -Algebra.
D f! D .!1 ; : : : ; !n / j !j 2 ˝j für j D 1; : : : ; ng
Man beachte, dass der Wertebereich von f auch eine all- Beispiel In der Situation des zweifachen Würfelwurfs im
gemeine Menge sein kann, wenn die darauf definierte - vorigen Beispiel geben die Projektionen 1 ..i; j // D i und
Algebra alle einelementigen Mengen enthält. Man mache 2 ..i; j // D j das Ergebnis des ersten bzw. zweiten Wurfs
8.4 Messbare Abbildungen, Bildmaße 323
Kapitel 8
k und Tb .k / auf I k übereinstimmen. Nach dem Eindeutig-
zu zeigen. J keitssatz für Maße gilt
Die Messbarkeit einer ˝-wertigen Abbildung bzgl. der - Tb .k / D k für jedes b 2 Rk ;
Algebra .fj I j 2 J / kennzeichnet das folgende Resultat.
was als Translationsinvarianz von k bezeichnet wird. J
Sind a1 ; : : : ; ak weitere natürliche Zahlen und B WD Das Maß T .k / ist somit in der Tat translationsinvariant. Set-
.0; a1 =b1 .0; ak =bk gesetzt (siehe Abb. 8.11 rechts für zen wir kurz W WD .0; 1k und schreiben W D Œ0; 1k für die
den Fall k D 2 und a1 D b1 D 3), so folgt mit dem gleichen abgeschlossene Hülle von W , so gilt, da T 1 .W / als Bild der
Argument .B/ D a1 : : : ak .A/ sowie nach Definition des kompakten Menge W unter der stetigen Abbildung T 1 eben-
k -Maßes eines Quaders falls kompakt und damit insbesondere beschränkt ist,
a1 ak
.B/ D ::: D k .B/:
b1 bk WD T .k /.W / T .k /.W / D k .T 1 .W // < 1:
Bezeichnet 0 den Ursprung im Rk , so liefern also die Maße
und k für alle Mengen .0; y 2 I k gleiche Werte, für die der Nach obigem Satz gilt also T .k / D k für ein 2 Œ0; 1/.
Vektor y lauter positive rationale Komponenten besitzt. Wie- Um den Beweis abzuschließen, betrachten wir die kompakte
derum aufgrund der Translationsinvarianz von und k folgt Einheitskugel B WD fx 2 Rk j kxk 1g. Da mit T auch T 1
k
dann, dass und k auf dem Mengensystem IQ D f.x; y 2 eine orthogonale Abbildung des Rk in sich ist, liefert die Inva-
I j x; y 2 Q g übereinstimmen. Dieses ist \-stabil und enthält
k k
rianz des Euklidischen Abstands unter solchen Abbildungen die
mit An WD .n; nk eine Folge An " Rk . Da wir im Beweis Gleichung T 1 .B/ D B und somit k .B/ D k .T 1 .B// D
des Satzes über Erzeugendensysteme von der Borel-Mengen in T .k /.B/ D k .B/. Hieraus folgt D 1, denn es gilt
k
Abschn. 8.2 gesehen hatten, dass Ok .IQ / und folglich 0 < k .B/ < 1.
k k
B D .IQ / gilt, ergibt sich die Behauptung aus dem Eindeu-
tigkeitssatz für Maße. Selbstfrage 14
k
Wir werden jetzt die eingangs gestellte Frage nach der Lösung Warum gilt .B/ > 0? (Sie dürfen nicht anschaulich argumen-
des Maßproblems im Rk wieder aufgreifen und zeigen, dass das tieren!)
Borel-Lebesgue-Maß bewegungsinvariant ist, also kongruenten
Mengen das gleiche Maß zuordnet.
Folgerung (Verhalten von k unter affinen Abbildun-
gen) Zu einer invertierbaren Matrix A 2 Rkk und einem
Satz über die Bewegungsinvarianz von k
(Spalten-)Vektor a 2 Rk sei T W Rk ! Rk die durch
Das Borel-Lebesgue-Maß k ist bewegungsinvariant,
d. h., es gilt T .x/ WD Ax C a; x D .x1 ; : : : ; xk /> 2 Rk ;
Beweis a): Wegen der Translationsinvarianz von k und der Beweis Durch x y W() x y 2 Qk , x; y 2 Rk ;
Transitivität der Bildmaßes unter Kompositionen von Abbil- entsteht eine Äquivalenzrelation „ “ auf Rk . Mithilfe des Aus-
dungen sei o.B.d.A. a D 0 gesetzt. Die Matrix AA> ist wahlaxioms wählen wir aus jeder der paarweise disjunkten
symmetrisch und positiv definit, es gilt also AA> D UD 2 U > Äquivalenzklassen ein Element aus. Da Qk in Rk dicht liegt,
mit einer orthogonalen Matrix U und einer Diagonalmatrix kann die resultierende Menge K o.B.d.A. als Teilmenge von
D WD diag.d1 ; : : : ; dk / mit strikt positiven Diagonaleinträgen. .0; 1k angenommen werden. Wir nehmen an, es gälte K 2 Bk ,
Die Matrix V WD D 1 U > A ist orthogonal, und es gilt A D und führen diese Annahme zu einem Widerspruch. Mit r CK WD
UDV . Die durch A vermittelte affine Abbildung ist somit die fr C x j x 2 Kg gilt
Hintereinanderausführung einer Bewegung, einer Streckung mit
koordinatenabhängigen Streckungsfaktoren und einer weiteren .r C K/ \ .r 0 C K/ D ; für alle r; r 0 2 Qk mit r ¤ r 0 ;
Bewegung. Da k bewegungsinvariant ist und j det U j D 1 D
denn andernfalls gäbe es x; x 0 2 K und r; r 0 2 Qk mit r ¤ r 0
Kapitel 8
j det V j gilt, können wir T .x/ D Dx D .d1 x1 ; : : : ; dk xk /> ,
x 2 Rk , annehmen. Für jeden Quader .a; b 2 I k gilt aber und r C x D r 0 C x 0 , also x x 0 D r 0 r 2 Qk und x ¤ x 0 ,
Śk was der Wahl von K widerspräche. Da jedes y 2 Rk zu genau
D 1 ..a; b/ D j D1 .aj =dj ; bj =dj und somit
einem x 2 K äquivalent ist, folgt
X
Y k
1 Rk D .r C K/; (8.22)
k T 1 ..a; b/ D .bj aj / D j det Dj1 k ..a; b/:
d
j D1 j
r2Qk
Nach dem Eindeutigkeitssatz für Maße sind die Maße T .k / wobei r C K als Urbild von K unter Tr zu Bk gehört. Die
und j det Dj1 k gleich. -Additivität und Translationsinvarianz von k liefern
X X
b): Wenden wir Teil a) auf die Umkehrabbildung T 1 an, so 1 D k .Rk / D k .r C K/ D k .K/
folgt wegen j det A1 j D j det Aj1 die Beziehung T 1 .k / D r2Qk r2Qk
j det Aj k und somit für jedes B 2 Bk
und somit k .K/ > 0. Wegen K .0; 1k gilt andererseits
P
k
.T .B// D T 1 k k
. /.B/ D j det Aj .B/: k
r2Qk \.0;1k .r C K/ .0; 2 und folglich, wiederum unter
Verwendung der Translationsinvarianz von k ,
X
Kommentar Bisweilen wird das k-dimensionale Volumen k .K/ k ..0; 2k / D 2k < 1;
des von k Spaltenvektoren v1 ; : : : ; vk erzeugten Parallelepipeds r2Qk \.0;1k
als j det.v1 ; : : : ; vk /j definiert, siehe z. B. [1], Abschn. 13.4. Wie Kommentar Ersetzt man von (8.22) ausgehend in der Be-
man schnell einsieht, gilt weisführung k durch die im Maßproblem in Abschn. 8.1
auftretende Funktion k und beachtet, dass k ein bewegungs-
k .P / D j det.v1 ; : : : ; vk /j: (8.21)
invariantes Maß auf P .Rk / sein soll, so ergibt sich wie oben für
Bezeichnet A die aus den Vektoren v1 ; : : : ; vk gebildete Matrix, die Menge K einerseits k .K/ D 1, zum anderen k .K/ D 0.
so ist P D A Œ0; 1k D fAx j x 2 Œ0; 1k g das affine Bild des Die Funktion k kann somit nicht auf der vollen Potenzmenge
k-dimensionalen Einheitswürfels unter der durch A gegebenen von Rk definiert sein, was den nach dem Maßproblem formu-
linearen Abbildung. Nach Teil b) des obigen Satzes gilt dann lierten Satz von Vitali beweist. J
k .P / D det A k .Œ0; 1k / D det A, falls A invertierbar ist,
falls also v1 ; : : : ; vk linear unabhängig sind. Andernfalls ver-
schwindet die rechte Seite von (8.21), aber auch die linke, weil 8.5 Das Maß-Integral
P dann Teilmenge einer .k 1/-dimensionalen Hyperebene ist,
die im Vorgriff auf das erste Beispiel in Abschn. 8.6 eine k - Es sei .˝; A; / ein beliebiger, im Folgenden festgehalte-
Nullmenge ist. J ner Maßraum. Wir stellen uns das Problem, einer möglichst
großen Menge
R A-messbarer numerischer Funktionen f auf
Mithilfe der Translationsinvarianz von k kann leicht die Exis- ˝ ein mit f d bezeichnetes Integral bzgl. zuzuordnen.
tenz nicht Borelscher Mengen nachgewiesen werden. Die Be- Im Spezialfall des Borel-Lebesgue-Maßes wird sich dabei das
weisführung liefert zugleich einen Beweis des Unmöglichkeits- Lebesgue-Integral ergeben.
satzes von Vitali in Abschn. 8.1.
Video 8.6 Aufbau des Maß-Integrals (Grundideen)
Messen von Längen und Flächen zerfällt die Folge .Cn / in Überdeckungsfolgen
P .An / von A
und .Bn / von B, und es ergibt sich 1
nD1 .Cn / ı .A/ C
Es sei .˝; d / ein metrischer Raum. Eine Teilmenge A von ˝
ı .B/, woraus ı .A C B/ ı .A/ C ı .B/ und somit für
heißt offen, wenn es zu jedem u 2 A ein " > 0 gibt, sodass
ı # 0 .A C B/ .A/ C .B/ folgt.
fv 2 ˝ j d .u; v/ < "g A gilt. Die vom System aller of-
fenen Mengen erzeugte -Algebra B heißt -Algebra der Es lässt sich zeigen, dass die -Algebra A. / alle offenen
Borel-Mengen über ˝. Für nichtleere Teilmengen A und Mengen von ˝ und somit die -Algebra B der Borel-
B von ˝ nennt man d .A/ WD supfd .u; v/ j u; v 2 Ag den Mengen enthält. Nach dem Lemma von Carathéodory liefert
Kapitel 8
Durchmesser von A und dist.A; B/ WD inffd .u; v/ j u 2 die Restriktion von auf B ein Maß auf B. Spezialisiert
A; v 2 Bg den Abstand von A und B. man nun diese Ergebnisse auf den Fall M WD fA ˝ j
Ein äußeres Maß W P .˝/ ! Œ0; 1 heißt metrisches d .A/ < 1g und die Mengenfunktion .A/ WD d .A/˛ ,
äußeres Maß, falls .A C B/ D .A/ C .B/ für alle wobei ˛ > 0 eine feste reelle Zahl ist, so entsteht als
A; B ˝ mit A; B ¤ ; und dist.A; B/ > 0 gilt. Restriktion von auf die -Algebra B das mit h˛ bezeich-
nete sog. ˛-dimensionale Hausdorff-Maß. Dieses ist nach
Sind M P .˝/ ein beliebiges Mengensystem mit ; 2 M Konstruktion invariant gegenüber Isometrien, also abstands-
und W M ! Œ0; 1 eine beliebige Mengenfunktion mit erhaltenden Transformationen des metrischen Raums ˝ auf
.;/ D 0, so definiert man für jedes ı > 0 eine Mengen- sich.
funktion ı W P .˝/ ! Œ0; 1 durch
Im Fall ˝ D Rk und der euklidischen Metrik geht die De-
X
1 ˇ [
1 finition von h˛ zurück auf Felix Hausdorff. Dieser konnte
ˇ
ı .A/ WD inf .An /ˇA An ; An 2 M zeigen, dass für die Fälle ˛ D 1, ˛ D 2 und ˛ D k
nD1 nD1 zumindest bei „einfachen Mengen“ A der Wert h˛ .A/ bis
auf einen von k abhängenden Faktor mit den gängigen Aus-
und d .An / ı; n 1 : drücken für Länge, Fläche und k-dimensionalem Volumen
übereinstimmt. Ist speziell A WD f.t / j a t bg das Bild
Die im Zusammenhang mit dem von einer Mengenfunktion einer rektifizierbaren Kurve, also einer stetigen Abbildung
induzierten äußeren Maß angestellten Überlegungen zeigen, W Œa; b ! Rk eines kompakten Intervalls Œa; b, deren mit
dass ı ein äußeres Maß ist. Vergrößert man den Parameter L. / bezeichnete Länge als Supremum der Längen aller
ı in der Definition von ı , so werden prinzipiell mehr Men- einbeschriebenen Streckenzüge endlich ist, so gilt L. / D
gen aus M zur Überdeckung von A zugelassen. Die Funktion h1 .A/. Man beachte, dass im Fall ˛ D 1 die Menge A
ı 7! ı ist somit monoton fallend. Setzt man durch volldimensionale Kugeln überdeckt wird, deren Grö-
ße durch die jeweiligen Durchmesser bestimmt ist. Wie das
.A/ WD sup ı .A/; A ˝; Borel-Lebesgue-Maß sind auch die Hausdorff-Maße h˛ be-
ı>0 wegungsinvariant. Nach dem Satz über die Charakterisierung
von k als translationsinvariantes Maß mit k ..0; 1/k / D 1
so ist W P .˝/ ! R eine wohldefinierte Mengenfunktion ergibt sich somit insbesondere für ˛ D k die Gleichheit
mit ı .;/ D 0, die wegen hk D k k für eine Konstante k , die sich zu k D
! 2k .k=2 C 1/= k=2 bestimmen lässt.
[
1 X
1 X
1
ı An ı .An / .An / Mit dem Hausdorff-Maß h˛ ist auch ein Dimensionsbegriff
nD1 nD1 nD1 verknüpft. Sind A 2 Bk mit h˛ .A/ < 1 und ˇ > ˛,
so gilt hˇ .A/ D 0. Es existiert somit ein eindeutig be-
für jedes ı > 0 ein äußeres Maß darstellt. Die Funktion ist stimmtes .A/ 0 mit h˛ .A/ D 0 für ˛ > .A/ und
sogar ein metrisches äußeres Maß, denn sind A; B ˝ mit h˛ .A/ D 1 für ˛ < .A/. Die Zahl .A/ heißt Hausdorff-
A ¤ ;, B ¤ ; und dist.A; B/ > 0 sowie .A C B/ < 1 Dimension von A. Jede abzählbare Teilmenge von Rk besitzt
(sonst ist wegen der -Subadditivität von nichts zu zei- die Hausdorff-Dimension 0, jede Menge mit nichtleerem In-
gen), so gibt es ein ı mit 0 < ı < dist.A; B/. SSind dann neren die Hausdorff-Dimension k. Die Cantor-Menge C
Cn 2 M mit d .Cn / ı, n 1, und A C B 1 nD1 Cn , so Œ0; 1 hat die Hausdorff-Dimension log 2= log 3.
8.5 Das Maß-Integral 327
Kapitel 8
man diese durch Funktionen mit endlichem Wertebereich ap-
proximiert. Aus .Ai \ Bj / ¤ 0 folgt Ai \ Bj ¤ ; und somit wegen (8.24)
Abschließend löst man sich durch die Zerlegung f D f C ˛i D ˇj . Es ergibt sich also wie behauptet
f einer Funktion in Positiv- und Negativteil von der Nicht- X
m X
m X
n
negativitätsbeschränkung. ˛i .Ai / D ˛i .Ai \ Bj /
i D1 i D1 j D1
Wir betrachten zunächst die Menge
X
m X
n X
n
EC WD ff W ˝ ! R j f 0; f A-messbar; f .˝/ endlichg D ˇj .Ai \ Bj / D ˇj .Bj /:
i D1 j D1 j D1
der sog. Elementarfunktionen auf ˝. Es ist leicht einzusehen,
dass mit f und g auch af (a 2 R0 ), f C g, fg, max.f ; g/
und min.f ; g/ Elementarfunktionen sind. Ist f eine Elementar- Definition des Integrals für Elementarfunktionen
funktion mit f .˝/ D f˛1 ; : : : ; ˛n g, so gilt
X
n Pnf eine Elementarfunktion mit Normaldarstellung f D
Ist
f D ˛j 1fAj g (8.23) j D1 ˛j 1fAj g, so heißt
j D1
Z Z X n
Pn f d WD f d WD .f / WD ˛j .Aj /
mit Aj D f 1 .f˛j g/ 2 A und ˝ D j D1 Aj . Allgemein ˝ j D1
heißt eine Darstellung der Form
P (8.23) mit paarweise disjunkten
Mengen Aj 2 A und ˝ D jnD1 Aj eine Normaldarstellung das (-)Integral von f (über ˝).
von f .
Eine Elementarfunktion kann verschiedene Normaldarstellun-
Kommentar Man beachte, dass das Integral einer Elemen-
gen besitzen. Wichtig für den Aufbau des Integrals ist jedoch die
tarfunktion den Wert 1 annehmen kann. Ist speziell ˝ D R,
folgende Aussage. Sie garantiert, dass die anschließende Defi-
A D B, und sind A1 ; : : : ; An Intervalle, so ist f eine Trep-
nition widerspruchsfrei ist.
penfunktion, die auf dem Intervall Aj den Wert ˛j annimmt
(Abb. 8.12). Ist ˛j D 0, fallsRAj unbeschränkt ist, so beschreibt
Lemma (über Normaldarstellungen) Für je zwei Nor- im Fall D 1 das Integral f d1 anschaulich die (endliche)
maldarstellungen Fläche zwischen dem Graphen von f und der x-Achse. J
X
m X
n
f D ˛i 1fAi g D ˇj 1fBj g (8.24) Selbstfrage 15
i D1 j D1 Warum kann das Integral einer Elementarfunktion den Wert 1
annehmen?
einer Elementarfunktion f gilt
X
m X
n
˛i .Ai / D ˇj .Bj /: J Beispiel Abb. 8.13 zeigt den Graphen einer Elementarfunk-
i D1 j D1 tion im Fall ˝ D R2 , A D B2 . Hier nimmt f über fünf
aneinandergrenzende Rechtecke der Gestalt
P Pn Aj D f.x1 ; x2 / 2 R2 j aj < x1 aj C1 ; 0 < x2 bg
Beweis Wegen ˝ D m i D1 Ai D j D1 Bj erhält man auf-
grund der Additivität von (j D 1; : : : ; 5) jeweils einen konstanten positiven Wert ˛j
an und verschwindet außerhalb der Vereinigung dieser Recht-
X
n
ecke, d. h., es gilt f .x1 ; x2 / D 0, falls .x1 ; x2 / 2 A6 WD
.Ai / D .Ai \ Bj /; S
j D1 R2 n . j5D1 Aj /. Wegen 2 .Aj / D .aj C1 aj /b gilt
X
m Z X 5
.Bj / D .Ai \ Bj /: f d2 D ˛j .aj C1 aj /b;
i D1 j D1
328 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
d. h., das Integral ist gleich dem Rauminhalt, den der Graph von gilt. Konvergiert eine isotone bzw. antitone Folge .fn / punkt-
f mit der .x1 ; x2 /-Ebene einschließt. Hierbei haben wir ange- weise in R gegen eine Funktion f , so schreiben wir hierfür kurz
nommen, dass alle ˛j paarweise verschieden sind, sodass eine
Normaldarstellung für f vorliegt. Das nächste Resultat zeigt, fn " f bzw. fn # f :
dass diese Annahme unnötig ist. J
Satz
"
Satz über die Eigenschaften des Integrals Zu jedem f 2 EC existiert eine isotone Folge .un /n1 aus
EC mit un " f .
Für f ; g 2 EC , A 2 A und ˛ 2 R0 gelten:
R
a) R 1A d D .A/,R
b) R .˛f / d D ˛ Rf d (positive
R Homogenität),
Beweis Wir zerlegen den Wertebereich Œ0; 1 von f in die
c) .f C g/ dR D f d R C g d (Additivität), Intervalle Œj =2n ; .j C 1/=2n/, 0 j n2n 1, sowie Œn; 1
d) f g H) f d g d (Monotonie).
und definieren eine Funktion un , indem wir deren Funktions-
werte auf den Urbildern dieser Intervalle konstant gleich dem
dort jeweils kleinstmöglichen Wert von f setzen. Die Funktion
Beweis Die Regeln a) und b) sind unmittelbar klar. Zum un besitzt also die Darstellung
Nachweis
Pm von c) betrachten
P wir Normaldarstellungen
P f D
X
n 1
X
m X
n X
m X
n
f D ˛i 1fAi \ Bj g; g D ˇj 1fAi \ Bj g; Wegen der Messbarkeit von f liegen die hier auftretenden paar-
i D1 j D1 i D1 j D1 weise disjunkten Mengen in A; die Funktion un ist also eine
(8.25) Elementarfunktion. Nach Konstruktion ist die Folge .un / iso-
ton. Weiter gilt un " f , denn für ein ! mit f .!/ < 1 ist
Pm Pn
und wir erhalten mit f C g D i D1 j D1 .˛i C ˇj /1fAi \ Bj g jun .!/ f .!/j 1=2n für jedes n mit n > f .!/, und im Fall
eine Normaldarstellung von f C g. Es folgt f .!/ D 1 gilt un .!/ D n ! f .!/.
Z X
m X
n
Abb. 8.14 zeigt einen Ausschnitt der Graphen einer quadrati-
.f C g/ d D .˛i C ˇj /.Ai \ Bj / schen Funktion f sowie der approximierenden Elementarfunk-
i D1 j D1 tion u2 wie in (8.26).
X
m X
n X
n X
m
D ˛i .Ai \ Bj / C ˇj .Ai \ Bj / Selbstfrage 16
i D1 j D1 j D1 i D1
Können Sie die Isotonie der Folge .un / beweisen?
X
m X
n
D ˛i .Ai / C ˇj .Bj /
i D1 j D1 Angesichts dieses Resultats bietet es sich an, das Integral über
Z Z
Rf als Grenzwert der monoton wachsenden Folge der Integrale
D f d C g d: un d zu definieren. Hierzu muss sichergestellt sein, dass die-
ser Grenzwert nicht von der speziellen Folge .un / mit un " f
d) ergibt sich aus Darstellung (8.25), denn f g zieht ˛i ˇj abhängt. Diesem Zweck dienen das nächste Lemma und die sich
für jedes Paar i; j mit Ai \ Bj ¤ ; nach sich. anschließende Folgerung.
8.5 Das Maß-Integral 329
"
Aufgrund der Vorüberlegungen ist das Integral auf EC wohlde-
finiert. Da für ein u 2 EC die konstante Folge u; u; : : : isoton
gegen u konvergiert, ist der Integralbegriff für nichtnegative
messbare Funktionen zudem in der Tat eine Erweiterung des In-
tegrals für Elementarfunktionen.
Die Eigenschaften des Integrals für Elementarfunktionen gelten
"
unverändert auch für Funktionen aus EC . So erhält man etwa
die Additivität des Integrals wie folgt:
"
Sind f ; g 2 EC mit un " f , vn " g (un ; vn 2 EC ), so gilt
un C vn " f C g mit un C vn 2 EC . Es ergibt sich
Kapitel 8
Abb. 8.14 Approximation einer quadratischen Funktion f durch u2
.f C g/ D lim .un C vn /
n!1
Lemma Sind .un /n1 eine isotone Folge aus EC und v 2 EC , D lim Œ.un / C .vn /
n!1
so gilt: D lim .un / C lim .vn /
Z Z n!1 n!1
Die Voraussetzung v limn!1 un liefert Bn " ˝, also auch Da die in (8.26) definierte Folge .un / isoton gegen f konver-
Aj \ Bn " Aj .j D 1; : : : ; m/ und somit giert, erhalten wir mit der Kurzschreibweise
Z X
m Xm .a f < b/ WD .fa f < bg/
v d D ˛j .Aj / D lim ˛j .Aj \ Bn /
n!1
j D1 j D1 (analog: .f a/) die folgende Darstellung, die eine explizite
Z Berechnung des Integrals erlaubt.
D lim v 1fBn g d:
n!1
R R Folgerung (Berechnung des Integrals) Ist f eine nicht-
Aus (8.27) folgt limn!1 un d c vd und somit die Be-
negative messbare numerische Funktion auf ˝, so gilt
hauptung, da c < 1 beliebig war.
Z
n2X
n 1
j j j C1
Folgerung Sind .un /, .vn / isotone Folgen von Elementar- f d D lim f < C n.f n/ :
funktionen mit limn!1 un D limn!1 vn , so gilt n!1
j D0
2n 2n 2n
Z Z J
lim un d D lim vn d: J
n!1 n!1
˝ "
EC liefert u d C f d D v d C f C d und somit
wegen (8.28) die Behauptung.
Kommentar
Weil beide Integrale auf der rechten Seite von (8.28) als Satz über Eigenschaften integrierbarer Funktionen
endlich vorausgesetzt sind, ergibt das Integral einer integrier- Es seien f und g integrierbare numerische Funktionen auf
baren Funktion immer einen endlichen Wert. Da jedoch für ˝ und ˛ 2 R. Dann gelten:
jede reelle Zahl x die Rechenoperationen 1 x D 1 und R
x 1 D 1 definiert sind, R macht die Differenz R in (8.28) a) ˛fR und f C g sind integrierbar, wobei .˛f / d D
auch Sinn, wenn entweder f C d D 1 oder f d D ˛
R f d (Homogenität),
R R
1 gilt. In diesem Fall heißt f quasi-integrierbar. .f C g/ d D f d C g d (Additivität),
Man beachte auch, dass die obige Definition mit dem Inte- b) max.f ; g/ und min.f
R ; g/ sind
R integrierbar,
"
gralbegriff auf EC verträglich ist: Es gilt ˇR f ˇ g folgt
c) aus R f d g d (Monotonie),
Z d) ˇ f dˇ jf j d (Dreiecksungleichung).
"
f 2 EC ist integrierbar () f d < 1:
Die schon bei der Definition des Integrals für Elementarfunk- Beweis a) Die erste Behauptung ergibt sich aus .˛f /C D
tionen und nichtnegative messbare Funktionen R eingeführte ˛f C und .˛f / D ˛f für ˛ 0 bzw. .˛f /C D j˛jf und
verwendete Schreibweise .f / anstelle von f d macht .˛f / D j˛jf C für ˛ 0 und der Homogenität des Integrals
eine funktionalanalytische Sichtweise des Integralbegriffs "
deutlich. Wie gleich gezeigt wird (siehe auch den Satz über auf EC . Wegen f C g D f C C g C .f C g / und der In-
die Vektorraumstruktur von Lp zu Beginn von Abschn. 8.7), tegrierbarkeit von u WD f C C g C und v WD f C g folgt die
bildet die mit L1 bezeichnete Menge aller messbaren reellen zweite Aussage aus Teil b) des Satzes über Integrierbarkeitskri-
"
-integrierbaren Funktionen auf ˝ einen Vektorraum über terien und der Additivität des Integrals auf EC . Behauptung b)
R. Auf diesem Vektorraum ist die Zuordnung L1 3 f 7! erhält man aus Teil c) dieses Satzes, denn es gilt j max.f ; g/j
.f / eine positive Linearform, d. h., es gelten für f ; g 2 L1 jf jCjgj und j min.f ; g/j jf jCjgj. Um c) zu zeigen, beachte
und a; b 2 R man, dass f g die Ungleichungen f C g C und f g
nach sich zieht. Die Behauptung folgt dann wegen der Mono-
.af C bg/ D a.f / C b.g/ "
tonie des Integrals auf EC . Die verbleibende Aussage d) ergibt
sowie .f / 0, falls f 0. J sich wegen f jf j und f jf j aus c) mit g WD jf j.
Soll das Integral nur über eine Teilmenge B 2 Bk erfolgen, so In der Folge wird es oft der Fall sein, dass eine Aussage über
kann man wie zu Beginn von Abschn. 8.7 ausgeführt vorgehen eine messbare Funktion f bewiesen werden soll. In Anlehnung
und das Produkt f 1B integrieren, also an den Aufbau des Integrals geht man auch hier in drei Schritten
Z Z Z vor:
f .x/ dx WD f .x/1B .x/ dx WD f 1B dk Zunächst wird die Gültigkeit der Aussage für Elementar-
B funktionen nachgewiesen.
In einem zweiten Schritt beweist man die Aussage für
bilden. Zum anderen kann man die mit Bk bezeichnete Restrik- nichtnegatives f unter Verwendung des Satzes über die
tion von k auf die Spur B \ Bk von Bk in B betrachten und Approximation nichtnegativer messbarer Funktionen durch
die Restriktion fB von f auf B bzgl. Bk integrieren. Dass man Elementarfunktionen.
mit dieser Vorgehensweise ganz allgemein zum gleichen Ziel Schließlich nutzt man die Darstellung f D f C f aus,
Kapitel 8
gelangt, zeigt das folgende Resultat. J um die Aussage für allgemeines f zu beweisen.
Dieses oft algebraische Induktion genannte Beweisprinzip
Satz soll anhand zweier Beispiele vorgestellt werden. Dabei seien
" .˝; A/ ein beliebiger Messraum und f W ˝ ! R eine messba-
Es seien .˝; A; / ein Maßraum und f 2 EC . Für eine re numerische Funktion.
Menge A 2 A bezeichnen A die Restriktion von auf
die Spur--Algebra A \ A von A in A und fA die Re-
striktion von f auf A. Dann ist fA auf A messbar bzgl. Beispiel
A \ A, und es gilt
Es seien !0 2 ˝ und ı!0 das Dirac-Maß in !0 . Dann ist f
Z Z Z genau dann ı!0 -integrierbar, falls jf .!0 /j < 1. In diesem
fA dA D f d WD f 1A d: (8.29) Fall gilt
A Z
f dı!0 D f .!0 /:
In der Analysis wird anstelle des Lebesgue-Integrals häu- und es gilt g f h. Mithilfe des Satzes von der domi-
fig das Riemann-Integral eingeführt. Wir werden sehen, dass nierten Konvergenz ergibt sich
unter allgemeinen Voraussetzungen beide Ansätze zum glei- Z Z
Śk k
chen Ergebnis führen. Sei hierzu Œa; b D j D1 Œaj ; bj lim Un D g d ; lim On D h dk ;
n!1 n!1
mit a < b ein kompakter k-dimensionaler Quader, und sei Œa;b Œa;b
f W Œa; b ! R eine beschränkte, Borel-messbare
R Funkti-
on. Dann existiert das Lebesgue-Integral Œa;b f dk , aber sodass (8.32) die Gleichung
Rb Z
Kapitel 8
m Z D ˛j .f 1 .Aj0 //
X
j D1
˛k;m WD uk dj :
X
n Z
j D1
D ˛j 1ff 1 .Aj0 /g d
Kapitel 8
j D1
Wegen supk1 .supm1 ˛k;m / D supm1 .supk1 ˛k;m / gilt
Z X
n
dann ebenfalls (8.30). Im allgemeinen Fall führe man wie-
der die Zerlegung f D f C f durch. J D ˛j 1ff 1 .Aj0 /g d
j D1
Z
D h ı f d:
Integration bezüglich des Zählmaßes auf N
bedeutet Summation Ist .un / eine Folge von Elementarfunktionen auf ˝ 0 mit un " h,
so ist .un ı f / eine Folge von Elementarfunktionen auf ˝ mit
un ı f " h ı f . Nach dem bereits Bewiesenen ergibt sich
P1 Beispiel speziell .˝; A/ D .N; P .N//
Wählt man im letzten
Z Z Z
und setzt D nD1 ın , so ist das Zählmaß auf N. Eine f f
Funktion f W N ! R ist durch die Folge .f .n//n1 ihrer Funk- h d D lim un d D lim un ı f d
n!1 n!1
tionswerte beschrieben. Es gilt: Z
D h ı f d:
X
1
f ist -integrierbar () jf .n/j < 1: R R R
b)
R Nach a) gilt hC df D hC ı f d und h df D
nD1
h ı f d. Wegen .h ı f /C D hC ı f und .h ı f / D h ı f
folgt die Behauptung.
Im Falle der Integrierbarkeit gilt
Z X
1 Beispiel Wir betrachten den Maßraum .Rk ; Bk ; k / und den
f d D f .n/: Messraum .Rk ; Bk / sowie eine Lebesgue-integrierbare Funkti-
nD1 on f W Rk ! R. Für a 2 Rk bezeichne wie früher Ta W Rk !
Rk die durch Ta .x/ WD x C a, x 2 Rk , definierte Translation
Integration bzgl. des Zählmaßes auf N bedeutet also Summati- um a. Der Transformationssatz liefert
on. Z Z
f dTa .k / D f ı Ta dk ;
Zum Schluss dieses Abschnitts soll das Prinzip der algebrai-
Rk Rk
schen Induktion anhand des wichtigen Transformationssatzes
für Integrale demonstriert werden. was wegen der Translationsinvarianz von k die Gestalt
Z Z
f .x/ dx D f .x C a/ dx; a 2 Rk ;
Transformationssatz für Integrale
Rk Rk
0 0
Es seien .˝; A; / ein Maßraum, .˝ ; A / ein Messraum
annimmt. J
und f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung.
a) Es sei h W ˝ 0 ! R A0 -messbar, h 0. Dann gilt
Z Z 8.6 Nullmengen, Konvergenzsätze
h df D h ı f d: (8.33)
In diesem Abschnitt sei .˝; A; / ein beliebiger Maßraum. Ei-
˝0 ˝ ne Menge A 2 A heißt (-)Nullmenge, falls .A/ D 0 gilt.
Nullmengen sind aus Sicht der Maß- und Integrationstheorie
b) Es sei h W ˝ 0 ! R A0 -messbar. Dann gilt: vernachlässigbar. So werden wir gleich sehen, dass sich das In-
tegral einer Funktion nicht ändert, wenn man den Integranden
h ist f -integrierbar () h ı f ist -integrierbar. auf einer Nullmenge ändert. Man beachte, dass die Betonung
des Maßes bei der Definition einer Nullmenge wichtig ist
In diesem Fall gilt ebenfalls (8.33). und nur weggelassen wird, wenn das zugrunde liegende Maß
unzweideutig feststeht.
334 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Beispiel
Es sei .˝; A/ D .R; B/. Dann ist die Menge A WD R n f0g
Nullmenge bzgl. des Dirac-Maßes ı0 im Nullpunkt, für das
Borel-Lebesgue-Maß 1 gilt jedoch 1 .A/ D 1.
Jede Hyperebene H des Rk ist eine k -Nullmenge, d. h., es
gilt k .H / D 0. Um diesen Sachverhalt einzusehen, kön-
nen wir wegen der Bewegungsinvarianz von k o.B.d.A.
annehmen, dass H zu einer der Koordinatenachsen des Rk
orthogonal ist. Gilt dies etwa für die j -te Koordinatenach-
se, so gibt es ein a 2 R mit H D fx D .x1 ; : : : ; xk / 2
Rk j xj D ag. Als abgeschlossene Menge liegt H in Bk . Abb. 8.15 f ¤ 0 1 -f.ü., aber f D 0 ı0 -f.ü
Kapitel 8
[
1
H .un ; vn ; Satz über die Nullmengen-Unempfindlichkeit des Inte-
nD1 grals
Beweis a): Die Implikation „(H“ folgt aus dem Satz über Beweis Wegen der Isotonie der Folge .fn / existiert (in R)
die Nullmengen-Unempfindlichkeit des Integrals. Die Umkeh- der Grenzwert f WD limn!1 fn als messbare Funktion, und
rung ergibt sich aus der Markov-Ungleichung, indem man dort fn f hat
t RD n1 , n 2 N, setzt. Es folgt dann .ff n1 g/ Z Z
n f d D 0 für jedes n 1 und somit wegen ff > 0g
S 1 1 lim fn d f d (8.36)
nD1 ff n g n!1
X
1
zur Folge. Sei .un;k /k1 eine Folge von Elementarfunktionen
.ff > 0g/ ff n1 g D 0: mit un;k "k!1 fn ; n 1. Setzen wir
nD1
vk WD max.u1;k ; u2;k ; : : : ; uk;k /; k 2 N;
b): Die Markov-Ungleichung mit t DR n, n 2 N, angewendet
Kapitel 8
auf jf j, liefert .fjf j ng/ n1 jf j d. Wegen fjf j D so ist .vk /k1 eine isotone Folge von Elementarfunktionen mit
1g fjf j ng, n 2 N, folgt die Behauptung. vk fk , k 1, also limk!1 vk f . Es gilt aber auch f
limk!1 vk , denn es ist un;k vk für n k und somit
Beispiel Da die Menge Q der rationalen Zahlen abzählbar lim un;k D fn lim vk ; n 2 N:
und damit eine 1 -Nullmenge ist, ist die auch als Dirichletsche k!1 k!1
Sprungfunktion bekannte Indikatorfunktion 1Q W R ! R 1 - R R R
fast überall gleich der Nullfunktion, und somit gilt Es folgt f d D limk!1 vk d limn!1 fn d, was
zusammen mit (8.36) die Behauptung liefert.
Z
1Q d1 D 0: Wendet man den obigen Satz auf die isotone Folge der Partial-
summen der fn an, so ergibt sich:
Im Falle des Zählmaßes auf N und einer nichtnegativen Funk-
tion f W N ! Œ0; 1 gilt Folgerung Für jede Folge .fn /n1 nichtnegativer A-
Z messbarer numerischer Funktionen auf ˝ gilt
X
1
f d D f .n/ D 0 () f 0: Z X
1 1 Z
X
nD1 fn d D fn d: J
nD1 nD1
Hier hat also das Verschwinden des Integrals zur Folge, dass f
identisch gleich der Nullfunktion ist. J Wir wollen uns jetzt von der Isotonie der Funktionenfolge
.fn / lösen. In diesem Zusammenhang ist das folgende, auf den
französischen Mathematiker Pierre Joseph Louis Fatou (1878–
Bei monotoner oder dominierter Konvergenz 1929) zurückgehende Resultat hilfreich.
sind Limes- und Integralbildung vertauschbar
Lemma von Fatou
Der folgende, nach dem italienischen Mathematiker Beppo Levi
(1875–1961) benannte wichtige Satz besagt, dass bei isotonen Es sei .fn /n1 eine Folge nichtnegativer A-messbarer nu-
Folgen nichtnegativer Funktionen Integral- und Limes-Bildung merischer Funktionen auf ˝. Dann gilt
vertauscht werden dürfen. Z Z
lim inf fn d lim inf fn d:
Video 8.7 Der Satz von der monotonen Konvergenz (Beppo n!1 n!1
Levi)
Instrument zur Rechtfertigung der Vertauschung von Limes- Markov-Ungleichung -f.ü. endlich ist und die Menge
und Integral-Bildung im Zusammenhang mit Funktionenfolgen. [
1
N WD ff ¤ lim fn g [ fjfn j > gg [ fg D C1g
n!1
nD1
Satz von der dominierten Konvergenz, H. Lebesgue als Vereinigung abzählbar vieler Nullmengen aufgrund der -
Es seien f ; f1 ; f2 ; : : : A-messbare numerische Funktio- e WD
Subadditivität von eine Nullmenge darstellt. Setzen wir f
nen auf ˝ mit
c e
f 1fN g; f n WD fn 1fN g; n 1; e
c
g WD g 1fN g; so gilt
c
en ! f
f e , jf
en j e
g < 1, und nach dem bereits Gezeigten folgt
f D lim fn -f.ü. .fe/ D limn!1 .f en /. Wegen .f / D .fe/ und .f en / D
n!1
.fn / folgt die Behauptung.
Gibt es eine -integrierbare nichtnegative numerische Video 8.9 Der Satz von der dominierten (majorisierten) Kon-
Funktion g auf ˝ mit der Majorantenbedingung vergenz
jfn j g -f.ü.; n 1;
.g C f / lim inf .g C fn / D .g/ C lim inf .fn / Wie das nachstehende Beispiel zeigt, spielt die Existenz einer
n!1 n!1 „die Folge .fn / dominierenden Majorante“ eine entscheidende
Rolle. J
und somit .f / lim infn!1 .fn / liefern. Andererseits folgt
aus 0 g fn ! g f und dem Lemma von Fatou Beispiel Es seien .˝; A; / D .R; B; 1 / und fn D 1Œn;2n ,
n 2 N. R Dann gilt fn .x/ ! 0 für jedes x 2 R, aber
.g f / lim inf .g fn / D .g/ lim sup .fn / limn!1 fn d1 D 1 (siehe Abb. 8.16). Der Satz von der
n!1 n!1
dominierten Konvergenz ist nicht anwendbar, weil eine inte-
und somit lim supn!1 .fn / .f /. Insgesamt ergibt sich grierbare Majorante g fehlt. Letztere müsste die Ungleichung
wie behauptet .f / D limn!1 .fn /. g 1Œ1;1/ erfüllen, wäre dann aber nicht 1 -integrierbar. J
Um der Tatsache Rechnung zu tragen, dass g auch den Wert 1 Der Satz von der dominierten Konvergenz garantiert, dass wie
annehmen kann und die Konvergenz von fn gegen f sowie die im folgenden Satz unter gewissen Voraussetzungen die Vertau-
Ungleichungen jfn j g nur -fast überall gelten, nutzen wir schung von Differenziation und Integration, also die Differenti-
den Satz über die Nullmengen-Unempfindlichkeit des Integrals ation unter dem Integralzeichen, erlaubt ist.
8.7 Lp -Räume 337
8.7 L p -Räume
Satz über die Ableitung eines Parameterintegrals
Es seien .˝; A; / ein Maßraum, U eine offene Teil- In diesem Abschnitt seien .˝; A; / ein Maßraum und p eine
menge von R und f W U ˝ ! R eine Funktion mit positive reelle Zahl. Mit der Festsetzung j1jp WD 1 betrachten
folgenden Eigenschaften: wir messbare numerische Funktionen
R f auf ˝, für die jf jp -
p
integrierbar ist, für die also jf j d < 1 gilt. Eine derartige
! 7! f .t ; !/ ist -integrierbar für jedes t 2 U , Funktion heißt
t 7! f .t ; !/ ist auf U differenzierbar für jedes ! 2 ˝;
die Ableitung werde mit @ t f .t ; !/ bezeichnet, p-fach (-)integrierbar. Im Fall p D 2 spricht man auch von
es gibt eine -integrierbare Funktion h W ˝ ! R mit quadratischer Integrierbarkeit. Für eine solche Funktion set-
zen wir
Z 1=p
Kapitel 8
j@ t f .t ; !/j h.!/; ! 2 ˝; t 2 U : (8.37)
kf kp WD jf jp d : (8.39)
Dann ist die durch
Z
'.t / WD f .t ; !/ .d!/ (8.38) Eine messbare numerische Funktion f heißt -fast überall be-
schränkt, falls eine Zahl K mit 0 K < 1 existiert, sodass
definierte Abbildung ' W U ! R differenzierbar. Wei- .fjf j > Kg/ D 0 gilt. In diesem Fall setzen wir
ter ist für jedes t 2 U die Funktion ! 7! @ t f .t ; !/
-integrierbar, und es gilt kf k1 WD inf fK > 0 j .fjf j > Kg/ D 0g
Z
und nennen kf k1 das wesentliche Supremum von f . Man
' 0 .t / D @ t f .t ; !/ .d!/: beachte, dass die Größen kf kp und kf k1 (eventuell mit dem
Wert 1) für jede messbare numerische Funktion auf ˝ erklärt
sind.
Beweis Es seien t 2 U fest und .tn / eine Folge in U mit
tn ¤ t für jedes n sowie tn ! t . Setzen wir Beispiel Es seien .˝; A; / D .R; B; 1 / und a 2 R mit
a > 0. Dann ist die durch f .x/ WD 1=x a für x 1 und
f .tn ; !/ f .t ; !/
fn .!/ WD ; ! 2 ˝; f .x/ WD 0 sonst definierte Funktion p-fach 1 -integrierbar,
tn t falls ap > 1. In diesem Fall ist
so gilt fn .!/ ! @ t f .t ; !/ aufgrund der Differenzierbarkeit der
0 11 =p
Funktion t ! f .t ; !/. Als punktweiser Limes Borel-messbarer Z1
1
Funktionen ist ! ! @ t f .t ; !/ Borel-messbar. Nach dem Mit- kf kp D @ dx A D .ap 1/1=p :
telwertsatz und (8.37) gilt jfn .!/j D j@ t f .sn ; !/j h.!/ mit x ap
1
einem Zwischenpunkt sn , wobei jsn t j jtn t j. Die Linea-
rität des Integrals und der Satz von der dominierten Konvergenz Die durch g.x/ WD 1, falls x 2 Q, und g.x/ WD 1 sonst de-
liefern dann finierte Funktion ist wegen 1 .jgj > 1/ D 1 .Q/ D 0 (siehe
Z Z
'.tn / '.t / Aufgabe 8.15) 1 -fast überall beschränkt, und es gilt kgk1 D 1.
D fn d ! @ t f .t ; !/ .d!/;
tn t J
was zu zeigen war.
Im Folgenden bezeichnen
In gleicher Weise zeigt man die Stetigkeit von Parameterinte- ˚ ˇ
gralen: Lp WD Lp .˝; A; / WD f W ˝ ! Rˇ kf kp < 1
˚ ˇ
L1 WD L1 .˝; A; / WD f W ˝ ! R ˇ kf k1 < 1
Satz über die Stetigkeit eines Parameterintegrals
die Menge der p-fach integrierbaren bzw. der -fast überall
In der Situation des vorigen Satzes gelte: beschränkten reellen messbaren Funktionen auf ˝.
! 7! f .t ; !/ ist -integrierbar für jedes t 2 U ,
t 7! f .t ; !/ ist stetig für jedes ! 2 ˝, Satz über die Vektorraumstruktur von L p
es gibt eine -integrierbare Funktion h W ˝ ! R mit
jf .t ; !/j h.!/ für jedes ! 2 ˝ und jedes t 2 U . Für jedes p mit 0 < p 1 ist die Menge Lp (mit der
Addition von Funktionen und der skalaren Multiplikation)
Dann ist die in (8.38) erklärte Funktion stetig auf U . ein Vektorraum über R.
Selbstfrage 18
Können Sie dieses Ergebnis beweisen? Beweis Offenbar gehört für jedes p 2 .0; 1 und jedes
˛ 2 R mit einer Funktion f auch die Funktion ˛f zu Lp . Des
338 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Selbstfrage 19
Warum gilt die letzte Ungleichung?
xp yq
xy C : (8.41)
p q Minkowski-Ungleichung
Zum Beweis bemerken wir, dass (8.41) im Fall fx; yg \ Es seien f ; g messbare numerische Funktionen auf ˝.
f0; 1g ¤ ; trivialerweise erfüllt ist. Für den Fall 0 < x; y < 1 Dann gilt für jedes p mit 1 p 1:
folgt die Behauptung aus Abb. 8.17, wenn beide Seiten von
(8.41) als Flächen gedeutet werden. Beachten Sie hierzu die Be- kf C gkp kf kp C kgkp : (8.44)
dingung 1=p C 1=q D 1.
8.7 Lp -Räume 339
Beweis Es sei zunächst p < 1 vorausgesetzt. Wegen kf C Die Räume L p .˝; A; / sind vollständig
gkp kjf j C jgjkp kann o.B.d.A. f 0, g 0 angenommen
werden. Für p D 1 steht dann in (8.44) das Gleichheitszeichen, Nach diesen Betrachtungen drängt sich der folgende Konver-
also sei fortan p > 1. Weiter sei o.B.d.A. kf kp < 1, kgkp < genzbegriff für Funktionen im Raum Lp geradezu auf.
1 und somit kf C gkp < 1. Nun gilt mit q1 WD 1 p1 und der
Hölder-Ungleichung
Z Definition der Konvergenz im p-ten Mittel
.f C g/p d Es sei 0 < p 1. Eine Folge .fn /n1 aus Lp kon-
Z Z vergiert im p-ten Mittel gegen f 2 Lp (in Zeichen:
Lp
D f .f C g/p1 d C g.f C g/p1 d fn ! f /, falls gilt:
Kapitel 8
kf kp k.f C g/p1 kq C kgkp k.f C g/p1 kq lim kfn f kp D 0:
Z 1=q n!1
D .kf kp C kgkp / .f C g/.p1/q d ;
Für p D 1 bzw. p D 2 sind hierfür auch die Sprech-
weisen Konvergenz im Mittel bzw. im quadratischen Mittel
was wegen .p 1/q D p die Behauptung liefert. Der Fall p D gebräuchlich.
1 folgt aus der für jedes positive " gültigen Ungleichung
Ist 0 < p 1, so gilt für messbare numerische Funktionen f Das folgende Beispiel zeigt, dass eine im p-ten Mittel kon-
und g die Ungleichung vergente Folge für den Fall p < 1 in keinem Punkt aus ˝
konvergieren muss. Dies gilt jedoch nicht im Fall p D 1. So
Z Z Z werden wir im Beweis des Satzes von Riesz-Fischer sehen, dass
jf C gjp d jf jp d C jgjp d (8.45) kfn f k1 ! 0 die gleichmäßige Konvergenz von fn gegen f
außerhalb einer -Nullmenge bedeutet.
(Aufgabe 8.11). Wie das folgende Beispiel zeigt, ist jedoch im
Fall 0 < p < 1 die Dreiecksungleichung (8.44) i. Allg. nicht Beispiel Sei ˝ WD Œ0; 1/, A WD ˝ \ B, WD 1˝ , fn WD
erfüllt.
1fAn g mit An WD Œj 2k ; .j C 1/2k / für n D 2k C j , 0 j <
2k , k 2 N0 . Für jedes p 2 Œ1; 1/ gilt
Beispiel Es sei .˝; A; / D .R; B; 1 / sowie f D 1Œ0;1/ und Z Z
g D 1Œ1;2/. Dann gilt für jedes p 2 .0; 1/
fnp d D fn d D .An / D 2k
Z Z Z
jf jp d D 1 D jgjp d; jf C gjp d D 2 Lp
und somit fn ! 0. Die Folge .fn / ist also insbesondere eine
und somit im Fall p < 1 Cauchy-Folge in Lp . Offenbar konvergiert jedoch .fn .!//n1
für kein ! aus Œ0; 1/, da für jede Zweierpotenz 2k das Intervall
21=p D kf C gkp > kf kp C kgkp D 2: J Œ0; 1/ in 2k gleich lange Intervalle zerlegt wird und jedes ! 2
Œ0; 1/ in genau einem dieser Intervalle liegt. Für jedes ! gilt also
lim supn!1 fn .!/ D 1 und lim infn!1 fn .!/ D 0. J
Kommentar Aus der Minkowski-Ungleichung folgt die
schon weiter oben erwähnte Tatsache, dass die Menge Lp , ver-
sehen mit der Abbildung f 7! kf kp , für jedes p mit 1 p
1 ein halbnormierter Vektorraum ist. Wie obiges Beispiel zeigt,
gilt dies nicht für den Fall p < 1. Für diesen Fall zeigt aber Un-
gleichung (8.45), dass die Menge Lp , versehen mit der durch
Z
dp .f ; g/ WD jf gjp d D kf gkpp (8.46)
rung gilt.
Aus obigen Beweis ergibt sich unmittelbar das folgende, auf
Satz von Riesz-Fischer (1907) Hermann Weyl (1885–1955) zurückgehende Resultat.
Kapitel 8
ist. Aus dem Satz von Riesz-Fischer erhalten wir somit folgen-
den Satz. J In diesem Abschnitt sei .˝; A; / ein beliebiger Maßraum.
Bislang haben wir das Integral einer auf ˝ definierten A-
messbaren integrierbaren numerischen Funktion f stets über
Satz über die Banachraumstruktur von Lp , p 1 dem gesamten Grundraum ˝ betrachtet. Ist A 2 A eine mess-
bare Menge, so definiert man das -Integral von f über A
Für 1 p 1 ist der Raum Lp der Äquivalenzklassen
durch
-f.ü. gleicher Funktionen bzgl. k kp ein vollständiger Z Z
normierter Raum und somit ein Banach-Raum, und für
0 < p < 1 ist das Paar .Lp ; dp / ein vollständiger me- f d WD f 1A d; (8.49)
trischer Raum. A
Das durch (8.50) definierte Maß heißt Maß mit der Dichte f sowie f .x/ WD 0, x 2 R n f0; 1; : : : ; ng, setzt, und die Poisson-
bzgl. ; es wird in der Folge mit Verteilung Po./ ergibt sich für
DW f k
f .k/ WD e ; k 2 N0 ;
bezeichnet. Man beachte, dass nach dem Satz über die kŠ
Nullmengen-Unempfindlichkeit des Integrals der Integrand f in und f .x/ WD 0, x 2 R n N0 . Allgemein nennt man f eine
(8.50) auf einer Nullmenge abgeändert werden kann, ohne das Zähldichte, wenn ein Zählmaß auf einer abzählbaren Menge
Maß zu verändern, denn f D g -f.ü. hat für jedes A 2 A ist.
f 1A D g1A -f.ü. zur Folge. Die Dichte f kann also nur -
fast überall eindeutig bestimmt sein. Wie das folgende Beispiel Ist D 1 das Borel-Lebesgue-Maß im R1 , so erhält man für
die Wahl
Kapitel 8
Satz über die Eindeutigkeit der Dichte Schreiben wir B.x; r/ WD fy 2 Rk j kx yk < rg für die Kugel
mit Mittelpunkt x und Radius r, so folgen hieraus für jedes r
Es seien f und g nichtnegative messbare numerische mit r ı die Ungleichungen
Funktionen mit f D g. Sind f oder g -integrierbar, R
so gilt f D g -fast überall. 1
B.x;r/ f d
f .x/ " f .x/ C ":
k .B.x; r//
R
Beweis Da " > 0 beliebig war, ergibt sich
R R f d < 1 und f D g. Wegen g 0
Es sei
und g d D f d ist auch g integrierbar. Sei N WD ff > R 1
gg und h WD f 1N g1N . Die Ungleichungen f 1N f und B.x;"/ f d
f .x/ D lim : (8.51)
g1N g zeigen, dassR auch f 1N Rund g1N integrierbar sind. "#0 k .B.x; "//
Aus f D g folgt f 1N d D g1N d und somit
Z Z Z Interpretieren wir mit einer Lebesgue-Dichte f eine (bei
h d D f d g d D 0: nichtkonstantem f ) inhomogene Masseverteilung im k-
dimensionalen Raum, so können wir demnach den Wert f .x/ in
N N
einem Stetigkeitspunkt x von f als „lokale Dichte Rim Punkt x“
Wegen N D fh > 0g und h 0 liefert Folgerung a) aus der ansehen. Diese ergibt sich, wenn man die Masse B.x;"/ f dk
Markov-Ungleichung .N / D 0. Aus Symmetriegründen gilt einer Kugel um x mit Radius " durch das k-dimensionale Volu-
.fg > f g/ D 0, also insgesamt .ff ¤ gg/ D 0. men
k=2
Kommentar Mit der Konstruktion (8.50) besitzen wir ein k .B.x; "// D "k
schlagkräftiges Werkzeug, um aus einem RMaß ein neues .1 C k=2/
Maß zu konstruieren. Gilt insbesondere f d D 1, so ist
ein Wahrscheinlichkeitsmaß auf A. Diese Sichtweise ist so dieser Kugel teilt und deren Radius " gegen null schrumpfen
allgemein, dass sich alle in den Kap. 4 und 5 vorgestellten Ver- lässt. Dabei gilt die Aussage (8.51) sogar k -fast überall (siehe
teilungen als Spezialfälle subsumieren lassen. Wählt man etwa die Hintergrund-und-Ausblick-Box über absolute Stetigkeit und
im Fall .˝; A/ D .R; B/ für das Zählmaß auf N0 , so entsteht Singulariät von Borel-Maßen im Rk in Abschn. 8.8). J
die Binomialverteilung Bin.n; p/, wenn man
Da wir mithilfe von und der Dichte f ein neues Maß gewon-
!
n k nen haben, existiert auch ein -Integral für messbare numerische
f .k/ WD p .1 p/nk ; k D 0; 1; : : : ; n; Funktionen auf ˝. Dass wir beim Aufbau dieses Integrals vom
k
-Integral profitieren können, zeigt der folgende Satz.
8.8 Maße mit Dichten 343
Kapitel 8
b) Für eine A-messbare Funktion ' W ˝ ! R gilt:
Sind und endliche Maße auf A mit , also
' ist -integrierbar () 'f ist -integrierbar: .A/ .A/, A 2 A, so gibt es eine messbare Funk-
tion h W ˝ ! Œ0; 1 mit D h.
In diesem Fall gilt auch (8.52).
Fall, dass das Maß endlich ist und nehmen zunächst an, dass dass T .k / D jdet Aj1 k gilt, falls T eine affine Abbildung
auch ein endliches Maß ist. Setzen wir WD C , so ist der Gestalt T .x/ D Ax C a mit einer regulären Matrix A ist.
ein endliches Maß auf A, und es gelten sowohl als auch Die konstante Dichte f D 1Rk geht also unter einer solchen
. Nach dem Lemma (mit D bzw. D ) existieren Abbildung in die konstante Dichte jdet Aj1 1Rk über. Natürlich
messbare Funktionen g; h W ˝ ! Œ0; 1 mit DRg und D wird man an die Abbildung T gewisse Regularitätsbedingungen
h. Für die Menge N WD fg D 0g gilt .N / D N g d D 0, stellen müssen, damit das Maß T ./ überhaupt absolut stetig
und damit folgt wegen auch .N / D 0. Wir definieren bzgl. k ist. Ist der Wertebereich T .Rk / eine k -Nullmenge, so
jetzt eine Funktion f W ˝ ! R durch ist z. B. letztere Bedingung nur erfüllt, wenn das Nullmaß ist,
also .B/ D 0 für jedes B 2 Bk gilt.
h.!/
f .!/ WD ; falls g.!/ > 0;
g.!/
Kapitel 8
die rechte Seite von (8.55) als Funktion von O ein mit be- Kommentar Der obige Transformationssatz besagt also,
zeichnetes Maß auf Bk mit der durch dass unter den gemachten Voraussetzungen für jede Borel-
Menge B die Gleichung
1 Z Z
g.y/ WD f .T 1 .y// ; y 2 Rk ; (8.56)
j det T 0 .T 1 .y//j f .x/ dx D g.y/ dy
T 1 .B/ B
definierten Dichte g darstellt und die Maße T ./ und nach
(8.55) auf dem Mengensystem Ok übereinstimmen. Nach dem 1
erfüllt ist. Dabei ist T .B/ das Urbild von B unter T , und g ist
Eindeutigkeitssatz für Maße gilt somit D T ./. Wir haben al- wie oben definiert. Diese Gleichung geht mit h WD f , T WD 1
so mit der in (8.56) definierten Funktion eine Lebesgue-Dichte und U WD B formal in (8.53) über. J
von T ./ gefunden und somit unser eingangs gestelltes Prob-
lem für den Fall gelöst, dass T ganz Rk bijektiv auf sich
Kapitel 8
Beispiel (Box-Muller-Methode) Es seien k D 2 und
abbildet. U WD .0; 1/2 sowie f D 1U die Dichte der Gleichverteilung
Häufig liegt jedoch eine Transformation T W U ! V vor, die auf dem offenen Einheitsquadrat. Die Borel-messbare Abbil-
nur einen C 1 -Diffeomorphismus zwischen zwei offenen echten dung T W R2 ! R2 sei durch
p p
Teilmengen U und V des Rk darstellt. Solange die Lebesgue- T .x/ WD 2 log x1 cos.2x2 /; 2 log x1 sin.2x2 / ;
Dichte f von außerhalb von U verschwindet, also ff > 0g
U gilt, ist das kein Problem. Man ergänzt die auf U definierte falls x D .x1 ; x2 / 2 U , und T .x/ WD 0 sonst definiert. Die
Transformation T durch eine geeignete Festsetzung auf Rk n U Restriktion von T auf U ist stetig differenzierbar, und sie bildet
(z. B. T .x/ WD 0, x 2 Rk n U ) zu einer (der Einfachheit halber U bijektiv auf die geschlitzte Ebene V WD R2 n f.y1 ; y2 / 2
ebenfalls mit T bezeichneten) auf ganz Rk definierten Borel- R2 W y1 0; y2 D 0g ab. Eine direkte Rechnung ergibt weiter
messbaren Abbildung. Wegen ff > 0g U gilt .Rk nU / D 0 det T 0 .x/ D .2/=x1 , x 2 U , und somit det T 0 .x/ ¤ 0, x 2
und T ./.Rk n V / D .T 1 .Rk n V // D 0, sodass die Maße U . Mit y WD .y1 ; y2 / WD T .x1 ; x2 / gilt x1 D exp. 12 .y12 Cy22 //.
bzw. T ./ auf den Mengen U bzw. V konzentriert sind. Ist Nach dem Transformationssatz ist
ˇ ˇ1 Y
dann O eine beliebige offene Teilmenge von V , so hat (8.55) un- ˇ 2 ˇ 2
1
ˇ
g.y1 ; y2 / D ˇ ˇ D p exp.yj2 =2/
verändert Gültigkeit. Mit dem Eindeutigkeitssatz für Maße gilt 1
exp. 2 .y12 C y22 // ˇ
dann (8.55) für jede Borelsche Teilmenge von V . Definiert man j D1
2
jetzt eine Funktion g.y/ auf Rk durch die Festsetzung (8.56) für .y1 ; y2 / 2 V und g.y1 ; y2 / WD 0 sonst eine 2 -Dichte von
für y 2 V und g.y/ WD 0 für y 2 Rk n V , so folgt für jede T .f 2 /. Da f.y1 ; y2 / 2 R2 W y1 0; y2 D 0g eine 2 -
Borel-Menge B 2 Bk Nullmenge ist, ist auch g.y1 ; y2 / WD '.y1 /'.y2 /, .y1 ; y2 / 2 R2 ,
eine 2 -Dichte von T .f 2 /. Dabei ist ' die in (5.4) definierte
T ./.B/ D T ./.B \ V / C T ./.B \ .Rk n V // Dichte der Standardnormalverteilung.
Z
1
D f .T 1 .y// dy C 0 Die Abbildung T ist im Wesentlichen eine Transformation auf
j det T 0 .T 1 .y//j Polarkoordinaten. In der Stochastik dient sie einer einfachen Er-
B\V
Z zeugung von standardnormalveteilten Pseudozufallszahlen y1 ,
D g.y/ dy; y2 aus gleichverteilten Pseudozufallszahlen x1 und x2 (siehe die
B Hintergrund-und-Ausblick-Bos über den linearen Kongruenzge-
nerator in Abschn. 5.2) und wird dort auch Box-Muller-Methode
sodass g eine Lebesgue-Dichte von darstellt. Diese Überle- genannt. J
gungen münden in den folgenden Satz.
Die Eigenschaft besagt, dass sich das Maß dem Maß
in dem Sinne unterordnet, dass die -Nullmengen auf jeden Fall
auch -Nullmengen sind. Eine andere Beziehung, in der zwei Ma-
Transformationssatz für k -Dichten ße zueinander stehen können, ist die gegenseitige Singularität.
Es sei D f k ein Maß auf Bk . Die Dichte f ver-
schwinde außerhalb einer offenen Menge U ; es gelte
also ff > 0g U . Weiter sei T W Rk ! Rk eine Gegenseitig singuläre Maße leben
Borel-messbare Abbildung, deren Restriktion auf U stetig auf disjunkten Mengen
differenzierbar sei, eine nirgends verschwindende Funk-
tionaldeterminante besitze und U bijektiv auf eine Menge
V Rk abbilde. Dann ist die durch Definition der gegenseitigen Singularität von Maßen
( Zwei Maße und auf einer -Algebra A P .˝/ hei-
f .T 1 .y//
; falls y 2 V ; ßen (gegenseitig) singulär (in Zeichen : ?/, falls gilt:
g.y/ WD j det T 0 .T 1 .y//j
0; falls y 2 Rk n V ; Es existiert eine Menge A 2 A mit
Obwohl die Relation „?“ symmetrisch ist, sind hierbei auch oben und a sowie s ? an. Wegen s ? existiert eine
die Sprechweisen ist singulär bzgl. bzw. ist singulär -Nullmenge N mit s .˝ n N / D 0, also
bzgl. gebräuchlich. Im Fall .˝; A/ D .Rk ; Bk / steht die
Sprechweise ist singulär kurz für die Singularität von bzgl. s .A/ D s .A \ N /; A 2 A: (8.58)
des Borel-Lebesgue-Maßes k . Die Singularität von bzgl.
bedeutet anschaulich, dass und „auf disjunkten Mengen le- Setzen wir N0 WD N [N , so gilt wegen N0 2 N und a ,
ben“. Gilt ? und , so folgt aus (8.57) die Beziehung a die Beziehung a .A\N0 / D a .A\N0 / D 0; A 2 A:
.A/ D .˝ n A/ D 0, also D 0. In diesem Sinne sind Hieraus folgt mit (8.58)
die beiden Begriffe absolute Stetigkeit und Singularität diame-
tral zueinander. .A \ N0 / D s .A \ N0 / D s .A \ N0 \ N /
D s .A \ N / D s .A/; A2A
Kapitel 8
Es sei ein beliebiges -endliches Maß auf der Borel- sein muss, erhebt sich die Frage, ob es überhaupt Punkte x
schen -Algebra Bk . Wir stellen uns die Aufgabe, und das mit der Eigenschaft (8.61) gibt. Dass dies stets der Fall ist,
Borel-Lebesgue-Maß k miteinander zu vergleichen. Da der besagt ein berühmtes Resultat von Lebesgue, wonach (8.61)
Quotient .B/=k .B/ für eine Borel-Menge B mit k .B/ > für k -fast alle x gilt.
0 die – physikalisch betrachtet – durch gegebene „Mas-
se“ von B in Beziehung zum k-dimensionalen Volumen von Ist das Maß diskret in dem Sinne, dass .fxj g/ > 0, j 1,
B setzt, also die „-Masse-Dichte von B“ darstellt, liegt es für eine abzählbare Teilmenge B D fx1 ; x2 ; : : :g Rk so-
nahe, die Menge B zu einem Punkt x „zusammenschrump- wie .Rk n B/ D 0 gelten, so ist singulär bzgl. k , und es
Kapitel 8
fen zu lassen“, um so eine lokale Dichte von bzgl. k an gilt
der Stelle x zu erhalten. Bezeichnen k k die Euklidische (
Norm in Rk und B.x; r/ D fy 2 Rk W kx yk < rg 0; falls x … B
die k-dimensionale Kugel um x mit Radius r, so heißt der .D/.x/ D (8.62)
1 sonst,
Grenzwert
.B.x; r// also insbesondere D D 0 k -f.ü. und D D 1 -f.ü.
.D/.x/ WD lim (8.60)
r!0 k .B.x; r//
Ein einfaches nicht diskretes singuläres Maß bzgl. k ist
(im Falle seiner Existenz) die symmetrische Ableitung oder im Fall k 2 das Bildmaß T .1 / von 1 unter der Abbil-
lokale Dichte von
bzgl. k an der Stelle x. Hierbei ist dung T W R1 ! Rk , x 7! .x; 0; : : : ; 0/, also die Übertragung
k .B.x; r// D k=2 r k = .1 C k=2/. des Borel-Lebesgue-Maßes im R1 auf die erste Koordinaten-
achse im Rk . Wegen k .T .R1 // D 0 gilt T .1 /?k sowie
Offenbar existiert .D/.x/ als uneigentlicher Grenzwert (8.62) mit T .k / und T .R1 / anstelle von bzw. B.
C1, falls .fxg/ > 0 gilt, also eine Punktmasse an der
Stelle x besitzt. Ist absolut stetig bzgl. k mit Radon- Ein auch historisch wichtiges nicht diskretes singuläres
Nikodým-Dichte (Lebesgue-Dichte) f , so gilt (vgl. (8.51)) Wahrscheinlichkeitsmaß P auf B ist die Cantor-Verteilung.
für jeden Stetigkeitspunkt x von f die Beziehung Die zugehörige stetige maßdefinierende Funktion, die um die
Festsetzungen F .x/ WD 1 für x > 1 und F .x/ WD 0 für x <
f .x/ D .D/.x/: (8.61) 0 zu einer auf ganz R1 definierten Funktion ergänzt wird,
heißt Cantorsche Verteilungsfunktion oder Teufelstreppe.
Wir können folglich mit einer Lebesgue-Dichte f zumindest Sie kann als gleichmäßiger Limes von stetigen Funktionen
in deren Stetigkeitspunkten die mithilfe von (8.60) gegebe- auf Œ0; 1 konstruiert werden und ist in Abb. 5.6 skizziert. Da
ne anschauliche Vorstellung des „lokalen Verhältnisses von F außerhalb der eine 1 -Nullmenge darstellenden überab-
-Masse pro Volumen“ verbinden. Da f jedoch – wie das zählbaren Cantor-Menge C konstant ist, gilt P .C / D 1 und
Beispiel f D 1fRk n Qk g/ zeigt – in keinem Punkt stetig somit P ?1 .
Y
n
.A1 : : : An / D j .Aj / (8.63) Abb. 8.19 !1 - und !2 -Schnitt einer Menge
Kapitel 8
j D1
für beliebige Mengen Aj aus Aj .j D 1; : : : ; n/ gibt. zum Ziel zu kommen. Man hält also zunächst !1 fest, bildet das
Im Falle der eingangs angesprochenen Flächenmessung ist 2 -Maß der auch als !1 -Schnitt von Q bezeichneten und in
.˝j ; Aj ; j / D .R; B; 1 /, j D 1; 2. Sind A1 und A2 be- Abb. 8.19 links skizzierten Menge
schränkte Intervalle, so bedeutet der Ansatz (8.63) gerade, die
Fläche des Rechtecks A1 A2 mit den Grundseiten A1 und A2 !1 Q WD f!2 2 ˝2 j .!1 ; !2 / 2 Qg (8.65)
zu bilden, indem man die Längen dieser Seiten miteinander mul-
tipliziert. und integriert diese von !1 abhängenden Maße 2 .!1 Q/ bzgl.
1 über !1 . Symmetrisch dazu könnte man auch zunächst !2
Die Frage nach der Eindeutigkeit von kann sofort mithilfe des
festhalten, das 1 -Maß des sog. !2 -Schnitts
Eindeutigkeitssatzes für Maße beantwortet werden.
Q!2 WD f!1 2 ˝1 j .!1 ; !2 / 2 Qg (8.66)
Satz über die Eindeutigkeit des Produktmaßes
von Q (Abb. 8.19 rechts) betrachten und dann das Integral
1 ; : : : ; n -endlich, so gibt es höchstens
Sind die Maße N Z
ein Maß auf jnD1 Aj mit der Eigenschaft (8.63). 1 .Q!2 /2 .d!2 / (8.67)
˝2
Beweis Wegen der -Endlichkeit von j ist das \-stabile bilden. Es wird sich zeigen, dass dieser Ansatz zum Ziel führt,
Mengensystem Mj WD fM 2 Aj j j .M / < 1g ein Erzeu- und dass die Integrale in (8.64) und (8.67) den gleichen Wert
ger von Aj .j D 1; : : : ; n/. Da allgemein liefern. Zunächst sind jedoch einige technische Feinheiten zu
beachten. So müssen die !1 - und !2 -Schnitte einer Menge
0 1 0 1 Q 2 A1 ˝ A2 in A2 bzw. A1 liegen, damit die entsprechen-
ą
n ą
n ą
n
@ Ej A \ @ Fj A D .Ej \ Fj / den Maße dieser Mengen erklärt sind. Des Weiteren müssen die
j D1 j D1 j D1
Funktionen ˝1 3 !1 7! 2 .!1 Q/ und ˝2 3 !2 7! 1 .Q!2 /
A1 - bzw. A2 -messbar sein, damit die Integrale in (8.64) und
gilt, ist auch das Mengensystem MN WD M1 Mn \-stabil. (8.67) wohldefiniert sind. Diesem Zweck dienen die beiden fol-
Nach Aufgabe 8.49 gilt .M/ D jnD1 Aj . Da M eine Folge genden Hilfssätze.
.Bk /k1 mit Bk " ˝1 ˝n bei k ! 1 enthält, ergibt sich
die Behauptung aus dem Eindeutigkeitssatz für Maße. Lemma (über Schnitte) Aus Q 2 A1 ˝ A2 folgt !1 Q 2
A2 für jedes !1 2 ˝1 und Q!2 2 A1 für jedes !2 2 ˝2 . J
für A1 ˝1 und A2 ˝2 ist A eine -Algebra über ˝ Beweis Wie früher sei sQ .!1 / WD 2 .!1 Q/ gesetzt. Wegen
mit H WD fA1 A2 j A1 2 A1 , A2 2 A2 g A. Wegen sQ 0 und dem obigen Lemma ist die Funktion
.H / D A1 ˝ A2 A folgt die Behauptung für !1 -Schnitte. Z
Die Betrachtungen für !2 -Schnitte sind analog. .Q/ WD sQ d1 ; Q 2 A1 ˝ A2 ;
Lemma (über die Messbarkeit der Schnitt-Maße) Sind wohldefiniert. Es gilt s; 0 und somit .;/ D 0. Sind
die Maße 1 und 2 -endlich, so gilt für jedes Q 2 A1 ˝ A2 : Q1 ; Q2 ; : : : paarweise disjunkte Mengen aus A1 ˝ A2 , so lie-
Die (aufgrund des obigen Lemmas wohldefinierten) Funktionen P
fern sP1 D 1 nD1 sQn und P
die Folgerung aus dem Satz von
nD1 Qn P1
˝1 3 !1 7! 2 .!1 Q/; ˝2 3 !2 7! 1 .Q!2 / der monotonen Konvergenz . 1 nD1 Qn / D nD1 .Qn /. Al-
so ist ein Maß. Wegen sA1 A2 D 2 .A2 /1fA1 g gilt (8.70).
sind A1 - bzw. A2 -messbar. J Ebenso definiert
Kapitel 8
Z
Beweis Wir schreiben kurz sQ .!1 / WD 2 .!1 Q/ und nehmen e
.Q/ WD 1 .Q!2 / 2 .d!2 /
zunächst 2 .˝2 / < 1 an. Das Mengensystem
ein Maß e
auf A1 ˝ A2 mit der Eigenschaft (8.70). (8.71) gilt,
D WD fD 2 A1 ˝ A2 j sD ist A1 -messbarg
da und e
nach dem Eindeutigkeitssatz für Maße übereinstim-
ist ein Dynkin-System, was man wie folgt einsieht: Wegen s˝ men.
2 .˝2 / gilt zunächst ˝ 2 D, da konstante Funktionen messbar
sind. Sind D; E 2 D mit D E, so folgt wegen !1 .E n D/ D Beispiel (Es gilt kCs D k ˝ s ) Für x D .x1 ; : : : ; xkCs /,
!1 E n !1 D und !1 D !1 E die Gleichheit sEnD D sE sD . Da y D .y1 ; : : : ; ykCs / 2 RkCs mit x y sei A1 WD
Śk ŚkCs
die Differenz messbarer FunktionenPmessbar ist, gehört E n D
j D1 .xj ; yj , A2 WD j DkC1 .xj ; yj . Nach (8.70) gilt für das
zu D. Nach (8.68) gilt sP1nD1 Dn
D 1 nD1 sDn für eine disjunkte Produktmaß k ˝ s auf Bk ˝ Bs (D BkCs )
Vereinigung
P1 von Mengen aus D , sodass D auch die Vereinigung
nD1 Dn enthält. Folglich ist D ein Dynkin-System. k ˝ s ..x; y/ D k ˝ s .A1 A2 /
Mit (8.69) ergibt sich sA1 A2 D 2 .A2 /1fA1 g, was bedeutet, D k .A1 / s .A2 /
dass D das \-stabile System H WD A1 A2 aller messba-
ren Rechtecke enthält. Da für ein \-stabiles Mengensystem die Y
k Y
kCs
D .yj xj / .yj xj /
erzeugte -Algebra und das erzeugte Dynkin-System identisch
j D1 j DkC1
sind, folgt A1 ˝ A2 D .H / D ı.H / D, was zu zeigen
war. Y
kCs
D .yj xj /
Ist 2 nur -endlich, so wählen wir eine Folge .Bn /n1 aus A2 j D1
mit Bn " ˝2 und 2 .Bn / < 1; n 1. Für jedes n ist A2 7!
2 .A2 \ Bn / ein endliches Maß 2;n auf A2 . Nach dem bereits D kCs ..x; y/;
Gezeigten ist für jedes n 1 die Funktion !1 7! 2;n .!1 Q/
A1 -messbar. Wegen 2 .!1 Q/ D supn1 2;n .!1 Q/ ist !1 7! also k ˝ s .Q/ D kCs .Q/ 8Q 2 I k . Nach dem Eindeutig-
2 .!1 Q/ als Supremum abzählbar vieler messbarer Funktionen keitssatz für Maße folgt k ˝ s D kCs . J
A1 -messbar.
Kommentar Der italienische Mathematiker und Astronom
Buonaventura Cavalieri (1598–1647) formulierte ein nach ihm
Existenz und Eindeutigkeit des Produktmaßes benanntes Prinzip der Flächen- und Volumenmessung. Dieses
Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß- Cavalierische Prinzip besagt im R3 , dass zwei Körper das glei-
räume. Dann gibt es genau ein -endliches Maß auf che Volumen aufweisen, wenn alle ebenen Schnitte, die parallel
A1 ˝ A2 mit zu einer vorgegebenen Grundebene und in übereinstimmenden
Abständen ausgeführt werden, die jeweils gleiche Fläche besit-
.A1 A2 / D 1 .A1 / 2 .A2 /; A1 2 A1 ; A2 2 A2 : zen. Diese Aussage ist ein Spezialfall der ersten Gleichheit in
(8.70) (8.71) für den Fall 1 D 1 , 2 D 2 , wonach für Q 2 B3
Z
Für jede Menge Q 2 A1 ˝ A2 gilt 3 .Q/ D 2 .x Q/ 1 .dx/
Z Z R
.Q/ D 2 .!1 Q/ 1 .d!1 / D 1 .Q!2 / 2 .d!2 /:
gilt. Ist also R 2 B3 ein weiterer Körper mit der Eigenschaft
(8.71) 2 .x R/ D 2 .x Q/ für jedes x 2 R, ergeben also alle Schnitte
von R und Q mit den zu f.0; y; z/ j y; z 2 Rg parallelen Ebenen
heißt Produkt der Maße 1 und 2 oder Produkt- jeweils gleiche Schnittflächen, so folgt 3 .Q/ D 3 .R/. Dabei
maß von 1 und 2 und wird mit 1 ˝ 2 bezeichnet. muss die Gleichheit der Schnittflächen nur für 1 -fast alle x gel-
ten.
350 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Bestimmen Sie k .Bk .x; r//, wobei Bk .x; r/ D fy 2 Nach Induktionsvoraussetzung gilt
Rk j ky xk < rg.
k1 .x1 Bk / D ck1 .1 x12 /.k1/=2
Problemanalyse und Strategie Das Volumen von Bk .x; r/
wird häufig unter Verwendung von Kugelkoordinaten zu sowie k1 .x1 Bk / D 0, falls jx1 j 1. Mit (8.71) und der
k=2 r k = .k=2C1/ hergeleitet, siehe z. B. [1], Abschn. 22.4. Substitution t D cos x1 sowie
Dabei ist W .0; 1/ ! R die in (5.41 ) definierte Gamma-
Z=2
Kapitel 8
In gleicher Weise besitzen zwei messbare Teilmengen des R2 zu. Sei hierzu f W ˝1 ˝2 ! R eine A1 ˝ A2 -messbare
die gleiche Fläche, wenn alle Schnitte mit Geraden, die parallel Funktion. Zur Verdeutlichung, welches der Argumente !1 oder
zu einer vorgegebenen Geraden ausgeführt werden, die jeweils !2 von f festgehalten wird, schreiben wir
gleiche Länge besitzen. Dieses Prinzip spiegelt sich in der ersten
Gleichheit in (8.71) für den Fall 1 D 2 D 1 wider. J ( (
˝2 ! R ˝1 ! R
f .!1 ; / W f .; !2 / W
!2 7! f .!1 ; !2 / !1 7! f .!1 ; !2 /:
Integration bezüglich des Produktmaßes
bedeutet iterierte Integration Wegen f .!1 ; /1 .B/ D f!2 W .!1 ; !2 / 2 f 1 .B/g D
1
!1 .f .B// (!1 2 ˝1 , B 2 B) ist f .!1 ; / nach dem Lem-
Getreu dem Motto „Wo ein Maß ist, ist auch ein Integral“ wen- ma über Schnitte A2 -messbar. Ebenso ist f .; !2 / für jedes
den wir uns jetzt der Integration bzgl. des Produktmaßes 1 ˝2 !2 2 ˝2 A1 -messbar.
8.9 Produktmaße, Satz von Fubini 351
Das erste Resultat über die Integration bzgl. des Produktmaßes Substituiert man im inneren Integral v WD u C t , so folgt mit
betrifft nichtnegative Funktionen. Es geht auf den italienischen A WD f.t ; v/ 2 R2 j 0 < t < vg
Mathematiker Leonida Tonelli (1885–1946) zurück. 0 1
Z1 Z1
.˛/ .ˇ/ D @ t ˛1 .v t /ˇ1 ev dvA dt
0 t
Satz von Tonelli Z
Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß- D 1A .t ; v/t ˛1 .v t /ˇ1 ev d2 .t ; v/:
räume. Die Funktion f W ˝1 ˝2 ! R sei nichtnegativ .0;1/2
und A1 ˝ A2 -messbar. Dann sind die Funktionen
Vertauscht man die Integranden – was nach dem Satz von Tonel-
Z Z li gestattet ist – so ergibt sich
Kapitel 8
˝2 3 !2 7! f .; !2 /d1 ; ˝1 3 !1 7! f .!1 ; /d2 0 1
Z1 Z v
.˛/ .ˇ/ D @ t ˛1 .v t /ˇ1 dt A ev dv
A2 - bzw. A1 -messbar, und es gilt
0 0
Z Z Z 0 1
Z1 Z1
f d1 ˝ 2 D f .; !2 /d1 2 .d!2 / (8.74) D @ s ˛1 .1 s/ˇ1 ds A v˛Cˇ1 ev dv
Z Z
0 0
D f .!1 ; /d2 1 .d!1 /: (8.75)
D B.˛; ˇ/ .˛ C ˇ/
und damit (5.60). J
Wie schon der Satz von Tonelli besagt auch der nachstehen-
Beweis Der Beweis erfolgt durch algebraische Induktion. Sei de Satz von Guido Fubini (1879–1943), dass unter allgemeinen
hierzu .˝; A; / WD .˝1 ˝2 ; A1 ˝ A2 ; 1 ˝2 /. Ist f D 1Q , Voraussetzungen das Integral bzgl. des Produktmaßes durch ite-
Q 2 A, eine Indikatorfunktion, so folgt die R Behauptung di- rierte Integration in beliebiger Reihenfolge gewonnen werden
rekt aus (8.71),R denn es gilt 1 .Q!2 / D f .; !2 /d1 und kann. Wohingegen die betrachtete Funktion im Satz von Tonelli
2 .!1 Q/ D f .!1 ; /d2 . Wegen der Linearität des Integrals nichtnegativ ist (und dann das entstehende Integral den Wert 1
gilt die Behauptung dann auch für jede Elementarfunktion. Ist annehmen kann), muss sie für die Anwendung des Satzes von
f eine nichtnegative A-messbare Funktion, und ist .un / eine Fubini bzgl. des Produktmaßes integrierbar sein.
Folge von Elementarfunktionen mit un " f , so ist für festes
!2 (un .; !2 // eine entsprechende Folge R auf ˝1 mit un .; !2 / "
f .; !2 /. Die durch 'n .!2 / WD un .; !2 /d1 , !2 2 ˝2 ; Satz von Fubini
auf ˝2 definierte
R Funktion 'n ist A2 -messbar, n 1, mit Es seien .˝1 ; A1 ; 1 / und .˝2 ; A2 ; 2 / -endliche Maß-
'
R n .! 2 / " f .; ! 2 /d1 . Also ist die Funktion ˝2 3 !2 7! räume und f W ˝1 ˝2 ! R eine 1 ˝ 2 -integrierbare
f .; !2 /d1 A2 -messbar, und es folgt mit dem Satz von der A1 ˝ A2 -messbare Funktion. Dann gilt:
monotonen Konvergenz, dem ersten Beweisteil sowie der Defi-
nition des Integrals für nichtnegative messbare Funktionen f .!1 ; / ist 2 -integrierbar für 1 -fast alle !1 ,
f .; !2 / ist 1 -integrierbar für 2 -fast alle !2 .
Z Z Z
R 1 -f.ü. bzw. 2 -f.ü. definierten
Die R Funktionen !1 7!
f .; !2 / d1 2 .d!2 / D lim 'n d2 f .!1 ; /d2 bzw. !2 7! f .; !2 /d1 sind 1 - bzw.
n!1
Z 2 -integrierbar, und es gelten (8.74) und (8.75).
D lim un d
n!1
Z
D f d: Beweis Aus (8.74) und (8.75) folgt mit WD 1 ˝ 2
Z Z
jf .!1 ; /jd2 1 .d!1 /
Eine analoge Betrachtung für f .!1 ; / liefert (8.75). Z Z
D jf .; !2 /jd1 2 .d!2 /
Beispiel Der Satz von Tonelli gestattet eine alternative Her- Z
leitung der Beziehung (5.60) zwischen der Gamma- und der D jf j d < 1:
Betafunktion. Zum Nachweis von (5.60) starten wir mit der aus
dem Satz von Tonelli folgenden Gleichung Teil b) der Folgerung aus der Markov-Ungleichung in
Abschn. 8.6 liefert dann die ersten beiden Behauptungen. Da-
0 1
Z1 Z1 mit und wegen des Satzes von Tonelli ist die Funktion
Z Z Z
.˛/ .ˇ/ D @ t ˛1 uˇ1 e.t Cu/ duA dt :
!1 7! f .!1 ; /d2 D f .!1 ; / d2 f .!1 ; / d2
C
0 0
352 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
“
D f .!1 ; !2 / 2 .d!2 / 1 .d!1 /: heißt Produkt der Maßräume .˝j ; Aj ; j /, 1 j n.
8.9 Produktmaße, Satz von Fubini 353
Beweis Die Eindeutigkeit von wurde schon bewiesen. An- für jede Wahl von ` mit 1 ` < n. Insbesondere gilt k D
genommen, die Existenz von e WD 1 ˝ : : : ˝ n1 sei für ein 1 ˝ : : : ˝ 1 (k Faktoren).
n > 2 gezeigt. Aufgrund der -Endlichkeit von e ist dann auch
WD e
˝n definiert. ist ein Maß auf .A1 ˝: : :˝An1 /˝An Mithilfe der Darstellung (8.78) und vollständiger Induktion
mit übertragen sich auch die Sätze von Tonelli und Fubini auf den
allgemeinen Fall von n Faktoren. Ist f eine nichtnegative oder
e An / D e
.Q e n .An /;
.Q/ 1 ˝ : : : ˝ n -integrierbare A1 ˝ : : : ˝ An -messbare numeri-
sche Funktion auf ˝1 : : : ˝n , so gilt für jede Permutation
e 2 A1 ˝ : : : ˝ An1 ; An 2 An :
Q .i1 ; : : : ; in / von .1; : : : ; n/:
Wegen .A1 ˝ : : : ˝ An1 / ˝ An D A1 ˝ : : : ˝ An (aufgrund Z
obiger Bijektion) erfüllt die Bedingung (8.63). f d.1 ˝ : : : ˝ n /
Kapitel 8
Z Z
Mit ganz analogen Überlegungen ergibt sich die Assoziativität D : : : f .!1 ; : : : ; !n /i1 .d!i1 / : : : in .d!in /:
der Produktmaß-Bildung, d. h., es gilt
! !
Ò O n On Die Integration bzgl. des Produktmaßes kann also in beliebiger
i ˝ i D i (8.78) Reihenfolge ausgeführt werden.
i D1 i D`C1 i D1
354 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Zusammenfassung
Gegenstand der Maß- und Integrationstheorie sind Maßräu- ist. Die nach obigen allgemeinen Sätzen eindeutige Fortsetzung
me und der dazu gehörige Integrationsbegriff. Ein Maßraum k von Ik auf Bk heißt Borel-Lebesgue-Maß (Borel-Lebesgue
(engl.: measure space) ist ein Tripel .˝; A; /, wobei ˝ ei- measure) im Rk .
ne nichtleere Menge und A P .˝/ eine -Algebra über
Ist G W R ! R eine maßdefinierende Funktion, also mono-
˝ bezeichnen. Das Paar .˝; A/ heißt Messraum (measurable
ton wachsend und rechtsseitig stetig, so definiert G ..a; b/ D
space). Eine -Algebra (-field, -algebra) enthält die leere
Kapitel 8
Menge, mit jeder Menge auch deren Komplement und mit jeder G.b/ G.a/ ein Prämaß auf I 1 , das eine eindeutige Fort-
setzung auf B1 besitzt. Das entstehende Maß auf B1 heißt
Folge von Mengen auch deren Vereinigung. Ein Maß (measure)
Lebesgue-Stieltjes-Maß (Lebesgue-Stieltjes measure) zu G.
auf A ist eine Funktion W A ! P Œ0; 1 mit .;/
P D 0, die
-additiv ist, also die Gleichung . j1D1 Aj / D j1D1 .Aj / Gilt zusätzlich limx!1 G.x/ D 1 und limx!1 G.x/ D 0, so
heißt G eine Verteilungsfunktion (distribution function); das
für jede Folge .An / paarweise disjunkter Mengen aus A erfüllt.
resultierende Maß ist dann ein Wahrscheinlichkeitsmaß.
Maße können im Allgemeinen nicht auf der vollen Potenzmen-
ge definiert werden. Sind .˝; A/, .˝ 0 ; A0 / Messräume, so heißt eine Abbildung
f W ˝ ! ˝ 0 .A; A0 /-messbar (.A; A0 /-measurable), falls
Bei der Konstruktion von Maßen liegt eine auf einem System f 1 .A0 / A gilt, also die Urbilder aller Mengen aus A0 zu
M P .˝/ „einfacher“ Mengen definierte Funktion
T vor, die A gehören. Dabei reicht schon die Inklusion f 1 .M0 / A für
auf die kleinste M enthaltende -Algebra .M/ D fA j A einen Erzeuger M0 von A0 aus. Gilt speziell .˝ 0; A0 / D .R; B/,
P .˝/ -Algebra und M Ag über ˝ fortgesetzt werden soll.
so heißt f kurz messbar. Im Fall ˝ 0 D R D R [ f1; 1g
Das System M heißt Erzeuger (generator) von .M/. Das Sys- spricht man auch von einer numerischen Funktion und legt die
tem H einfacher Mengen ist ein Halbring (semiring), d. h., -Algebra B WD fB [ E j B 2 B; E f1; 1gg der in R
es enthält die leere Menge und ist \-stabil. Weiter lässt sich Borelschen Mengen zugrunde.
die Differenz zweier Mengen aus H als disjunkte Vereinigung
endlich vieler Mengen aus H schreiben. Ein Beispiel für einen Wie für stetige Funktionen gelten auch für messbare Funktio-
Halbring im Rk ist das System I k D f.x; y j x; y 2 Rk ; x yg nen Rechenregeln. So sind Linearkombinationen und Produkte
der nach links unten offenen achsenparallelen Quader des Rk . messbarer numerischer Funktionen messbar und für Folgen .fn /
Dieses erzeugt die -Algebra Bk der Borel-Mengen im Rk . solcher Funktionen auch die Funktionen supn1 fn , infn1 fn ,
Ein Prämaß (pre-measure) auf H ist eine -additive Funkti- lim supn!1 fn und lim infn!1 fn . Insbesondere ist limn!1 fn
on W H ! Œ0; 1 mit .;/ D 0. messbar, falls .fn / punktweise in R konvergiert. Außerdem
sind mit einer Funktion f auch deren Positivteil (positive part)
Wichtige Resultate der Maßtheorie sind der Fortsetzungssatz f C WD max.f ; 0/ und deren Negativteil (negative part) f WD
(Carathéodory’s extension theorem) und der Eindeutigkeits- min.f ; 0/ messbar.
satz (uniqueness of measures). Ersterer besagt, dass sich jedes
Prämaß auf einem Halbring H P .˝/ zu einem Maß Sind .˝; A; / ein Maßraum, .˝ 0 ; A0 / ein Messraum und
auf die von H erzeugte -Algebra .H / fortsetzen lässt. f W ˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung, so wird
Nach dem Eindeutigkeitssatz sind zwei Maße auf A schon durch f .A0 / WD .f 1 .A0 //, A0 2 A0 , ein Maß auf A0
dann gleich, wenn sie auf einem \-stabilen Erzeuger von A, definiert. Es heißt Bild.-Maß/ von unter f (image mea-
der eine aufsteigende Folge Mj " ˝ enthält, die gleichen, sure) und wird auch mit f ./ oder ı f 1 bezeichnet. Für
endlichen Werte annehmen. Um ein Prämaß fortzusetzen, be- jedes b 2 Rk ist das Bild des Borel-Lebesgue-Maßes k un-
trachtet man für eine Menge A ˝Sdie Menge U.A/ WD ter der mit Tb bezeichneten Translation um b gleich k . Das
f.An /n2N j An 2 H 8n 1; A 1 Maß k ist somit translationsinvariant (translation invariant),
nD1 An g aller Überde-
ckungsfolgen von A durch Mengen aus H und setzt .A/ WD und jedes andere translationsinvariante Maß auf Bk mit der
P1
inff nD1 .An / j .An /n2N 2 U.A/g: Auf diese Weise entsteht Eigenschaft ..0; 1k / < 1 stimmt bis auf einen Faktor mit
ein äußeres Maß (outer measure) W P .˝/ ! Œ0; 1, d. h., k überein. Hiermit zeigt man, dass k sogar bewegungsin-
es gilt .;/ D 0, und ist monoton (aus A variant (invariant under rigid motions) ist, also T .k / D k
S B folgt
1 für jede Bewegung T des Rk gilt. Ist allgemeiner T eine durch
.A/ .B/) sowie -subadditiv (es gilt Aj
P1
j D1 T .x/ WD Ax C a, x 2 Rk , definierte affine Abbildung mit einer
j D1 .Aj /). invertierbaren Matrix A, so gilt T .k / D j det Aj1 k .
Nach dem Lemma von Carathéodory ist das System A. / WD Auf einem Maßraum .˝; A; / konstruiert man wie folgt das
fA ˝ j .AE/ C .Ac E/ D .E/ 8E ˝g der - -Integral einer messbaren numerischen Funktion f W ˝ ! R.
messbaren Mengen eine -Algebra mit .H / A. /, und Zunächst betrachtet man die Menge EC aller Elementarfunk-
die Restriktion von auf A. / ist ein Maß. Für den
Q Spezial- tionen (simple functions), also Funktionen f W ˝ ! R0
fall des Halbrings I k und den durch Ik ..x; y/ WD jnD1 .yj mit jf .˝/j <P1. Jedes f 2 EC hat eine Darstellung der
n
xj / definierten k-dimensionalen geometrischen Elementarinhalt Form f D j D1 ˛j 1fAj g mit paarweise disjunkten Men-
zeigt der Cantorsche Durchschnittssatz, dass Ik ein Prämaß gen A1 ; : : : ; An aus A und ˛1 ; : : : ; ˛n 2 R0 . Die nicht von
Zusammenfassung 355
" R
P Darstellung abhängende Œ0; 1-wertige Größe
Rder speziellen Funktionen Rfn aus EC die Ungleichung lim infn!1 fn d
f d WD jnD1 ˛j .Aj / heißt das (-)Integral von f (über lim infn!1 fn d gilt.
R
˝). Insbesondere gilt also 1A d D .A/; A 2 A:
Für eine positive reelle Zahl Rp und eine messbare numerische
In einem zweiten Schritt betrachtet man die Menge EC aller
" Funktion f sei kf kp WD . jf jp d/1=p . 1/ gesetzt. f
messbaren Funktionen f W ˝ ! Œ0; 1. Jedes solche f ist heißt p-fach integrierbar, falls kf kp < 1. Die Menge Lp
punktweiser Grenzwert einer Folge .un / aus EC mit un unC1 , der reellen p-fach integrierbaren Funktionen ist ein Vektorraum.
n 2 N. WeilR das -Integral auf E die Monotonieeigenschaft Im Fall p 1 ist die Zuordnung f 7! kf kp eine Halb-
R R
„u v H) ud v d“ erfüllt, definiert man f d WD norm auf Lp , d. h., es gelten kf kp 0, k˛f kp D j˛jkf kp
R
limn!1 un d als das .-/Integral von f .über ˝/. Da der für ˛ 2 R sowie die Minkowski-Ungleichung (Minkowski
Grenzwert nicht von der speziellen Folge .un / abhängt, ist die- inequality) kf C gkp kf kp C kgkp . Sind p > 1 und
" q > 1 mit 1=p C 1=q D 1, so gilt für messbare numeri-
Kapitel 8
se Erweiterung des Integralbegriffs auf EC widerspruchsfrei.
Schließlich löst man sich von der Bedingung f 0 und nennt sche Funktionen die Hölder-Ungleichung (Hölder inequality)
kf gk1 kf kp kgkq :
eine Rmessbare numerischeR Funktion auf ˝ .-/integrierbar,
falls f C d < 1 und f d < 1. In diesem Fall heißt die Eine Folge .fn / aus Lp konvergiert im p-ten Mittel gegen f 2
reelle Zahl Lp , wenn kfn f kp ! 0. Nach dem Satz von Riesz-Fischer
Z Z Z (Riesz-Fischer theorem) ist der Raum Lp bzgl. dieser Konver-
f d WD f d f d
C genz vollständig, jede Cauchy-Folge hat also einen Grenzwert.
Die Menge Lp der Äquivalenzklassen -f.ü. gleicher Funktio-
nen aus Lp ist ein Banach-Raum.
das .-/Integral von f .über ˝/. Wegen jf j D f C C f ist
f genau dann integrierbar, wenn jf j integrierbar ist. Sind .˝; A; / ein Maßraum und f W ˝ ! Œ0; 1 eine mess-
bare Funktion, so definiert die Festsetzung
Das -Integral besitzt alle vom Lebesgue-Integral her bekann-
Z Z
ten strukturellen Eigenschaften. So sind mit integrierbaren nu-
merische Funktionen f und g auf ˝ Rund ˛ 2 R auch .A/ WD f d D f 1A d; A 2 A;
R ˛f
und Rf C g integrierbar,
R und es gelten
R .˛f / d D ˛ f d A
ˇund
R .fˇ C Rg/ d D f d C g d sowie die Ungleichung
ˇ f dˇ jf j d. ein Maß DW f auf A, das Maß mit der Dichte f bezüglich
. Da jede -Nullmenge eine -Nullmenge darstellt, ist ab-
Sind .˝; A; / ein Maßraum, .˝ 0 ; A0 / ein Messraum, f W solut stetig (absolutely continuous) bzgl. , kurz: . Ist
˝ ! ˝ 0 eine .A; A0 /-messbare Abbildung und h W ˝ 0 ! R -endlich, gibt es also eine Folge .An / aus A mit An " ˝
eine messbare nichtnegative oder f -integrierbare Funktion, so und .An / < 1 für jedes n, so gilt nach dem Satz von Radon-
gilt der Transformationssatz für Integrale (change of varia- Nikodým (Radon-Nikodým theorem) auch die Umkehrung: Ist
bles theorem) ein Maß auf A mit , so gilt die obige Darstellung
R
Z Z von mit einer -f.ü. eindeutigen Dichte f . Wegen 'd D
R "
h df D h ı f d: ' f d für ' 2 EC kann die Integration bzgl. auf diejenige
˝0 ˝
bzgl. zurückgeführt werden.
Sind D f k ein Maß mit einer Lebesgue-Dichte f auf Bk ,
Eine Menge A 2 A mit .A/ D 0 heißt (-)Nullmenge (null die außerhalb einer offenen Menge U Rk verschwindet und
set). Eine für jedes ! 2 ˝ zutreffende oder nicht zutreffende T W Rk ! Rk eine messbare Abbildung, deren Restriktion auf
Eigenschaft E gilt (-)fast überall (almost everywhere) oder U stetig differenzierbar mit nirgends verschwindender Funktio-
kurz f.ü., falls E auf dem Komplement einer Nullmenge zu- naldeterminante ist, so ist
trifft. Das -Integral ändert sich nicht, wenn der Integrand auf
f .T 1 .y//
einer
R Nullmenge abgeändert wird. Für eine Funktion f 0 gilt g.y/ WD ; falls y 2 T .U /;
f d D 0 () f D 0 -f.ü. Jede -integrierbare Funktion j det T 0 .T 1 .y//j
ist -f.ü. endlich.
und g.y/ WD 0 sonst eine k -Dichte des Bildmaßes T ./
Ist f1 f2 f3 : : : eine isotone Folge aus
"
EC , so gilt (Transformationssatz für k -Dichten).
Z Z Sind und Maße auf A, wobei -endlich ist, so existieren
lim fn d D lim fn d nach dem Lebesgueschen Zerlegungssatz (Lebesgue decom-
n!1 n!1
position) eindeutig bestimmte Maße a und s mit D a C s
und a sowie s ?. Die letztere Eigenschaft bedeutet,
(Satz von der monotonen Konvergenz, Beppo Levi’s theo-
dass s und in dem Sinne singulär (singular) zueinander sind,
rem). Man kann Integral- und Limesbildung auch vertauschen,
dass es eine Menge A 2 A mit .A/ D 0 D s .˝ nA/ gibt. Die
wenn die fn beliebige messbare Funktionen sind, die f.ü. kon-
Maße a und s heißen absolut stetiger bzw. singulärer Anteil
vergieren und jfn j g f.ü. für eine integrierbare Funktion
(absolutely continuous rep. singular part) von bezüglich .
g gilt (Satz von der dominierten Konvergenz, Lebesgue’s
dominated convergence theorem). Der Beweis dieses Satzes ver- Sind .˝1 ; A1 ; 1 / und .˝2; A2 ; 2 / -endliche Maßräume, so
wendet das Lemma von Fatou (Fatou’s lemma), wonach für existiert genau ein Maß auf der von den Mengen A1 A2 mit
356 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
Aufgaben
Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen
Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Beweisaufgaben geben Ihnen
Gelegenheit, zu lernen, wie man Beweise findet und führt.
Ein Punktesystem unterscheidet leichte , mittelschwere und anspruchsvolle Aufgaben. Lösungshinweise am Ende des
Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie
sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege,
Kapitel 8
Beweise und Abbildungen finden Sie auf der Website zum Buch.
Viel Spaß und Erfolg bei den Aufgaben!
c) .˝; A/ beliebig, ein -endliches Maß auf A, P und Q 8.22 Es seien Ak und K k die Systeme der abge-
Wahrscheinlichkeitsmaße auf A mit Dichten f bzw. g bzgl. schlossenen bzw. kompakten Teilmengen des Rk . Zeigen Sie:
.P D f ; Q D g/, WD P C Q, WD P . .Ak / D .K k /.
ist.
8.15 Es sei k das Borel-Lebesgue-Maß auf Bk . Zeigen b) Auf dem Messraum .R; B/ betrachte man das durch .B/ WD
Sie: k .Qk / D 0. jB \Qj, B 2 B, definierte Maß. Zeigen Sie, dass -endlich
ist, obwohl jedes offene Intervall das -Maß 1 besitzt.
8.16 Betrachten Sie den Messraum .N; P .N// mit dem
Zählmaß auf N sowie die durch f .1/ WD f .4/ WD 4:3, 8.25 Zeigen Sie: Ist ein Inhalt auf einem Ring R
f .2/ WD 1:7, f .3/ WD f .7/ WD f .9/ WD 6:1 sowie f .n/ WD 0 P .˝/, so gilt für A; B 2 R
sonst definierte Elementarfunktion aufR N. Schreiben Sie f in
Normaldarstellung und berechnen Sie f d. .A [ B/ C .A \ B/ D .A/ C .B/:
Warum widerspricht dieses Ergebnis nicht dem Satz von Fubini? A WD fA ˝ j 9E; F 2 A mit E A F ; .F n E/ D 0g:
8.30 Es seien .˝; A/ und .˝ 0 ; A0 / Messräume sowie 8.38 Es seien .˝; A; / ein Maßraum und .An /n1 ei-
f W ˝ ! ˝ 0 eine Abbildung. P Ferner seien A1 ; A2 ; : : : 2 A ne Folge von Mengen aus A. Für k 2 N sei Bk die Menge
paarweise disjunkt mit ˝ D j1D1 Aj . Für n 2 N bezeichne aller ! 2 ˝, die in mindestens k der Mengen A1 ; A2 ; : : : liegen.
An WD A \ An die Spur--Algebra von A in An und fn WD Zeigen Sie:
f jAn die Restriktion von f auf An . Zeigen Sie:
a) Bk 2 A, P
f ist .A; A0 /-messbar () fn ist .An ; A0 /-messbar; n 1: b) k.Bk / 1
nD1 .An /.
Kapitel 8
8.31 Es sei f W Rk ! R eine beliebige Funktion. f d D .f n/ :
Zeigen Sie, dass die Menge der Unstetigkeitsstellen von f eine nD1
Borel-Menge ist.
8.32 Es seien H P .˝/ ein Halbring und 8.40 Es seien .˝; A; / ein Maßraum und f W ˝ ! R
A; A1 ; : : : ; An 2 H . Zeigen Sie: Es gibt eine natürliche Zahl eine nichtnegative messbare numerische Funktion. Zeigen Sie:
k und disjunkte Mengen C1 ; : : : ; Ck aus H mit Z Z
f
lim n log 1 C d D f d:
X
k
n!1 n
A n .A1 [ : : : [ An / D A \ Ac1 \ : : : \ Acn D Cj :
j D1
8.41 Es seien .˝; A; / ein endlicher Maßraum und
.fn /n1 eine Folge -integrierbarer reeller Funktionen auf ˝
8.33 Es sei ein Inhalt auf einem Halbring H
mit f WD limn!1 fn gleichmäßig auf ˝. Zeigen Sie:
P .˝/. Zeigen Sie:
P Z Z
a) Durch .A/ WD jnD1 .Aj / (A1 ; : : : ; An 2 H paarweise
Pn f d D lim fn d:
disjunkt, A D j D1 Aj ) entsteht ein auf R WD .H / wohl- n!1
definierter Inhalt, der eindeutig fortsetzt.
b) Mit ist auch ein Prämaß. 8.42 Seien .˝; A; / ein Maßraum und f ; g 2
L1 .˝; A; /. Zeigen Sie:
8.34 Es sei .˝; A; / ein Maßraum.
Z Z
a) Zeigen Sie: ist genau dann -endlich, wenn eine Zerlegung f g -f.ü. () f d g d 8 A 2 A:
von ˝ in abzählbar viele messbare Teilmengen endlichen -
A A
Maßes existiert.
b) Es sei nun -endlich, und es gelte .˝/ D 1. Zeigen Sie,
dass es zu jedem K mit 0 < K < 1 eine Menge A 2 A mit 8.43 Es seien .˝; A; / ein Maßraum und f , g mess-
K < .A/ < 1 gibt. bare numerische Funktionen auf ˝. Zeigen Sie:
a) kfgk1 kf k1 kgk1 .
8.35 Es sei .˝; A; / ein Maßraum. Zeigen Sie die b) Falls .˝/ < 1, so gilt
Äquivalenz der folgenden Aussagen:
a) ist -endlich, kf kq kf kp .˝/1=q1=p .1 q < p 1/:
b) Es existiert eine Borel-messbareR Abbildung h W ˝ ! R mit
h.!/ > 0 für jedes ! 2 ˝ und h d < 1. (Konsequenz: Lp Lq .)
8.36 Für eine reelle Zahl ¤ 0 sei H W Rk ! Rk die 8.44 Es seien .˝; A; / ein Maßraum und .fn /n1 ei-
durch H .x/ WD x, x 2 Rk , definierte zentrische Streckung. ne Folge nichtnegativer messbarer numerischer Funktionen auf
Zeigen Sie: Für das Bildmaß von k unter H gilt ˝. Zeigen Sie: Für jedes p 2 Œ1; 1 gilt
1
1 X X
1
H .k / D k :
jjk fn kfn kp :
nD1 p nD1
Speziell für D 1 ergibt sich die Spiegelungsinvarianz
von k .
8.45 Es seien .˝; A; / ein Maßraum und p 2 .0; 1.
8.37 .fn /n1 sei eine Funktionenfolge aus Lp mit limn!1 fn D f
Es seien a1 ; : : : ; ak > 0 und E das Ellipsoid E WD
-f.ü. für eine reelle messbare Funktion f auf ˝. Es
fx 2 Rk j x12 =a12 C: : :Cxk2 =ak2 < 1g. Zeigen Sie: Es gilt E 2 Bk , R existiere
und es ist eine messbare numerische Funktion g 0 auf ˝ mit g p d <
k .E/ D a1 : : : ak k .B/; 1 und jfn j g -f.ü. für jedes n 1. Zeigen Sie:
R
a) jf jp d < 1.
wobei B WD fx 2 Rk j kxk < 1g die Einheitskugel im Rk be- R Lp
zeichnet. b) limn!1 jfn f jp d D 0 (d. h. fn ! f ).
360 8 Grundzüge der Maß- und Integrationstheorie – vom Messen und Mitteln
8.46 Es seien .˝; A; / ein Maßraum sowie 0 < p < 8.49 Es seien .˝j ; Aj / Messräume und Mj Aj
1. Zeigen Sie: Die Menge mit .Mj / D Aj .j D 1; : : : ; n/. In Mj existiere eine Folge
n X n .Mj k /k1 mit Mj k " ˝j bei k ! 1. j W ˝1 ˝n ! ˝j
F WD u WD ˛k 1fAk g j n 2 N; A1 ; : : : ; An 2 A; bezeichne die j -te Projektionsabbildung und
kD1 o
˛1 ; : : : ; ˛n 2 R; .Aj / < 1 für j D 1; : : : ; n M1 Mn
˚
liegt dicht in Lp D Lp .˝; A; /, d. h., zu jedem f 2 Lp und WD M1 Mn j Mj 2 Mj ; j D 1; : : : ; n
jedem " > 0 gibt es ein u 2 F mit kf ukp < ".
das System aller „messbaren Rechtecke mit Seiten aus
8.47 Für A N sei dn .A/ WD n jA \ f1; : : : ; ngj
1 M1 ; : : : ; Mn “. Zeigen Sie:
S
Kapitel 8
sowie n 1
a) M1 Mn . Mj / ,
C WD fA N j d .A/ WD lim dn .A/ existiertg: j D1 j
n!1 Sn
b) j D1 j1 .Mj / .M1 Mn /,
Die Größe d .A/ heißt Dichte von A. Zeigen Sie: N
c) jnD1 Aj D .M1 Mn /.
a) Die Mengenfunktion d W C ! Œ0; 1 ist endlich-additiv, aber
nicht -additiv.
b) C ist nicht \-stabil. 8.50 Es seien und Maße auf einer -Algebra A
c) Ist C ein Dynkin-System? P .˝/ mit .˝/ < 1. Beweisen Sie folgendes "-ı-Kriterium
für absolute Stetigkeit:
8.48 Es seien Ok , Ak und K k die Systeme der offe-
nen bzw. abgeschlossenen bzw. kompakten Teilmengen des Rk . () 8" > 0 9ı > 0 8A 2 A W .A/ ı ) .A/ ":
Beweisen Sie folgende Regularitätseigenschaft eines endlichen
Maßes auf Bk : 8.51 Es seien und Maße auf einer -Algebra A
a) Zu jedem B 2 Bk und zu jedem " > 0 gibt es ein O 2 Ok über ˝ mit .A/ .A/; A 2 A. Weiter sei -endlich.
und ein A 2 Ak mit der Eigenschaft .O n A/ < ". Zeigen Sie: Es existiert eine A-messbare Funktion f W ˝ ! R
b) Es gilt .B/ D supf.K/ j K B; K 2 K k g. mit 0 f .!/ 1 für jedes ! 2 ˝.
Antworten zu den Selbstfragen 361
Antwort 1 Ja, denn nach der De Morganschen Regel gilt Antwort 7 Offenbar gilt Z .;/ D ı! .;/ D .;/ D 0, und der
\1 [1 c Wertebereich der Funktionen Z , ı! und ist Œ0; 1. Um die -
c
c c c Additivität P
des Zählmaßes nachzuweisen, unterscheide man die
A1 \ A2 D A1 [ A2 ; An D An ;
nD1 nD1
Fälle, dass j1D1 Aj endlich oder unendlich ist. Das Dirac-Maß
ı! ist -additiv, weil ! (wenn überhaupt) nur in genau einer von
und die jeweils rechts stehenden Mengen gehören zu A. Eine paarweise disjunkten Mengen liegen kann. Für den Nachweis
Kapitel 8
-Algebra ist also insbesondere auch \-stabil. der -Additivität von beachte man, dass in der Gleichungs-
Antwort 2 Setzen wir kurz B1 WD A1 und Bn WD An n .A1 [ kette
X X X X X
: : : [ An1 / D An \ Acn1 \ : : : \ Ac2 \ Ac1 für n 2, so gilt 1 1 1 1 1
Antwort 3 Die drei definierenden Eigenschaften einer - das dritte Gleichheitszeichen aufgrund des großen Umord-
Algebra sind erfüllt, denn es gilt ; 2 Aj für jedes j 2 J und nungssatzes für Reihen (siehe [1], Abschn. 10.4) gilt.
somit ; 2 A. Ist A 2 A, so gilt A 2 Aj für jedes j 2 J
Antwort 8 Für die Mengen An WD .n; n, n 2 N, gilt An " R
und somit Ac 2 Aj für jedes j 2 JS , also auch Ac 2 A. Sind
1 und G .An / D G.n/ G.n/ < 1, n 2 N.
S1aus A, so gilt nD1 An 2 Aj für jedes
A1 ; A2 ; : : : Mengen
j 2 J und somit nD1 An 2 A. In gleicher Weise argumentiert Antwort 9 Für A3 2 A3 gilt .f2 ıf1 /1 .A3 / D f11 .f21 .A3 //.
man für Ringe, Algebren und Dynkin-Systeme. Hieraus folgt die Behauptung.
Antwort 4 Da jede Algebra insbesondere ein Ring ist, bildet Antwort 10 Es ist R D R[f1; C1g 2 B. Ist A D B [E 2
˛.M/ als Algebra, die M umfasst, auch einen M enthaltenden B, wobei B 2 B und E f1; C1g, so gilt R n A D .R n
Ring. Folglich muss ˛.M/ auch den kleinsten M umfassenden B/ [ .f1; C1g n E/ 2 B. Sind An D
Ring .M/ enthalten. Genauso zeigt man die zweite Inklusion, S Bn [ En 2SB , wobei
Bn 2 B und ES
S n f1; C1g, soS folgt 1
nD1 An D
1
nD1 Bn [
denn jede -Algebra ist eine Algebra. 1
En mit 1 1
nD1 S nD1 Bn 2 B und nD1 En f1; C1g und
1
Antwort 5 Wegen N .N / gilt zunächst M .N /. somit nD1 An 2 B, was zu zeigen war.
Da .N / eine -Algebra ist, die M enthält, muss sie auch die Antwort 11 Es ist
kleinste M enthaltende -Algebra umfassen. Letztere ist aber
nach Konstruktion gleich .M/, was a) zeigt. Zum Nachweis ff a; g > bg D f! 2 ˝ j f .!/ a und g.!/ > bg
von b) ist nur zu beachten, dass .M/ bereits eine -Algebra
D .f ; g/1 .Œ1; a .b; 1/:
ist. Mit a) und b) ergibt die erste Inklusion .M/ .N /,
die zweite liefert dann die umgekehrte Teilmengenbeziehung
.M/
.N /. Antwort 12 Eine Menge A 2 j1 .Aj / besitzt die Darstellung
Antwort 6 Wegen ˝ \ A D A 2 ı.M/ gilt zunächst ˝ 2 DA . A D ˝1 : : : ˝j 1 Aj ˝j C1 : : : ˝n
Sind E; D 2 DA mit D E, gelten also E \ A 2 ı.M/ und
D \ A 2 ı.M/, so ergibt sich wegen mit Aj 2 Aj . Wegen ˝i 2 Ai 8i folgt die Behauptung.
.E n D/ \ A D .E \ A/ n .D \ A/ Antwort 13 Da f messbar ist, ist f als Œ0; 1-wertige
und der zweiten Eigenschaft eines Dynkin-Systems .E n D/ \ Mengenfunktion auf A0 wohldefiniert. Wegen f 1 .;/ D ;
A 2 ı.M/ und somit E n D 2 DA . Sind schließlich D1 ; D2 ; : : : gilt f .;/ D 0. Da Urbilder paarweise disjunkter Mengen
paarweise disjunkte Mengen aus DA , gilt also Dj \ A 2 ı.M/ A01 ; A02 ; : : : aus A0 ebenfalls paarweise disjunkt sind, gilt
für jedes j 1, so folgt wegen der paarweisen Disjunktheit X 1 X 1 X 1
der letzteren Mengen und der Tatsache, dass ı.M/ ein Dynkin- f 0
Aj D f 1 0
Aj D 1
f .Aj / 0
.2j C 2/=2nC1 . Im ersten dieser Unterfälle gilt unC1 .!/ D 0 und kfn gkp ! 0 wegen kf gkp kf fn kp Ckfn gkp ,
.2j /=2nC1 D un .!/, im zweiten unC1 .!/ D .j C 1=2/=2n > n 1, die Beziehung kf gkp D 0. Im Fall p < 1 ergibt
un .!/. Im zweiten Fall unterscheidet man die Unterfälle f .!/ sich hieraus nach Folgerung a) aus der Markov-Ungleichung im
n C 1 und n f .!/ < n C 1, die zu unC1 .!/ D n C 1 > un .!/ vorigen Abschnitt f g D 0 -f.ü. Im Fall p D 1 bedeutet
bzw. unC1 .!/ D n D un .!/ führen. kf gk1 D 0 nach Definition .jf gj > 0/ D 0, also f D g
-f.ü. Ebenso argumentiert man mit (8.45) im Fall p < 1.
"
Antwort 17 Sind f ; g 2 EC mit f g, wobei un " f ,
vn " g mit un ; vn 2 EC , so gilt für festes k R1 die Un- Antwort 21 Das Funktional ist beschränkt (und damit als linea-
res Funktional stetig), denn mit der Dreiecksungleichung und
R uk lim
gleichung R n!1 vn . Das Lemma liefert uk d
limn!1 vn d D g d . Der Grenzübergang k ! 1 ergibt der Hölder-Ungleichung sowie gilt für jedes f 2 L2 ./
dann die Behauptung. 0 11=2
Z Z
Antwort 18 Sind t 2 U fest und .tn / eine beliebige Folge in U , j`.f /j jf j 1 d @ f 2 d A .˝/
die gegen t konvergiert, so ist '.tn / ! '.t / zu zeigen. Setzen
˝ ˝
wir gn .!/ WD f .tn ; !/ f .t ; !/, ! 2 ˝, so gilt 0 11=2
Z Z
'.tn / '.t / D gn .!/ .d!/: @ f d A .˝/:
2
˝
Hinweise zu den Aufgaben
4.29 Die Wahrscheinlichkeiten aus a) bis g) addieren sich zu 5.7 Sie müssen die Kovarianzmatrix nicht kennen!
eins auf.
4.30 Multinomialer Lehrsatz! 5.11 a) F .t 1=4/ F .t 1=4 / für t 0 b) F .t / F .t / für
t 0 c) 1 F .t /, t 2 R.
4.31 Bestimmen Sie zunächst EX .X 1/.
5.14 Verwenden Sie Tab. 5.1.
4.33 Es gilt Xi C Xj Bin.n; pi C pj /.
5.15 Potenzreihenentwicklung von '!
4.36 Verwenden Sie das Ereignis A1 , dass die Bernoulli-
Kette mit einer Niete beginnt, sowie die Ereignisse A2 und 5.17 Versuchen Sie, direkt die Verteilungsfunktion G von Y
A3 , dass die Bernoulli-Kette mit einem Treffer startet und sich zu bestimmen.
dann im zweiten Versuch eine Niete bzw. ein Treffer einstellt,
vgl. das Beispiel des Wartens auf den ersten Doppeltreffer in
5.20 Sind Z1 ; Z2 ; Z3 unabhängig und je N.0; 1/-
Abschn. 4.5.
normalverteilt, so besitzt Z WD Z12 C Z22 C Z32 eine
4.37 Gehen Sie analog wie im Beispiel des Wartens auf den 23 -Verteilung.
ersten Doppeltreffer in Abschn. 4.5 vor.
5.21 Verwenden Sie Gleichung (5.30) sowie Polarkoordina-
4.39 .Y1 ; Y3 / hat die gleiche gemeinsame Verteilung wie ten.
.X1 ; X1 CX2 CX3 /, wobei X1 ; X2 ; X3 unabhängig und je G.p/-
verteilt sind. 5.23 Box-Muller-Methode!
4.43 Verwenden Sie die erzeugende Funktion. 5.24 Die Verteilung hängt nicht von a ab.
4.44 Verwenden Sie (4.60).
5.26 Welche Gestalt besitzt die gemeinsame Dichte von
4.45 Stellen Sie X mithilfe einer geeigneten Indikatorsumme X1 ; : : : ; Xk ?
dar.
5.31 Verwenden Sie die Faltungsformel.
Pk Pk
4.46 Es ist nD1 1 D k und 2 nD1 n D k.k C 1/.
5.32 Für c) und d) ist bei Integralberechnungen die Substitu-
4.47 Setzen sie in der elementaren Eigenschaft tion u D log x hilfreich.
V .X / D E.X a/2 .EX a/2
5.33 a) Verwenden Sie (5.59) und die Gleichung .t C 1/ D
der Varianz a WD .b C c/=2. t .t /, t > 0. c) Bestimmen Sie zunächst die Dichte von W =V .
5.47 Es kann o.B.d.A. a0 D 0 gesetzt werden. Betrachten Sie 6.7 Der Durchschnitt endlich vieler Eins-Mengen ist eben-
die Funktion x 7! jx aj jxj getrennt für a > 0 und a < 0 falls eine Eins-Menge.
und schätzen Sie nach unten ab.
6.8 Wählen Sie in b) Yn WD Xn 1fXn D ˙1g.
5.48 Es kann o.B.d.A. EX D 0 angenommen werden. Dann
gilt P .jX j Q3=4 / D 0:5. 6.9 Die Vereinigung endlich vieler kompakter Mengen ist
kompakt.
5.49 Es gilt X AY C mit ˙ D AA> und Y Nk .0; Ik /.
6.10 Rechnen Sie die charakteristische Funktion der Gleich-
verteilung U.0; 1/ aus.
5.51 Verwenden Sie Aufgabe 5.8.
6.11 Beachten Sie das Lemma von Sluzki.
5.52 Verwenden Sie für b) Teil a) und Aufgabe 5.51.
6.13 Verwenden Sie für b) das Lemma von Sluzki.
5.53 Für die Richtung „b) ) a)“ ist die Implikation
6.14 Deuten Sie die Summen wahrscheinlichkeitstheoretisch.
Z1
2 2
'X D ei˛ ) 0D 1 cos x ˛ P X .dx/ 6.15 Es liegt ein Dreiecksschema vor.
h h
1
6.17 Zentraler Grenzwertsatz!
hilfreich.
Pn
6.18 Wie verhält sich nŠ zu kD1 kŠ?
5.54 Gehen Sie wie beim Beweis des Satzes über die Um-
kehrformeln vor. 6.19 Stellen Sie Tn als Summe von unabhängigen Zufallsva-
riablen dar.
5.58 Turmeigenschaft!
6.20 Verwenden Sie das Additionsgesetz für die negati-
5.59 Verwenden Sie Folgerung a) aus der Markov- ve Binomialverteilung und den Zentralen Grenzwertsatz von
Ungleichung in Abschn. 8.6 Lindeberg-Lévy.
6.23 Wenden Sie das Lemma von Borel-Cantelli einmal auf 7.15 Betrachten Sie die Fälle k D 0, k D n und 1 k n1
die Ereignisse An D fXn D 1g, n 1, und zum anderen auf die getrennt.
Ereignisse Bn D fXn D 0g, n 1, an.
7.16 Betrachten Sie für 1 k n 1 den Quotienten
6.24 Überlegen Sie sich, dass das Infimum angenommen Lx .# C 1/=Lx .#/, wobei Lx die Likelihood-Funktion zu x ist.
wird.
7.19 Verwenden Sie die Jensensche Ungleichung.
6.25 Betrachten Sie die Teilfolge X1 ; XkC1 ; X2kC1 ; : : :
Pn
6.26 Verwenden Sie das Lemma von Borel-Cantelli. 7.21 Es gilt j D1 Xj .n; #/ unter P# .
6.27 Verwenden Sie das Kolmogorov-Kriterium und beach- 7.22 Es kann o.B.d.A. EX1 D 0 angenommen werden.
P
ten Sie 1 2
nD2 1=.n.log n/ / < 1.
7.23 Nutzen Sie aus, dass die Summe der Abweichungsqua-
6.28 Nutzen Sie für b) die Verteilungsgleichheit drate bis auf einen Faktor 2n1 -verteilt ist.
.X1 ; : : : ; Xn / .1 X1 ; : : : ; 1 Xn / aus.
7.24 V# .#n / D # 2 =.n.n C 2//
6.29 Betrachten Sie die Fälle a D 0, a > 0 und a < 0 ge-
trennt.
7.27 Beachten Sie Gleichung
6.31 Verwenden Sie für „(“ die Markov-Ungleichung
Z1
P .jXnj > L/ L2 E Xn2 . Überlegen Sie sich für „)“ zu-
nächst, dass die Folge .n / beschränkt ist. fX1 =X2 .t / D fX1 .t s/ fX2 .s/ jsj ds; t 2 R; (A.2)
1
6.33 Taylorentwicklung von g um !
für die Dichte des Quotienten zweier unabhängiger Zufallsva-
6.34 Schätzen Sie die Differenz Fn .x/ F .x/ mithilfe der riablen. Für die Berechnung der Varianz von X hilft Darstellung
Differenzen Fn .xj k / F .xj k / ab, wobei für k 2 xj k WD (7.33).
F 1 .j =k/, 1 j < k, sowie x0k WD 1, xkk WD 1.
7.29 Beachten Sie (7.30).
6.36 Weisen Sie die Lindeberg-Bedingung nach.
7.33 Nehmen Sie an, dass die Differenzen zi WD yi xi
6.37 Es ist Xj X n D Xj .X n /. Realisierungen unabhängiger und je N.; 2 /-verteilter Zufalls-
variablen Z1 ; : : : ; Z8 sind, wobei und 2 unbekannt sind.
6.39 Prüfen Sie die Gültigkeit der Lindeberg-Bedingung.
7.36 Unter der zu testenden Hypothese haben die Differenzen
6.40 Mit aj D EXj gilt E.Xj aj /4 aj .1 aj /. Zj D Yj Xj eine symmetrische Verteilung mit unbekanntem
Median .
Kapitel 7 7.37 T kann – ganz egal, wie groß # ist – nur endlich viele
Werte annehmen.
7.1 Es ist P# .max.X1 ; : : : ; Xn / t / D .t =#/n, 0 t #.
7.40 Verwenden Sie den Zentralen Grenzwertsatz von de
7.2 Verwenden Sie den Zentralen Grenzwertsatz von Moivre-Laplace und Teil b) des Lemmas von Sluzki.
Lindeberg-Lévy.
7.43 Nutzen Sie die Erzeugungsweise der Verteilung aus.
7.9 Die Neyman-Pearson-Tests sind Konvexkombinationen
zweier nichtrandomisierter NP-Tests.
7.44 Es gilt für jedes k 2 N und jedes u 0 (Beweis durch
7.11 O.B.d.A. gelte X1 U.0; 1/. Differenziation nach u)
X
1 Zu
7.12 Nutzen Sie aus, dass .X1 a; : : : ; X2n a/ und .a X1 ; uj 1
: : : ; a X2n / dieselbe Verteilung besitzen, was sich auf die Vek- eu D et t k1 dt :
jŠ .k 1/Š
j Dk
toren der jeweiligen Ordnungsstatistiken überträgt. Überlegen 0
Sie sich vorab, warum die Voraussetzung EjX1 j < 1 gemacht Pn p
wird. Setzen Sie 'n WD 1f j D1 xj n0 C ˚ 1 .1 ˛/ n0 :g
Hinweise zu den Aufgaben 367
p
7.45 Für X Po./ gilt P .jX j C / 1 C 2 . 8.24 Für b) beachte man .R n Q/ D 0.
p
Mit zk D .k /= ist 2
p X z 8.31 Betrachten Sie zu einer beliebigen Norm k k auf Rk und
exp k
2 beliebiges " > 0 und ı > 0 die (offene!) Menge O";ı WD fx 2
kWjzk jC
Rk j 9y; z 2 Rk mit kx yk < ı; kx zk < ı und jf .y/
eine Riemannsche Näherungssumme für das Integral f .z/j "g.
RC
C exp.z 2 =2/ dz.
8.32 Vollständige Induktion!
7.47 Es reicht, die Summe Tn in (7.68) durch einen Summan-
den nach unten abzuschätzen und das Gesetz großer Zahlen zu 8.33 Beachten Sie den Satz über den von einem Halbring er-
verwenden. zeugten Ring am Ende von Abschn. 8.2.
7.49 Verwenden Sie die -Subadditivität von P und den Satz 8.35 Für die Richtung b) ) a) betrachte man die Mengen
von Tonelli. fh 1=ng. Für die andere Richtung hilft Teil a) der vorigen
Aufgabe.
7.50 Verwenden Sie das Resultat von Aufgabe 7.13 und den
Zentralen Grenzwertsatz von de Moivre-Laplace.
8.36 Wie wirken beide Seiten der obigen Gleichung auf eine
7.51 a) X besitzt die Varianz s=.s 2/. b) Es gilt .x C Menge .a; b 2 I k ?
p
1=2/ .x/ x, x > 0.
8.40 Die durch an WD .1Cx=n/n , x 2 Œ0; 1, definierte Folge
7.52 Nutzen Sie die Summen-Struktur von Wm;n sowie die .an /n1 ist monoton wachsend.
Tatsache aus, dass der Vektor .r.X1 /; : : : ; r.Yn // unter H0 auf
den Permutationen von .1; : : : ; m C n/ gleichverteilt ist. Beach- 8.45 Benutzen Sie den Satz von der dominierten Konvergenz.
ten Sie auch, dass die Summe aller Ränge konstant ist.
8.46 Es kann o.B.d.A. f 0 angenommen werden.
8.17 Betrachten Sie die Funktion g.x/ D x 1 .1 C 8.49 Für Teil c) ist (8.19) hilfreich.
j log.x/j/2 .
8.50 Betrachten Sie zu einer Folge .An / mit .An / 2n
T S1
8.20 In b) ist bei „“ echte Inklusion gemeint. und .An / > " die Menge A WD 1nD1 kDn Ak .
8.22 Jede abgeschlossene Menge ist die abzählbare Vereini- 8.51 Nach dem Satz von Radon-Nikodým hat eine Dichte g
gung kompakter Mengen. bzgl. . Zeigen Sie: .fg > 1g/ D 0.
Lösungen zu den Aufgaben
Kapitel 2 Kapitel 4
2.5 A D G \ .K1 [ K2 [ K3 / \ .T1 [ T2 /, 4.3 G(1=2/
Ac D G c [ .K1c \ K2c \ K3c / [ .T1c \ T2c /.
4.15 Nein.
2.6
4.16 EX D 1=4, EY D 0, EX 2 D 3=2, EY 2 D 1=2,
a) A D A1 \ A2 \ A3 \ A4 V .X / D 23=16, V .Y / D 1=2, E.X Y / D 1=4.
b) A D A1 [ A2 [ A3 [ A4
c) A D A1 \ .A2 [ A3 [ A4 / 4.19 0:04508 : : :
d) A D .A1 [ A2 / \ .A3 [ A4 /.
4.27 Der Maximalwert wird im Fall … N für k D bc
nCk1
2.16 . und für 2 N für die beiden Werte k D und k D 1
k
angenommen.
2.17 1=2.
4.29 a) 6=65 , b) 150=65, c) 300=65, d) 1200=65, e) 1800=65,
Pn1
r n
f) 3600=65, g) 720=65.
2.34 rD0 .1/ r
.n r/k
Kapitel 5
Kapitel 3
1
5.3 Die Verteilungsfunktion von Y ist G.y/ D 2
C
3.1 2=3. 1
arcsin y, 1 y 1.
369
370 Lösungen zu den Aufgaben
371
Literatur
1. Arens T, Busam R, Hettlich F, Karpfinger Ch, Stachel H 13. Hald A (1998) A History of Probability and Statistics from
(2013) Grundwissen Mathematikstudium. Analysis und Li- 1750 to 1930. Wiley, New York.
neare Algebra mit Querverbindungen. Springer Spektrum, 14. Henze N (2018) Stochastik für Einsteiger. 12. Auflage.
Wiesbaden. Springer Spektrum, Wiesbaden.
2. Bernoulli J (1899) Wahrscheinlichkeitsrechnung (Ars 15. Henze N (2018) Irrfahrten – Faszination der Random Walks,
conjectandi). Ostwald’s Klassiker der exakten Wiss. 2. Auflage. Springer Spektrum, Wiesbaden.
Nr.107/108. Engelmann, Leipzig (Erstveröff. 1713) 16. Irle A (2005) Wahrscheinlichkeitstheorie und Statistik,
3. Bickel PJ, Hammel EA, O’Connel JW (1975) Sex bias in Grundlagen – Resultate – Anwendungen. 2. Auflage. Teub-
graduate admissions: Data from Berkeley. Science 187:398– ner, Stuttgart.
404. 17. Klenke A (2013) Wahrscheinlichkeitstheorie. 3. Auflage.
4. Billingsley P (1986) Probability and Measure. 2. Auflage. Springer Spektrum, Wiesbaden.
Wiley, New York. 18. Knuth DE (1997) The art of computer programming Vol. 2:
5. Billingsley P (1999) Convergence of Probability Measures. Seminumerical algorithms. 3. Auflage. Addison–Wesley.
2. Auflage. Wiley, New York. Reading, Massachusetts.
6. Brokate M, Henze N, Hettlich F, Meister A, Schranz- 19. Kolmogorov AN (1933) Grundbegriffe der Wahrschein-
Kirlinger G, Sonar T (2016) Grundwissen Mathematikstu- lichkeitsrechnung. Springer. Berlin, Heidelberg, New York,
dium. Höhere Analysis, Numerik und Stochastik. Springer Reprint 1973.
Spektrum, Wiesbaden. 20. Roters M (1988) Optimal stopping in a dice game. J Appl
7. Dudley RM (2002) Real analysis and Probability. Cam- Probab 35:229–235.
bridge University Press, Cambridge, UK. 21. Rüschendorf L (2014) Mathematische Statistik. Springer
8. Ebner B, Henze N (2013) 2013–Internationales Jahr der Sta- Spektrum, Wiesbaden.
tistik. DMV-Mitteilungen 4:12–18. 22. Stigler, St M (2003) The History of Statistics. The Mea-
9. Efron B (1979) Bootstrap methods: Another look at the surement of Uncertainty before 1900. The Belknap Press
jackknife. Ann. Statist. 7:1–26. of Harvard University Press. Cambridge, Massachusetts and
10. Elstrodt J (2011) Maß- und Integrationstheorie. 7. Auflage. London, England. Ninth printing.
Springer. Berlin, Heidelberg. 23. Ville, J (1939) Étude critique de la notion de collectif. Gau-
11. Ferguson TS (1996) A Course in Large Sample Theory. thier Villars, Paris.
Chapman & Hall, London. 24. Walter, W (1991) Analysis II, 2. Auflage. Springer. Berlin,
12. Hald A (1990) A History of Probability and Statistics and Heidelberg.
their Applications before 1750. Wiley, New York.
373
Stichwortverzeichnis
375
376 Stichwortverzeichnis
vom totalen Erwartungswert, 108 gleichgradige Integrierbarkeit, 200, 211 Additivität, 330
von Bayes, 51 gleichmäßig bester Test, 272 Aufbau des, 327
von der totalen Wahrscheinlichkeit, 51 Gleichverteilung Differenziation unter dem, 337
von Jordan, 88, 123 auf einem Intervall, 138, 159 Dreiecksungleichung, 330
Fortsetzungssatz Dichte, 138 Eigenschaften des -, 330
für Maße, 313 Erwartungswert, 147 explizite Berechnung des -, 329
Fourier, Jean-Baptiste-Joseph de, 160 Momente, 149 Homogenität, 330
Fourier-Transformierte, 160 Verteilungsfunktion, 138 Monotonie, 330
F-Test für den Varianzquotienten, 264 auf einer Menge im Rk , 131 -, 327, 329, 330
Fubini diskrete, 21 über Teilmengen, 341
Satz von, 351 Glivenko, Waleri Iwanowitsch, 277 Zusammenhang zwischen - und -, 343
Fubini, Guido, 351 Glivenko-Cantelli Integral von Dirichlet, 332, 352
Fundamentalprinzip des Zählens Satz von, 277 Integration bezüglich f , 343
erstes, 28 Glücksspirale, 42 integrierbare Majorante, 336
zweites, 28 Gosset, William Sealy, 232, 249 Integrierbarkeit
Funktion Graunt, John, 232 gleichgradige, 200, 211
charakteristische, 160 Grenzverteilung, 207 -, 329
Elementar-, 327 Grundraum, 10, 302 p-fache, 337
erzeugende, 112 Gruppen-Screening, 120 quadratische, 337
maßdefinierende, 314 Gütefunktion, 257 Quasi-, 330
numerische, 320 des einseitigen Ein-Stichproben-t-Tests, 260 Integrierbarkeitkriterien, 330
Verteilungs-, 314 des einseitigen Gauß-Tests, 259 Intensität, 99
Funktionenfolge des zweiseitigen Binomialtests, 258 Internet, 56
antitone, 328 des zweiseitigen Gauß-Tests, 259 invariante Verteilung, 68
isotone, 328 eines nichtrandomisierten Tests, 257 irreduzibel, 72
F-Verteilung, 264 eines randomisierten Tests, 272 iterierte Erwartungswertbildung, 108, 174
Gumbel, Emil Julius, 208
G Gumbelsche Extremwertverteilung, 208 J
Galilei, Galileo, 32 Jensen, Ludvig Valdemar, 146
Galton, Francis, 105, 115 H Jensen-Ungleichung, 146
Galton-Watson-Prozess, 115 Halbring, 306 für bedingte Erwartungen, 175
Aussterbewahrscheinlichkeit, 115 Halley, Edmond, 232 Jordan, Camille, 315
kritischer, 115 Hauptkomponentendarstellung, 141 Jordan, Károly, 88
subkritischer, 115 Hausdorff, Felix, 301 Jordan-Inhalt, 315
superkritischer, 115 Hausdorff-Maß, 326 Jordan-messbare Menge, 315
Gammafunktion, 149 Heine-Borel Jordansche Formel, 88, 123
Gammaverteilung, 156, 159 Satz von, 316
Additionsgesetz, 156 Helly K
Dichte, 156 Auswahlsatz von, 211 kanonische Konstruktion, 19, 231
Erwartungswert, 156 Helly, Eduard, 211 kartesisches Produkt, 322
Loglikelihood-Gleichungen, 295 Herglotz, Gustav, 164 k-dimensionale Normalverteilung, 140
Momente, 156 Hölder, Ludwig Otto, 338 Hauptkomponentendarstellung, 141
Momentenschätzer, 240 Homogenität des Integrals, 330 Reproduktionsgesetz, 151
Varianz, 156 hypergeometrische Verteilung, 34, 94, 101, 120, Kepler, Johannes, 232
Gauß, Carl Friedrich, 104 296 Kleinste-Quadrate-Schätzer, 269
Gauß-Test als bedingte Verteilung, 120 Kniffel, 121
einseitiger, 259 Erwartungswert, 120 Koinzidenz-Paradoxon, 26
zweiseitiger, 259 mehrdimensionale, 120 Kolmogorov, Andrej Nikolajewitsch, 16, 279
Geburtstagsproblem, 36, 60 Varianz, 103 Kolmogorov-Kriterium, 207
Geiger, Hans Wilhelm, 99 Hypothese, 256 Kolmogorovsches
gemeinsame Verteilungsfunktion, 59, 133 einfache, 273 Axiomensystem, 17
geometrische Verteilung, 95, 101 Null-Eins-Gesetz, 64
Erwartungswert, 95, 121 I Kolmogorov-Smirnov
Gedächtnislosigkeit, 95, 123 Indikator, 15 -Abstand, 279
Stabdiagramme, 95 Indikatorfunktion, 15 -Anpassungstest, 279
Varianz, 95, 121 Indikatorsumme, 15 Kolmogorov-Verteilung, 280
geometrischer Elementarinhalt, 309 Erwartungswert, 87 Kolmorogov-Ungleichung, 204
geordnete Stichprobe, 144 Varianz, 103 Kombination, 29
gepaarte Stichprobe, 263 Induktion mit Wiederholung, 29
Gesetz algebraische, 331 ohne Wiederholung, 29
großer Zahlen schwaches, 93 induziertes äußeres Maß, 312 Kommunikationsklasse, 72
großer Zahlen starkes, 201 Inhalt, 307 kommunizierende Zustände, 72
Null-Eins-, 64 Eigenschaften, 308 Komplement, 11
seltener Ereignisse, 97 Jordan-, 315 komplexwertige Zufallsvariable, 159
vom iterierten Logarithmus, 206 Monotonie, 308 Erwartungswert, 160
gewichtetes Mittel, 53 Subtraktivität, 308 Imaginärteil, 160
Gitterverteilung, 190 Inhaltsproblem, 301 Realteil, 160
Gleichgewichtsverteilung, 71 Integral Konfidenzbereich, 246
378 Stichwortverzeichnis
Willkommen zu den
Springer Alerts
Jetzt
•• Unser Neuerscheinungs-Service für Sie:
anmelden!
aktuell *** kostenlos *** passgenau *** flexibel