You are on page 1of 168

Grundlagen der Stochastik

In Anlehnung an die Vorlesung Grundlagen der Stochastik an der Georg-August-Universitt Gttingen a o von PD Dr. Fiebig im Wintersemester 2007/2008

Kirsten Bolze
Gttingen, bolze@math.uni-goettingen.de o

Frank Werner
Gttingen, fwerner@math.uni-goettingen.de o

Inhaltsverzeichnis

Inhaltsverzeichnis
Inhaltsverzeichnis Literatur Vorwort 1 Grundbegrie 1.1 Einfhrung . . . . . . . . . . . . . . . . . . . u 1.1.1 Mengentheoretische Verknpfungen . . u 1.1.2 Relative Hugkeiten . . . . . . . . . a 1.1.3 Axiomatik nach Kolmogoro (1939) . 1.2 Laplace Experimente . . . . . . . . . . . . . . 1.3 Allgemeine diskrete Wahrscheinlichkeitsrume a 1.4 Siebformeln . . . . . . . . . . . . . . . . . . . 1.4.1 Allgemeine Siebformeln . . . . . . . . 1.4.2 Die Bonferroni-Ungleichungen . . . . . 1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . und -funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 5 6 7 7 8 8 11 13 15 15 17 20 22 26 26 27 28 31 31 33 38 40 43 45 48 48 51 56 59 60 60 60 62 64 65 69 72 72 73 74 77 77 78 78 80 82 82 83 84 85

2 Kombinatorik 2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . 2.1.1 Ziehen mit Zurcklegen (Binomialverteilung) . . . . . . . u 2.1.2 Ziehen ohne Zurcklegen (Hypergeometrische Verteilung) u 2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . .

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a 3.1 Unabhngigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Mehrstuge Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstugen Modellen . . 3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . 3.4.1 Mit Produktexperimenten zusammenhngende Verteilungen . . . . . . . . . . a 4 Zufallsvariablen, Verteilungen 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . 4.1.1 Unabhngigkeit von Zufallsvariablen a 4.2 Verteilungen . . . . . . . . . . . . . . . . . . 4.2.1 Eigenschaften der Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Kenngren von Verteilungen o 5.1 Der Erwartungswert . . . . . . . . . . . . . . . 5.1.1 Erwartungswerte einiger Verteilungen . 5.1.2 Eigenschaften des Erwartungswertes . . 5.1.3 Produktformel . . . . . . . . . . . . . . 5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . 5.2.1 Varianzen einiger diskreter Verteilungen

6 Wahrscheinlichkeitsungleichungen und das SGGZ 6.1 Das schwache Gesetz groer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Faltung, bedingte Verteilungen und Korrelation 7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . 7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . 7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . 7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . 7.2.3 Anwendung der iterierten Erwartung . . . . . . . 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) 7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Inhaltsverzeichnis

8 Erzeugende Funktion und Verzweigungsprozesse 8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . 8.1.1 Modellbildung . . . . . . . . . . . . . . . . 8.1.2 Motivation . . . . . . . . . . . . . . . . . . 8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

87 92 92 92 92 95 95 98 99 100 100 102 104 105 105 106 106 107 108 108 108 111 114 117 122 125 125 126 127 133 133 135 136 139 140 141 146 147 150 150 152 154 154 155 156 159 161 162 163

9 Grenzwertsatz von de Moivre-Laplace 9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 10 Allgemeine Modelle und stetige Verteilungen 10.1 Allgemeine Wahrscheinlichkeitsrume und Zufallsvariablen . . . . . . . . . . . . . . . a 10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen 10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . 10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8 Unabhngigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . 10.10.1 Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10.2 Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . 11 Markov-Ketten mit endlichem Zustandsraum 11.1 Steuerung der Sprnge: Ubergangsmatrizen und -graphen . . . . u 11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . 11.1.2 Die Periode einer Ubergangsmatrix . . . . . . . . . . . . . 11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten 11.3 Invariante Mae und Konvergenzstze . . . . . . . . . . . . . . . a 11.4 Rckkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . u 11.4.1 Der Rckkehrzeitensatz . . . . . . . . . . . . . . . . . . . u 11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . 11.5.2 Ehrenfeld-Diusion . . . . . . . . . . . . . . . . . . . . . . 12 Schtzer und statistische Tests a 12.1 Punktschtzer . . . . . . . . . . . a 12.1.1 ML-Schtzer . . . . . . . a 12.1.2 Erwartungstreue Schtzer a 12.2 Statistische Tests . . . . . . . . . 12.2.1 Der einseitige Gautest . 12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A Tabelle der Standardnormalverteilung

B Kenngren der wichtigsten Verteilungen o 164 B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Stichwortverzeichnis 166

Literatur

Literatur
[Dehling/Haupt] Herold Dehling, Beate Haupt : Einf hrung in die Wahrscheinlichkeitstheorie und u Statistik Springerverlag Berlin, 1. Auage 2007, 306 Seiten, ISBN: 3-540-20380-X [Krengel] Ulrich Krengel: Einf hrung in die Wahrscheinlichkeitstheorie und Statistik u Viewegverlag, 8. Auage 2005, 257 Seiten, ISBN: 3-834-80063-5

Vorwort

Vorwort
Dieses Skript ist unter einigem Arbeitsaufwand whrend der Vorlesung Grundlagen der Stochastik von a PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universitt Gttingen entstanden. a o Der Begri der Stochastik umfasst heutzutage die Unterbegrie der Wahrscheinlichkeitstheorie und der Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, whrend die Statistik sich mit a der Analyse und Modellierung von Datenstrukturen befasst. Die Ursprnge der Stochastik als Wissenu schaft gehen auf das Glcksspiel (Wrfeln, Kartenspiel etc.) zurck und liegen etwa um 1630. Als erste u u u stellten Menschen wie Pascal oder Fermat Fragen wie Was ist wahrscheinlicher? Bei vier Wrfen mit u einem Wrfel eine 6 oder bei 24 Wrfen mit zwei Wrfeln eine Doppel-6 zu haben? u u u Der Begri der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprgt. a Die axiomatische Einfhrung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogou ro. Heutzutage ndet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualittskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Prmien oder a a in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse. In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus Prognosen fr die Daten gettigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geu a prft und neue Modelle geschaen werden. u Es handelt sich hierbei ausdrcklich nur um eine studentische Mitschrift, nicht um ein oziell vom Dou zenten herausgegebenes Skript. Trotz groer Anstrengungen sind sicherlich einige Fehler mathematischer wie auch sprachlicher Natur im Skript verblieben, was hoentlich nicht allzu groe Schwierigkeiten fr u das Verstndnis aufwerfen wird. a Gttingen, 23. Januar 2009 o Kirsten Bolze, Frank Werner

1 Grundbegrie

Motivation
Zur Motivation wollen wir zwei Beispiele fr stochastische Modelle angeben. u Europische Call-Option a

Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen zu knnen. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht? o Eine mgliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines o stochastischen Modells zur Entwicklung der Preisentwicklung gegeben: C = S(0) () k exp (r) t1 Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und die Voluntaritt a (Schwankung) des Marktes. ist gegeben als
1 rt1 + 2 t2 log = t1

k S(0)

und ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.

() =

x2 1 exp 2 2

dx

Fr dieses Modell wurde 1997 der Nobelpreis fr Okonomie verliehen. u u Spracherkennung

Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Fr jedes Wort wi in der deutschen Sprache u sei Wi das Ereignis w wurde gesprochen i

am grten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.A. durchlaufen, o um alle Wrter der deutschen Sprache abzudecken. o Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet fr jedes (!) i mit Hilfe stochastiu scher Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zustzlich a die relative Hugkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen a wir die Bayes-Formel P (A | wi ) P (Wi ) P (wi | A) = 100.000 P (A | wk ) P (Wk )
k=1

a Gesucht ist nun das Wort wi , das der Sprecher tatschlich gesagt hat, d.h. mit unserem Modell das Wort wi , fr welches u P (wi | A)

Der Nenner dieses Ausdrucks hngt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn a P (A | wi ) P (Wi ) maximal ist.

Grundbegrie

1.1 Denition: Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist. Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.

1 Grundbegrie

1.1

Einfuhrung

1.2 Denition: Ein diskreter Grundraum = {1 , 2 , ...} ist eine nicht leere, abzhlbare (oder endliche) Menge. a Ein Element nennen wir Ergebnis, eine Teilmenge A ein Ereignis. Beispiel 1.3: Fr einen Wrfelwurf mit einem Wrfel wre = {1, 2, 3, 4, 5, 6}. 5 entspricht dann dem Ergebnis u u u a 5 wurde geworfen und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gewrfelt. u 1.4 Denition: Sei ein diskreter Grundraum. Wir nennen das sichere Ereignis und das unmgliche Ereignis. o 1.1.1 Mengentheoretische Verkn pfungen u

Beispiel 1.5: Wir betrachten einen zweifachen Wrfelwurf. Ein geeigneter Grundraum hier ist u = {1, 2, 3, 4, 5, 6) {1, 2, 3, 4, 5, 6) = {1, 2, 3, 4, 5, 6} = {(i, j) | i, j N, 1 i, j 6} Wir betrachten die Ereignisse Beim ersten Wurf wird eine 6 gewrfelt u A = Beim zweiten Wurf wird eine 3 gewrfelt u Diese Ereignisse entsprechen dann den Teilmengen A = {(6, i) | i N, 1 i 6} und B = {(j, 3) | j N, 1 j 6} Dann ist A B = {(6, 3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt. 1.6 Denition: Sei ein diskreter Grundraum und seien Ai , i N sowie A, B Ereignisse. Dann entsprechen A und B treten ein dem Ereignis A B A oder B treten ein dem Ereignis A B Jedes der Ai , i N ist eingetreten dem Ereignis Ai
iN 2

A =

Mindestens eins der Ai , i N ist eingetreten dem Ereignis A ist nicht eingetreten dem Ereignis Ac := \ A.

Ai
iN

Man kann sich mittels Venn-Diagrammen gut Verknpfungen von Ereignissen verdeutlichen. u 1.7 Denition: Sei ein diskreter Grundraum und seien Ai , i N paarweise disjunkte Ereignisse, d.h. i = j Ai Aj = Dann schreiben wir auch Ai =:
iN iN

Ai

1 Grundbegrie

1.1.2

Relative Hugkeiten a

Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafr sind sogenannte u relative Hugkeiten: a 1.8 Denition: Sei 0 ein diskreter Grundraum. Die relative Hugkeit eines Ereignisses A 0 in einer Folge von a Relationen 1 , 2 , ..., n aus gleichwertigen Experimenten ist deniert als rn (A) := Beispiel 1.9: Bei 300 Wrfen einer Reizwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1 u das Ergebnis Spitze nach oben und 0 das Ergebnis Kopf nach oben. Dann ist := {0, 1}
300

1 # {j = 1, ..., n | j A} n

= {(1 , ..., 300 ) | i {0, 1} 1 i 300}

ein geeigneter Grundraum fr dieses Experiment. Auerdem setzt man 0 := {0, 1} als den Grundraum u fr einen einfachen Wurf der Reizwecke fest. Entsprechend ist fr n = 300 also u u = n 0 und es gilt rn ({1}) =
1 300

124.

Wir wollen nun einige oensichtliche Eigenschaften relativer Hugkeiten in einem Lemma festhalten: a 1.10 Lemma: Es gelten die folgenden Relationen: 0 rn (A) 1 A 0 . rn (0 ) = 1. rn (A + B) = rn (A) + rn (B) fr A, B mit A B = . u / gegen die Wahrscheinlichkeit P (A) Die Idee ist nun, dass die relativen Hugkeiten rn (A) fr n a u eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die relativen Hugkeiten fr immer grer werdendes n stabilsieren. Um diese Aussage auch beweisen zu a u o knnen, brauchen wir nun eine geeignete Axiomatik. o 1.1.3 Axiomatik nach Kolmogoro (1939)

1.11 Denition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (, P ), wobei ein diskreter Grundraum und P eine auf den Teilmengen P () denierte reellwertige Funktion ist, welche die folgenden Axiome erfllt: u (A1) Positivitt a Es gilt P (A) 0 fr alle A . u (A2) Normiertheit Es gilt P () = 1. (A3) -Additivitt a Fr jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... gilt u P
i=1

Ai

i=1

P (Ai )

P heit Wahrscheinlichkeitsma oder auch (Wahrscheinlichkeits-)Verteilung auf . P (A) ist die Wahrscheinlichkeit des Ereignisses A .

1 Grundbegrie

Folgerung 1.12 (Rechenregeln): (R1) Es ist P () = 0. (R2) Es gilt Additivitt, d.h. a


n n

P
i=1

Ai

=
i=1

P (Ai )

fr endlich viele paarweise disjunkte Mengen A1 , ..., An . u Beweis: (R1) Setze Ai = fr i = 1, 2, 3, .... Dann gilt u R P () = P
i=1

Ai

(A3)

i=1

P (Ai ) =

i=1

P ()

Aus der Konvergenz der Summe folgt P () = 0. (R2) Setze in (A3) Ai = fr i > n und benutze (R1). u In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erhlt, empirisch veriziert werden. a Beim Wurf der Reizwecke setzt man z.B. = {0, 1}, P (1) = 0.4 und P (0) = 0.6 (wobei 1 Spitze oben bedeutet) und besttigt sich dies so in unserem Versuch mit 300 Wrfen, denn a u r300 (1) = 124 176 0.4 und r300 (0) = 0.6 300 300

1.13 Denition: Sei eine Menge und A eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit Ac := \ A Wir erinnern uns an die de Morganschen Regeln: 1.14 Hilfssatz: Fr zwei Mengen M und N gelten: u Mc Nc = = (M N )
c c

(1.1) (1.2)

Mc Nc

(M N )

Beweis: Sei x M c N c . Dann gilt sicherlich entweder x M c oder x N c (oder beides), d.h. x M oder / x N (oder beides). Daher ist x M N und daher / / Ist andersherum x (M N ) , so ist x M N und daher entweder x N oder x M (oder beides). / / / Entsprechend gilt sicherlich x M c oder x N c was (1.1) zeigt. Sei x M c N c . Dann ist x M c und x N c , d.h. x M und x N . Daher gilt auch x M N und / / / entsprechend c x (M N )
c c

x (M N )

Ist andersherum x (M N ) , so ist x M N , also x M und x N . Das hat aber x M c und / / / x N c zur Folge und daher gilt x Mc Nc Das zeigt (1.2). Bemerkung 1.15: Natrlich verallgemeinern die de Morganschen Regeln sich direkt auf unendliche Vereinigungen und u Schnitte. Sind Ai , i N Mengen, so gilt:
i=1 i=1

Ac i Ac i

i=1

Ai
c

(1.3)

i=1

Ai

(1.4)

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.

10

1 Grundbegrie

1.16 Lemma (weitere Rechenregeln): Sei (, P ) ein diskreter Wahrscheinlichkeitsraum. A, B und Ai seien Ereignisse fr i N. Dann gilt: u (R3) P (A) = 1 P (Ac ) (R4) P (A) 1 fr alle A u (R5) P (A \ B) = P (A) P (B) falls B A (R6) P (B) P (A), wenn B A (R7) Fr beliebige endliche oder unendliche Folgen A1 , A2 , A3 , ... gilt u P
i

(Monotonie) (Boolesche Ungleichung)

Ai

P (Ai )
i

(R8) Falls A1 A2 A3 ..., so gilt P (R9) Falls A1 A2 A3 ..., so gilt P


i=1 i=1

(Stetigkeit von unten) Ai = lim P (Ai )


i

(Stetigkeit von oben) Ai = lim P (Ai )


i

Beweis: Zum Beweis werden nur die Kolmogoro-Axiome sowie die Folgerungen (R1) und (R2) benutzt: (R3) Es gilt = A Ac mit A, Ac disjunkt und damit 1 = P () = P (A Ac ) = P (A) + P (Ac ). Durch Umstellen erhlt man P (A) = 1 P (Ac ). a (R4) Da P (Ac ) 0 folgt mit (R3) P (A) = 1 P (Ac ) 1. (R5) Da A = (A \ B) B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \ B) + P (B). (R6) Nach Rechenregel (R3) ist P (B) = P (A) P (A \ B). Auerdem ist P (A \ B) 0 und es folgt die Behauptung. (R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 A2 ), ... d.h. Bn := An \ (A1 A2 ... An1 ) fr n N u Die Bi sind paarweise disjunkt und Bi Ai fr alle i N. Es gilt also u Bi =
iN iN (A1) (A1) (A2) (R2)

Ai

und damit P
iN

Ai

=P
iN

Bi

(A3)

iN

P (Bi )

(R4) iN

P (Ai )

(R8) Setze die Bi wie eben. Dann gilt: P


i=1 (A3)

Ai

P
i=1

i=1

Bi

P (Bi )
n

=
(R2)

lim

P (Bi )
i=1 n

lim P
i=1

Bi

lim P (An )

1 Grundbegrie

11

(R9) Gilt A1 A2 ..., so ist oenbar Wir berechnen daher P


i=1

Ac Ac ... 1 2
i=1 (R3) c

Ai

(1.4)

Ac i

1P

Ac i

i=1

(R8)

1 lim P (Ac ) i
i

(R3)

1 1 lim P (A1 )
i i

= was die Behauptung zeigt.

lim P (Ai )

1.2

Laplace Experimente

1.17 Denition: Ein Paar (, P ) heit Laplace-Raum, wenn = {1 , ..., n } endlich ist und fr alle A u P (A) = #A # gnstige Flle u a = # # mgliche Flle o a

gilt. P heit Laplace-Verteilung oder diskrete Gleichverteilung auf = {1 , ..., n }. Bemerkung 1.18: Sei (, P ) ein Laplace-Raum. Dann ist P ({}) = Beispiel 1.19: (1) Gegeben sei ein Wrfel. Wir setzen als Grundraum = {1, 2, ..., 6} mit P als der Laplace-Verteilung. u Uns interessiert das Ereignis A =gerade Zahl = {2, 4, 6}. Dann gilt: P (A) = #A #{2, 4, 6} 1 = = # 6 2 1 1 = # n

(2) Beim Wurf der Reizwecke liegt kein Laplace-Raum vor, da P (1) = 0.4 = 0.6 = P (0) (3) Man muss darauf achten den richtigen Laplace-Raum zu whlen. Beim (gleichzeitigen) Wurf a zweier fairer Mnzen ist die Wahrscheinlichkeit des Ereignisses u B = einmal Kopf und einmal Zahl wird geworfen gesucht. Modell 1: Wir setzen := {KK, KZ, ZK, ZZ} als Laplace-Raum. Das liefert P (B) = P ({KZ, ZK}) = #{ZK, KZ} 2 1 = = # 4 2

12

1 Grundbegrie

Modell 2: Wir setzen := {KK, KZ, ZZ} ohne Beachtung der Ordnung - das liefert P ({KZ}) = Dieses Ergebnis ist empirisch wiederlegbar. (4) Summe von Augenzahlen Es werde zwei Mal gewrfelt. Sei Am =Die Augensumme ist m fr m = 2, 3, ..., 12. u u 2 Unser Modell ist = {1, 2, ..., 6} = {(i, j) | 1 i, j 6} als Laplace-Raum, d.h. P (Am ) = Oenbar ist # = 36. Nun ergibt sich #A2 #A3 #A4 #A5 #A6 #A7 #A8 = #{(1, 1)} = #{(1, 2), (2, 1)} = #{(1, 3), (2, 2), (3, 1)} = #{(1, 4), (2, 3), (3, 2), (4, 1)} = #{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} = #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} = #{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} . . . = #{(6, 6)} = = = = = = = . . . = 1 2 3 4 5 6 5 P (A2 ) P (A3 ) P (A4 ) P (A5 ) P (A6 ) P (A7 ) P (A8 ) = = = = = = = . . . =
1 36 2 36 3 36 4 36 5 36 6 36 5 36

1 3

#Am #

#A12

1 P (A12 )

1 36

(5) Teilungsproblem des Luca Paccioli (1494) Zwei Spieler A und B wiederholen ein faires Spiel (z.B. Mnzwurf). Wer zuerst sechs Spiele gewonnen u hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist der Einsatz gerecht aufzuteilen? Um diese Frage zu beantworten, betrachten wir Verlufe, die zu einer Entscheidung fhren. Es a u ergeben sich die folgenden Modelle: a Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fllen. Damit gehen Einsatzes an Spieler A und 1 an Spieler B. 4
3 4

des

Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Denition 7 1 des Laplace-Raums gehen 8 des Einsatzes an Spieler A und 8 an Spieler B. (6) Wir werfen 10 mal eine Mnze. Gesucht ist die Wahrscheinlichkeit des Ereignisses u C = mindestens 1 mal tritt Kopf auf Unser Modell ist := {K, Z}10 = {(a1 , ..., a10 ) | ai {K, Z}} als Laplace-Raum. Es folgt # = 1024 und wir berechnen P (C) = #C #

mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen! P (C) = 1 P (C c ) = 1 # { Es tritt kein mal Kopf auf} 1 1023 #C c =1 =1 = # # 1024 1024

(7) Maxima von Augenzahlen Es wird k mal gewrfelt. Sei m {1, 2, ..., 6} und das Ereignis Bm =hchste Augenzahl ist m. u o Wir verwenden als Modell den Laplace-Raum := {1, ..., 6}k = {(a1 , ..., ak ) | ai {1, ..., 6}} Fr 1 m 6 setze Am als das Ereignis Am =alle Augenzahlen sind m fest und erhalte so u P (Am ) = mk #Am = k. # 6

Dann gilt Bm = Am \ Am1 und Am1 Am . Die Rechenregel (R5) liefert nun P (Bm ) = P (Am ) P (Am1 ) =

(m 1)k mk (m 1)k mk = . k k 6 6 6k

1 Grundbegrie

13

1.3

Allgemeine diskrete Wahrscheinlichkeitsrume und -funktionen a

1.20 Lemma: Ist (, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte P ({}) , Beweis: Sei A beliebig. Dann gilt

A=
A

{} =

{}

und diese Vereinigung ist abzhlbar, da der Grundraum selbst schon abzhlbar ist. Es folgt aus (A3): a a P (A) = P
A

{}

P ({}) .

Daher ist P durch die Werte in der Voraussetzung bereits festgelegt. Bemerkung 1.21: Wegen (A1) und (R4) ist bereits klar, dass 0 P ({}) 1 fr alle gilt. Genauso muss nach (A2) und (A3) auch u P ({})
(A3)

{}

= P ()

(A2)

gelten. Das veranlasst uns zu folgender 1.22 Denition: Sei ein diskreter Grundraum. Eine Abbildung p : / [0, 1] mit der Eigenschaft

p () = 1

heit Wahrscheinlichkeitsfunktion auf . Bemerkung 1.23: Ist P eine Wahrscheinlichkeitsverteilung auf , so ist p () := P ({}) wie oben gesehen eine Wahrscheinlichkeitsfunktion. Beispiel 1.24: Wir betrachten den zu einmaligem Wrfeln gehrigen Laplace-Raum. Dann ist die entsprechende Wahru o scheinlichkeitsfunktion p gegeben durch p (1) = p (2) = ... = p (6) = Beispiel 1.25: Wir betrachten wieder unser Beispiel der Reizwecke. Die hier entstehende Wahrscheinlichkeitsfunktion p ist gegeben durch p (1) = 0.4, p (0) = 0.6. 1.26 Satz: Sei ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf . Dann denieren wir durch P (A) :=
A

1 . 6

p () , A

eine Wahrscheinlichkeitsverteilung P auf .

14

1 Grundbegrie

Beweis: Wir mssen lediglich die Axiome (A1), (A2) und (A3) prfen. u u (A1) Sei A beliebig. Da p 0 gilt, folgt sofort P (A) =
A

p () 0.
0

(A2) Oenbar ist P () =

p () = 1.

(A3) Seien Ai paarweise disjunkt, i N. Dann ist P


i=1

Ai

p () .

i=1

Ai

Per Denition ist p 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der Disjunktheit der Ai : P Das zeigt die Behauptung. Bemerkung 1.27: Fr diskrete Grundrume haben wir also folgendes: u a Die Menge M aller Wahrscheinlichkeitsverteilungen P auf und die Menge aller Wahrscheinlichkeitsfunktionen p auf lassen sich bijektiv durch P p, p () := P ({}) , ineinander abbilden. Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen arbeitet. Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie = [0, 1] oder = R macht eine Frage nach P ({a}), a - also nach der Wahrscheinlichkeit eines einzelnen Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wre stets 0. a Man stelle sich Beispielsweise einen Zufallsgenerator vor, der gleichverteilt Zahlen aus [0, 1] zieht. Die Wahrscheinlichkeit, dass eine 0 gezogen wird, msste dann 0 sein, aber die Summe uber alle Zahlen der u Wahrscheinlichkeiten wre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn! a Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzhlbare) Grundrume a a verallgemeinern und liefern so eine einheitliche Theorie fr alle Wahrscheinlichkeitsrume. u a Beispiel 1.28: Wir knnen einen geflschten Wrfel modellieren durch o a u p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2. Das deniert eine Wahrscheinlichkeitsfunktion auf = {1, 2, ..., 6}. Die zugehrige Wahrscheinlichkeitso verteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung. Beispiel 1.29: Auf = {2, 3, ..., 12} deniere die Wahrscheinlichkeitsfunktion p durch den Vektor 5 6 5 1 1 2 , , ..., , , , ..., 36 36 36 36 36 36 .

Ai

p () =

P (Ai ) .

i=1

i=1 Ai

i=1

1 2 Damit ist natrlich gemeint, dass p (2) = 36 , p (3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion deu niert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Wrfeln. u

1 Grundbegrie

15

1.4

Siebformeln

In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschtzen, wenn a wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (, P ) ein Wahrscheinlichkeitsraum. 1.30 Lemma: Sind A1 , A2 Ereignisse, so gilt P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . Beweis: Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 A2 ). Dann ist A1 A2 = B1 B2 und B1 B2 = . Daher gilt: P (A1 A2 ) =
(R2)

P (B1 B2 ) P (B1 ) + P (B2 ) P (A1 ) + P (A1 \ (A1 A2 )) P (A1 ) + P (A2 ) P (A1 A2 ) .

=
(R5)

Das zeigt die Behauptung. Beispiel 1.31: Wir denieren das Ereignis A als A:= Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 2 oder durch 5 teilbar a a Um P (A) zu berechnen denieren wir A2 := Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 2 teilbar a a A5 := Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 5 teilbar a a Dann gilt A = A2 A5 , oenbar ist P (A2 ) = P (A2 A5 )
50 100 1 = 2 , P (A5 ) = 20 100 1 5

und

= P ( Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 2 und durch 5 teilbar) a a 1 10 = . = P ( Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 10 teilbar) = a a 100 10 1 1 1 3 + = . 2 5 10 5

Nach Lemma 1.30 ist also P (A) = P (A2 ) + P (A5 ) P (A2 A5 ) =

Sind A1 , A2 , A3 nun drei Ereignisse, so ergibt sich als Siebregel P (A1 A2 A3 ) = P (A1 ) + P (A2 ) + P (A3 ) P (A1 A2 ) P (A1 A3 ) P (A2 A3 ) + P (A1 A2 A3 ) , wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus den folgenden allgemeinen Siebformeln. 1.4.1 Allgemeine Siebformeln

Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse, n 2. Setze Sk :=


1i1 <i2 <...<ik n

P (Ai1 ... Aik )

fr 1 k n. u 1.32 Satz (Siebformel von Poincare-Sylvester): Unter obigen Voraussetzungen gilt


n n

P
i=1

Ai

=
k=1

(1)

k1

Sk

16

1 Grundbegrie

Beweis: Wir zeigen die Aussage durch Induktion uber n. Induktionsanfang (I.A.): Lemma 1.30 liefert
n k1

P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) =


=S1 =S2

(1)
k=1

Sk

Induktionsvoraussetzung (I.V.): Gelte


n n

P
i=1

Ai

=
k=1

(1)

k1

Sk

fr alle Ereignisse A1 , ..., Am . u Induktionsschritt (n Wir setzen Dann gilt:


n+1

/ n + 1): B := A1 ... An

P
i=1

Ai

=
I.A.

P (B An+1 ) P (B) + P (An+1 ) P (B An+1 )


n

=
I.V.

P
i=1 n

Ai
k1

+ P (An+1 ) P Sk + P (An+1 ) P

Ai
i=1 n

An+1

(1)
k=1 n

i=1

(Ai An+1 )

I.V.

(1)
k=1 n

k1 1i1 <i2 <...<ik n

P (Ai1 ... Aik ) + P (An+1 ) P ((Ai1 An+1 ) ... (Aik An+1 ))

(1)
k=1

k1 1i1 <i2 <...<ik n

(1)
k=1 n

k1 1i1 <i2 <...<ik n

P (Ai1 ... Aik ) + P (An+1 ) P (Ai1 ... Aik An+1 ) P (Ai1 ... Aik ) + P (An+1 )

(1)
k=1

k1 1i1 <i2 <...<ik n n

P (Ai ) +
1in n k=2 k1

(1)

k1 1i1 <i2 <...<ik n

(1)
k=1

1i1 <i2 <...<ik n n1

P (Ai1 ... Aik An+1 ) P Ai1 ... Aik+1

P (Ai ) +
1in+1 n k=1 k1

(1)

k 1i1 <i2 <...<ik+1 n

(1)
k=1

1i1 <i2 <...<ik n

P (Ai1 ... Aik An+1 )

1 Grundbegrie

17

n+1

n1

=
i=1

P (Ai )

(1)
k=1

k1

1i1 <i2 <...<ik+1 n

P Ai1 ... Aik+1

+
1i1 <i2 <...<ik n n+1 n1

n1 P (A1 ... An ) P (Ai1 ... Aik An+1 ) (1) k1

=
i=1

P (Ai )
n1

(1)
k=1

1i1 <i2 <...<ik+1 n+1

(1)
n+1

=
i=1

P (Ai ) +
n

P (A1 ... An )
n

P Ai1 ... Aik+1

(1)

k1

k=2

+ (1) P (A1 ... An )


n+1

1i1 <i2 <...<ik n+1

P (Ai1 ... Aik )

=
k=1

(1)

k1

Sk

Es folgt die Behauptung. 1.4.2 Die Bonferroni-Ungleichungen

Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Wir beweisen hier zunchst die folgende Variante der Siebformel: a 1.33 Lemma: Es gilt
n n n

P
i=1

Ai

=
i=1

P (Ai )

i=1

Beweis: Wir setzen B1 := A1 und fr 2 k n: u


k1

i1

j=1

(Ai Aj )

(1.5)

k1

Bk := Ak \ Dann gilt

Ai
i=1

= Ak \
n

i=1

(Ai Ak )

Ai =
i=1 i=1

Bi

und die Mengen Bi sind disjunkt. Auerdem gilt wegen


k1

i=1

(Ai Ak ) Ak
k1

auch P (Bk ) = P (Ak ) P

i=1

(Ai Ak )

18

1 Grundbegrie

Damit folgt dann:


n n

P
i=1

Ai

= P
i=1 n

Bi

=
i=1 n

P (Bi )
i1

=
i=1 n

P (Ai ) P
n

j=1

=
i=1

P (Ai )

i=1

was die Behauptung zeigt. Mit den Bezeichnungen Sk :=


1i1 <i2 <...<ik n

i1

(Aj Ai ) (Aj Ai )

j=1

P (Ai1 ... Aik )

fr 1 k n kann man jetzt folgern: u Folgerung 1.34: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Dann gilt fr jedes m u {1, ..., n} die Formel
n m

Ai

(1)

i1

Si + (1)

i=1

i=1

1i1 <...<im n

Beweis: Der Beweis erfolgt durch Induktion nach m n. Induktionsanfang (I.A.): Das ist genau die bereits gezeigte Gleichung (1.5). Induktionsvoraussetzung (I.V.): Gelte (1.6). Induktionsschritt (m < n, m / m + 1):

i1 1 j=1

(Ai1 ... Aim Aj )

(1.6)

Wir wollen Gleichung (1.5) auf den Term P


j=1

i1 1

aus der Induktionsvoraussetzung anwenden. Setze dazu fr gegebene 1 j < i1 < ... < im n u Bj := Ai1 ... Aim Aj Dann gilt: P
i1 1 j=1

(Ai1 ... Aim Aj )

(Ai1 ... Aim Aj )

(1.5)

i1 1 j=1

i1 1 j=1

Bj

i1 1 j=1 j1

P (Bj )

P
k=1

(Bj Bk )

1 Grundbegrie

19

i1 1 j=1

P (Ai1 ... Aim Aj )


j1

i1 1 j=1

P
k=1

(Ai1 ... Aim Aj Ai1 ... Aim Ak )

i1 1 j=1

P (Ai1 ... Aim Aj )


j1

i1 1 j=1

P
k=1

(Ai1 ... Aim Aj Ak )

Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir


n

P
i=1 m I.V.

Ai
i1 1 j=1

(1)
i=1 m

i1

Si + (1)

m 1i1 <...<im n

=
i=1

(1)
i1 1 j=1

i1

Si + (1)

m 1i1 <...<im n

i1 1 j=1

(Ai1 ... Aim Aj )

P (Ai1 ... Aim Aj )

j1

P
k=1 i1

(Ai1 ... Aim Aj Ak )


m i1 1 1i1 <...<im n j=1

(1)
i=1

Si + (1)

P (Ai1 ... Aim Aj )

+ (1)
m

m+1

i1 1 1i1 <...<im n j=1

j1

P
k=1

(Ai1 ... Aim Aj Ak ) P Ai1 ... Aim+1

=
i=1

(1)

i1

Si + (1)

m 1i1 <...<im+1 n

=Sm+1

+ (1)
m+1

m+1 1i1 <...<im+1 n

i1 1 j=1

Ai1 ... Aim+1 Aj P


i1 1 j=1

=
i=1

(1)

i1

Si + + (1)

m+1 1i1 <...<im+1 n

was die Behauptung zeigt. Als einfache Folgerung erhalten wir nun 1.35 Satz (Bonferroni-Ungleichungen): Unter den Voraussetzungen wie oben gelten: (1) Fr ungerades m {1, ..., n} gilt u
n m

Ai1 ... Aim+1 Aj

P
i=1

Ai

(1)
i=1

i1

Si

(2) Fr gerades m {1, ..., n} gilt u P

Ai
i=1

(1)
i=1

i1

Si

20

1 Grundbegrie

Beweis: Nach Denition eines Wahrscheinlichkeitsraums ist fr jede Auswahl 1 i1 < ... < im n u Ist nun m {1, ..., n} ungerade, so folgt
n

i1 1 j=1

(Ai1 ... Aim Aj ) 0

P
i=1

Ai

(1.6)

(1)
i=1 m

i1

Si + (1)

m 1i1 <...<im n

=
i=1 m

(1)

i1

Si Si

1i1 <...<im n

i1 1 j=1

i1 1 j=1

(Ai1 ... Aim Aj )

(Ai1 ... Aim Aj )

(1)
i=1

i1

Ganz analog gilt fr jedes gerade m {1, ..., n}, dass u


n

P
i=1

Ai

(1.6)

(1)
i=1 m

i1

Si + (1)

m 1i1 <...<im n

=
i=1 m

(1)

i1

Si +
1i1 <...<im n

i1 1 j=1

i1 1 j=1

(Ai1 ... Aim Aj )

(Ai1 ... Aim Aj )

(1)
i=1

i1

Si

womit die Behauptung gezeigt ist. Bemerkung 1.36: Fr m = 1 liefert das genau die in (R7) unabhngig schon gezeigte Boolesche Ungleichung u a
n n

P
i=1

Ai

P (Ai )
i=1

(1.7)

1.4.3

Anwendung

Wir wollen hier eine Anwendung aus der Zuverlssigkeitstheorie diskutieren: a Korollar 1.37: Mgen die Voraussetzungen von oben gelten. Sind A1 , ..., An Ereignisse mit P (Ai ) 1 i fr Zahlen o u 0 i 1, i = 1, ..., n, so gilt
n n

P
i=1

Ai

i
i=1

1 Grundbegrie

21

Beweis: Es gilt
n

P
i=1

Ai

(R3)

1P 1P
n

Ai
i=1 n

(1.3)

Ac i
i=1

(1.7)

1 1 1

P (Ac ) i
i=1 n

(R3)

i=1 n

(1 P (Ai ))
n

Das zeigt die Behauptung.

i=1

(1 1 i ) = 1

i
i=1

In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur funktioniert, wenn alle Komponenten funktionieren. Dann ist Ai = Die i-te Komponente ist intakt und
n i=1

Ai = Das System ist intakt

Man erhlt so eine Abschtzung fr die Sicherheit des Systems, wenn man Abschtzungen fr die Sichera a u a u heit der Komponenten hat. Beispiel 1.38: Ist etwa P (Ai ) 0.99 fr alle i = 1, ..., n, also i = 0.01 fr alle i = 1, ..., n, so ist das System immerhin u u noch mit Wahrscheinlichkeit n n P Ai 1 100 i=1 intakt.

22

2 Kombinatorik

Kombinatorik

Hier wollen wir das sogenannte Urnen- und Fchermodell einfhren. Dazu betrachten wir vier verschiea u dene Grundrume I , II , III , IV die aus Urnen- bzw. Fchermodellen entstehen und bestimmen ihre a a Kardinalitten. In der Praxis werden I , II und III oft als Grundrume fr Laplace-Rume benutzt, a a u a IV ist spezieller. Beispiel 2.1: Wir wollen Wrfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer u Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem Zurcklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus u der selben Urne mit zurcklegen etc.. u Das realisiert genau Wrfeln als Laplace-Raum wie bereits bekannt. u

Urnenmodell I:

k-faches Ziehen mit Zurcklegen unter Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln, u u welche die Nummern 1 bis n tragen. Der Grundraum ist hier I = {(a1 , ..., ak ) | 1 ai n, i = 1, ..., n} wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Es ist #I = nk Das zugehrige Fchermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert o a werden und verteilt diese Kugeln in n Fcher. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird a als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet ist. Der Grundraum der Ergebnisse ist dann genau wie oben schon eingefhrt u I = {(a1 , ..., ak ) | 1 ai n, i = 1, ..., n} Beispiel 2.2: Das Fchermodell ndet etwa dann Verwendung, wenn sich k Kunden an n verfgbaren Schaltern ana u stellen oder in der Informatik k Jobs auf n Prozessoren verteilt werden.

Urnenmodell II:

k-faches Ziehen ohne Zurcklegen unter Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln, u u welche die Nummern 1 bis n tragen. Das ist oenbar nur fr k n mglich. u o Der Grundraum ist hier II = {(a1 , ..., ak ) | ai = aj fr i = j und ai {1, ..., n} fr i = 1, ..., k} u u wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Die Kardinalitt von II a berechnet sich wie folgt: Beim Ziehen der ersten Kugel gibt es n Mglichkeiten, beim Ziehen der zweiten Kugel n1 Mglichkeiten o o usw, daher ist n! =: (n)k #II = n (n 1) ... (n k + 1) = (n k)! Wir sprechen diese Zahl als n unten k. Das zugehrige Fchermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert o a werden und verteilt diese Kugeln in n Fcher. Diesmal ist aber jeweils maximal eine Kugel pro Fach a erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet ist.

2 Kombinatorik

23

Bemerkung 2.3 (Spezialfall): Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als II genau die Menge aller Permutationen der Zahlen {1, ..., n}, da in den Tupeln (a1 , ..., an ) jede Zahl aus {1, ..., n} genau einmal auftaucht. Man sieht mit obiger Formel sofort #II = (n)n = n! Beispiel 2.4: (1) Wir wollen die Wahrscheinlichkeit fr Fixpunkte von Permutationen berechnen. u Dazu sei k = n und II mit der Laplace-Verteilung versehen. Entsprechend gilt dann fr jede u Permutation (a1 , ..., an ) II der Menge {1, ..., n}, dass P ({(a1 , ..., an )}) = 1 1 = #II n!

Sei nun Ai := {(a1 , ..., an ) II | ai = i} das Ereignis Die Permutation hat an der Stelle i einen Fixpunkt. Dann gilt #Ai (n 1)! 1 P (Ai ) = = = i = 1, ..., n #II n! n da Ai genau die Menge aller Permutationen von {1, ..., n} ist, welche i festhlt, also nur n1-Zahlen a aus {1, ..., n} \ {i} permutiert. Das entspricht genau einer Permutation der Zahlen {1, ..., n} \ {i} {1, ..., n 1} = und deren Anzahl ist wie oben gesehen genau (n 1)!. (2) Eine Person probiert ihre n Schlssel zufllig an einem Schloss durch. Nur einer der Schlssel passt. u a u Sei Bi das Ereignis der i-te Schlssel passt. Wir bezeichnen die Schlssel mit 1, ..., n und nehmen u u durch Umnummerieren stets an, dass 1 der passende Schlssel ist. Als Modell verwenden wir wieder u II als Laplace-Raum. Dann ist Bi {(a1 , ..., an ) II | ai = 1} und entsprechend P (Bi ) = wie oben. #Bi 1 = #II n

Urnenmodell III:

k-faches Ziehen ohne Zurcklegen ohne Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln, u u welche die Nummern 1 bis n tragen. Das ist oenbar wieder nur fr k n mglich. u o Der Grundraum ist hier III = {T {1, ..., n} | #T = k} Einer Teilmenge T III entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen i T gezogen wurden (Reihenfolge egal!). Die Kardinalitt von II berechnet sich mit dem Prinzip des a Schfers:1 a Will man #III durch abzhlen berechnen, so erscheint dies sehr schwer. Man deniert also a f : II
1 Prinzip

/ III durch f ((a1 , ..., ak )) := {a1 , ..., ak }

des Schfers: a

Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zhlen. Man kann a auch die Anzahl der Beine auf der Wiese zhlen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe a Ergebnis: # Beine = # Schafe 4 Dieses Prinzip klingt zunchst sehr abstrus, aber oben wird die enorme Mchtigkeit des Prinzips klar. a a

24

2 Kombinatorik

Diese Abbildung ist wohldeniert, da wir fr jedes (a1 , ..., ak ) II gefordert hatten, dass die ai paarweise u verschieden sind. Man erhlt als Bild unter f also tatschlich eine k-elementige Teilmenge von {1, ..., n}. a a Ganz oenbar ist f surjektiv und jede Menge {a1 , ..., ak } III (Schaf) hat genau k! Urbilder (Beine) unter f , da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt: #III = #II Die Zahl
n k

(n)k 1 n! = = =: k! k! k! (n k)!

n k

wird auch Binomialkoezient oder n uber k genannt. Bemerkung 2.5 (Eigenschaften der Binomialkoezenten): (1) Es gilt n n = k nk (2) Der Binomische Lehrsatz besagt
n

(x + y) =
k=0

n k nk x y k

(3) Die Anzahl der mglichen Auswahlen o 1 i1 < ... < ik n (2.1)

- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigen Teilmengen von {1, ..., n} (einfach die Ordnung vergessen). Daher gibt es genau n k Mglichkeiten, Zahlen i1 , ..., ik wie in (2.1) auszuwhlen. o a Beispiel 2.6: Ein klassisches Beispiel fr das Urnenmodell III ist das gewhnliche Lotto. Hier werden 6 Kugeln aus u o 49 mglichen Kugel ohne Zurcklegen und ohne Bercksichtigung der Reihenfolge gezogen, d.h. es ist o u u n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T der gezogenen Kugeln entscheidend ist. Um die Wahrscheinlichkeit fr 6 Richtige zu berechnen, betrachten wir III als Laplace-Raum und erhalu ten so fr einen beliebigen festen Tip T = {a1 , ..., a6 } {1, ..., 49} die Wahrscheinlichkeit u P (T ) = #T = #III 1
49 6

1 13.983.816

6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich! Jetzt wollen wir noch das zugehrige Fchermodell entwickeln. o a Man betrachtet dazu die verschiedenen Mglichkeiten k nicht zu unterscheidende Kugeln auf n Fcher o a zu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur die Teilmenge der besetzten Fcher. a

Urnenmodell IV:

k-faches Ziehen mit Zurcklegen ohne Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln, u u welche die Nummern 1 bis n tragen. Als Ergebnis notieren wir nur das Tupel (k1 , ..., kn ), wobei die Zahl ki angibt, wie oft die Kugel mit der Nummer i gezogen wurde. Zwangslug gilt dann a
n

ki = k
i=1

2 Kombinatorik

25

Der Grundraum ist also


n

IV := Beispiel 2.7:

(k1 , ..., kn )

0 ki k i = 1, ...n und

ki = k
i=1

Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor (3, 0, 2, 4, 0, 1) welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel Nummer 3 usw.. Bevor wir die Kardinalitt von IV bestimmen wollen wir kurz das zugehrige Fchermodell vorstellen. a o a Man betrachte k Kugeln, die auf n Fcher verteilt werden - mit erlaubter Mehrfachbesetzung der Fcher a a - und zhle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind fr i = 1, ..., n. a u Beispiel 2.8: In der Praxis ndet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und man nachher die Auslastung der einzelnen Schalter betrachten will. Jetzt wollen wir #IV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen Raum, dessen Kardinalitt wir bereits kennen. a Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Lnge n + k 1. Wir betrachten jetzt 0 a als eine Kugel und 1 als die Markierung fr nchstes Fach. Unter dieser Identikation wird etwa das u a Ergebnis (3, 0, 2, 4, 0, 1) aus Beispiel 2.7 zur Folge 000110010000110 Wollen wir eine Bijektion zwischen IV und einer Teilmenge von {(ai , ..., an ) | ai {0, 1} fr i = 1, ..., n} u erhalten, so muss jede der Folgen genau n 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten wir oenbar eine Bijektion! Eine Folge der Lnge n + k 1 mit genau n 1 1en und k 0en ist aber bereits eindeutig durch die Auswahl a der Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen mssen 1en sein. u Daher ist n+k1 #IV = # {T {1, ..., n + k 1} | #T = k} = k wie oben berechnet. In Beispiel 2.7 ergibt sich also #IV = 10 + 6 1 10 = 15! = 3003 10!(15 10)!

Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konguration die Wahrscheinlichkeit 1 P (k1 , k2 , ..., kn ) = 0, 00033 #IV 2.9 Denition: Wir denieren den Multinomialkoezient als n k! k ki = k falls ki 0 1 i n, k1 !k2 !...kn ! := i=1 k1 , k2 , ..., kn 0 sonst Bemerkung 2.10: Fr den Fall k = 2 kennen wir dies bereits als den Binomialkoezienten. Sei k = k1 + k2 , dann gilt: u k k1 , k2 = k! k! = k1 ! k2 ! k1 !(k k1 )!

2.11 Lemma: Die Anzahl der Mglichkeiten eine Menge A der Kardinalitt k in n Teilmengen A1 , ..., An mit #Ai = ki o a
n

und
i=1

ki = k zu zerlegen ist gegeben durch k k1 , k2 , ..., kn = k! k1 ! k2 ! ... kn !

26

2 Kombinatorik

Beweis: k o a u Fr A1 gibt es k1 Mglichkeiten, Elemente auszuwhlen. Dann ist #(A \ A1 ) = k k1 und es gibt fr u o o a u A2 nur noch kk1 Mglichkeiten, Elemente auszuwhlen. Fr A3 bleiben kk13k2 Mglichkeiten usw.. k k2 Die Gesamtzahl der Mglichkeiten A in Teilmengen der Gre k1 , ..., kn zu zerlegen betrgt also o o a k k1 = = k k1 k2 k k1 k2 k3 ... k k1 k2 ... kn1 kn

k! (k k1 )! (k k1 k2 )! kn ... k1 !(k k1 )! k2 !((k k1 k2 )! k3 !(k k1 k2 k3 )! kn k! k1 ! k2 ! ... kn !

Das zeigt die Behauptung. Beispiel 2.12 (zum Vergleich zu Beispiel 2.7): Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums I = {(a1 , ..., ak ) | ai 1, ..., n fr 1 i k} u und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fcher a verteilt. ai ist das Fach der i-ten Kugel. Sei Ak1 ,k2 ,...,k6 = {(a1 , ..., a6 ) | genau k1 der ai s sind 1, k2 der ai s sind 2, ..., kn der ai s sind 6} Laut Lemma 2.11 ist #Ak1 ,...,k6 = und daher gilt P (Ak1 ,k2 ,...,kn ) = Einsetzen in (2.2) liefert nun P (A3,0,2,4,0,1 ) = P (A10,0,0,0,0,0 ) = P (A2,2,2,2,1,1 ) = 10! 1 0, 0002 61 0 4! 0! 2! 3! 0! 1! 1 10! 0, 000000017 610 10! 1 10! 0, 0037 10 2! 2! 2! 2! 1! 1! 6 1 k! nk k1 ! ... kn ! (2.2) k k1 , ..., k6

Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustnde gem a a der Laplace-Verteilung auf IV .

2.1

Binomial- und Hypergeometrische Verteilung

Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N R weie Kugeln enthalten sind. Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurcklegen) gezogen. u Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen. 2.1.1 Ziehen mit Zur cklegen (Binomialverteilung) u I = {(a1 , a2 , ..., an ) | 1 ai N } mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er ), wobei Er = {(a1 , a2 , ...an ) | #{i | ai {1, 2, ..., R}} = r} Er entspricht den r roten Kugeln, anders gesagt den r Erfolgen. Wir wollen nun #Er bestimmen: Sie I {1, 2, ..., n} die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist Er die disjunkte Vereinigung aller Ereignisse EI = {(a1 , a2 , ..., an ) | ai {1, 2, ..., R} i I}

Gegeben sei

2 Kombinatorik

27

uber alle r-elementigen Teilmengen I {1, 2, ..., n}. Fr festes I ist u #EI = Rr (N R)nr und es gibt
n r

Teilmengen I {1, 2, ..., n} mit #I = r. Damit ist #Er 1 n = n Rr (N R)nr = #I N r n r R N 1 R N


nr

P (Er ) =

2.13 Denition (Binomialverteilung): Fr p [0, 1] und n N heit u binn,p (j) = b(n, p, j) = n j p (1 p)nj , j 0jn

die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n. Beispiel 2.14 (M nzwurf ): u n-maliges Werfen einer Mnze ist wie Ziehen mit Zurcklegen aus einer Urne mit 2 Kugeln. Wir modelu u lieren mit Hilfe der Binomialverteilung: P ( k mal Kopf) = 2.1.2 n k 1 2
k

1 2

nk

n k

1 2

Ziehen ohne Zur cklegen (Hypergeometrische Verteilung) u

Man zieht eine Teilmenge T von n N Kugeln. Wir betrachten den Grundraum III = {T {1, 2, ..., N } | #T = n} und damit ist #III = Er
N n

. Die Kugeln 1, 2, ..., R seien rot. Hier ist

= {T {1, 2, ..., N } | # (T {1, ..., R}) = r, #T = n} = {T {1, 2, ..., N } | #(T {1, 2, ..., R}) = r, #(T {R + 1, ..., N }) = n r}
N R nr

Dabei gibt es genau R Teilmengen von {1,2,...,R} der Kardinalitt r und a r dinalitt n r von {R + 1, ..., N }. Damit folgt a #Er = 2.15 Denition: Wir nennen hyp(r, n, R, N ) := P (Er ) = #Er = #III R N R r nr

Teilmengen der Kar-

R r

N R nr N n

die hypergeometrische Verteilung zu den Parametern n, N und R. Beispiel 2.16 (Skat): Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit fr das Ereignis Spieler 1 bekommt 3 Asse gesucht. u Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen. Gesucht: P (3 Erfolge) = P (E3 ) Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung: P (E3 ) = hyp(3, 10, 4, 32)
4 3 32 10

28 7

66 0, 073 899

28

2 Kombinatorik

2.2

Das Stimmzettelproblem

Die Auszhlung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenber a u Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses 2.17 Satz: Wenn a > b, so ist E:= A liegt whrend der gesamten Auszhlung in Fhrung. a a u

P (E) = und hngt damit nur vom Quotienten a


b a

1+

b a b a

ab.

Beweis: Wir stellen die Auszhlung der Stimmzettel als Pfad da. Der Pfad a B,B,A,A,A,B,A,A,B entsprche dann also der Auszhlung a a erste Stimme fr B, zweite Stimme fr B, dritte Stimme fr A usw. u u u Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen: Stimmen fr A u 5 4 3 2 1 0 0 1 2 3 4

u 5 Stimmen fr B

Abbildung 1: Der Auszhlungspfad B,B,A,A,A,B,A,A,B a Wir betrachten dazu also als Laplace-Raum. Ein Pfad aus wird oenbar schon durch die Zeitpunkte der A-Stimmen eindeutig festgelegt und hat logischerweise Lnge a + b, daher gilt a # = Wir wollen jetzt disjunkt zerlegen. Sei dazu E1 E2 E3 = {Pfade oberhalb der Diagonalen} = {Pfade durch (0, 1) , die nicht oberhalb der Diagonalen liegen} = {Pfade, die durch (1, 0) verlaufen}
3

= {Pfade von (0, 0) nach (b, a)}

a+b b

Da jeder Pfad, welcher oberhalb der Diagonalen verluft, automatisch durch (0, 1) verlaufen muss, gilt a dann =
i=1

Ei

2 Kombinatorik A 2 1 0 0 1 2 A 2 1 0 0 1 2 A 2 1 0 0 1 2

29

Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1 , aus E2 und aus E3 Gesucht ist in diesem Zusammenhang natrlich u P (E) = P (E1 ) = #E1 #

a und wir knnen #E1 uber #E1 = # #E2 #E3 berechnen. Die Kardinalitt #E3 von E3 ist oenbar o #E3 = a+b1 a = Anzahl der Pfade der Lnge a + b 1 von (1, 0) nach (b, a) a

da jeder Pfad aus E1 genau eins krzer ist als ein Pfad aus . Jetzt verwenden wir folgendes u 2.18 Lemma (Spiegelungsprinzip): Falls a > b, so gilt #E2 = #E3 Beweis: Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schlielich bei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad von (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2 . A 2 1 0 0 1 2 A 2 = 1 0 0 1 2

Abbildung 3: Verdeutlichung des Spiegelungsprinzips Diese Abbildung ist oenbar bijektiv. Damit folgt dann sofort #E1 = # 2#E3 = Daraus folgt P (E) = #E # = = = = = und das zeigt die Behauptung. 1 2
a+b1 a a+b a

a+b a+b1 2 b a

12 12

b a+b a + b 2b a+b

(a + b 1)!a!b! a! (b 1)! (a + b)!

1 ab = a+b 1+

b a b a

30

2 Kombinatorik

Beispiel 2.19: Wir betrachten die Wahlergebnisse a = 100 a = 200 In beiden Fllen ist a und b = 50 und b = 100. (2.3) (2.4)

b 1 = a 2 und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A whrend der a gesamten Auszhlung in Fhrung lag, in beiden Fllen (2.3) und (2.4) bei a u a P (E) = liegt. 1 1+
1 2 1 2

1 3

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

31

3
3.1

Unabhngigkeit, bedingte Wahrscheinlichkeiten und a mehrstuge Experimente


Unabhngigkeit a

Wir beginnen mit einem motivierenden Beispiel. Beispiel 3.1: Man betrachtet das Werfen zweier Wrfel und die Ereignisse u Augensumme ist gerade B = Mindestens eine 6 Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinusst. Dazu simulieren wir n = 10.000 Wrfe mit zwei Wrfeln und erhalten in unserer Simulation, dass das Ereignis u u A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A B (also A und B gleichzeitig) genau hAB = 1386 mal eintritt. Wenn B keinen Einuss auf das Eintreten von A hat, so sollte hA hAB n hB gelten. Wir knnen diese Aussage auf relative Hugkeiten umformen: o a hAB hA hB . n n n Der Ubergang von relativen Hugkeiten zu Wahrscheinlichkeiten liefert nun die folgende a 3.2 Denition: Sei (, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A, B heien unabhngig, falls a P (A B) = P (A) P (B) gilt. Beispiel 3.3: Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhngig sind, denn a hA hB hAB = 0.1386 = 0.155 . n n n Um diese Aussage anhand der Denition nachzuprfen betrachtet man = {1, 2, 3, 4, 5, 6} als Laplaceu Raum und hat damit A = {(1, 1) , (1, 3) , (1, 5) , (2, 2) , ..., (6, 6)} , B = {(1, 6) , ..., (6, 6) , (6, 1) , ..., (6, 5)} . P (A) = Jetzt berechnet man noch und hat damit A B = {(2, 6) , (4, 6) , (6, 6) , (6, 2) , (6, 4)} P (A B) = 11 1 und P (B) = . 2 36 Also gilt #A = 18 und #B = 11. Das liefert
2

A =

#A B 5 11 1 11 = = = = P (A) P (B) . # 36 78 2 36 Die angegebenen Ereignisse A und B sind also in der Tat abhngig. a Beispiel 3.4: Betrachte wieder das Setting aus Beispiel 3.1 und das zustzliche Ereignis a C = Der erste Wurf ist eine 6 Wir wollen zeigen, dass A und C unabhngig sind. Dazu berechnen wir a P (A C) = P ({(6, 2), (6, 4), (6, 6)}) = was diese Aussage zeigt. 1 1 1 3 = = = P (A) P (C) , 36 12 2 6

32

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Beispiel 3.5: Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot und Kugel 3 wei. Wir wollen zwei Ziehungen durchfhren und betrachten die Ereignisse u A = B erster Zug rot = zweiter Zug wei

Ziehen wir mit Zurcklegen, so ist oenbar = {(i, j) | 1 i, j 3} und daher # = 9. Das liefert u P (A) = 1 2 2 2 , P (B) = , P (A B) = P ({(1, 3) , (2, 3)}) = = = P (A) P (B) . 3 3 # 9

Mit Zurcklegen sind A und B also unabhngig. u a u Ziehen wir ohne Zurcklegen, so ist oenbar = {(i, j) | 1 i, j 3, i = j} und daher # = 6. Das liefert P (A) = 2 , 3 2 1 = , # 3 2 2 = = P (A) P (B) . # 6

P (B) = P ({(1, 3) , (2, 3)}) = P (A B) = P ({(1, 3) , (2, 3)}) = Ohne Zurcklegen sind A und B also abhngig! u a

Bemerkung 3.6: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A, B zwei Ereignisse mit A B = . Dann knnen o A und B oenbar nur dann unabhngig sein, wenn a 0 = P (A B) = P (A) P (B) , d.h. wenn entweder P (A) = 0 oder P (B) = 0 gilt. Jetzt wollen wir unsere Denition auf n Ereignisse A1 , ..., An des Wahrscheinlichkeitsraumes (, P ) verallgemeinern. Wir denieren dazu wie folgt: 3.7 Denition: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Wir nennen A1 , ..., An unabhngig, falls fr jede Auswahl von k Indizes i i1 < ... < ik n, 1 k n a u beliebig, die Gleichung
k k

gilt.

j=1

Aij =

P Aij

j=1

Diese Denition mag zunchst etwas unintuitiv erscheinen, sie ermglicht aber folgendes a o 3.8 Lemma: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An unabhngige Ereignisse. a (1) Fr jede Auswahl 1 k n und 1 i1 < ... < ik n beliebig ist dann auch die entstehende u a Teilfamilie Ai1 , ..., Aik unabhngig. (2) Sei Bi = Ai oder Bi = Ac fr jedes 1 i n. Dann sind auch die Ereignisse B1 , ..., Bn unabhngig. a i u Beweis: (1) Diese Aussage ist mit der Denition sofort klar. (2) Oenbar gengt es zu zeigen, dass die Ereignisse Ac , A2 , ..., An ebenfalls unabhngig sind. Den u a 1 allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue Vorgehen dafr kann man etwa bei [Dehling/Haupt] nachlesen.). u Wir wollen die oenbar gltige Gleichung u P (Ac B) = P (B) P (A B) (3.1)

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

33

nutzen. Seien nun 1 i1 < ... < ik n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu zeigen. Ist i1 = 1, so gilt P (Ac ... Aik ) 1
(3.1)

P (Ai2 ... Aik ) P (A1 Ai2 ... Aik ) P (Ai2 ) ... P (Aik ) P (A1 ) ... P (Aik )
k

Unabhngigkeit von A1 ,Ai2 ,...,Aik a

(1 P (A1 ))
k

P Aij
j=2

= was die Behauptung zeigt.

P (Ac ) 1

P Aij
j=2

Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Denition nicht nur die Unabhngigkeit aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschied a ist: Beispiel 3.9 (Paarweise Unabhngigkeit impliziert nicht Unabhngigkeit): a a Wir betrachten de dreifachen Mnzwurf, also = {K, Z} mit der Laplace-Verteilung. Wir betrachten u die Ereignisse A1 A2 A3 Scheinbar ist dann P (A1 ) = erster Wurf = zweiter Wurf = zweiter Wurf = dritter Wurf = erster Wurf = dritter Wurf 4 1 # {KKK, KKZ, ZZZ, ZZK} = = # 8 2 =
3

1 und ganz analog P (A2 ) = P (A3 ) = 2 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte:

P (A1 A2 ) = Wegen
1 2

# {KKK, ZZZ} 1 = = P (A1 A3 ) = P (A2 A3 ) . # 4

1 2

1 4

sind also A1 , A2 und A3 paarweise unabhngig. Da aber a 1 1 1 1 = 4 2 2 2

P (A1 A2 A3 ) = P ({KKK, ZZZ}) = P (A1 A2 ) = P (A1 A3 ) = P (A2 A3 ) = a sind die Ereignisse A1 , A2 und A3 insgesamt nicht unabhngig.

Das ergibt anschaulich auch Sinn, schlielich erzwingt das Eintreten von A1 und A2 bereits das Eintreten von A3 und umgekehrt.

3.2

Bedingte Wahrscheinlichkeiten

Bei n Versuchen trete das Ereignis A B mit Hugkeit hAB und das Ereignis B mit Hugkeit hB = 0 a a auf. Anschaulich ist dann die relative Hugkeit des Auftretens von A, gegeben B tritt auf a gegeben als hAB = hB
hAB n hB n

in relativen Hugkeiten. a Der Ubergang von relativen Hugkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende a 3.10 Denition: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A, B Ereignisse. Ist P (B) > 0, so ist P (A | B) := P (A B) P (B)

die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.

34

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Beispiel 3.11: Wir Wrfeln einfach mit einem fairen Wrfel. Dazu verwenden wir = {1, 2, 3, 4, 5, 6} mit der Laplaceu u Verteilung. Sei A = {4, 5, 6} und B = {2, 4, 6}. Dann ist P (A) = P (B) = und P (A B) = P ({4, 6}) = Das liefert P (A | B) =
2 3

1 2 1 . 3

mit der Denition.

Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon wei, dass eine gerade Zahl gewrfelt u wurde, so ist die Wahrscheinlichkeit, dass der Wurf 4 ist, genau 2 . 3 Beispiel 3.12: Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir = {JJ, JM, M J, M M } mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafr ausrechnen, dass die Familie u zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also A := {JJ} B Dann ist A B = {JJ} und daher gilt P ( 2 Jungen | mindestens 1 Junge) = P (A | B) = 3.13 Satz (Multiplikationsformel): Sei (, P ) ein Wahrscheinlichkeitsraum. (1) Sind zwei Ereignisse A, B gegeben, so gilt P (A B) = P (A | B) P (B) . (2) Sind n Ereignisse A1 , ..., An gegeben, so gilt
n1

:= {JJ, JM, M J} . 1 P (A B) = . P (B) 3

P (A1 ... An ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) ... P Beweis: (1) Es gilt per Denition P (A | B) P (B) = (2) Einsetzen der Denition liefert P (A B) P (B) = P (A B) . P (B)

An
i=1

Ai

n1

P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) ... P


n

An
i=1

Ai

= P (A1 )

k=2

P Ak
k

k1

j=1

Aj

P
j=1 k1

Aj Aj
j=1

= P (A1 )

k=2

P
k

= P (A1 )

k=2

j=1

Aj

1
k1

k=2

P
j=1

Aj

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

35

n1

= P (A1 )

k=2

P
n

j=1

Aj

1
k

k=1

P
j=1

Aj

= P (A1 ) P = P
n j=1

j=1

Das zeigt die Behauptung. Beispiel 3.14:

Aj .

Aj

1 P (A1 )

Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhlt. a Sei dazu Ai := der i-te Spieler hat genau ein Ass fr i = 1, 2, 3 u Mit der hypergeometrischen Verteilung sieht man schnell P (A1 ) =
4 1 28 9 32 10

, P (A2 | A1 ) =

3 1

19 9 22 10

, P (A3 | A1 A2 ) =

2 1

10 9 12 10

Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit: P (A1 A2 A3 ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) = 385 3 10 50 = . 899 7 33 899

3.15 Satz: Sei (, P ) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann denieren wir durch PB (A) := P (A | B) , A eine Wahrscheinlichkeitsverteilung auf . Beweis: Wir mssen die Axiome (A1) bis (A3) nachprfen: u u (A1) Sei A beliebig. Da P eine Wahrscheinlichkeitsverteilung auf ist, gilt PB (A) = P (A | B) = (A2) Oenbar ist PB () = P ( | B) = P ( B) P (B) = = 1. P (B) P (B) P (A B) 0. P (B)

(A3) Seien Ai paarweise disjunkt, i N. Dann gilt PB


i=1

Ai

P P

i=1

Ai | B Ai B

i=1

= P =
(A3) f r P u

P (B)
i=1

(Ai B)
i=1

P (B)
i=1

P (Ai B) = P (B)

PB (Ai ) .

36

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Das zeigt die Behauptung. Bemerkung 3.16: Damit gelten die Rechenregeln (R1) bis (R9) auch fr PB , d.h. zum Beispiel u P (Ac | B) = PB (Ac ) = 1 PB (A) = 1 P (A | B) fr zwei Ereignisse A, B , P (B) > 0 usw.. u Bemerkung 3.17: Die Wahrscheinlichkeitsfunktion pB zu PB ist oenbar gegeben als pB () = PB ({}) = Beispiel 3.18: Wir wrfeln zweifach mit einem fairen Wrfel. Dazu nutzen wir wieder = {1, 2, 3, 4, 5, 6} als Grundu u raum mit der Laplace-Verteilung. Betrachte das Ereignis B = Augensumme ist 10 Dann ist P (B) = durch den Vektor
6 36 2

P ({} B) = P (B)

P ({}) P (B)

falls B , falls B /

A.

1 36

und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen ist 3 2 1 0, 0, 0, 0, 0, 0, 0, 0, , , 6 6 6

(pB (2) , pB (3) , ..., pB (12)) = gegeben. 3.19 Satz: Sei (, P ) ein Wahrscheinlichkeitsraum. (1)

(Formel von der totalen Wahrscheinlichkeit) Sei Bi , i I eine abzhlbar unendliche oder endliche disjunkte Zerlegung von . Dann gilt fr alle a u A die Formel P (A) =
iI

P (Bi ) P (A | Bi )

(3.2)

(2)

(Formel von Bayes) Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt fr jedes k I: u P (Bk | A) = P (A | Bk ) P (Bk ) P (A | Bi ) P (Bi ) (3.3)

iI

Beweis: (1) Mit der Mulitplikationsformel gilt


Bi =

P (A)

iI

Bi
iI

=
Bi Bj = f r i=j u

P
iI

(A Bi )

iI Multiplikationsformel

P (A Bi ) P (A | Bi ) P (Bi )

iI

was die Aussage zeigt.

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

37

(2) Hier folgt unter Benutzung von (1): P (Bk | A) = =


Multiplikationsformel

P (Bk A) P (A) P (A Bk ) P (A) P (A | Bk ) P (Bk ) P (A) P (A | Bk ) P (Bk ) . P (A | Bi ) P (Bi )

(3.2)

iI

Das zeigt ebenfalls die Behauptung. Beispiel 3.20: Eine Krankheit tritt bei 0.5% der Bevlkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auch o bei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu haben. Betrachte nun folgendes Modell: Sei die Bevlkerung und P die Laplace-Verteilung. Sei weiterhin B1 o die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mit positivem Testergebnis . Dann ist = B1 B2 mit B1 B2 = . P (B1 ) = 0.995 P (B2 ) = 0.005 P (A|B1 ) = 0.02 P (A|B2 ) = 0.99 Mit der Formel von Bayes berechnet man P (B2 |A) =
2

P (A|B2 ) P (B2 ) P (A|Bi ) P (Bi )

i=1

= =

0.99 0.005 0.02 0.995 + 0.99 0.005 0.2

P (A|B2 ) P (B2 ) P (A|B1) P (B1 ) + P (A|B2 ) P (B2 )

Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich erkrankt. Beispiel 3.21 (Simpson-Paradoxon): Im Folgenden werden wir ein Beispiel aus dem Bereich How to lie with statistics geben, d.h. es wird eine Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die oensichtlich zu stimmen scheint. Bei genauerer Betrachtung und unter Bercksichtigung aller Werte im Detail ergibt sich jedoch u genau die gegenteilige Aussage: University of Berkeley: In einem Jahr haben sich 1200 Mnner und 900 Frauen um einen Studienplatz beworben. Zugelassen a wurden 55% der Mnner und nur 48, 9% der Frauen. Oensichtlich wurden die Mnner bevorzugt, oder a a nicht? Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fchern A und B gab. a Mnner a beworben zugelassen 900 540=60% 300 120=40% 1200 660=55% Frauen beworben zugelassen 100 80=80% 800 360=45% 900 440=48,8%

Fach A Fach B Summe

Die Frauen wurden also in jedem Fach bevorzugt! Dies knnen wir auch mit bedingten Wahrscheinlichkeiten nachrechnen: o Seien Zm =zugelassene Mnner, Am =Bewerber Fach A und Bm =Bewerber Fach B. Dann gilt a

38

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

nach dem Satz der totalen Wahrscheinlichkeit: P (Zm ) = P (Zm |Am ) P (Am ) + P (Zm |Bm ) P (Bm ) = = 0.6 0.75 + 0.4 0.25 0.55

Seien nun entsprechend Zf =zugelassene Frauen, Af =Bewerberinnen Fach A und Bf =Bewerberinnen Fach B. P (Zf ) = P (Zf |Af ) P (Af ) + P (Zf |Bf ) P (Bf ) = = 1 8 + 0.45 9 9 0.488 0.8

Das Ergebnis kommt zustande, da sich anteilig viel mehr Mnner als Frauen in Fach A beworben haben, a wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen fr u Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.

3.3

Mehrstuge Experimente

Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgefhrten Experimente u die Wahrscheinlichkeiten fr den Ausgang des nchsten Experiments bestimmen. u a Sei p1 der Wahrscheinlichkeitsvektor fr die Ausgnge des ersten Experiments. Beim Ausgang a1 1 u a ist jeweils p2 ( |a1 ) ein Wahrscheinlichkeitsvektor fr die Ausgnge des zweiten Experiments. u a Beispiel 3.22 (zweistuges Zufallsexperiment): In einer Urne benden sich 3 Kugeln, davon sind zwei rot und eine ist wei. Wir ziehen zwei Mal ohne Zurcklegen. u In der ersten Ziehung erhlt man mit einer Wahrscheinlichkeit von 2 eine rote Kugel und mit einer a 3 Wahrscheinlichkeit von 1 eine weie Kugel, d.h. 3 p1 (R) = 2 , 3 p1 (W ) = 1 . 3

In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder wei jeweils mit der Wahrscheinlichkeit 1 gezogen werden oder wenn zu Beginn die weie Kugel gezogen wurde, mit Sicherheit 2 nun eine rote Kugel gezogen werden. Das heit p2 (R, R) = bzw. p2 (R, W ) = 1, Der Grundraum des 2-stugen Modells ist = 1 2 = {(a1 , a2 ) | ai i } mit der Wahrscheinlichkeitsfunktion p(a1 , a2 ) := p(a1 ) p2 (a2 |a1 ). Das heit p(a1 , a2 ) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades: START a1 a2 . Im Bsp.: p(R|W ) = p1 (R) p2 (W |R) = 2 1 1 = . 3 2 3 p2 (W, W ) = 0. 1 , 2 p2 (R, W ) = 1 2

Bemerkung 3.23: Fr Teilmengen A , welche einer Menge von Pfaden entspricht, ist u P (A) =
(a1 ,a2 )A

p1 (a1 ) p2 (a2 |a1 )

die Summe aller Pfadwahrscheinlichkeiten.

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

39

Beispiel 3.24: Es stehe Xi fr das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt: u 2 1 1 2 P (X2 = R) = P ( zweite Kugel ist rot) = P (R, R) + P (W, R) = + 1 = 3 2 3 3 3.25 Denition (n-stuges Experiment): Seien 1 , 2 , ..., n diskrete Grundrume. Sei p1 eine Wahrscheinlichkeitsfunktion auf 1 (Startwahra scheinlichkeit). Fr jedes a1 1 sei eine Wahrscheinlichkeitsfunktion p2 (a2 |a1 ) auf den Ausgang des u zweiten Teilexperiments gegeben. Allgemein: Fr jede Folge von Ausgngen a1 , a2 , ..., aj1 mit ai i , 1 i j 1 der ersten j-1 u a Teilexperimente ist eine Wahrscheinlichkeitsfunktion pj (aj |a1 , ...aj1 ) auf den Ausgngen aj j gegeben. Fr einen Pfad (a1 , ..., an ) 1 ... n setzt man a u p(a1 , ..., an ) = p1 (a1 ) p2 (a2 |a1 ) . . . pn (an |a1 , ..., an1 ). Dann ist p eine Wahrscheinlichkeitsfunktion auf = 1 ... n und deniert eine Wahrscheinlichkeitsverteilung P uber P (A) := p(a1 , ..., an ), A .
(a1 ,...,an )A

P ist dann die Verteilung des mehrstugen Experiments. Beispiel 3.26 (Polyasches Urnenmodell): In diesem Modell, das ursprnglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren, u enthlt eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurckgelegt mit a u c Z zustzlichen Kugeln der gleichen Farbe. a Das heit fr c = 1 entspricht dies dem Ziehen ohne Zurcklegen und fr c = 0 dem Ziehen mit u u u Zurcklegen. u Ein graphisches Beispiel: }}}
2 }  3  

1 3

} s } }}}

 C 

} }}}
3 } 4  } } }}}

e 1 e4 } e e e }} }}}

1 } 2  }} }}}

1 e2 } e e e }} }}}

Abbildung 4: Polyasches Urnenmodell mit c = 1, r = 2, s = 1. 2 3 1 1 2 + = = P (X1 = R) 3 4 3 2 3 Wir wollen nun zeigen, dass unabhngig vom gewhlten c immer gilt: Die Wahrscheinlichkeit fr 2.Kugel a a u ist rot ist immer gleich der Wahrscheinlichkeit fr 1.Kugel ist rot: u Beweis: Es sind s r , p1 (S) = p1 (R) = r+s r+s r+c s p2 (R|R) = , p2 (S|R) = r+s+c r+s+c P (X2 = R) = Dann ist

40

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Damit ist P (X2 = R) = P (R, R) + P (S, R) = = = r r+c s r + r+s r+s+c r+s r+s+c r r+s r r+s s r+c + r+s+c r+s+c

= P (X1 = R). Man berechnet p(R, S, R, R) = p1 (R) p2 (S|R) p3 (R|RS) p4 (R|RSR) =

s r+c r + 2c r r + s r + s + c r + s + 2c r + s + 3c

Bemerkung 3.27: Man beobachtet also: Ist (a1 , ..., an ) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist
n1

p(a1 , ..., an ) =
i=0

1 r + s + ic

k1

nk1

i=0

(k + ic)

(s + ic) .
i=0

Das heit die Wahrscheinlichkeit von (a1 , ..., an ) hngt nur von der Anzahl gezogener Kugeln ab, nicht a von der Reihenfolge. Daher gilt p(a (1) , ..., a (n) ) = p(a1 , ..., an ) fr jede Permutation von {1, ..., n}. Solche Verteilungen nennt man auch austauschbar. u Aufgabe 3.28: Zeige damit P (Xj = R) = 3.3.1 r fr alle j = 1, 2, ... u r+s

Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstugen Modellen

(1) Ist 1 ... n ein mehrstuges Modell mit Ubergangswahrscheinlichkeiten pj (aj | a1 , ..., aj1 ) , so setzen wir (b1 , ..., bk ) := {(a1 , ..., an ) | ai = bi fr 1 i k} u als die Menge aller Pfade, die mit b1 , ..., bk beginnen fest. Dann gilt: P (b1 , ..., bk ) = p1 (b1 ) p2 (b2 | b1 ) ... pk (bk | b1 , ..., bk ) Beweis: Wir zeigen nur den Fall n = 2, k = 1, die anderen Flle uberlegt man sich analog (wobei der Beweis a dann sehr Index-lastig wird). Es gilt P (b1 ) = P ({b1 } ) =
a2 2

1jn

p (b1 , a2 ) p1 (b1 ) p2 (a2 | b1 ) p2 (a2 | b1 )


=1

=
a2 2

= p1 (b1 )

a2 2

da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

41

(2) Ganz analog gilt P (bk+1 , ..., bn | b1 , ..., bk ) = pk+1 (bk+1 | b1 , ..., bk ) pk+2 (bk+2 | b1 , ..., bk+1 ) ... pn (bn | b1 , ..., bn1 ) Beweis: Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt P (b2 | b1 ) =
Teil (1)

p (b1 , b2 ) p (b1 ) p1 (b1 ) p2 (b2 | b1 ) p1 (b1 ) p2 (b2 | b1 ) .

= Das zeigt die Behauptung. Beispiel 3.29 (Ziehen aus zuflliger Urne): a

Wir betrachten vier Urnen U1 , U2 , U3 , U4 . Jede der Urnen enthalte drei Kugeln, wobei Ui genau i 1 rote und 3 (i 1) schwarze Kugeln enthalte. Unser mehrstuges Experiment sieht jetzt wie folgt aus: Schritt 1 Whle rein zufllig eine Urne. a a Schritt 2 Ziehe eine Kugel und notiere die Farbe. Dieses Experiment gestaltet sich etwa so:

   t 1 4 t 1 1    4 t4   t  q A  t  t  ) e } } } e } } } e e e } } } e } } } U1 - Urne 1 U4 - Urne 4 e e e e U2 - Urne 2 U3 - Urne 3 e e e e 1 0 e1 e0 e 2 e 1 2 1 e e 3 3 e3 e3 e e e e  e  e e e } } } }  e  e } }} }


1 4

START

 

Abbildung 5: Ziehen aus zuflliger Urne a Es ist also 1 = {1, 2, 3, 4}, wobei die Zahl i 1 dann einfach der Nummer der Urne im ersten Schritt entspricht. Wir sehen sofort, dass 1 p1 (1) = ... = p1 (4) = . 4 Weiter verwenden wir 2 = {R, S} was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen soll. Da die Urne U1 keine roten Kugeln enthlt, ist also a p2 (R | 1) = 0 und p2 (S | 1) = 1. Ganz analog enthlt die Urne U2 eine rote und zwei schwarze Kugeln, es ist also a p2 (R | 2) = 2 1 und p2 (S | 2) = . 3 3

Ganz analog berechnet man die anderen Werte fr p2 . u Wir wollen nun folgende Frage beantworten: Was kann man uber die im ersten Schritt gewhlte Urne aussagen, gegeben es wurde im zweiten Schritt a eine rote Kugel gezogen?

42

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Zur Beantwortung setzen wir Bi A Urne i im ersten Schritt gewhlt, a i = 1, 2, 3, 4, := rote Kugel im zweiten Schritt gezogen. :=

Wie oben sieht man sofort, dass P (A | B1 ) = 0, P (A | B2 ) = 1 2 , P (A | B2 ) = , P (A | B3 ) = 1. 3 3

Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt


4 4

P (A) =
i=1

P (A | Bi ) P (Bi ) =

i=1

p2 (R | i) p1 (i) =

1 . 2

Mit der Formel von Bayes (3.3) ergibt sich nun fr die gesuchte Wahrscheinlichkeit u P (Bk | A)
(3.3)

P (Bk | A)
4

P (A | Bk ) P (Bk ) P (A | Bi ) P (Bi )
=P (A)

i=1

2P (A | Bk ) P (Bk )
=1 4

= Als Vektor gilt also

1 P (A | Bk ) , 2

k = 1, 2, 3, 4.

(P (Bk | A))k=1,2,3,4 = Das ist die sogenannte

1 2 3 0, , , 6 6 6

1 1 1 a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 1 , 4 , 4 , 4 . 4

Der MAP-Schtzer (MAP steht fr maximum a-posteriori) der Urnennummer k whlt das k mit maxia u a malem P (Bk | A) aus - hier also k = 4. Das beantwortet die obige Frage. Beispiel 3.30: Wir betrachten eine leicht genderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht a ein zufllig gewhlt, sondern per Mnzwurf bestimmt. Wir werfen dazu drei faire Mnzen und whle die a a u u a Urne, die so viele rote Kugeln enthlt, wie oft Kopf geworfen wurde. Wegen a 3 1 P ({ZZZ}) = , P ({KZZ, ZKZ, ZZK}) = 8 8
1 3 1 usw. erhalten wir also die a-priori-Verteilung 8 , 8 , 3 , 8 . Wir denieren A und Bi , i = 1, 2, 3, 4 wie im 8 Beispiel 3.29 oben und stellen uns die selbe Frage. Oenbar ist hier

P (A) = 0 und wie oben gilt (P (Bk | A))k=1,2,3,4 =

1 1 3 2 3 1 1 + + +1 = 8 3 8 3 8 8 2

P (A | Bk ) P (Bk )
1 2 k=1,2,3,4

1 1 1 0, , , 4 2 4

Hier wrde der MAP-Schtzer also die Urne mit der Nummer k = 3 auswhlen. u a a

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

43

3.4

Produkt-Experimente und spezielle Verteilungen

Fr i = 1, ..., n seien (i , Pi ) diskrete Wahrscheinlichkeitsrume. Die stochastisch unabhngige Ausfhu a a u rung mehrerer Experimente aus (i , Pi ), i = 1, ..., n, wird modelliert durch
n

:= 1 ... n =

i , P :=
i=1

P ,
i i=1

(3.4)

wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion


n

p (a1 , ..., an ) =
i=1

Pi ({ai }) , (a1 , ..., an ) = {(b1 , ..., bn ) | bi i , i = 1, ..., n}

(3.5)

gegeben ist. 3.31 Denition: a Der Raum (, P ) wie in (3.4) deniert heit Produkt der Wahrscheinlichkeitsrume (i , Pi ) , i = 1, ..., n. Bemerkung 3.32: (, P ) ist selbst wieder ein Wahrscheinlichkeitsraum. Beweis: Es gengt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn oenbar ist als u endliches Produkt abzhlbarer Mengen selbst wieder abzhlbar. a a Das p positiv und -additiv ist, also die Axiome (A1) und (A3) erfllt, ist klar, denn jedes der Pi erfllt u u diese Axiome. Auerdem gilt
n

P () =
(a1 ,...,an )

p (a1 , ..., an ) =
(a1 ,...,an )

P1 ({a1 }) ... Pn ({an }) =

k=1

ak k

Pk ({ak })
= 1

=1

(A3) f r Pk u

und das zeigt die Behauptung. Beispiel 3.33: Wir wollen das Produkt der Experimente Wrfeln und Mnzwurf bilden. Sei dazu 1 := {K, Z} u u ebenso mit der Laplace-Verteilung versehen wie 2 := {1, 2, 3, 4, 5, 6}. Dann ist = 1 2 = {(a1 , a2 ) | a1 {K, Z} , a2 {1, 2, 3, 4, 5, 6}} und es gilt p (a1 , a2 ) = P1 ({a1 }) P2 ({a2 }) =
=1 2
1 =6

1 12

fr alle Tupel (a1 , a2 ) . u Dieses Ergebnis ist natrlich ziemlich eintnig, wrde man etwa eine geflschte Mnze verwenden, so u o u a u wre das Ergebnis interessanter. a Bemerkung 3.34: Man kann den Produktraum (, P ) auch als mehrstuges Modell mit den Ubergangswahrscheinlichkeiten pi (ai | a1 , ..., ai1 ) = Pi ({ai }) , 1 i n, ak k auassen. Man beachte, dass diese Ubergangswahrscheinlichkeiten nicht von den vorangehenden Stufen abhngen. a 3.35 Denition: Fr Ereignisse Ai i , 1 i n denieren wir das Produktereignis in (, P ) als u A := A1 A2 ... An = {(a1 , ..., an ) | ai Ai , 1 i n}

44

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

Bemerkung 3.36: Dann gilt P (A) =

Pk (Ak )
k=1

Beweis: Es ist P (A) =


Denition

P (A1 ... An ) p (a1 , ..., an )


(a1 ,...,an )A n

=
(a1 ,...,an )A k=1 n

Pk ({ak })

=
k=1 n ak Ak

Pk ({ak })

=
k=1

Pk (Ak ) ,

was die Behauptung zeigt. 3.37 Satz: Seien Ai i Ereignisse. Setze A := {(a1 , ..., an ) | ak Ak } fr 1 k n. Fr das Produktexpeu u k riment (, P ) wie in (3.4) gelten: (1) P (A ) = Pk (Ak ) fr jedes 1 k n. u k Beweis: (1) Es ist P (A ) i =
Bemerkung 3.36

a (2) Die Ereignisse A , ..., A sind in jedem Fall unabhngig. n 1

P (1 ... i1 Ai i+1 ... n ) P1 (1 ) ... Pi1 (i1 ) Pi (Ai ) Pi+1 (i+1 ) ... Pn (n ) Pi (Ai ) ,

= was die Behauptung zeigt. (2) Fr jede Teilfamilie u gilt

A1 , ..., Ak mit 1 ii < ... < ik n i i

j=1

Aj i

=
Bemerkung 3.36

P (1 ... i1 1 Ai1 i1 +1 ...) Pi1 (Ai1 ) ... Pik (Aik ) P1 (1 ) ...


=1

(1)

P A1 ... P Ak . i i

Das zeigt auch hier die Behauptung. Bemerkung 3.38: Mit Hilfe dieses Satzes knnen wir sehr leicht einen Wahrscheinlichkeitsraum (, P ) konstruieren, der n o unabhngige Ereignisse enthlt, die vorgegebene Wahrscheinlichkeiten p1 , ..., pn haben: a a Setze 1 = ... = n = {0, 1}, A1 = ... = An = {1} und denieren fr jedes i = 1, ..., n u Pi ({0}) := 1 pi , Pi ({1}) := pi
Pi (Ai )

Nach dem Satz sind dann ten.

A , ..., A n 1

unabhngige Experimente mit den vorgegebenen Wahrscheinlichkeia

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

45

3.4.1

Mit Produktexperimenten zusammenhngende Verteilungen a

(1) Binomialverteilung ( Zhlen von Erfolgen) a Ein Bernoulli-Experiment ist ein Experiment mit = {0, 1} und Erfolgswahrscheinlichkeit p (1) = p [0, 1], p (0) = 1 p. Setze p1 := p und p0 := 1 p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit ist dann u = {0, 1} , p (a1 , ..., an ) = pa1 ... pan fr (a1 , ..., an ) Sei jetzt Ak := (a1 , ..., an )
n n

aj = k
j=1 n k

das Ereignis k Erfolge fr 0 k n. Dann ist #Ak = u

, fr jedes (a1 , ..., an ) Ak gilt u


nk

P ({(a1 , ..., an )}) = pk (1 p) und daher folgt P (Ak ) =

n k nk p (1 p) , 0 k n. k

Wir erhalten also genau die Binomialverteilung. (2) Multinomialverteilung ( Zhlen von Ausgngen) a a Man fhrt n identische, stochastisch unabhngige Experimente durch. Jedes Experiment hat r u a Ausgnge 1, ..., r, die mit Wahrscheinlichkeiten p1 , ..., pr auftreten. a Modell: Seien i = {1, ..., r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor (p1 , ..., pr ) gegeben (1 i n). Im Produktexperiment ist = 1 ... n = {1, ..., r}n und somit p(a1 , .., an ) = pa1 ... pan . Sei Ak1 ,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1, ..., kr mal den Ausgang r zu n ki = n und 0 ki fr i i n gelten). Dann ist u erhalten (dabei muss natrlich u
i=1

und

P =

P
i=1

P (Ak1 ,...,kr ) = die auf (k1 , ..., kr )

n k1 , ..., kr
n

pk1 ... pkr r 1

i=1

ki = n, 0 ki

gegebene Multinomialverteilung mit Parametern n und p1 , .., pr . Dabei muss natrlich u


r

pi = 1
i=1

gelten. Beispiel 3.39: Auf einem Glcksrad sind 3 Bereiche markiert. Beim zuflligen Drehen stoppt das Rad mit Wahru a 3 scheinlichkeit p1 = 1 im Bereich 1, mit p2 = 8 im Bereich 2 und mit p3 = 1 im Bereich 3. 2 8 Dann ist P (5 mal 1, 3 mal 2, 2 mal 3) = P (A5,3,2 ) = 10 5, 3, 2 1 2
5

3 8

1 8

46

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

(3) Geometrische Verteilung ( Warten auf den ersten Erfolg) Gegeben sei ein n-faches Bernoulli-Experiment = {0, 1}n mit Erfolgswahrscheinlichkeit p [0, 1]. Sei fr 1 k n Ak das Ereignis erster Erfolg im k-ten Versuch (1 k n). Dann ist u P (Ak ) = (1 p)k1 p Beweis: Im Produktexperiment ist natrlich Pi = P fr jedes 1 i n, wobei P ({0}) = 1p, P ({1}) = p. u u Oenbar entspricht fr 1 k n das Ereignis Ak genau der Menge u {0} ... {0} {1} ,
(k1)-mal

da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten drfen. Gem Bemerkung 3.36 u a gilt dann
k1

P (Ak ) = P ({0} ... {0} {1}) = was die Behauptung zeigt. Intuitiv richtig erscheint die Aussage auch fr n u

i=1

Pi ({0}) Pk ({1}) = (1 p)

k1

p,

/ , also
k1

pk := Pk (Ak ) = (1 p)

p, k = 1, 2, ....

Fr den formalen Beweis bentigt man Matheorie. Diese Gleichung deniert die geometrische Veru o teilung auf N mit P (1) = p, P (2) = (1 p) p, .... Dies ist tatschlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlicha keitsfunktion handelt:
k=1

pk

p p p p p 1.

k=1

(1 p)k1 (1 p)k

=
geometrische Reihe

k=0

1 1 (1 p)

= =

(4) Negative Binomialverteilung ( k Misserfolge vor dem r-ten Erfolg) Wir betrachten ein n-faches Bernoulli-Experiment, n N, mit Erfolgswahrscheinlichkeit p [0, 1]. Seien r, k N mit k + r n. Setze A := genau k Misserfolge vor dem r-ten Erfolg. 3.40 Lemma: Es gilt P (A) = k+r1 r k p (1 p) k

Beweis: k+r Sei = {0, 1} der Produktraum mit der Verteilung, welche durch pi (1) = p, pi (0) = 1 p, 1 i k + r gegeben ist. Natrlich soll dabei 1 fr Erfolg und 0 fr Misserfolg stehen. u u u Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r 1 Erfolge und k Misserfolge vor dem r-ten Erfolg zu erhalten genau k + r 1 r1 k+r1(r1) p (1 p) r1

3 Unabhngigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente a

47

und daher folgt P (A) = k + r 1 r1 k p (1 p) r1 p


rter Erfolg

= = was die Behauptung zeigt.

k+r1 r p (1 p)k , k

k+r1 k pr (1 p) k + r 1 (r 1)

Diese Verteilung nennt man auch die negative Binomialverteilung.

48

4 Zufallsvariablen, Verteilungen

4
4.1

Zufallsvariablen, Verteilungen
Zufallsvariablen

Das Ziel der Einfhrung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie u bilden ein wichtiges Handwerkszeug zur Formulierung und Lsung von stochastischen Problemen. o 4.1 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und = eine beliebige Menge. Eine Abbildung X: / u heit Zufallsvariable (abgekrzt auch ZV) mit Werten in . Falls Rd so heit X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X reellwertige Zufallsvariable. Beispiel 4.2: Beim zweimaligen Wrfeln ist = {1, ..., 6}2 und = (a1 , a2 ) mit 1 ai 6. u Wir betrachten die Summe der Augenzahlen X() := a1 + a2 , das Maximum der Wrfelergebnisse u oder das Produkt der Augenzahlen X() := max {a1 , a2 } , X() := a1 a2 .

Dann ist etwa X() = a1 + a2 ist reellwertige Zufallsvariable mit Werten in = {2, ..., 12}. Bemerkung 4.3: X muss nicht injektiv und auch nicht surjektiv sein. X transportiert Wahrscheinlichkeitsmasse, z.B. wenn X() = a1 + a2 ist P (X = 4) = P ({(a1 , a2 ) | a1 + a2 = 4}) = P ({(1, 3), (2, 2), (3, 1)}) = P ({(1, 3)}) + P ({(2, 2)}) + P ({(3, 1)}) = 1 1 1 1 + + = 36 36 36 12

Das heit, man bestimmt die Verteilung von X auf uber Mengen wie X 1 ({4}). X 1 ist eine Abbildung von Mengen, d.h X : P( ) P() A X 1 (A ) = { | X() A }.

Die allgemeinen Regeln fr Urbilder gelten natrlich auch fr Zufallsvariablen, wir wollen sie ohne Beweis u u u in folgendem Lemma festhalten: 4.4 Lemma (Eigenschaften): Es gilt: (U1) X 1 (X()) = und X 1 () = (U2) X 1
iI

A i A i

=
iI

X 1 (A ) i X 1 (A ) i

(U3) X 1
iI

=
iI

(U4) X 1 ( \ A ) = \ X 1 (A ) 4.5 Denition: Sei ohne Einschrnkung = X(). Fr einen diskreten Wahrscheinlichkeitsraum (, P ) wird durch a u P X : P ( ) / R, A P X (A ) := P (X 1 (A ))

eine Wahrscheinlichkeitsverteilung P X auf der diskreten Menge deniert. P X heit Verteilung von X auf (unter P ).

4 Zufallsvariablen, Verteilungen

49

Beweis: Wir mssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen: u (A1) P X (A ) 0 gilt. (A2) P X ( )
Denition

P X 1 ( ) = P () = 1

(A3) Seien A , A , ... disjunkte Teilmengen von . Dann gilt 1 2 PX


i=1

A i

Denition

X 1

i=1

A i A i

=
(U3)

X 1
i=1

i=1

P
i=1

(A ) i

-Additivitt a

P (X 1 (A )) i P X (A ). i

Denition

i=1

Das zeigt, dass P X in der Tat ein Wahrscheinlichkeitsma auf ist. Bemerkung 4.6: Mittels Transport von P durch X entsteht also ein neuer Wahrscheinlichkeitsraum ( , P X ). Notation 1: Sei (, P ) diskreter Wahrscheinlichkeitsraum, X : eine Zufallsvariable. Man schreibt/meint (X = x) := { | X() = x} , x und (X A) := {X A} = { | X() A} , A .

Damit schreibt man P X (A) = P (X A) sowie P X ({x}) = P (X = x). Falls X reellwertig ist (d.h. R) so benutzt man auch (X x) = {X x} = { | X() x}. Beispiel 4.7: Sei = {1, ..., 6}2 , P (a1 , a2 ) =
1 36

(a1 , a2 ) .

X(a1 , a2 ) = a1 + a2 mit = {2, 3, ..., 12}. Fr x gilt: u P X = P X 1 ({x}) = X(a1 , a2 ) = max {a1 , a2 } mit = {1, ..., 6} Fr x gilt: u

x1 36 13x 36

falls x = 2, ..., 7, . falls x = 8, ..., 12

P X (x) = P (X = x) = P ({a1 , a2 ) | max {a1 , a2 } = x}) = Dadurch ist eine Wahrscheinlichkeitsma auf gegeben.

2x 1 . 36

Man spricht oft einfach von einer -wertigen Zufallsvariablen X, mit Verteilung P X und erwhnt weder a (, P ) noch die spezielle Abbildung X.

50

4 Zufallsvariablen, Verteilungen

4.8 Denition (Indikatorvariable): Fr A denieren wir durch u 1A : / {0, 1}, 1A () = 1 0 falls A falls w A /

die Indikatorvariable zu A. Die Verteilung von X = 1A sieht wie folgt aus: P X ({1}) = P X 1 ({1}) = P ({ | X() = 1}) = P (A) P X ({0}) = P X 1 ({1}) = P ({ | X() = 0}) = P (AC ) Beispiel 4.9: Sei = {1, ..., 6} und A = {2, 4, 6}. Dann ordnet 1A wie folgt zu: 2, 4, 6 1, 3, 5 1, 0.

Bemerkung 4.10: Falls Rd , d 2 und damit X() = (X1 (), ..., Xd ()) so ist fr A = A1 ... Ad : u
d

Insbesondere gilt also

P (X A) = P

j=1

{Xj Aj } .
d

4.11 Denition (Gemeinsame Verteilung): / , j = 1, ..., n seien Zufallsvariablen. Wir denieren Sei (, P ) gegeben, Xj : j X: / ... durch (X1 (), ..., Xn ()). 1 n

P (X = x) = P (X1 = x1 , ..., Xd = xd ) = P

j=1

1 Xi ({xi }) .

Dann heit P X = P (X1 ,...Xn ) die gemeinsame Verteilung von X1 , ...Xn . Die zugehrige Wahrscheino lichkeitsfunktion ist p(x1 , ...xn ) = P (X1 = x1 , ...Xn = xn ) Beispiel 4.12: Wir wollen wieder zweifach mit einem fairen Wrfel werfen. Betrachte also = {1, 2, 3, 4, 5, 6} mit der u / (also = ), Lapace-Verteilung P . Deniere fr (a1 , a2 ) = die Zufallsvariablen X1 , X2 : u X1 () := X2 () := min {a1 , a2 } , max {a1 , a2 } .
1 36

fr alle Tupel (x1 , ..., xn ) . u

Die gemeinsame Verteilung von X1 und X2 knnen wir dann als Matrix schreiben. Setze dazu c := o und erhalte x1 / x2 1 2 3 4 5 6 P
(X2 )

1 c 0 0 0 0 0

2 2c c 0 0 0 0 3c

3 2c 2c c 0 0 0 5c

4 2c 2c 2c c 0 0 7c

5 2c 2c 2c 2c c 0 9c

6 2c 2c 2c 2c 2c c 11c

P (X1 ) ({x1 }) 11c 9c 7c 5c 3c c

({x2 })

4 Zufallsvariablen, Verteilungen

51

Dabei steht in der Zelle (i, j) natrlich P (X1 ,X2 ) ({i} {j}) = P (X1 = i, X2 = j) und wir haben in der u letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese sich einfach als Summe der Zeilen- / Spalteneintrge berechnen. a 4.13 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Fr eine Indexauswahl u 1 i1 < ... < ik n / fr 1 j n Zufallsvariablen. j u

nennen wir die gemeinsame Verteilung von Xi1 , ..., Xik eine k-dimensionale Randverteilung oder auch Marginalverteilung. Beispiel 4.14: u Sei X = (X1 , X2 ). Dann sind P Xi fr i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel P X1 (x1 ) = P (X1 = x1 ) =
x2 X2 ()

P (X1 = x1 , X2 = x2 ) ,

x1 . 1

4.1.1

Unabhngigkeit von Zufallsvariablen a

Die Idee ist, dass zwei Zufallsvariablen X1 , X2 unabhngig sind, wenn a P (X1 = x1 , X2 = x2 ) = P (X1 = x1 ) P (X2 = x2 ) (x1 , x2 ) 1 2 gilt. Beispiel 4.15: In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass P (X1 = 1, X2 = 1) = gilt, aber 1 36

11 1 1 = 36 36 36 ist. Daher sollten X1 und X2 wie dort deniert nicht unabhngig sein. a P (X1 = 1) P (X2 = 1) = / fr 1 i n Zufallsvariablen. i u

4.16 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Wir nennen X1 , ..., Xn unabhngig, wenn a P (X1 ,...,Xn ) = gilt. Dabei meint

i=1 n

PX
i=1

P
i=1

Xi

einfach das Produkt der Verteilungen, also


n

P
Beispiel 4.17:

Xi

(A1 ... An ) =

P Xi (Ai ) ,
i=1

Ai fr i = 1, ...n. i u

/ {0, 1} durch folgende Tabelle gegeben, in welche wir auch gleich die Sei n = 2 und seien X1 , X2 : X2 X1 wie im obigen Beispiel eintragen: und P Einzelverteilungen P x1 /x2 0 1 P Man stellt fest, dass
X2

0 0.12 0.18

1 0.28 0.42 0.7

P X1 ({x1 }) 0.4 0.6

({x2 })

0.3

P
i=1

Xi

(x1 , x2 )

Denition

P X1 (x1 ) P X2 (x2 ) = P (X1 = x1 ) P (X2 = x2 )

52

4 Zufallsvariablen, Verteilungen

gilt. In jeder Zelle gilt P (X1 = x1 ) P (X2 = x2 ) = P (X1 = x1 , X2 = x2 ) und daher sind X1 und X2 hier unabhngig. a 4.18 Satz: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Dann sind die folgenden Aussagen quivalent: a (1) X1 , ..., Xn sind unabhngig. a (2) Fr alle Ai , 1 i n gilt u i
n

/ fr 1 i n Zufallsvariablen. i u

P (X1 A1 , ..., Xn An ) = (3) Fr alle xi , 1 i = n gilt u i

i=1

P (Xi Ai ) .

P (X1 = x1 , ..., Xn = xn ) =
i=1

P (Xi = xi ) .

Beweis: (1)(2) Fr beliebige Ai , 1 i n, gilt u i P (X1 A1 , ..., Xn An ) = =


X1 ,...,Xn unabhngig a

P ((X1 , ..., Xn ) A1 ... An ) P (X1 ,...,Xn ) (A1 ... An )

P
i=1

Xi

(A1 ... An )

=
i=1 n

P Xi (Ai )

=
i=1

P (Xi Ai )

u (2)(3) Fr gegebene xi , 1 i n setze Ai := {xi }. i (3)(1) Hier gilt fr alle xi , 1 i n: u i P


(X1 ,...,Xn )

(x1 , ..., xn )

(3)

P (Xi = xi )
i=1

Denition

P
i=1 n i=1

Xi

(x1 , ..., xn )

Daher stimmen die zu den Verteilungen P (X1 ,...,Xn ) und

u funktionen auf allen Tupeln (x1 , ..., xn ) 1 ... n uberein und aus diesem Grund mssen die beiden Verteilungen gleich sein. Unabhngige Zufallsvariablen verwendet man ublicherweise zur Modellierung von Ausgngen von Exa a perimenten, die vllig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als o Ziegenproblem oder auch 3-T ren-Problem bekannt ist: u Beispiel 4.19: Wir betrachten drei Tren mit den Nummern 1 bis 3, wobei hinter einer rein zuflligen Tr ein Geu a u winn (etwa ein Auto) und hinter den anderen beiden Tren je eine Ziege ist. Die Tren sind natrlich u u u verschlossen. Das Spiel luft nun wie folgt ab: a (1) Der Kandidat whlt eine Tr. a u

PX

gehrigen Wahrscheinlichkeitso

4 Zufallsvariablen, Verteilungen

53

(2) Der Moderator net eine der beiden anderen Tren, aber nicht die, hinter welcher sich der Gewinn o u bendet. (3) Der Kandidat darf wechseln. Die Frage ist nun, ob es sich fr den Kandidaten lohnt, zu wechseln. u Wir modellieren das Problem durch folgende Zufallsvariablen: X1 := Nummer der Tr, hinter welcher sich der Gewinn bendet ( {1, 2, 3}). u X2 := Nummer der Tr, die der Kandidat in Schritt (1) auswhlt ( {1, 2, 3}). u a Nach unseren Annahmen ist dann P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1 3

(der Gewinn ist rein zufllig verteilt) und die Zufallsvariablen X1 und X2 sind unabhngig (der Kandidat a a hat keine Informationen uber die Gewinntr. u Verfolgt der Kandidat die Strategie nicht wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt. Also P ( Gewinn) = =
i=1 X1 ,X2 unabhngig a 3

P (X1 = X2 )
3

P (X1 = i, X2 = i)

i=1

P (X1 = i) P (X2 = i)
=1 3 3

1 3

P (X2 = i)
i=1 =1

1 . 3

Man beachte, dass es fr dieses Ergebnis vllig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der u o Kandidat mit Vorliebe eine der Tren auswhlt. u a Verfolgt der Kandidat dagegen die Strategie wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt (weil der Moderator dann nur genau eine Tr nen kann, hinter der natrlich eine Ziege steht, und der u o u Kandidat in Schritt (3) dann zwangslug auf die Gewinn-Tr wechselt). Es folgt also a u 1 2 P ( Gewinn) = P (X1 = X2 ) = 1 P (X1 = X2 ) = 1 = . 3 3 Die Strategie wechseln ist also deutlich besser! 4.20 Denition (Funktionen von Zufallsvariablen): Sei ein diskreter Grundraum und seien , beliebige Mengen. Sei X : / eine beliebige Abbildung. Dann wird durch und g : g(X) := g X : /

/ eine Zufallsvariable

eine -wertige Zufallsvariable g X durch g(X()) auf deniert. Beispiel 4.21: Sei g : Rn
n

/ R gegeben durch x = (x1 , ..., xn ) X:

xi . Ist
i=1

/ Rn , (X1 (), ..., Xn ())


n

eine Zufallsvariable, so ist g(X) gegeben durch Xi (),


i=1

54

4 Zufallsvariablen, Verteilungen

Beispiel 4.22: Sei X : / R eine Zufallsvariable und g : R / R gegeben durch x xk fr ein k N. Dann ist (g(X)) () = (X()) , und wir schreiben auch u X k := g(X) 4.23 Lemma: / i , 1 i n unabhngige Zufallsvaa Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : riablen. Sei 1 i1 < ... < ik n eine Indexauswahl. Dann sind auch die Zufallsvariablen Xi1 , ..., Xik unabhngig. a Beweis: Laut Satz 4.18 gengt es zu zeigen, dass fr alle Aij j , 1 j k, gilt: u u i P (Xi1 ,...,Xik ) (Ai1 ... Aik ) = Es gilt P (Xi1 ,...,Xik ) (Ai1 ... Aik ) = = P (Xi1 Ai1 , ..., Xik Aik )
trivial! trivial! k k

j=1

P Xij Aij .

P X1 , ..., Xi1 1 1 1 , Xi1 Ai1 , Xi1 +1 1 +1 , ... 1 i i


trivial!

..., Xik 1
X1 ,...,Xn unabh.

k 1 , Xik i

Aik , Xik +1

k +1 , ..., Xn i

trivial!

trivial!

trivial!

P (X1 ) ... P Xi1 1 1 1 P (Xi1 Ai1 ) 1 i P Xik +1 k +1 ... P (Xn ) n i


n k

P Xi1 +1 1 +1 ... P Xik 1 k 1 P (Xik Aik ) i i

=
i=1 i=ij j{1,...,k}

P (Xi ) i
=1

j=1

P Xij Aij

=
j=1

P Xij Aij .

Damit ist die Behauptung gezeigt. 4.24 Satz (Blockungslemma): / i , 1 i n unabhngige ZufallsvaSei (, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : a riablen. Sei I1 , ..., Ik eine disjunkte Zerlegung der Menge {1, ..., n} und setze cj := #Ij . Seien zuletzt gj :

iIj

/ , j = 1, ..., k j

beliebige Abbildungen. Ist Ij = ij , ..., ijj , so sind auch die Zufallsvariablen c 1 Yj := gj Xij , ..., Xij c
1

, j = 1, ..., k

unabhngig. a

4 Zufallsvariablen, Verteilungen

55

Beweis: Es gengt oenbar zu zeigen, dass fr eine Abbildung u u g : ... 1 m und X := g (X1 , ..., Xm ) die Zufallsvariablen X, Xm+1 , ..., Xn ebenfalls unabhngig sind. Laut Satz 4.18 haben wir also xi , m + 1 i n, y zu zeigen: a i
n

/ , 1 m < n,

i=m+1

P (Xi = xi ) P (X = y) = P (X = y, Xm+1 = xm+1 , ..., Xn = xn )

(4.1)

Fr y berechnen wir dazu zunchst u a P (X = y) = P X 1 ({y}) = P a | X1 (a) g 1 ({y}) , ..., Xm (a) g 1 ({y}) p(X1 ,...,Xm ) (a)
ag 1 ({y})

= P (X1 ,...,Xm ) g 1 ({y}) = =


ag 1 ({y})

P (X1 = a, ..., Xm = a)

Damit folgt P (X = y) P (Xm+1 = xm+1 , ..., Xn = xn ) =


ag 1 ({y}) Unabhngigkeit, Lemma 4.23 a

P (X1 = a, ..., Xn = a) P (Xm+1 = xm+1 , ..., Xn = xn ) P (X1 = a, ..., Xm = a, Xm+1 = xm+1 , ..., Xn = xn )

ag 1 ({y})

= =

P X1 g 1 ({y}) , ..., Xm g 1 ({y}) , Xm+1 = xm+1 , ..., Xn = xn P (X = y, Xm+1 = xm+1 , ..., Xn = xn )

Damit ist 4.1 und daher die Behauptung gezeigt. Beispiel 4.25: Sind X1 , ..., Xn unabhngige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Wera ten in R, so sind auch die Zufallsvariablen 2 2 X1 , ..., Xn unabhngig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 i n und a g1 (x) = g2 (x) = ... = gn (x) = x2 an. Genauso folgt dann die Unabhngigkeit von a |X1 |, ..., |Xn | oder
2 X1 , |X2 |, |X3 |5 , ...

usw.. Beispiel 4.26: Seien X1 , ..., X5 unabhngige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit a Werten in R. Dann sind auch die Zufallsvariablen X1 sin(X4 ), X2 exp(X3 X5 ) unabhngig. Um das zu sehen wende das Blockungslemma auf I1 = {1, 4} und I2 = {2, 3, 5} mit g1 (x, y) = a x sin(y), g2 (x, y, z) = x exp (y z) an.

56

4 Zufallsvariablen, Verteilungen

4.2

Verteilungen
/ eine Zufallsvariable.

Sei stets (, P ) ein diskreter Wahrscheinlichkeitsraum und X :

4.27 Denition: Ist = {x1 , ..., xn }, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls P (x = xk ) = 1 k = 1, ..., n. n

4.28 Denition: Ist = {0, 1}, so nennen wir X Bernoulli-verteilt mit Parameter p [0, 1], falls P (X = 1) = p, P (x = 0) = 1 p. Wir schreiben dann auch X B (1, p). 4.29 Denition: Ist = {1, ..., n}, so nennen wir X Binomial-verteilt mit Parametern p [0, 1] , n N, falls P (X = k) = Wir schreiben dann auch X B (n, p). n k nk p (1 p) , k = 0, ..., n. k

Abbildung 6: Binomialverteilungen B(n, p) mit p = 0.1, 0.2, 0.5, 0.8 4.30 Satz: Seien X1 , ..., Xn unabhngige Zufallsvariablen auf (, P ) und es gelte Xi B(1, p) fr jedes i {1, ..., n} a u mit festem p [0, 1]. Dann gilt X1 + ... + Xn B(n, p). Beweis: Es ist P (X1 + ... + Xn = k) =
(a1 ,...,an ){0,1}n n ai =k i=1

P (X1 = a1 , ..., Xn = an )

Fr jedes (a1 , ..., an ) {0, 1} mit u P (X1 = a1 , ..., Xn = an ) Auerdem ist


n

ai = k gilt
i=1

X1 ,...,Xn unabhngig a

P (X1 = a1 ) ... P (Xn = an ) = pk (1 p)

nk

# (a1 , ..., an ) {0, 1}

ai = k
i=1

= =

#k elementige Teilmengen einer n elementigen Menge n . k

Damit folgt schon die Behauptung.

4 Zufallsvariablen, Verteilungen

57

4.31 Denition: Ist = N, so nennen wir X geometrisch verteilt mit Parameter p [0, 1], falls P (X = k) = p (1 p) Wir schreiben dann auch X Geo(p).
k1

, k N.

Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5, 0.25, 0.1 4.32 Lemma: Ist X Geo(p), so gilt fr jedes k N. u Beweis: Es ist P (X k) =
j=k

P (X k) = (1 p)

k1

P (X = j)

j=k

(1 p)

j1

= p (1 p)

k1

j=0

(1 p)
1 =p

= fr jedes k N. Das zeigt die Behauptung. u

(1 p)

k1

Bemerkung 4.33: In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der Uberlebenswahrscheinlichkeit. Will man etwa modellieren, wie gro die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k Arbeitsgnge hlt, so verwendet man X Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen a a festen Arbeitsgang uberlebt. 4.34 Lemma: a Ist X Geo(p) eine Zufallsvariable, so gilt die Gedchtnislosigkeit, nmlich a P (X k + j | X > j) = P (x k) j, k N.

58

4 Zufallsvariablen, Verteilungen

Beweis: Seien k, j N. Da k 1 ist stets {X k + j} {X > j} = { | X() k + j} { | X() j + 1} = {X k + j} Damit folgt P (X k + j | X > j)
(4.2)

(4.2)

P (X k + j) P (X j + 1) (1 p) (1 p)
k+j1 j

Lemma 4.32

(1 p)

=
Lemma 4.32

k1

P (X k) .

Damit ist die Behauptung gezeigt. Bemerkung 4.35: Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Ubungsblatt 5. Bemerkung 4.36: Betrachtet man X Geo(p) als Uberlebenswahrscheinlichkeit, so sagt die Gedchtnislosigkeit genau, a dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind. 4.37 Denition: Ist = N0 , so nennen wir X Poisson-verteilt mit Parameter (0, ), falls P (X = k) = exp ()
=poi (k)

k , k N0 . k!

Wir schreiben dann auch X Poi().

Abbildung 8: Poisson-Verteilungen Poi() mit = 2, 4, 10, 16 Bemerkung 4.38: Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B. Anrufen pro Minute in einem Call-Center, der Anzahl radioaktiver Zerflle pro Zeitintervall und a der Anzahl von Meteoriteneinschlgen in einem Gebiet pro Zeitintervall. a Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler mglicher, aber nur mit kleiner o Wahrscheinlichkeit eintretender Ereignisse gewhlt werden. a

4 Zufallsvariablen, Verteilungen

59

4.2.1

Eigenschaften der Possionverteilung


n

4.39 Satz (Poisson-Grenzwertsatz): Ist (Xn )n1 eine Folge von B(n, pn ) verteilten Zufallsvariablen mit n pn
n

/ (0, ), so gilt

lim P (Xn = k) = poi (k)

fr k = 0, 1, ... u

Beweis: Zunchst gilt a P (Xn = k) = = = n pk (1 p)nk n k npn n (n 1) ... (n k + 1) 1 k (n pn )k 1 k! n n n n1 n k + 1 (n pn )k n pn ... 1 n n n k! n


n n

(1 pn )k

(1 pn )k

Berechnen wir nun die Grenzwerte einzeln, so haben wir n n1 nk+1 ... n n n (n pn )k k! n pn n 1 n (1 pn )k Das liefert P (Xn = k)
n n

/ / / / / / / /

1, k , k! exp(), 1.

k / exp() k!

mit der obigen Darstellung und zeigt die Behauptung. Die folgende Fehlerabschtzung wollen wir nur ohne Beweis angeben: a 4.40 Satz (Fehlerabschtzung f r die Poisson-Approximation der Binomialverteilung): a u Sei X B(n, p) und := n p. Dann gilt fr jede Teilmenge A {0, 1, 2, ...}: u P (x A) poi (k)
kA

(1 exp(np)) p p.

Insbesondere ist P (X = k) exp() Beispiel 4.41: Sei n = 1000 und p = 103 . Dann ist der Fehler der Approximation: P (x A) poi (k) (1 exp(1)) 103 0.64 103 = 0.00064 k (1 exp(np)) p k! k = 0, 1, 2, ...

kA

60

5 Kenngren von Verteilungen o

5
5.1

Kenngroen von Verteilungen


Der Erwartungswert

5.1 Lemma: Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf . Dann gilt |X()| P () < |x| P X (x) <
x

und in diesem Falle

X() P () =

x P (X = x).

Beweis: Wir berechnen

X() P () = =

X()=x

X() P () x P () P ()

X()=x

=
x

X()=x

=
x

x P (X = x).

Die gleiche Rechnung mit |X()| bzw. |x| zeigt, dass die < -Bedingungen quivalent sind. a 5.2 Denition: Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf . Wir denieren den Erwartungswert E(X) von X durch E(X) :=

X() P (), falls

|X()| P () < |x| P X (x) < .

(5.1) (5.2)

=
x

x P (X = x), falls

Bemerkung 5.3: (5.2) zeigt, dass E(X) nur von der Verteilung P X von X abhngt. E(X) ist in diesem Sinne also eine a Kenngre der Verteilung von X. o Bemerkung 5.4: Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldeniert ist. Bemerkung 5.5: Ist X 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die < -Forderung verzichten und lsst auch E(X) = zu. a 5.1.1 Erwartungswerte einiger Verteilungen Beispiel 5.6: Sei X Laplace-verteilt auf = {x1 , ..., xN } R. Dann gilt
N

E(X) =
i=1

xi P (X = xi ) =

1 xi , N i=1

da P (X = xi ) =

1 . N

Ein Spezialfall ist {x1 , ..., xN } = {1, ..., N }. Dann ist E(X) = 1 N
N

i=
i=1

N +1 1 N (N + 1) = . N 2 2

Bei einem herkmmlichen Wrfel ist demnach E(X) = 3.5. o u

5 Kenngren von Verteilungen o

61

Beispiel 5.7: Sei X B(1, p) eine Bernoulli-verteilte Zufallsvariable mit = {0, 1} und P (X = 1) = p. Dann ist E(X) = 0 (1 p) + p = p. Insbesondere liefert das fr die Indikatorvariable X = 1A einer Teilmenge A und eine Wahrscheinu lichkeitsverteilung P auf , dass X B(1, p) mit p = P (A), also E(X) = P (A). Damit ist fr das Wrfeln einer geraden Zahl (also A = {2, 4, 6} {1, ..., 6}) der Erwartungswert u u E(1A ) = P (A) = was der Intuition entspricht. Beispiel 5.8: Sei X B(n, p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von
n

1 , 2

E(X) =
k=0

n pk (1 p)nk k

einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen. Beispiel 5.9: Sei X Poi() eine Poisson-verteilte Zufallsvariable. Dann ist E(X) =
k=0

k exp()
k=1 k=0

k k! k1 (k 1)! k k!

exp() exp()

= =

exp() exp()

= . 5.10 Hilfssatz: Sei X eine diskrete Zufallsvariable auf (, P ) mit Werten in N0 . Dann gilt E (X) = Beweis: Nach 5.1 gilt E (X) =
n=1

P (X n) .

(5.3)

n=0

n P (X = n) =

n=1

n P (X = n) ,

und diese Summe konvergiert absolut. Daher knnen wir Umordnen und erhalten so o E (X) = was die Behauptung zeigt. Beispiel 5.11:
1 Sei X Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = p .

P (X = k) =

n=1

n=1 k=n

P (X n) ,

62

5 Kenngren von Verteilungen o

Beweis: Anwenden von Hilfssatz 5.10 liefert E (X)


(5.3)

n=1

P (X n) (1 p) (1 p)
n1

Lemma 4.32

n=1

= = = womit die Behauptung schon gezeigt ist.

n=0

1 1 (1 p) 1 , p

Das heit beim Wrfeln mit X =Warten auf die erste 6: u 1 E(X) = 1 = 6.
6

5.1.2

Eigenschaften des Erwartungswertes

5.12 Satz (Transformationsformel): Sei (, P ) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in und g := R eine Abbildung mit |g(x)| P (X = x) < .
x

Dann ist E(g(X)) =


x

g(x) P (X = x).

Beweis: Fr die Verteilung von Y = g X gilt: u P (Y = y) = P (g X = y) = P ({ | g X() = y})


x g(x)=y

= P =

P (X = x)

{ | X() = x}

x g(x)=y

Damit erhalten wir E(g(X)) = E(Y ) =


yY ()

y P (Y = y) y P (X = x)
xg 1 ({y})

=
yY ()

=
yY () xg 1 ({y})

y P (X = x) g(x) P (X = x)

=
yY () xg 1 ({y})

=
x

g(x) P (X = x)

Die selbe Rechnung mit Betrgen zeigt, dass der Erwartungswert E (g(X)) im denierten Sinne existiert. a

5 Kenngren von Verteilungen o

63

Beispiel 5.13: Sei g(x) = xk . Dann heit E(X k ) =


x

xk P (X = x)

k = 1, 2, ...

das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das 1.Moment von X gleich dem Erwartungswert von X. 5.14 Satz (Linearitt und Monotonie des Erwartungswertes): a Seinen X, Y Zufallsvariablen auf (, P ), s.d. E(X) und E(Y ) existieren. Sei auerdem a R. Dann gelten die folgenden Rechenregeln: (1) E(X + Y ) = E(X) + E(Y ) (2) E(aX) = a E(X) (3) X Y E(X) E(Y ) (d.h.X() Y ()) Beweis: (1) Per Denition gilt E(X + Y ) = =

(X + Y )() P () (X() + Y ()) P () X() P () + Y () P ()

= E(X) + E(Y ). Die gleiche Rechnung mit Betrgen zeigt, dass E(X + Y ) existiert. a (2) Hier ist E(aX) =

a X() P () = a

X() P () = a E(X).

(3) Zuletzt berechnet man E(X) =

X() P ()

Y () P () = E(Y ).

Damit ist der Satz bewiesen. Beispiel 5.15: Sei X B(n, p) eine Binomial-verteilte Zufallsvariable und seien X1 , X2 , ..., Xn unabhngig nach B(1, p) a verteilt. Nach Satz 4.30 ist dann X1 + X2 + ... + Xn B(n, p), das heit X und X1 + X2 + ... + Xn haben die gleiche Verteilung. Folglich gilt E(X) = E(X1 + X2 + ... + Xn )
Linearitt a

E(X1 ) + E(X2 ) + ... + E(Xn ) = n p,

da E(X1 ) = ... = E(Xn ) = p fr Bernoulli-verteilte X1 , ..., Xn . u Beispiel 5.16: Sei X(a1 , a2 , ..., an ) gleich der Anzahl der Fixpunkte der Permutation a1 , a2 , ..., an von 1, 2, ..., n. Fr n = 4 gilt dann z.B. X(1, 4, 3, 2) = 2. u Allgemein schreiben wir: X(a1 , a2 , ..., an ) = #{i | ai = i}
n

Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Fr Ai = {(a1 , ..., an ) | ai = i} gilt u dann X=
i=1

1Ai .

Mit Hilfe der Linearitt knnen wir zeigen: a o


n n n n

E(X) = E
i=1

1Ai

=
i=1

E(1Ai ) =
i=1

P (Ai ) =
i=1

1 = 1. n

64

5 Kenngren von Verteilungen o

Beispiel 5.17 (Sammlerproblem): Wir ziehen aus einer Urne mit n Kugeln, welche mit 1, ..., n nummeriert sind, mit Zurcklegen bis jede u Kugel mindestens einmal gezogen wurde. Wir wollen nun die bentigte Anzahl X von Ziehungen modelo lieren und den Erwartungswert E(X) bestimmen.
n Sei X = X0 + X1 + X2 + ... + Xn1 wobei Xi Geo( ni ) und E(Xi ) = ni nach Beispiel 5.11. n (Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen nachdem bereits i ver schiedene Kugeln gezogen wurden, insbesondere X0 1) Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1, X1 = 2, X2 = 3, X4 = 2. Man berechnet

E(X)

= E(X0 ) + E(X1 ) + ... + E(Xn 1) n n n n = + + + ... + n n1 n2 1


n

= n

i=1

1 i

n ln(n). Damit knnen wir den Erwartungswert fr n = 3, 10, 100 und 10000 berechnen: o u n 3 10 100 10000 E(X) 5.5 29.3 518.7 97876.1

5.1.3

Produktformel

Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets E (X Y ) = E (X) E (Y ) gilt. Beispiel 5.18: Sei X B(1, p) und Y = X. Dann haben wir E (X Y ) = E X 2 = E (X) = p, da X 2 = X, denn schlielich nimmt X nur Werte in {0, 1} an. Andererseits ist aber E (X) E (Y ) = (E (X)) = p2 . Fr p (0, 1) gilt aber p2 = p, womit (5.4) im Allgemeinen also falsch ist. u 5.19 Satz (Produktformel f r unabhngige Zufallsvariablen): u a Seien X, Y unabhngige Zufallsvariablen auf (, P ) mit existenten Erwartungswerten E(X), E(Y ). Dann a gilt E (X Y ) = E(X) E(Y ).
2

(5.4)

5 Kenngren von Verteilungen o

65

Beweis: Mittels der ersten Denition des Erwartungswerts (5.1) berechnet man E (X Y ) =

(X Y ) ()P ({}) X() Y () P ({}) X () Y () P ({})


=xy

=
xX() yY ()
X()=x,Y ()=y

=
xX() yY ()

xy

P ({})
X()=x,Y ()=y

=
xX() yY () X,Y unabhngig a

P (X = x, Y = y) P (X = x) P (Y = y) yP (Y = y) ,

xX() yY ()

xX()

was nach der zweiten Denition (5.2) des Erwartungswertes genau E(X) E(Y ) entspricht. Um die Existenz des Erwartungswertes E(X Y ) zu zeigen, fhrt man zunchst die selbe Rechnung mit u a Betrgen durch. a Beispiel 5.20: Wir betrachten zwei faire Wrfel und die Zufallsvariablen X1 :=erster Wurf, X2 :=zweiter Wurf. u Mit obigem Satz gilt dann 2 7 E (X Y ) = E (X) E (Y ) = . 2

xP (X = x)

yY ()

5.2

Varianzen

5.21 Denition: Sei X eine reelle Zufallsvariable mit E X 2 < . Dann wird die Varianz von X deniert durch V (X) := E (X E (X))
2

Ebenso deniert man die Standardabweichung X von X als X := V (X).

Bemerkung 5.22: (1) Da E X 2 < ist und fr jede reelle Zahl x R auch |x| 1 + x2 gilt, ist auch E (|X|) < u und daher existiert E (X) unter der Voraussetzung E X 2 < . Insbesondere ist V (X) also wohldeniert. (2) Da (X E(X)) gilt, muss auch V (X) 0 sein und X ist wohldeniert. (3) X E(X) geht aus X durch Zentrieren hervor, d.h. E (X E(X)) = E(X) E(E(X)) = E(X) E(X) = 0, da der Erwartungswert E(E(X)) der festen Zahl E(X) (d.h. der konstanten Zufallsvariable E(X)) natrlich wieder E(X) selbst ist. u Bemerkung 5.23: Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).
2

66

5 Kenngren von Verteilungen o

Bemerkung 5.24: Nach der Transformationsformel fr den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) := u 2 (x E(X)) , x R: V (X) = E(g(X)) Beispiel 5.25: Wir betrachten das einmalige Wrfeln mit einem fairen Wrfen und denieren die Zufallsvariable X als u u 7 die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 2 , und daher ist die Varianz von X nach obiger Bemerkung gegeben als 6 2 7 1 35 x V (X) = = . 2 6 12 x=1 5.26 Denition: Sei k N und X eine reelle Zufallsvariable auf (, P ). Falls E (X E(X))
k Transformationsformel

xX()

(x E(X)) P (X = x) .

(5.5)

existiert, so nennen wir diese Zahl das k-te zentrale Moment von X. Bemerkung 5.27: Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch die Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine Kenngre o der Verteilung. 5.28 Denition: Seien X, Y reelle Zufallsvariablen mit E X 2 < , E Y 2 < . Dann wird die Kovarianz von X und Y deniert durch CoV (X, Y ) = E ((X E(X)) (Y E(Y ))) . Bemerkung 5.29: Fr eine reelle Zufallsvariable gilt dann u CoV(X, X) = V (X). 5.30 Satz (Rechenregeln f r die Varianz): u 2 Seien X, Y und Xi fr 1 i n reelle Zufallsvariablen mit E X 2 < , E Y 2 < und E Xi < , u 1 i n. Seien auerdem a, b R. Dann gelten die folgenden Rechenregeln (V2) V (aX + b) = a2 V (X). (V4) Fr Summen gilt u
n n n

(V1) V (X) = E X 2 (E (X)) , insbesondere ist V (X) < .

(V3) CoV (X, Y ) = E (X Y ) E (X) E (Y ). V


i=1

Xi

=
i=1

V (Xi )

CoV (Xi , Xj ) .
i,j=1 i=j

(V5) Sind X1 , ..., Xn unabhngig, so gilt sogar a


n n

V
i=1

Xi

=
i=1

V (Xi ) .

Beweis: (V1) Mittels der Linearitt des Erwartungswerts hat man a V (X) = E (X E (X))
2

= E X 2 2E (X) X + (E (X))

= E X 2 2E (X) E (E (X)) + E (E (X)) = E X 2 2 (E (X)) + (E (X)) = E X 2 (E (X)) .


2 2 2

5 Kenngren von Verteilungen o

67

Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natru lich der Wert der Zufallsvariablen selbst ist. (V2) Es ist V (aX + b) = E ((aX + b) E (aX + b))
2

= E (aX + b aE (X) E (b)) = E a2 (X E(X)) = a2 E (X E(X)) = a2 V (X). (V3) Man berechnet CoV (X, Y ) = E ((X E(X)) (Y E(Y )))
2

= E (X Y X E(Y ) Y E(X) + E (X) E (Y )) = E (X Y ) E (X) E(E(Y )) E(Y ) E(E(X)) + E(E(X)) E(E(Y )) = E (X Y ) E (X) E (Y ) E (Y ) E (X) + E (X) E (Y ) = E (X Y ) E (X) E (Y ) . Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natrlich der Wert der Zufallsvariablen selbst ist. u (V4) Wir setzen Zi := Xi E (Xi ) fr 1 i n. Dann ist u
n n n n

i=1

Xi E

Xi
i=1

=
i=1

(Xi E (Xi )) =

Zi ,
i=1

(5.6)

womit
n

V
i=1

Xi

i=1 n

Xi E
2

Xi
i=1

(5.6)

Zi
i=1 n

Zi
i=1 n

j=1

Zj

E
n

i,j=1

Zi Zj

=
i,j=1 n

E (Zi Zj )
n

=
i=1 Zi =Xi E(Xi ) n

2 E Zi +
i,j=1 i=j

E (Zi Zj ) CoV (Xi , Xj )

V (Xi ) +
i=1
i,j=1 i=j

folgt. (V5) Nach Satz 5.19 gilt wegen der Unabhngigkeit von X1 , ..., Xn fr alle Paare 1 i, j n, i = j: a u E (Xi Xj ) = E (Xi ) E (Xj ) . Mit Regel (V3) ist also CoV (Xi , Xj ) = 0 falls i = j. Damit folgt (V5) aus (V4).

68

5 Kenngren von Verteilungen o

Bemerkung 5.31: Im Beweis von (V5) haben wir gezeigt, dass fr unabhngige, reelle Zufallsvariablen X, Y stets u a CoV (X, Y ) = 0 gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt: Beispiel 5.32: Betrachte eine Zufallsvariable X mit Werten in {N, ..., N } auf einem diskreten Wahrscheinlichkeitsraum (, P ). Wir nehmen an, dass P (X = n) = P (X = n) n {N, ..., N } und 0 < P (X = 0) < 1 gilt. Dann gilt CoV X, X 2 = 0, aber X und X 2 sind nicht unabhngig. a Beweis: Zunchst ist a E (X)
(5.1) N

k=N

k P (X = k)
N N

0 P (X = 0) +
N

k=1

k P (X = k)

k=1

k P (X = k)

=
k=1

k (P (X = k) P (X = k))
=0 nach Voraussetzung

0.

(5.7)

Genauso folgt mit der Transformationsformel (Satz 5.12) fr g(x) = x3 , dass u E X3


(5.1) N

k=N

k 3 P (X = k)
N N

03 P (X = 0) +
N

k=1

k 3 P (X = k)

k=1

k 3 P (X = k)

=
k=1

k 3 (P (X = k) P (X = k))
=0 nach Voraussetzung

0.

(5.8)

Damit folgt nach Denition der Kovarianz CoV X, X 2 = = =


(5.7) & (5.8)

E(X)
=0 nach (5.7)

X2 E X2

E X3 X E X2 E X 3 E (X) E X 2 0.

Bleibt zu zeigen, dass X und X 2 nicht unabhngig sind. Dazu nehmen wir an, X und X 2 wren una a abhngig. Dann gilt insbesondere a
2 2 P (X,X ) (0, 0) = P X (0) P X (0)

5 Kenngren von Verteilungen o

69

Beachten wir nun, dass X 2 = 0 X = 0, so folgt P (X = 0) = P (X = 0, X = 0) = P X = 0, X 2 = 0


2 = P (X,X ) (0, 0)

= P X (0) P X (0) = (P (X = 0)) ,


2

= P (X = 0) P X 2 = 0

was ein Widerspruch zu P (X = 0) (0, 1) ist. Es folgt die Behauptung. 5.33 Denition: Seien X, Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls CoV (X, Y ) = 0 gilt. Es gilt also: unabhngig a 5.2.1 unkorreliert

Varianzen einiger diskreter Verteilungen

Beispiel 5.34: Sei X B (1, p) fr p [0, 1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und u daher gilt wegen X 2 = X (X hat wieder nur Werte in {0, 1}): V (X) = E X 2 (E (X)) = E (X) (E (X)) = p p2 = p (1 p) .
2 2

V (X)

Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X B(1, p) in Abhngigkeit von a p [0, 1] Beispiel 5.35: Sei X B(n, p) mit n N und p [0, 1]. Seien auerdem X1 , ..., Xn B (1, p) unabhngig. Nach Satz a 4.30 gilt dann X1 + ... + Xn B (n, p) ,

weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung abhngt, gilt also a
n

V (X)

V
i=1 n

Xi

(V5) i=1 Beispiel 5.34

V (Xi ) np (1 p)

70

5 Kenngren von Verteilungen o

Beispiel 5.36: Sei X Poi () fr ein 0 < < . Dann ist u P (X = k) = exp () k fr k N u k!

und es gilt E (X) = wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und haben so 2 V (X) = E X 2 (E(X)) = E X 2 2 . Zur Berechnung von E X 2 nutzen wir den folgenden Trick: E X 2 = E X 2 X + E (X) . Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k 2 k auf E(X 2 X) = E(g(X)) an und erhalte so E X2 X =
Transformationsformel

E (g(X))
k=0

k 2 k P (X = k) k (k 1) exp () k (k 1) exp ()
k=2

k=0

k k! k k!

k=2

exp ()

k (k 2)!

= = = Das ergibt zusammen

2 exp ()
2

k=0

k k!

exp () exp () 2 .

V (X) = E X 2 X + E (X) (E (X)) = 2 + 2 = Beispiel 5.37: Sei X Geo(p) fr ein p [0, 1]. Wir haben schon gesehen, dass dann E(X) = u zu berechnen, nutzen wir das folgende 5.38 Lemma: Ist X eine Zufallsvariable mit Werten in N, so gilt E X2 =
n=1 1 p

gilt. Um die Varianz

(2n 1) P (X n) .

Beweis: Mit der Transformationsformel (Satz 5.12) fr g(k) := k 2 folgt direkt u E (X) =
n=0

n2 P (X = n) =

n=1

n2 P (X = n) .

5 Kenngren von Verteilungen o

71

Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:
n=1

n2 P (X = n)

= = =

1 P (X = 1) + 4 P (X = 2) + 9 P (X = 3) + 16 P (X = 4) + ... (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ... (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) +5P (X = 3) + 12P (X = 4) + ...

(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) +5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...


n=1

= Es folgt die Behauptung.

(2n 1) P (X n) .

Auerdem gilt laut Lemma 4.32 P (X k) = (1 p) E X2 =

k1

, womit dann

1 n1 p (2n 1) (1 p) p n=1 1 (2n 1) P (X = n) p n=1

gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k 1 rckwrts an und erhalten u a so E X2 = = = = Fr die Varianz gilt damit u V (X)
(V1)

1 E ((2X 1)) p 1 1 2E(X) p p 1 2 p2 p 2p . p2

E X 2 (E (X)) =

2p 1 1p 2 = . p2 p p2

72

6 Wahrscheinlichkeitsungleichungen und das SGGZ

6
6.1

Wahrscheinlichkeitsungleichungen und das SGGZ


Das schwache Gesetz groer Zahlen (SGGZ)

6.1 Satz (Markov-Ungleichung): Sei X 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (, P ). Dann gilt fr jedes reelle a > 0: u P (X a) Beweis: Es gilt P (X a) =
xX(),xa

E(X) a

(6.1)

P (X = x) x P (X = x) a

= was die Behauptung zeigt.

xX(),xa

xX()

x P (X = x) a

1 E(X), a

6.2 Satz (Tschebyschow-Ungleichung): Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < . Dann gilt fr jedes reelle a > 0: u P (|X E(X)| a) Beweis: Da sowohl |X E(X)| als auch a positive Zahlen sind, ist |X E(X)| a (X E(X)) a2 . Damit gilt P (|X E(X)| a)
(6.3)

V (X) a2

(6.2)

(6.3)

P (X E(X)) a2 E (X E(X)) a2 V (X) , a2


2

(6.1)

= womit die Behauptung gezeigt ist.

Folgerung 6.3: Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < . Dann gilt fr jedes reelle c > 0: u P (|X E(X)| cX ) Beweis: Wende (6.2) mit a = cX an und nutze X = V (X). 1 c2 (6.4)

Bemerkung 6.4: Fr jede reelle, diskrete Zufallsvariable X mit E X 2 < gilt also u P (|X E(X)| 2X ) P (|X E(X)| 3X ) usw. 1 4 1 9

6 Wahrscheinlichkeitsungleichungen und das SGGZ

73

Beispiel 6.5: Wir betrachten 100 faire Mnzwrfe und denieren die Zufallsvariable X als die Anzahl der Kopfu u 1 1 Ergebnisse. Dann ist X B 100, 2 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 4 = 25. Also ist X = 5 und daher haben wir nach (6.4): P (|X 50| 10) P (|X 50| 15) 1 4 1 9

Bemerkung 6.6: Die Abschtzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, knnen oft verbessert a o werden. Siehe dazu etwa spter die Exponentialungleichungen oder den zentralen Grenzwertsatz. a 6.7 Satz (Schwaches Gesetz groer Zahlen (SGGZ)): Seien X1 , ..., Xn unabhngige diskrete Zufallsvariablen mit gleicher Verteilung auf (, P ) und es gelte a 2 E Xi < fr jedes 1 i n. Dann gilt fr jedes > 0: u u P 1 n
n

i=1

Xi E (X1 )

V (X1 ) n2

/ 0.

(6.5)

Beweis: Zunchst halten wir fest, dass a E (X1 ) = E 1 n


n

E (Xi ) .
i=1

Auerdem gilt E (X1 ) = E (Xi ) fr jedes 1 i n, da alle Zufallsvariablen nach Voraussetzung die u gleiche Verteilung besitzen. Daher folgt mit der Tschebyschow-Ungleichung: 1 n
n (6.2)

1 n

Xi
i=1 2

i=1

Xi E (Xi )

n (V2)

V
n

Xi
i=1 n2 2

X1 ,...,Xn unabhngig a

V (Xi )
i=1

= Das zeigt die Behauptung. Bemerkung 6.8: Damit liegt fr groe n der empirische Mittelwert u 1 n
n

n2 2 V (X1 ) . n2

Xi
i=1

mit hoher Wahrscheinlichkeit in der -Nhe des Erwartungswertes E(X1 ). a 6.1.1 Spezialfall - Das SGGZ von Bernoulli

6.9 Satz: Seien Xi B(1, p) fr ein p [0, 1] und 1 i n, auerdem seien X1 , ..., Xn unabhngig. Dann gilt u a P 1 n
n

i=1

Xi p

1 . 4n2

(6.6)

74

6 Wahrscheinlichkeitsungleichungen und das SGGZ

Beweis: Wir wissen schon, dass E (X1 ) = p und V (X1 ) = p (1 p) gilt. Nach dem SGGZ gilt also P Oenbar ist aber p (1 p) Beispiel 6.10: Wir betrachten 1000 faire Mnzwrfe und setzen u u Xi := 1 Kopf im i-ten Wurf . 0 Zahl im i-ten Wurf
1 4

1 n

i=1

Xi p

p (1 p) . n2

p R, womit die Behauptung folgt.

Dann gilt Xi B 1, 1 fr alle 1 i 1000 und die Zufallsvariablen X1 , ..., X1000 sind unabhngig. u a 2 Nun setzen wir
1000

X :=
i=1

Xi ,

was der Anzahl an Kopf-Wrfen in 1000 Wrfen entspricht. Es ist u u


1000 1000

E (X) =
i=1

E (Xi ) =
i=1

1 = 500 2

und entsprechend berechnet man mit dem SGGZ von Bernoulli: P (X 400 oder X 600) = =
(6.6)

P (|X 500| 100) P 1 1000


1000 i=1

Xi

1 1 2 10

1 4 1000

1 100

= Damit ist auch

1 = 0.025. 40

P (400 < X < 600) = 1 P (X 400 oder X 600) 1 0.025 = 0.975.

6.2

Exponential-Ungleichungen

Notation 2: Sind X1 , ..., Xn unabhngige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheina lichkeitsraum (, P ) gegeben, so schreiben wir auch Xi
i.i.d.

B (1, p) ,

falls die Verteilung die Bernoulli-Verteilung ist usw.. i.i.d. steht dabei fr independent identically distributed. u 6.11 Satz (Bernstein-Ungleichung): i.i.d. Seien Xi B (1, p) fr ein p [0, 1]. Dann gilt fr alle > 0: u u P 1 n 1 n
n

i=1

Xi p

1 exp n2 , 4 1 exp n2 , 4 1 2 exp n2 . 4 (6.7)

i=1 n

Xi p Xi p

1 n

i=1

6 Wahrscheinlichkeitsungleichungen und das SGGZ

75

Beweis: Oenbar folgt die dritte Ungleichung mittels der Booleschen Ungleichung (1.7) bereits aus den ersten beiden Ungleichungen: P 1 n
n

i=1

Xi p

(1.7)

1 n

i=1

Xi p

+P

1 n

i=1

Xi p .

Wir zeigen nur die erste Ungleichung, die zweite lsst sich absolut analog beweisen. a P 1 n
n

i=1

Xi p

= P

1 n
n

i=1

Xi p + (6.8)

= P
i=1 n

Xi np + n .

Nach Satz 4.30 ist


i=1

Xi B (n, p), daher folgt also fr m := n (p + ): u


(6.8) n

1 n

i=1

Xi p

k=m >0 beliebig n

n k nk p (1 p) k
=:q

k=m

exp ( (k n (p + )))
n

n k nk p q k

exp (n)
k=m n

n exp (k np) pk q nk k n k nk (p exp (q)) (q exp (p)) k


n

= =

exp (n)
k=m

exp (n) (p exp (q) + q exp (p)) .

(6.9)

u Allgemein ist exp (x) x + exp x2 fr x R2 , daher folgt P 1 n


n

i=1

Xi p

(6.9)

exp (n) (p exp (q) + q exp (p)) exp (n) p q + exp 2 q 2

= = = = fr jedes > 0. Nun whlen wir = u a damit n 1 P Xi p n i=1 was die Behauptung zeigt. Beispiel 6.12:

+ q p + exp 2 p2
n n

exp (n) p exp 2 q 2 + q exp 2 p2 exp (n) p exp 2 + q exp 2 exp (n) exp n2 exp n 2
(6.10)

(6.10)
2

2,

was genau dem Minimum von entspricht. Es folgt exp 2


2

n n 2

1 = exp 2 n , 4

Wir betrachten wieder die Mnzwrfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert u u P 1 1000
1000

i=1

Xi

1 0.1 2

(6.7)

1 1 2 exp 1000 4 100

= 2 exp

10 4

0.164,

was oenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafr ist, dass n = 1000 u einfach noch zu klein ist! Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich bessere Ergebnisse erzielen kann.
2 F r x < 0 ist diese Ungleichung oensichtlich. F r x = 0 gilt Gleichheit und f r x 1 ist x2 x, womit die Ungleichung u u u aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?

76

6 Wahrscheinlichkeitsungleichungen und das SGGZ

Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen: 6.13 Satz (Chernov-Ungleichung): i.i.d. Seien Xi B (1, p) fr ein p [0, 1]. Dann gilt fr alle > 0: u u P 1 n 1 n
n

i=1

Xi p

exp 2n2 , exp 2n2 , 2 exp 2n2 . (6.11)

i=1 n

Xi p Xi p

1 n

i=1

Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen: 6.14 Satz (Hoeding-Ungleichung): Seien X1 , ..., Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a Xi b fr alle 1 i n. u Mit c := b a gilt dann fr alle > 0: u P 1 n
n

i=1

Xi E (X1 )

2 exp 22

n . c2

Bemerkung 6.15: Oenbar folgt die Chernov-Ungleichung aus der Hoeding-Ungleichung mit a = 0 und b = 1. Beispiel 6.16: Wir betrachten wieder die Mnzwrfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier u u P 1 1000
1000

i=1

Xi

1 0.1 2

(6.11)

2 exp 2 1000

1 100

= 2 exp (20) 0.00000000412

- besser gehts nicht!

7 Faltung, bedingte Verteilungen und Korrelation

77

7
7.1

Faltung, bedingte Verteilungen und Korrelation


Die Faltung

Wir betrachten oft Summen unabhngiger Zufallsvariablen. Was kann man uber die Verteilung dieser a Summe aussagen? 7.1 Satz: Es seien X1 , ..., Xn unabhngige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ). a (1) Dann ist die Verteilung P X1 +...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 , ..., P Xn der Zufallsvariablen X1 , ..., Xn festgelegt. (2) Fr x (X1 + ... + Xn ) () (also x im Wertebereich der Summe) gilt u P (X1 + ... + Xn = x) =
x1 X1 (),...,xn Xn () x1 +...+xn =x

P (X1 = x1 ) ... P (Xn = xn ) .

(7.1)

Beweis: Oenbar folgt (2) aus (1). Fr (1) sehen wir zunchst, dass u a {X1 + ... + Xn = x} = Damit folgt P (X1 + ... + Xn = x) =
x1 X1 (),...,xn Xn () x1 +...+xn =x

x1 X1 (),...,xn Xn () x1 +...+xn =x

{X1 = x1 , ..., Xn = xn } .

P (X1 = x1 , ..., Xn = xn )

X1 ,...,Xn unabhngig a

x1 X1 (),...,xn Xn () x1 +...+xn =x

P (X1 = x1 ) ... P (Xn = xn )

und die Behauptung ist gezeigt. 7.2 Denition: Seien X1 , ..., Xn unabhngige Zufallsvariablen. Wir denieren die Faltung von P X1 , ..., P Xn als a P X1 ... P Xn := P X1 +...+Xn . Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung. 7.3 Denition: Fr Wahrscheinlichkeitsverteilungen P1 , ..., Pn auf deniert man allgemeiner die Faltung P1 ... Pn u als die Verteilung von X1 + ... + Xn , wobei Xi , 1 i n, unabhngige Zufallsvariablen mit P Xi = Pi a sind. Bemerkung 7.4: Im Allgemeinen (d.h. ohne Unabhngigkeit), ist die Verteilung der Summe X + Y zweier Zufallsvariablen a X und Y nicht durch die Verteilungen von X und Y festgelegt. Beispiel 7.5: Seien X, Y B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y B(2, p) gilt, d.h. die Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor 1 1 1 , , 4 2 4 .
i.i.d.

In diesem Sinne ist die Bernoulli-Verteilung eine schne Verteilung, ihre Faltung gibt wieder eine uns o bekannte und leicht zu berechnende Verteilung - die Binomialverteilung! Beispiel 7.6: a Sei X B 1, 1 und Y = X. Insbesondere sind X und Y dann nicht unabhngig und es gilt auch 2 1 Y B 1, 2 . Damit gilt 1 2 falls x = 0 0 falls x = 1 . P (X + Y = x) = P (2X = x) = 1 falls x = 2 2

78

7 Faltung, bedingte Verteilungen und Korrelation

7.1.1

Spezialfall

Seien X, Y unabhngige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit a X () N0 , Y () N0 . Dann ist (X + Y ) () N0 und es gilt fr k N0 : u P (X + Y = k)
(7.1)

x,yN0 x+y=k

P (X = x) P (Y = y)

=
x=0 k

P (X = x) P (Y = k x) pX (x) pY (k x) (7.2)

=
x=0

Beispiel 7.7: Wir betrachten die Augensumme beim zweifachen Wrfeln. Setze dazu X1 := erster Wurf und X2 := u zweiter Wurf. Wir haben in einem frheren Beispiel schon gesehen, dass die Verteilung der Summe u P (X + Y = k) fr k = 2, ..., 12 den Wahrscheinlichkeitsvektor u 1 2 3 4 5 6 5 4 3 2 1 , , , , , , , , , , 36 36 36 36 36 36 36 36 36 36 36 liefert. Das kann man mit der obigen Darstellung leicht nachrechnen. 7.1.2 Faltungen einiger wichtiger Verteilungen

7.8 Satz: Seien X, Y zwei unabhngige, diskrete Zufallsvariablen mit X Poi () , Y Poi () fr zwei Parameter a u 0 < , < . Dann gilt X + Y Poi ( + ) . Beweis: Da die Poisson-Verteilung fr Zufallsvariablen mit Werten in N0 deniert ist, knnen wir obigen Spezialfall u o anwenden: P (X + Y = k)
(7.2) k

x=0 k

P (X = x) P (Y = k x) exp () x kx exp () x! (k x)!


k

=
x=0

= = = Das zeigt die Behauptung.

k! 1 exp ( ( + )) x kx k! x! (k x)! x=0 1 k exp ( ( + )) ( + ) k! poi+ (k) .

Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der Parameter. Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei Poi () verteilt, bei der zweiten Zentrale Poi () verteilt. Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi ( + ) verteilt ist. 7.9 Hilfssatz: Es gilt
k

x=0

n x

m kx

n+m . k

7 Faltung, bedingte Verteilungen und Korrelation

79

Beweis: o Wir wir im Kapitel uber Kombinatorik gesehen haben, ist a genau die Anzahl der Mglichkeiten, b b o Elemente aus einer a-elementigen Menge auszuwhlen. Also ist n+m genau die Anzahl der Mglichkeiten, a k aus der Menge {1, ..., n + m} genau k Elemente auszuwhlen. a Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1, ..., n} ausgewhlt werden, und a die Elemente, die aus {n + 1, ..., n + m} ausgewhlt werden. Die Summe dieser beiden Auswahlen muss a entsprechend k ergeben. Jetzt klassizieren wir dies nach der Kardinalitt x der ersten Auswahl, die a zwischen 0 und k liegen muss. Oenbar ist dann n+m genau die Summe all dieser Klassikationen, d.h. k n+m k was die Behauptung zeigt. 7.10 Satz: Seien X B (n, p) und Y B (m, p) unabhngige Zufallsvariablen mit Parametern p [0, 1] und a n, m N. Dann gilt X + Y B (m + n, p) . Beweis: Fr 0 k m + n gilt u P X+Y (k) =
(7.2) k

=
x=0

n x

m , kx

P (X + Y = k)
k

x=0 k

P (X = x) P (Y = k x) m n x m(kx) nx pkx (1 p) p (1 p) kx x n x m nx+mk+x pk (1 p) kx


k n+mk x=0

=
x=0 k

=
x=0

=
Hilfssatz 7.9

pk (1 p)

n x

m kx

n+m k n+mk p (1 p) . k

Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.

80

7 Faltung, bedingte Verteilungen und Korrelation

7.2

Bedingte Verteilungen
/ diskrete

7.11 Denition: / , Y : Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Zufallsvariablen auf diesem Raum. Sei weiter x X () mit P (X = x) > 0. Die bedingte Verteilung von Y gegeben X = x ist P (Y A | X = x) fr A . u Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist pY |X (y|x) := P (Y = y | X = x) = p(X,Y ) (x, y) P (Y = y, X = x) = , P (X = x) pX (x)

(x, y) , .

D.h. fr jedes x wie in der Annahme ist pY |X (|x) eine Wahrscheinlichkeitsfunktion auf bzw. Y (). u Beispiel 7.12: Wir wrfeln zweimal mit einem fairen Wrfel und denieren unsere Zufallsvariablen X1 , X2 als die Eru u gebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Natrlich sind X1 und X2 unabhngig. Setze nun u a Y := X1 + X2 , X := X1 . Dann ist Y die Augensumme des Experiments. Zunchst berechnen wir formal a P (Y = y | X = x) = = =
X1 ,X2 unabhngig a

P (X1 + X2 = y | X1 = x) P (X1 + X2 = y, X1 = x) P (X1 = x) P (X2 = y x, X1 = x) P (X1 = x) P (X2 = y x) =


1 6

falls 1 y x 6 . sonst

Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X (y|x) angeben. In der x-ten Zeile steht dabei pY |X (|x): x/y 1 2 3 4 5 6 2
1 6

3
1 6 1 6

4
1 6 1 6 1 6

5
1 6 1 6 1 6 1 6

6
1 6 1 6 1 6 1 6 1 6

7
1 6 1 6 1 6 1 6 1 6 1 6

8 0
1 6 1 6 1 6 1 6 1 6

9 0 0
1 6 1 6 1 6 1 6

10 0 0 0
1 6 1 6 1 6

11 0 0 0 0
1 6 1 6

12 0 0 0 0 0
1 6

0 0 0 0 0

0 0 0 0

0 0 0

0 0

Beispiel 7.13: Seien X B (n, p) und Y B (m, p) unabhngige Zufallsvariablen. Die bedingte Verteilung von X a gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y B (n + m, r)) der Frage Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten auftreten?

7 Faltung, bedingte Verteilungen und Korrelation

81

Man berechnet pX|X+Y (j|k) = =


X,Y unabhngig a

P (X = j | X + Y = k) P (X = j, Y = k j) P (X + Y = k) P (X = j) P (Y = k j) P (X + Y = k)
n j

pj (1 p)
m kj n+m k

nj

m kj

n+m k

pkj (1 p)
m+nk

m(kj)

n j

pk (1 p)

und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung fr das Experiment u n + m Kugeln gegeben, davon n rote. Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind! entspricht. Beispiel 7.14: Seien X Poi () , Y Poi () unabhngige Zufallsvariablen. Wir modellieren damit etwa Anfragen an a einen Server, die uber zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X +Y = k ist dann die Frage, wie viele der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y Poi ( + ) und damit berechnet man pX|X+Y (j|k) = =
X,Y unabhngig a

P (X = j | X + Y = k) P (X = j, Y = k j) P (X + Y = k) P (X = j) P (Y = k j) P (X + Y = k)
exp () exp () (kj)! j!
j kj

= =

exp ( ) (+) k!

1 k j kj j kj j ( + ) ( + ) k j +
j

+
=1 +

kj

Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B k, +

gegeben.

Nach obigen Beispielen kann man schon vermuten: Bemerkung 7.15: Die Zufallsvariablen X und Y sind genau dann unabhngig, wenn pY |X (y|x) = pY (y) (x, y) a gilt. Beweis: Nach Denition der bedingten Wahrscheinlichkeit ist pY |X (y, x) = pY (y) Wir sehen also p(X,Y ) (x, y) = pY (y) pX (x) P (X,Y ) (x, y) = P Y (y) P X (x).

Nach Satz 4.18 ist die hintere Bedingung aber quivalent zur Unabhngigkeit von X und Y . a a

pY |X (y|x) = pY (y) (x, y) P (X,Y ) = P X P Y .

82

7 Faltung, bedingte Verteilungen und Korrelation

7.2.1

Der bedingte Erwartungswert

7.16 Denition: / , Y : / diskrete Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Zufallsvariablen auf diesem Raum. Fr x mit P (X = x) > 0 ist der bedingte Erwartungswert u von Y gegeben X = x deniert durch E (Y | X = x) = Beispiel 7.17: Wir betrachten zweifaches Wrfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster u Wurf. Dann schlieen wir aus obiger Tabelle, dass
12

yY ()

y pY |X (y|x) .

E (Y | X = x) = Beispiel 7.18:

y=2

y pY |X (y|x) =

y = x + 3.5. 6 y=x+1

x+6

Seien X Poi () und Y Poi () unabhngig. Dann ist die bedingte Verteilung von X gegeben a X +Y = x genau durch B x, + gegeben, womit nach dem Erwartungswert fr Binomial-Experimente u sofort E X X +Y =x =x + folgt. 7.2.2 Die bedingte Erwartung

Der eben denierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher g (x) := E (Y | X = x) , 7.19 Denition: Die Abbildung g (X) : / R, also
X

x X () .

/ X()

/R

ist eine Zufallsvariable auf und heit die bedingte Erwartung von Y gegeben X. Wir schreiben auch E (Y | X) := g (X) . Beispiel 7.20: Wir wrfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5 u gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable E (Y | X) = X + 3.5. Beispiel 7.21: Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung aus diesem Beispiel folgt . E (X | X + Y ) = (Y + X) + Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz: 7.22 Satz (iterierte Erwartung): Es gilt E (Y ) = E (E (Y | X)) . Beweis: Wende Satz 7.23 mit f 1 an. (7.3)

7 Faltung, bedingte Verteilungen und Korrelation

83

Der folgende Satz ist allgemeiner und beinhaltet den Satz uber die iterierte Erwartung bereits: 7.23 Satz: Fr eine beliebige Abbildung f : X () u / R gilt

E (f (X) Y ) = E (f (X) E (Y | X)) . Beweis: Betrachte


(X,Y )

/ X() Y ()
R2

/R

fr h (x, y) := f (x) y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12) u E (f (X) Y ) = E (h(X, Y )) =
xX() yY ()

h(x, y)P (X = x, Y = y)

=
xX() yY ()

f (x) ypY |X (y|x) pX (x) ypY |X (y|x)

=
xX()

f (x) pX (x)

yY ()

=E(Y | X=x)

=
xX()

f (x) pX (x) E (Y | X = x)
=g(x)

=
xX()

f (x)g(x) pX (x)

= E (f (X) g(X)) = E (f (X) E (Y | X)) , was die Behauptung zeigt. Beispiel 7.24: Wieder zweifaches Wrfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben u oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben: E (Y ) 7.2.3
(7.3)

E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.

Anwendung der iterierten Erwartung

7.25 Denition: Sei I eine beliebige Indexmenge und seien Xi , i I Zufallsvariablen. Wir nennen Xi , i I unabhngig, a a falls jede endliche Teilfamilie Xij , j J, #J < , unabhngig ist. Der folgende Satz behandelt den Erwartungswert zuflliger Summen: a 7.26 Satz (Waldsche Identitt): a Sei N eine Zufallsvariable mit Werten in N0 . Seien X1 , X2 , ... Zufallsvariablen mit gleichem Erwartungswert und N, X1 , X2 , ... im obigen Sinne unabhngig. Setze a
N ()

SN () :=
i=1

Xi () .

Dann gilt E (SN ) = E (N ) E (X1 ) .

84

7 Faltung, bedingte Verteilungen und Korrelation

Beweis: Es gilt
n

pSN |N (j|n) =

P (SN = j, N = n) = P (N = n)
n i=1 n

P
i=1

Xi = j, N = n P (N = n) .

Nach Dem Blockungslemma (Satz 4.24) sind auch

Xi und N unabhngig, das liefert a

pSN |N (j|n) = P Damit ist aber per Denition E (SN | N = n) =

Xi = j
i=1

j=0

jP
n

Xi = j
i=1

= E
i=1

Xi

= n E (X1 ) , da nach Voraussetzung alle Xi s den gleichen Erwartungswert haben. Das zeigt E (SN | N ) = N E (X1 ) und mit dem Satz uber die iterierte Erwartung folgt E (SN ) Das zeigt die Behauptung. Beispiel 7.27: Wir betrachten N als die Anzahl Schadensflle in einem Jahr bei einer Versicherung und X1 , X2 , ... a als die entsprechenden Schadenshhen. Dann liefert uns die Waldsche Identitt eine Formel fr die zu o a u erwartenden Leistungen, die die Versicherung zu zahlen hat. Beispiel 7.28: Wir betrachten N als Anzahl von Mnzwrfen, bis das Ergebnis Kopf zum ersten Mal auftritt und Xi u u als die Augenzahl eines Wrfelwurfs. Dann entspricht die Summe u
N () (7.3)

E (E (SN | N )) = E (N E (X1 )) = E (N ) E (X1 ) .

SN () :=
i=1

Xi ()

genau der Summe der Augenzahlen der Wrfelwrfe, bis bei parallelen Mnzwrfen erstmalig Kopf u u u u a kommt. Da N Geo 1 gilt, liefert die Waldsche Identitt 2 E (SN ) = E (N ) E (X1 ) = 2 3.5 = 7. 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)

Wir wollen hier E (Y | X) als bester Vorhersager von Y gegeben die Information X betrachten (bezglich des erwarteten quadratischen Fehlers). Wir beobachten zunchst: u a Bemerkung 7.29: Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a R, so dass der erwartete quadratische Fehler (E(Y a)2 ) minimal wird, ist a = E(Y ). Beweis: Per Denition ist fr unser a genau u E (Y a )2 = V (Y ).

7 Faltung, bedingte Verteilungen und Korrelation

85

Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man f (a) = E (Y a)2 = E(Y 2 ) 2aE(Y ) + a2 , so ist f (a) = 2E(Y ) + 2a = 0 a = E(Y ).

Da es sich bei f um eine nach oben genete Parabel handelt, ist a = E (Y ) somit das eindeutige globale o Minimum. 7.30 Satz: Seien X und Y reelle Zufallsvariablen. Fr jede Funktion : X() u E (Y (X))
2

/ R ist

E (Y E(Y | X))2

und Gleichheit gilt genau fr (x) = E(Y | X). u Beweis: Sei : X() / R eine beliebige Funktion. Dann gilt E (Y E(Y | X))
2

+ E ((X) E( Y | X))
2

= E Y 2 2E (Y E (Y | X)) + E (E (Y | X)) +E ((X)) Nach Satz 7.23 sind E ((X) E (Y | X)) = E ((X) Y )
=:f (X) 2

(7.4)
2

2E ((X) E(Y |X)) + E (E(Y |X))

(7.5)

(7.6)
2

E(Y E(Y | X)) = E (E(Y | X) E(Y | X)) = E (E(Y |X)) Daher folgt

(7.7)

2E (Y E(Y | X)) + E (E(Y | X))2 2E ((X) E(Y | X)) + E (E(Y | X))2


(7.6) &(7.7)

2E (E(Y |X))2 + 2E (E(Y |X))2 2E ((X) Y ) 2E((X) Y ) E (Y E(Y |X))


(7.5) 2

und damit haben wir + E ((X) E(Y |X))


2

E(Y 2 ) 2E((X) Y ) + E ((X))2 E (Y (X))


2

=
2

Da ((X) E(Y |X)) 0 ist auch E ((X) E(Y |X))

0 und es folgt die Behauptung.

Bemerkung 7.31: In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten quadratischen Fehler.

7.3

Korrelation

Wir wollen nun den besten Vorhersager der Form aX + b (a, b R) nden. Das heit, wir betrachten im Folgenden nur lineare . 7.32 Denition: Seien X, Y reelle Zufallsvariablen mit V (X) > 0, V (Y ) > 0. Ihr Korrelationskoezient ist X,Y := CoV(X, Y ) V (X) V (Y ) = CoV(X, Y ) . X Y

86

7 Faltung, bedingte Verteilungen und Korrelation

Bemerkung 7.33: X und Y sind unkorreliert genau dann, wenn X,Y = 0 ist. 7.34 Satz (Bester linearer Vorhersager): Y Die Zahl E (Y aX b)2 wird minimal fr a = X X,Y und b = E(Y ) u den minimalen Wert gilt: 2 E (Y a X b ) = 1 2 X,Y V (Y ),
Y X

X,Y E(X). Fr u

wobei (1 2 ) die Verbesserung gegenber dem konstanten Vorhersager V (Y ) ist. u X,Y Beweis: Fr festes a wird laut Bemerkung 7.29 E (Y aX b)2 minimiert (wobei wir Y aX als Zufallsvariable u Z betrachten und b nden wollen, s.d. der Ausdruck minimiert wird) durch b = E(Y aX) = E(Y ) aE(X) und es ist 2 E (Y aX b ) = V (Y aX). Nun mssen wir ein a nden, sodass V (Y aX) minimal wird. u Wenn wir f (a) := V (Y aX) = V (Y )+CoV(Y, aX)+CoV(aX, Y )+V (aX) = V (Y )2a CoV(X, Y )+a2 V (X) setzen, so ist genau dann, wenn a = a = CoV(X, Y ) Y X,Y = V (X) X f (a) = 2 CoV(X, Y ) + 2aV (X) = 0

ist und es folgt durch Einsetzen in die Gleichung oben V (Y a X) = V (Y ) 2 = V (Y ) 2 CoV(X, Y ) CoV(X, Y ) + V (X) CoV(X, Y )2 CoV(X, Y )2 + V (X) V (X) CoV(X, Y )2 V (X) CoV(X, Y ) V (X)
2

V (X)

= V (Y ) 1

= V (Y ) 1 2 X,Y Das zeigt die Behauptung. Bemerkung 7.35: Mit a = 0 und b = E(Y ) folgt: 0 E (Y a X b )
=(12 )V (Y ) X,Y 2

E (Y 0X E(Y ))

= V (Y )

und damit 0 2 1 X,Y bzw. 1 X,Y 1. 7.36 Denition: Ist X,Y > 0, so nennen wir X und Y positiv korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei greren X-Werten auch grere Y -Werte o o voraussagen. 7.37 Denition: Ist X,Y < 0, so nennen wir X und Y negativ korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei greren X-Werten kleinere Y -Werte o voraussagen.

8 Erzeugende Funktion und Verzweigungsprozesse

87

Erzeugende Funktion und Verzweigungsprozesse

In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnen kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen Rechnen mit den zugehrigen Funktionen wird (z.B. Produkt der Funktionen). o In der Wahrscheinlichkeits- und Matheorie wird dies bei Momenterzeugenden Funktionen und bei Fourier-Transformationen genutzt. Wir betrachten hier nun als einfacheres Beispiel fr analytische Methoden: u 8.1 Denition (Erzeugende Funktion): Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Werten in N0 . Sei pk = P (X = k) fr k N0 . Die erzeugende Funktion (der Verteilung) von X ist die Funktion u gX (t) :=
k=0

pk t k .

Bemerkung 8.2: pk = 1 und pk 0 folgt, dass gX (t) fr alle t [1, 1] konvergiert (sogar absolut). u Wegen gX (1) =
k=0

Insbesondere gilt gX (1) = 1. Folglich knnen wir den Dierenzierbarkeitssatz fr Potenzreihen anwenden, das liefert das folgende o u 8.3 Lemma: Fr t (1, 1) ist die j-te Ableitung gegeben durch u gX (t) =
(j) k=j

k (k 1) ... (k j + 1) pk t(kj) .

8.4 Satz: Die Verteilung von X ist durch gX festgelegt. Beweis: (j) Es gilt P (X = 0) = p0 = gx (0) und mit obigem Lemma gx (0) = j! pj , das heit P (X = j) = Es folgt die Behauptung. Beispiel 8.5: Sei X Poi(). Dann gilt gX (t) =
k=0

1 (j) g (0). j! X

exp()
pk

k k t = exp() k!

k=0

(t)k = exp() exp( t) k!

Diese Funktion sieht fr = 2 wie folgt aus: u

2 1

1 t

Abbildung 10: Die erzeugende Funktion gX fr X Poi (2). u


3 Das

meint entweder R

/ R oder C

/ C!

88

8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.6: Sei X B(n, p). Dann gilt


n

gX (t)

=
k=0

n k p (1 p)nk tk k

= Diese Funktion sieht fr n = 2 und p = u


1 2

(p t + (1 p))n

wie folgt aus:

2 1

1 t

Abbildung 11: Die erzeugende Funktion gX fr X B 2, 1 . u 2 8.7 Satz (Eigenschaften): Sei g = gX eine erzeugende Funktion. Fr 0 t 1 ist g stetig, monoton wachsend und konvex. u Es gilt und allgemeiner
t1 t1

lim g (1) (t) = E(X)

lim g (j) (t) = E (X (X 1) (X 2) ... (X j + 1)) .

Man nennt dies j-tes faktorielles Moment von X. Beweis: Als absolut konvergente Potenzreihe ist g in [1, 1] stetig. Da mit dem Lemma g (t) =
k=1

k pk tk1

gilt und k pk 0 ist, ist g 0 in [0, 1] und daher g monoton wachsend in [0, 1]. g ist konvex, da es eine positive (pk 0!) Linearkombination der konvexen Funktion t tk mit k 0 ist. Der Abelsche Grenzwertsatz besagt: Wenn ak 0 und ak R so gilt
t1 k=0 k=0

lim

ak tk =

ak

wobei beide Seiten sein knnen. Mit der Transformationsformel fr den Erwartungswert (Satz o u 5.12) gilt fr die Funktion h(k) := k (k 1) ... (k j + 1) u
t1

lim g (j) (t)

=
Transformationsformel

k=j

k (k 1) ... (k j + 1) pk

E(h(X)) E(X(X 1)(X 2) ... (X j + 1)).

8 Erzeugende Funktion und Verzweigungsprozesse

89

Beispiel 8.8: Sei X Poi(). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja schon kennen). Die erzeugende Funktion ist nach Beispiel 8.5 gX (t) = exp() exp(t). Man berechnet die Ableitungen gX (t) gX (t) Mit dem Satz ist
t1 (2) (1)

= =
(1)

exp() exp(t) exp() 2 exp(t).

E(X) = lim gX = exp() exp() = und


t1

E(X(X 1)) = E X 2 E(X) = lim gX (t) = 2 . Wir erhalten durch Umstellen V (X) = E X 2 (E(X)) = 2 + 2 = . 8.9 Satz: Seien X, Y unabhngige Zufallsvariablen mit Werten in N0 . Dann gilt a gX+Y (t) = gX (t) gY (t), t [1, 1] .
2

(2)

Beweis: Sei t [1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) fr die Funktion h(x) := tx , u x 0: E tX = E (h(X)) =
k=0

tk P (X = k) = gX (t) .

Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabhngig und mit der Produkta formel fr den Erwartungswert unabhngiger Zufallsvariablen (Satz 5.19) folgt u a gX+Y (t) = E tX+Y = E tX tY = E(tX ) E(tY ) = gX (t) gY (t). Das zeigt schon die Behauptung. Beispiel 8.10: Wir wollen nun mit dieser Formel zeigen, dass Poi() Poi() = Poi( + ) gilt. Beweis: Seien X Poi() und Y Poi() unabhngig. Dann gilt a gX+Y (t)
Satz 8.9

gX (t) gY (t) exp() exp(t) exp() exp(t) exp(( + )) exp(( + )t)

= =

und da nach Satz 8.4 die Verteilung von X + Y bereits durch gX+Y festgelegt ist folgt die Behauptung. Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes bzw. des Blockungslemmas fr die oben schon gezeigte Formel u gX+Y (t) = gX (t) gY (t), t [1, 1] (8.1)

fr unabhngige Zufallsvariablen X, Y mit Werten N0 geben: u a

90

8 Erzeugende Funktion und Verzweigungsprozesse

Beweis: Per Denition ist gX+Y (t) =


k=0 (7.2) k=0

P (X + Y = k) tk
k

j=0

Cauchy-Reihenprodukt

P (X = j) P (Y = k j)
k=0

tk
=tj tkj

j=0

= was die Behauptung schon zeigt.

gX (t) gY (t),

P (X = j) tj

P (Y = k) tk

Folgerung 8.11: Fr endlich viele unabhngige, N0 -wertige Zufallsvariablen X1 , ..., Xn gilt u a gX1 +...+Xn = gX1 ... gXn als Funktion. Beweis: Einfach induktiv (8.1) anwenden. 8.12 Satz (Erzeugende Funktion f r zufllige Summe): u a Seien N, X1 , X2 , ... unabhngige, N0 -wertige diskrete Zufallsvariablen auf (, P ), s.d. die Zufallsvariablen a X1 , X2 , ... alle die gleiche Verteilung haben. Setze
N ()

SN () :=
j=1

Xi () ,

Dann ist gSN (t) = (gN gX1 ) (t) = gN (gX1 (t)) t [1, 1] . Beweis: Da nach dem Blockungslemma auch N und fest, dass P (Sn = k)
n i=1

Xi fr jedes n N0 unabhngig sind, stellen wir zunchst u a a


n=0

P (N = n, Sn = k)

n=0

P (N = n) (Sn = k)

(8.2)

Damit folgt direkt aus der Denition der erzeugenden Funktion fr t [1, 1], dass u gSN (t) =
(8.2) k=0

P (SN = k) tk

k=0 n=0 absolute Konvergenz

P (N = n) P (Sn = k) tk
k=0 =gSn (t)

n=0

P (N = n)

P (Sn = k) tk
= gX1 (t)...gXn (t)

Folgerung 8.11

=
X1 ,X2 ,... gleich verteilt

n=0

P (N = n) gX1 (t) ... gXn (t) P (N = n) (gX1 (t))


n

n=0

gN (gX1 (t)) .

8 Erzeugende Funktion und Verzweigungsprozesse

91

Das zeigt die Behauptung. Als Korollar erhalten wir hier einen Spezialfall (N0 -wertige Zufallsvariablen) der Waldschen Identitt: a Korollar 8.13: Unter den Voraussetzungen von Satz 8.12 gilt E (SN ) = E (N ) E (X1 ) . Beweis: Fr jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim gX (t). Daher folgt: u
t1

E (SN )

=
Satz 8.12

t1

lim gSN (t)

t1

lim (gN gX1 ) (t)


lim g (X1 ) (t) gN (gX1 (t)) t1

= =

t1 t1

lim g (X1 ) (t) lim gN (gX1 (t))

Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt u gX1 (t) 1 fr t 1.
Da lim gN (t) = E(N ) existiert, folgt t1

E (SN ) = =

t1

lim g (X1 ) (t) lim gN (gX1 (t)) t1 t1

t1

lim g (X1 ) (t) lim gN (t)

= E(X1 ) E(N ), was die Behauptung zeigt.

92

8 Erzeugende Funktion und Verzweigungsprozesse

8.1

Verzweigungsprozesse

Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufllige Anzahl a k N0 von Nachkommen gem einer Wahrscheinlichkeitsfunktion, die durch p0 , p1 , p2 , ... gegeben ist. a Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc.. Diese Nachkommen bilden die erste Generation. Die Teilchen der ersten Generation erzeugen dann unabhngig voneinander wieder Nachkommen nach a dem gleichen Zufallsgesetz p0 , p1 , p2 , .... Diese Nachkommen bilden dann die zweite Generation usw.. 8.1.1 Modellbildung

Diesen Prozess wollen wir nun modellieren: u a Sei (pk )kN0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien auerdem Xn,j fr n, j N unabhngige Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk fr alle n, j N und k N0 . Sei zuletzt Z0 = 1. u Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir denieren nun induktiv die Anzahl der Teilchen in der n-ten Generation: Ist Zn1 (also die Anzahl Teilchen in der n-ten Generation) schon deniert, so setze
Zn1

Zn :=
j=1

Xn,j .

Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n 1-ten Generation zur n-ten Generation beisteuert. Die Folge von Zufallsvariablen (Zn )nN heit dann Galton-Watson-Prozess. 8.1.2 Motivation

Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten sich um 1870 einige Forscher fr die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche u mittels eines Verzweigungprozesses wie oben berechnet werden kann. Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerken gebraucht. 8.1.3 Aussterbewahrscheinlichkeit

Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n oder frher ausgestorben), n N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten u Generation ausstirbt usw.. Oenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als J :=
n=1

{Zn = 0} .

Auch klar ist, dass {Zn = 0} {Zn+1 = 0} fr alle n N gilt, da der Prozess natrlich ausgestorben u u bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus 1 folgt q = P (J ) = lim P (Zn = 0) = lim qn .
n n

Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses. Zur Bestimmung von q knnen wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden o Funktionen gZn (0) = P (Zn = 0) = qn nutzen. Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende Funktion g (t) := gXn,j (t) = mit den am Anfang vorgegebenen Zahlen pk haben, gilt gZ1
Z1 =X1,1

pk t k

k=0

gX1,1 = g.

8 Erzeugende Funktion und Verzweigungsprozesse

93

Genauso folgt
Z1

Z2 =
j=1 Z2

X2,j

(8.12)

gZ2 = gZ1 gX1,1 = g g gZ3 = gZ2 gX2,1 = g g g

Z3 =
j=1

X3,j

(8.12)

und induktiv gZn = g ... g .


nmal

Daher ist q = lim qn = lim gZn (0) = lim g ... g (0).


n n n nmal

8.14 Lemma: Die Zahl q = lim g ... g (0)


n nmal

ist die kleinste Lsung der Gleichung g(t) = t im Intervall [0, 1]. o Beweis: Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g(0) 0 und entsprechend g(g(0)) g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ... g(0) monoton wachsend und durch 1 beschrnkt ist. Daher existiert die Zahl q. a Jetzt zeigen wir zunchst, dass q eine Lsung von g(t) = t ist: a o g(q) = g
n

lim g ... g (0)


nmal

g stetig

lim g ... g (0) = q.


(n+1)mal

Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist. Sei x [0, 1] mit g(x) = x. Insbesondere gilt dann auch fr alle n N u g ... g (x) = x.
nmal

Aus der Monotonie von g folgt 0 x g(0) g(x) = x g(g(0)) g(g(x)) = x g ... g (0) x n N.
nmal

Durch Bilden des Grenzwertes n 8.15 Denition: Wir nennen g : [0, 1] mischen Systems.

/ erhlt man die Behauptung. a

/ [0, 1] ein dynamisches System und die Zahl q heit Grenzwert des dyna-

94

8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.16: Sei pk := exp () mit = 1 , so kann man am Graphen der erzeugenden Funktion k! 2 g(t) = exp () exp (t) leicht sehen, dass t = 1 die kleinste Lsung der Gleichung g(t) = t ist: o
k

g(t)

t
1 Abbildung 12: Die Funktion g(t) = exp 2 exp 1 2t

Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt! Verwendet man dagegen = 2, so kann man am Graphen von g(t) = exp () exp (t) leicht sehen, das der kleinste Wert t mit g(t) = t kleiner als 1 (nmlich t 0.2032) ist: a

g(t) t Abbildung 13: Die Funktion g(t) = exp (2) exp (2t). Wir wollen nun noch einige Aussagen uber q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j ) ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst nichts mit Stochastik zu tun hat. 8.17 Satz (ohne Beweis): (1) Ist p0 = 0, so gilt q = 0. (2) Ist p0 > 0 und E (Xn,j ) > 1, so ist q ]0, 1[. (3) Ist p0 > 0 und E (Xn,j ) = 1, so gilt trotzdem q = 1.
k Auf den Ubungsblttern wird fr die Zahlen pk := p (1 p) explizit gezeigt, dass a u

q < 1 E (Xn,j ) > 1.

9 Grenzwertsatz von de Moivre-Laplace

95

9
9.1

Grenzwertsatz von de Moivre-Laplace


Normalapproximation der Binomialverteilung

Diese Approximation liefert ein Ergebnis fr Summen unabhngiger Bernoulli-Variablen. Spter wird sie u a a als Spezialfall eines allgemeinen zentralen Grenzwertsatzes bewiesen. Seien X1 , X2 , ...Xn unabhngig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn . Man stellt sich a 0 < p < 1 fest vor und n als variabel. 1 Sei p = 2 . Betrachte zum Beispiel Stabdiagramme fr u n = 1 und S1 = X1 , n = 2 und S2 = X1 + X2 B 2, 1 , 2 n = 50 und Sn =
50 i=1 1 Xi B 50, 2 .

Lsst man nun n gegen unendlich laufen, so ist Sn B(n, p), d.h. der Erwartungswert E(Sn ) = n p a sowie die Varianz V (Sn ) = n p (1 p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau das sehen wir auch bei Betrachtung der Stabdiagramme. Beide Eekte kann man stabilisieren indem man zu standardisierten Zufallsvariablen ubergeht: Setze Sn E(Sn ) Sn = . V (Sn ) Dann gilt fr alle n N: u
E (Sn ) = E

Sn E(Sn ) V (Sn ) 1 V (Sn ) E (Sn E(Sn ))

= = 0,

V (Sn ) = V

Sn E(Sn ) V (Sn )

= = =

1 V (Sn E(Sn )) V (Sn ) V (Sn ) V (Sn ) 1.

Die Werte, die die Zufallsvariable Sn annimmt, sind

k np x0 , x1 , ...xn R wobei xk = , npq Beispiel 9.1:

0 k n, q = 1 p.

1 Fr n = 100, p = 2 ist zum Beispiel xk = k50 = k 10, 0 k 100. u 5 5 Das heit also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an. 1 k Fr n = 10.000, p = 2 ist zum Beispiel xk = k5000 = 50 100, 0 k 100. u 50 Das heit also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an. Wir mchten nun die Wahrscheinlichkeit bestimmen, dass Sn in einem Intervall [a, b] liegt. Dazu formuo lieren wir den folgenden Satz.

96

9 Grenzwertsatz von de Moivre-Laplace

9.2 Satz (Grenzwertsatz von de Moivre-Laplace): Sei 1 x2 (x) := exp 2 2


i.i.d

x R.

Sei 0 < p < 1 fest und seien fr jedes n X1 , ...Xn B(1, p). u Dann gilt fr jedes Paar a < b mit a, b R: u
b n b

lim P (a

Sn

b) =
a

(x) dx bzw. einseitig lim P


n

(Sn

b) =

(x) dx.

Mit der Stammfunktion


t

(t) :=

( ) d,

tR

kann man schreiben:

lim P (a Sn b) = (b) (a).

Der Beweis folgt spter aus dem zentralen Grenzwertsatz (Satz 10.100). a Bemerkung 9.3: Die Aussagen gelten auch fr < statt . u 9.4 Denition: Die Funktion gegeben durch

t2 1 (t) := exp 2 2

nennt man auch Gausche Glockenkurve oder Dichte der Standard-Normalverteilung. Bemerkung 9.5 (Eigenschaften): Es gilt

(t) dt = 1.

Auerdem ist beliebig oft stetig dierenzierbar. Der Graph stellt sich wie folgt dar:

Abbildung 14: Die Dichte der Standardnormalverteilung (t) :=

1 2

exp t2 .

9.6 Denition: Wir nennen die Verteilungsfunktion der Standardnormalverteilung. Bemerkung 9.7: berechnet sich entsprechend wie folgt: (1) 3 2 1 1
1

Abbildung 15: Die angegebene Flche entspricht (1) = a

1 2

exp t2

dt.

9 Grenzwertsatz von de Moivre-Laplace

97

Oder direkt als Funktion:

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

Abbildung 16: Die Verteilungsfunktion der Standardnormalverteilung.

Fr (t) gibt es keinen geschlossenen Ausdruck, daher ist es fr Werte t 0 tabelliert: u u Beispiel 9.8: (1) 0.8413, (1.645) 0.95, (1.96) 0.975, d.h. zum Beispiel
n lim P (Sn 1) n

/ (1) = 0.8413.

Fr weitere Werte siehe Anhang A. u Bemerkung 9.9: Um an negativen Stellen auszuwerten, betrachtet man fr t > 0: u
t

(t)

=
Symmetrie von

( ) d

( ) d
t t

( ) d

( ) d

= Beispiel 9.10: Seien X1 , ..., Xn B(1, p), Sn := Dann bestimmt man


n lim P (1 Sn 1) i.i.d

1 (t)

Sn np . Xi und Sn := npq i=1

= = =
Tabelle

(1) (1) (1) (1 (1)) 2(1) 1 2 0.8413 1 0.68

98

9 Grenzwertsatz von de Moivre-Laplace

9.2

Anwendung I: Normalapproximation der Binomialverteilung

Wir erinnern uns: Die Poissonapproximation mit = n p fr B(n, p) ist eine gute Approximation, wenn u p sehr klein ist. Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist. Als Faustregel fr gut gilt hier: npq 9. u Fr Sn B(n, p) und ganzzahlige Werte 0 i j n gilt u P (i Sn j) = P j np Sn np i np npq npq npq
=:a de Moivre
=Sn

=:b

j np npq

i np npq

Bemerkung 9.11: Dies sieht eigentlich verboten aus, da a und b von n abhngen. Es ist jedoch kein Problem, denn a man kann zeigen: / n / 0. sup | P (a Sn b) ((b) (a)) |
a<b

Fehlerabschtzungen (nach Berry-Esseen): a


| P (a Sn b) ((b) (a)) |

1.6 cp n

wobei cp konstant ist und nur von p abhngt. a 1 Fr p = 2 ist zum Beispiel cp = 1 und der Fehler ist u

1.6 , n

d.h. etwa 0.016 fr n = 10.000. u


1 2

Bemerkung 9.12: Man kann die Approximation verbessern, indem man j durch j + turterme 1 ), dies verliert aber fr n an Bedeutung. u 2 Beispiel 9.13:

und i durch i

1 2

ersetzt ( Korrek

Es wird n = 600-mal gewrfelt. Sei Sn die Anzahl der Sechsen. Dann ist u S600 B 600, Man berechnet mit q = 1 p: E (Sn ) = np = 600 9.13.... Damit berechnet man: 90 100 110 100 Sn 100 P 9.13 9.13 9.13
=Sn

1 6

1 6

= 100,
1 6

V (Sn ) = npq = 600

5 6

= 83 1 , 3

P (90 Sn 110)

de Moivre

10 9.13

10 9.13

=
Tabelle

10 9.13

2 (1.095) 1 2 0.863 1 0.726.

9 Grenzwertsatz von de Moivre-Laplace

99

Bei der Rechnung mit Korrekturtermen ergibt sich: P (90 Sn 110) = 10 + 1 2 9.13 10.5 9.13 1 10 9.13
1 2

2 (1.15) 1 2 0.8749 1 = 0.7498. Der wahre Wert liegt bei P (90 Sn 110) = 0.7501 - fr n = 600 kann man diesen rechnergesttzt u u noch leicht exakt berechnen. Mit Tschebyschow erhlt man: a P (90 Sn 110) = 1 P (|Sn 100| 11) 0.31

V (Sn ) = 83.3 0.69 121 112

- keine groe Erkenntnis!

9.3

Anwendung II: Bestimmung eines Stichprobenumfangs

Aufgabe: Schtze p durch p = n Sn . Wie gro ist n zu whlen, damit fr jedes p [0, 1] mit Wahrscheina 1 a u lichkeit 0.95 der wahre Wert p im (zuflligen) Intervall [ , p + ] liegt? a p Sei = 0.01, das heit 1% Abweichung ist erlaubt. Dann ist Pp (p [ , p + ]) p = =
de Moivre

Konkret wollen wir dies fr Wahlvorhersagen durchfhren. Die Aufgabe ist, den Anteil an einer Partei A u u aus einer Umfrage von n zufllig ausgewhlten Befragten heraus zu schtzen. a a a Whler von A a Seien X1 , ...Xn B(1, p) unabhngig und p = alle Wahlberechtigten , womit p unbekannt ist! a

Pp (0.01 p p 0.01) Pp n np p 0.01 n 0.01 n npq npq npq 0.01 n npq 1 0.01 n npq

0.01 n npq
0.95
!

Es folgt Aus der Tabelle entnimmt man (t) 0.975 fr t 1.96 u und somit folgt
0.01n npq

0.01 n npq

1.95 = 0.975. 2

n n n

1.96 196 pq (196)2 pq 9604.


1 4

Ist die Vorinformation p 0.1 gegeben, dann gengt es u n (196)2 max p(1 p) = (196)2 0.1 0.9 = 3458
p[0,0.1]

Menschen zu befragen.

100

10 Allgemeine Modelle und stetige Verteilungen

10

Allgemeine Modelle und stetige Verteilungen

Von diesem Abschnitt an wollen wir uns nicht mehr lnger auf diskrete Wahrscheinlichkeitsrume bea a schrnken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine a Zufallsgre X zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d. o
b

P (a X b) =
a

(t) dt = (b) (a)

(10.1)

fr a < b und die oben schon betrachtete Funktion u t2 1 (t) = exp 2 2 .

In diesem Fall wrde man sagen, dass X Standard-Normalverteilt ist und X N (0, 1) schreiben. u Auerdem deniert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine Wahrscheinlichkeit zu ordnet. Fr Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, gengt diese Vorstellung voll und u u ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Matheorie besteht.

10.1

Allgemeine Wahrscheinlichkeitsrume und Zufallsvariablen a

10.1 Denition: Ein Wahrscheinlichkeitsraum ist ein Tripel (, A, P ), s.d. eine beliebige Menge und A eine -Algebra auf ist, d.h. ein System von Teilmengen von mit den folgenden Eigenschaften: (1) A (2) A A Ac A (3) A1 , A2 , ... A (A1) P (A) 0 A A (A2) P () = 1 (A3) Sind A1 , A2 , ... A paarweise disjunkt, so gilt P
i=1 i=1

Ai A

Auerdem ist P eine auf A denierte reelle Funktion mit

Ai

i=1

P (Ai ) .

P heit dann (Wahrscheinlichkeits-)Verteilung auf (, A). Bemerkung 10.2: Das Axiom (3) sorgt dafr, dass Axiom (A3) Sinn macht. u Beispiel 10.3: Ist eine diskrete (d.h. abzhlbare) Menge, so kann man A = P () (d.h. die Potenzmenge von ) a verwenden und erhlt so genau die diskreten Wahrscheinlichkeitsrume, wie wir sie bisher betrachtet a a haben. Beispiel 10.4: Fr jede Menge kann man A = {, } betrachten. Dieser Fall ist aber nicht sehr interessant, man u spricht dann auch von der trivialen -Algebra. Bemerkung 10.5: Aus den Axiomen (1) bis (3) folgt, dass eine -Algebra A gegen abzhlbare mengentheoretische Opea rationen wie Schnitte, Komplementbildung, Dierenz, Vereinigung etc. abgeschlossen ist. So gilt zum Beispiel A1 , A2 , ... A
i=1

Ai =

i=1

Ai

(1.3)

i=1

Ac i

und die rechte Menge ist wegen (2) und (3) wieder in A.

10 Allgemeine Modelle und stetige Verteilungen

101

Bemerkung 10.6: Fr eine Wahrscheinlichkeitsverteilung P wie in der Denition oben gelten ebenfalls alle Rechenregeln, u die wir am Anfang fr den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese u ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden. 10.7 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf . / s.d. Eine Zufallsvariable X auf (, A, P ) ist eine Abbildung X : X 1 (A) = {x | X(x) A } A A A (10.2) gilt. Bemerkung 10.8: Allgemeine Abbildungen X : (, A) / , A mit der Eigenschaft (10.2) nennt man auch mebar.

10.9 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf . Eine Zufallsvariable X auf (, A, P ) deniert durch P X (A ) := P X 1 (A ) , A A eine Wahrscheinlichkeitsverteilung P X auf , A , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum , A , P X . Wir nennen P X auch Verteilung von X. Formal mssten wir hier jetzt die Axiome (A1) bis (A3) fr P X nachrechen. Das gleicht aber wrtlich u u o dem diskreten Fall, der nach Denition 4.5 gezeigt wurde. Bemerkung 10.10: Wie im diskreten Fall auch schreibt man auch P (X A ) := P X 1 (A ) , A A .

Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht immer einfach mit A = P () - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende Beispiel liefert eine Begrndung: u Beispiel 10.11: Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von = [0, 1[ mit folgender Eigenschaft: Ist A [0, 1[ und x [0, 1[ so, dass A + x := {a + x | a A} [0, 1[ ist, so gilt stets P (A) = P (A + x). Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[) geben kann, wie es z.B. von einer Normalverteilung zu erwarten wre. a 1 Dazu betrachten wir eine spezielle Menge A0 0, 2 (auch Vitali-Menge genannt), die wir wie folgt konstruieren: Betrachte die Aquivalenzrelaztion x y : |x y| Q x [0, 1[ .

auf [0, 1[. Diese zerlegt [0, 1[ in Aquivalenzklassen

[x] := {y | |x y| Q} ,

Gem dem Auswahlaxiom whle aus jeder Klasse [x] einen Vertreter z[x] 0, 1 und deniere A0 als a a 2 die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl P (A0 ) = 0 als auch P (A0 ) > 0 erfllen msste - ein Widerspruch! u u Der einzige Ausweg ist also, P nur fr bestimmte Teilmengen zu denieren, was uns zum obigen Begri u der -Algebra fhrt. u Ohne Beweis wollen wir folgendes Resultat angeben: Bemerkung 10.12 (Satz von Banach-Kuratowski): Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.

102

10 Allgemeine Modelle und stetige Verteilungen

10.2

W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen

Um Wahrscheinlichkeitsverteilungen auf R zu betrachten, bentigen wir zunchst eine -Algebra. Wir o a betrachten die folgende 10.13 Denition: Die Borelsche -Algebra B auf R ist die kleinste -Algebra, die alle oenen Mengen enthlt. a Man beachte folgenden Satz aus der Matheorie: 10.14 Satz (ohne Beweis): Die folgenden Forderungen an eine -Algebra auf R sind quivalent: a (1) Es handelt sich um die kleinste -Algebra, die alle oenen Mengen enthlt. a (2) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form [a, b] mit a < b enthlt. a (3) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form [a, b[ mit a < b enthlt. a (4) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form (, b] mit b R enthlt. a Bemerkung 10.15: Die Borelsche -Algebra B enthlt im Wesentlichen alle Teilmengen von R, die einem in der Praxis a begegnen. Allerdings enthlt sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in a B enthalten. 10.16 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (, A, P ) ist eine mebare Abbildung X / (, A, P ) (R, B) . Beispiel 10.17: Ein bekannter Satz aus der Matheorie sagt zum Beispiel, dass jede stetige Abbildung X : R eine reelle Zufallsvariable / (R, B) X : (R, B, P ) ist. Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R. Das meint hier dann natrlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben: u 10.18 Denition: Eine Funktion F : R / [0, 1] heit Verteilungsfunktion, wenn / R auch

(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend), (2) es gilt
x

lim F (x) = 0 und lim F (x) = 1 und


x

(3) F ist rechtsstetig, d.h. fr alle x R gilt u F (x) = lim F (y).


yx

Beispiel 10.19: Der folgende Graph deniert eine Verteilungsfunktion:

1 t

Abbildung 17: Beispiel einer Verteilungsfunktion.

10 Allgemeine Modelle und stetige Verteilungen

103

10.20 Satz: Sei P eine Verteilung auf R. Dann ist F (x) := P ((, x]) eine Verteilungsfunktion. Beweis: Nutze aus 1 die Rechenregeln (R8) und (R9): A1 A2 ... A1 A2 ... P
i=1

Ai

= lim P (Ai )
i

(10.3)

i=1

Ai

= lim P (Ai )
i

(10.4)

Da P als Wahrscheinlichkeitsverteilung monoton ist (A B wachsend. Auerdem folgt fr An := (, n] u lim F (x) = lim F (n) = lim P (An )
n n (10.3)

P (A) P (B)), ist auch F monoton


n=1

An

= P () = 0

und genauso
x

lim F (x)

(10.4)

n=1

(, n]

= P (R) = 1.

Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn )nN eine Folge aus R, die gegen x R konvergiert und xn x n N erfllt. Ohne Einschrnkung knnen wir xn+1 xn fr alle n N annehmen, denn u a o u andernfalls whlen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt a
n=1

(, xn ] = (, x]

und daher folgt


n

lim F (xn ) = lim P ((, xn ])


n

(10.3)

P ((, x]) = F (x).

Das zeigt die Behauptung. Bemerkung 10.21: Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist FX (x) := P (X x) = P X ((, x]) die Verteilungsfunktion der Verteilung von X. Fr diskrete Zufallsvariablen, die nur die Werte x1 , x2 , ... annehmen, ist u FX (x) =

i=1 xi x

P (X = xi ) = P (X x) .

Im Folgenden sehen wir etwa den Graphen von FX fr eine Zufallsvariable X B 2, 1 , denn es gilt u 2 1 P (X = 0) = 4 , P (X = 1) = 1 , P (X = 2) = 1 : 2 4 1

0 1 2 3 Abbildung 18: Der Graph der Verteilungsfunktion FX fr X B 2, 1 . u 2 Wir zitieren nun folgenden Satz aus der Matheorie:

104

10 Allgemeine Modelle und stetige Verteilungen

10.22 Satz (Umkehrung): Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d. P ((, x]) = F (x) x R gilt. Damit gilt dann auch P ((, b]) P ((, a]) = ((a, b]) = F (b) F (a) fr alle a < b R. u Bemerkung 10.23: Die Stze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionen a und der Menge aller Verteilungen auf R gibt. Die Abbildung F P wird dabei durch Satz 10.22 geliefert. Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv: Sind F1 , F2 zwei Verteilungsfunktionen mit F1 = F2 , so gibt es ein x R mit F1 (x) = F2 (x). Entsprechend erfllen dann die zugehrigen Verteilungen P1 und P2 u o P1 ((, x]) = F1 (x) = F2 (x) = P2 ((, x]) , womit die Verteilungen nicht gleich sein knnen. o

10.3

Stetige Verteilungen
/ R mit f (t) 0 fr alle t R und der Eigenschaft, u (10.5)

10.24 Denition: Eine Dichte ist eine integrierbare Funktion f : R dass

f (t) dt = 1.

Beachte, das integrierbar hier Riemann-integrierbar heit.

Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf hchstens endlich viele Sprungstellen sind!! o
10.25 Satz: Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit
b

P (]a, b]) =
a

f (t) dt

fr a < b R. u Beweis: Setze F (x) :=

f (t) dt.

Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Auerdem folgt wegen der Positivitt von f , dass F monoton wachsend ist. Wegen (10.5) ist lim F (x) = 1. Das a
x x

lim F (x) = 0 gilt ist klar.

Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natrlich wieder auf (R, B)) mit der u Eigenschaft wie in der Behauptung. 10.26 Denition: Wahrscheinlichkeitsverteilungen auf R, fr die es eine Dichte f mit u
b

P (]a, b]) =
a

f (t) dt

fr alle a < b gibt, nennt man stetige Verteilungen. u

10 Allgemeine Modelle und stetige Verteilungen

105

10.27 Denition: Eine reelle Zufallsvariable X heit stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h. wenn
b

P (a X b) =
a

f (t) dt

fr eine geeignete Dichte f gilt. u Bemerkung 10.28: Ist P eine stetige Verteilung, so gilt P ({x}) = 0 fr alle x R. u Beweis: Es gilt
x

P ({x})

(10.3)

lim P

1 x ,x n

= lim

n 1 x n

f (t) dt = 0

nach unserer Annahme, dass f stetig bis auf hchstens endlich viele Sprungstellen ist. o Folgerung 10.29: Insbesondere gilt fr stetige Verteilungen also u P ([a, b]) = P (]a, b]) usw.. Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, fr die es eine u Dichte f mit
b

P (a X b) =
a

f (t) dt

gibt.

10.4

Zufallsvariablen mit stetiger Verteilung

In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Uberblick der Eigenschaften geben: 10.4.1 Die Gleichverteilung

Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch f (t) = 1[0,1] (t) = 1 falls t [0, 1] , 0 falls t [0, 1] / X U (0, 1) . Die zugehrige Verteilungsfunktion ist o 0 falls x 0 x falls 0 x 1 . F (x) = P (X x) = 1 falls x 1 t R.

Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch

Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen. Allgemeiner: Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte f (t) = 1 1[r,s] (t). sr

Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch X U (r, s) .

106

10 Allgemeine Modelle und stetige Verteilungen

10.4.2

Die Normalverteilung

Die Dichte der Normalverteilung N , 2 mit R, 2 (0, ) ist gegeben als ,2 (t) = f (t) := 1 2 2 exp (x ) 2 2
2

Solche Zufallsvariablen X N , 2 verwendet man etwa dann, wenn X eine ungenaue Messung mit Erwartungswert (bekannt z.B. aus der Theorie) ist. Insbesondere simuliert man damit eine Verteilung natrlicher Messgren. u o Die Verteilungsfunktion
x

Wir kennen schon den Spezialfall = 0, 2 = 1 der Standard-Normalverteilung. Wir werden spter noch a sehen, dass fr eine Zufallsvariable X N , 2 die Zahl der Erwartungswert und 2 die Varianz ist. u

(x) =

0,1 (t) dt

der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch
x

,2 (t) dt,

also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36 sehen werden. Auerdem zeigen wir in Beispiel 10.35, dass X N (0, 1) , R, (0, ) Y = X + N (, ) gilt. 10.4.3 Die Exponentialverteilung

Setze fr einen reellen Parameter > 0 die Dichte der Exponentialverteilung als u f (t) := exp (t) falls t 0 0 falls t < 0

fest. Diese Funktion sieht fr = 2 wie folgt aus: u

1 t

Abbildung 19: Die Funktion f (t) fr = 2. u o Wir nennen f die Dichte der Exponentialverteilung Exp() auf R. Die zugehrige Verteilungsfunktion ist 1 exp (x) falls x > 0 F (x) = . 0 falls x 0 Insbesondere gilt fr eine Zufallsvariable X Exp() und 0 a < b: u P (a X b) = F (b) F (a) = (1 exp (b)) (1 exp (a)) = exp (b) exp (a) . Man verwendet Zufallsvariablen X Exp() z.B. zur Simulation der Lebensdauer von Gerten / technischen Bauteilen, falls sie gebraucht wie neu a sind (wir sehen gleich, welche Bedeutung das hat). zur Simulation von Lngen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center a oder radiaoktiven Zerfallsprozessen.

10 Allgemeine Modelle und stetige Verteilungen

107

zur Simulation von Bedienzeiten an Schaltern. Fr X Exp () ist ein Leichtes, mit Hilfe der Verteilungsfunktion die Uberlebensdauer zu berechnen: u P (X > x) = 1 P (X x) = 1 F (x) = exp (x) . Wir sehen sofort, dass die Uberlebensdauer also exponentiell schnell fllt! a Jetzt wollen wir uns dem Ausspruch gebraucht wie neu bzw. der Gedchtnislosigkeit dieser Verteilung a widmen. Fr x, t 0 gilt u P (X > t + x | X > t) = = = = P (X > t + x und X > t) P (X > t) P (X > t + x) P (X > t) exp ( (t + x)) exp (t) exp (x)

= P (X > x) . Simuliert man also die Lebensdauer eines Gerts mit der Exponentialverteilung, so hat ein gebraucht a gekauftes Gert die selbe Qualitt wie ein Neues! a a 10.4.4 Die Pareto-Verteilung

Man betrachtet fr einen Parameter > 0 die Dichte u f (t) = Der Graph von f stellt sich wie folgt dar:
(t+1)+1

falls t 0 . falls t < 0

3 2 1 t

Abbildung 20: Die Funktion f (t) fr = 4. u Zunchst hnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dass a a hier nur polynomielles Abfallverhalten vorliegt! u Diese Dichte f deniert uns die Pareto-Verteilung. Fr eine paretoverteilte Zufallsvariable X mit Parameter > 0 schreiben wir auch X Pareto(). Man modelliert mit der Pareto-Verteilung etwa Dateigren in Byte in Datenbanken oder auf Servern. o Allgemeiner modelliert man mit Ihr Verteilungen, bei denen groe Werte selten, aber nicht so selten wie bei Exp () sind. Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo frher die Exponentialverteilung verwendet u wurde.

108

10 Allgemeine Modelle und stetige Verteilungen

10.4.5

Die Cauchy-Verteilung f (t) := 1 . (1 + t2 )

Betrachte die Dichte

Diese hat den Graphen

Abbildung 21: Die Funktion f (t) fr = 2. u und deniert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung keinen Erwartungswert besitzt. 10.4.6 Die Gamma-Verteilung

Zunchst bentigen wir die a o 10.30 Denition (Gamma-Funktion): Sei x (0, ). Dann deniert man die Gamma-Funktion durch

(x) =
0

tx1 exp (t) dt.

Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft dierenzierbare Funktion deniert. Auerdem erfllt sie bekanntlich die Funktionalgleichung u (x + 1) = x(x) x (0, ) , was auch (n) = (n 1)! mit n N zeigt. Zuletzt sollte noch erwhnt werden, dass a 1 2 1 = 2

exp x2 dx =

Nun denieren wir die Gamma-Verteilung Gamma (r, ) fr reelle Parameter r, > 0 durch die Dichte u f (t) =
r r1 (r) t

Zunchst betrachten wir einige Spezialflle: a a

exp (t) falls t > 0 . falls t 0

1 u (2) (a) Gamma 1 , 2 ist genau die Verteilung von X 2 fr X N (0, 1), wie wir in Beispiel 10.32 2 sehen werden. i.i.d. 1 2 2 (b) Gamma n , 2 fr n N ist genau die Verteilung von X1 +...+Xn , falls X1 , ..., Xn N (0, 1) u 2 gilt. Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n Freiheitsgraden genannt und als 2 bezeichnet. n

(1) (a) Sei r = 1. Dann erhalten wir oenbar genau die Exponentialverteilung mit Parameter , da die Dichten ubereinstimmen. (b) Sei r N. Man kann zeigen, dass dann Gamma (r, ) genau die Verteilung von X1 + ... + Xr i.i.d. fr Zufallsvariablen X1 , ..., Xr Exp () ist (vergleiche eines der Ubungsbltter). u a

10.5

Berechnung und Transformation von Dichten

10.31 Satz: Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1 , ..., ck stetig dierenzierbar ist. Sei C = {c1 , ..., ck }. Dann deniert f (t) := F (t) 0 falls t C falls t C /

eine Dichte fr die durch F denierte Verteilung auf R. u

10 Allgemeine Modelle und stetige Verteilungen

109

Beweis: Mit Satz 10.25 gengt es oenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunku tion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar). Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F 0, wo F existiert. Daher ist auch f 0. Setze nun c0 := und ck+1 := +. Nach Umnummerierung nehmen wir ohne Einschrnkung a c0 < c1 < ... < ck < ck+1 an. Dann gilt (mit F () = 0 und F () = 1) fr i = 0, ..., k die Relation u
ci+1 b aci ,bci+1 a

f (t) dt =
ci

lim

f (t) dt =

aci ,bci+1

lim

(F (b) F (a)) = F (ci+1 ) F (ci ),

(10.6)

da F stetig ist. Das zeigt


k ci+1

f (t) dt =
i=0 c i

f (t) dt

(10.6)

i=0

(F (ci+1 ) F (ci )) = F () F () = 1.

Also ist f eine Dichte und es folgt die Behauptung. Beispiel 10.32 (Anwendung): Sei X N (0, 1) und Y := X 2 . Dann ist Y 2 = Gamma 1
1 1 2, 2

Beweis: Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y 0 ist, muss auch FY (x) = P (Y x) = 0 fr x < 0 gelten. Falls x 0, so haben wir u FY (x) = P 0 X2 x = P xX x = x x = 2 x 1, wobei die Verteilungsfunktion der Standard-Normalverteilung ist. 1 Wegen ( ( x)) = ( x) 2x ist FY an allen Punkten x = 0 stetig dierenzierbar und mit Satz 10.31 folgt, dass die Dichte von Y gegeben ist durch 1 FY (x) falls x > 0 exp x falls x = 0 2 ( ( x)) falls x > 0 2 2x fY (x) = = . = 0 falls x 0 0 falls x = 0 0 falls x 0 Wegen
1 2

= P (Y x)

ist der Faktor

1 1 = 2 2

1 2

1 2

und es folgt die Behauptung. Fr die folgende Transformation brauchen wir erst folgende u 10.33 Denition: Seien I, J R zwei Intervalle. Ein Dieomorphismus u : I und u1 stetig dierenzierbar sind. Dann gilt der folgende 10.34 Satz (Transformationsformel f r Dichten): u Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem oenen Intervall I R. / J ein Dieomorphismus. Dann hat Y := u (X) auf J die Dichte Sei auerdem u : I fY (y) = fX u1 (y) u1 (y) .

/ J ist eine bijektive Abbildung, s.d. u

110

10 Allgemeine Modelle und stetige Verteilungen

Beweis: Zunchst knnen wir ohne Einschrnkung annehmen, dass u streng monoton steigend ist (da u ein Difa o a feomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel
b g 1 (b)

f (x) dx =
a g 1 (a)

(f g) (y) g (y) dy

fr den Dieomorphismus g = u1 anwenden. Damit folgt u P (a Y b) = P u1 (a) X u1 (b)


u1 (b)

=
u1 (a) b

fX (x) dx

=
a

fX u1 (y)

u1 (y) dy
=|(u1 ) (y)|

da u nach Annahme streng monoton steigend ist. Beispiel 10.35 (Anwendung): Sei X N (0, 1) und Y := X + mit , R und > 0. Dann ist Y N , 2 . Beweis: Wir setzen u (x) := x + . Bei dieser Abbildung handelt es sich oenbar um einen Dieomorphismus mit u1 (y) = y 1 und u1 (y) = .
2 2

Mit Satz 10.34 folgt fr die Dichte fY von Y und fX von X, dass u fY (y) = fX y 1 (y ) 1 = exp 2 2 2 1 1 (y ) = exp 2 2 2 2 ,

was genau der Dichte zu N , 2 entspricht. Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen: Beweis (alternativ): Es ist FY (y) = P (Y y) = P (X + y) = P y

y 1

fr die Verteilungsfunktion der Standard-Normalverteilung. Mit Satz 10.31 ist dann u fY (y) = = 1 y = y

fr die Dichte der Standard-Normalverteilung - und das ist genau die Dichte zu N , 2 . u Bemerkung 10.36: Ganz analog knnen wir nun zeigen, wie man die Verteilungsfunktion zu N , 2 aus den Tabellen fr o u (der Verteilungsfunktion von N (0, 1)) berechnet: Ist Y N , 2 fr , R, > 0, so folgt wie in Beispiel 10.35, dass u X := gilt. Damit ist dann aber P (Y y) = P (X + y) = P - und das ist tabelliert! X y = y 1 (Y ) N (0, 1)

10 Allgemeine Modelle und stetige Verteilungen

111

10.6

Erwartungswert und Varianz

10.37 Denition: Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls

|x|f (x) dx < .

In diesem Fall deniert man E (X) :=

xf (x) dx.

Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt, und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt. Bemerkung 10.38: Ist X wie in der Denition und X 0, so kann man stets

E (X) :=

xf (x) dx

setzen und entsprechend einfach als Wert zulassen. Beispiel 10.39: Sei X U (r, s). Dann ist
s

E (X) =
r

1 1 1 2 dx = x sr sr2

s r

1 s2 r2 s+r = . 2 sr 2

Beispiel 10.40: Sei X N (0, 1). Dann ist

E (X) =

1 x(x) dx = 2

x exp

x2 2

1 x2 dx = exp 2 2

= 0.

Beispiel 10.41: Sei X eine Cauchy-verteilte Zufallsvariable. Fr die zugehrige Dichte f ist dann u o

|x|f (x) dx =

1 |x| dx = (1 + x2 )

1 2x dx = lim ln 1 + x2 1 + x2 R

R 0

= .

Daher hat X keinen Erwartungswert!

112

10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.42: Sei X Exp (). Dann ist

E (X)

=
0

t exp (t) dt

t exp (t) dt

partielle Integration

t exp (t)

exp (t) dt

=
0

exp (t) dt 1 exp (t) 1 .


0

= = Beispiel 10.43:

Sei X Pareto (). Zunchst untersuchen wir, fr welche > 0 der Erwartungswert existiert. Bekanntlich a u existiert das Integral

1 dt t

mit beliebigem c > 0 genau dann, wenn > 1. Daher ist der Erwartungswert fr 1 zwangslug u a nicht existent. Fr > 1 gilt: u

t (t + 1)
+1

dt =
0

t+1 (t + 1)
+1

dt

(t + 1)
+1

dt

=
0

dt 1 (t + 1)
0

(t + 1)1 1 = 1 1 1 = 1 1 1 . = 1 =

Da X Pareto() nach Denition der Dichte als nicht-negativ angenommen werden kann, haben wir also falls 1 E (X) = . 1 falls > 1 1 Aus der Matheorie zitieren wir ohne Beweis den folgenden 10.44 Satz (Transformationsformel f r den Erwartungswert - ohne Beweis): u / R eine mebare Funktion (also z.B. stetig). Sei X eine reelle Zufallsvariable mit Dichte f und g : R Dann gilt

E (g(X)) =

g(x) f (x) dx,

(10.7)

10 Allgemeine Modelle und stetige Verteilungen

113

falls

|g(x)|f (x) dx <

ist. Bemerkung 10.45: Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b: E (aX + b)
(10.7)

(ax + b) f (x) dx

xf (x) dx + b

f (x) dx
=1

= Beispiel 10.46:

aE (X) + b

Sei X N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann X + N , 2 gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt E (X + ) = E(X) + = . Daher ist wie schon weiter oben bemerkt der Erwartungswert einer N , 2 -verteilten Zufallsvariablen. 10.47 Denition: k Sei X eine stetig verteilte reelle Zufallsvariable. Falls E |X| < gilt (in dem Sinne, dass der Erwartungswert fr nicht-negative Zufallsvariablen in [0, ] stets existiert), so nennen wir u E Xk das k-te Moment von X. 10.48 Denition: Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann denieren wir die Varianz von X durch 2 2 V (X) := E (X E(X)) = E X 2 (E (X)) . Bemerkung 10.49: Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist

V (X) =

falls existent. Beispiel 10.50:

x2 f (x) dx

xf (x) dx

Sei X U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 10.49 haben wir also
1

1 2

gilt. Nach Bemerkung

V (X) =
0

x2 dx

1 1 1 1 = = . 4 3 4 12

114

10 Allgemeine Modelle und stetige Verteilungen

Allgemein folgt ganz genauso X U (r, s) V (X) = 1 sr


s

x2 dx
r

s+r 2
2

= = = = Bemerkung 10.51: Man zeigt ganz genau wie im diskreten Fall, dass

4s2 + 4rs + 4r2 3s2 + 6rs + 3r2 12 12 2 2 s 2rs + r 12 (s r) . 12


2

(s + r) s3 r3 3(s r) 4

V (aX + b) = a2 V (X) gilt. Beispiel 10.52: Sei X N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also

V (X)

x2 1 x2 exp 2 2

dx x2 2
2

1 2

x x exp

dx

partielle Integration

x2 1 x exp 2 2 1 2 1

= exp x 2

x2 exp 2

= =

exp

x2 2

dx

dx

Mit der Regel aus Bemerkung 10.51 zeigt das Y N , 2 V (Y ) = 2 ,

da fr X N (0, 1) mit Beispiel 10.35 X + N , 2 gilt. u

10.7

Mehrdimensionale stetige Verteilungen

Zunchst mssen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten knnen und a u o welche nicht. Dazu gehen wir genau wie auf R vor und whlen eine geeignete -Algebra. a 10.53 Denition: Die Borelsche -Algebra Bn des Rn ist die kleinste -Algebra auf dem Rn , die alle oenen Mengen enthlt. a Auch im Rn behlt Satz 10.14 seine Gltigkeit! Allerdings ndert sich hier die Formulierung etwas: a u a 10.54 Satz (ohne Beweis): Die folgenden Forderungen an eine -Algebra auf Rn sind quivalent: a (1) Es handelt sich um die kleinste -Algebra, die alle oenen Mengen enthlt. a

10 Allgemeine Modelle und stetige Verteilungen

115

(2) Es handelt sich um die kleinste -Algebra, die alle Rechtecke (a, b] := (a1 , b1 ] ... (an , bn ] mit a = (a1 , ..., an ) , b = (b1 , ..., bn ) Rn enthlt. a 10.55 Denition: Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn f (x) dx = 1.
Rn

/ R mit f 0 und

Ebenso zitieren wir den folgenden Satz aus der Matheorie: 10.56 Satz (ohne Beweis): / R eine Dichte auf dem Rn , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P Ist f : Rn n auf (R , Bn ) mit der Eigenschaft, dass
b1 bn

P ((a, b]) =
a1

...
an

f (x1 , ..., xn ) dxn ... dx1 =:


(a,b]

f (x) dx

fr alle Rechtecke (a, b]. u 10.57 Denition: Die reellen Zufallsvariablen X1 , ..., Xn haben die gemeinsame Dichte f , wenn f eine Dichte auf dem Rn ist und fr alle a, b Rn gilt: u P (a1 X1 b1 , ..., an Xn bn ) =
(a,b]

f (x) dx.

Beispiel 10.58: Fr n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1] . u Beispiel 10.59: 1 1{(x,y)R2 | x2 +y2 1} denieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R2 . f := Bemerkung 10.60: Diese Beispiele lassen sich durchaus verallgemeinern: Ist A R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer beliebig oft dierenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion f := ist die Dichte der Gleichverteilung auf A. 10.61 Denition (Produktdichten): Sind f1 , ..., fn Dichten auf R, so ist f (x1 , ..., xn ) := f1 (x1 ) ... fn (xn ) a eine Dichte auf dem Rn . f heit Produktdichte der Dichten f1 , ..., fn . Die gem Satz 10.56 zu f gehrende Wahrscheinlichkeitsverteilung P auf (Rn , Bn ) heit Produktverteilung der zu f1 , ..., fn o gehrenden Verteilungen P1 , ..., Pn auf R gem Satz 10.25. Matheoretisch schreibt man auch o a P = P1 ... Pn . Beispiel 10.62: Die Funktion 1[0,1]2 ist die Dichte zu P1 P2 , wenn P1 , P2 Gleichverteilungen auf [0, 1] sind. 1 1A Vol(A) Durch
2

116

10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.63: Sei n N2 und sei fi (xi ) := gegeben durch


1 2

exp

x2 i 2

fr i = 1, ..., n. Dann ist die zugehrige Produktdichte u o


n

f (x1 , ..., xn ) = f1 (x1 ) ... fn (xn ) = beziehungsweise f (x) = (2)


n 2

1 2 x 2
2 2

exp

1 2 x + ... + x2 n 2 1

exp

x Rn

fr die gewhnliche euklidische Norm auf dem Rn . Fr n = 3 sieht die Produktdichte wie folgt aus: u o u z

y x Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3 . An dieser Stelle zitieren wir folgende Stze aus der Matheorie: a 10.64 Satz (ohne Beweis): Sind X, Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt fr jedes glatte u Gebiet A R2 , dass P ((X, Y ) A) = f (x, y) d(x, y).
A

Auerdem bentigen wir die Transformationsformel fr den Erwartungswert von Funktionen von Zufallso u vektoren: 10.65 Satz (ohne Beweis): Sind X1 , ..., Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn mebar (z.B. stetig), so gilt E (g (X1 , ..., Xn )) =
Rn

/R

g(x)f (x) dx

(10.8)

falls
Rn

|g(x)|f (x) dx <

ist. 10.66 Hilfssatz: Sind X1 , X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist

f1 (x1 ) :=

f (x1 , x2 ) dx2

die Dichte zu X1 und f2 (x2 ) :=

f (x1 , x2 ) dx1

die Dichte zu X2 .

10 Allgemeine Modelle und stetige Verteilungen

117

Beweis: Es gilt P (a1 X1 b1 ) =


Satz 10.64

P (a1 X1 b1 , < X2 < )


b1

f (x1 , x2 ) dx2 dx1 .


a1 =f1 (x1 )

Ganz analog kann man fr f2 vorgehen. Das zeigt schon die Behauptung. u Bemerkung 10.67: Jetzt knnen wir endlich zeigen, dass der Erwartungswert linear ist: o E (X1 + X2 ) = E (X1 ) + E (X2 ) . Beweis: Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1 , x2 ) = x1 + x2 an. Das liefert E (X1 + X2 ) =
R2

(x1 + x2 ) f (x1 , x2 ) d(x1 , x2 )

=
R2

x1 f (x1 , x2 ) d(x1 , x2 ) +
R2

x2 f (x1 , x2 ) d(x1 , x2 )
R

=
R Hilfssatz 10.66

E (X1 ) + E (X2 )

x1

f (x1 , x2 ) dx2 dx1 +

x2

f (x1 , x2 ) dx1 dx2

Damit ist die Behauptung gezeigt.

10.8

Unabhngigkeit a

10.68 Denition: Reelle Zufallsvariablen X1 , ..., Xn heien unabhngig, wenn a


n

P (a1 X1 b1 , ..., an Xn bn ) = fr alle a = (a1 , ..., an ) , b = (b1 , ..., bn ) Rn gilt. u

i=1

P (ai Xi bi )

10.69 Satz (Unabhngigkeit bei stetigen Verteilungen): a (1) Sind X1 , ..., Xn unabhngige Zufallsvariablen mit Dichten f1 , ..., fn entsprechend, so ist die gemeina same Dichte f durch die Produktdichte f (x1 , ..., xn ) := f1 (x1 ) ... fn (xn ) gegeben. (2) Sind X1 , ..., Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind X1 , ..., Xn unabhngig und fi ist die Dichte zu Xi , i = 1, ..., n. a Beweis: (1) Wegen der Unabhngigkeit und der Denition der Dichten fi gilt a
n

(10.9)

P (a1 X1 b1 , ..., an Xn bn ) = =

i=1 n

P (ai Xi bi )
bi

fi (xi ) dxi
i=1 a
i

=
(a,b]

f (x) dx

118

10 Allgemeine Modelle und stetige Verteilungen

fr alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1 , ..., Xn ist. u (2) Da X1 , ..., Xn eine gemeinsame Dichte der Form (10.9) haben, ist
b1 bn

P (a1 X1 b1 , ..., an Xn bn ) =
a1 n

...
an bi

f1 (x1 ) ... fn (xn ) dxn ... dx1

=
i=1 a
i

fi (xi ) dxi

(10.10)

fr jedes Rechteck (a, b]. u / , bj / fr alle j = i Fr festes i {1, ..., n} lassen wir jetzt in dieser Gleichung aj u u gehen. Dann geht die linke Seite gegen P (ai Xi bi ) und die rechte Seite gegen
bi

fi (xi ) dxi ,
ai bi

da jedes fj eine Dichte ist und somit ist, also

fj (xj ) dxj = 1 erfllt. Das zeigt, dass fi die Dichte zu Xi u

P (ai Xi bi ) =
ai

fi (xi ) dxi .

Damit ist aber wegen (10.10)


n

P (a1 X1 b1 , ..., an Xn bn ) = womit X1 , ..., Xn per Denition unabhngig sind. a Beispiel 10.70:

i=1

P (ai Xi bi ) ,

Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp () verteilt sind. Nehmen wir an, wir stehen an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir den Kunden vor uns als Zufallsvariable X Exp () sowie uns als Y Exp () und nehmen an, dass X und Y unabhngig sind. Gefragt ist dann nach a P (Y 2X) . (10.11)

Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h. f (x, y) = ( exp (x)) ( exp (y)) 1[0,)2 . Um (10.11) zu bestimmen betrachten wir A = {(x, y) | x, y 0, y 2x} .

10 Allgemeine Modelle und stetige Verteilungen

119

Mit Satz 10.64 folgt P (A) =


A 2

f (x, y) dx dy

exp ((x + y)) dy dx


0 2x

exp ((x + y)) dy dx


0 2x

=
0

exp (x)

2x

exp (y) dy dx

=
0

exp (x) exp (2x) dx

1 3

3 exp (3x) dx
0 0

= =

1 ( exp (3x)) 3 1 . 3

Zuletzt sei noch der folgende Satz aus der Matheorie erwhnt: a 10.71 Satz (ohne Beweis): Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch fr Zufallsvariablen mit stetigen u Verteilungen. Wir zeigen nun, dass der Produktsatz fr unabhngige Zufallsvariablen auch im stetigen Fall gilt: u a 10.72 Satz: Sind X und Y unabhngige Zufallsvariablen mit Dichten fX und fY , so gilt a E(X Y ) = E(X) E(Y ). Beweis: / R. Die Dichte zu (X, Y ) hat gem Satz 10.69 Produktform f (x, y) = Setze g(x, y) = x y, g : R2 a fX (x) fY (y), da X und Y unabhngig sind. a Damit gilt E(X Y ) =
Transformationsformel

E(g(X, Y ))

g(x, y) f (x, y) dx dy

x y fX (x) fY (y) dx dy

x fX (x) dx

y fY (y) dy.

Das zeigt die Behauptung. Korollar 10.73: Sind X und Y stetige unabhngige Zufallsvariablen, so gilt a CoV(X, Y ) = E(X Y ) E(X)E(Y ) = 0, das heit, X und Y sind unkorreliert.

120

10 Allgemeine Modelle und stetige Verteilungen

10.74 Denition (Faltung): Seien f1 und f2 Dichten auf R. Die Dichte

f1 f2 (z) =

f1 (x)f2 (z x) dx

nennen wir Faltung f1 f2 von f1 und f2 . 10.75 Satz (Dichten f r Summen von unabhngigen Zufallsvariablen mit Dichten): u a Seien X und Y unabhngige Zufallsvariablen mit Dichten fX und fY . Dann hat X +Y die Dichte fX fY . a Beweis: X und Y haben die gemeinsame Dichte f (x, y) = fX (x) fY (y), da X und Y unabhngig sind. Sei A die a Menge A := {(x, y) | x + y b} . Dann gilt P (X + Y b) =
A

f (x, y) dx dy
bx

fX (x)fY (y) dy dx

=
b

fX (x)fY (z x) dz dx

=
b

fx (x)fy (z x) dx dz

fX fY (z) dz.

Damit ist die Behauptung gezeigt. Beispiel 10.76 (Gleichverteilung U(0, 1)): Seien X und Y unabhngig und gleichverteilt auf [0, 1]. Dann ist die Dichte von X + Y gegeben als a falls 0 t 1 t 2 t falls 1 t 2 . fX+Y (t) = 0 sonst 1

3
i.i.d.

Abbildung 23: Die Dichte von X + Y fr X, Y u

U (0, 1).

10 Allgemeine Modelle und stetige Verteilungen

121

Beweis: Oenbar ist fX (t) = 1[0,1] (t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als

(fX fY ) (z)

=
1

fX (x) fY (z x) dx

=
0

1[0,1] (z x) dx
z1

=
z z

1[0,1] (y) dy

=
z1

1[0,1] (y) dy.

Nun unterscheiden wir vier Flle: a


z

Ist z < 0, so ist oenbar Ist z > 2, so ist oenbar

1[0,1] (y) dy = 0.
z1 z

1[0,1] (y) dy = 0.
z1

Ist 0 z 1, so berechnet man


z z

1[0,1] (y) dy =
z1 0

1 dy = z.

Ist 1 z 2, so berechnet man


z 1

1[0,1] (y) dy =
z1 z1

1 dy = 2 z.

Das zeigt die Behauptung. 10.77 Satz: 2 Seien Xi N (i , i ), fr i = 1, 2 unabhngig. Dann ist X1 + X2 normalverteilt mit Parametern 1 + 2 u a 2 2 und 1 + 2 , d.h. 2 2 X1 + X2 N 1 + 2 , 1 + 2 . Beweis: Es gengt zu zeigen, dass u
2 2 (X1 1 ) + (X2 2 ) N 0, 1 + 2 2 2 gilt, wobei (X1 1 ) N 0, 1 und (X2 2 ) N 0, 2 verteilt sind. Nach Denition der Faltung zweier Dichten ergibt sich fr festes z R: u
2 2 f0,1 f0,2 (z) =

1 1 x2 exp 2 2 1 21

1 (z x)2 exp 2 22 22 dx.

dx

1 21 2

1 exp 2

x2 (z x)2 2 + 2 1 2
=:()

(10.12)

Wir setzen nun :=


2 2 1 + 2 und w = w(x) =

1 x z. 1 2 2

122

10 Allgemeine Modelle und stetige Verteilungen

Dann ist w2 + z2 2 =
2 2 2 1 2 z 2 1 + 2 2 2xz 2 2 x 2 + 2 2 z + 2 1 2 2 2 = z2
2 2

= = = Da dw =
1 2 dx

x2 2xz z2 x2 2 + 2 2 + 2 1 2 2 2 x2 (z x)2 + 2 2 1 2 (). Wir substituieren also in (10.12) und erhalten so 1 21 2

ist, folgt dx =

1 2 dw.

2 2 f0,1 f0,2 (z)

exp

1 2

w2 +

z2 2

1 2 dw

z2 1 exp 2 2 2

1 1 exp w2 dw 2 2

=1 (Std.normalverteilung)

= f0,2 (z)
2 2 = f0,1 +2 (z).

Damit ist der Satz bewiesen.

10.9

Die mehrdimensionale Normalverteilung

10.78 Denition: Wir haben in Beispiel 10.63 schon gesehen, dass fr unabhngige Zufallsvariablen Z1 , ..., Zn N (0, 1) u a T die Zufallsgre Z = (Z1 , ..., Zn ) die Dichte o f (z1 , ..., zn ) = 1 2
n

exp

1 z2 2 =1 i

besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung nennen. Wir schreiben dann auch T (Z1 , ..., Zn ) N (0, In ) , wobei wir mit In = 1 .. 0 . 1 0

die n n-Einheitsmatrix bezeichnen.

10.79 Denition: T Sei Z = (Z1 , ..., Zn ) N (0, In ), A eine reelle n n-Matrix und R. Dann nennen wir die Verteilung von AZ + eine n-dimensionale Normalverteilung zu A und . 10.80 Denition: T Sei Z = (Z1 , ..., Zn ) ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor E (Z) = (E (Z1 ) , ..., E (Zn )) . Beispiel 10.81: Sei Z N (0, In ). Dann ist oenbar E (Z) = 0 Rn . Auerdem folgt fr jede n n-Matrix A und jedes u Rn , dass E (AZ + ) = AE (Z) + = .
T

10 Allgemeine Modelle und stetige Verteilungen

123

10.82 Denition: T Sei Z = (Z1 , ..., Zn ) ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist Z := (CoV (Zi , Zj ))1i,jn . Beispiel 10.83: Sei Z = (Z1 , ..., Zn ) N (0, In ). Wegen CoV (Zi , Zj ) = ist Z = In . 10.84 Lemma: Sei Z ein beliebiger Zufallsvektor, A = (ai,j )1i,jn eine beliebige reelle n n-Matrix und Rn . Dann gilt fr X := A Z + , dass u X = A Z AT . Beweis: Es ist CoV (Xi , Xj ) = E ((Xi E (Xi )) (Xj E (Xj )))
n n T

0 falls i = j 1 falls i = j

= E
k=1 n

ai,k Zk + i

E
n

ai,k Zk + i
k=1

aj,k Zk + j
k=1 n

E
k=1

aj,k Zk + j
n

= E
k=1 n

ai,k (Zk E (Zk ))

l=1

aj,l (Zl E (Zl ))

=
k,l=1 n

ai,k CoV (Zk , Zl ) aj,l

=
k,l=1

ai,k CoV (Zk , Zl ) aT l,j

A z AT Beispiel 10.85:

i,j

Das zeigt die Behauptung.

Sei Z N (0, In ) und X = A Z + mit einer beliebigen reellen n n-Matrix A und Rn . Nach Lemma 10.84 gilt dann X = A Z AT = A AT .
=In

Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und gegeben durch und X = A AT . Bemerkung 10.86: Sei Z N (0, In ) und X = A Z + mit einer beliebigen reellen n n-Matrix A und Rn . Dann ist die Matrix X = A AT stets symmetrisch und positiv semi-denit, d.h. fr jedes x Rn gilt u xT X x 0. Die Umkehrung ist ebenfalls richtig: Jede Matrix , die symmetrisch und positiv semi-denit ist, ist Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentransformation, denn demnach ist = V D V T fr eine orthogonale Matrix V und eine Diagonalmatrix u d1 0 .. . D= . 0 dn

124

10 Allgemeine Modelle und stetige Verteilungen

Da positiv semi-denit ist, sind alle Zahlen di 0. Wir setzen d1 0 T .. V , A := V . dn 0


=: D

und haben dann A AT = V

D V T V D V T = V D V T = .
=In

10.87 Denition: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir von einer ausgearteten Normalverteilung. 10.88 Denition: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir von einer nicht ausgearteten Normalverteilung. 10.89 Satz: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert Rn und det() = 0. Dann ist die zugehrige Dichte gegeben als o f (x) = 2 1
n

det()

exp

1 T (x ) 1 (x ) 2

x Rn .

(10.13)

Beweis: T Wir wollen den Transformationssatz fr Dichten im Rn benutzen: Hat Z = (Z1 , ..., Zn ) auf oenem u / N fr N Rn ebenfalls oen ein Dieomorphismus, so hat M Rn die Dichte fZ und ist u : M u X := u (Z) die Dichte fX (x) = fZ u1 (x) det D(u1 )(x) . (10.14)

Dabei bezeichnet D(u1 ) das totale Dierential von u1 . Dieser Satz folgt direkt aus der Transformationsformel im Rn , der explizite Beweis ndet sich bei [Dehling/Haupt], Seite 181. Hier ist Z N (0, In ), M = N = Rn und u (x) = Ax + mit A wie in Bemerkung 10.86 zu denitiert. Da det () = 0 ist, ist auch det (A) = 0, d.h. u1 (x) = A1 (y ) existiert. Damit ist dann det D u1 (x) = det(A1 ) = 1 = |det (A)| 1 det() .

Beachte dabei, dass det () > 0 wegen der positiven Semi-Denitheit von .
n

Da
i=1

2 zi = (z1 , ..., zn ) (z1 , ..., zn ) ist, gilt

fZ (z) =

1 2
n

1 exp z T z . 2

Mit der angegebenen Transformationsformel fr Dichten (10.14) folgt u fX (x) = = und somit die Behauptung. 1 2 2
n

exp 1

1 2

A1 (x ) exp

A1 (x )

1 det()

det()

1 T (x ) 1 (x ) 2

10 Allgemeine Modelle und stetige Verteilungen

125

Bemerkung 10.90: Ist det () = 0, so gibt es keine Dichte auf dem Rn fr die zugehrige Verteilung. u o Bemerkung 10.91: Man beachte, dass die n-dimensionale Normalverteilung bereits durch und festgelegt ist! Bemerkung 10.92: Der Fall det () = 0 entspricht genau dem Fall, dass symmetrisch und strikt positiv denit ist, d.h. xT x > 0 x Rn \ {0} . Fr jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die u Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben. 10.9.1 Folgerungen

10.93 Satz: T Sei X = (X1 , ..., Xn ) nach N (, ) verteilt, d.h. es ist = E (X) und = CoV (X). Sei auerdem det () = 0. Dann gilt Xi N (i , i,i ) . Allgemeiner: Ist c Rn \ {0}, so ist
n n n

i=1

ci Xi N

ci i ,
i=1 i=1

c2 i,i i

Sind die Xi s paarweise unkorreliert, so sind sie unabhngig. a Beweis: Da alles nur von der Verteilung abhngt, knnen wir wie folgt vorgehen: Finde eine n n-Matrix A, s.d. a o A AT = gilt. Dann ist X = A Z + fr Z N (0, In ). Damit folgt aber u
n

Xi =
k=1

Ai,k Zk + i ,

womit mehrfaches anwenden des Faltungssatzes fr die Normalverteilung (Satz 10.77) sofort u
n n

Xi N

i ,
k=1

A2 i,k

=N

i ,
k=1

Ai,k AT k,i

= N (i , i,i )

liefert. Ganz analog geht man fr beliebiges c Rn \ {0} vor. u Kommen wir zur Unabhngigkeit. Sind die Xi s unkorreliert, so ist CoV(X) = eine Diagonalmatrix. a Die Dichte fX von X ist gem 10.13 gegeben, und da 1 ebenso wie Diagonalform hat, ist sie in a Produktform. Satz 10.69 liefert, dass die Xi s unabhngig sind. a

10.10

Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz

Bemerkung 10.94: Wir haben schon gesehen, dass fr stetige Zufallsvariablen X und Y ebenso wie fr diskrete die Linearitt u u a des Erwartungswertes gilt: E (aX + Y ) = aE (X) + E (Y ) , Auerdem ist der Erwartungswert monoton, d.h. XY E (X) E (Y ) . a R. (10.15)

Man kann ebenso (matheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall fr die Varianz u gelten, sich auf den stetigen Fall ubertragen, also V (aX + b) = a2 V (X) fr a, b R und X stetig verteilte Zufallsvariable usw.. u Ebenso gelten die Markov-, Tschebyschow- und Hoeding Ungleichung sowie das SGGZ genau wie im stetigen Fall. Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen. (10.16)

126

10 Allgemeine Modelle und stetige Verteilungen

10.10.1

Die Jensensche Ungleichung

Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes 10.95 Lemma (Jensensche Ungleichung): Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fllen) und g : R a eine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung g (E (X)) E (g (X)) . Beweis: Fr eine konvexe Funktion g knnen wir an den Punkt (E (X) , g (E (X))) eine (ohne weitere Voraussetu o zungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form L (x) = c (x E (X)) + g (E (X)) , wobei c = g (E (X)), falls g an E (X) I dierenzierbar ist. Insbesondere gilt dann E (L (X)) = E (c (X E (X)) + g (E (X))) = c (E (X) E (X)) + g (E (X)) = g (E (X)) Da g konvex und L linear ist, gilt L g und mit der Monotonie des Erwartungswerts folgt so g (E (X)) = E (L (X)) E (g (X)) , was die Behauptung zeigt. Beispiel 10.96: Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x2 , so folgt (E (X)) E X 2 . Dieses Ergebnis folgt auch schon daraus, dass 0 V (X) = E X 2 (E (X)) ist. Bemerkung 10.97: Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch fr Intervalle I R, etwa u I = [0, ) anwenden, wenn X Werte in I hat.
2 2

/R

10 Allgemeine Modelle und stetige Verteilungen

127

10.10.2

Der zentrale Grenzwertsatz (ZGWS)

10.98 Denition (drittes zentrales Moment): Sei X eine reelle Zufallsvariable. Wir denieren (X) := E |X E (X)| als das dritte zentrale Moment von X. Bemerkung 10.99: Sei X eine reelle Zufallsvariable. Oenbar hngt (X) nur von der Verteilung von X ab. a 10.100 Satz (Zentraler Grenzwertsatz): Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X) und := (X) existieren und V (X) > 0 ist (das ist zum Beispiel fr B (n, p) , Geo(p), Exp () , N , 2 usw. der Fall). u Fr jedes n N seien X1 , ..., Xn unabhngige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei u a nun
n 3

Sn :=
i=1

Xi

und die Verteilungsfunktion von N (0, 1). Dann gilt sup P


xR

Sn E (Sn ) V (Sn )

(x)

/ 0.

(10.17)

Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten. Bemerkung 10.101: Natrlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von . u Bemerkung 10.102: Natrlich folgt mit dem zentralen Grenzwertsatz auch u sup P
ab

Sn E (Sn ) V (Sn )

((b) (a))

/ 0.

10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung): Sei X1 , X2 , ... eine Folge unabhngiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1 ), V (X1 ) a und (X1 ) existieren und V (X1 ) > 0 gilt. Sei auerdem die Verteilungsfunktion zu N (0, 1). Dann gilt
n n

Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace): Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit 0 < p < 1 fest und X1 , X2 , ... B (1, p) unabhngig verteilt. a Nun zeigen wir zunchst folgenden a 10.105 Hilfssatz: Sei Y N 0, 2 verteilt. Dann gilt E |Y |
3

Xi Xi E i=1 sup P i=1 n xR V Xi


i=1

x (x)

/ 0.

8 3 .

Beweis: Gem der Transformationsformel fr den Erwartungswert (Satz 10.44) ist a u E |Y |


3

1 1 exp 2 t2 |t|3 2 2 2 2

dt

2 2

t3 exp

1 2 t 2 2

dt.

128 Nun substituiert man t = 2x, womit dt =


3

10 Allgemeine Modelle und stetige Verteilungen

2x

dx ist und dx 2x

E |Y |

2 2 2 2 4 2 2 4 3 2

3 1 3 2x exp 2 2 2x 2
2

2x exp (x) dx

x exp (x) dx
0

= = = = Das zeigt die Behauptung.

4 3 (2) 2 4 3 (2 1)! 2 16 3 2 8 3 .

Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest: Bemerkung 10.106: Sind die Zufallsvariablen Xi unabhngig, so gilt a
n n

V
i=1

Xi

=
i=1

V (Xi ) ,

was wir im diskreten Fall auch bewiesen haben. Beweis (von Satz 10.100): Setze Fn (x) := P fr x R und := u Sn E (Sn ) V (Sn ) x

V (x1 ). Wir mssen also zeigen, dass u sup |Fn (x) (x)|
xR n

/.

(10.18)

Fr (10.18) gengt es zu zeigen, dass es fr jedes > 0 ein > 0 gibt, s.d. u u u sup |Fn (x) (x)| , n 3 xR
3 n

denn falls dieses gilt, nden wir immer ein hinreichend groes n N s.d. sup |Fn (x) (x)|
xR

und somit

ist. Wir beginnen dazu mit einigen Vorbereitungen. Setze Zi := Xi E (Xi ) nV (Xi )

fr i = 1, ..., n. Dann ist nach der Bemerkung 10.106 u Sn E (Sn ) V (Sn )


n

=
i=1

Zi

10 Allgemeine Modelle und stetige Verteilungen

129

und entsprechend auch


n

Fn (x) = P
i=1

Zi x ,

x R.

Oenbar ist E (Zi ) = 0 fr i = 1, ..., n und man berechnet mit den Regeln fr die Varianz u u
2 E Zi = V (Zi ) + (E (Zi )) = =0 2

1 1 V (Xi E (Xi )) = nV (Xi ) n

fr jedes i = 1, ..., n. Zuletzt ist u E |Zi |


3

=E

|Xi E (Xi )| nV (Xi )


3

= 3 . ( n) 3

1 Seien ferner Y1 , ..., Yn unabhngig (auch von den Zi s) mit Yi N 0, n . Nach dem Faltungssatz fr die a u Normalverteilung (Satz 10.77) ist dann n

i=1

Yi N (0, 1)
1 n

verteilt. Auerdem ist E (Yi ) = 0, E Yi2 = V (Yi ) = E |Yi |3 =

und mit Hilfssatz 10.105 auch 8 1 . n3

Whle zu beliebigem > 0 eine mindestens dreifach stetig dierenzierbare Funktion f mit 0 f 1 und a f (t) = 1 falls t 0 . 0 falls t
tR

Setze dann zu x R fx (t) := f (t x), t R und M := sup |f (t)|. Nach dem Satz von Taylor gilt dann fr alle t, h R u
fx (t + h) = fx (t) + fx (t) h + fx (t)

|h|3 |h|3 h2 + v(t, h) mit |v(t, h)| sup |fx (t)| M . (10.19) 2 6 6 tR 3.6 M 1+

Jetzt denieren wir := () = und whlen n N so gro, dass a


3 n

gilt.

Schritt I
Wir zeigen nun, dass
n n

fx
i=1

Zi

fx
i=1

Yi

M 6

i=1

E |Zi |

+ E |Yi |

(10.20)

fr alle x R gilt. u
Z Setze Sj := j i=1 Z Zi fr j = 1, ..., n. Betrachte nun t = Sn1 und h = Zn in der Taylorentwicklung (10.19): u 2 Zn Z + v Sn1 , Zn . 2

Z Z Z Z fx Sn1 + Zn = fx Sn1 + fx Sn1 Zn + fx Sn1


Z =Sn

Z Z Nach dem Blockungslemma sind fx Sn1 und Zn sowie fx Sn1 und unseren Vorberlegungen u Z E fx Sn Z = E fx Sn1 Z + E fx Sn1 Z E (Zn ) +E fx Sn1 =0

2 Zn 2

unabhngig, d.h. es folgt mit a


2 Zn 2
1 = 2n

Z +E v Sn1 , Zn

130

10 Allgemeine Modelle und stetige Verteilungen

Genauso folgt mit h = Yn , dass


Z E fx Sn1 + Yn Z = E fx Sn1 Z + E fx Sn1

2 Yn 2
1 = 2n

Z +E v Sn1 , Yn

Subtrahieren der Gleichungen liefert


Z E fx Sn Z E fx Sn1 + Yn

=
Jensensche Ungleichung

Z E v Sn1 , Zn Z E v Sn1 , Zn

Z E v Sn1 , Yn Z + E v Sn1 , Yn

Z v Sn , Zn

+E

Z v Sn1 , Yn

(10.19), Monotonie

M 3 3 E |Zn | + E |Yn | 6
n

Z Da wir ja eigentlich eine Abschtzung fr E fx Sn a u

E fx

Yi
i=1

haben wollen, betrachten wir

Z nun die Taylor-Entwicklung (10.19) mit t = Sn2 + Yn und h = Zn1 bzw. h = Yn1 . Dort erhalten wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschtzung a Z E fx Sn1 + Yn Z E fx Sn2 + Yn1 + Yn

M 3 3 E |Zn1 | + E |Yn1 | 6

Z Nutze dann die Taylor-Entwicklung (10.19) mit t = Sn3 + Yn1 Yn und h = Zn2 bzw. h = Yn2 usw.. Das liefert dann allgemein Z E fx Sk + Yk+1 + ... + Yn Z E fx Sk1 + Yk + ... + Yn

M 3 3 E |Zk | + E |Yk | 6

fr alle k {1, ..., n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20). u

Schritt II
Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) 0.6 ist. Nach unseren Vorberlegungen u ist die rechte Seite M 6
3

i=1

E |Zi |

+ E |Yi |

M 6

+ n 3

8 1 n

(10.21)

Da g (x) := x 2 konvex ist, folgt mit der Jensenschen Ungleichung 10.95, dass 3 = ist. Daher ist und es folgt, dass die rechte Seite 10.21 M 6 + n 3 8 1 n = M 6 3+ 3 n 1+ 8 8 1 n V (X)
3

= E |X E (X) |2

3 2

E 1 3

|X E(X)|2

3 2

= E |X E(X)|3 =

M 3 6 n

M 1+ 6 M 3.6 6 M 1+ 3.6 6 0.6

8 1+ 8

= = erfllt - also genau die Behauptung. u

10 Allgemeine Modelle und stetige Verteilungen

131

Schritt III
Nach Denition der Zi haben wir nun fr alle x R u
n

Fn (x) = P
i=1

Zi x
n

= E
n n

1(,x]
i=1

Zi

da 1(,x]
i=1

Zi

B 1, P

mit der Monotonie des Erwartungswerts


n

i=1

Zi x

gilt. Nach Wahl von f ist 1(,x] fx und daher folgt

Fn (x) E was mit Schritt I und II wiederum

fx
i=1

Zi

Fn (x) E

fx
i=1

Yi

+ 0.6

zeigt. Nun ist 1(,x+] fx nach Wahl von f und daher folgt wieder mit der Monotonie
n n

Fn (x) E

1(,x+]
i=1

Yi

+ 0.6 = P
i=1 n

Yi x +

+ 0.6.

Da wie schon bemerkt laut Faltungssatz (Satz 10.77)


i=1 n

Yi N (0, 1) gilt, ist

P
i=1

Yi x +

= (x + ) ,

d.h. wir haben Der Mittelwertsatz der Dierentialrechnung liefert (x + ) (x) + () fr ein R. Wegen u () = () 1 0.4 fr die Dichte der Standard-Normalverteilung folgt somit u 2 Fn (x) (x) + 0.4 + 0.6 = (x) + . Ganz analog erhlt man a (x ) Fn (x) + 0.6 und mit dem Mittelwertsatz zustzlich a (x) (x ) + 0.4. Zusammen zeigt das |Fn (x) (x)| fr alle x R und daher uber (10.18) die Behauptung. u 10.107 Satz (Fehlerabschtzung nach Berry-Esseen): a Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt fr jedes n N u P Sn E (Sn ) V (Sn ) x 0.8 (x) 3 n Fn (x) (x + ) + 0.6.

fr jedes x R. Diese Relation gilt auch mit einem < anstelle von . Auerdem gilt damit u P a Sn E (Sn ) V (Sn ) b 1.6 ((b) (a)) 3 . n

132

10 Allgemeine Modelle und stetige Verteilungen

Beweis: Diese Abschtzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas a Arbeitsaufwand, sie herauszulesen. Beispiel 10.108:
1 Wir wollen Fehlerabschtzungen fr den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 2 a u 1 1 herleiten. Seien also X1 , X2 , ... B 1, 2 unabhngige Zufallsvariablen. Dann ist V (Xi ) = 4 , d.h. mit a den Bezeichnungen des zentralen Grenzversatzes ist

3 = V (X) 2 =
1 Auerdem ist |Xi E(Xi )| = 2 , da E (Xi ) = 1 2

1 . 8

ist, d.h.
3

= E |X1 E(X1 )| Daher ist


3

1 . 8

= 1 und die Fehlerabschtzungen werden zu a 0.8 1.6 bzw. . n n

11 Markov-Ketten mit endlichem Zustandsraum

133

11

Markov-Ketten mit endlichem Zustandsraum

Die Idee
Wir wollen ein stochastisches Modell fr die Bewegung eines Teilchens auf endlich vielen Zustnden u a geben, wobei die Wahrscheinlichkeit fr den nchsten Zustand nur vom jetzigen Zustand und nicht von u a der weiteren Vergangenheit abhngt. Diese Eigenschaft wird auch Markov-Eigenschaft genannt und ist a oftmals nur eine Approximation der Wirklichkeit. Die Lsung fr ein solches Modell sind Markov-Ketten, o u die wir in Abschnitt 11.2 kennen lernen werden. Beispiel 11.1: Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er whlt aus allen ihm a erlaubten Zgen jeweils rein zufllig (also gleichverteilt) den nchsten Raus. In diesem Beispiel entsprechen u a a die Zustnde den 64 Feldern des Schachbretts und das Teilchen dem Springer. a Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner Startposition ankommt. Beispiel 11.2: Ein weiteres Beispiel ist ein sogenannter Netbot, der zufllig gem Ausgangslinks von Seite zu Seite a a wandert. Beispiel 11.3 (Markov): Markov betrachtete ursprnglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in u Puschkins Roman Eugene Onegin die Markov-Eigenschaft htte, dann wre die Ubergangsmatrix a a (denieren wir weiter unten) gegeben durch  V j
0.128 0.663 0.872 0.337

K [

Heutzutage werden Markov-Ketten vor allem als Modell fr DNA-Folgen genutzt, wobei das Alphabet u dann {A, C, G, T} ist. Eine andere Interpretation von Markov-Ketten ist, dass ein System (= Teilchen) sich in einem von endlich vielen Zustnden bendet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand. a Diese Interpretation wird heutzutage etwas bei der Puerauslastung von Servern verwendet.

11.1

Steuerung der Sprunge: Ubergangsmatrizen und -graphen

11.4 Denition: Eine Zustandsmenge S ist eine endliche Menge. Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1, ..., N }, allerdings verwenden wir oft das Symbol 1 fr den Zustand 1, um nicht durcheinander zu kommen. u 11.5 Denition: Sei #S = N N. Eine N N -Matrix P = (pi,j )i,jS mit den Eigenschaften pi,j 0 i, j S
jS

pi,j = 1 i S

heit stochastische Matrix oder Ubergangsmatrix auf S. In diesem Fall sind alle Zeilen von P stochastische Vektoren. Notation 3: Sei P eine Ubergangsmatrix auf S. Fr den Eintrag von P in der i-ten Zeile und j-ten Spalte schreiben u wir P (i, j) = pi,j bei i, j S.

134

11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.6: Wir wollen die tgliche Wetterentwicklung modellieren. Dazu sei a S := {Regen, Sonne, bewlkt} . o Wir nummerieren die Zustnde in dieser Reihe durch (also a Als Ubergangsmatrix denieren wir 0 1 0 1 P := 3 0 2 3
1 3 1 3 1 3

Regen = 1, Sonne = 2, bewlkt = 3). o

Das soll etwa bedeuten, dass

. 2 . 3

P (morgen bewlkt | heute Sonne) = p2,3 = o

11.7 Denition: Zu einer Ubergangsmatrix P auf S gehrt stets ein Ubergangsgraph GP , welcher wie folgt zu konstruieren o ist: Die Menge E der Ecken von GP ist S. Eine Kante von i S nach j S mit Gewicht pi,j wird gehrt o genau dann zur Kantenmenge V von GP , wenn pi,j > 0 gilt. Beispiel 11.8: In unserem Wettermodell aus Beispiel 11.6 wre der zugehrige Graph a o 6 2 V
2 3

1 3

1 3

1 3

v 1 o


1 3

3 V

Beispiel 11.9 (Lieblingsbeispiel des Dozenten): Betrachte die Ubergangsmatrix P= 0


1 2

1
1 2

Dann ist der zugehrige Ubergangsgraph GP gegeben als o


1
1 2

1 j
1 2

2 [

11.10 Denition: Sei G = (V, E) ein Graph und i, j V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken vi,i1 , vi1 ,i2 , ..., vin1 ,in , vin ,j zwischen den Punkten i und i1 , i1 und i2 ,... entsprechend mit i1 , ..., in V . Im allgemeinen existiert kein Pfad zwischen beliebigen i, j V . Fr einen Pfad w gegeben durch i = u i0 , i1 , ..., in = j von i nach j sei |w| = n seine Lnge. Wir schreiben fr w auch a u i Man kann Wege auch verknpfen: Ist i u |w1 w2 | = |w1 | + |w2 |.
w1 w

/ j.
w2

/ j und j

/ k, so ist i

w1 w2

/ k ebenfalls ein Weg mit

11 Markov-Ketten mit endlichem Zustandsraum

135

11.11 Denition: Sei P eine Ubergangsmatrix auf S. P beziehungsweise der zugehrige Ubergangsgraph GP heien o irreduzibel, wenn es fr jedes Paar i, j S ein Pfad von i nach j von GP gibt. u Beispiel 11.12: Die Ubergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrach tet man dagegen die Ubergangsmatrix 1 0 P= , 1 1
2 2

so sieht man am zugehrigen Graphen o 


1
1 2

1 j
1 2

2 [

leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 ! Bemerkung 11.13: Man beobachtet nun Folgendes: Ist P eine Ubergangsmatrix auf S, so beschreibt eine Folge von Zustnden a i = i0 , i1 , ..., in1 , in = j aus S genau dann einen Pfad von i nach j, wenn pi0 ,i1 > 0 und pi1 ,i2 > 0 und ... und pin1 ,in > 0 ist, d.h. falls die Zahl
n1

pi ,i+1
=0

strikt positiv ist. Wir denieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Lnge. a 11.1.1 Potenzen der Matrix P

Im Weiteren bentigen wir stndig n-te Potenzen der Matrix P. Sei n N und N = #S. Man beachte: o a Die N N -Matrix P2 = P P ist gegeben durch P2 (i, j) =
kS

pi,k pk,j =

kS

P (i, k) P (k, j) ,

i, j S.

Allgemein folgt induktiv fr Pn = P Pn1 , dass u Pn (i, j) =


i1 ,...,in1 S

pi,i1 ... pin1 ,j ,

i, j S,

(11.1)

d.h. dass die Zahl Pn (i, j) genau die Summe aller Gewichte von Pfaden der Lnge n von i nach j a ist. Damit haben wir sofort folgenden 11.14 Satz: Sei P eine Ubergangsmatrix auf S. Dann gilt: P ist genau dann irreduzibel, wenn es fr jedes Paar i, j S ein n = n (i, j) N mit u Pn (i, j) > 0 gibt.

136

11 Markov-Ketten mit endlichem Zustandsraum

Beweis: Ist P irreduzibel, so gibt es zu i, j S ein n = n (i, j) und einen Pfad der Lnge n von i nach j mit a Gewicht (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte von Pfaden der Lnge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt a Pn (i, j) > 0. Gibt es zu i, j S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass ein Pfad von i nach j in GP der Lnge n existiert. a Beispiel 11.15: Sei P= Dann ist 1 0 0 1 = P2 = P4 = ... und 0 1 1 0 = P = P3 = P5 = .... 0 1 1 0 .

Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehrigen o Graphen GP leicht erkennen:
1

1 j
1

2 .

Beispiel 11.16: Wir betrachten wieder die Ubergangsmatrix P= aus Beispiel 11.9. Dann ist P2 = womit oenbar n = 2 fr jedes Paar i, j S = u zu zeigen.
1 2 1 4 1 2 3 4

0
1 2

1
1 2

, ausreicht, um die Irreduzibilitt mit dem Satz a

1, 2

Wir werden meist nur irreduzible Ubergangsmatrizen P betrachten!


11.1.2 Die Periode einer Ubergangsmatrix 11.17 Denition: Sei P eine irreduzible Ubergangsmatrix auf S. Die Periode eines Zustands i S ist der grte gemeino same Teiler der Menge {n N | es gibt einen Pfad der Lnge n von i nach i} = {n N | Pn (i, i) > 0} . a Beispiel 11.18: Wir betrachten wieder die Ubergangsmatrix P= 0 1 1 0

a aus Beispiel 11.15. Fr den Zustand i = 1 existieren oenbar Pfade mit Lngen 2,4,6,8,... von i nach u i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Denition auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen. Genauso ist d 2 = 2.

11 Markov-Ketten mit endlichem Zustandsraum

137

Beispiel 11.19: Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist P= 0
1 2

1
1 2

a o Fr i = 1 nden wir oenbar Pfade von i nach i mit den Lngen 2,3,4,5,6 usw., schlielich knnen u o wir im Zustand 2 immer rotieren. Das grte gemeinsame Teiler dieser Menge ist 1, d.h. wir haben d 1 = 1. a o Fr i = 2 gibt es sogar einen Pfad von i nach i mit Lnge 1, weshalb es keinen greren Teiler als u 1 geben kann. Es folgt d 2 = 1. Nach diesen beiden Beispielen kann man schon vermuten: Fr jedes i S ist d(i) gleich. In der Tat ist u diese Aussage stets richtig: 11.20 Satz: Sei P eine irreduzible Ubergangsmatrix auf S. Dann ist die Periode d(i) fr jedes i S gleich. u Beweis: Seien i, j S. Es gengt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) d(j). u Da P irreduzibel ist nden wir einen Weg i ist dann mit |w1 w2 | = r + s. Das zeigt zunchst a d(i) r + s. Ist nun j
w w1

/ j mit |w1 | = r und j


w1 w2

w2

/ i mit |w2 | = r. Insbesondere

/i

(11.2)

/ j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) n. Da dann i
w1 ww2

/i

ein Pfad mit |w1 ww2 | = r + s + n ist, folgt daraus d(i) r + s + n. Mit (11.2) und (11.3) folgt aber d(i) n, was zu zeigen war. Bemerkung 11.21: Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zustnden a auch fr nicht irreduzible Ubergangsmatrizen P denieren, allerdings kann dann d(i) = d(j) fr i = j, u u i, j S gelten. 11.22 Denition: Sei P eine irreduzible Ubergangsmatrix auf S. Wir nennen die Zahl d := d(i), i S beliebig die Periode von P. Nach obigem Satz ist d wohldeniert. 11.23 Denition: Sei P eine irreduzible Ubergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch. Bemerkung 11.24: Zur Bestimmung der Periode d kann man sich also ein i S aussuchen. Gibt es im Ubergangsgraphen GP zum Beispiel eine Schleife der Form
p1 p3 >0

(11.3)

... j
p2

)i Z

so whlt man als Zustand i und hat sofort d = 1. a

138

11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.25: Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen


1 2 1 2 1 2

1 j
1 2

2 j
1 2

3 j
1 2

gegeben ist. Da es oenbar nur Wege gerader Lngen von i nach i fr jedes i S = a u geben kann, ist d = 2. Beispiel 11.26: Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen 6 1 V
1 2 1 2

1, 2, 3, 4

1 2

1 2

1 2

sv
1 2

 3 3

gegeben ist. Dann nden wir fr jedes i S = u folgt.

1, 2, 3

Wege der Lnge 2 und 3, weshalb d = 1 a

11.27 Satz: Seine Ubergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n N mit Pn (i, j) > 0 i, j S gibt. Beweis: Wir wollen die folgende zahlentheoretische Tatsache verwenden: Ist der grte gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler natrlicher Zahlen = 1, so gibt es ein o u k N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M N s.d. jedes m M geschrieben werden kann als m = a1 n1 + ... + ak nk mit Koezienten ai N, i = 1, .., k. Dies sieht man leicht uber die Theorie der Hauptideale ein. Sei 1 S. Da P aperiodisch ist, ist d 1 = 1 und es gibt nach unserer zahlentheoretischen Tatsache ein M N, s.d. fr alle m M ein Weg u 1
w

/ 1 , |w| = m

existiert. Fr #S = N setze nun n := M + 2N . Da P irreduzibel ist, nden wir zu i, j S beliebig einen u Weg w1 /j i mit |w1 | N , indem wir keine Zustnde unntigerweise doppelt besuchen. Genauso existiert auch a o ein Weg w2 /j 1 mit |w2 | N . Gem der Wahl von M nden wir einen Pfad a 1
w

/ 1

11 Markov-Ketten mit endlichem Zustandsraum

139

mit |w| = 2N |w1 | |w2 | + M M . Damit ist i mit |w1 ww2 | = 2N + M , also Pn (i, j) > 0. Ist Pn (i, j) > 0 fr alle i, j S, so folgt aus der Darstellungsformel u Pn+1 (i, j) =
kS w1 ww2

/j

P (i, k) Pn (k, j)

und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Lnge N ist , auch sofort a Pn+1 (i, j) > 0 i, j S. Daher gibt es Wege der Lnge n und n + 1 von 1 nach 1 . Es folgt a d(1) (n + 1) n = 1 und somit d(1) = 1. Daher ist P aperiodisch. Die Irreduzibilitt von P folgt bereits aus Satz 11.14. a

11.2

Markov-Ketten

Von jetzt an werden wir stets ohne Einschrnkung S = {1, ..., N } annehmen. Bisher haben wir in diesem a Zusammenhang unsere Zustnde stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen. a Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist. 11.28 Denition: Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung 0 := (0 (1) , ..., 0 (N )) . 11.29 Denition: Sei P eine Ubergangsmatrix und 0 eine Startverteilung auf S. Eine Markov-Kette zu P mit Startverteilung 0 ist eine Folge X0 , X1 , X2 , X3 , ... von (diskreten) Zufallsvariablen mit Werten in S, s.d. (1) P (X0 = i) = 0 (i) (2) Fr alle Wahlen n 0, 0 k n, in+1 , ..., ink u (Startverteilung) (Markov-Eigenschaft) S mit P (Xn = in , ..., Xnk = ink ) = 0 gilt

P (Xn+1 = in+1 | Xn = in , ..., Xnk = ink ) = P (Xn+1 = in+1 | Xn = in ) = P (in , in+1 ) . Bemerkung 11.30: (1) Xn gibt in diesem Modell den zuflligen Zustand zur Zeit n N an. a (2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen Prozesses X0 , X1 , X2 , ..., dass die Wahrscheinlichkeit fr den nchsten Zustand nur vom jetzigen u a Zustand und nicht von der weiteren Vergangenheit abhngt, wie wir es in der Idee zu Beginn a gefordert haben. Die Forderung P (Xn = in , ..., Xnk = ink ) = 0 ist mathematisch unerlsslich, wir werden sie aber a stets stillschweigend annehmen. Man kann sich nun Fragen, ob es uberhaupt Markov-Ketten gibt (d.h. ob fr jede Ubergangsmatrix und u jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Matheorie beantwortet diese Frage mit ja. Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige Modell fr das zufllige, durch P gesteuerte Wandern auf GP bei zuflligem, durch 0 gesteuertem Start u a a handelt.

140

11 Markov-Ketten mit endlichem Zustandsraum

11.2.1

Drei elementare Wahrscheinlichkeiten von Markov-Ketten

Wir betrachten hier stets einen Markov-Prozess aus Denition 11.29. Bemerkung 11.31 (Pfadwahrscheinlichkeiten): Fr m N und i0 , i1 , ..., im S haben wir u P Xn+m = im , Xn+m1 = im1 , ..., Xn = i0
=:B Markov-Eigenschaft

P (Xn+m = im | B) P (im1 , im ) P (B) .

Daher folgt induktiv


m

P (Xn+m = im , Xn+m1 = im1 , ..., Xn = i0 ) =


=1

P (i1 , i ) P (Xn = i0 ) .

Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist P (X0 = ii ) = 0 (i0 ) durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also genau unseren Wnschen! u Bemerkung 11.32 (m-Schritt Ubergangswahrscheinlichkeiten): Sind i, j S, so erhlt man durch disjunkte Zerlegung von S in seine Elemente sofort a P (Xn+m = j, Xn = i) =
im1 ,...,i1 S Bemerkung 11.31

P (Xn+m = j, Xn+m1 = im1 , ..., Xn+1 = i1 , Xn = i) P (Xn = i) P (i, i1 ) P (i1 , i2 ) ... P (im1 , j)

im1 ,...,i1 S

(11.1)

P (Xn = i) P (i, j) . P (Xn+m = j | Xn = i) = Pm (i, j) .

Insbesondere folgt durch Division des Terms P (Xn = i), dass

Beispiel 11.33: Ist P= 0


1 2

1
1 2

die Ubergangsmatrix aus Beispiel 11.9, so berechnet man P2 =


1 2 1 4 1 2 3 4

, P4 =

3 8 5 16

5 8 11 16

, P10
5 16

0.33398 0.33301 = 0.3125.

0.66602 0.66699

Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) =

Bemerkung 11.34 (Verteilung zur Zeit n): Sei n (j) := P (Xn = j) , j S

die Verteilung von Xn . Dann ist n ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der Formel von der totalen Wahrscheinlichkeit fr jedes j S u n (j) =
(3.2)

P (Xn = j) P (Xn = j | X0 = i) P (X0 = i) Pn (i, j) 0 (i)

iS Bemerkung 11.32

iS

(0 Pn ) (j) ,

11 Markov-Ketten mit endlichem Zustandsraum

141

wobei 0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 N -Matrix) 0 und der N N -Matrix Pn bezeichnet. Das liefert die Formel

n = 0 Pn .
Beispiel 11.35:

(11.4)

Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa 0 = (0, 1), d.h. starten wir mit Sicherheit im Zustand 2, so ist 5 11 4 = 0 P4 = zweite Zeile von P4 = . , 16 16 Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet. 1 u u Ist dagegen 0 = 1 , 2 , was etwa einem Mnzwurf fr den Startzustand entspricht, so ist 2 4 = 0 P4 = 1 1 erste Zeile von P4 + zweite Zeile von P4 = 2 2 11 21 , 32 32 .

Wir werden im nchsten Abschnitt allgemein sehen, dass a n fr jede beliebige Startverteilung 0 gilt! u
n

/ /

1 2 , 3 3

11.3

Invariante Mae und Konvergenzstze a

11.36 Denition: Ist P eine Ubergangsmatrix und eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass P = ist, so nennt man eine invariante Verteilung. Bemerkung 11.37: Der Begri invariant macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt Pn = P Pn1 = Pn1 = ... = . D.h. wenn X0 , X1 , X2 , ... eine Markov-Kette zu P mit der speziellen Startverteilung 0 = ist, so gilt n = n N nach (11.4). 11.38 Satz (Konvergenzsatz): Sei P eine irreduzible und aperiodische Ubergangsmatrix. (1) Dann gibt es genau eine invariante Verteilung zu P. Auerdem konvergieren alle Zeilen von Pn (exponentiell schnell) gegen , d.h. Pn (i, j)
n

/ (j) i S.

(2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung 0 , so gilt n d.h. P (Xn = j)
n n

/ ,

/ (j) fr alle j S. u

142

11 Markov-Ketten mit endlichem Zustandsraum

Beweis: (1) Wir unterteilen den Beweis in zwei Schritte:

Schritt I
Sei j S beliebig aber fest. Wir setzen mj Mj Wegen mj
(n+1) (n)

:= :=

min Pn (i, j) = Minimum der Werte der j en Spalte von Pn ,


iS

(n)

max Pn (i, j) = Maximum der Werte der j en Spalte von Pn .


iS

= =

min Pn+1 (i, j)


iS

min
iS kS

P (i, k) Pn (k, j) P (i, k) mj


kS (n)

min
iS

= mj und Mj
(n+1)

(n)

= =

max Pn+1 (i, j)


iS

max
iS kS

P (i, k) Pn (k, j) P (i, k) Mj


(n)

min
iS

kS

=
(n)

(n) Mj (n)

ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj fallend in n. Unser Ziel ist es nun zu zeigen, dass Mj gilt.
(n)

monoton

mj

(n)

/0

(11.5)

Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L N und ein > 0 gibt, s.d. PL (i, j) i, j S ist. Sei n N zunchst fest. Whle a a ein i0 S mit und ein i1 S mit Sei nun I+ := k S | PL (i1 , k) PL (i0 , k) und I := S \ I+ . Mit dieser Einteilung folgt
kI+

Pn+L (i0 , j) = mj

(n+L)

Pn+L (i1 , j) = Mj

(n+L)

PL (i1 , k) PL (i0 , k) +

kI

PL (i1 , k) PL (i0 , k)

=
kS

PL (i1 , k)

PL (i0 , k)
kS

1 1 = 0.

(11.6)

11 Markov-Ketten mit endlichem Zustandsraum

143

Damit gilt dann Mj


(n+L)

mj

(n+L)

= Pn+L (i1 , j) Pn+L (i0 , j) =


kS

Pn (i1 , k) PL (k, j)

Pn (i0 , k) PL (k, j)
kS

=
kS

PL (i1 , k) PL (i0 , k) Pn (k, j)


=:dk

=
kI+

dk Pn (k, j) +
kI

dk Pn (k, j) ,

und da fr k I+ oenbar dk 0 und fr k I oenbar dk < 0 gilt folgt so u u Mj


(n+L)

mj

(n+L)

(11.6)

d k Mj
kI+

(n)

+
kI

d k mj
(n)

(n)

d k Mj
kI+

(n)

mj

Induktiv folgt also fr jedes m N, dass u Mj


(mL)

Mj

(n)

mj

(n)

kI+ (n)

PL (i1 , k) .

(1 ) Mj

(n)

mj

mj
(n)

(mL)

(1 )

Mj

(0)

mj
1 (n)

(0)

/ 0.

Da wir schon wissen, dass mj Aussage (11.5).

monoton wchst und Mj a

monoton fllt folgt so die behauptete a

Schritt II
Setze nun
n (n) (n)

(j) := lim mj Da die Folgen mj werte. Wegen folgt sofort Pn (i, j)


n

(n)

= lim Mj .
n

(n)

und Mj

beschrnkt (durch [0, 1]) und monoton sind, existieren diese Grenza mj
(n)

Pn (i, j) Mj

(n)

iS

/ (j)

fr alle j S. Nun weisen wir die noch fehlenden Eigenschaften nach: u Wir mssen zeigen, dass ein Wahrscheinlichkeitsvektor ist. Da aber u (Pn (1, j))jS fr jedes n N ein Wahrscheinlichkeitsvektor ist und diese Folge fr n u u vergiert, ist diese Aussage klar. Wir mssen zeigen, dass eine invariante Verteilung fr P ist. Das folgt aus u u P(j) =
kS

/ gegen kon-

(k)P (k, j) n

/
kS

Pn (i, k) (k)P (k, j) = Pn+1 (i, j)

/ (j)

fr jedes j S. u

144

11 Markov-Ketten mit endlichem Zustandsraum

Wir mssen zeigen, dass eindeutig bestimmt ist. Sei dazu eine Wahrscheinlichkeitsveru teilung mit = P. Insbesondere ist dann = Pn fr alle n N und daher gilt fr alle u u jS (j) = (k)Pn (k, j) .
kS

Im Grenzbergang n u

/ ist Pn (k, j) (j) =


kS =1

/ (j), d.h. es folgt (k) (j) = (j)

fr alle j S, was gleichbedeutend mit = ist. u (2) Mit Teil (1) folgt leicht fr jede beliebige Startverteilung 0 und jedes j S u P (Xn = j) =
Bemerkung 11.34

n (j) (0 Pn ) (j) 0 (k)


kS n

Pn (k, j) / / (j)

/ /

(j)
kS

0 (k)
=1

= Das zeigt n Beispiel 11.39: Wir haben schon gesehen, dass die Ubergangsmatrix P= 0
1 2 n

(j).

/ .

1
1 2

aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunchst eine invariante Verteilung , a d.h. ein = ((1), (2)) mit P = . Das liefert das Gleichungssystem 1 (2) 2 1 (1) + (2) 2 = (1) = (2),

woraus nur = (a, 2a) mit einem beliebigen a R folgt. Da allerdings ein Wahrscheinlichkeitsvektor 1 sein soll, muss a + 2a = 1 gelten, d.h. a = 3 . Es folgt, dass = 1 2 , 3 3

die einzige invariante Verteilung zu P ist, was eine Probe leicht besttigt: a P = Mit Satz 11.38 folgt also Pn und P (Xn = 1)
n n

1 2 , 3 3

0
1 2

1
1 2

1 2 , 3 3
2 3 2 3

= .

/ /
n

1 3 1 3

/ 1 , P (Xn = 2) 3

/ /

2 3

fr jede beliebige Startverteilung 0 . u

11 Markov-Ketten mit endlichem Zustandsraum

145

11.40 Hilfssatz: Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix Pk := 1 1 k P+ 1 IN k

fr die N N -Einheitsmatrix IN fr jedes k N2 aperiodisch und irreduzibel. u u Beweis: Laut Satz 11.27 mssen wir zeigen, dass es ein M N gibt, s.d. PM (i, j) > 0 i, j S. u k Da P irreduzibel ist, gibt es gem Satz 11.14 zu jedem Paar i, j S ein n (i, j) mit Pn(i,j) (i, j) > 0. a Setze nun M := max n (i, j) .
i,jS

Sei nun i, j S beliebig. Mit dem binomischen Lehrsatz gilt oenbar


M

PM = k
=0 j da IN = IN und P IN = IN P = P. Also ist M

1 k

1 k M

P ,

PM (i, j) = k
=0

1 k

1 k M

P (i, j)
0

M n (i, j)

1 k

n(i,j)

1 k M n(i,j)

Pn(i,j) (i, j) > 0.

>0

Das zeigt die Behauptung. 11.41 Satz (Invariante Verteilung): Ist P eine irreduzible Ubergangsmatrix, so gibt es genau eine invariante Verteilung zu P. Beweis: Sei wieder ohne Einschrnkung S = {1, ..., N }. a Existenz: Sei IN die N N -Einheitsmatrix. Fr k N2 setze u Pk := 1 1 k P+ 1 IN . k (11.7)

Diese Matrix ist gem Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu a jedem k N2 genau eine invariante Verteilung (k) zu Pk . Da (k) Koordinatenweise durch [0, 1] beschrnkt ist, existiert eine Teilfolge ki s.d. a ki
i

fr eine Wahrscheinlichkeitsverteilung gilt. Diese erfllt dann u u ki = ki Pki . Mit i / in dieser Gleichung folgt = P.

Eindeutigkeit: Ist = P und = P fr zwei Wahrscheinlichkeitsverteilungen , , so folgt insbesondere nach u (11.7), dass was nach Satz 11.38 = zur Folge hat. Der Konvergenzsatz lsst sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses a Ergebnis allerdings nur ohne Beweis angeben:

= P2 = P2 ,

146

11 Markov-Ketten mit endlichem Zustandsraum

Bemerkung 11.42 (Konvergenzsatz f r periodische Matrizen): u Sei d > 1 die Periode der irreduziblen Ubergangsmatrix P. Setze Si (n) := {j S | es gibt einen Pfad der Lnge n von i nach j in S} . a Fr j Si (n) ist dann P (Xn = j) = 0 und es gilt u /
jSi (n)

max |P (Xn = j) d (j)|

/0

exponentiell schnell.

11.4

Ruckkehrzeiten und starkes Gesetz

11.43 Denition: Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N } und i S. Sei Ti die zufllige Zeit ( N), die a vergeht, bis die in i gestartete Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet in i gestartet, dass 0 = ei fr den i-ten karthesischen Einheitsvektor ei gilt. Dann ist u Ti = inf {n 1 | Xn = i} und wir nennen Ti die Rckkehrzeit von i. u Bemerkung 11.44: Beachte, dass {Ti = n} = {Xn = i, .Xn1 = i, ..., X1 = i, X0 = i} . Beispiel 11.45: Betrachte wieder die Ubergangsmatrix P zum Ubergangsgraphen GP aus Beispiel 11.9:
1
1 2

1 j
1 2

2 [

Identiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zuflligen Gre T1 bestimmen. a o 1 n u Oenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 2 fr n 1. Damit folgt E (T1 ) =
n=0

n P (T1 = n) n 1 2
n1

n=2

n=1

(n + 1) 1 2
n

1 2 +

n=1

n=1

1 2
=1

Da die erste Summe dem Erwartungswert einer Zufallsvariablen X Geo d.h. wir haben E (T1 ) = 3.

1 2

entspricht ist ihr Wert = 2,

Fr Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = u E (T2 ) = 1 1 1 3 +2 = . 2 2 2 1 (i)

1 2

ist

Insbesondere sehen wir in diesem Beispiel schon, dass E (Ti ) = fr die zu P invariante Verteilung = u
1 2 3, 3

gilt.

11 Markov-Ketten mit endlichem Zustandsraum

147

11.46 Satz (Positive Rekurrenz - ohne Beweis): Sei P eine irreduzible Ubergangsmatrix und X0 , X1 , ... die zugehrige in i S gestartete Markov-Kette. o Dann gilt: (1) Man kehrt sicher zu i zurck, d.h. u
n=1

P (Ti = n) = 1.

(2) Es ist E (Ti ) =

n=1

P (Ti = n) < .

Ein Teil des Beweises ist Aufgabe 5 des Ubungsblatts 12. Bemerkung 11.47: Ist #S = , so ist der Satz von der positiven Rekurrenz im allgemeinen falsch. 11.4.1 Der R ckkehrzeitensatz u 11.48 Lemma: Sei X0 , X1 , X2 , ... eine Markov-Kette und E S n . Dann gilt fr jedes in+1 , in S u P Xn+1 = in+1 | Xn = in , (X0 , ..., Xn1 ) E = P (Xn+1 = in+1 | Xn = in ) .
=:A =:B =:C

(11.8)

Beweis: Wir zerlegen das Ereignis C disjunkt als C=


kI

Ck

mit Ck s von der Form {X0 = i0 , ..., Xn1 = in1 } fr ein Tupel (i0 , ..., in1 ) E. Nach der Markovu Eigenschaft gilt P (A | B Ck ) = P (A | B) k I, d.h. es folgt P (A B Ck ) = P (A | B) P (B Ck ) k I nach Denition der bedingten Wahrscheinlichkeit. Bilden der Summe uber k I liefert P (A B C) = P (A | B) P (B C) , was per Denition gleichbedeutend mit P (A | B C) = P (A | B) ist - das ist genau die Behauptung. 11.49 Satz (R ckkehrzeitensatz): u Sei P eine irreduzible Ubergangsmatrix und die zugehrige invariante Verteilung. Dann gilt o E (Ti ) = fr jedes i S. u Beweis: Wir betrachten bei Start im Zustand i S die Hilfsfunktion (k) :=
n=0

1 (i)

P (Xn = k, Ti > n) ,

k S.

Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Ubergangsmatrix P und die Zahlen P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber bis zur Zeit n noch nicht wieder in i war.

148

11 Markov-Ketten mit endlichem Zustandsraum

Ohne Einschrnkung nehmen wir wieder S = {1, ..., N } an. Setze dann a := ( (1) , ..., (N )) . Dann gilt
N

(k)
k=1

P (Xn = k, Ti > n)

n=0 k=1

n=0

P (Ti > n)

=
(5.3)

n=1

P (Ti n)

E (Ti )

und diese Zahl ist nach dem Satz uber die positive Rekurrenz oben < . Daher ist 1 = E (Ti ) (N ) (1) , ..., E (Ti ) E (Ti )

ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt. Zur Vorbereitung berechnen wir fr k S, k = i und j S, dass u P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) P (Xn = k, Ti > n) . Verwenden wir nun das Lemma oben fr E = {(i, j1 , ..., jn1 ) S n | j1 , ..., jn1 = i}, so folgt wegen u {Ti > n} = {Xn1 = i, ..., X1 = i, X0 = i} = (X0 , ..., Xn1 ) E, dass P (Xn+1 = j, Xn = k, Ti > n)
(11.8)

P (Xn+1 = j | Xn = k) P (Xn = k, Ti > n) P (k, j) P (Xn = k, Ti > n) .

Man beobachtet schnell, dass diese Gleichung auch fr k = i richtig bleibt:Ist n > 0, so sind zwingend u beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j). 1 Es gengt nun zu zeigen, dass P = ist, der Faktor E(Ti ) braucht nicht beachtet zu werden (da er auf u beiden Seiten auftaucht). Mit obiger Rechnung gilt fr j S: u (P) (j) =
kS n=0 kS

(k) P (k, j) P (Xn = k, Ti > n) P (k, j)

n=0 kS

P (Xn+1 = j, Xn = k, Ti > n)

n=0

P (Xn+1 = j, Ti > n) .

Jetzt unterscheiden wir: Fr j = i erhlt man damit u a (P) (j) =


n=0

P (Xn+1 = j, Ti > n)

n=0

P (Xn+1 = j, Ti > n + 1)

= (j) P (X0 = j, Ti > 0) = (j),

11 Markov-Ketten mit endlichem Zustandsraum

149

und fr i = j erhlt man u a (P) (j) =


n=0

P (Xn+1 = j, Ti > n)

=
Satz 11.46

n=0

P (Ti = n + 1)

1.

Beachte nun noch, dass (i) =


n=0

P (Xn = i, Ti > n) =

n=1

P (Xn = i, Ti > n) + P (X0 = i, Ti > 0) = 1.


=0 =1

1 u a Das zeigt, dass E(Ti ) eine invariante Verteilung fr P ist. Gem Satz 11.41 ist die invariante Verteilung eindeutig, d.h. wir haben 1 (i) = (i). E (Ti )

Wegen (i) = 1 wie oben berechnet folgt daraus die Behauptung. 11.50 Satz (Starkes Gesetz - ohne Beweis): / R eine Funktion. Fr jede Startverteilung 0 gilt u Sei P irreduzible Ubergangsmatrix und sei f : S 4 dann mit Wahrscheinlichkeit 1: Ist x0 , x1 , x2 , ... ein zuflliger Pfad der Markov-Kette X0 , X1 , ... zu P und 0 (d.h. eine Realisierung a dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel E (f ): 1 n
n1

f (xk )
k=0

/ /

f (j)(j).
jS

Dabei bezeichnet die invariante Verteilung zu P. Insbesondere gilt fr A S und f := 1A , dass u 1 # {0 k n 1 | xk A} n


n

/ /

(j) = (A).
jA

D.h. die Anzahl der Besuche in A konvergiert mit Wahrscheinlichkeit 1 fr n u scheinlichkeit von A unter der invarianten Verteilung . Speziell fr A = {i} gilt also u 1 # {0 k n 1 | xk = i} n
n

/ gegen die Wahr-

/ (i).

4 Eine

Konvergenz dieser Art nennt man fast sichere Konvergenz.

150

11 Markov-Ketten mit endlichem Zustandsraum

11.5
11.5.1

Beispiele
Irrfahrt auf ungerichtetem Graphen

In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden. Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S. 11.51 Denition: Fr jede Ecke i S sei u d(i) := # {j S | es gibt eine Kante zwischen i und j} . Beispiel 11.52: Sei G gegeben als

1               1 = 2, d 3

3 Dann ist d 2 )=# 1, 2, 3

4 = 3, d 4 = 1.

= 3, d

Wir wandern nun rein zufllig auf diesem Graphen, in dem wir jeweils gleichverteilt die nchste Ecke a a unter den mit i verbunden Ecken whlen. D.h. a 11.53 Denition: Sei P die N N -Matrix mit P (i, j) = 0
1 d(i)

falls keine Kante zwischen i und j existiert, falls eine Kante zwischen i und j existiert.

Oenbar ist P tatschlich eine stochastische Matrix: a P (i, j) =


jS j{k | es gibt eine Kante zwischen i und k}

d(i) 1 = = 1 i S. d(i) d(i)

11.54 Denition: Wir setzen D :=


iS

d(i).

11.55 Satz: Damit ist (i) := eine invariante Verteilung von P.

d(i) , iS D

11 Markov-Ketten mit endlichem Zustandsraum

151

Beweis: Man berechnet (P) (j) =


iS

(i)P (i, j) 1 d(i) D d(i)

=
i{k | es gibt eine Kante zwischen i und j}

1 # {k | es gibt eine Kante zwischen i und j} D d(j) = D = (j)

fr j S. u Bemerkung 11.56: Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher nicht zwingend eindeutig bestimmt ist. Beispiel 11.57: Wir wollen einen Springer auf einem 4 4-Schachbrett betrachten. Sei dazu S = {(i, j) | 1 i, j 4}. Der zugehrige Graph stellt sich wie folgt dar: o (1,4) (2,4) (3,4) (4,4) // OOOOO // OOOOO ooo  // ooo   o OOO OOOoo // // //  oo ooo  OOO  // // ooooo OOOOO  // ooooo OOO  OOO // / /o  OOO   oo ooo OOO o //  ooooo ///  OOOOO ///  ooo O OOO / // /  ooo  oooo  OOO/ OOO //O OOO // // O    ooo ooo o //OOoooo O // oooo  // OOOO  / o OO //  OOO ooo//  ooo// OOOO oo oo // // // // // (1,3) (2,3) (3,3) (4,3)   // // OOOOO // // OOOOO // ooo  //  ///oooo  // // //    OOOO///  OOOo/o  ooo// oo /  OOO  //  // ooooo OO/OOO  // ooooo // O  // //       //  / /   // OOOO oooo // OOOO oooo //  OOO //  ooooO ///  oOOOO ///  // // /   ooo O  OOO / oooo oooo  // OOO/ // //  //  O/  / o o  /  /  OO  OO // OO ooo / // OO    // // ooooo // /    O /ooooOO // OOOO  // / / // O  OO // o/o     //  OOO /  oooo /   oooo /   O // // // // // / (1,2) (2,2) (3,2) (4,2) OOO  // OOO  // oo  /// oo  OOO / OOO o/oo o  o  o/o  OOO // o  OO / /  oo /// OOO // O  ooo OO/O/OO ooo o o //  // OOOO ooooo // OOOO ooooo   //  Ooo OOO OOO  ooO  // oo // oo //  OOO OOO o o / /    oo oo/o //   OOOOO ooooo ///  OOOOO ooo // o / OO OOO // //    ooo oooOOO OOO // OO  ooooo  ooooo  O (1,1) (2,1) (3,1) (4,1) Aus diesem Graphen lesen wir nun die Gradzahlen d folgenden Tabelle bezeichnet d (i,j) : 2 3 3 2 3 4 4 3 3 4 4 3 2 3 3 2 (i,j) ab. Der Eintrag in der Zelle (i, j) der

152

11 Markov-Ketten mit endlichem Zustandsraum

Damit berechnet man leicht D = 4 (2 + 3 + 3 + 4) = 48 und hat so gem dem Satz die invariante a Verteilung :5
1 24 1 16 1 16 1 24 1 16 1 12 1 12 1 16 1 16 1 12 1 12 1 16 1 24 1 16 1 16 1 24

Daraus erhalten wir nun: (1) Nach dem Rckkehrzeitensatz ist dann zum Beispiel u E T(1,1) = 1 = 24. ((1, 1))

(2) Das starke Gesetz sagt etwa, dass fr einen Springerpfad die relative Hugkeit der Besuche in den u a mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen ({(i, j) | 2 i, j 3}) = 4 konvergiert. (3) Sei P die zugehrige Ubergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist. o Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe (Schwarz / Wei) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zurckziehen u mglich ist, genau Periode d = 2. o (4) Mit Bemerkung 11.42 ist fr groes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben u als 1 1 0 8 0 12 1 0 6 0 1 8 1 1 0 6 0 8 1 1 0 8 0 12 Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springer sich zur Zeit n in der Position (i, j) aufhlt. a 11.5.2 Ehrenfeld-Diusion 1 1 = 12 3

Wir nehmen an, in einem Hrsaal benden sich N Gasmolekle. Wir zerteilen den Hrsaal in die rechte o u o Hlfte H1 und die linke Hlfte H2 . Als Modell nehmen wir an, dass jeweils ein Molekl zufllig ausgewhlt a a u a a wird und dieses dann in die andere Hrsaalhlfte wechselt. o a Sei dazu S = {0, ..., N } , was der Anzahl der Gasmolekle in H1 entsprechen soll. Oenbar muss dann fr die Ubergangsmatrix P u u P (i, i + 1) P (i, i 1) = = N i , N i , N i<N i>1

gelten. Alle ubrigen Eintrge der Matrix sind 0. a Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung zu P gegeben ist durch (i) = D.h. wir haben B N, 1 . 2 Nach dem Rckkehrzeitensatz ist dann zum Beispiel u E (T0 ) = 1 = 2N . (0) N N 2 , i S. i

5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die Matrix ist also irreduzibel!

11 Markov-Ketten mit endlichem Zustandsraum

153

D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmolekle sind, so ist zu erwarten, dass u dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist fr eine Anzahl N von Moleklen reichlich gro! u u Auerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist: Sei N = 10.000. Wegen B 10.000, 1 liefert die Chernov-Ungleichung 2 ({4801, ..., 5199}) 0.9993. Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmolekle sind. u

154

12 Schtzer und statistische Tests a

12

Schtzer und statistische Tests a

Wir beginnen mit einen motivierenden Beispiel. Beispiel 12.1: Wir wollen eine Lebensmittelkontrolle durchfhren. Dazu messen wir die Fllungen von 1-Liter-Flaschen u u nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte 999, 990, 995, 1003, 1001, 991. Diese Messwerte wollen wir im folgenden mit x1 , ..., x6 bezeichnen. Wir knnen uns nun die folgenden o Fragen stellen: (1) Wenn man annimmt, dass die Fllmenge eine N , 2 -verteilte Zufallsvariable ist, wie schtzt u a man dann mittels dieser Messungen den Erwartungswert? Wie schtzt man die Varianz? a Um solche Fragen zu beantworten wollen wir hier kurz ML-Schtzer und erwartungstreue Schtzer a a behandeln. (2) Soll die Kontrolle wegen zu geringer Befllung nach dieser Messung einschreiten? u Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.

12.1

Punktschtzer a
X: / X.

Sei X eine Zufallsvariable (oder ein Zufallsvektor)

Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum. Wir nehmen natrlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass u wir hier P anstelle von P X schreiben. Stattdessen nehmen wir an, dass P in einer Familie P = {P | } von Verteilungen P auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell fr die u mglichen Verteilungen von X. o Beispiel 12.2: Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit. Dann ist X = {0, ..., n} und das statistische Modell ist gegeben als P= B (n, ) | [0, 1] .
=P =

Zu jeder der Verteilungen P gehrt in diesem Fall eine Wahrscheinlichkeitsfunktion o p (x) = n x nx (1 ) , x x = 0, ..., n.

Wir wollen nun aufgrund einer Stichprobe x X (d.h. einer Realisation von X) den Parameter oder allgemeiner eine Funktion g in Abhngigkeit von geschtzt werden. a a 12.3 Denition: u Ein Schtzer fr ist eine Abbildung a t:X / .

u Fr ein konkretes x X heit t(x) dann eine Schtzung fr . u a Die Zufallsvariable T := t (X) wird ebenfalls Schtzer fr genannt. a u Beispiel 12.4: Betrachte wieder das Setting aus Beispiel 12.2. Ist x {0, ..., n} die Stichprobe, so ist t(x) := x n

12 Schtzer und statistische Tests a

155

ein Schtzer fr die Erfolgswahrscheinlichkeit des Bernoulli-Experiments. Nun sollte man sich fragen, a u ob dieser Schtzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen. a Ebenso ist dann 1 T = X n ein Schtzer fr und konkret fr n = 20 und x = 14 ist a u u t(14) = eine Schtzung von . a 12.5 Denition: Sei g eine beliebige Funktion auf . Jede Abbildung t:X u heit Schtzer fr g(). a Beispiel 12.6: Wieder im Setting von Beispiel 12.2 knnen wir versuchen, die Varianz von B (n) zu schtzen, d.h. o a g() = n (1 ) . Ein mglicher Schtzer wre o a a x x x 1 =x 1 . n n n Weiter unten werden wir uns mit der Frage beschftigen, ob dieser Schtzer sinnvoll bzw. gut ist. a a t(x) := n / g () 7 = 0.7 10

Man sollte beachten, dass es im Allgemeinen nicht den Besten Schtzer gibt. Es gibt verschiedene a Verfahren zur Herleitung und verschiedene Gte-Kriterien fr Schtzer. Wir besprechen hier die MLu u a Schtzer und die erwartungstreuen Schtzer, es gibt auerdem noch Risiko-Schtzer, Konsistenz-Schtzer a a a a und viele mehr. 12.1.1 ML-Schtzer a 12.7 Denition: Wir sagen, ein Schtzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt: a Fr jedes x X ist t(x) = ML mit u pML (x) p (x) . Falls wir mit einer diskreten Verteilung P arbeiten, so ist das zugehrige p die entsprechende Wahro scheinlichkeitsfunktion, ist P eine stetige Verteilung, so ist p die entsprechende Dichte. D.h. fr festes x X maximiert t(x) = ML die sogenannte Likelihood-Funktion u Lx () = p (x) uber . Beispiel 12.8: Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als Lx () = n x nx (1 ) . x

Um einen ML-Schtzer fr zu bestimmen ist diese Funktion jetzt fr gegebenes x {0, ..., n} uber a u u [0, 1] zu minimieren. Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton steigend ist6 , nehmen Lx und log Lx im selben ihr Maximum.
6 Wir

betrachten hier stets nur den natrlichen Logarithmus ln = log. u

156

12 Schtzer und statistische Tests a

Beispiel 12.9: Im obigen Beispiel 12.2 ist dann log Lx () = log n + x log + (n x) log (1 ) . x

Um das Maximum dieser Funktion zu bestimmen, dierenzieren wir nach und erhalten so 0 = 0+
x womit = n folgt. Also ist unser Schtzer a !

x nx , 1

n x von oben sogar ein ML-Schtzer fr die Erfolgswahrscheinlichkeit . a u t(x) = 12.1.2 Erwartungstreue Schtzer a

12.10 Denition: Ein Schtzer t fr ist erwartungstreu, wenn a u E (t(X)) = fr alle gilt, d.h.: Ist der wahre Parameter, so ist die (zufllige) Schtzung t(x) zumindest im u a a Erwartungswert gleich . Ganz analog deniert man fr Schtzer von Funktionen: u a 12.11 Denition: Ein Schtzer t fr eine Funktion g in Abhngigkeit von ist erwartungstreu, wenn a u a E (t(X)) = g () fr alle gilt. u Beispiel 12.12: Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schtzer a t(x) = von dort erwartungstreu ist. Beweis: Mit der Linearitt des Erwartungswertes gilt a E (t (X)) = E Es folgt die Behauptung. Beispiel 12.13: Im selben Beispiel 12.2 sei nun n 2. Dann ist t(x) = x 1 x n X n = 1 1 E (X) = n = . n n x n

ein ML-Schtzer fr die Varianz, denn schlielich haben wir dort einfach den ML-Schtzer fr in die a u a u

12 Schtzer und statistische Tests a

157

Varianz-Formel n (1 ) eingesetzt. Allerdings ist er nicht erwartungstreu: E (t(X)) = E X 1 = E (X) = n X n

1 E X 2 n

1 2 V (X) + (E (X)) n 1 = n n (1 ) + n2 2 n = (n 1) (1 ) = n1 n (1 ) . n
=1 =g()=V (X)

Allerdings sehen wir an dieser Berechnung schon, dass n x n t(x) = x 1 n1 n1 n ein erwartungstreuer Schtzer fr die Varianz ist. a u Z.B. fr n = 2 ist die Abweichung zwischen diesen beiden Schtzern deutlich: Ist der wahre Parameter u a 1 = 2 , so ist 1 n1 (1 ) = , E (t(X)) = 4 obwohl die tatschliche Varianz a
1 2

betrgt. a

Wir wollen nun eine allgemeinere Situation betrachten: Seien X1 , ..., Xn unabhngige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variaa blen. Deniere als Stichprobenraum X=

X
=1

= X1 ... X1 .
nmal

Betrachte dazu das statistische Modell P= P ... P | ,


=:P

wobei jedes P eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist. Beispiel 12.14: Sei etwa oder P {B (1, ) | 0 1} P N , 2 | R, 2 > 0 .

Wir wollen im zweiten Fall := , 2 setzen. (1) Wir wollen zuerst einen Schtzer fr den Erwartungswert E (X1 ) von P herleiten. a u 12.15 Lemma: Der Schtzer a t (x1 , ..., xn ) := ist erwartungstreu fr E (X1 ). u 1 n

xi = x
i=1

158

12 Schtzer und statistische Tests a

Beweis: Man berechnet E (t (X1 , ..., Xn )) = E 1 n


n

1 n

Xi
i=1

E (Xi )
i=1

= E (X1 ) . Das zeigt die Behauptung. Beispiel 12.16: In Beispiel 12.1 wre also a 1 6 eine erwartungstreue Schtzung fr . a u (2) Jetzt wollen wir einen Schtzer fr die Varianz V (X1 ) von P herleiten. Sei dazu wieder a u x := Berechne nun
n n n n 6

xi = 996.5
i=1

1 n

xi .
i=1

i=1

(xi x)

=
i=1 n

x2 2 i

xi x +
i=1 i=1

x2

=
i=1 n

x2 2n2 + n2 x x i x2 n () x i
2

=
i=1

(12.1)

und E x2 = n 1 E Xi Xj n2 i,j=1 1 n2
n

1 E (Xi Xi ) + 2 n i=1
n

i,j=1 i=j

E (Xi Xj )

Unabhngigkeit a

1 1 2 nE X1 + 2 2 n n

i,j=1 i=j

E (Xi ) E (Xj ) (12.2)

= Jetzt knnen wir zeigen: o 12.17 Lemma: Der Schtzer a

n1 1 2 2 E X 1 + (E (X1 )) . n n

S 2 (x1 , ..., xn ) =

1 n1

i=1

(xi x)

ist ein erwartungstreuer Schtzer fr die Varianz. Er wird auch Stichprobenvarianz genannt. a u

12 Schtzer und statistische Tests a

159

Beweis: Es gilt
n

E
i=1

(Xi x)

(12.1)

E
i=1

2 Xi n2 x 2

(12.2)

2 2 nE X1 E X1 + (n 1) (E (X1 )) 2 (n 1) E X1 (E (X1 )) 2

= = Das zeigt die Behauptung.

(n 1) V (X1 ) .

Beachte den Unterschied zur empirischen Varianz 1 (x1 , ..., xn ) = n


2 n

i=1

(xi x) .

/ . Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n 2 2 als Schtzer f r die Standardabweichung a u In der Praxis wird S als Schtzer fr die Varianz und S a u verwendet. Beispiel 12.18: In Beispiel 12.1 wre also a S 2 (x1 , ..., x6 ) = 1 5
6

i=1

(xi x) =

1 5

i=1

(xi 996.5) = 28.7

eine erwartungstreue Schtzung fr 2 . Entsprechend schtzen wir als 28.7 5.357. a u a Die Schtzung der Parameter , 2 von N , 2 wrde in unserem Fall also a u = 996.5 und 2 = 28.7 liefern.

12.2

Statistische Tests

Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschftigen, ob aufgrund dieser Stichproben die a Kontrolle eingeschaltet werden sollte. Dazu beschftigen wir uns allgemein mit statistischen Tests: a Sei X ein Stichprobenraum und P = {P | } ein statistisches Modell fr die mglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X u o mit Werten in X. Seien nun 0 und 1 zwei disjunkte Teilmengen. 12.19 Denition: Die Aussage H0 : 0 nennen wir Hypothese und die Aussage H1 : 1 nennen wir Alternative. Beispiel 12.20: In Beispiel 12.1 wre a P= N , 2
=

| 0, 2 > 0

160

12 Schtzer und statistische Tests a

das statistische Modell fr die mglichen Verteilungen der Befllung. Die Aussage kein Betrug entu o u sprche dann der Hypothese a H0 : 0 := , 2 | = 1000, 2 > 0

a und die Aussage Betrug entsprche der Alternative H1 : 1 := 12.21 Denition: Das Entscheidungsproblem H0 : 0 gegen H1 : 1 heit Testproblem. 12.22 Denition: Ein Test ist eine Abbildung :X / {0, 1} , wobei (x) = 1 bedeutet, dass die Hypothese verworfen wird und (x) = 0 bedeutet, dass die Hypothese nicht verworfen wird. Die Menge {x X | (x) = 1} heit Verwerfungsbereich. Bemerkung 12.23: Als Hypothese sollte man stets die Annahme whlen, deren Verwerfung die greren Konsequenzen hat a o - wie vor Gericht die Unschuldsvermutung. Der Grund dafr ist, dass durch (statistische) Tests stets nur u der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird. Beim Test eines neuen Prototypen wrde man als Hypothese also das bisherige Produkt ist besser u verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss. 12.24 Denition: Sei ein Test. Wir denieren die Gtefunktion : u / [0, 1] von durch , 2 | < 1000, 2 > 0 .

() := P ((x) = 1) , d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen. Fr 0 ist () dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung u 12.23). Das primre Ziel bei statistischen Tests ist es nun, den Fehler erster Art fr alle 0 zu kontrollieren! a u 12.25 Denition: Sei ein Test. Wir nennen einen Test zum Niveau [0, 1], wenn
0

sup ()

ist, d.h. wenn fr alle 0 die Wahrscheinlichkeit eines Fehlers erster Art durch beschrnkt ist. u a 12.26 Denition: 1 Ist ein Test zum Niveau = 20 = 0.05 und x X eine Stichprobe mit (x) = 1 (d.h. wenn wir aufgrund dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signikanten Ergebnis. Bei =
1 100

= 0.01 sprechen wir von einem hoch-signikanten Ergebnis.

Wir wollen im folgenden zwei Arten von Tests fr Normalverteilungen besprechen. u

12 Schtzer und statistische Tests a

161

12.2.1

Der einseitige Gautest

Dieser Test wird durchgefhrt, wenn die Varianz bekannt ist. u Beispiel 12.27: Wissen wir also etwa in Beispiel 12.1, dass die Fllmaschine eine Standard-Abweichung von 0 = 5 hat, u so knnen wir den nun folgenden Gautest verwenden. Beachte, dass dann = {(, 25) | 0} ist und o unsere Hypothese ( kein Betrug) genau = 0 = 1000 entspricht. Die Alternative ( Betrug) ist dann < 0 = 1000. Wir wollen nun in Abhngigkeit von a x= 1 n
n

xi
i=1

entscheiden. Als Verwerfungsbereich wollen wir beim Gautest ein Intervall (, z) mit einem noch zu bestimmenden z whlen, d.h. es soll (x) = 1 sein genau dann, wenn x < z gilt. a Wir werden hier jetzt beispielhaft an unserem Fllmengenbeispiel z so bestimmen, dass der zugehrige u o Test das Niveau 0.05 hat. Seien X1 , ..., Xn die zuflligen Mewerte und sei wie immer a 1 X= n
n

Xi .
i=1

Es ist z so zu bestimmen, dass unter der Hypothese = 0 gilt: P0 X < z 0.05.


2 Unter der Hypothese = 0 gilt Xi N 0 , 0 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass

X 0
0 n

N (0, 1) . z 0
0 n =:y

Damit haben wir P0 X < z = P0

X 0
0 n N (0,1)

<

0.05.

Wir mssen also ein y nden, s.d. u (y) = 0.05 fr die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall, u wenn (y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so y = 1.645, womit ist. Beispiel 12.28: In Beispiel 12.1 wre dementsprechend a 0 5 z = 0 + (1.645) = 1000 1.645 996.64. n 6 Wegen x = 996.5 wrden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung u machen! 0 z = 0 + (1.645) n

162

12 Schtzer und statistische Tests a

12.2.2

Der t-Test

Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen. In unserem Beispiel 12.1 wollen wir hier also H0 : 0 = gegen H1 : 1 = testen. Als Testgre kann man jetzt nicht o , 2 | < 0 = 1000, 2 > 0 , 2 | = 0 = 1000, 2 > 0

X 0
0 n

nutzen, da man 0 nicht kennt. Die Lsung fr dieses Problem ist denkbar einfach: Man schtzt 0 uber o u a S= S2 = 1 n1
n

i=1

2 Xi X ,

wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Schtzer fr 0 ist! a u Nach dieser Schtzung nutzt man dann a P X<z =P X 0
S n =Y

<

z 0
S n

und man kann zeigen, dass Y tn1 gilt. Die Verteilung tn1 ist dabei unabhngig von 2 , d.h. von der a wahren Varianz. Die Dichte zu tn1 sieht der Dichte von N (0, 1) sehr hnlich und in gewissem Sinne gilt a / n / N (0, 1). Die Verteilungsfunktion Ft der Verteilung tn1 ist ebenso wie tabelliert. tn1 n1 Jetzt kann man genauso wie beim Gautest vorgehen und entsprechend ein y mit Ftn1 (y) = 0.95 suchen. Beispiel 12.29: In Beispiel 12.1 betrachten wir n = 6, also t5 . Es folgt aus der Tabelle y = 2.015 und damit 5.3572 S 995.593. z = 0 + (2.015) = 1000 2.015 n 6 In diesem Fall wrden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten! u

A Tabelle der Standardnormalverteilung

163

Tabelle der Standardnormalverteilung


x

Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion (x) =

1 t2 exp 2 2

dt

der Standard-Normalverteilung geben. Da (x) = 1 (x) , sind nur positive Werte angegeben:
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 0.00 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462 0.725747 0.758036 0.788145 0.815940 0.841345 0.864334 0.884930 0.903199 0.919243 0.933193 0.945201 0.955435 0.964070 0.971284 0.977250 0.982136 0.986097 0.989276 0.991802 0.993790 0.995339 0.996533 0.997445 0.998134 0.998650 0.999032 0.999313 0.999517 0.999663 0.999767 0.999841 0.999802 0.999928 0.999952 0.01 0.503989 0.543795 0.583166 0.621719 0.659097 0.694974 0.729069 0.761148 0.791030 0.818589 0.844752 0.866500 0.886860 0.904902 0.920730 0.934478 0.946301 0.956367 0.964852 0.971933 0.977784 0.982571 0.986447 0.989556 0.992024 0.993963 0.995473 0.996636 0.997523 0.998193 0.998694 0.999064 0.999336 0.999533 0.999675 0.999776 0.999847 0.999896 0.999930 0.999954 0.02 0.507978 0.547758 0.587064 0.625516 0.662757 0.698468 0.732371 0.764238 0.793892 0.821214 0.846136 0.868643 0.888767 0.906582 0.922196 0.935744 0.947384 0.957284 0.965621 0.972571 0.978308 0.982997 0.986791 0.989830 0.992240 0.994132 0.995603 0.996736 0.997599 0.998250 0.998736 0.999096 0.999359 0.999550 0.999687 0.999784 0.999853 0.999900 0.999933 0.999956 0.03 0.511967 0.551717 0.590954 0.629300 0.666402 0.701944 0.735653 0.767305 0.796731 0.823814 0.848495 0.870762 0.890651 0.908241 0.923641 0.936992 0.948449 0.958185 0.966375 0.973197 0.978822 0.983414 0.987126 0.990097 0.992451 0.994297 0.995731 0.996833 0.997673 0.998305 0.998777 0.999126 0.999381 0.999566 0.999698 0.999792 0.999858 0.999904 0.999936 0.999958 0.04 0.515953 0.555670 0.594835 0.633072 0.670031 0.705402 0.738914 0.770350 0.799546 0.826391 0.850830 0.872857 0.892512 0.909877 0.925066 0.938220 0.949497 0.959071 0.967116 0.973810 0.979325 0.983823 0.987455 0.990358 0.992656 0.994457 0.995855 0.996928 0.997744 0.998359 0.998817 0.999155 0.999402 0.999581 0.999709 0.999800 0.999864 0.999908 0.999938 0.999959 0.05 0.519939 0.559618 0.598706 0.636831 0.673645 0.708840 0.742154 0.773373 0.802338 0.828944 0.853141 0.874928 0.894350 0.911492 0.926471 0.939429 0.950529 0.959941 0.967843 0.974412 0.979818 0.984222 0.987776 0.990613 0.992857 0.994614 0.995975 0.997020 0.997814 0.998411 0.998856 0.999184 0.999423 0.999596 0.999720 0.999807 0.999869 0.999912 0.999941 0.999961 0.06 0.523922 0.563559 0.602568 0.640576 0.677242 0.712260 0.745373 0.776373 0.805106 0.831472 0.855428 0.876976 0.896165 0.913085 0.927855 0.940620 0.951543 0.960796 0.968557 0.975002 0.980301 0.984614 0.988089 0.990863 0.993053 0.994766 0.996093 0.997110 0.997882 0.998462 0.998893 0.999211 0.999443 0.999610 0.999730 0.999815 0.999874 0.999915 0.999943 0.999963 0.07 0.527903 0.567495 0.606420 0.644309 0.680822 0.715661 0.748571 0.779350 0.807850 0.833977 0.857690 0.878999 0.897958 0.914656 0.929219 0.941792 0.952540 0.961636 0.969258 0.975581 0.980774 0.984997 0.988396 0.991106 0.993244 0.994915 0.996207 0.997197 0.997948 0.998511 0.998930 0.999238 0.999462 0.999624 0.999740 0.999821 0.999879 0.999918 0.999946 0.999964 0.08 0.531881 0.571424 0.610261 0.648027 0.684386 0.719043 0.751748 0.782305 0.810570 0.836457 0.859929 0.881000 0.899727 0.916207 0.930563 0.942947 0.953521 0.962463 0.969946 0.976148 0.981237 0.985371 0.988696 0.991344 0.993431 0.995060 0.996319 0.997282 0.998012 0.998559 0.998965 0.999264 0.999481 0.999638 0.999749 0.999828 0.999883 0.999922 0.999948 0.999966 0.09 0.535856 0.575345 0.614092 0.651732 0.687933 0.722405 0.754903 0.785236 0.813267 0.838913 0.862143 0.882977 0.901475 0.917736 0.931888 0.944083 0.954486 0.963273 0.970621 0.976705 0.981691 0.985738 0.988989 0.991567 0.993613 0.995201 0.996427 0.997365 0.998074 0.998605 0.998999 0.999289 0.999499 0.999650 0.999758 0.999835 0.999888 0.999925 0.999950 0.999967

x 0,

Dabei ist der Eintrag in der Zelle (i, j) genau (i + j). Hier nochmal der Graph: 0.8 0.6 0.4 0.2 4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

Abbildung 24: Die Verteilungsfunktion der Standardnormalverteilung.

B
B.1

Kenngroen der wichtigsten Verteilungen


Diskrete Verteilungen
Verteilung Laplace Benoulli Binomial Parameter N N p [0, 1] p [0, 1], n N N, R N, N R, n N >0 p [0, 1] p [0, 1], r N Poi () Geo (p) B (1, p) B (n, p) Bezeichnung X () {1, ..., N } {0, 1} {1, ..., n} {0, ..., n} N0 N N0
n k k

164

P (X = k) fr k X () u
1 N

Erwartungswert
N +1 2

Varianz
N 2 1 12

pk (1 p)
R k

1k nk

p np
R nN

p (1 p) n p (1 p)
R) R n N (NN N n N 1

p (1 p) ( )( ) ( )
N R nk N n

Hypergeometrisch Poisson Geometrisch Negativ-Binomial

exp () k! p (1 p)
r+k1 k

1 p k

1p p2

k1

pr (1 p)

1p p

r 1p p2

B Kenngren der wichtigsten Verteilungen o

B Kenngren der wichtigsten Verteilungen o

B.2

Stetige Verteilungen
Verteilung Gleichverteilung Normalverteilung Parameter a<b R, > 0 >0 r, (0, ) nN (0, ) Bezeichnung U (a, b) N , 2 Exp () Gamma (r, ) 2 = Gamma n Pareto()
n 1 2, 2

Wahrscheinlichkeitsdichte f (t) = f (t) =


1 ba 1[a,b] (t)

Erwartungswert
b+a 2

Varianz
(ba)2 12

1 2 2

exp (t) 2 2

1 r

1 2 r 2

Exponentialverteilung Gammaverteilung Chi-Quadrat-Verteilung Paretoverteilung Cauchyverteilung

f (t) = exp (t) 1(0,) (t) f (t) = f (t) =


r r1 (r) t
n

exp (t) 1(0,) (t)


t exp 2 1(0,) (t)

2 2 n 1 t2 ( n ) 2

n
1 1

2n
2

f (t) =

1 (t) (t+1)+1 (0,) 1 (1+t2 )

falls 1 falls > 1

2 (1)2

falls > 2 falls 2

f (t) :=

existiert nicht

existiert nicht

165

166

Stichwortverzeichnis

Stichwortverzeichnis
-Algebra, 100, 102, 114 Borelsche, 102, 114 triviale, 100 3-Tren-Problem, 52 u Abbildung mebare, 101 Bayes Formel von, 36 bedingte Erwartung, 82 Bernoulli -Experiment, 45 Bernstein Ungleichung, 74 Binomialkoezient, 24 Binomialverteilung, siehe Verteilung Blockungslemma, 54, 119 Borelsche -Algebra, 102, 114 Cauchyverteilung, siehe Verteilung Chernov Ungleichung, 76 Chi-Quadrat-Verteilung, siehe Verteilung de Moivre-Laplace Grenzwertsatz von, 96 de Morgansche Regeln, 9 Dichte, 104, 115 der Standardnormalverteilung, 96 gemeinsame, 115 Produktdichte, 115 Transformationsformel, 109 Ereignis, 7 bedingte Wahrscheinlichkeit, 33 sicheres, 7 Unabhngigkeit, 31, 32 a unmgliches, 7 o Verknpfungen, 7 u Ergebnis, 7 Erwartungswert, 60 bedingter, 82 eines Zufallsvektors, 122 Jensensche Ungleichung, 126 Linearitt, 63, 117 a Produktformel, 64 Trafoformel, siehe Transformationsformel Experiment n-stuges, 39 Exponentialverteilung, siehe Verteilung Fchermodell, 22 a Faltung, 120 Formel Mulitplikationsformel, 34 von Bayes, 36 von der totalen Wahrscheinlichkeit, 36 Funktion erzeugende, 87 Gamma-, 108 rechtstetig, 102 Galton-Watson-Prozess, 92 Gammaverteilung, siehe Verteilung Gausche Glockenkurve, 96 geometrische Verteilung, siehe Verteilung Gleichverteilung, siehe Verteilung diskrete, 11 Graph Pfad, 134 Gewicht, 135 Lnge, 135 a Weg, 134 Grundraum diskreter, 7 Hoeding Ungleichung, 76 Indikatorvariable, 50 Korellationskoezient, 85 Korrelation negative, 86 positive, 86 Kovarianz eines Zufallsvektors, 123 Laplace-Raum, 11 Laplace-Verteilung, 11 Markov-Kette, 139 Ubergangsgraph, 134 irreduzibel, 135 Ubergangsmatrix, 133 aperiodisch, 137 irreduzibel, 135 Periode, 137 in i gestartete, 146 Konvergenzssatz, 141 Markov-Eigenschaft, 139 Rckkehrzeit, 146 u Rckkehrzeitensatz, 147 u Satz von der invarianten Verteilung, 145 Satz von der positiven Rekurrenz, 147 starkes Gesetz, 149 Startverteilung, 139 stochastische Matrix, 133 Verteilung invariante, 141 Zustand Periode, 136 Zustandsmenge, 133 Markov-Ungleichung, 72 Menge Komplement, 9 Multinomialkoezient, 25 Multinomialverteilung, siehe Verteilung negative Binomialverteilung, siehe Verteilung

Stichwortverzeichnis

167

Normalapproximation, 98 Normalverteilung, siehe Verteilung Paretoverteilung, siehe Verteilung Polyasches Urnenmodell, 39 relative Hugkeit, 8 a Satz Abelscher Grenzwertsatz, 88 Binomischer Lehrsatz, 24 Grenzwertsatz von de Moivre-Laplace, 96 Konvergenzsatz fr Markov-Ketten, 141 u Poisson-Grenzwert, 59 Rckkehrzeitensatz, 147 u von der invarianten Verteilung, 145 von der iterierten Erwartung, 82 von der positiven Rekurrenz, 147 Zentraler Grenzwertsatz, 127 Fehlerabschtzung nach Berry-Esseen, 131 a Schtzer, 154 a erwartungstreuer, 156 ML-, 155 Schtzung, 154 a Schwaches Gesetz groer Zahlen, 73 Siebformel, 15 Bonferroni-Ungleichungen, 19 von Poincare-Sylvester, 15 Simpson-Paradoxon, 37 Spiegelungsprinzip, 29 Stichprobe Stichprobenvarianz, 158 Stichprobenraum, 154 Stimmzettelproblem, 28 System dynamisches, 93 Grenzwert, 93 Test, 160 t-, 162 Alternative, 159 Fehler erster Art, 160 Gtefunktion, 160 u Gau-, 161 hoch-signikantes Ergebnis, 160 Hypothese, 159 signikantes Ergebnis, 160 Testproblem, 160 Verwerfungsbereich, 160 zum Niveau , 160 Transformationsformel, 62, 112, 116 Tschebyschow-Ungleichung, 72 Ungleichung Bernstein-, 74 Bonferroni, 19 Boolesche, 10, 20 Chernov-, 76 Hoeding-, 76 Markov, 72 SGGZ, siehe Schwaches Gesetz groer Zahlen Tschebyschow, 72 Urnenmodell, 22

Varianz, 65, 113 empirische, 159 Rechenregeln, 66 Stichprobenvarianz, 158 Verteilung, 100 k-dimensionale Randverteilung, 51 n-dimensionale Normalverteilung, 122 n-dimensionale Std.-Normalverteilung, 122 a-posteriori, 42 a-priori, 42 austauschbare, 40 bedingte, 80 Binomialverteilung, 27 Cauchy-, 108 Chi-Quadrat, 108 einer Zufallsvariable, 48 Exponential-, 106 Gedchtnislosigkeit, 107 a Faltung, 77 Gamma-, 108 gemeinsame, 50 geometrische, 46 Gleichverteilung, 105 hypergeometrische, 27 Marginalverteilung, 51 Multinomialverteilung, 45 negative Binomialverteilung, 47 Normalverteilung, 106 ausgeartete, 124 nicht ausgeartete, 124 Pareto-, 107 Produktverteilung, 115 Standard-Normalverteilung, 96, 106 stetige, 104 Verteilungsfunktion, 102 Standardnormalverteilung, 96 Verzweigungsprozess, 92 Aussterbewahrscheinlichkeit, 92 Vitali-Menge, 101 Vorhersager linearer, 86 Wahrscheinlichkeit bedingte, 33 Multiplikationsformel, 34 Wahrscheinlichkeitsfunktion, 13 bedingte, 80 Wahrscheinlichkeitsraum, 100 diskreter, 8 Laplace-Raum, 11 Produkt, 43 Wahrscheinlichkeitsverteilung, 100 Waldsche Identitt, 83, 91 a Ziegenproblem, 52 zufllige Summe a erzeugende Funktion, 90 Zufallsexperiment, 6 Zufallsvariabel standardisierte, 95 Zufallsvariable, 48, 101 j-tes faktorielles Moment, 88

168

Stichwortverzeichnis

k-tes Moment, 113 k-tes zentrales Moment, 66 bedingte Erwartung, siehe bedingte Erwartung Bernoulli-verteilte, 56 Binomial-verteilte, 56 Poisson-Approximation, 59 drittes zentrales Moment, 127 Erwartungswert, siehe Erwartungswert Funktion von Zufallsvariablen, 53 gemeinsame Dichte, 115 geometrisch verteilte, 57 Gedchtnislosigkeit, 57 a gleichverteilte, 56 Kovarianz, 66 Laplace-verteilte, 56 Poisson-verteilte, 58 reelle, 102 Standardabweichung, 65 stetig verteilte, 105 Erwartungswert, 111 Unabhngigkeit, 51, 83, 117 a unkorreliert, 69, 119 Varianz, siehe Varianz Verteilung, 48, 101 bedingte, 80 Faltung, 77 Wahrscheinlichkeitsfunktion bedingte, 80