Kirsten Bolze
Gttingen, bolze@math.uni-goettingen.de
o
Frank Werner
Gttingen, fwerner@math.uni-goettingen.de
o
Inhaltsverzeichnis
Inhaltsverzeichnis
Inhaltsverzeichnis
Literatur
Vorwort
1 Grundbegrie
1.1 Einfhrung . . . . . . . . . . . . . . . . . . .
u
1.1.1 Mengentheoretische Verknpfungen . .
u
1.1.2 Relative Hugkeiten . . . . . . . . .
a
1.1.3 Axiomatik nach Kolmogoro (1939) .
1.2 Laplace Experimente . . . . . . . . . . . . . .
1.3 Allgemeine diskrete Wahrscheinlichkeitsrume
a
1.4 Siebformeln . . . . . . . . . . . . . . . . . . .
1.4.1 Allgemeine Siebformeln . . . . . . . .
1.4.2 Die Bonferroni-Ungleichungen . . . . .
1.4.3 Anwendung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
7
7
8
8
11
13
15
15
17
20
2 Kombinatorik
2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . .
2.1.1 Ziehen mit Zurcklegen (Binomialverteilung) . . . . . . .
u
2.1.2 Ziehen ohne Zurcklegen (Hypergeometrische Verteilung)
u
2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
26
26
27
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
33
38
40
43
45
4 Zufallsvariablen, Verteilungen
4.1 Zufallsvariablen . . . . . . . . . . . . . . . .
4.1.1 Unabhngigkeit von Zufallsvariablen
a
4.2 Verteilungen . . . . . . . . . . . . . . . . . .
4.2.1 Eigenschaften der Possionverteilung
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
und -funktionen
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
51
56
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
60
62
64
65
69
72
72
73
74
77
77
78
78
80
82
82
83
84
85
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
.
.
.
.
87
92
92
92
92
95
95
98
99
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
100
100
102
104
105
105
106
106
107
108
108
108
111
114
117
122
125
125
126
127
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
133
133
135
136
139
140
141
146
147
150
150
152
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
154
154
155
156
159
161
162
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
Literatur
Literatur
[Dehling/Haupt] Herold Dehling, Beate Haupt : Einfhrung in die Wahrscheinlichkeitstheorie und
u
Statistik
Springerverlag Berlin, 1. Auage 2007, 306 Seiten, ISBN: 3-540-20380-X
[Krengel] Ulrich Krengel: Einfhrung in die Wahrscheinlichkeitstheorie und Statistik
u
Viewegverlag, 8. Auage 2005, 257 Seiten, ISBN: 3-834-80063-5
Vorwort
Vorwort
Dieses Skript ist unter einigem Arbeitsaufwand whrend der Vorlesung Grundlagen der Stochastik von
a
einem Wrfel eine 6 oder bei 24 Wrfen mit zwei Wrfeln eine Doppel-6 zu haben?
u
u
u
Der Begri der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprgt.
a
Die axiomatische Einfhrung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogou
ro.
Heutzutage ndet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualittskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Prmien oder
a
a
in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse.
In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus
Prognosen fr die Daten gettigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geu
a
prft und neue Modelle geschaen werden.
u
Es handelt sich hierbei ausdrcklich nur um eine studentische Mitschrift, nicht um ein oziell vom Dou
zenten herausgegebenes Skript. Trotz groer Anstrengungen sind sicherlich einige Fehler mathematischer
wie auch sprachlicher Natur im Skript verblieben, was hoentlich nicht allzu groe Schwierigkeiten fr
u
das Verstndnis aufwerfen wird.
a
Gttingen, 2. Oktober 2013
o
Kirsten Bolze, Frank Werner
1 Grundbegrie
Motivation
Zur Motivation wollen wir zwei Beispiele fr stochastische Modelle angeben.
u
Europische Call-Option
a
Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen
zu knnen. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?
o
Eine mgliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines
o
stochastischen Modells zur Entwicklung der Preisentwicklung gegeben:
=
t1
k
S(0)
() =
x2
1
exp
2
2
dx
Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Fr jedes Wort wi in der deutschen Sprache
u
sei Wi das Ereignis
w wurde gesprochen
i
Gesucht ist nun das Wort wi , das der Sprecher tatschlich gesagt hat, d.h. mit unserem Modell das
a
Wort wi , fr welches
u
P (wi | A)
am grten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.A. durchlaufen,
o
um alle Wrter der deutschen Sprache abzudecken.
o
Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet fr jedes (!) i mit Hilfe stochastiu
scher Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zustzlich
a
die relative Hugkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen
a
wir die Bayes-Formel
P (A | wi ) P (Wi )
P (wi | A) = 100.000
P (A | wk ) P (Wk )
k=1
Der Nenner dieses Ausdrucks hngt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn
a
P (A | wi ) P (Wi ) maximal ist.
Grundbegrie
1.1 Denition:
Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist.
Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.
1 Grundbegrie
1.1
Einfuhrung
1.2 Denition:
a
Ein diskreter Grundraum = {1 , 2 , ...} ist eine nicht leere, abzhlbare (oder endliche) Menge.
Ein Element nennen wir Ergebnis, eine Teilmenge A ein Ereignis.
Beispiel 1.3:
Fr einen Wrfelwurf mit einem Wrfel wre = {1, 2, 3, 4, 5, 6}. 5 entspricht dann dem Ergebnis
u
u
u
a
5 wurde geworfen und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gewrfelt.
u
1.4 Denition:
Sei ein diskreter Grundraum. Wir nennen
das sichere Ereignis und
das unmgliche Ereignis.
o
1.1.1
Mengentheoretische Verknpfungen
u
Beispiel 1.5:
Wir betrachten einen zweifachen Wrfelwurf. Ein geeigneter Grundraum hier ist
u
2
Ai
iN
Ai
iN
Man kann sich mittels Venn-Diagrammen gut Verknpfungen von Ereignissen verdeutlichen.
u
1.7 Denition:
Sei ein diskreter Grundraum und seien Ai , i N paarweise disjunkte Ereignisse, d.h.
i = j Ai Aj =
Dann schreiben wir auch
Ai =:
iN
Ai
iN
1 Grundbegrie
1.1.2
Relative Hugkeiten
a
Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafr sind sogenannte
u
relative Hugkeiten:
a
1.8 Denition:
Sei 0 ein diskreter Grundraum. Die relative Hugkeit eines Ereignisses A 0 in einer Folge von
a
Relationen 1 , 2 , ..., n aus gleichwertigen Experimenten ist deniert als
rn (A) :=
1
# {j = 1, ..., n | j A}
n
Beispiel 1.9:
Bei 300 Wrfen einer Reizwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1
u
das Ergebnis Spitze nach oben und 0 das Ergebnis Kopf nach oben. Dann ist
300
:= {0, 1}
ein geeigneter Grundraum fr dieses Experiment. Auerdem setzt man 0 := {0, 1} als den Grundraum
u
fr einen einfachen Wurf der Reizwecke fest. Entsprechend ist fr n = 300 also
u
u
= n
0
und es gilt rn ({1}) =
1
300
124.
Wir wollen nun einige oensichtliche Eigenschaften relativer Hugkeiten in einem Lemma festhalten:
a
1.10 Lemma:
Es gelten die folgenden Relationen:
0 rn (A) 1 A 0 .
rn (0 ) = 1.
rn (A + B) = rn (A) + rn (B) f r A, B mit A B = .
u
/ gegen die Wahrscheinlichkeit P (A)
Die Idee ist nun, dass die relativen Hugkeiten rn (A) fr n
a
u
eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die
relativen Hugkeiten fr immer grer werdendes n stabilsieren. Um diese Aussage auch beweisen zu
a
u
o
knnen, brauchen wir nun eine geeignete Axiomatik.
o
1.1.3
1.11 Denition:
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (, P ), wobei ein diskreter Grundraum und
P eine auf den Teilmengen P () denierte reellwertige Funktion ist, welche die folgenden Axiome erf llt:
u
(A1) Positivitt
a
Es gilt P (A) 0 f r alle A .
u
(A2) Normiertheit
Es gilt P () = 1.
(A3) -Additivitt
a
F r jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... gilt
u
P
i=1
Ai
P (Ai )
i=1
1 Grundbegrie
P (Ai )
Ai
i=1
i=1
Ai
(A3)
P (Ai ) =
i=1
i=1
P ()
i=1
bedeutet) und besttigt sich dies so in unserem Versuch mit 300 Wrfen, denn
a
u
r300 (1) =
176
124
0.4 und r300 (0) =
0.6
300
300
1.13 Denition:
Sei eine Menge und A eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit
Ac := \ A
Wir erinnern uns an die de Morganschen Regeln:
1.14 Hilfssatz:
F r zwei Mengen M und N gelten:
u
Mc Nc
Mc Nc
= (M N )c
(1.1)
= (M N )
(1.2)
Beweis:
Sei x M c N c . Dann gilt sicherlich entweder x M c oder x N c (oder beides), d.h. x M oder
/
x N (oder beides). Daher ist x M N und daher
/
/
x (M N )c
Bemerkung 1.15:
Natrlich verallgemeinern die de Morganschen Regeln sich direkt auf unendliche Vereinigungen und
u
Schnitte. Sind Ai , i N Mengen, so gilt:
Ac
i
i=1
(1.3)
Ai
i=1
i=1
Ac
i
i=1
Ai
(1.4)
10
1 Grundbegrie
(Monotonie)
P
i
(Boolesche Ungleichung)
P (Ai )
i
Ai
= lim P (Ai )
i
i=1
Ai
= lim P (Ai )
i
i=1
Beweis:
Zum Beweis werden nur die Kolmogoro-Axiome sowie die Folgerungen (R1) und (R2) benutzt:
(A2)
(R2)
(R6) Nach Rechenregel (R3) ist P (B) = P (A) P (A \ B). Auerdem ist P (A \ B) 0 und es folgt die
Behauptung.
(R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 A2 ), ... d.h.
Bn := An \ (A1 A2 ... An1 ) fr n N
u
Die Bi sind paarweise disjunkt und Bi Ai fr alle i N. Es gilt also
u
Bi =
iN
Ai
iN
und damit
P
Ai
=P
Bi
iN
(R6)
(A3)
iN
iN
P (Bi )
Ai
Bi
i=1
i=1
(A3)
P (Bi )
i=1
n
=
(R2)
P (Bi )
lim
i=1
n
Bi
lim P
i=1
lim P (An )
P (Ai )
iN
1 Grundbegrie
11
Ac Ac ...
1
2
(1.4)
Ai
Ac
i
i=1
i=1
(R3)
(R8)
(R3)
1P
Ac
i
i=1
1 lim P (Ac )
i
i
1 1 lim P (A1 )
i
lim P (Ai )
1.2
Laplace Experimente
1.17 Denition:
Ein Paar (, P ) heit Laplace-Raum, wenn
= {1 , ..., n } endlich ist und
f r alle A
u
P (A) =
#A
# g nstige Flle
u
a
=
#
# mgliche Flle
o
a
gilt.
P heit Laplace-Verteilung oder diskrete Gleichverteilung auf = {1 , ..., n }.
Bemerkung 1.18:
Sei (, P ) ein Laplace-Raum. Dann ist
P ({}) =
1
1
=
#
n
Beispiel 1.19:
(1) Gegeben sei ein Wrfel. Wir setzen als Grundraum = {1, 2, ..., 6} mit P als der Laplace-Verteilung.
u
Uns interessiert das Ereignis A =gerade Zahl = {2, 4, 6}. Dann gilt:
P (A) =
#A
#{2, 4, 6}
1
=
=
#
6
2
2
1
#{ZK, KZ}
= =
#
4
2
12
1 Grundbegrie
Modell 2: Wir setzen := {KK, KZ, ZZ} ohne Beachtung der Ordnung - das liefert
P ({KZ}) =
1
3
#Am
#
#A12
=
#{(1, 1)}
=
#{(1, 2), (2, 1)}
=
#{(1, 3), (2, 2), (3, 1)}
=
#{(1, 4), (2, 3), (3, 2), (4, 1)}
=
#{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
= #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
=
#{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}
.
.
.
=
#{(6, 6)}
=
=
=
=
=
=
=
.
.
.
=
1
2
3
4
5
6
5
P (A2 )
P (A3 )
P (A4 )
P (A5 )
P (A6 )
P (A7 )
P (A8 )
=
=
=
=
=
=
=
.
.
.
1 P (A12 ) =
1
36
2
36
3
36
4
36
5
36
6
36
5
36
1
36
3
4
des
Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Denition
7
des Laplace-Raums gehen 8 des Einsatzes an Spieler A und 1 an Spieler B.
8
(6) Wir werfen 10 mal eine Mnze. Gesucht ist die Wahrscheinlichkeit des Ereignisses
u
C = mindestens 1 mal tritt Kopf auf
Unser Modell ist := {K, Z}10 = {(a1 , ..., a10 ) | ai {K, Z}} als Laplace-Raum.
Es folgt # = 1024 und wir berechnen
P (C) =
#C
#
mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!
P (C) = 1 P (C c ) = 1
#C c
# { Es tritt kein mal Kopf auf}
1
1023
=1
=1
=
#
#
1024
1024
mk
#Am
= k.
#
6
Dann gilt Bm = Am \ Am1 und Am1 Am . Die Rechenregel (R5) liefert nun
P (Bm ) = P (Am ) P (Am1 ) =
mk
(m 1)k
mk (m 1)k
=
.
k
k
6
6
6k
1 Grundbegrie
1.3
13
1.20 Lemma:
Ist (, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte
P ({}) ,
Beweis:
Sei A beliebig. Dann gilt
A=
A
{} =
{}
und diese Vereinigung ist abzhlbar, da der Grundraum selbst schon abzhlbar ist. Es folgt aus (A3):
a
a
P (A) = P
A
{}
P ({}) .
(A3)
{}
= P ()
(A2)
gelten.
Das veranlasst uns zu folgender
1.22 Denition:
Sei ein diskreter Grundraum. Eine Abbildung p :
p () = 1
1
.
6
Beispiel 1.25:
Wir betrachten wieder unser Beispiel der Reizwecke. Die hier entstehende Wahrscheinlichkeitsfunktion
p ist gegeben durch
p (1) = 0.4, p (0) = 0.6.
1.26 Satz:
Sei ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf . Dann denieren wir durch
P (A) :=
A
p () , A
14
1 Grundbegrie
Beweis:
Wir mssen lediglich die Axiome (A1), (A2) und (A3) prfen.
u
u
(A1) Sei A beliebig. Da p 0 gilt, folgt sofort
P (A) =
A
p () 0.
0
p () = 1.
Ai
p () .
i=1
Ai
i=1
Per Denition ist p 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der
Disjunktheit der Ai :
P
i=1
Ai
p () =
i=1 Ai
P (Ai ) .
i=1
Wahrscheinlichkeit, dass eine 0 gezogen wird, msste dann 0 sein, aber die Summe uber alle Zahlen der
u
Wahrscheinlichkeiten wre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!
a
Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzhlbare) Grundrume
a
a
verallgemeinern und liefern so eine einheitliche Theorie fr alle Wahrscheinlichkeitsrume.
u
a
Beispiel 1.28:
Wir knnen einen geflschten Wrfel modellieren durch
o
a
u
p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2.
Das deniert eine Wahrscheinlichkeitsfunktion auf = {1, 2, ..., 6}. Die zugehrige Wahrscheinlichkeitso
verteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.
Beispiel 1.29:
Auf = {2, 3, ..., 12} deniere die Wahrscheinlichkeitsfunktion p durch den Vektor
5 6 5
1
1 2
, , ..., , , , ...,
36 36
36 36 36
36
1
2
Damit ist natrlich gemeint, dass p (2) = 36 , p (3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion deu
niert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Wrfeln.
u
1 Grundbegrie
1.4
15
Siebformeln
In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschtzen, wenn
a
wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (, P ) ein Wahrscheinlichkeitsraum.
1.30 Lemma:
Sind A1 , A2 Ereignisse, so gilt
P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) .
Beweis:
Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 A2 ). Dann ist A1 A2 = B1 B2 und B1 B2 = .
Daher gilt:
P (A1 A2 )
P (B1 B2 )
=
(R2)
P (B1 ) + P (B2 )
(R5)
50
100
= 1 , P (A5 ) =
2
20
100
1
5
und
P ( Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 2 und durch 5 teilbar)
a
a
10
1
P ( Eine in 1,2,...,100 rein zufllig gewhlte Zahl ist durch 10 teilbar) =
a
a
=
.
100
10
1
3
1 1
+
= .
2 5 10
5
wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus
den folgenden allgemeinen Siebformeln.
1.4.1
Allgemeine Siebformeln
fr 1 k n.
u
1.32 Satz (Siebformel von Poincare-Sylvester):
Unter obigen Voraussetzungen gilt
n
Ai
P
i=1
k1
(1)
k=1
Sk
16
1 Grundbegrie
Beweis:
Wir zeigen die Aussage durch Induktion uber n.
Induktionsanfang (I.A.):
Lemma 1.30 liefert
=S2
(1)k1 Sk
k=1
Induktionsvoraussetzung (I.V.):
Gelte
k1
Ai
(1)
i=1
Sk
k=1
Induktionsschritt (n
Wir setzen
B := A1 ... An
Dann gilt:
n+1
Ai
i=1
I.A.
P (B An+1 )
+ P (An+1 ) P
Ai
i=1
Ai
i=1
An+1
I.V.
k1
(1)
k=1
Sk + P (An+1 ) P
i=1
(Ai An+1 )
n
I.V.
k1
(1)
k=1
k1
(1)
k=1
(1)k1
k=1
k1
(1)
k=1
k1
P (Ai ) +
1in
(1)
k=2
(1)k1
1i1 <i2 <...<ik n
k=1
n1
P (Ai ) +
1in+1
(1)
k=1
k1
(1)
k=1
1 Grundbegrie
17
=
i=1
n1
n+1
P (Ai )
k=1
(1)k1
+
1i1 <i2 <...<ik n
n1
n+1
=
i=1
P (Ai )
n1
(1)
n1
P (Ai1 ... Aik An+1 ) (1)
P (A1 ... An )
k1
(1)
k=1
P (A1 ... An )
n+1
k1
P (Ai ) +
i=1
(1)
k=2
n+1
k1
(1)
Sk
k=1
Die Bonferroni-Ungleichungen
P
i=1
=
i=1
P (Ai )
i=1
Beweis:
Wir setzen B1 := A1 und fr 2 k n:
u
Ai
i=1
Dann gilt
j=1
(Ai Aj )
k1
k1
Bk := Ak \
i1
= Ak \
(Ai Ak )
Bi
Ai =
i=1
i=1
i=1
i=1
(Ai Ak ) Ak
auch
k1
P (Bk ) = P (Ak ) P
i=1
(Ai Ak )
(1.5)
18
1 Grundbegrie
Ai
Bi
= P
i=1
i=1
n
P (Bi )
=
i=1
n
=
i=1
P (Ai ) P
j=1
=
i=1
P (Ai )
i=1
i1
(Aj Ai )
i1
j=1
(Aj Ai )
i1 1
Ai
i1
(1)
Si + (1)
1i1 <...<im n
i=1
i=1
Beweis:
Der Beweis erfolgt durch Induktion nach m n.
j=1
(1.6)
Induktionsanfang (I.A.):
Das ist genau die bereits gezeigte Gleichung (1.5).
Induktionsvoraussetzung (I.V.):
Gelte (1.6).
Induktionsschritt (m < n, m
/ m + 1):
i1 1
j=1
aus der Induktionsvoraussetzung anwenden. Setze dazu fr gegebene 1 j < i1 < ... < im n
u
Bj := Ai1 ... Aim Aj
Dann gilt:
i1 1
j=1
(1.5)
i1 1
j=1
i1 1
j=1
Bj
P (Bj )
i1 1
j=1
j1
P
k=1
(Bj Bk )
1 Grundbegrie
19
i1 1
j=1
i1 1
k=1
j=1
j=1
i1 1
j1
i1 1
j1
j=1
k=1
Ai
P
i=1
m
I.V.
i1
(1)
Si + (1)
1i1 <...<im n
i=1
(1)i1 Si + (1)m
1i1 <...<im n
i=1
i1 1
j1
j=1
k=1
m
i1
(1)
j=1
i1 1
i1 1
j=1
Si + (1)
i=1
i1 1
m+1
+ (1)
j1
k=1
m
i1
(1)
Si + (1)
1i1 <...<im+1 n
i=1
=Sm+1
m+1
+ (1)
1i1 <...<im+1 n
m+1
i1
(1)
i1 1
j=1
m+1
Si + + (1)
1i1 <...<im+1 n
i=1
Ai
P
i=1
Ai
i=1
Si
i1
Si
i=1
i1
(1)
(1)
i=1
j=1
20
1 Grundbegrie
Beweis:
Nach Denition eines Wahrscheinlichkeitsraums ist fr jede Auswahl 1 i1 < ... < im n
u
i1 1
j=1
Ai
(1.6)
i1
(1)
i1 1
Si + (1)
1i1 <...<im n
i=1
i=1
m
i1
(1)
=
i=1
Si
1i1 <...<im n
i1 1
j=1
Ai
(1.6)
i1
(1)
Si + (1)
1i1 <...<im n
(1)i1 Si +
1i1 <...<im n
i=1
m
i1
(1)
i1 1
i=1
i=1
i=1
(1)i1 Si
j=1
i1 1
j=1
j=1
Si
i=1
Ai
P
i=1
1.4.3
P (Ai )
(1.7)
i=1
Anwendung
Ai
P
i=1
i
i=1
1 Grundbegrie
21
Beweis:
Es gilt
n
(R3)
Ai
i=1
(1.3)
(1.7)
(R3)
1P
Ai
i=1
n
1P
Ac
i
i=1
P (Ac )
i
i=1
n
i=1
(1 P (Ai ))
n
i=1
(1 1 i ) = 1
i
i=1
und
n
i=1
Man erhlt so eine Abschtzung fr die Sicherheit des Systems, wenn man Abschtzungen fr die Sichera
a
u
a
u
heit der Komponenten hat.
Beispiel 1.38:
Ist etwa P (Ai ) 0.99 fr alle i = 1, ..., n, also i = 0.01 fr alle i = 1, ..., n, so ist das System immerhin
u
u
noch mit Wahrscheinlichkeit
n
n
Ai 1
P
100
i=1
intakt.
22
2 Kombinatorik
Kombinatorik
Hier wollen wir das sogenannte Urnen- und Fchermodell einfhren. Dazu betrachten wir vier verschiea
u
dene Grundrume I , II , III , IV die aus Urnen- bzw. Fchermodellen entstehen und bestimmen ihre
a
a
Kardinalitten. In der Praxis werden I , II und III oft als Grundrume fr Laplace-Rume benutzt,
a
a
u
a
IV ist spezieller.
Beispiel 2.1:
Wir wollen Wrfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer
u
Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem
Zurcklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus
u
der selben Urne mit zurcklegen etc..
u
Das realisiert genau Wrfeln als Laplace-Raum wie bereits bekannt.
u
Urnenmodell I:
k-faches Ziehen mit Zurcklegen unter Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
u
u
welche die Nummern 1 bis n tragen.
Der Grundraum ist hier
I = {(a1 , ..., ak ) | 1 ai n, i = 1, ..., n}
wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Es ist
#I = nk
Das zugehrige Fchermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert
o
a
werden und verteilt diese Kugeln in n Fcher. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird
a
als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet ist. Der Grundraum
Urnenmodell II:
k-faches Ziehen ohne Zurcklegen unter Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
u
u
welche die Nummern 1 bis n tragen. Das ist oenbar nur fr k n mglich.
u
o
Der Grundraum ist hier
II = {(a1 , ..., ak ) | ai = aj fr i = j und ai {1, ..., n} fr i = 1, ..., k}
u
u
wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Die Kardinalitt von II
a
berechnet sich wie folgt:
Beim Ziehen der ersten Kugel gibt es n Mglichkeiten, beim Ziehen der zweiten Kugel n1 Mglichkeiten
o
o
usw, daher ist
n!
=: (n)k
#II = n (n 1) ... (n k + 1) =
(n k)!
Wir sprechen diese Zahl als n unten k.
Das zugehrige Fchermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert
o
a
werden und verteilt diese Kugeln in n Fcher. Diesmal ist aber jeweils maximal eine Kugel pro Fach
a
erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet
ist.
2 Kombinatorik
23
1
1
=
#II
n!
Sei nun Ai := {(a1 , ..., an ) II | ai = i} das Ereignis Die Permutation hat an der Stelle i einen
durch Umnummerieren stets an, dass 1 der passende Schlssel ist. Als Modell verwenden wir wieder
u
II als Laplace-Raum. Dann ist
Bi {(a1 , ..., an ) II | ai = 1}
und entsprechend
P (Bi ) =
1
#Bi
=
#II
n
wie oben.
Urnenmodell III:
k-faches Ziehen ohne Zurcklegen ohne Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
u
u
welche die Nummern 1 bis n tragen. Das ist oenbar wieder nur fr k n mglich.
u
o
Der Grundraum ist hier
III = {T {1, ..., n} | #T = k}
Einer Teilmenge T III entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen
i T gezogen wurden (Reihenfolge egal!). Die Kardinalitt von II berechnet sich mit dem Prinzip des
a
Schfers:1
a
Will man #III durch abzhlen berechnen, so erscheint dies sehr schwer. Man deniert also
a
f : II
1 Prinzip
des Schfers:
a
Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zhlen. Man kann
a
auch die Anzahl der Beine auf der Wiese zhlen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe
a
Ergebnis:
# Beine
= # Schafe
4
Dieses Prinzip klingt zunchst sehr abstrus, aber oben wird die enorme Mchtigkeit des Prinzips klar.
a
a
24
2 Kombinatorik
Diese Abbildung ist wohldeniert, da wir fr jedes (a1 , ..., ak ) II gefordert hatten, dass die ai paarweise
u
verschieden sind. Man erhlt als Bild unter f also tatschlich eine k-elementige Teilmenge von {1, ..., n}.
a
a
Ganz oenbar ist f surjektiv und jede Menge {a1 , ..., ak } III (Schaf) hat genau k! Urbilder (Beine)
unter f , da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:
#III = #II
Die Zahl
(n)k
n!
1
=
=
=:
k!
k!
k! (n k)!
n
k
n
k
n k nk
x y
k
(x + y) =
k=0
(2.1)
- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigen
Teilmengen von {1, ..., n} (einfach die Ordnung vergessen). Daher gibt es genau
n
k
Mglichkeiten, Zahlen i1 , ..., ik wie in (2.1) auszuwhlen.
o
a
Beispiel 2.6:
Ein klassisches Beispiel fr das Urnenmodell III ist das gewhnliche Lotto. Hier werden 6 Kugeln aus
u
o
49 mglichen Kugel ohne Zurcklegen und ohne Bercksichtigung der Reihenfolge gezogen, d.h. es ist
o
u
u
n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T
der gezogenen Kugeln entscheidend ist.
Um die Wahrscheinlichkeit fr 6 Richtige zu berechnen, betrachten wir III als Laplace-Raum und erhalu
ten so fr einen beliebigen festen Tip T = {a1 , ..., a6 } {1, ..., 49} die Wahrscheinlichkeit
u
P (T ) =
#T
=
#III
1
49
6
1
13.983.816
Urnenmodell IV:
k-faches Ziehen mit Zurcklegen ohne Bercksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
u
u
welche die Nummern 1 bis n tragen.
Als Ergebnis notieren wir nur das Tupel (k1 , ..., kn ), wobei die Zahl ki angibt, wie oft die Kugel mit der
Nummer i gezogen wurde. Zwangslug gilt dann
a
n
ki = k
i=1
2 Kombinatorik
25
IV :=
(k1 , ..., kn )
0 ki k i = 1, ...n und
ki = k
i=1
Beispiel 2.7:
Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor
(3, 0, 2, 4, 0, 1)
welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel
Nummer 3 usw..
Bevor wir die Kardinalitt von IV bestimmen wollen wir kurz das zugehrige Fchermodell vorstellen.
a
o
a
Man betrachte k Kugeln, die auf n Fcher verteilt werden - mit erlaubter Mehrfachbesetzung der Fcher
a
a
- und zhle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind fr i = 1, ..., n.
a
u
Beispiel 2.8:
In der Praxis ndet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und
man nachher die Auslastung der einzelnen Schalter betrachten will.
Jetzt wollen wir #IV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen
Raum, dessen Kardinalitt wir bereits kennen.
a
Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Lnge n + k 1. Wir betrachten jetzt 0
a
als eine Kugel und 1 als die Markierung fr nchstes Fach. Unter dieser Identikation wird etwa das
u
a
10 + 6 1
10
15!
= 3003
10!(15 10)!
Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konguration die Wahrscheinlichkeit
1
0, 00033
P (k1 , k2 , ..., kn ) =
#IV
2.9 Denition:
Wir denieren den Multinomialkoezient als
k!
k
ki = k
falls ki 0 1 i n,
k1 !k2 !...kn !
:=
i=1
k1 , k2 , ..., kn
0
sonst
Bemerkung 2.10:
Fr den Fall k = 2 kennen wir dies bereits als den Binomialkoezienten. Sei k = k1 + k2 , dann gilt:
u
k
k1 , k2
k!
k!
=
k1 ! k2 !
k1 !(k k1 )!
2.11 Lemma:
Die Anzahl der Mglichkeiten eine Menge A der Kardinalitt k in n Teilmengen A1 , ..., An mit #Ai = ki
o
a
n
und
i=1
k
k1 , k2 , ..., kn
k!
k1 ! k2 ! ... kn !
26
2 Kombinatorik
Beweis:
k
o
a
u
Fr A1 gibt es k1 Mglichkeiten, Elemente auszuwhlen. Dann ist #(A \ A1 ) = k k1 und es gibt fr
u
kk1
o
o
a
u
A2 nur noch k2 Mglichkeiten, Elemente auszuwhlen. Fr A3 bleiben kk13k2 Mglichkeiten usw..
k
Die Gesamtzahl der Mglichkeiten A in Teilmengen der Gre k1 , ..., kn zu zerlegen betrgt also
o
o
a
k
k1
=
=
k k1
k2
k k1 k2
k3
...
k k1 k2 ... kn1
kn
(k k1 )!
(k k1 k2 )!
kn
k!
...
k1 !(k k1 )! k2 !((k k1 k2 )! k3 !(k k1 k2 k3 )!
kn
k!
k1 ! k2 ! ... kn !
k
k1 , ..., k6
k!
1
nk k1 ! ... kn !
(2.2)
P (A10,0,0,0,0,0 )
P (A2,2,2,2,1,1 )
1
10!
0, 0002
61 0 4! 0! 2! 3! 0! 1!
1 10!
0, 000000017
610 10!
1
10!
0, 0037
10 2! 2! 2! 2! 1! 1!
6
Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustnde gem
a
a
der Laplace-Verteilung auf IV .
2.1
Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N R weie Kugeln enthalten sind.
Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurcklegen) gezogen.
u
Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.
2.1.1
Gegeben sei
I = {(a1 , a2 , ..., an ) | 1 ai N }
mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er ), wobei
Er = {(a1 , a2 , ...an ) | #{i | ai {1, 2, ..., R}} = r}
Er entspricht den r roten Kugeln, anders gesagt den r Erfolgen.
2 Kombinatorik
27
#EI = Rr (N R)nr
und es gibt
n
r
P (Er ) =
R
N
R
N
nr
n j
p (1 p)nj ,
j
0jn
2.1.2
1
2
nk
1
2
n
k
1
2
Man zieht eine Teilmenge T von n N Kugeln. Wir betrachten den Grundraum
III = {T {1, 2, ..., N } | #T = n}
und damit ist #III =
N
n
Er
N R
nr
R
N R
r
nr
2.15 Denition:
Wir nennen
hyp(r, n, R, N ) := P (Er ) =
#Er
=
#III
R
r
N R
nr
N
n
4
3
32
10
28
7
66
0, 073
899
28
2.2
2 Kombinatorik
Das Stimmzettelproblem
Die Auszhlung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenber
a
u
Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses
2.17 Satz:
Wenn a > b, so ist
P (E) =
und hngt damit nur vom Quotienten
a
b
a
1+
b
a
b
a
ab.
Beweis:
Wir stellen die Auszhlung der Stimmzettel als Pfad da. Der Pfad
a
B,B,A,A,A,B,A,A,B
entsprche dann also der Auszhlung
a
a
Stimmen fr A
u
Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:
5
4
3
2
1
0
0
u
5 Stimmen fr B
als Laplace-Raum. Ein Pfad aus wird oenbar schon durch die Zeitpunkte der A-Stimmen eindeutig
festgelegt und hat logischerweise Lnge a + b, daher gilt
a
# =
a+b
b
E2
E3
Da jeder Pfad, welcher oberhalb der Diagonalen verluft, automatisch durch (0, 1) verlaufen muss, gilt
a
dann
3
Ei
=
i=1
2 Kombinatorik
29
0
0
Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1 , aus E2 und aus E3
Gesucht ist in diesem Zusammenhang natrlich
u
P (E) = P (E1 ) =
#E1
#
a
und wir knnen #E1 uber #E1 = # #E2 #E3 berechnen. Die Kardinalitt #E3 von E3 ist oenbar
o
#E3 =
a+b1
a
da jeder Pfad aus E1 genau eins krzer ist als ein Pfad aus . Jetzt verwenden wir folgendes
u
2.18 Lemma (Spiegelungsprinzip):
Falls a > b, so gilt
#E2 = #E3
Beweis:
Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schlielich
bei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad
von (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2 .
A
= 1
0
0
a+b
a+b1
2
b
a
Daraus folgt
P (E) =
#E
#
= 1
= 12
a+b1
a
a+b
a
(a + b 1)!a!b!
a! (b 1)! (a + b)!
b
a+b
a + b 2b
a+b
= 12
=
=
und das zeigt die Behauptung.
1
ab
=
a+b
1+
b
a
b
a
30
2 Kombinatorik
Beispiel 2.19:
Wir betrachten die Wahlergebnisse
a = 100 und b = 50
(2.3)
(2.4)
1
b
=
a
2
und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A whrend der
a
gesamten Auszhlung in Fhrung lag, in beiden Fllen (2.3) und (2.4) bei
a
u
a
P (E) =
liegt.
1
1+
1
2
1
2
1
3
3
3.1
31
B = Mindestens eine 6
Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinusst. Dazu
simulieren wir n = 10.000 Wrfe mit zwei Wrfeln und erhalten in unserer Simulation, dass das Ereignis
u
u
A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A B (also A und B gleichzeitig)
genau hAB = 1386 mal eintritt.
Wenn B keinen Einuss auf das Eintreten von A hat, so sollte
hAB
hA
n
hB
gelten. Wir knnen diese Aussage auf relative Hugkeiten umformen:
o
a
hAB
hA hB
.
n
n
n
Der Ubergang von relativen Hugkeiten zu Wahrscheinlichkeiten liefert nun die folgende
a
3.2 Denition:
Sei (, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A, B heien unabhngig, falls
a
P (A B) = P (A) P (B)
gilt.
Beispiel 3.3:
Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhngig sind, denn
a
hAB
hA hB
= 0.1386 = 0.155
.
n
n
n
Um diese Aussage anhand der Denition nachzuprfen betrachtet man = {1, 2, 3, 4, 5, 6}2 als Laplaceu
Raum und hat damit
A =
11
1
und P (B) =
.
2
36
#A B
5
11
1 11
=
=
=
= P (A) P (B) .
#
36
78
2 36
Die angegebenen Ereignisse A und B sind also in der Tat abhngig.
a
P (A B) =
Beispiel 3.4:
Betrachte wieder das Setting aus Beispiel 3.1 und das zustzliche Ereignis
a
C = Der erste Wurf ist eine 6
Wir wollen zeigen, dass A und C unabhngig sind. Dazu berechnen wir
a
P (A C) = P ({(6, 2), (6, 4), (6, 6)}) =
was diese Aussage zeigt.
1
1 1
3
=
= = P (A) P (C) ,
36
12
2 6
32
Beispiel 3.5:
Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot
und Kugel 3 wei. Wir wollen zwei Ziehungen durchfhren und betrachten die Ereignisse
u
A =
B
u
Ziehen wir mit Zurcklegen, so ist oenbar = {(i, j) | 1 i, j 3} und daher # = 9. Das liefert
P (A) =
1
2
2
2
, P (B) = , P (A B) = P ({(1, 3) , (2, 3)}) =
= = P (A) P (B) .
3
3
#
9
P (A)
P (B)
1
2
= ,
#
3
P (A B)
2
2
= = P (A) P (B) .
#
6
j=1
gilt.
Aij =
P Aij
j=1
Diese Denition mag zunchst etwas unintuitiv erscheinen, sie ermglicht aber folgendes
a
o
3.8 Lemma:
Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An unabhngige Ereignisse.
a
(1) F r jede Auswahl 1 k n und 1 i1 < ... < ik n beliebig ist dann auch die entstehende
u
a
Teilfamilie Ai1 , ..., Aik unabhngig.
(2) Sei Bi = Ai oder Bi = Ac f r jedes 1 i n. Dann sind auch die Ereignisse B1 , ..., Bn unabhngig.
a
i u
Beweis:
(1) Diese Aussage ist mit der Denition sofort klar.
(2) Oenbar gengt es zu zeigen, dass die Ereignisse Ac , A2 , ..., An ebenfalls unabhngig sind. Den
u
a
1
allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue
Vorgehen dafr kann man etwa bei [Dehling/Haupt] nachlesen.).
u
Wir wollen die oenbar gltige Gleichung
u
P (Ac B) = P (B) P (A B)
(3.1)
33
nutzen. Seien nun 1 i1 < ... < ik n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu
zeigen. Ist i1 = 1, so gilt
(3.1)
(1 P (A1 ))
P Aij
j=2
P (Ac )
1
P Aij
j=2
Wir betrachten de dreifachen Mnzwurf, also = {K, Z} mit der Laplace-Verteilung. Wir betrachten
u
die Ereignisse
A1
A2
A3
4
1
# {KKK, KKZ, ZZZ, ZZK}
= =
#
8
2
1
und ganz analog P (A2 ) = P (A3 ) = 2 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte:
P (A1 A2 ) =
Wegen
1
2
1
2
1
4
# {KKK, ZZZ}
1
= = P (A1 A3 ) = P (A2 A3 ) .
#
4
1 1 1
1
=
4
2 2 2
3.2
Bedingte Wahrscheinlichkeiten
Bei n Versuchen trete das Ereignis A B mit Hugkeit hAB und das Ereignis B mit Hugkeit hB = 0
a
a
auf. Anschaulich ist dann
die relative Hugkeit des Auftretens von A, gegeben B tritt auf
a
gegeben als
hAB
=
hB
hAB
n
hB
n
in relativen Hugkeiten.
a
Der Ubergang von relativen Hugkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende
a
3.10 Denition:
Sei (, P ) ein Wahrscheinlichkeitsraum und seien A, B Ereignisse. Ist P (B) > 0, so ist
P (A | B) :=
P (A B)
P (B)
34
Beispiel 3.11:
Wir Wrfeln einfach mit einem fairen Wrfel. Dazu verwenden wir = {1, 2, 3, 4, 5, 6} mit der Laplaceu
u
Verteilung. Sei A = {4, 5, 6} und B = {2, 4, 6}. Dann ist
P (A) = P (B) =
1
2
und
1
.
3
P (A B) = P ({4, 6}) =
Das liefert P (A | B) =
2
3
Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon wei, dass eine gerade Zahl gewrfelt
u
2
wurde, so ist die Wahrscheinlichkeit, dass der Wurf 4 ist, genau 3 .
Beispiel 3.12:
Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir = {JJ, JM, M J, M M }
mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafr ausrechnen, dass die Familie
u
zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also
A :=
{JJ}
{JJ, JM, M J} .
:=
P (A B)
1
= .
P (B)
3
Ai
An
i=1
Beweis:
(1) Es gilt per Denition
P (A | B) P (B) =
P (A B)
P (B) = P (A B) .
P (B)
P (A1 )
k=2
k1
P Ak
j=1
P (A1 )
k=2
Aj
Aj
j=1
k1
Aj
j=1
P (A1 )
k=2
j=1
Aj
k=2
1
k1
Aj
j=1
Ai
An
i=1
= P (A1 )
k=2
j=1
= P
j=1
j=1
Aj
= P (A1 ) P
Aj
n1
k=1
35
1
k
Aj
j=1
1
P (A1 )
Aj .
Beispiel 3.14:
Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhlt.
a
Sei dazu
Ai := der i-te Spieler hat genau ein Ass fr i = 1, 2, 3
u
4
1
28
9
32
10
, P (A2 | A1 ) =
3
1
19
9
22
10
, P (A3 | A1 A2 ) =
2
1
10
9
12
10
385 3 10
50
=
.
899 7 33
899
3.15 Satz:
Sei (, P ) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann denieren wir durch
PB (A) := P (A | B) , A
eine Wahrscheinlichkeitsverteilung auf .
Beweis:
Wir mssen die Axiome (A1) bis (A3) nachprfen:
u
u
(A1) Sei A beliebig. Da P eine Wahrscheinlichkeitsverteilung auf ist, gilt
PB (A) = P (A | B) =
P (A B)
0.
P (B)
P ( B)
P (B)
=
= 1.
P (B)
P (B)
Ai
i=1
i=1
Ai
P (B)
P
i=1
=
=
i=1
(A3) f r P
u
Ai | B
(Ai B)
P (B)
i=1
P (Ai B)
=
P (B)
i=1
PB (Ai ) .
36
P ({})
P (B)
P ({} B)
=
P (B)
falls B
,
falls B
/
A.
Beispiel 3.18:
Wir wrfeln zweifach mit einem fairen Wrfel. Dazu nutzen wir wieder = {1, 2, 3, 4, 5, 6}2 als Grundu
u
raum mit der Laplace-Verteilung. Betrachte das Ereignis
B = Augensumme ist 10
6
36
1
36
P (Bi ) P (A | Bi )
(3.2)
(2)
P (A | Bk ) P (Bk )
P (A | Bi ) P (Bi )
(3.3)
iI
Beweis:
(1) Mit der Mulitplikationsformel gilt
Bi =
P (A)
iI
P
iI
Bi Bj = f r i=j
u
iI
Multiplikationsformel
iI
Bi
iI
(A Bi )
P (A Bi )
P (A | Bi ) P (Bi )
37
P (Bk A)
P (A)
P (Bk | A)
P (A Bk )
P (A)
P (A | Bk ) P (Bk )
P (A)
Multiplikationsformel
P (A | Bk ) P (Bk )
.
P (A | Bi ) P (Bi )
(3.2)
iI
P (A|B2 ) P (B2 )
i=1
=
=
P (A|Bi ) P (Bi )
P (A|B2 ) P (B2 )
P (A|B1) P (B1 ) + P (A|B2 ) P (B2 )
0.99 0.005
0.02 0.995 + 0.99 0.005
0.2
Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich
erkrankt.
Beispiel 3.21 (Simpson-Paradoxon):
Im Folgenden werden wir ein Beispiel aus dem Bereich How to lie with statistics geben, d.h. es wird eine
Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die oensichtlich zu stimmen
scheint. Bei genauerer Betrachtung und unter Bercksichtigung aller Werte im Detail ergibt sich jedoch
u
genau die gegenteilige Aussage:
University of Berkeley:
In einem Jahr haben sich 1200 Mnner und 900 Frauen um einen Studienplatz beworben. Zugelassen
a
wurden 55% der Mnner und nur 48, 9% der Frauen. Oensichtlich wurden die Mnner bevorzugt, oder
a
a
nicht?
Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fchern A und B gab.
a
Fach A
Fach B
Summe
Mnner
a
beworben zugelassen
900
540=60%
300
120=40%
1200
660=55%
Frauen
beworben zugelassen
100
80=80%
800
360=45%
900
440=48,8%
38
= 0.8
Das Ergebnis kommt zustande, da sich anteilig viel mehr Mnner als Frauen in Fach A beworben haben,
a
wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen fr
u
Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.
3.3
Mehrstuge Experimente
Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgefhrten Experimente
u
die Wahrscheinlichkeiten fr den Ausgang des nchsten Experiments bestimmen.
u
a
Sei p1 der Wahrscheinlichkeitsvektor fr die Ausgnge des ersten Experiments. Beim Ausgang a1 1
u
a
ist jeweils p2 ( |a1 ) ein Wahrscheinlichkeitsvektor fr die Ausgnge des zweiten Experiments.
u
a
Beispiel 3.22 (zweistuges Zufallsexperiment):
In einer Urne benden sich 3 Kugeln, davon sind zwei rot und eine ist wei. Wir ziehen zwei Mal ohne
Zurcklegen.
u
In der ersten Ziehung erhlt man mit einer Wahrscheinlichkeit von 2 eine rote Kugel und mit einer
a
3
1
Wahrscheinlichkeit von 3 eine weie Kugel, d.h.
p1 (R) =
2
,
3
p1 (W ) =
1
.
3
In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder wei jeweils mit der
1
Wahrscheinlichkeit 2 gezogen werden oder wenn zu Beginn die weie Kugel gezogen wurde, mit Sicherheit
nun eine rote Kugel gezogen werden. Das heit
p2 (R, R) =
1
,
2
p2 (R, W ) =
1
2
bzw.
p2 (R, W ) = 1,
p2 (W, W ) = 0.
1
2 1
= .
3 2
3
Bemerkung 3.23:
Fr Teilmengen A , welche einer Menge von Pfaden entspricht, ist
u
P (A) =
(a1 ,a2 )A
39
Beispiel 3.24:
Es stehe Xi fr das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt:
u
2
2 1 1
P (X2 = R) = P ( zweite Kugel ist rot) = P (R, R) + P (W, R) = + 1 =
3 2 3
3
3.25 Denition (n-stuges Experiment):
Seien 1 , 2 , ..., n diskrete Grundrume. Sei p1 eine Wahrscheinlichkeitsfunktion auf 1 (Startwahra
scheinlichkeit). F r jedes a1 1 sei eine Wahrscheinlichkeitsfunktion p2 (a2 |a1 ) auf den Ausgang des
u
zweiten Teilexperiments gegeben.
Allgemein: F r jede Folge von Ausgngen a1 , a2 , ..., aj1 mit ai i , 1 i j 1 der ersten j-1
u
a
Teilexperimente ist eine Wahrscheinlichkeitsfunktion
pj (aj |a1 , ...aj1 )
auf den Ausgngen aj j gegeben. F r einen Pfad (a1 , ..., an ) 1 ... n setzt man
a
u
p(a1 , ..., an ) = p1 (a1 ) p2 (a2 |a1 ) . . . pn (an |a1 , ..., an1 ).
Dann ist p eine Wahrscheinlichkeitsfunktion auf = 1 ... n und deniert eine Wahrscheinlichkeitsverteilung P ber
u
p(a1 , ..., an ),
A .
P (A) :=
(a1 ,...,an )A
2
3
1
2
2
2 3 1 1
+ = = P (X1 = R)
3 4 3 2
3
Wir wollen nun zeigen, dass unabhngig vom gewhlten c immer gilt: Die Wahrscheinlichkeit fr 2.Kugel
a
a
u
ist rot ist immer gleich der Wahrscheinlichkeit fr 1.Kugel ist rot:
u
Beweis:
Es sind
s
r
,
p1 (S) =
p1 (R) =
r+s
r+s
r+c
s
p2 (R|R) =
,
p2 (S|R) =
r+s+c
r+s+c
P (X2 = R) =
40
Damit ist
P (X2 = R) = P (R, R) + P (S, R)
=
=
=
r+c
s
r
r
r+s
r
r+s
s
r+c
+
r+s+c r+s+c
= P (X1 = R).
Man berechnet
p(R, S, R, R) = p1 (R) p2 (S|R) p3 (R|RS) p4 (R|RSR)
=
r
s
r+c
r + 2c
r + s r + s + c r + s + 2c r + s + 3c
Bemerkung 3.27:
Man beobachtet also:
Ist (a1 , ..., an ) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist
n1
p(a1 , ..., an ) =
i=0
1
r + s + ic
nk1
k1
i=0
(k + ic)
(s + ic) .
i=0
Das heit die Wahrscheinlichkeit von (a1 , ..., an ) hngt nur von der Anzahl gezogener Kugeln ab, nicht
a
von der Reihenfolge. Daher gilt
p(a (1) , ..., a (n) ) = p(a1 , ..., an )
fr jede Permutation von {1, ..., n}. Solche Verteilungen nennt man auch austauschbar.
u
Aufgabe 3.28:
Zeige damit
P (Xj = R) =
3.3.1
r
fr alle j = 1, 2, ...
u
r+s
1jn
so setzen wir
(b1 , ..., bk ) := {(a1 , ..., an ) | ai = bi fr 1 i k}
u
als die Menge aller Pfade, die mit b1 , ..., bk beginnen fest. Dann gilt:
P (b1 , ..., bk ) = p1 (b1 ) p2 (b2 | b1 ) ... pk (bk | b1 , ..., bk )
Beweis:
Wir zeigen nur den Fall n = 2, k = 1, die anderen Flle uberlegt man sich analog (wobei der Beweis
a
dann sehr Index-lastig wird). Es gilt
P (b1 ) =
P ({b1 } )
p (b1 , a2 )
a2 2
=
a2 2
p1 (b1 ) p2 (a2 | b1 )
p1 (b1 )
a2 2
p2 (a2 | b1 )
=1
41
p (b1 , b2 )
p (b1 )
p1 (b1 ) p2 (b2 | b1 )
p1 (b1 )
p2 (b2 | b1 ) .
Teil (1)
START
1
4
1
1
U1 - Urne 1
U4 - Urne 4
U2 - Urne 2
U3 - Urne 3
0
1
1
0
1
2
2
1
3
3
3
3
1
4
Es ist also 1 = {1, 2, 3, 4}, wobei die Zahl i 1 dann einfach der Nummer der Urne im ersten Schritt
entspricht. Wir sehen sofort, dass
1
p1 (1) = ... = p1 (4) = .
4
Weiter verwenden wir 2 = {R, S} was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen
soll. Da die Urne U1 keine roten Kugeln enthlt, ist also
a
p2 (R | 1) = 0 und p2 (S | 1) = 1.
Ganz analog enthlt die Urne U2 eine rote und zwei schwarze Kugeln, es ist also
a
p2 (R | 2) =
2
1
und p2 (S | 2) = .
3
3
42
:=
A :=
2
1
, P (A | B2 ) = , P (A | B3 ) = 1.
3
3
P (A) =
i=1
P (A | Bi ) P (Bi ) =
i=1
p2 (R | i) p1 (i) =
1
.
2
Mit der Formel von Bayes (3.3) ergibt sich nun fr die gesuchte Wahrscheinlichkeit
u
P (Bk | A)
(3.3)
P (Bk | A)
P (A | Bk ) P (Bk )
i=1
P (A | Bi ) P (Bi )
=P (A)
2P (A | Bk ) P (Bk )
=1
4
1
P (A | Bk ) ,
2
k = 1, 2, 3, 4.
1 2 3
0, , ,
6 6 6
Der MAP-Schtzer (MAP steht fr maximum a-posteriori) der Urnennummer k whlt das k mit maxia
u
a
malem P (Bk | A) aus - hier also k = 4. Das beantwortet die obige Frage.
Beispiel 3.30:
Wir betrachten eine leicht genderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht
a
ein zufllig gewhlt, sondern per Mnzwurf bestimmt. Wir werfen dazu drei faire Mnzen und whle die
a
a
u
u
a
Urne, die so viele rote Kugeln enthlt, wie oft Kopf geworfen wurde. Wegen
a
3
1
P ({ZZZ}) = , P ({KZZ, ZKZ, ZZK}) =
8
8
1
usw. erhalten wir also die a-priori-Verteilung 8 , 3 , 3 , 1 . Wir denieren A und Bi , i = 1, 2, 3, 4 wie im
8 8 8
Beispiel 3.29 oben und stellen uns die selbe Frage. Oenbar ist hier
P (A) = 0
1 1 3 2 3
1
1
+ + +1 =
8 3 8 3 8
8
2
P (A | Bk ) P (Bk )
1
2
=
k=1,2,3,4
1 1 1
0, , ,
4 2 4
Hier wrde der MAP-Schtzer also die Urne mit der Nummer k = 3 auswhlen.
u
a
a
3.4
43
:= 1 ... n =
i , P :=
P ,
(3.4)
i=1
i=1
p (a1 , ..., an ) =
i=1
(3.5)
gegeben ist.
3.31 Denition:
Der Raum (, P ) wie in (3.4) deniert heit Produkt der Wahrscheinlichkeitsrume (i , Pi ) , i =
a
1, ..., n.
Bemerkung 3.32:
(, P ) ist selbst wieder ein Wahrscheinlichkeitsraum.
Beweis:
Es gengt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn oenbar ist als
u
endliches Produkt abzhlbarer Mengen selbst wieder abzhlbar.
a
a
Das p positiv und -additiv ist, also die Axiome (A1) und (A3) erfllt, ist klar, denn jedes der Pi erfllt
u
u
diese Axiome. Auerdem gilt
n
p (a1 , ..., an ) =
P () =
(a1 ,...,an )
(a1 ,...,an )
k=1
ak k
Pk ({ak })
(A3) f r Pk
u
=1
ebenso mit der Laplace-Verteilung versehen wie 2 := {1, 2, 3, 4, 5, 6}. Dann ist
= 1 2 = {(a1 , a2 ) | a1 {K, Z} , a2 {1, 2, 3, 4, 5, 6}}
und es gilt
p (a1 , a2 ) = P1 ({a1 }) P2 ({a2 }) =
=1
2
1
12
1
=6
Man kann den Produktraum (, P ) auch als mehrstuges Modell mit den Ubergangswahrscheinlichkeiten
pi (ai | a1 , ..., ai1 ) = Pi ({ai }) , 1 i n, ak k
auassen. Man beachte, dass diese Ubergangswahrscheinlichkeiten nicht von den vorangehenden Stufen
abhngen.
a
3.35 Denition:
F r Ereignisse Ai i , 1 i n denieren wir das Produktereignis in (, P ) als
u
A := A1 A2 ... An = {(a1 , ..., an ) | ai Ai , 1 i n}
44
Bemerkung 3.36:
Dann gilt
P (A) =
Pk (Ak )
k=1
Beweis:
Es ist
P (A)
P (A1 ... An )
Denition
p (a1 , ..., an )
(a1 ,...,an )A
n
=
(a1 ,...,an )A k=1
Pk ({ak })
=
k=1
ak Ak
Pk ({ak })
Pk (Ak ) ,
k=1
Beweis:
(1) Es ist
P (A )
i
=
Bemerkung 3.36
Pi (Ai ) ,
j=1
Aj
i
=
Bemerkung 3.36
(1)
P A1 ... P Ak .
i
i
A , ..., A
1
n
3.4.1
45
a
(1) Binomialverteilung ( Zhlen von Erfolgen)
u
= {0, 1} , p (a1 , ..., an ) = pa1 ... pan fr (a1 , ..., an )
Sei jetzt
Ak :=
aj = k
(a1 , ..., an )
j=1
n
k
n k
p (1 p)nk , 0 k n.
k
Man fhrt n identische, stochastisch unabhngige Experimente durch. Jedes Experiment hat r
u
a
Ausgnge 1, ..., r, die mit Wahrscheinlichkeiten p1 , ..., pr auftreten.
a
Modell: Seien i = {1, ..., r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor (p1 , ..., pr ) gegeben (1 i n).
Im Produktexperiment ist
n
und
P =
i=1
und somit
p(a1 , .., an ) = pa1 ... pan .
Sei Ak1 ,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1, ..., kr mal den Ausgang r zu
n
ki = n und 0 ki fr i i n gelten). Dann ist
u
erhalten (dabei muss natrlich
u
i=1
P (Ak1 ,...,kr ) =
n
k1 , ..., kr
die auf
(k1 , ..., kr )
i=1
ki = n, 0 ki
pi = 1
i=1
gelten.
Beispiel 3.39:
Auf einem Glcksrad sind 3 Bereiche markiert. Beim zuflligen Drehen stoppt das Rad mit Wahru
a
1
1
scheinlichkeit p1 = 2 im Bereich 1, mit p2 = 3 im Bereich 2 und mit p3 = 8 im Bereich 3.
8
Dann ist
P (5 mal 1, 3 mal 2, 2 mal 3) = P (A5,3,2 ) =
10
5, 3, 2
1
2
3
8
1
8
46
Gegeben sei ein n-faches Bernoulli-Experiment = {0, 1}n mit Erfolgswahrscheinlichkeit p [0, 1].
Sei fr 1 k n Ak das Ereignis erster Erfolg im k-ten Versuch (1 k n). Dann ist
u
P (Ak ) = (1 p)k1 p
Beweis:
Im Produktexperiment ist natrlich Pi = P fr jedes 1 i n, wobei P ({0}) = 1 p, P ({1}) = p.
u
u
Oenbar entspricht fr 1 k n das Ereignis Ak genau der Menge
u
{0} ... {0} {1} ,
(k1)-mal
da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten drfen. Gem Bemerkung 3.36
u
a
gilt dann
k1
i=1
k1
pk := Pk (Ak ) = (1 p)
p, k = 1, 2, ....
Fr den formalen Beweis bentigt man Matheorie. Diese Gleichung deniert die geometrische Veru
o
teilung auf N mit P (1) = p, P (2) = (1 p) p, ....
Dies ist tatschlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlicha
keitsfunktion handelt:
pk
k=1
=
geometrische Reihe
p
p
p
p
k=1
k=0
(1 p)k1
(1 p)k
1
1 (1 p)
1.
3.40 Lemma:
Es gilt
P (A) =
k+r1 r
k
p (1 p)
k
Beweis:
k+r
Sei = {0, 1}
der Produktraum mit der Verteilung, welche durch pi (1) = p, pi (0) = 1 p,
1 i k + r gegeben ist. Natrlich soll dabei 1 fr Erfolg und 0 fr Misserfolg stehen.
u
u
u
Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r 1 Erfolge und k Misserfolge vor
dem r-ten Erfolg zu erhalten genau
k + r 1 r1
p
(1 p)k+r1(r1)
r1
=
=
k + r 1 r1
k
p
(1 p)
r1
p
rter Erfolg
k+r1
k
pr (1 p)
k + r 1 (r 1)
k+r1 r
p (1 p)k ,
k
47
48
4
4.1
4 Zufallsvariablen, Verteilungen
Zufallsvariablen, Verteilungen
Zufallsvariablen
Das Ziel der Einfhrung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie
u
bilden ein wichtiges Handwerkszeug zur Formulierung und Lsung von stochastischen Problemen.
o
4.1 Denition:
Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und = eine beliebige Menge. Eine Abbildung
X:
u
heit Zufallsvariable (abgek rzt auch ZV) mit Werten in .
Falls Rd so heit X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X
reellwertige Zufallsvariable.
Beispiel 4.2:
Beim zweimaligen Wrfeln ist = {1, ..., 6}2 und = (a1 , a2 ) mit 1 ai 6.
u
Wir betrachten die Summe der Augenzahlen
X() := a1 + a2 ,
das Maximum der Wrfelergebnisse
u
X() := max {a1 , a2 } ,
X() := a1 a2 .
Dann ist etwa X() = a1 + a2 ist reellwertige Zufallsvariable mit Werten in = {2, ..., 12}.
Bemerkung 4.3:
X muss nicht injektiv und auch nicht surjektiv sein.
X transportiert Wahrscheinlichkeitsmasse, z.B. wenn X() = a1 + a2 ist
P (X = 4) = P ({(a1 , a2 ) | a1 + a2 = 4})
= P ({(1, 3), (2, 2), (3, 1)})
= P ({(1, 3)}) + P ({(2, 2)}) + P ({(3, 1)})
=
1
1
1
1
+
+
=
36 36 36
12
Das heit, man bestimmt die Verteilung von X auf uber Mengen wie X 1 ({4}).
A X 1 (A ) = { | X() A }.
Die allgemeinen Regeln fr Urbilder gelten natrlich auch fr Zufallsvariablen, wir wollen sie ohne Beweis
u
u
u
in folgendem Lemma festhalten:
4.4 Lemma (Eigenschaften):
Es gilt:
(U1) X 1 (X()) = und X 1 () =
(U2) X 1
iI
(U3) X 1
iI
A
i
A
i
iI
iI
X 1 (A )
i
X 1 (A )
i
(U4) X 1 ( \ A ) = \ X 1 (A )
4.5 Denition:
Sei ohne Einschrnkung = X(). F r einen diskreten Wahrscheinlichkeitsraum (, P ) wird durch
a
u
P X : P ( )
/ R, A P X (A ) := P (X 1 (A ))
4 Zufallsvariablen, Verteilungen
49
Beweis:
Wir mssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:
u
(A1) P X (A ) 0 gilt.
(A2) P X ( )
Denition
P X 1 ( ) = P () = 1
A
i
Denition
X 1
A
i
i=1
i=1
X 1
A
i
i=1
(U3)
(A )
i
i=1
-Additivitt
a
P (X 1 (A ))
i
i=1
Denition
P X (A ).
i
i=1
Notation 1:
Sei (, P ) diskreter Wahrscheinlichkeitsraum, X : eine Zufallsvariable.
Man schreibt/meint
(X = x) := { | X() = x} ,
x
und
(X A) := {X A} = { | X() A}
, A .
1
36
(a1 , a2 ) .
x1
36
13x
36
falls x = 2, ..., 7,
.
falls x = 8, ..., 12
2x 1
.
36
50
4 Zufallsvariablen, Verteilungen
1
0
/ {0, 1}, 1A () =
falls A
falls w A
/
die Indikatorvariable zu A.
Die Verteilung von X = 1A sieht wie folgt aus:
P X ({1}) = P X 1 ({1}) = P ({ | X() = 1}) = P (A)
P X ({0}) = P X 1 ({1}) = P ({ | X() = 0}) = P (AC )
Beispiel 4.9:
Sei = {1, ..., 6} und A = {2, 4, 6}. Dann ordnet 1A wie folgt zu:
2, 4, 6 1,
1, 3, 5 0.
Bemerkung 4.10:
Falls Rd , d 2 und damit X() = (X1 (), ..., Xd ()) so ist fr A = A1 ... Ad :
u
P (X A) = P
j=1
{Xj Aj } .
P (X = x) = P (X1 = x1 , ..., Xd = xd ) = P
j=1
Xi1 ({xi }) .
Dann heit P X = P (X1 ,...Xn ) die gemeinsame Verteilung von X1 , ...Xn . Die zugehrige Wahrscheino
lichkeitsfunktion ist
p(x1 , ...xn ) = P (X1 = x1 , ...Xn = xn )
Beispiel 4.12:
Wir wollen wieder zweifach mit einem fairen Wrfel werfen. Betrachte also = {1, 2, 3, 4, 5, 6} mit der
u
/ (also = ),
Lapace-Verteilung P . Deniere fr (a1 , a2 ) = die Zufallsvariablen X1 , X2 :
u
X1 () :=
min {a1 , a2 } ,
X2 () :=
max {a1 , a2 } .
Die gemeinsame Verteilung von X1 und X2 knnen wir dann als Matrix schreiben. Setze dazu c :=
o
und erhalte
x1 / x2
P (X1 ) ({x1 })
2c
2c
2c
2c
2c
11c
2c
2c
2c
2c
9c
2c
2c
2c
7c
2c
2c
5c
2c
3c
P (X2 ) ({x2 })
3c
5c
7c
9c
11c
1
36
4 Zufallsvariablen, Verteilungen
51
Dabei steht in der Zelle (i, j) natrlich P (X1 ,X2 ) ({i} {j}) = P (X1 = i, X2 = j) und wir haben in der
u
letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese
sich einfach als Summe der Zeilen- / Spalteneintrge berechnen.
a
4.13 Denition:
Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj :
F r eine Indexauswahl
u
1 i1 < ... < ik n
/ f r 1 j n Zufallsvariablen.
j u
nennen wir die gemeinsame Verteilung von Xi1 , ..., Xik eine k-dimensionale Randverteilung oder
auch Marginalverteilung.
Beispiel 4.14:
u
Sei X = (X1 , X2 ). Dann sind P Xi fr i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel
P X1 (x1 ) = P (X1 = x1 ) =
P (X1 = x1 , X2 = x2 ) ,
x2 X2 ()
4.1.1
x1 .
1
1
36
gilt, aber
11 1
1
=
36 36
36
ist. Daher sollten X1 und X2 wie dort deniert nicht unabhngig sein.
a
P (X1 = 1) P (X2 = 1) =
4.16 Denition:
Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi :
Wir nennen X1 , ..., Xn unabhngig, wenn
a
/ f r 1 i n Zufallsvariablen.
i u
P (X1 ,...,Xn ) =
Xi
i=1
PX
i=1
P
i=1
Xi
(A1 ... An ) =
P Xi (Ai ) ,
i=1
Ai f r i = 1, ...n.
i u
Beispiel 4.17:
/ {0, 1} durch folgende Tabelle gegeben, in welche wir auch gleich die
Sei n = 2 und seien X1 , X2 :
X2
X1
wie im obigen Beispiel eintragen:
und P
Einzelverteilungen P
x1 /x2
X2
({x2 })
0.28
0.4
0.18
0.12
P X1 ({x1 })
0.42
0.6
0.3
0.7
P
i=1
Xi
(x1 , x2 )
Denition
52
4 Zufallsvariablen, Verteilungen
/ f r 1 i n Zufallsvariablen.
i u
P (X1 A1 , ..., Xn An ) =
i=1
P (Xi Ai ) .
P (Xi = xi ) .
P (X1 = x1 , ..., Xn = xn ) =
i=1
Beweis:
(1)(2) Fr beliebige Ai , 1 i n, gilt
u
i
P (X1 A1 , ..., Xn An )
X1 ,...,Xn unabhngig
a
Xi
(A1 ... An )
i=1
P Xi (Ai )
=
i=1
n
=
i=1
P (Xi Ai )
u
(3)(1) Hier gilt fr alle xi , 1 i n:
i
(X1 ,...,Xn )
(x1 , ..., xn )
(3)
P (Xi = xi )
i=1
Denition
Xi
(x1 , ..., xn )
i=1
PX
gehrigen Wahrscheinlichkeitso
i=1
u
funktionen auf allen Tupeln (x1 , ..., xn ) 1 ... n uberein und aus diesem Grund mssen die
perimenten, die vllig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als
o
u
Ziegenproblem oder auch 3-Tren-Problem bekannt ist:
Beispiel 4.19:
Wir betrachten drei Tren mit den Nummern 1 bis 3, wobei hinter einer rein zuflligen Tr ein Geu
a
u
winn (etwa ein Auto) und hinter den anderen beiden Tren je eine Ziege ist. Die Tren sind natrlich
u
u
u
verschlossen. Das Spiel luft nun wie folgt ab:
a
(1) Der Kandidat whlt eine Tr.
a
u
4 Zufallsvariablen, Verteilungen
53
(2) Der Moderator net eine der beiden anderen Tren, aber nicht die, hinter welcher sich der Gewinn
o
u
bendet.
(3) Der Kandidat darf wechseln.
Die Frage ist nun, ob es sich fr den Kandidaten lohnt, zu wechseln.
u
Wir modellieren das Problem durch folgende Zufallsvariablen:
X1 := Nummer der Tr, hinter welcher sich der Gewinn bendet ( {1, 2, 3}).
u
X2 := Nummer der Tr, die der Kandidat in Schritt (1) auswhlt ( {1, 2, 3}).
u
a
Nach unseren Annahmen ist dann
P (X1 = 1) = P (X1 = 2) = P (X1 = 3) =
1
3
(der Gewinn ist rein zufllig verteilt) und die Zufallsvariablen X1 und X2 sind unabhngig (der Kandidat
a
a
hat keine Informationen uber die Gewinntr.
u
Verfolgt der Kandidat die Strategie nicht wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt. Also
P ( Gewinn)
P (X1 = X2 )
3
P (X1 = i, X2 = i)
=
i=1
3
X1 ,X2 unabhngig
a
P (X1 = i) P (X2 = i)
i=1
1
3
=1
3
3
P (X2 = i)
i=1
=1
1
.
3
Man beachte, dass es fr dieses Ergebnis vllig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der
u
o
Kandidat mit Vorliebe eine der Tren auswhlt.
u
a
Verfolgt der Kandidat dagegen die Strategie wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt
(weil der Moderator dann nur genau eine Tr nen kann, hinter der natrlich eine Ziege steht, und der
u o
u
Kandidat in Schritt (3) dann zwangslug auf die Gewinn-Tr wechselt). Es folgt also
a
u
2
1
P ( Gewinn) = P (X1 = X2 ) = 1 P (X1 = X2 ) = 1 = .
3
3
Die Strategie wechseln ist also deutlich besser!
xi . Ist
i=1
Xi (),
i=1
/ eine Zufallsvariable
54
4 Zufallsvariablen, Verteilungen
Beispiel 4.22:
Sei X :
/ R gegeben durch
x xk
k
j=1
P Xij Aij .
Es gilt
P (Xi1 ,...,Xik ) (Ai1 ... Aik )
P (Xi1 Ai1 , ..., Xik Aik )
trivial!
trivial!
k 1 , Xik
i
..., Xik 1
trivial!
Aik , Xik +1
trivial!
X1 ,...,Xn unabh.
k +1 , ..., Xn
i
trivial!
trivial!
=
i=1
i=ij j{1,...,k}
P (Xi )
i
=1
j=1
P Xij Aij
=
j=1
P Xij Aij .
/ , j = 1, ..., k
j
iIj
unabhngig.
a
, j = 1, ..., k
4 Zufallsvariablen, Verteilungen
55
Beweis:
Es gengt oenbar zu zeigen, dass fr eine Abbildung
u
u
g : ...
1
m
/ , 1 m < n,
i=m+1
(4.1)
=
ag1 ({y})
P (X1 = a, ..., Xm = a)
ag1 ({y})
Damit folgt
P (X = y) P (Xm+1 = xm+1 , ..., Xn = xn )
=
ag1 ({y})
Unabhngigkeit, Lemma 4.23
a
ag1 ({y})
usw..
Beispiel 4.26:
Seien X1 , ..., X5 unabhngige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit
a
Werten in R. Dann sind auch die Zufallsvariablen
X1 sin(X4 ), X2 exp(X3 X5 )
unabhngig. Um das zu sehen wende das Blockungslemma auf I1 = {1, 4} und I2 = {2, 3, 5} mit g1 (x, y) =
a
x sin(y), g2 (x, y, z) = x exp (y z) an.
56
4.2
4 Zufallsvariablen, Verteilungen
Verteilungen
/ eine Zufallsvariable.
4.27 Denition:
Ist = {x1 , ..., xn }, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls
P (x = xk ) =
1
k = 1, ..., n.
n
4.28 Denition:
Ist = {0, 1}, so nennen wir X Bernoulli-verteilt mit Parameter p [0, 1], falls
P (X = 1) = p, P (x = 0) = 1 p.
Wir schreiben dann auch X B (1, p).
4.29 Denition:
Ist = {1, ..., n}, so nennen wir X Binomial-verteilt mit Parametern p [0, 1] , n N, falls
P (X = k) =
n k
nk
p (1 p)
, k = 0, ..., n.
k
P (X1 = a1 , ..., Xn = an )
(a1 ,...,an ){0,1}n
n
ai =k
i=1
ai = k gilt
i=1
X1 ,...,Xn unabhngig
a
nk
Auerdem ist
n
n
ai = k
i=1
=
Damit folgt schon die Behauptung.
4 Zufallsvariablen, Verteilungen
57
4.31 Denition:
Ist = N, so nennen wir X geometrisch verteilt mit Parameter p [0, 1], falls
P (X = k) = p (1 p)
k1
, k N.
k1
P (X k) = (1 p)
f r jedes k N.
u
Beweis:
Es ist
P (X k) =
=
j=k
P (X = j)
j=k
(1 p)j1 p
k1
p (1 p)
j=0
(1 p)
1
=p
(1 p)k1
Uberlebenswahrscheinlichkeit.
Will man etwa modellieren, wie gro die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k
Arbeitsgnge hlt, so verwendet man X Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen
a
a
festen Arbeitsgang uberlebt.
4.34 Lemma:
a
Ist X Geo(p) eine Zufallsvariable, so gilt die Gedchtnislosigkeit, nmlich
a
P (X k + j | X > j) = P (x k) j, k N.
58
4 Zufallsvariablen, Verteilungen
Beweis:
Seien k, j N. Da k 1 ist stets
{X k + j} {X > j} = { | X() k + j} { | X() j + 1} = {X k + j}
(4.2)
Damit folgt
P (X k + j | X > j)
P (X k + j)
P (X j + 1)
(4.2)
k+j1
(1 p)
(1 p)
Lemma 4.32
(1 p)
Lemma 4.32
k1
P (X k) .
k
, k N0 .
k!
=poi (k)
4 Zufallsvariablen, Verteilungen
4.2.1
59
/ (0, ), so gilt
f r k = 0, 1, ...
u
Beweis:
Zunchst gilt
a
P (Xn = k) =
n
pk (1 p)nk
n
k
n (n 1) ... (n k + 1) 1
npn
k (n pn )k 1
k!
n
n
n n1
n k + 1 (n pn )k
n pn
...
1
n
n
n
k!
n
(1 pn )k
(1 pn )k
...
n
n
n
Das liefert
P (Xn = k)
/
/
k
,
k!
/
/
exp(),
1,
(1 pn )k
(n pn )k
k!
n pn n
1
n
/
/
1.
k
/ exp()
k!
(1 exp(np)) p
poi (k)
kA
p.
Insbesondere ist
P (X = k) exp()
k
(1 exp(np)) p
k!
k = 0, 1, 2, ...
Beispiel 4.41:
Sei n = 1000 und p = 103 . Dann ist der Fehler der Approximation:
P (x A)
kA
60
5
5.1
5.1 Lemma:
Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf
. Dann gilt
|X()| P () <
|x| P X (x) <
x
X() P () =
x P (X = x).
Beweis:
Wir berechnen
X() P () =
X()=x
X()=x
=
x
=
x
X() P ()
x P ()
P ()
X()=x
x P (X = x).
Die gleiche Rechnung mit |X()| bzw. |x| zeigt, dass die < -Bedingungen quivalent sind.
a
5.2 Denition:
Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf
. Wir denieren den Erwartungswert E(X) von X durch
E(X) :=
=
x
x P (X = x), falls
|X()| P () <
(5.1)
(5.2)
Bemerkung 5.3:
(5.2) zeigt, dass E(X) nur von der Verteilung P X von X abhngt. E(X) ist in diesem Sinne also eine
a
Kenngre der Verteilung von X.
o
Bemerkung 5.4:
Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldeniert ist.
Bemerkung 5.5:
Ist X 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die
< -Forderung verzichten und lsst auch E(X) = zu.
a
5.1.1
Beispiel 5.6:
Sei X Laplace-verteilt auf = {x1 , ..., xN } R. Dann gilt
N
E(X) =
i=1
xi P (X = xi ) =
xi ,
da P (X = xi ) =
i=1
1
N
i=
i=1
1 N (N + 1)
N +1
=
.
N
2
2
1
.
N
61
Beispiel 5.7:
Sei X B(1, p) eine Bernoulli-verteilte Zufallsvariable mit = {0, 1} und P (X = 1) = p. Dann ist
E(X) = 0 (1 p) + p = p.
Insbesondere liefert das fr die Indikatorvariable X = 1A einer Teilmenge A und eine Wahrscheinu
lichkeitsverteilung P auf , dass X B(1, p) mit p = P (A), also E(X) = P (A).
Damit ist fr das Wrfeln einer geraden Zahl (also A = {2, 4, 6} {1, ..., 6}) der Erwartungswert
u
u
E(1A ) = P (A) =
1
,
2
n
pk (1 p)nk
k
E(X) =
k=0
einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.
Beispiel 5.9:
Sei X Poi() eine Poisson-verteilte Zufallsvariable. Dann ist
E(X) =
k=0
k exp()
exp()
k=1
k
k!
k1
(k 1)!
k
k!
exp()
exp() exp()
k=0
5.10 Hilfssatz:
Sei X eine diskrete Zufallsvariable auf (, P ) mit Werten in N0 . Dann gilt
E (X) =
n=1
Beweis:
Nach 5.1 gilt
E (X) =
n=0
P (X n) .
n P (X = n) =
n=1
(5.3)
n P (X = n) ,
und diese Summe konvergiert absolut. Daher knnen wir Umordnen und erhalten so
o
E (X) =
n=1 k=n
P (X = k) =
n=1
P (X n) ,
62
Beweis:
Anwenden von Hilfssatz 5.10 liefert
(5.3)
E (X)
n=1
Lemma 4.32
n=1
n=0
P (X n)
(1 p)n1
(1 p)
1
1 (1 p)
1
,
p
=
womit die Behauptung schon gezeigt ist.
5.1.2
Dann ist
E(g(X)) =
x
g(x) P (X = x).
Beweis:
Fr die Verteilung von Y = g X gilt:
u
P (Y = y) =
=
=
P (g X = y)
P ({ | g X() = y})
x
g(x)=y
{ | X() = x}
P (X = x)
x
g(x)=y
E(Y )
=
yY ()
=
yY ()
y P (Y = y)
y
P (X = x)
xg1 ({y})
=
yY () xg1 ({y})
=
yY () xg1 ({y})
=
x
y P (X = x)
g(x) P (X = x)
g(x) P (X = x)
Die selbe Rechnung mit Betrgen zeigt, dass der Erwartungswert E (g(X)) im denierten Sinne existiert.
a
63
Beispiel 5.13:
Sei g(x) = xk . Dann heit
E(X k ) =
xk P (X = x)
k = 1, 2, ...
das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das 1.Moment von X
E(X + Y ) =
(X() + Y ()) P ()
X() P () +
Y () P ()
E(X) + E(Y ).
E(aX) =
X() P () = a E(X).
X() P ()
Y () P () = E(Y ).
Linearitt
a
Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Fr Ai = {(a1 , ..., an ) | ai = i} gilt
u
dann
n
1 Ai .
X=
i=1
P (Ai ) =
E(1Ai ) =
=
i=1
E(X) = E
i=1
i=1
1
= 1.
n
64
= n
i=1
1
i
n ln(n).
Damit knnen wir den Erwartungswert fr n = 3, 10, 100 und 10000 berechnen:
o
u
n
E(X)
5.5
10
518.7
10000
5.1.3
29.3
100
97876.1
Produktformel
Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets
E (X Y ) = E (X) E (Y )
(5.4)
gilt.
Beispiel 5.18:
Sei X B(1, p) und Y = X. Dann haben wir
E (X Y ) = E X 2 = E (X) = p,
da X 2 = X, denn schlielich nimmt X nur Werte in {0, 1} an. Andererseits ist aber
2
E (X) E (Y ) = (E (X)) = p2 .
Fr p (0, 1) gilt aber p2 = p, womit (5.4) im Allgemeinen also falsch ist.
u
5.19 Satz (Produktformel fr unabhngige Zufallsvariablen):
u
a
Seien X, Y unabhngige Zufallsvariablen auf (, P ) mit existenten Erwartungswerten E(X), E(Y ). Dann
a
gilt
E (X Y ) = E(X) E(Y ).
65
Beweis:
Mittels der ersten Denition des Erwartungswerts (5.1) berechnet man
E (X Y )
(X Y ) ()P ({})
X() Y () P ({})
=
xX() yY ()
=
xX() yY ()
X()=x,Y ()=y
xy
X () Y () P ({})
=xy
P ({})
X()=x,Y ()=y
P (X = x, Y = y)
=
xX() yY ()
X,Y unabhngig
a
xX() yY ()
xX()
P (X = x) P (Y = y)
xP (X = x)
yY ()
yP (Y = y) ,
was nach der zweiten Denition (5.2) des Erwartungswertes genau E(X) E(Y ) entspricht.
Um die Existenz des Erwartungswertes E(X Y ) zu zeigen, fhrt man zunchst die selbe Rechnung mit
u
a
Betrgen durch.
a
Beispiel 5.20:
Wir betrachten zwei faire Wrfel und die Zufallsvariablen X1 :=erster Wurf, X2 :=zweiter Wurf.
u
Mit obigem Satz gilt dann
2
7
E (X Y ) = E (X) E (Y ) =
.
2
5.2
Varianzen
5.21 Denition:
Sei X eine reelle Zufallsvariable mit E X 2 < . Dann wird die Varianz von X deniert durch
2
V (X) := E (X E (X))
V (X).
Bemerkung 5.22:
(1) Da E X 2 < ist und fr jede reelle Zahl x R auch |x| 1 + x2 gilt, ist auch E (|X|) <
u
und daher existiert E (X) unter der Voraussetzung E X 2 < . Insbesondere ist V (X) also
wohldeniert.
2
(2) Da (X E(X)) gilt, muss auch V (X) 0 sein und X ist wohldeniert.
(3) X E(X) geht aus X durch Zentrieren hervor, d.h.
66
Bemerkung 5.24:
Nach der Transformationsformel fr den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) :=
u
2
(x E(X)) , x R:
Transformationsformel
V (X) = E(g(X))
xX()
(x E(X)) P (X = x) .
(5.5)
Beispiel 5.25:
Wir betrachten das einmalige Wrfeln mit einem fairen Wrfen und denieren die Zufallsvariable X als
u
u
die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 7 , und daher ist die Varianz von X nach
2
obiger Bemerkung gegeben als
6
2
7
1
35
x
V (X) =
=
.
2
6
12
x=1
5.26 Denition:
Sei k N und X eine reelle Zufallsvariable auf (, P ). Falls
E (X E(X))k
existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.
Bemerkung 5.27:
Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch die
Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine Kenngre
o
der Verteilung.
5.28 Denition:
Seien X, Y reelle Zufallsvariablen mit E X 2 < , E Y 2 < . Dann wird die Kovarianz von X und
Y deniert durch
CoV (X, Y ) = E ((X E(X)) (Y E(Y ))) .
Bemerkung 5.29:
Fr eine reelle Zufallsvariable gilt dann
u
CoV(X, X) = V (X).
5.30 Satz (Rechenregeln fr die Varianz):
u
Seien X, Y und Xi f r 1 i n reelle Zufallsvariablen mit E X 2 < , E Y 2 < und E Xi2 < ,
u
1 i n. Seien auerdem a, b R. Dann gelten die folgenden Rechenregeln
2
Xi
i=1
i=1
V (Xi )
CoV (Xi , Xj ) .
i,j=1
i=j
Xi
V (Xi ) .
=
i=1
i=1
Beweis:
(V1) Mittels der Linearitt des Erwartungswerts hat man
a
V (X) =
E (X E (X))2
2
E X 2 2E (X) X + (E (X))
E X 2 2 (E (X)) + (E (X))
E X 2 (E (X)) .
67
Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natru
lich der Wert der Zufallsvariablen selbst ist.
(V2) Es ist
V (aX + b) = E ((aX + b) E (aX + b))
= E a2 (X E(X))
= a2 E (X E(X))
= a2 V (X).
(V3) Man berechnet
CoV (X, Y ) =
E (X Y ) E (X) E (Y ) .
Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen
natrlich der Wert der Zufallsvariablen selbst ist.
u
(V4) Wir setzen Zi := Xi E (Xi ) fr 1 i n. Dann ist
u
i=1
Xi E
Xi
=
i=1
i=1
womit
n
Xi
i=1
(5.6)
(Xi E (Xi )) =
i=1
i=1
i=1
Zi
Xi E
Zi
n
i,j=1
=
i,j=1
i=1
j=1
Zj
i=1
i,j=1
i=j
E (Zi Zj )
CoV (Xi , Xj )
V (Xi ) +
i=1
E (Zi Zj )
2
E Zi +
Zi Zj
Zi =Xi E(Xi )
Xi
(5.6)
Zi ,
i=1
i,j=1
i=j
folgt.
(V5) Nach Satz 5.19 gilt wegen der Unabhngigkeit von X1 , ..., Xn fr alle Paare 1 i, j n, i = j:
a
u
E (Xi Xj ) = E (Xi ) E (Xj ) .
Mit Regel (V3) ist also CoV (Xi , Xj ) = 0 falls i = j. Damit folgt (V5) aus (V4).
68
Bemerkung 5.31:
Im Beweis von (V5) haben wir gezeigt, dass fr unabhngige, reelle Zufallsvariablen X, Y stets
u
a
CoV (X, Y ) = 0
gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:
Beispiel 5.32:
Betrachte eine Zufallsvariable X mit Werten in {N, ..., N } auf einem diskreten Wahrscheinlichkeitsraum
(, P ). Wir nehmen an, dass
P (X = n) = P (X = n) n {N, ..., N }
und 0 < P (X = 0) < 1 gilt.
a
Dann gilt CoV X, X 2 = 0, aber X und X 2 sind nicht unabhngig.
Beweis:
Zunchst ist
a
E (X)
(5.1)
k=N
k P (X = k)
N
0 P (X = 0) +
k=1
k P (X = k)
k=1
k P (X = k)
=
k=1
k (P (X = k) P (X = k))
=0 nach Voraussetzung
0.
(5.7)
(5.1)
k=N
k 3 P (X = k)
N
03 P (X = 0) +
k=1
k 3 P (X = k)
k=1
k 3 P (X = k)
=
k=1
k 3 (P (X = k) P (X = k))
=0 nach Voraussetzung
0.
(5.8)
E(X)
X2 E X2
=0 nach (5.7)
=
=
(5.7) & (5.8)
E X3 X E X2
E X 3 E (X) E X 2
0.
Bleibt zu zeigen, dass X und X 2 nicht unabhngig sind. Dazu nehmen wir an, X und X 2 wren una
a
abhngig. Dann gilt insbesondere
a
2
2
P (X,X ) (0, 0) = P X (0) P X (0)
69
P (X = 0, X = 0)
P X = 0, X 2 = 0
2
P (X,X ) (0, 0)
P X (0) P X (0)
P (X = 0) P X 2 = 0
(P (X = 0)) ,
unkorreliert
Beispiel 5.34:
Sei X B (1, p) fr p [0, 1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und
u
daher gilt wegen X 2 = X (X hat wieder nur Werte in {0, 1}):
V (X) = E X 2 (E (X))2
2
= E (X) (E (X))
= p p2
= p (1 p) .
V (X)
weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung
abhngt, gilt also
a
n
V (X)
Xi
V
i=1
n
(V5)
V (Xi )
i=1
Beispiel 5.34
np (1 p)
70
Beispiel 5.36:
Sei X Poi () fr ein 0 < < . Dann ist
u
P (X = k) = exp ()
k
fr k N
u
k!
und es gilt E (X) = wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und
haben so
2
V (X) = E X 2 (E(X)) = E X 2 2 .
Zur Berechnung von E X 2 nutzen wir den folgenden Trick:
E X 2 = E X 2 X + E (X) .
Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k 2 k auf E(X 2 X) = E(g(X)) an und
erhalte so
E X2 X
E (g(X))
Transformationsformel
k=0
k=0
k=2
k 2 k P (X = k)
k (k 1) exp ()
k
k!
k (k 1) exp ()
k
k!
exp ()
k=2
2 exp ()
k
(k 2)!
k=0
k
k!
exp () exp ()
2 .
n=1
(2n 1) P (X n) .
Beweis:
Mit der Transformationsformel (Satz 5.12) fr g(k) := k 2 folgt direkt
u
E (X) =
n=0
n2 P (X = n) =
n=1
n2 P (X = n) .
1
p
71
Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:
n2 P (X = n) =
n=1
1 P (X = 1) + 4 P (X = 2) + 9 P (X = 3) + 16 P (X = 4) + ...
(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)
+5P (X = 3) + 12P (X = 4) + ...
(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)
+5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...
n=1
(2n 1) P (X n) .
1
p (2n 1) (1 p)n1
p n=1
E X2
1
(2n 1) P (X = n)
p n=1
gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k 1 rckwrts an und erhalten
u
a
so
=
1
E ((2X 1))
p
1
1
2E(X)
p
p
1
2
p2
p
E X2
2p
.
p2
(V1)
E X 2 (E (X)) =
2p
1
1p
2 =
.
p2
p
p2
72
6
6.1
E(X)
a
(6.1)
Beweis:
Es gilt
P (X a)
P (X = x)
=
xX(),xa
xX(),xa
xX()
x
P (X = x)
a
x
P (X = x)
a
1
E(X),
a
V (X)
a2
(6.2)
Beweis:
Da sowohl |X E(X)| als auch a positive Zahlen sind, ist
|X E(X)| a (X E(X)) a2 .
(6.3)
Damit gilt
P (|X E(X)| a)
(6.3)
(6.1)
P (X E(X)) a2
2
E (X E(X))
a2
V (X)
,
a2
1
c2
(6.4)
V (X).
Bemerkung 6.4:
Fr jede reelle, diskrete Zufallsvariable X mit E X 2 < gilt also
u
P (|X E(X)| 2X )
P (|X E(X)| 3X )
usw.
1
4
1
9
73
Beispiel 6.5:
Wir betrachten 100 faire Mnzwrfe und denieren die Zufallsvariable X als die Anzahl der Kopfu
u
Ergebnisse. Dann ist X B 100, 1 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 1 = 25. Also
2
4
ist X = 5 und daher haben wir nach (6.4):
P (|X 50| 10)
P (|X 50| 15)
1
4
1
9
Bemerkung 6.6:
Die Abschtzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, knnen oft verbessert
a
o
werden. Siehe dazu etwa spter die Exponentialungleichungen oder den zentralen Grenzwertsatz.
a
6.7 Satz (Schwaches Gesetz groer Zahlen (SGGZ)):
Seien X1 , ..., Xn unabhngige diskrete Zufallsvariablen mit gleicher Verteilung auf (, P ) und es gelte
a
u
u
E Xi2 < f r jedes 1 i n. Dann gilt f r jedes > 0:
1
n
i=1
Xi E (X1 )
V (X1 )
n2
/ 0.
(6.5)
Beweis:
Zunchst halten wir fest, dass
a
1
n
E (X1 ) = E
E (Xi ) .
i=1
Auerdem gilt E (X1 ) = E (Xi ) fr jedes 1 i n, da alle Zufallsvariablen nach Voraussetzung die
u
gleiche Verteilung besitzen.
Daher folgt mit der Tschebyschow-Ungleichung:
1
n
i=1
(6.2)
Xi E (Xi )
1
n
Xi
i=1
2
n
(V2)
Xi
i=1
n2 2
n
X1 ,...,Xn unabhngig
a
V (Xi )
i=1
n2 2
V (X1 )
.
n2
=
Das zeigt die Behauptung.
Bemerkung 6.8:
Damit liegt fr groe n der empirische Mittelwert
u
1
n
Xi
i=1
6.9 Satz:
Seien Xi B(1, p) f r ein p [0, 1] und 1 i n, auerdem seien X1 , ..., Xn unabhngig. Dann gilt
u
a
P
1
n
i=1
Xi p
1
.
4n2
(6.6)
74
Beweis:
Wir wissen schon, dass E (X1 ) = p und V (X1 ) = p (1 p) gilt. Nach dem SGGZ gilt also
1
n
P
Oenbar ist aber p (1 p)
1
4
i=1
Xi p
p (1 p)
.
n2
Beispiel 6.10:
Wir betrachten 1000 faire Mnzwrfe und setzen
u
u
1 Kopf im i-ten Wurf
.
0 Zahl im i-ten Wurf
Xi :=
1
Dann gilt Xi B 1, 2 fr alle 1 i 1000 und die Zufallsvariablen X1 , ..., X1000 sind unabhngig.
u
a
Nun setzen wir
1000
Xi ,
X :=
i=1
1000
E (Xi ) =
E (X) =
i=1
i=1
1
= 500
2
(6.6)
1
1000
1
4 1000
1000
i=1
Xi
1
1
2
10
1
100
1
= 0.025.
40
6.2
Exponential-Ungleichungen
Notation 2:
Sind X1 , ..., Xn unabhngige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheina
lichkeitsraum (, P ) gegeben, so schreiben wir auch
Xi
i.i.d.
B (1, p) ,
1
n
Xi p
1
exp n2 ,
4
Xi p
1
exp n2 ,
4
Xi p
1
2 exp n2 .
4
i=1
i=1
1
n
i=1
(6.7)
75
Beweis:
Oenbar folgt die dritte Ungleichung mittels der Booleschen Ungleichung (1.7) bereits aus den ersten
beiden Ungleichungen:
1
n
i=1
(1.7)
Xi p
1
n
i=1
Xi p
+P
1
n
i=1
Xi p .
Wir zeigen nur die erste Ungleichung, die zweite lsst sich absolut analog beweisen.
a
P
1
n
i=1
Xi p
1
n
= P
i=1
Xi p +
= P
i=1
Xi np + n .
(6.8)
1
n
i=1
(6.8)
Xi p
n k nk
p (1 p)
k
k=m
>0 beliebig
=:q
k=m
exp ( (k n (p + )))
n
exp (n)
k=m
n
n k nk
p q
k
n
exp (k np) pk q nk
k
n
(p exp (q))k (q exp (p))nk
k
exp (n)
k=m
(6.9)
(6.9)
i=1
Xi p
exp n 2
+ q p + exp 2 p2
2,
(6.10)
2
exp
n n
2
1
= exp 2 n ,
4
1
1000
1000
i=1
Xi
1
0.1
2
(6.7)
1
1
2 exp 1000
4
100
= 2 exp
10
4
0.164,
was oenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafr ist, dass n = 1000
u
einfach noch zu klein ist!
Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich
bessere Ergebnisse erzielen kann.
2 F r x < 0 ist diese Ungleichung oensichtlich. F r x = 0 gilt Gleichheit und f r x 1 ist x2 x, womit die Ungleichung
u
u
u
aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?
76
1
n
P
1
n
exp 2n2 ,
Xi p
exp 2n2 ,
Xi p
2 exp 2n2 .
i=1
i=1
1
n
Xi p
i=1
(6.11)
Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:
6.14 Satz (Hoeding-Ungleichung):
Seien X1 , ..., Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a Xi b f r alle 1 i n.
u
Mit c := b a gilt dann f r alle > 0:
u
P
1
n
i=1
Xi E (X1 )
2 exp 22
n
.
c2
Bemerkung 6.15:
Oenbar folgt die Chernov-Ungleichung aus der Hoeding-Ungleichung mit a = 0 und b = 1.
Beispiel 6.16:
Wir betrachten wieder die Mnzwrfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier
u
u
P
1
1000
1000
i=1
Xi
1
0.1
2
(6.11)
2 exp 2 1000
1
100
7
7.1
77
Wir betrachten oft Summen unabhngiger Zufallsvariablen. Was kann man uber die Verteilung dieser
a
Summe aussagen?
7.1 Satz:
Es seien X1 , ..., Xn unabhngige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ).
a
(1) Dann ist die Verteilung P X1 +...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 , ..., P Xn
der Zufallsvariablen X1 , ..., Xn festgelegt.
(2) F r x (X1 + ... + Xn ) () (also x im Wertebereich der Summe) gilt
u
P (X1 + ... + Xn = x) =
x1 X1 (),...,xn Xn ()
x1 +...+xn =x
(7.1)
Beweis:
Oenbar folgt (2) aus (1). Fr (1) sehen wir zunchst, dass
u
a
{X1 + ... + Xn = x} =
x1 X1 (),...,xn Xn ()
x1 +...+xn =x
{X1 = x1 , ..., Xn = xn } .
Damit folgt
P (X1 + ... + Xn = x)
P (X1 = x1 , ..., Xn = xn )
x1 X1 (),...,xn Xn ()
x1 +...+xn =x
X1 ,...,Xn unabhngig
a
x1 X1 (),...,xn Xn ()
x1 +...+xn =x
Seien X, Y B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y B(2, p) gilt, d.h. die
Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor
1 1 1
, ,
4 2 4
In diesem Sinne ist die Bernoulli-Verteilung eine schne Verteilung, ihre Faltung gibt wieder eine uns
o
0 falls x = 1 .
P (X + Y = x) = P (2X = x) =
1
falls x = 2
2
78
7.1.1
Spezialfall
(7.1)
x,yN0
x+y=k
P (X = x) P (Y = y)
=
x=0
P (X = x) P (Y = k x)
=
x=0
pX (x) pY (k x)
(7.2)
Beispiel 7.7:
Wir betrachten die Augensumme beim zweifachen Wrfeln. Setze dazu X1 := erster Wurf und X2 :=
u
zweiter Wurf. Wir haben in einem frheren Beispiel schon gesehen, dass die Verteilung der Summe
u
P (X + Y = k) fr k = 2, ..., 12 den Wahrscheinlichkeitsvektor
u
1 2 3 4 5 6 5 4 3 2 1
, , , , , , , , , ,
36 36 36 36 36 36 36 36 36 36 36
liefert. Das kann man mit der obigen Darstellung leicht nachrechnen.
7.1.2
7.8 Satz:
Seien X, Y zwei unabhngige, diskrete Zufallsvariablen mit X Poi () , Y Poi () f r zwei Parameter
a
u
0 < , < . Dann gilt
X + Y Poi ( + ) .
Beweis:
Da die Poisson-Verteilung fr Zufallsvariablen mit Werten in N0 deniert ist, knnen wir obigen Spezialfall
u
o
anwenden:
P (X + Y = k)
(7.2)
x=0
P (X = x) P (Y = k x)
exp ()
x=0
kx
x
exp ()
x!
(k x)!
k
1
k!
exp ( ( + ))
x kx
k!
x! (k x)!
x=0
1
k
exp ( ( + )) ( + )
k!
poi+ (k) .
=
=
Das zeigt die Behauptung.
Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der
Parameter.
Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus
zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei
Poi () verteilt, bei der zweiten Zentrale Poi () verteilt.
Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi ( + )
verteilt ist.
7.9 Hilfssatz:
Es gilt
k
x=0
n
x
m
kx
n+m
.
k
79
Beweis:
Wir wir im Kapitel uber Kombinatorik gesehen haben, ist a genau die Anzahl der Mglichkeiten, b
o
b
Elemente aus einer a-elementigen Menge auszuwhlen. Also ist n+m genau die Anzahl der Mglichkeiten,
a
o
k
aus der Menge {1, ..., n + m} genau k Elemente auszuwhlen.
a
Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1, ..., n} ausgewhlt werden, und
a
die Elemente, die aus {n + 1, ..., n + m} ausgewhlt werden. Die Summe dieser beiden Auswahlen muss
a
entsprechend k ergeben. Jetzt klassizieren wir dies nach der Kardinalitt x der ersten Auswahl, die
a
zwischen 0 und k liegen muss. Oenbar ist dann n+m genau die Summe all dieser Klassikationen, d.h.
k
k
n+m
k
=
x=0
n
x
m
,
kx
=
(7.2)
P (X + Y = k)
k
x=0
k
=
x=0
k
=
x=0
P (X = x) P (Y = k x)
m
n x
pkx (1 p)m(kx)
p (1 p)nx
kx
x
n
x
m
nx+mk+x
pk (1 p)
kx
k
=
Hilfssatz 7.9
pk (1 p)n+mk
x=0
n
x
m
kx
n+m k
n+mk
p (1 p)
.
k
Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.
80
7.2
Bedingte Verteilungen
7.11 Denition:
/ , Y :
Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X :
variablen auf diesem Raum. Sei weiter x X () mit P (X = x) > 0.
Die bedingte Verteilung von Y gegeben X = x ist
/ diskrete Zufalls-
P (Y A | X = x) f r A .
u
Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist
pY |X (y|x) := P (Y = y | X = x) =
p(X,Y ) (x, y)
P (Y = y, X = x)
=
,
P (X = x)
pX (x)
(x, y) , .
D.h. f r jedes x wie in der Annahme ist pY |X (|x) eine Wahrscheinlichkeitsfunktion auf bzw. Y ().
u
Beispiel 7.12:
Wir wrfeln zweimal mit einem fairen Wrfel und denieren unsere Zufallsvariablen X1 , X2 als die Eru
u
gebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Natrlich sind X1 und X2 unabhngig. Setze nun
u
a
Y := X1 + X2 , X := X1 .
Dann ist Y die Augensumme des Experiments.
Zunchst berechnen wir formal
a
P (Y = y | X = x)
P (X1 + X2 = y | X1 = x)
=
=
P (X1 + X2 = y, X1 = x)
P (X1 = x)
P (X2 = y x, X1 = x)
P (X1 = x)
X1 ,X2 unabhngig
a
1
6
P (X2 = y x) =
falls 1 y x 6
.
sonst
Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X (y|x)
angeben. In der x-ten Zeile steht dabei pY |X (|x):
x/y
10
11
12
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
1
6
Beispiel 7.13:
Seien X B (n, p) und Y B (m, p) unabhngige Zufallsvariablen. Die bedingte Verteilung von X
a
gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y B (n + m, r)) der Frage
Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten
auftreten?
81
Man berechnet
=
P (X = j | X + Y = k)
pX|X+Y (j|k)
P (X = j, Y = k j)
P (X + Y = k)
P (X = j) P (Y = k j)
P (X + Y = k)
X,Y unabhngig
a
n
j
nj
pj (1 p)
n+m
k
n
j
m
kj
n+m
k
m(kj)
m
kj
pkj (1 p)
m+nk
pk (1 p)
und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung fr das Experiment
u
n + m Kugeln gegeben, davon n rote.
Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!
entspricht.
Beispiel 7.14:
Seien X Poi () , Y Poi () unabhngige Zufallsvariablen. Wir modellieren damit etwa Anfragen an
a
einen Server, die uber zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an
der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X +Y = k ist dann die Frage, wie viele
der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y Poi ( + )
und damit berechnet man
=
P (X = j | X + Y = k)
pX|X+Y (j|k)
P (X = j, Y = k j)
P (X + Y = k)
X,Y unabhngig
a
P (X = j) P (Y = k j)
P (X + Y = k)
kj
exp ( ) (+)
k!
1
k j kj
j
j
( + ) ( + )kj
k
j
kj
=1 +
gegeben.
p(X,Y ) (x, y)
= pY (y)
pX (x)
pY |X (y, x) = pY (y)
Nach Satz 4.18 ist die hintere Bedingung aber quivalent zur Unabhngigkeit von X und Y .
a
a
82
7.2.1
7.16 Denition:
/ diskrete Zufalls/ , Y :
Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X :
variablen auf diesem Raum. F r x mit P (X = x) > 0 ist der bedingte Erwartungswert von Y
u
gegeben X = x deniert durch
E (Y | X = x) =
yY ()
y pY |X (y|x) .
Beispiel 7.17:
Wir betrachten zweifaches Wrfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster
u
Wurf. Dann schlieen wir aus obiger Tabelle, dass
12
E (Y | X = x) =
x+6
y=2
y pY |X (y|x) =
y
= x + 3.5.
6
y=x+1
Beispiel 7.18:
Seien X Poi () und Y Poi () unabhngig. Dann ist die bedingte Verteilung von X gegeben
a
u
X +Y = x genau durch B x, + gegeben, womit nach dem Erwartungswert fr Binomial-Experimente
sofort
E X X +Y =x =x
+
folgt.
7.2.2
Der eben denierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher
g (x) := E (Y | X = x) ,
7.19 Denition:
Die Abbildung g (X) :
x X () .
/ R, also
/ X()
/R
ist eine Zufallsvariable auf und heit die bedingte Erwartung von Y gegeben X. Wir schreiben auch
E (Y | X) := g (X) .
Beispiel 7.20:
Wir wrfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5
u
gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable
E (Y | X) = X + 3.5.
Beispiel 7.21:
Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung
aus diesem Beispiel folgt
.
E (X | X + Y ) = (Y + X)
+
Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten
Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz:
7.22 Satz (iterierte Erwartung):
Es gilt
E (Y ) = E (E (Y | X)) .
Beweis:
Wende Satz 7.23 mit f 1 an.
(7.3)
83
Der folgende Satz ist allgemeiner und beinhaltet den Satz uber die iterierte Erwartung bereits:
7.23 Satz:
F r eine beliebige Abbildung f : X ()
u
/ R gilt
(X,Y )
/ X() Y ()
/R
R2
fr h (x, y) := f (x) y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12)
u
E (f (X) Y )
= E (h(X, Y ))
=
h(x, y)P (X = x, Y = y)
xX()
yY ()
=
xX() yY ()
=
xX()
f (x) pX (x)
yY ()
ypY |X (y|x)
=E(Y | X=x)
=
xX()
=
xX()
f (x) pX (x) E (Y | X = x)
=g(x)
f (x)g(x) pX (x)
= E (f (X) g(X))
= E (f (X) E (Y | X)) ,
was die Behauptung zeigt.
Beispiel 7.24:
Wieder zweifaches Wrfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben
u
oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:
E (Y )
7.2.3
(7.3)
7.25 Denition:
Sei I eine beliebige Indexmenge und seien Xi , i I Zufallsvariablen. Wir nennen Xi , i I unabhngig,
a
a
falls jede endliche Teilfamilie Xij , j J, #J < , unabhngig ist.
Der folgende Satz behandelt den Erwartungswert zuflliger Summen:
a
7.26 Satz (Waldsche Identitt):
a
Sei N eine Zufallsvariable mit Werten in N0 . Seien X1 , X2 , ... Zufallsvariablen mit gleichem Erwartungswert und N, X1 , X2 , ... im obigen Sinne unabhngig. Setze
a
N ()
Xi () .
SN () :=
i=1
Dann gilt
E (SN ) = E (N ) E (X1 ) .
84
Beweis:
Es gilt
n
pSN |N (j|n) =
P (SN = j, N = n)
=
P (N = n)
Xi = j, N = n
i=1
P (N = n)
Xi = j
pSN |N (j|n) = P
i=1
j=0
jP
Xi = j
i=1
Xi
E
i=1
n E (X1 ) ,
E (SN )
(7.3)
Xi ()
SN () :=
i=1
genau der Summe der Augenzahlen der Wrfelwrfe, bis bei parallelen Mnzwrfen erstmalig Kopf
u
u
u
u
Wir wollen hier E (Y | X) als bester Vorhersager von Y gegeben die Information X betrachten
85
Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man
f (a) = E (Y a)2 = E(Y 2 ) 2aE(Y ) + a2 ,
so ist
Da es sich bei f um eine nach oben genete Parabel handelt, ist a = E (Y ) somit das eindeutige globale
o
Minimum.
7.30 Satz:
Seien X und Y reelle Zufallsvariablen. F r jede Funktion : X()
u
2
/ R ist
E (Y E(Y | X))2
E (Y (X))
E (Y E(Y | X))
+ E ((X) E( Y | X))
2
E Y 2 2E (Y E (Y | X)) + E (E (Y | X))
(7.4)
(7.5)
E ((X) Y )
(7.6)
2
(7.7)
=:f (X)
Daher folgt
2E (Y E(Y | X)) + E (E(Y | X))2 2E ((X) E(Y | X)) + E (E(Y | X))2
(7.6) &(7.7)
2E((X) Y )
E (Y E(Y |X))
(7.5)
E (Y (X))
Bemerkung 7.31:
In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten
quadratischen Fehler.
7.3
Korrelation
Wir wollen nun den besten Vorhersager der Form aX + b (a, b R) nden. Das heit, wir betrachten im
Folgenden nur lineare .
7.32 Denition:
Seien X, Y reelle Zufallsvariablen mit V (X) > 0, V (Y ) > 0. Ihr Korrelationskoezient ist
X,Y :=
CoV(X, Y )
V (X)
V (Y )
CoV(X, Y )
.
X Y
86
Bemerkung 7.33:
X und Y sind unkorreliert genau dann, wenn X,Y = 0 ist.
7.34 Satz (Bester linearer Vorhersager):
Y
Die Zahl E (Y aX b)2 wird minimal f r a = X X,Y und b = E(Y )
u
den minimalen Wert gilt:
2
E (Y a X b ) = 1 2
X,Y V (Y ),
Y
X
X,Y E(X). F r
u
Y
CoV(X, Y )
X,Y
=
V (X)
X
CoV(X, Y )
CoV(X, Y ) +
V (X)
CoV(X, Y )
V (X)
V (X)
CoV(X, Y )2
CoV(X, Y )2
+
V (X)
V (X)
= V (Y ) 1
CoV(X, Y )2
V (X)
= V (Y ) 1 2
X,Y
Das zeigt die Behauptung.
Bemerkung 7.35:
Mit a = 0 und b = E(Y ) folgt:
2
0 E (Y a X b )
E (Y 0X E(Y ))
= V (Y )
=(12
X,Y )V (Y )
und damit
0 2 1
X,Y
bzw.
1 X,Y 1.
7.36 Denition:
Ist X,Y > 0, so nennen wir X und Y positiv korreliert.
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei greren X-Werten auch grere Y -Werte
o
o
voraussagen.
7.37 Denition:
Ist X,Y < 0, so nennen wir X und Y negativ korreliert.
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei greren X-Werten kleinere Y -Werte
o
voraussagen.
87
In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnen
kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen
Rechnen mit den zugehrigen Funktionen wird (z.B. Produkt der Funktionen).
o
In der Wahrscheinlichkeits- und Matheorie wird dies bei Momenterzeugenden Funktionen und bei
Fourier-Transformationen genutzt.
Wir betrachten hier nun als einfacheres Beispiel fr analytische Methoden:
u
8.1 Denition (Erzeugende Funktion):
Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Werten in N0 .
Sei pk = P (X = k) f r k N0 . Die erzeugende Funktion (der Verteilung) von X ist die Funktion
u
gX (t) :=
k=0
p k tk .
Bemerkung 8.2:
gX (t) =
k=j
k (k 1) ... (k j + 1) pk t(kj) .
8.4 Satz:
Die Verteilung von X ist durch gX festgelegt.
Beweis:
(j)
Es gilt P (X = 0) = p0 = gx (0) und mit obigem Lemma gx (0) = j! pj , das heit
P (X = j) =
1 (j)
g (0).
j! X
k=0
exp()
k k
t = exp()
k!
k=0
(t)k
= exp() exp( t)
k!
pk
2
1
1 t
meint entweder R
/ R oder C
/ C!
88
Beispiel 8.6:
Sei X B(n, p). Dann gilt
n
gX (t)
n k
p (1 p)nk tk
k
=
k=0
=
Diese Funktion sieht fr n = 2 und p =
u
1
2
(p t + (1 p))n
2
1
1 t
t1
und allgemeiner
lim g (j) (t) = E (X (X 1) (X 2) ... (X j + 1)) .
t1
k=1
k pk tk1
gilt und k pk 0 ist, ist g 0 in [0, 1] und daher g monoton wachsend in [0, 1].
g ist konvex, da es eine positive (pk 0!) Linearkombination der konvexen Funktion t tk mit
k 0 ist.
Der Abelsche Grenzwertsatz besagt: Wenn ak 0 und ak R so gilt
lim
t1
ak t =
k=0
ak
k=0
wobei beide Seiten sein knnen. Mit der Transformationsformel fr den Erwartungswert (Satz
o
u
5.12) gilt fr die Funktion h(k) := k (k 1) ... (k j + 1)
u
lim g (j) (t)
t1
k=j
Transformationsformel
k (k 1) ... (k j + 1) pk
E(h(X))
89
Beispiel 8.8:
Sei X Poi(). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja
schon kennen).
Die erzeugende Funktion ist nach Beispiel 8.5
gX (t) = exp() exp(t).
Man berechnet die Ableitungen
(1)
= exp() exp(t)
(2)
= exp() 2 exp(t).
gX (t)
gX (t)
Mit dem Satz ist
(1)
und
(2)
V (X) = E X 2 (E(X)) = 2 + 2 = .
8.9 Satz:
Seien X, Y unabhngige Zufallsvariablen mit Werten in N0 . Dann gilt
a
gX+Y (t) = gX (t) gY (t),
t [1, 1] .
Beweis:
Sei t [1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) fr die Funktion h(x) := tx ,
u
x 0:
E tX = E (h(X)) =
k=0
tk P (X = k) = gX (t) .
Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabhngig und mit der Produkta
formel fr den Erwartungswert unabhngiger Zufallsvariablen (Satz 5.19) folgt
u
a
gX+Y (t) = E tX+Y = E tX tY = E(tX ) E(tY ) = gX (t) gY (t).
Das zeigt schon die Behauptung.
Beispiel 8.10:
Wir wollen nun mit dieser Formel zeigen, dass
Poi() Poi() = Poi( + )
gilt.
Beweis:
Seien X Poi() und Y Poi() unabhngig. Dann gilt
a
Satz 8.9
gX (t) gY (t)
gX+Y (t)
und da nach Satz 8.4 die Verteilung von X + Y bereits durch gX+Y festgelegt ist folgt die Behauptung.
Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes
bzw. des Blockungslemmas fr die oben schon gezeigte Formel
u
gX+Y (t) = gX (t) gY (t),
t [1, 1]
(8.1)
90
Beweis:
Per Denition ist
gX+Y (t)
P (X + Y = k) tk
k=0
(7.2)
k=0
Cauchy-Reihenprodukt
j=0
j=0
P (X = j) P (Y = k j)
P (X = j) tj
tk
=tj tkj
P (Y = k) tk
k=0
gX (t) gY (t),
=
was die Behauptung schon zeigt.
Folgerung 8.11:
F r endlich viele unabhngige, N0 -wertige Zufallsvariablen X1 , ..., Xn gilt
u
a
gX1 +...+Xn = gX1 ... gXn
als Funktion.
Beweis:
Einfach induktiv (8.1) anwenden.
8.12 Satz (Erzeugende Funktion fr zufllige Summe):
u
a
Seien N, X1 , X2 , ... unabhngige, N0 -wertige diskrete Zufallsvariablen auf (, P ), s.d. die Zufallsvariablen
a
X1 , X2 , ... alle die gleiche Verteilung haben. Setze
N ()
Xi () ,
SN () :=
j=1
Dann ist
gSN (t) = (gN gX1 ) (t) = gN (gX1 (t)) t [1, 1] .
Beweis:
Da nach dem Blockungslemma auch N und
n
i=1
fest, dass
P (Sn = k) =
P (N = n, Sn = k)
n=0
n=0
P (N = n) (Sn = k)
(8.2)
Damit folgt direkt aus der Denition der erzeugenden Funktion fr t [1, 1], dass
u
gSN (t)
k=0
(8.2)
P (SN = k) tk
k=0 n=0
absolute Konvergenz
P (N = n) P (Sn = k) tk
P (N = n)
n=0
k=0
=gSn (t)
n=0
Folgerung 8.11
n=0
P (Sn = k) tk
gN (gX1 (t)) .
91
Fr jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim gX (t). Daher folgt:
u
t1
E (SN )
t1
Satz 8.12
t1
t1
t1
t1
Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt
u
gX1 (t) 1 fr t 1.
E (SN )
=
=
t1
t1
= E(X1 ) E(N ),
was die Behauptung zeigt.
t1
t1
92
8.1
Verzweigungsprozesse
Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufllige Anzahl
a
k N0 von Nachkommen gem einer Wahrscheinlichkeitsfunktion, die durch p0 , p1 , p2 , ... gegeben ist.
a
Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..
Diese Nachkommen bilden die erste Generation.
Die Teilchen der ersten Generation erzeugen dann unabhngig voneinander wieder Nachkommen nach
a
dem gleichen Zufallsgesetz p0 , p1 , p2 , .... Diese Nachkommen bilden dann die zweite Generation usw..
8.1.1
Modellbildung
Xn,j .
Zn :=
j=1
Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n 1-ten Generation
zur n-ten Generation beisteuert.
Die Folge von Zufallsvariablen (Zn )nN heit dann Galton-Watson-Prozess.
8.1.2
Motivation
Aussterbewahrscheinlichkeit
Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n
oder frher ausgestorben), n N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten
u
n=1
{Zn = 0} .
Auch klar ist, dass {Zn = 0} {Zn+1 = 0} fr alle n N gilt, da der Prozess natrlich ausgestorben
u
u
bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus 1 folgt
q = P (J ) = lim P (Zn = 0) = lim qn .
n
p k tk
k=0
Z1 =X1,1
gX1,1 = g.
93
Genauso folgt
Z1
X2,j
Z2 =
j=1
Z2
X3,j
Z3 =
j=1
(8.12)
(8.12)
und induktiv
gZn = g ... g .
nmal
Daher ist
q = lim qn = lim gZn (0) = lim g ... g(0).
n
nmal
8.14 Lemma:
Die Zahl
q = lim g ... g (0)
n
nmal
ist die kleinste Lsung der Gleichung g(t) = t im Intervall [0, 1].
o
Beweis:
Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g(0) 0 und
entsprechend g(g(0)) g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ... g(0) monoton
wachsend und durch 1 beschrnkt ist. Daher existiert die Zahl q.
a
Jetzt zeigen wir zunchst, dass q eine Lsung von g(t) = t ist:
a
o
g(q) = g
g stetig
nmal
(n+1)mal
Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist.
Sei x [0, 1] mit g(x) = x. Insbesondere gilt dann auch fr alle n N
u
g ... g(x) = x.
nmal
/ [0, 1] ein dynamisches System und die Zahl q heit Grenzwert des dynami-
94
Beispiel 8.16:
k
g(t)
t
1
Abbildung 12: Die Funktion g(t) = exp 2 exp
1
2t
Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt!
Verwendet man dagegen = 2, so kann man am Graphen von g(t) = exp () exp (t) leicht sehen, das
der kleinste Wert t mit g(t) = t kleiner als 1 (nmlich t 0.2032) ist:
a
g(t)
t
Abbildung 13: Die Funktion g(t) = exp (2) exp (2t).
Wir wollen nun noch einige Aussagen uber q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j )
ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst
nichts mit Stochastik zu tun hat.
8.17 Satz (ohne Beweis):
(1) Ist p0 = 0, so gilt q = 0.
(2) Ist p0 > 0 und E (Xn,j ) > 1, so ist q ]0, 1[.
(3) Ist p0 > 0 und E (Xn,j ) = 1, so gilt trotzdem q = 1.
k
95
9.1
Diese Approximation liefert ein Ergebnis fr Summen unabhngiger Bernoulli-Variablen. Spter wird sie
u
a
a
als Spezialfall eines allgemeinen zentralen Grenzwertsatzes bewiesen.
Seien X1 , X2 , ...Xn unabhngig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn . Man stellt sich
a
0 < p < 1 fest vor und n als variabel.
u
Sei p = 1 . Betrachte zum Beispiel Stabdiagramme fr
2
n = 1 und S1 = X1 ,
n = 2 und S2 = X1 + X2 B 2, 1 ,
2
50
n = 50 und Sn =
i=1
Xi B 50, 1 .
2
Lsst man nun n gegen unendlich laufen, so ist Sn B(n, p), d.h. der Erwartungswert E(Sn ) = n p
a
sowie die Varianz V (Sn ) = n p (1 p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau
das sehen wir auch bei Betrachtung der Stabdiagramme.
Beide Eekte kann man stabilisieren indem man zu standardisierten Zufallsvariablen ubergeht:
Setze
Sn E(Sn )
Sn =
.
V (Sn )
Dann gilt fr alle n N:
u
E (Sn ) =
Sn E(Sn )
V (Sn )
1
V (Sn )
0,
V (Sn ) =
E (Sn E(Sn ))
Sn E(Sn )
V (Sn )
1
V (Sn E(Sn ))
V (Sn )
V (Sn )
V (Sn )
1.
k np
x0 , x1 , ...xn R wobei xk =
,
npq
0 k n, q = 1 p.
Beispiel 9.1:
1
Fr n = 100, p = 2 ist zum Beispiel xk = k50 = k 10, 0 k 100.
u
5
5
Das heit also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.
k
Fr n = 10.000, p = 1 ist zum Beispiel xk = k5000 = 50 100, 0 k 100.
u
2
50
Das heit also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.
Wir mchten nun die Wahrscheinlichkeit bestimmen, dass Sn in einem Intervall [a, b] liegt. Dazu formuo
lieren wir den folgenden Satz.
96
x R.
i.i.d
Sei 0 < p < 1 fest und seien f r jedes n X1 , ...Xn B(1, p).
u
Dann gilt f r jedes Paar a < b mit a, b R:
u
b
lim P (a
Sn
b) =
(Sn
b) =
(x) dx.
(t) :=
( ) d,
tR
Der Beweis folgt spter aus dem zentralen Grenzwertsatz (Satz 10.100).
a
Bemerkung 9.3:
Die Aussagen gelten auch fr < statt .
u
9.4 Denition:
Die Funktion gegeben durch
t2
1
(t) := exp
2
2
(t) dt = 1.
Auerdem ist beliebig oft stetig dierenzierbar. Der Graph stellt sich wie folgt dar:
1
2
exp t2 .
9.6 Denition:
Wir nennen die Verteilungsfunktion der Standardnormalverteilung.
Bemerkung 9.7:
berechnet sich entsprechend wie folgt:
(1)
3
2
1
1
2
exp t2
dt.
97
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0
0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
lim P (Sn 1)
/ (1) = 0.8413.
(t)
( ) d
Symmetrie von
( ) d
t
( ) d
( ) d
1 (t)
Beispiel 9.10:
i.i.d
Sn :=
Sn np
.
Xi und Sn :=
npq
i=1
lim P (1 Sn 1)
(1) (1)
(1) (1 (1))
2(1) 1
Tabelle
2 0.8413 1 0.68
98
9.2
Wir erinnern uns: Die Poissonapproximation mit = n p fr B(n, p) ist eine gute Approximation, wenn
u
p sehr klein ist.
Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist.
Als Faustregel fr gut gilt hier: npq 9.
u
i np
Sn np
j np
npq
npq
npq
=Sn
=:a
de Moivre
j np
npq
=:b
i np
npq
Bemerkung 9.11:
Dies sieht eigentlich verboten aus, da a und b von n abhngen. Es ist jedoch kein Problem, denn
a
man kann zeigen:
/
n
/ 0.
sup | P (a Sn b) ((b) (a)) |
a<b
| P (a Sn b) ((b) (a)) |
1.6
,
n
1.6 cp
Bemerkung 9.12:
Man kann die Approximation verbessern, indem man j durch j +
1
u
turterme 2 ), dies verliert aber fr n an Bedeutung.
1
2
und i durch i
1
2
ersetzt ( Korrek
Beispiel 9.13:
Es wird n = 600-mal gewrfelt. Sei Sn die Anzahl der Sechsen. Dann ist
u
S600 B 600,
1
6
1
6
= 100,
1
6
5
6
1
= 83 3 ,
9.13....
Damit berechnet man:
P (90 Sn 110)
90 100
Sn 100
110 100
P
9.13 9.13
9.13
=Sn
de Moivre
10
9.13
2 (1.095) 1
Tabelle
10
9.13
2 0.863 1
0.726.
10
9.13
99
P (90 Sn 110)
10.5
9.13
= 2
10
9.13
1
2
2 (1.15) 1
2 0.8749 1
= 0.7498.
Der wahre Wert liegt bei P (90 Sn 110) = 0.7501 - fr n = 600 kann man diesen rechnergesttzt
u
u
noch leicht exakt berechnen.
Mit Tschebyschow erhlt man:
a
P (90 Sn 110) = 1 P (|Sn 100| 11) 0.31
(Sn
V 112 ) = 83.3 0.69
121
9.3
Konkret wollen wir dies fr Wahlvorhersagen durchfhren. Die Aufgabe ist, den Anteil an einer Partei A
u
u
aus einer Umfrage von n zufllig ausgewhlten Befragten heraus zu schtzen.
a
a
a
Whler von A
a
Seien X1 , ...Xn B(1, p) unabhngig und p = alle Wahlberechtigten , womit p unbekannt ist!
a
Aufgabe: Schtze p durch p = n Sn . Wie gro ist n zu whlen, damit fr jedes p [0, 1] mit Wahrscheina
1
a
u
lichkeit 0.95 der wahre Wert p im (zuflligen) Intervall [ , p + ] liegt?
a
p
Pp (0.01 p p 0.01)
Pp
de Moivre
n np
p
0.01 n
0.01 n
npq
npq
npq
0.01 n
npq
0.01 n
npq
0.01 n
npq
0.95
Es folgt
0.01 n
npq
1.95
= 0.975.
2
0.01n
npq
n
n
n
1.96
196 pq
(196)2 pq
9604.
1
4
Menschen zu befragen.
100
10
Von diesem Abschnitt an wollen wir uns nicht mehr lnger auf diskrete Wahrscheinlichkeitsrume bea
a
schrnken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine
a
Zufallsgre X zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.
o
P (a X b) =
(10.1)
In diesem Fall wrde man sagen, dass X Standard-Normalverteilt ist und X N (0, 1) schreiben.
u
Auerdem deniert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine Wahrscheinlichkeit zu
ordnet.
Fr Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, gengt diese Vorstellung voll und
u
u
ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Matheorie besteht.
10.1
10.1 Denition:
Ein Wahrscheinlichkeitsraum ist ein Tripel (, A, P ), s.d. eine beliebige Menge und A eine
-Algebra auf ist, d.h. ein System von Teilmengen von mit den folgenden Eigenschaften:
(1) A
(2) A A Ac A
(3) A1 , A2 , ... A
i=1
Ai A
Ai
P (Ai ) .
i=1
i=1
i=1
Ai =
Ai
i=1
und die rechte Menge ist wegen (2) und (3) wieder in A.
(1.3)
i=1
Ac
i
101
Bemerkung 10.6:
Fr eine Wahrscheinlichkeitsverteilung P wie in der Denition oben gelten ebenfalls alle Rechenregeln,
u
die wir am Anfang fr den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese
u
ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.
10.7 Denition:
Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf .
/ s.d.
Eine Zufallsvariable X auf (, A, P ) ist eine Abbildung X :
X 1 (A) = {x | X(x) A } A A A
(10.2)
gilt.
Bemerkung 10.8:
Allgemeine Abbildungen X : (, A)
10.9 Denition:
Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf .
Eine Zufallsvariable X auf (, A, P ) deniert durch
P X (A ) := P X 1 (A ) ,
A A
eine Wahrscheinlichkeitsverteilung P X auf , A , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum , A , P X . Wir nennen P X auch Verteilung von X.
Formal mssten wir hier jetzt die Axiome (A1) bis (A3) fr P X nachrechen. Das gleicht aber wrtlich
u
u
o
dem diskreten Fall, der nach Denition 4.5 gezeigt wurde.
Bemerkung 10.10:
Wie im diskreten Fall auch schreibt man auch
P (X A ) := P X 1 (A ) ,
A A .
Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht
immer einfach mit A = P () - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende
Beispiel liefert eine Begrndung:
u
Beispiel 10.11:
Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von = [0, 1[ mit folgender Eigenschaft:
Ist A [0, 1[ und x [0, 1[ so, dass A + x := {a + x | a A} [0, 1[ ist,
so gilt stets P (A) = P (A + x).
Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[)
geben kann, wie es z.B. von einer Normalverteilung zu erwarten wre.
a
1
Dazu betrachten wir eine spezielle Menge A0 0, 2 (auch Vitali-Menge genannt), die wir wie folgt
[x] := {y | |x y| Q} ,
x [0, 1[ .
1
Gem dem Auswahlaxiom whle aus jeder Klasse [x] einen Vertreter z[x] 0, 2 und deniere A0 als
a
a
die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl
P (A0 ) = 0
als auch
P (A0 ) > 0
erfllen msste - ein Widerspruch!
u
u
Der einzige Ausweg ist also, P nur fr bestimmte Teilmengen zu denieren, was uns zum obigen Begri
u
der -Algebra fhrt.
u
Ohne Beweis wollen wir folgendes Resultat angeben:
Bemerkung 10.12 (Satz von Banach-Kuratowski):
Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.
102
10.2
/ R auch
ist.
Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.
Das meint hier dann natrlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben:
u
10.18 Denition:
Eine Funktion F : R
(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),
(2) es gilt
lim F (x) = 0 und lim F (x) = 1 und
Beispiel 10.19:
Der folgende Graph deniert eine Verteilungsfunktion:
103
10.20 Satz:
Sei P eine Verteilung auf R. Dann ist
F (x) := P ((, x])
eine Verteilungsfunktion.
Beweis:
Nutze aus 1 die Rechenregeln (R8) und (R9):
A1 A2 ... P
A1 A2 ... P
Ai
= lim P (Ai )
(10.3)
Ai
= lim P (Ai )
(10.4)
i=1
i=1
lim F (x)
(10.3)
und genauso
(10.4)
An
= P () = 0
n=1
(, n]
= P (R) = 1.
n=1
Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn )nN eine Folge aus R, die gegen x R konvergiert
und xn x n N erfllt. Ohne Einschrnkung knnen wir xn+1 xn fr alle n N annehmen, denn
u
a
o
u
andernfalls whlen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt
a
(, xn ] = (, x]
n=1
(10.3)
i=1
xi x
P (X = xi ) = P (X x) .
Im Folgenden sehen wir etwa den Graphen von FX fr eine Zufallsvariable X B 2, 1 , denn es gilt
u
2
1
1
1
P (X = 0) = 4 , P (X = 1) = 2 , P (X = 2) = 4 :
1
1
Abbildung 18: Der Graph der Verteilungsfunktion FX fr X B 2, 2 .
u
104
10.3
Stetige Verteilungen
10.24 Denition:
Eine Dichte ist eine integrierbare Funktion f : R
dass
f (t) dt = 1.
(10.5)
Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf
hchstens endlich viele Sprungstellen sind!!
o
10.25 Satz:
Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit
b
P (]a, b]) =
f (t) dt
a
f r a < b R.
u
Beweis:
Setze
F (x) :=
f (t) dt.
Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Auerdem
folgt wegen der Positivitt von f , dass F monoton wachsend ist. Wegen (10.5) ist lim F (x) = 1. Das
a
x
Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natrlich wieder auf (R, B)) mit der
u
Eigenschaft wie in der Behauptung.
10.26 Denition:
Wahrscheinlichkeitsverteilungen auf R, f r die es eine Dichte f mit
u
b
P (]a, b]) =
f (t) dt
a
105
10.27 Denition:
Eine reelle Zufallsvariable X heit stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h.
wenn
b
P (a X b) =
f (t) dt
a
P ({x})
(10.3)
lim P
1
x ,x
n
= lim
n
1
x n
f (t) dt = 0
nach unserer Annahme, dass f stetig bis auf hchstens endlich viele Sprungstellen ist.
o
Folgerung 10.29:
Insbesondere gilt f r stetige Verteilungen also
u
P ([a, b]) = P (]a, b])
usw..
Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, fr die es eine
u
Dichte f mit
b
P (a X b) =
f (t) dt
a
gibt.
10.4
In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Uberblick der Eigenschaften geben:
10.4.1
Die Gleichverteilung
Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch
f (t) = 1[0,1] (t) =
1
0
falls t [0, 1]
,
falls t [0, 1]
/
t R.
Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch
X U (0, 1) .
Die zugehrige Verteilungsfunktion ist
o
x
F (x) = P (X x) =
falls x 0
falls 0 x 1 .
falls x 1
Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.
Allgemeiner:
Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte
f (t) =
1
1[r,s] (t).
sr
Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch
X U (r, s) .
106
10.4.2
Die Normalverteilung
1
(x )
,2 (t) = f (t) :=
exp
2 2
2 2
Wir kennen schon den Spezialfall = 0, 2 = 1 der Standard-Normalverteilung. Wir werden spter noch
a
sehen, dass fr eine Zufallsvariable X N , 2 die Zahl der Erwartungswert und 2 die Varianz ist.
u
Solche Zufallsvariablen X N , 2 verwendet man etwa dann, wenn X eine ungenaue Messung mit
Erwartungswert (bekannt z.B. aus der Theorie) ist. Insbesondere simuliert man damit eine Verteilung
natrlicher Messgren.
u
o
Die Verteilungsfunktion
x
(x) =
0,1 (t) dt
der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch
x
,2 (t) dt,
also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36
sehen werden.
Auerdem zeigen wir in Beispiel 10.35, dass
X N (0, 1) , R, (0, ) Y = X + N (, )
gilt.
10.4.3
Die Exponentialverteilung
Setze fr einen reellen Parameter > 0 die Dichte der Exponentialverteilung als
u
f (t) :=
falls t 0
falls t < 0
exp (t)
0
107
Fr X Exp () ist ein Leichtes, mit Hilfe der Verteilungsfunktion die Uberlebensdauer zu berechnen:
u
Wir sehen sofort, dass die Uberlebensdauer also exponentiell schnell fllt!
a
Jetzt wollen wir uns dem Ausspruch gebraucht wie neu bzw. der Gedchtnislosigkeit dieser Verteilung
a
widmen. Fr x, t 0 gilt
u
=
P (X > t + x)
P (X > t)
P (X > t + x | X > t)
exp ( (t + x))
exp (t)
= exp (x)
= P (X > x) .
Simuliert man also die Lebensdauer eines Gerts mit der Exponentialverteilung, so hat ein gebraucht
a
gekauftes Gert die selbe Qualitt wie ein Neues!
a
a
10.4.4
Die Pareto-Verteilung
(t+1)+1
f (t) =
falls t 0
.
falls t < 0
3
2
1
108
10.4.5
Die Cauchy-Verteilung
1
.
(1 + t2 )
Die Gamma-Verteilung
(x) =
Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft dierenzierbare
Funktion deniert. Auerdem erfllt sie bekanntlich die Funktionalgleichung
u
(x + 1) = x(x) x (0, ) ,
was auch (n) = (n 1)! mit n N zeigt. Zuletzt sollte noch erwhnt werden, dass
a
1
=
2
1
2
exp x2 dx =
u
Nun denieren wir die Gamma-Verteilung Gamma (r, ) fr reelle Parameter r, > 0 durch die Dichte
f (t) =
r r1
(r) t
(1) (a) Sei r = 1. Dann erhalten wir oenbar genau die Exponentialverteilung mit Parameter , da
die Dichten ubereinstimmen.
(b) Sei r N. Man kann zeigen, dass dann Gamma (r, ) genau die Verteilung von X1 + ... + Xr
i.i.d.
a
fr Zufallsvariablen X1 , ..., Xr Exp () ist (vergleiche eines der Ubungsbltter).
u
1
(2) (a) Gamma 1 , 2 ist genau die Verteilung von X 2 fr X N (0, 1), wie wir in Beispiel 10.32
u
2
sehen werden.
i.i.d.
1
2
2
(b) Gamma n , 2 fr n N ist genau die Verteilung von X1 +...+Xn , falls X1 , ..., Xn N (0, 1)
u
2
gilt.
Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n
Freiheitsgraden genannt und als 2 bezeichnet.
n
10.5
10.31 Satz:
Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1 , ..., ck stetig dierenzierbar ist.
Sei C = {c1 , ..., ck }. Dann deniert
f (t) :=
F (t)
0
falls t C
falls t C
/
109
Beweis:
Mit Satz 10.25 gengt es oenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunku
tion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar).
Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F 0, wo F existiert. Daher ist
auch f 0.
Setze nun c0 := und ck+1 := +. Nach Umnummerierung nehmen wir ohne Einschrnkung
a
c0 < c1 < ... < ck < ck+1
an. Dann gilt (mit F () = 0 und F () = 1) fr i = 0, ..., k die Relation
u
ci+1
f (t) dt =
lim
f (t) dt =
aci ,bci+1
ci
lim
aci ,bci+1
(10.6)
ci+1
f (t) dt
f (t) dt =
(10.6)
i=0
i=0 c
i
(F (ci+1 ) F (ci )) = F () F () = 1.
1 1
2, 2
Beweis:
Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y 0 ist, muss auch FY (x) = P (Y x) = 0
fr x < 0 gelten. Falls x 0, so haben wir
u
FY (x)
=
=
=
=
=
P (Y x)
P 0 X2 x
P xX x
x x
2 x 1,
1
Wegen ( ( x)) = ( x) 2x ist FY an allen Punkten x = 0 stetig dierenzierbar und mit Satz 10.31
folgt, dass die Dichte von Y gegeben ist durch
1
FY (x) falls x > 0
exp x
falls x = 0
2 ( ( x)) falls x > 0
2
2x
=
fY (x) =
=
.
0
falls x 0
0
falls x = 0
0
falls x 0
Wegen
1
2
1
1
= 2
1
2
1
2
u1 (y) .
110
Beweis:
Zunchst knnen wir ohne Einschrnkung annehmen, dass u streng monoton steigend ist (da u ein Difa
o
a
feomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel
g1 (b)
(f g) (y) g (y) dy
f (x) dx =
a
g1 (a)
P (a Y b) =
u1 (b)
fX (x) dx
u1 (a)
b
fX u1 (y)
u1 (y) dy
=|(u1 ) (y)|
y
1
und u1 (y) = .
Mit Satz 10.34 folgt fr die Dichte fY von Y und fX von X, dass
u
fY (y) = fX
(y )
1
1
= exp
2 2
2
1
1
(y )
=
exp
2 2
2 2
fr die Dichte der Standard-Normalverteilung - und das ist genau die Dichte zu N , 2 .
u
Bemerkung 10.36:
Ganz analog knnen wir nun zeigen, wie man die Verteilungsfunktion zu N , 2 aus den Tabellen fr
o
u
(der Verteilungsfunktion von N (0, 1)) berechnet:
Ist Y N , 2 fr , R, > 0, so folgt wie in Beispiel 10.35, dass
u
X :=
1
(Y ) N (0, 1)
10.6
111
10.37 Denition:
Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls
E (X) :=
xf (x) dx.
Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,
und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.
Bemerkung 10.38:
Ist X wie in der Denition und X 0, so kann man stets
E (X) :=
xf (x) dx
E (X) =
x
r
1 1 2
1
dx =
x
sr
sr2
s
r
1 s2 r 2
s+r
=
.
2 sr
2
Beispiel 10.40:
Sei X N (0, 1). Dann ist
E (X) =
1
x(x) dx =
2
x exp
x2
2
x2
1
dx = exp
2
2
= 0.
Beispiel 10.41:
Sei X eine Cauchy-verteilte Zufallsvariable. Fr die zugehrige Dichte f ist dann
u
o
|x|f (x) dx =
|x|
1
dx =
(1 + x2 )
2x
1
dx =
lim ln 1 + x2
1 + x2
R
R
0
= .
112
Beispiel 10.42:
Sei X Exp (). Dann ist
E (X)
t exp (t) dt
0
t exp (t) dt
t
exp (t)
partielle Integration
exp (t) dt
exp (t) dt
=
0
1
exp (t)
1
.
=
=
Beispiel 10.43:
Sei X Pareto (). Zunchst untersuchen wir, fr welche > 0 der Erwartungswert existiert. Bekanntlich
a
u
existiert das Integral
1
dt
t
mit beliebigem c > 0 genau dann, wenn > 1. Daher ist der Erwartungswert fr 1 zwangslug
u
a
nicht existent. Fr > 1 gilt:
u
t
+1
(t + 1)
dt
=
0
t+1
+1
(t + 1)
dt
+1
(t + 1)
dt
dt 1
(t + 1)
(t + 1)1
1
1
=
1
1
=
1 1
1
=
.
1
Da X Pareto() nach Denition der Dichte als nicht-negativ angenommen werden kann, haben wir
also
falls 1
.
E (X) =
1
falls > 1
1
Aus der Matheorie zitieren wir ohne Beweis den folgenden
10.44 Satz (Transformationsformel fr den Erwartungswert - ohne Beweis):
u
/ R eine mebare Funktion (also z.B. stetig).
Sei X eine reelle Zufallsvariable mit Dichte f und g : R
Dann gilt
E (g(X)) =
(10.7)
falls
113
ist.
Bemerkung 10.45:
Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b:
E (aX + b)
(10.7)
(ax + b) f (x) dx
xf (x) dx + b
f (x) dx
=1
aE (X) + b
Beispiel 10.46:
Sei X N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann
X + N , 2
gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt
E (X + ) = E(X) + = .
Daher ist wie schon weiter oben bemerkt der Erwartungswert einer N , 2 -verteilten Zufallsvariablen.
10.47 Denition:
k
Sei X eine stetig verteilte reelle Zufallsvariable. Falls E |X| < gilt (in dem Sinne, dass der Erwartungswert f r nicht-negative Zufallsvariablen in [0, ] stets existiert), so nennen wir
u
E Xk
das k-te Moment von X.
10.48 Denition:
Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann denieren wir die Varianz
von X durch
2
2
V (X) := E (X E(X)) = E X 2 (E (X)) .
Bemerkung 10.49:
Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist
V (X) =
falls existent.
x2 f (x) dx
xf (x) dx
Beispiel 10.50:
Sei X U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) =
10.49 haben wir also
1
V (X) =
0
x2 dx
1 1
1
1
= =
.
4
3 4
12
1
2
114
X U (r, s) V (X) =
s3 r 3
(s + r)
3(s r)
4
s+r
2
x2 dx
12
12
s2 2rs + r2
12
(s r)
.
12
Bemerkung 10.51:
Man zeigt ganz genau wie im diskreten Fall, dass
V (aX + b) = a2 V (X)
gilt.
Beispiel 10.52:
Sei X N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also
V (X)
partielle Integration
=
=
x2
1
x2 exp
2
2
dx
x x exp
x2
2
2
= exp x
2
x2
1
x exp
2
2
1
exp
x2
2
dx
x2
exp
2
dx
dx
V (Y ) = 2 ,
10.7
Zunchst mssen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten knnen und
a
u
o
welche nicht. Dazu gehen wir genau wie auf R vor und whlen eine geeignete -Algebra.
a
10.53 Denition:
Die Borelsche -Algebra Bn des Rn ist die kleinste -Algebra auf dem Rn , die alle oenen Mengen
enthlt.
a
Auch im Rn behlt Satz 10.14 seine Gltigkeit! Allerdings ndert sich hier die Formulierung etwas:
a
u
a
10.54 Satz (ohne Beweis):
Die folgenden Forderungen an eine -Algebra auf Rn sind quivalent:
a
(1) Es handelt sich um die kleinste -Algebra, die alle oenen Mengen enthlt.
a
115
/ R mit f 0 und
f (x) dx = 1.
Rn
P ((a, b]) =
bn
...
a1
f (x) dx
an
(a,b]
f (x) dx.
(a,b]
Beispiel 10.58:
Fr n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1]2 .
u
Beispiel 10.59:
Durch
1
1{(x,y)R2 | x2 +y2 1}
Bemerkung 10.60:
Diese Beispiele lassen sich durchaus verallgemeinern:
Ist A R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer
beliebig oft dierenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion
f :=
1
1A
Vol(A)
116
Beispiel 10.63:
Sei n N2 und sei fi (xi ) :=
gegeben durch
1
2
exp
x2
i
2
beziehungsweise
n
2
f (x) = (2)
exp
x
2
2
2
exp
1 2
x + ... + x2
n
2 1
x Rn
fr die gewhnliche euklidische Norm auf dem Rn . Fr n = 3 sieht die Produktdichte wie folgt aus:
u
o
u
z
y
x
Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3 .
An dieser Stelle zitieren wir folgende Stze aus der Matheorie:
a
10.64 Satz (ohne Beweis):
Sind X, Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt f r jedes glatte
u
Gebiet A R2 , dass
P ((X, Y ) A) =
u
Auerdem bentigen wir die Transformationsformel fr den Erwartungswert von Funktionen von Zufallso
vektoren:
10.65 Satz (ohne Beweis):
Sind X1 , ..., Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn
(z.B. stetig), so gilt
g(x)f (x) dx
E (g (X1 , ..., Xn )) =
Rn
falls
Rn
ist.
10.66 Hilfssatz:
Sind X1 , X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist
f1 (x1 ) :=
f (x1 , x2 ) dx2
f2 (x2 ) :=
f (x1 , x2 ) dx1
die Dichte zu X2 .
/ R mebar
(10.8)
117
Beweis:
Es gilt
P (a1 X1 b1 )
=
Satz 10.64
b1
a1
=f1 (x1 )
Ganz analog kann man fr f2 vorgehen. Das zeigt schon die Behauptung.
u
Bemerkung 10.67:
Jetzt knnen wir endlich zeigen, dass der Erwartungswert linear ist:
o
E (X1 + X2 ) = E (X1 ) + E (X2 ) .
Beweis:
Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1 , x2 ) = x1 + x2 an. Das liefert
E (X1 + X2 )
=
R2
R2
R2
=
R
Hilfssatz 10.66
x2 f (x1 , x2 ) d(x1 , x2 )
x1 f (x1 , x2 ) d(x1 , x2 ) +
x1
E (X1 ) + E (X2 )
x2
10.8
Unabhngigkeit
a
10.68 Denition:
Reelle Zufallsvariablen X1 , ..., Xn heien unabhngig, wenn
a
n
P (a1 X1 b1 , ..., an Xn bn ) =
i=1
P (ai Xi bi )
(10.9)
gegeben.
(2) Sind X1 , ..., Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind
X1 , ..., Xn unabhngig und fi ist die Dichte zu Xi , i = 1, ..., n.
a
Beweis:
(1) Wegen der Unabhngigkeit und der Denition der Dichten fi gilt
a
n
P (a1 X1 b1 , ..., an Xn bn ) =
i=1
P (ai Xi bi )
bi
fi (xi ) dxi
=
i=1 a
f (x) dx
=
(a,b]
118
fr alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1 , ..., Xn ist.
u
(2) Da X1 , ..., Xn eine gemeinsame Dichte der Form (10.9) haben, ist
b1
P (a1 X1 b1 , ..., an Xn bn ) =
bn
...
a1
an
bi
fi (xi ) dxi
=
i=1 a
(10.10)
fi (xi ) dxi ,
ai
ist, also
bi
P (ai Xi bi ) =
fi (xi ) dxi .
ai
P (a1 X1 b1 , ..., an Xn bn ) =
i=1
P (ai Xi bi ) ,
(10.11)
Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.
f (x, y) = ( exp (x)) ( exp (y)) 1[0,)2 .
Um (10.11) zu bestimmen betrachten wir
A = {(x, y) | x, y 0, y 2x} .
119
f (x, y) dx dy
A
0 2x
0 2x
=
0
exp (x)
2x
exp (y) dy dx
=
0
1
3
3 exp (3x) dx
0
=
=
1
( exp (3x))
3
1
.
3
Zuletzt sei noch der folgende Satz aus der Matheorie erwhnt:
a
10.71 Satz (ohne Beweis):
Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch f r Zufallsvariablen mit stetigen
u
Verteilungen.
Wir zeigen nun, dass der Produktsatz fr unabhngige Zufallsvariablen auch im stetigen Fall gilt:
u
a
10.72 Satz:
Sind X und Y unabhngige Zufallsvariablen mit Dichten fX und fY , so gilt
a
E(X Y ) = E(X) E(Y ).
Beweis:
/ R. Die Dichte zu (X, Y ) hat gem Satz 10.69 Produktform f (x, y) =
Setze g(x, y) = x y, g : R2
a
fX (x) fY (y), da X und Y unabhngig sind.
a
Damit gilt
E(X Y )
=
Transformationsformel
E(g(X, Y ))
g(x, y) f (x, y) dx dy
x y fX (x) fY (y) dx dy
x fX (x) dx
y fY (y) dy.
120
f1 f2 (z) =
f1 (x)f2 (z x) dx
f (x, y) dx dy
A
=
b
bx
fX (x)fY (y) dy dx
fX (x)fY (z x) dz dx
fx (x)fy (z x) dx dz
fX fY (z) dz.
falls 0 t 1
t
2 t falls 1 t 2 .
fX+Y (t) =
0
sonst
1
i.i.d.
U (0, 1).
121
Beweis:
Oenbar ist fX (t) = 1[0,1] (t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als
(fX fY ) (z) =
fX (x) fY (z x) dx
1[0,1] (z x) dx
=
0
z1
1[0,1] (y) dy
z
=
z1
1[0,1] (y) dy = 0.
z1
z
1[0,1] (y) dy = 0.
z1
1 dy = z.
1[0,1] (y) dy =
0
z1
1 dy = 2 z.
1[0,1] (y) dy =
z1
z1
2
2
f0,1 f0,2 (z) =
1
1 x2
exp 2
2 1
21
1
21 2
exp
2
2
2
1 + 2 und w = w(x) =
(z x)2
1
exp
2
22
22
x2
(z x)2
2 +
2
1
2
=:()
dx.
x
z.
1 2
2
dx
(10.12)
122
Dann ist
w2 +
z2
2
2
2
2
1 + 2 2 2xz
1 2 z 2
2 2 x 2 + 2 2 z + 2
1 2
2
2
2
= z2
1 2 dx
ist, folgt dx =
x2
(z x)2
+
2
2
1
2
=
Da dw =
x2
x2
2xz
z2
2 + 2 2 + 2
1
2
2
2
().
1 2
dw.
2
2
f0,1 f0,2 (z) =
exp
1
z2
exp 2
2
2
1
2
w2 +
z2
2
1 2
dw
1
1
exp w2 dw
2
2
=1 (Std.normalverteilung)
f0,2 (z)
2
2
f0,1 +2 (z).
10.9
10.78 Denition:
Wir haben in Beispiel 10.63 schon gesehen, dass f r unabhngige Zufallsvariablen Z1 , ..., Zn N (0, 1)
u
a
die Zufallsgre Z = (Z1 , ..., Zn )T die Dichte
o
n
1
1
z2
f (z1 , ..., zn ) = n exp
2 =1 i
2
besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung
nennen. Wir schreiben dann auch
T
(Z1 , ..., Zn ) N (0, In ) ,
wobei wir mit
In =
0
..
10.79 Denition:
T
Sei Z = (Z1 , ..., Zn ) N (0, In ), A eine reelle n n-Matrix und R. Dann nennen wir die Verteilung
von
AZ +
eine n-dimensionale Normalverteilung zu A und .
10.80 Denition:
T
Sei Z = (Z1 , ..., Zn ) ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor
T
123
10.82 Denition:
T
Sei Z = (Z1 , ..., Zn ) ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist
Z := (CoV (Zi , Zj ))1i,jn .
Beispiel 10.83:
T
0
1
falls i = j
falls i = j
ist Z = In .
10.84 Lemma:
Sei Z ein beliebiger Zufallsvektor, A = (ai,j )1i,jn eine beliebige reelle n n-Matrix und Rn . Dann
gilt f r X := A Z + , dass
u
X = A Z AT .
Beweis:
Es ist
CoV (Xi , Xj ) =
ai,k Zk + i
k=1
ai,k Zk + i
k=1
aj,k Zk + j
aj,k Zk + j
k=1
k=1
n
E
k=1
l=1
=
k,l=1
A z AT
i,j
d1
0
..
.
D=
.
0
dn
124
d1
0
T
..
V ,
A := V
.
0
dn
=: D
D V T V D V T = V D V T = .
=In
10.87 Denition:
Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir
von einer ausgearteten Normalverteilung.
10.88 Denition:
Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir
von einer nicht ausgearteten Normalverteilung.
10.89 Satz:
Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert Rn und
det() = 0. Dann ist die zugehrige Dichte gegeben als
o
f (x) =
2
1
n
det()
exp
1
(x )T 1 (x )
2
x Rn .
(10.13)
Beweis:
Wir wollen den Transformationssatz fr Dichten im Rn benutzen: Hat Z = (Z1 , ..., Zn )T auf oenem
u
/ N f r N Rn ebenfalls oen ein Dieomorphismus, so hat
M Rn die Dichte fZ und ist u : M
u
X := u (Z) die Dichte
fX (x) = fZ u1 (x) det D(u1 )(x) .
(10.14)
1
=
|det (A)|
1
det()
Beachte dabei, dass det () > 0 wegen der positiven Semi-Denitheit von .
n
Da
i=1
2
zi = (z1 , ..., zn ) (z1 , ..., zn )T ist, gilt
1
fZ (z) =
2
1
exp z T z .
2
exp
1
2
det()
A1 (x )
exp
A1 (x )
1
T
(x ) 1 (x )
2
1
det()
125
Bemerkung 10.90:
Ist det () = 0, so gibt es keine Dichte auf dem Rn fr die zugehrige Verteilung.
u
o
Bemerkung 10.91:
Man beachte, dass die n-dimensionale Normalverteilung bereits durch und festgelegt ist!
Bemerkung 10.92:
Der Fall det () = 0 entspricht genau dem Fall, dass symmetrisch und strikt positiv denit ist, d.h.
xT x > 0 x Rn \ {0} .
Fr jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die
u
Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.
10.9.1
Folgerungen
10.93 Satz:
Sei X = (X1 , ..., Xn )T nach N (, ) verteilt, d.h. es ist = E (X) und = CoV (X). Sei auerdem
det () = 0. Dann gilt
Xi N (i , i,i ) .
Allgemeiner: Ist c Rn \ {0}, so ist
i=1
ci X i N
c2 i,i
i
c i i ,
i=1
i=1
Xi =
Ai,k Zk + i ,
k=1
womit mehrfaches anwenden des Faltungssatzes fr die Normalverteilung (Satz 10.77) sofort
u
n
Xi N
A2
i,k
i ,
k=1
=N
Ai,k AT
k,i
i ,
k=1
= N (i , i,i )
10.10
Bemerkung 10.94:
Wir haben schon gesehen, dass fr stetige Zufallsvariablen X und Y ebenso wie fr diskrete die Linearitt
u
u
a
des Erwartungswertes gilt:
E (aX + Y ) = aE (X) + E (Y ) ,
a R.
(10.15)
E (X) E (Y ) .
Man kann ebenso (matheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall fr die Varianz
u
gelten, sich auf den stetigen Fall ubertragen, also
V (aX + b) = a2 V (X)
(10.16)
126
10.10.1
Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes
10.95 Lemma (Jensensche Ungleichung):
Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fllen) und g : R
a
eine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung
/R
g (E (X)) E (g (X)) .
Beweis:
Fr eine konvexe Funktion g knnen wir an den Punkt (E (X) , g (E (X))) eine (ohne weitere Voraussetu
o
zungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form
L (x) = c (x E (X)) + g (E (X)) ,
wobei c = g (E (X)), falls g an E (X) I dierenzierbar ist. Insbesondere gilt dann
E (L (X)) =
E (c (X E (X)) + g (E (X)))
g (E (X))
Da g konvex und L linear ist, gilt L g und mit der Monotonie des Erwartungswerts folgt so
g (E (X)) = E (L (X)) E (g (X)) ,
was die Behauptung zeigt.
Beispiel 10.96:
Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x2 , so folgt
2
(E (X)) E X 2 .
2
Dieses Ergebnis folgt auch schon daraus, dass 0 V (X) = E X 2 (E (X)) ist.
Bemerkung 10.97:
Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch fr Intervalle I R, etwa
u
I = [0, ) anwenden, wenn X Werte in I hat.
10.10.2
127
Sn :=
Xi
i=1
sup P
xR
(x)
/ 0.
(10.17)
Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.
Bemerkung 10.101:
Natrlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von .
u
Bemerkung 10.102:
Natrlich folgt mit dem zentralen Grenzwertsatz auch
u
sup P
ab
Sn E (Sn )
b
V (Sn )
((b) (a))
/ 0.
x (x)
Xi E
Xi
i=1
sup P i=1
n
xR
V
Xi
i=1
/ 0.
8 3
.
Beweis:
Gem der Transformationsformel fr den Erwartungswert (Satz 10.44) ist
a
u
E |Y |
1
1
|t|3
exp 2 t2
2
2
2
2
2 2
t3 exp
1 2
t
2 2
dt
dt.
128
E |Y |
2x
2 2
2 4
2 2
4 3
2
dx ist und
3
1
3 2x exp 2 2 2x
2
dx
2x
2
2x exp (x) dx
x exp (x) dx
0
4 3
(2)
2
4 3
(2 1)!
2
16 3
8 3
.
Xi
V (Xi ) ,
=
i=1
i=1
Sn E (Sn )
V (Sn )
/.
(10.18)
xR
Fr (10.18) gengt es zu zeigen, dass es fr jedes > 0 ein > 0 gibt, s.d.
u
u
u
ist.
Wir beginnen dazu mit einigen Vorbereitungen. Setze
Zi :=
Xi E (Xi )
nV (Xi )
Zi
=
i=1
3
n
und somit
129
Fn (x) = P
i=1
Zi x ,
x R.
Oenbar ist E (Zi ) = 0 fr i = 1, ..., n und man berechnet mit den Regeln fr die Varianz
u
u
2
2
E Zi = V (Zi ) + (E (Zi )) =
1
1
V (Xi E (Xi )) =
nV (Xi )
n
=0
|Xi E (Xi )|
=E
nV (Xi )
= 3 .
( n) 3
1
u
Seien ferner Y1 , ..., Yn unabhngig (auch von den Zi s) mit Yi N 0, n . Nach dem Faltungssatz fr die
a
Normalverteilung (Satz 10.77) ist dann
n
i=1
Yi N (0, 1)
1
n
Whle zu beliebigem > 0 eine mindestens dreifach stetig dierenzierbare Funktion f mit 0 f 1 und
a
1 falls t 0
.
0 falls t
f (t) =
Setze dann zu x R fx (t) := f (t x), t R und M := sup |f (t)|. Nach dem Satz von Taylor gilt dann
tR
fr alle t, h R
u
|h|3
|h|3
h2
3.6
:= () =
M 1+
und whlen n N so gro, dass
a
3
n
gilt.
Schritt I
Wir zeigen nun, dass
n
Zi
fx
i=1
Yi
fx
i=1
M
6
i=1
E |Zi |
+ E |Yi |
(10.20)
fr alle x R gilt.
u
Z
Setze Sj :=
i=1
Z
Zi fr j = 1, ..., n. Betrachte nun t = Sn1 und h = Zn in der Taylorentwicklung (10.19):
u
Z
Z
fx Sn1 + Zn = fx Sn1 + fx Sn1 Zn + fx Sn1
2
Zn
Z
+ v Sn1 , Zn .
2
Z
=Sn
Z
= E fx Sn1
+ E fx Sn1
E (Zn ) +E fx Sn1
2
Zn
2
=0
1
= 2n
Z
+E v Sn1 , Zn
130
Z
= E fx Sn1
+ E fx Sn1
2
Yn
2
Z
+E v Sn1 , Yn
1
= 2n
Z
E v Sn1 , Zn
Z
E fx Sn1 + Yn
Z
E f x Sn
Z
E v Sn1 , Yn
Z
E v Sn1 , Zn
Jensensche Ungleichung
Z
v Sn , Z n
(10.19), Monotonie
Z
+ E v Sn1 , Yn
+E
Z
v Sn1 , Yn
M
E |Zn |3 + E |Yn |3
6
Z
Da wir ja eigentlich eine Abschtzung fr E fx Sn
a
u
E fx
Yi
i=1
Z
nun die Taylor-Entwicklung (10.19) mit t = Sn2 + Yn und h = Zn1 bzw. h = Yn1 . Dort erhalten
wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschtzung
a
Z
E fx Sn1 + Yn
Z
E fx Sn2 + Yn1 + Yn
M
E |Zn1 |3 + E |Yn1 |3
6
Z
Nutze dann die Taylor-Entwicklung (10.19) mit t = Sn3 + Yn1 Yn und h = Zn2 bzw. h = Yn2 usw..
Das liefert dann allgemein
Z
E fx Sk + Yk+1 + ... + Yn
Z
E fx Sk1 + Yk + ... + Yn
M
3
3
E |Zk | + E |Yk |
6
fr alle k {1, ..., n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20).
u
Schritt II
Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) 0.6 ist. Nach unseren Vorberlegungen
u
ist die rechte Seite
M
6
i=1
E |Zi |
+ E |Yi |
M
6
8 1
3+
n
(10.21)
Da g (x) := x 2 konvex ist, folgt mit der Jensenschen Ungleichung 10.95, dass
3 =
V (X)
= E |X E (X) |2
3
2
|X E(X)|2
3
2
= E |X E(X)|3 =
1
3
8 1
M
6
3+
n
M
3
6
n
8 1
3+ 3
n
1+
M
3.6
6 M 1+
=
=
erfllt - also genau die Behauptung.
u
3.6
6
0.6
1+
1+
131
Schritt III
Nach Denition der Zi haben wir nun fr alle x R
u
n
Fn (x)
= P
i=1
Zi x
n
= E
Zi
1(,x]
i=1
da 1(,x]
Zi
i=1
B 1, P
i=1
Zi x
Fn (x) E
Zi
fx
i=1
Fn (x) E
Yi
fx
+ 0.6
i=1
zeigt. Nun ist 1(,x+] fx nach Wahl von f und daher folgt wieder mit der Monotonie
n
Fn (x) E
+ 0.6 = P
Yi
1(,x+]
i=1
i=1
Yi x +
+ 0.6.
P
i=1
Yi x +
= (x + ) ,
Sn E (Sn )
x
V (Sn )
0.8
(x) 3
n
f r jedes x R. Diese Relation gilt auch mit einem < anstelle von . Auerdem gilt damit
u
P
Sn E (Sn )
V (Sn )
1.6
((b) (a)) 3 .
n
132
Beweis:
Diese Abschtzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas
a
Arbeitsaufwand, sie herauszulesen.
Beispiel 10.108:
1
Wir wollen Fehlerabschtzungen fr den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 2
a
u
1
herleiten. Seien also X1 , X2 , ... B 1, 2 unabhngige Zufallsvariablen. Dann ist V (Xi ) = 1 , d.h. mit
a
4
den Bezeichnungen des zentralen Grenzversatzes ist
3
3 = V (X) 2 =
1
Auerdem ist |Xi E(Xi )| = 2 , da E (Xi ) =
1
2
ist, d.h.
= E |X1 E(X1 )|
Daher ist
1
.
8
1
.
8
11
133
Die Idee
Wir wollen ein stochastisches Modell fr die Bewegung eines Teilchens auf endlich vielen Zustnden
u
a
geben, wobei die Wahrscheinlichkeit fr den nchsten Zustand nur vom jetzigen Zustand und nicht von
u
a
der weiteren Vergangenheit abhngt. Diese Eigenschaft wird auch Markov-Eigenschaft genannt und ist
a
oftmals nur eine Approximation der Wirklichkeit. Die Lsung fr ein solches Modell sind Markov-Ketten,
o
u
die wir in Abschnitt 11.2 kennen lernen werden.
Beispiel 11.1:
Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er whlt aus allen ihm
a
erlaubten Zgen jeweils rein zufllig (also gleichverteilt) den nchsten Raus. In diesem Beispiel entsprechen
u
a
a
die Zustnde den 64 Feldern des Schachbretts und das Teilchen dem Springer.
a
Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner
Startposition ankommt.
Beispiel 11.2:
Ein weiteres Beispiel ist ein sogenannter Netbot, der zufllig gem Ausgangslinks von Seite zu Seite
a
a
wandert.
Beispiel 11.3 (Markov):
Markov betrachtete ursprnglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in
u
Puschkins Roman Eugene Onegin die Markov-Eigenschaft htte, dann wre die Ubergangsmatrix
a
a
V j
0.128
0.337
0.872
0.663
Heutzutage werden Markov-Ketten vor allem als Modell fr DNA-Folgen genutzt, wobei das Alphabet
u
dann {A, C, G, T} ist.
Eine andere Interpretation von Markov-Ketten ist, dass ein System (= Teilchen) sich in einem von endlich
vielen Zustnden bendet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.
a
Diese Interpretation wird heutzutage etwas bei der Puerauslastung von Servern verwendet.
11.1
11.4 Denition:
Eine Zustandsmenge S ist eine endliche Menge.
Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1, ..., N }, allerdings verwenden wir oft das
Symbol 1 fr den Zustand 1, um nicht durcheinander zu kommen.
u
11.5 Denition:
Sei #S = N N. Eine N N -Matrix P = (pi,j )i,jS mit den Eigenschaften
pi,j 0 i, j S
jS
pi,j = 1 i S
Sei P eine Ubergangsmatrix auf S. Fr den Eintrag von P in der i-ten Zeile und j-ten Spalte schreiben
u
wir
P (i, j) = pi,j
bei i, j S.
134
Beispiel 11.6:
Wir wollen die tgliche Wetterentwicklung modellieren. Dazu sei
a
S := {Regen, Sonne, bewlkt} .
o
Wir nummerieren die Zustnde in dieser Reihe durch (also
a
0 1 0
1
P := 3 0 2
3
1
3
1
3
1
3
2
.
3
11.7 Denition:
Zu einer Ubergangsmatrix P auf S gehrt stets ein Ubergangsgraph GP , welcher wie folgt zu konstruieren
o
ist:
Die Menge E der Ecken von GP ist S. Eine Kante von i S nach j S mit Gewicht pi,j wird gehrt
o
genau dann zur Kantenmenge V von GP , wenn pi,j > 0 gilt.
Beispiel 11.8:
In unserem Wettermodell aus Beispiel 11.6 wre der zugehrige Graph
a
o
6 2
V
2
3
1
3
1
3
1
3
v
1 o
1
3
3
V
1
2
P=
1
2
1 j
1
2
.
[
11.10 Denition:
Sei G = (V, E) ein Graph und i, j V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken
vi,i1 , vi1 ,i2 , ..., vin1 ,in , vin ,j
zwischen den Punkten i und i1 , i1 und i2 ,... entsprechend mit i1 , ..., in V .
Im allgemeinen existiert kein Pfad zwischen beliebigen i, j V . Fr einen Pfad w gegeben durch i =
u
i0 , i1 , ..., in = j von i nach j sei |w| = n seine Lnge. Wir schreiben fr w auch
a
u
i
Man kann Wege auch verknpfen: Ist i
u
|w1 w2 | = |w1 | + |w2 |.
w1
/ j.
/ j und j
w2
/ k, so ist i
w1 w2
135
11.11 Denition:
Die Ubergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrach
tet man dagegen die Ubergangsmatrix
1 0
,
P=
1
1
2
1
2
1 j
2
1
2
leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !
Bemerkung 11.13:
Man beobachtet nun Folgendes: Ist P eine Ubergangsmatrix auf S, so beschreibt eine Folge von Zustnden
a
i = i0 , i1 , ..., in1 , in = j
aus S genau dann einen Pfad von i nach j, wenn
pi0 ,i1 > 0 und pi1 ,i2 > 0 und ... und pin1 ,in > 0
ist, d.h. falls die Zahl
n1
pi ,i+1
=0
Im Weiteren bentigen wir stndig n-te Potenzen der Matrix P. Sei n N und N = #S. Man beachte:
o
a
Die N N -Matrix P2 = P P ist gegeben durch
P2 (i, j) =
kS
pi,k pk,j =
kS
P (i, k) P (k, j) ,
i, j S.
i, j S,
(11.1)
d.h. dass die Zahl Pn (i, j) genau die Summe aller Gewichte von Pfaden der Lnge n von i nach j
a
ist.
Damit haben wir sofort folgenden
11.14 Satz:
136
Beweis:
Ist P irreduzibel, so gibt es zu i, j S ein n = n (i, j) und einen Pfad der Lnge n von i nach j mit
a
Gewicht (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte von
Pfaden der Lnge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt
a
Pn (i, j) > 0.
Gibt es zu i, j S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass ein
Pfad von i nach j in GP der Lnge n existiert.
a
Beispiel 11.15:
Sei
0
1
P=
1
0
0
1
1
0
Dann ist
1 0
0 1
= P2 = P4 = ... und
= P = P3 = P5 = ....
Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehrigen
o
Graphen GP leicht erkennen:
1
1 j
2 .
Beispiel 11.16:
1
2
1
2
1
2
1
4
P=
1
2
3
4
1, 2
,
ausreicht, um die Irreduzibilitt mit dem Satz
a
11.17 Denition:
Sei P eine irreduzible Ubergangsmatrix auf S. Die Periode eines Zustands i S ist der grte gemeino
same Teiler der Menge
{n N | es gibt einen Pfad der Lnge n von i nach i} = {n N | Pn (i, i) > 0} .
a
Beispiel 11.18:
0 1
1 0
a
aus Beispiel 11.15. Fr den Zustand i = 1 existieren oenbar Pfade mit Lngen 2,4,6,8,... von i nach
u
i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Denition
auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.
Genauso ist d
= 2.
137
Beispiel 11.19:
Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist
0
1
2
P=
1
2
a
o
Fr i = 1 nden wir oenbar Pfade von i nach i mit den Lngen 2,3,4,5,6 usw., schlielich knnen
u
o
wir im Zustand 2 immer rotieren. Das grte gemeinsame Teiler dieser Menge ist 1, d.h. wir
haben d 1 = 1.
Fr i = 2 gibt es sogar einen Pfad von i nach i mit Lnge 1, weshalb es keinen greren Teiler als
u
a
o
1 geben kann. Es folgt d
= 1.
Nach diesen beiden Beispielen kann man schon vermuten: Fr jedes i S ist d(i) gleich. In der Tat ist
u
diese Aussage stets richtig:
11.20 Satz:
Sei P eine irreduzible Ubergangsmatrix auf S. Dann ist die Periode d(i) f r jedes i S gleich.
u
Beweis:
Seien i, j S. Es gengt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) d(j).
u
Da P irreduzibel ist nden wir einen Weg i
ist dann
w1
w2
/i
(11.2)
/ j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) n. Da dann
w1 ww2
/i
(11.3)
Mit (11.2) und (11.3) folgt aber d(i) n, was zu zeigen war.
Bemerkung 11.21:
Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zustnden
a
auch fr nicht irreduzible Ubergangsmatrizen P denieren, allerdings kann dann d(i) = d(j) fr i = j,
u
u
i, j S gelten.
11.22 Denition:
Zur Bestimmung der Periode d kann man sich also ein i S aussuchen. Gibt es im Ubergangsgraphen
GP zum Beispiel eine Schleife der Form
p3 >0
p1
)i
Z
... j
p2
138
Beispiel 11.25:
1
2
1 j
1
2
2 j
1
2
3 j
1
2
1
2
gegeben ist. Da es oenbar nur Wege gerader Lngen von i nach i fr jedes i S =
a
u
geben kann, ist d = 2.
1, 2, 3, 4
Beispiel 11.26:
1
2
1
2
1
2
1
2
1
2
3 3
v
2 s
1
2
1, 2, 3
11.27 Satz:
Seine Ubergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n N mit
Pn (i, j) > 0 i, j S
gibt.
Beweis:
Wir wollen die folgende zahlentheoretische Tatsache verwenden:
Ist der grte gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler natrlicher Zahlen = 1, so gibt es ein
o
u
k N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M N s.d. jedes m M geschrieben werden kann als
m = a1 n1 + ... + ak nk
mit Koezienten ai N, i = 1, .., k. Dies sieht man leicht uber die Theorie der Hauptideale ein.
/ 1 , |w| = m
existiert.
Fr #S = N setze nun n := M + 2N . Da P irreduzibel ist, nden wir zu i, j S beliebig einen
u
Weg
w1
/j
i
mit |w1 | N , indem wir keine Zustnde unntigerweise doppelt besuchen. Genauso existiert auch
a
o
ein Weg
w2
/j
1
mit |w2 | N . Gem der Wahl von M nden wir einen Pfad
a
1
/ 1
139
w1 ww2
/j
Pn+1 (i, j) =
kS
P (i, k) Pn (k, j)
und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Lnge N ist , auch sofort
a
Pn+1 (i, j) > 0 i, j S. Daher gibt es Wege der Lnge n und n + 1 von 1 nach 1 . Es folgt
a
d(1) (n + 1) n = 1 und somit d(1) = 1. Daher ist P aperiodisch.
Die Irreduzibilitt von P folgt bereits aus Satz 11.14.
a
11.2
Markov-Ketten
Von jetzt an werden wir stets ohne Einschrnkung S = {1, ..., N } annehmen. Bisher haben wir in diesem
a
Zusammenhang unsere Zustnde stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.
a
Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist.
11.28 Denition:
Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung
0 := (0 (1) , ..., 0 (N )) .
11.29 Denition:
(Startverteilung)
(Markov-Eigenschaft)
S mit P (Xn = in , ..., Xnk = ink ) = 0 gilt
Zustand und nicht von der weiteren Vergangenheit abhngt, wie wir es in der Idee zu Beginn
a
gefordert haben.
Die Forderung P (Xn = in , ..., Xnk = ink ) = 0 ist mathematisch unerlsslich, wir werden sie aber
a
stets stillschweigend annehmen.
Man kann sich nun Fragen, ob es uberhaupt Markov-Ketten gibt (d.h. ob fr jede Ubergangsmatrix und
u
jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Matheorie
beantwortet diese Frage mit ja.
Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige
Modell fr das zufllige, durch P gesteuerte Wandern auf GP bei zuflligem, durch 0 gesteuertem Start
u
a
a
handelt.
140
11.2.1
Markov-Eigenschaft
P (im1 , im ) P (B) .
P (i1 , i ) P (Xn = i0 ) .
Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist
P (X0 = ii ) = 0 (i0 )
durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also
genau unseren Wnschen!
u
Bemerkung 11.31
P (Xn = i)
(11.1)
im1 ,...,i1 S
P (Xn = i) P (i, j) .
1
2
P=
1
2
1
2
1
4
1
2
3
4
, P4 =
3
8
5
16
5
8
11
16
0.33398 0.66602
0.33301 0.66699
, P10
5
16
= 0.3125.
die Verteilung von Xn . Dann ist n ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der
Formel von der totalen Wahrscheinlichkeit fr jedes j S
u
n (j)
P (Xn = j)
(3.2)
iS
Bemerkung 11.32
iS
P (Xn = j | X0 = i) P (X0 = i)
Pn (i, j) 0 (i)
(0 Pn ) (j) ,
141
wobei 0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 N -Matrix) 0 und der N N -Matrix
n = 0 Pn .
(11.4)
Beispiel 11.35:
Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa 0 = (0, 1), d.h. starten wir mit Sicherheit
im Zustand 2, so ist
5 11
.
,
4 = 0 P4 = zweite Zeile von P4 =
16 16
Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.
1
Ist dagegen 0 = 2 , 1 , was etwa einem Mnzwurf fr den Startzustand entspricht, so ist
u
u
2
4 = 0 P4 =
1
1
erste Zeile von P4 + zweite Zeile von P4 =
2
2
11 21
,
32 32
1 2
,
3 3
/
11.3
11.36 Denition:
Ist P eine Ubergangsmatrix und eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass
P =
ist, so nennt man eine invariante Verteilung.
Bemerkung 11.37:
Der Begri invariant macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt
/ (j) i S.
(2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung 0 , so gilt
n
d.h. P (Xn = j)
/ (j) f r alle j S.
u
/ ,
142
Beweis:
(1) Wir unterteilen den Beweis in zwei Schritte:
Schritt I
Sei j S beliebig aber fest. Wir setzen
(n)
mj
:=
(n)
Mj
:=
iS
iS
Wegen
(n+1)
mj
min
iS
iS
P (i, k) Pn (k, j)
kS
(n)
min
mj
max
iS
P (i, k) mj
kS
(n)
und
(n+1)
Mj
iS
iS
P (i, k) Pn (k, j)
kS
(n)
min
(n)
Mj
iS
P (i, k) Mj
kS
(n)
(n)
ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj
fallend in n.
Unser Ziel ist es nun zu zeigen, dass
(n)
Mj
(n)
mj
/0
monoton
(11.5)
gilt.
Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L N und ein > 0 gibt,
s.d.
PL (i, j) i, j S
ist. Sei n N zunchst fest. Whle
a
a
ein i0 S mit
(n+L)
Pn+L (i0 , j) = mj
und
ein i1 S mit
(n+L)
Pn+L (i1 , j) = Mj
Sei nun
I+ := k S | PL (i1 , k) PL (i0 , k)
und I := S \ I+ . Mit dieser Einteilung folgt
kI+
PL (i1 , k) PL (i0 , k) +
kI
PL (i1 , k) PL (i0 , k)
=
kS
PL (i1 , k)
1 1 = 0.
PL (i0 , k)
kS
(11.6)
143
Mj
(n+L)
mj
=
=
kS
Pn (i1 , k) PL (k, j)
Pn (i0 , k) PL (k, j)
kS
=
kS
=:dk
dk Pn (k, j) ,
dk Pn (k, j) +
kI
kI+
Mj
(n+L)
(n)
mj
dk Mj
kI+
(11.6)
(n)
kI+
(n)
Mj
(n)
mj
(n)
mj
(n)
dk mj
kI
dk Mj
(n)
(1 ) Mj
kI+
(n)
mj
PL (i1 , k)
.
Mj
(mL)
mj
(1 )
(0)
(0)
mj
Mj
/ 0.
1
(n)
(n)
Schritt II
Setze nun
(n)
(j) := lim mj
n
(n)
Da die Folgen mj
werte. Wegen
(n)
und Mj
(n)
= lim Mj .
n
beschrnkt (durch [0, 1]) und monoton sind, existieren diese Grenza
(n)
mj
(n)
Pn (i, j) Mj
iS
folgt sofort
n
Pn (i, j)
/ (j)
/ gegen konver-
Wir mssen zeigen, dass eine invariante Verteilung fr P ist. Das folgt aus
u
u
P(j) =
kS
(k)P (k, j) n
fr jedes j S.
u
/ (j)
144
Wir mssen zeigen, dass eindeutig bestimmt ist. Sei dazu eine Wahrscheinlichkeitsveru
teilung mit = P. Insbesondere ist dann = Pn fr alle n N und daher gilt fr alle
u
u
jS
(j) =
(k)Pn (k, j) .
kS
Im Grenzbergang n
u
/ ist Pn (k, j)
(j) =
n (j)
Bemerkung 11.34
(0 Pn ) (j)
Pn (k, j)
0 (k)
kS
n
(j)
/ (j)
0 (k)
kS
=1
=
/
Das zeigt n
(j).
/ .
Beispiel 11.39:
1
2
P=
1
2
aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunchst eine invariante Verteilung ,
a
d.h. ein = ((1), (2)) mit P = . Das liefert das Gleichungssystem
1
(2) =
2
1
(1) + (2) =
2
(1)
(2),
woraus nur = (a, 2a) mit einem beliebigen a R folgt. Da allerdings ein Wahrscheinlichkeitsvektor
1
sein soll, muss a + 2a = 1 gelten, d.h. a = 3 . Es folgt, dass
1 2
,
3 3
die einzige invariante Verteilung zu P ist, was eine Probe leicht besttigt:
a
P =
1
2
1 2
,
3 3
1
2
/
/
1 2
,
3 3
= .
/ 1 , P (Xn = 2)
3
/
/
1
3
1
3
2
3
2
3
2
3
145
11.40 Hilfssatz:
Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix
1
Pk :=
1
k
1
IN
k
P+
PM =
k
=0
1
k
1
k M
P ,
j
da IN = IN und P IN = IN P = P. Also ist
M
PM (i, j) =
k
=0
1
k
1
k M
M
n (i, j)
P (i, j)
1
k
n(i,j)
1
k Mn(i,j)
>0
Pk :=
1
k
P+
1
IN .
k
(11.7)
Diese Matrix ist gem Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu
a
jedem k N2 genau eine invariante Verteilung (k) zu Pk .
Da (k) Koordinatenweise durch [0, 1] beschrnkt ist, existiert eine Teilfolge ki s.d.
a
ki
= P.
Eindeutigkeit:
Ist = P und = P fr zwei Wahrscheinlichkeitsverteilungen , , so folgt insbesondere nach
u
(11.7), dass
P2
P2 ,
Der Konvergenzsatz lsst sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses
a
Ergebnis allerdings nur ohne Beweis angeben:
146
/0
jSi (n)
exponentiell schnell.
11.4
11.43 Denition:
Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N } und i S. Sei Ti die zufllige Zeit ( N), die
a
vergeht, bis die in i gestartete Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet
u
in i gestartet, dass 0 = ei f r den i-ten karthesischen Einheitsvektor ei gilt. Dann ist
Ti = inf {n 1 | Xn = i}
und wir nennen Ti die R ckkehrzeit von i.
u
Bemerkung 11.44:
Beachte, dass
{Ti = n} = {Xn = i, .Xn1 = i, ..., X1 = i, X0 = i} .
Beispiel 11.45:
1 j
1
2
.
[
a
o
Identiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zuflligen Gre T1 bestimmen.
1 n
Oenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 2 fr n 1. Damit folgt
u
E (T1 ) =
n=0
n P (T1 = n)
n
n=2
1
2
n1
1
2
(n + 1)
n=1
n=1
1
2
1
2
n=1
=1
1
2
Fr Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) =
u
E (T2 ) = 1
1
3
1
+2 = .
2
2
2
1 2
3, 3
gilt.
1
(i)
1
2
ist
147
Sei P eine irreduzible Ubergangsmatrix und X0 , X1 , ... die zugehrige in i S gestartete Markov-Kette.
o
Dann gilt:
(1) Man kehrt sicher zu i zur ck, d.h.
u
P (Ti = n) = 1.
n=1
(2) Es ist
E (Ti ) =
n=1
P (Ti = n) < .
=:B
(11.8)
=:C
Beweis:
Wir zerlegen das Ereignis C disjunkt als
C=
Ck
kI
mit Ck s von der Form {X0 = i0 , ..., Xn1 = in1 } fr ein Tupel (i0 , ..., in1 ) E. Nach der Markovu
Eigenschaft gilt
P (A | B Ck ) = P (A | B) k I,
d.h. es folgt
P (A B Ck ) = P (A | B) P (B Ck ) k I
nach Denition der bedingten Wahrscheinlichkeit. Bilden der Summe uber k I liefert
P (A B C) = P (A | B) P (B C) ,
was per Denition gleichbedeutend mit
P (A | B C) = P (A | B)
ist - das ist genau die Behauptung.
11.49 Satz (Rckkehrzeitensatz):
u
Sei P eine irreduzible Ubergangsmatrix und die zugehrige invariante Verteilung. Dann gilt
o
E (Ti ) =
1
(i)
f r jedes i S.
u
Beweis:
Wir betrachten bei Start im Zustand i S die Hilfsfunktion
(k) :=
n=0
P (Xn = k, Ti > n) ,
k S.
Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Ubergangsmatrix P und die Zahlen
P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber
bis zur Zeit n noch nicht wieder in i war.
148
Ohne Einschrnkung nehmen wir wieder S = {1, ..., N } an. Setze dann
a
:= ( (1) , ..., (N )) .
Dann gilt
(k)
P (Xn = k, Ti > n)
n=0 k=1
k=1
P (Ti > n)
n=0
n=1
(5.3)
P (Ti n)
E (Ti )
und diese Zahl ist nach dem Satz uber die positive Rekurrenz oben < . Daher ist
(N )
(1)
, ...,
E (Ti )
E (Ti )
1
=
E (Ti )
ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt.
Zur Vorbereitung berechnen wir fr k S, k = i und j S, dass
u
P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) P (Xn = k, Ti > n) .
Verwenden wir nun das Lemma oben fr E = {(i, j1 , ..., jn1 ) S n | j1 , ..., jn1 = i}, so folgt wegen
u
{Ti > n} = {Xn1 = i, ..., X1 = i, X0 = i} = (X0 , ..., Xn1 ) E,
dass
(11.8)
P (Xn+1 = j, Xn = k, Ti > n)
Man beobachtet schnell, dass diese Gleichung auch fr k = i richtig bleibt:Ist n > 0, so sind zwingend
u
beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j).
1
Es gengt nun zu zeigen, dass P = ist, der Faktor E(Ti ) braucht nicht beachtet zu werden (da er auf
u
beiden Seiten auftaucht). Mit obiger Rechnung gilt fr j S:
u
(P) (j)
=
kS
(k) P (k, j)
n=0 kS
P (Xn+1 = j, Xn = k, Ti > n)
n=0 kS
P (Xn+1 = j, Ti > n) .
n=0
P (Xn+1 = j, Ti > n)
n=0
P (Xn+1 = j, Ti > n + 1)
n=0
(j),
149
P (Xn+1 = j, Ti > n)
n=0
P (Ti = n + 1)
n=0
Satz 11.46
1.
P (Xn = i, Ti > n) =
n=0
n=1
=0
=1
1
u
a
Das zeigt, dass E(Ti ) eine invariante Verteilung fr P ist. Gem Satz 11.41 ist die invariante Verteilung
eindeutig, d.h. wir haben
1
(i) = (i).
E (Ti )
n1
f (xk )
k=0
f (j)(j).
jS
/
/
(j) = (A).
jA
4 Eine
/ (i).
150
11.5
11.5.1
Beispiele
Irrfahrt auf ungerichtetem Graphen
In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden.
Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.
11.51 Denition:
F r jede Ecke i S sei
u
d(i) := # {j S | es gibt eine Kante zwischen i und j} .
Beispiel 11.52:
Sei G gegeben als
3
Dann ist d
2 )=#
1, 2, 3
= 3, d
= 2, d
= 3, d
= 1.
Wir wandern nun rein zufllig auf diesem Graphen, in dem wir jeweils gleichverteilt die nchste Ecke
a
a
unter den mit i verbunden Ecken whlen. D.h.
a
11.53 Denition:
Sei P die N N -Matrix mit
P (i, j) =
0
1
d(i)
11.54 Denition:
Wir setzen
D :=
d(i).
iS
11.55 Satz:
Damit ist
(i) :=
eine invariante Verteilung von P.
d(i)
, iS
D
1
d(i)
=
= 1 i S.
d(i)
d(i)
151
Beweis:
Man berechnet
(P) (j)
(i)P (i, j)
iS
=
i{k | es gibt eine Kante zwischen i und j}
d(i)
1
D d(i)
1
# {k | es gibt eine Kante zwischen i und j}
D
d(j)
=
D
= (j)
=
fr j S.
u
Bemerkung 11.56:
Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher nicht zwingend eindeutig
bestimmt ist.
Beispiel 11.57:
Wir wollen einen Springer auf einem 4 4-Schachbrett betrachten. Sei dazu S = {(i, j) | 1 i, j 4}.
Der zugehrige Graph stellt sich wie folgt dar:
o
(1,4)
(2,4)
(3,4)
(4,4)
(1,3)
(2,3)
(3,3)
(4,3)
(1,2)
(2,2)
(3,2)
(4,2)
(1,1)
(2,1)
(3,1)
(4,1)
Aus diesem Graphen lesen wir nun die Gradzahlen d
folgenden Tabelle bezeichnet d
(i,j)
(i,j) :
2
152
Damit berechnet man leicht D = 4 (2 + 3 + 3 + 4) = 48 und hat so gem dem Satz die invariante
a
Verteilung :5
1
24
1
16
1
16
1
24
1
16
1
12
1
12
1
16
1
16
1
12
1
12
1
16
1
24
1
16
1
16
1
24
1
= 24.
((1, 1))
(2) Das starke Gesetz sagt etwa, dass fr einen Springerpfad die relative Hugkeit der Besuche in den
u
a
mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen
({(i, j) | 2 i, j 3}) = 4
1
1
=
12
3
konvergiert.
(3) Sei P die zugehrige Ubergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.
o
Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe
(Schwarz / Wei) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zurckziehen
u
mglich ist, genau Periode d = 2.
o
(4) Mit Bemerkung 11.42 ist fr groes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben
u
als
1
0 1 0
12
8
1
0 6 0 1
8
1
0 1 0
8
6
1
1
0 8 0 12
Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springer
sich zur Zeit n in der Position (i, j) aufhlt.
a
11.5.2
Ehrenfeld-Diusion
Wir nehmen an, in einem Hrsaal benden sich N Gasmolekle. Wir zerteilen den Hrsaal in die rechte
o
u
o
Hlfte H1 und die linke Hlfte H2 . Als Modell nehmen wir an, dass jeweils ein Molekl zufllig ausgewhlt
a
a
u
a
a
wird und dieses dann in die andere Hrsaalhlfte wechselt.
o
a
Sei dazu
S = {0, ..., N } ,
was der Anzahl der Gasmolekle in H1 entsprechen soll. Oenbar muss dann fr die Ubergangsmatrix P
u
u
N i
,
N
i
,
N
P (i, i + 1) =
P (i, i 1) =
i<N
i>1
Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung zu P gegeben ist durch
(i) =
N N
2 , i S.
i
1
D.h. wir haben B N, 2 .
1
= 2N .
(0)
5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die
Matrix ist also irreduzibel!
153
D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmolekle sind, so ist zu erwarten, dass
u
dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist fr eine Anzahl N von Moleklen reichlich gro!
u
u
Auerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist:
Sei N = 10.000. Wegen B 10.000, 1 liefert die Chernov-Ungleichung
2
({4801, ..., 5199}) 0.9993.
Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmolekle sind.
u
154
12
12.1
Punktschtzer
a
/ X.
B (n, ) | [0, 1] .
=P
n x
(1 )nx ,
x
x = 0, ..., n.
Wir wollen nun aufgrund einer Stichprobe x X (d.h. einer Realisation von X) den Parameter oder
allgemeiner eine Funktion g in Abhngigkeit von geschtzt werden.
a
a
12.3 Denition:
u
Ein Schtzer f r ist eine Abbildung
a
t:X
/ .
u
F r ein konkretes x X heit t(x) dann eine Schtzung f r .
u
a
Die Zufallsvariable T := t (X) wird ebenfalls Schtzer f r genannt.
a
u
Beispiel 12.4:
Betrachte wieder das Setting aus Beispiel 12.2. Ist x {0, ..., n} die Stichprobe, so ist
t(x) :=
x
n
155
ein Schtzer fr die Erfolgswahrscheinlichkeit des Bernoulli-Experiments. Nun sollte man sich fragen,
a
u
ob dieser Schtzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.
a
Ebenso ist dann
1
T = X
n
ein Schtzer fr und konkret fr n = 20 und x = 14 ist
a
u
u
t(14) =
7
= 0.7
10
/ g ()
u
heit Schtzer f r g().
a
Beispiel 12.6:
Wieder im Setting von Beispiel 12.2 knnen wir versuchen, die Varianz von B (n) zu schtzen, d.h.
o
a
g() = n (1 ) .
Ein mglicher Schtzer wre
o
a
a
x
x
x
1
=x 1
.
n
n
n
Weiter unten werden wir uns mit der Frage beschftigen, ob dieser Schtzer sinnvoll bzw. gut ist.
a
a
t(x) := n
Man sollte beachten, dass es im Allgemeinen nicht den Besten Schtzer gibt. Es gibt verschiedene
a
Verfahren zur Herleitung und verschiedene Gte-Kriterien fr Schtzer. Wir besprechen hier die MLu
u
a
Schtzer und die erwartungstreuen Schtzer, es gibt auerdem noch Risiko-Schtzer, Konsistenz-Schtzer
a
a
a
a
und viele mehr.
12.1.1 ML-Schtzer
a
12.7 Denition:
Wir sagen, ein Schtzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:
a
F r jedes x X ist t(x) = ML mit
u
pML (x) p (x) .
Falls wir mit einer diskreten Verteilung P arbeiten, so ist das zugehrige p die entsprechende Wahro
scheinlichkeitsfunktion, ist P eine stetige Verteilung, so ist p die entsprechende Dichte.
D.h. f r festes x X maximiert t(x) = ML die sogenannte Likelihood-Funktion
u
Lx () = p (x)
u
ber .
Beispiel 12.8:
Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als
Lx () =
n x
nx
(1 )
.
x
Um einen ML-Schtzer fr zu bestimmen ist diese Funktion jetzt fr gegebenes x {0, ..., n} uber
a
u
u
[0, 1] zu minimieren.
Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton
steigend ist6 , nehmen Lx und log Lx im selben ihr Maximum.
6 Wir
156
Beispiel 12.9:
Im obigen Beispiel 12.2 ist dann
log Lx () = log
n
+ x log + (n x) log (1 ) .
x
Um das Maximum dieser Funktion zu bestimmen, dierenzieren wir nach und erhalten so
!
0 = 0+
x nx
x
womit = n folgt.
Also ist unser Schtzer
a
n
x
von oben sogar ein ML-Schtzer fr die Erfolgswahrscheinlichkeit .
a
u
t(x) =
12.1.2
Erwartungstreue Schtzer
a
12.10 Denition:
Ein Schtzer t f r ist erwartungstreu, wenn
a
u
E (t(X)) =
f r alle gilt, d.h.: Ist der wahre Parameter, so ist die (zufllige) Schtzung t(x) zumindest im
u
a
a
Erwartungswert gleich .
Ganz analog deniert man fr Schtzer von Funktionen:
u
a
12.11 Denition:
Ein Schtzer t f r eine Funktion g in Abhngigkeit von ist erwartungstreu, wenn
a
u
a
E (t(X)) = g ()
f r alle gilt.
u
Beispiel 12.12:
Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schtzer
a
t(x) =
x
n
X
n
1
1
E (X) = n = .
n
n
x
n
ein ML-Schtzer fr die Varianz, denn schlielich haben wir dort einfach den ML-Schtzer fr in die
a
u
a
u
157
E (t(X)) =
=
E (X)
X
n
1
E X 2
n
1
V (X) + (E (X))2
n
1
n (1 ) + n2 2
n
n
(n 1) (1 )
=
=
n1
n (1 ) .
n
=1
=g()=V (X)
4
obwohl die tatschliche Varianz
a
1
2
betrgt.
a
X=
=1
= X1 ... X1 .
nmal
P ... P | ,
=:P
wobei jedes P eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.
Beispiel 12.14:
Sei etwa
oder
P {B (1, ) | 0 1}
P N , 2
| R, 2 > 0 .
(1) Wir wollen zuerst einen Schtzer fr den Erwartungswert E (X1 ) von P herleiten.
a
u
12.15 Lemma:
Der Schtzer
a
t (x1 , ..., xn ) :=
ist erwartungstreu f r E (X1 ).
u
1
n
xi = x
i=1
158
Beweis:
Man berechnet
E (t (X1 , ..., Xn )) =
Xi
i=1
1
n
=
=
1
n
E (Xi )
i=1
E (X1 ) .
xi = 996.5
i=1
(2) Jetzt wollen wir einen Schtzer fr die Varianz V (X1 ) von P herleiten. Sei dazu wieder
a
u
x :=
1
n
xi .
i=1
Berechne nun
2
i=1
(xi x)
=
i=1
x2 2
i
x2
xi x +
i=1
i=1
=
i=1
x2 2n2 + n2
x
x
i
n
2
=
i=1
x2 n ()
x
i
(12.1)
und
E x2
Unabhngigkeit
a
n
1
Xi Xj
E
n2
i,j=1
1
n2
1
E (Xi Xi ) + 2
n
i=1
1
1
2
nE X1 + 2
2
n
n
i,j=1
i=j
E (Xi Xj )
i,j=1
i=j
E (Xi ) E (Xj )
1
n1
2
2
E X1 +
(E (X1 )) .
n
n
(12.2)
1
n1
n
2
i=1
(xi x)
ist ein erwartungstreuer Schtzer f r die Varianz. Er wird auch Stichprobenvarianz genannt.
a
u
159
Beweis:
Es gilt
n
E
i=1
(Xi x)
(12.1)
E
i=1
(12.2)
Xi2 n2
x
2
2
2
nE X1 E X1 + (n 1) (E (X1 ))
2
(n 1) E X1 (E (X1 ))
(n 1) V (X1 ) .
n
2
i=1
(xi x) .
/ .
Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n
2
2 als Schtzer f r die Standardabweichung
a
u
In der Praxis wird S als Schtzer fr die Varianz und S
a
u
verwendet.
Beispiel 12.18:
In Beispiel 12.1 wre also
a
S 2 (x1 , ..., x6 ) =
1
5
6
i=1
(xi x)2 =
1
5
6
i=1
12.2
Statistische Tests
Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschftigen, ob aufgrund dieser Stichproben die
a
Kontrolle eingeschaltet werden sollte. Dazu beschftigen wir uns allgemein mit statistischen Tests:
a
Sei X ein Stichprobenraum und
P = {P | }
ein statistisches Modell fr die mglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X
u
o
mit Werten in X. Seien nun
0 und 1
zwei disjunkte Teilmengen.
12.19 Denition:
Die Aussage
H0 : 0
nennen wir Hypothese und die Aussage
H1 : 1
nennen wir Alternative.
Beispiel 12.20:
In Beispiel 12.1 wre
a
P=
N , 2
=
| 0, 2 > 0
160
das statistische Modell fr die mglichen Verteilungen der Befllung. Die Aussage kein Betrug entu
o
u
| = 1000, 2 > 0
, 2
H1 : 1 :=
, 2
12.21 Denition:
Das Entscheidungsproblem
H0 : 0 gegen H1 : 1
heit Testproblem.
12.22 Denition:
Ein Test ist eine Abbildung
:X
/ {0, 1} ,
wobei (x) = 1 bedeutet, dass die Hypothese verworfen wird und (x) = 0 bedeutet, dass die Hypothese
nicht verworfen wird.
Die Menge
{x X | (x) = 1}
heit Verwerfungsbereich.
Bemerkung 12.23:
Als Hypothese sollte man stets die Annahme whlen, deren Verwerfung die greren Konsequenzen hat
a
o
- wie vor Gericht die Unschuldsvermutung. Der Grund dafr ist, dass durch (statistische) Tests stets nur
u
der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.
Beim Test eines neuen Prototypen wrde man als Hypothese also das bisherige Produkt ist besser
u
verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.
12.24 Denition:
Sei ein Test. Wir denieren die G tefunktion :
u
() := P ((x) = 1) ,
d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.
F r 0 ist () dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung
u
12.23).
Das primre Ziel bei statistischen Tests ist es nun, den Fehler erster Art fr alle 0 zu kontrollieren!
a
u
12.25 Denition:
Sei ein Test. Wir nennen einen Test zum Niveau [0, 1], wenn
sup ()
ist, d.h. wenn f r alle 0 die Wahrscheinlichkeit eines Fehlers erster Art durch beschrnkt ist.
u
a
12.26 Denition:
1
Ist ein Test zum Niveau = 20 = 0.05 und x X eine Stichprobe mit (x) = 1 (d.h. wenn wir aufgrund
dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signikanten Ergebnis.
Bei =
1
100
12.2.1
161
< 0 = 1000.
Wir wollen nun in Abhngigkeit von
a
x=
1
n
xi
i=1
Wir werden hier jetzt beispielhaft an unserem Fllmengenbeispiel z so bestimmen, dass der zugehrige
u
o
Test das Niveau 0.05 hat.
Seien X1 , ..., Xn die zuflligen Mewerte und sei wie immer
a
1
X=
n
Xi .
i=1
P0 X < z 0.05.
2
Unter der Hypothese = 0 gilt Xi N 0 , 0 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass
X 0
0
n
P0 X < z = P0
N (0, 1) .
X 0
0
n
<
N (0,1)
z 0
0
n
0.05.
=:y
0
z = 0 + (1.645)
n
ist.
Beispiel 12.28:
In Beispiel 12.1 wre dementsprechend
a
5
0
z = 0 + (1.645) = 1000 1.645 996.64.
n
6
Wegen x = 996.5 wrden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung
u
machen!
162
12.2.2
Der t-Test
Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.
In unserem Beispiel 12.1 wollen wir hier also
H0 : 0 =
, 2
| = 0 = 1000, 2 > 0
H1 : 1 =
, 2
gegen
testen.
Als Testgre kann man jetzt nicht
o
X 0
0
n
nutzen, da man 0 nicht kennt. Die Lsung fr dieses Problem ist denkbar einfach: Man schtzt 0 uber
o
u
a
S = S2 =
1
n1
i=1
2
Xi X ,
wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Schtzer fr 0 ist!
a
u
Nach dieser Schtzung nutzt man dann
a
P X<z =P
X 0
S
<
z 0
S
=Y
und man kann zeigen, dass Y tn1 gilt. Die Verteilung tn1 ist dabei unabhngig von 2 , d.h. von der
a
wahren Varianz. Die Dichte zu tn1 sieht der Dichte von N (0, 1) sehr hnlich und in gewissem Sinne gilt
a
/
n
/ N (0, 1). Die Verteilungsfunktion Ftn1 der Verteilung tn1 ist ebenso wie tabelliert.
tn1
Jetzt kann man genauso wie beim Gautest vorgehen und entsprechend ein y mit Ftn1 (y) = 0.95
suchen.
Beispiel 12.29:
In Beispiel 12.1 betrachten wir n = 6, also t5 . Es folgt aus der Tabelle y = 2.015 und damit
S
5.3572
995.593.
z = 0 + (2.015) = 1000 2.015
n
6
In diesem Fall wrden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!
u
163
(x) =
t2
1
exp
2
2
dt
x 0,
0.00
0.500000
0.539828
0.579260
0.617911
0.655422
0.691462
0.725747
0.758036
0.788145
0.815940
0.841345
0.864334
0.884930
0.903199
0.919243
0.933193
0.945201
0.955435
0.964070
0.971284
0.977250
0.982136
0.986097
0.989276
0.991802
0.993790
0.995339
0.996533
0.997445
0.998134
0.998650
0.999032
0.999313
0.999517
0.999663
0.999767
0.999841
0.999802
0.999928
0.999952
0.01
0.503989
0.543795
0.583166
0.621719
0.659097
0.694974
0.729069
0.761148
0.791030
0.818589
0.844752
0.866500
0.886860
0.904902
0.920730
0.934478
0.946301
0.956367
0.964852
0.971933
0.977784
0.982571
0.986447
0.989556
0.992024
0.993963
0.995473
0.996636
0.997523
0.998193
0.998694
0.999064
0.999336
0.999533
0.999675
0.999776
0.999847
0.999896
0.999930
0.999954
0.02
0.507978
0.547758
0.587064
0.625516
0.662757
0.698468
0.732371
0.764238
0.793892
0.821214
0.846136
0.868643
0.888767
0.906582
0.922196
0.935744
0.947384
0.957284
0.965621
0.972571
0.978308
0.982997
0.986791
0.989830
0.992240
0.994132
0.995603
0.996736
0.997599
0.998250
0.998736
0.999096
0.999359
0.999550
0.999687
0.999784
0.999853
0.999900
0.999933
0.999956
0.03
0.511967
0.551717
0.590954
0.629300
0.666402
0.701944
0.735653
0.767305
0.796731
0.823814
0.848495
0.870762
0.890651
0.908241
0.923641
0.936992
0.948449
0.958185
0.966375
0.973197
0.978822
0.983414
0.987126
0.990097
0.992451
0.994297
0.995731
0.996833
0.997673
0.998305
0.998777
0.999126
0.999381
0.999566
0.999698
0.999792
0.999858
0.999904
0.999936
0.999958
0.04
0.515953
0.555670
0.594835
0.633072
0.670031
0.705402
0.738914
0.770350
0.799546
0.826391
0.850830
0.872857
0.892512
0.909877
0.925066
0.938220
0.949497
0.959071
0.967116
0.973810
0.979325
0.983823
0.987455
0.990358
0.992656
0.994457
0.995855
0.996928
0.997744
0.998359
0.998817
0.999155
0.999402
0.999581
0.999709
0.999800
0.999864
0.999908
0.999938
0.999959
0.05
0.519939
0.559618
0.598706
0.636831
0.673645
0.708840
0.742154
0.773373
0.802338
0.828944
0.853141
0.874928
0.894350
0.911492
0.926471
0.939429
0.950529
0.959941
0.967843
0.974412
0.979818
0.984222
0.987776
0.990613
0.992857
0.994614
0.995975
0.997020
0.997814
0.998411
0.998856
0.999184
0.999423
0.999596
0.999720
0.999807
0.999869
0.999912
0.999941
0.999961
0.06
0.523922
0.563559
0.602568
0.640576
0.677242
0.712260
0.745373
0.776373
0.805106
0.831472
0.855428
0.876976
0.896165
0.913085
0.927855
0.940620
0.951543
0.960796
0.968557
0.975002
0.980301
0.984614
0.988089
0.990863
0.993053
0.994766
0.996093
0.997110
0.997882
0.998462
0.998893
0.999211
0.999443
0.999610
0.999730
0.999815
0.999874
0.999915
0.999943
0.999963
0.07
0.527903
0.567495
0.606420
0.644309
0.680822
0.715661
0.748571
0.779350
0.807850
0.833977
0.857690
0.878999
0.897958
0.914656
0.929219
0.941792
0.952540
0.961636
0.969258
0.975581
0.980774
0.984997
0.988396
0.991106
0.993244
0.994915
0.996207
0.997197
0.997948
0.998511
0.998930
0.999238
0.999462
0.999624
0.999740
0.999821
0.999879
0.999918
0.999946
0.999964
0.08
0.531881
0.571424
0.610261
0.648027
0.684386
0.719043
0.751748
0.782305
0.810570
0.836457
0.859929
0.881000
0.899727
0.916207
0.930563
0.942947
0.953521
0.962463
0.969946
0.976148
0.981237
0.985371
0.988696
0.991344
0.993431
0.995060
0.996319
0.997282
0.998012
0.998559
0.998965
0.999264
0.999481
0.999638
0.999749
0.999828
0.999883
0.999922
0.999948
0.999966
0.09
0.535856
0.575345
0.614092
0.651732
0.687933
0.722405
0.754903
0.785236
0.813267
0.838913
0.862143
0.882977
0.901475
0.917736
0.931888
0.944083
0.954486
0.963273
0.970621
0.976705
0.981691
0.985738
0.988989
0.991567
0.993613
0.995201
0.996427
0.997365
0.998074
0.998605
0.998999
0.999289
0.999499
0.999650
0.999758
0.999835
0.999888
0.999925
0.999950
0.999967
Dabei ist der Eintrag in der Zelle (i, j) genau (i + j). Hier nochmal der Graph:
0.8
0.6
0.4
0.2
4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0
0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
B.1
164
Diskrete Verteilungen
Parameter
Laplace
N N
Benoulli
p [0, 1]
B (1, p)
p [0, 1], n N
B (n, p)
Binomial
Hypergeometrisch
>0
Geometrisch
p [0, 1]
Negativ-Binomial
p [0, 1], r N
P (X = k) fr k X ()
u
Erwartungswert
Varianz
1
N
N +1
2
N 2 1
12
p (1 p)
np
n p (1 p)
R
nN
R)
R
n N (NN N n
N 1
{0, 1}
{1, ..., n}
1k
pk (1 p)
n
k
nk
p (1 p)
R
k
N R
nk
N
n
{0, ..., n}
N, R N, N R, n N
Poisson
Bezeichnung
X ()
{1, ..., N }
Verteilung
Poi ()
Geo (p)
)
( )(
( )
N0
exp ()
k!
N
N0
p (1 p)
r+k1
k
pr (1 p)
1
p
k1
1p
p2
1p
p
r 1p
p2
Stetige Verteilungen
Verteilung
Parameter
Bezeichnung
Gleichverteilung
a<b
U (a, b)
Normalverteilung
R, > 0
N , 2
Exponentialverteilung
>0
Exp ()
Gammaverteilung
r, (0, )
Gamma (r, )
Chi-Quadrat-Verteilung
nN
Paretoverteilung
(0, )
Cauchyverteilung
2 = Gamma
n
Pareto()
Wahrscheinlichkeitsdichte
f (t) =
f (t) =
Erwartungswert
Varianz
b+a
2
(ba)2
12
1
2
r
2
2n
1
ba 1[a,b] (t)
1
22
exp (t)
22
n 1
2, 2
f (t) =
r r1
exp (t) 1(0,) (t)
(r) t
n
f (t) =
2 2 n 1
t2
( n )
2
f (t) =
t
exp 2 1(0,) (t)
1
(t)
(t+1)+1 (0,)
f (t) :=
1
(1+t2 )
1
1
falls 1
falls > 1
existiert nicht
2
(1)2
falls > 2
falls 2
B.2
existiert nicht
165