Sie sind auf Seite 1von 112

Wahrscheinlichkeitstheorie

Dr. C.J. Luchsinger


1 Wahrscheinlichkeit
1.1 Zufallsexperiment, Ereignisraum, Ereignisse
Um Zufallsexperimente zu modellieren, in der Sprache der Mathematik zu beschreiben,
f uhren wir folgende Objekte ein: ; mathematisch ist dies einfach eine nichtleere Menge.
Sie steht (aus Modellierungssicht) f ur die Menge der Versuchsausgange; wir nennen sie
auch Ereignisraum [engl Sample Space]. Es ndet jeweils in einem Experiment genau ein
sogenanntes Elementarereignis statt [engl (elementary) Outcome], z.B.
1
oder
2

etc. Ereignisse [engl Events] sind spezielle Teilmengen von (Vorsicht: nicht irgendeine
Teilmenge; wir m ussen dem Ereignis auch eine Wahrscheinlichkeit zuordnen konnen - siehe
spater).
Die meisten Ereignisraume sind aus einer der folgenden Liste (wird in der Vorlesung aus-
gef ullt):
1) Endliche Mengen:
2) Abzahlbare Mengen:
1
3) R und R
+
:= [0, ):
4) Endliche kartesische Produkte (Replika):
5) Unendliche kartesische Produkte (Replika):
6) Funktionen:
2
Wir wenden uns jetzt den Ereignissen zu, also speziellen Teilmengen von . Wir wollen
ab 1.3 diesen Ereignissen auch eine Wahrscheinlichkeit zuordnen.
Nebenbemerkung: Wir m ussen uns in einer Mathematikvorlesung mit der Frage auseinan-
dersetzen, welche Verkn upfungsoperationen mit Mengen zugelassen sein sollen. Wenn wir
hier nicht vorsichtig sind, konnen uble Sachen passieren; mehr dazu am Schluss dieses
Kapitels. Wenn Sie jemals Serviceveranstaltungen f ur andere Studiengange halten (v.a.
Biologie, Medizin, Geographie, Psychologie, Soziologie), sollten Sie diese Diskussion nach
Moglichkeit vermeiden; in den Ingenieurwissenschaften, Physik und quantitative Finance
kann es notwendig sein, dass Sie dies kurz besprechen.
Da Sie bereits eine einf uhrende Veranstaltung in diesem Gebiet gehort haben, konnen wir
uns die elementaren Verkn upfungsoperationen wie A B und A B sparen und gleich zu
den verbleibenden, f ur uns neuen Verkn upfungen schreiten, welche wir spater da und dort
benotigen:
1) AB := (A\B) (B\A) ist die sogenannte symmetrische Dierenz; ein elementares
Ereignis soll dabei in A oder B sein, nicht aber in beiden.
2) StudentInnen, welche bereits die Vorlesung angewandte Stochastik besucht haben, ken-
nen die folgenden beiden Mengen:
limsup
n
A
n
:=

k=1

_
n=k
A
n
und
liminf
n
A
n
:=

_
k=1

n=k
A
n
Wir m ussen uns dar uber unterhalten, was diese Gebilde denn sind:
3
Wir denieren, dass eine Folge von Ereignissen A
1
, A
2
, . . . gegen A konvergiert, notiert als
lim
n
A
n
= A,
wenn limsup
n
A
n
= liminf
n
A
n
= A. Sie zeigen in den

Ubungen, dass monotone Folgen
von Mengen in diesem obigen Sinne konvergieren (wogegen?).
Wir fassen die mengentheoretischen Ausdr ucke und ihre Bedeutung f ur die Wahrschein-
lichkeitstheorie in folgender Tabelle zusammen:
Symbol Mengentheorie / Bedeutung f ur die WT
Menge / Ereignisraum, Menge der Versuchsausgange
Element von / Elementarereignis, Versuchsausgang
A Teilmenge von / Ereignis; falls A, sagt man, dass das Ereignis A
eingetreten ist
A
c
Komplement von A / kein Elementarereignis aus A ndet statt
A B Schnittmenge von A und B / ein Elementarereignis aus A und B ndet statt
A B Vereinigung von A und B / ein Elementarereignis aus A oder B ndet statt
A\B A ohne B / ein Elementarereignis aus A tritt ein, aber nicht aus B
A B A ist Teilmenge von B / Wenn ein Elementarereignis aus A stattndet, dann
immer auch ein Elementarereignis aus B
limsup
n
A
n

k=1

n=k
A
n
/ Ereignis, bestehend im Eintreten von unendlich vielen der
Ereignisse A
1
, A
2
...
liminf
n
A
n

k=1

n=k
A
n
/ Ereignis, bestehend im Eintreten aller Ereignisse A
1
, A
2
...,
mit eventueller Ausnahme einer endlichen Anzahl
leere Menge / unmogliches Ereignis
ganze Menge / sicheres Ereignis (etwas muss passieren)
In der Literatur trit man haug folgende Notationen noch an:

f ur disjunkte Vereinigung,
AB f ur die Schnittmenge, A+B bzw

i
A
i
f ur disjunkte Vereinigungen.
4
Manchmal erlebt man den Umgang mit Funktionen einfacher als den mit Mengen. Weil wir
Gott sei Dank eine 1 zu 1 Beziehung zwischen Mengen und Indikatorfunktionen herstellen
konnen, d urfen wir vieles auf der Ebene von Funktionen erledigen statt auf der Ebene von
Mengen. Die 1 zu 1 Beziehung ist denn einfach die Indikatorfunktion einer Menge:
1
A
() :=
_
1 falls A
0 falls / A.
Wir wollen diese Funktion erstmal ein bisschen kennenlernen; in der Klasse: welche der
folgenden Ausdr ucke sind gleich?
1
AB
, 1
A
c , min{1
A
, 1
B
}, 1
AB
, 1
AB
, 1 1
A
, max{1
A
, 1
B
}, 1
A
1
B
, |1
A
1
B
|

Uberlegen Sie sich jetzt, dass


lim
n
A
n
= A
genau dann wenn punktweise gilt
lim
n
1
A
n
() = 1
A
().
5
1.2 Spezielle Mengen von Mengen (-Algebra, Dynkin- und -Systeme)
1.2.1 -Algebren
Wir wollen den Ereignissen (z.B. A aus ) spater eine Wahrscheinlichkeit (P[A]) zuordnen.
Wenn wir mehrere Ereignisse vorgegeben haben, wollen wir auch die Wahrscheinlichkeiten
von deren Vereinigungen, Durchschnitten oder Komplementen angeben konnen. An die
Menge der Teilmengen von , welche wir untersuchen, stellen wir also ein paar wenige
Bedingungen:
Denition 1.1 [-Algebra] Ein Teilmengensystem A von heisst -Algebra, wenn
folgende 3 Bedingungen erf ullt sind:
a) A
b) A A A
c
A
c) A
1
, A
2
, . . . A
n1
A
n
A.
1. Wieso muss immer in einer -Algebra enthalten sein?
2. Welches ist die kleinste -Algebra uberhaupt?
3. Wieso muss mit A und B immer auch A B in einer -Algebra enthalten sein?
4. Welches ist die kleinste -Algebra, welche Ereignis A enthalt (von A erzeugte -
Algebra)?
6
Falls || = n < , so hat die Potenzmenge von bekanntlich Kardinalitat 2
n
, ist also
wiederum endlich. Man kann also im Fall || = n < einfach als A die Potenzmenge
von wahlen und muss sich dann nicht mehr sorgen, dass man allenfalls eine Menge
untersucht, die gar nicht mehr in der -Algebra drin ist.
Nebenbemerkung: Der naive Wunsch, im Fall = R als -Algebra einfach die Potenz-
menge von R zu nehmen, ist zwar verstandlich, f uhrt aber zu unerw unschten Resul-
taten. Wir werden am Ende dieses Kapitels diesen Punkt kurz diskutieren (Satz 1.30
von Banach und Kuratowski). Wenn Sie also jemals in Service-Veranstaltungen Nicht-
Mathematiker/innen unterrichten, sind Sie realistischerweise gezwungen, bei der Einf uh-
rung normalverteilter Zufallsgrossen zu mogeln: Sie konnen nicht f ur jede x-beliebige
Menge B aus R angeben, wie gross die Wahrscheinlichkeit ist, dass eine normalverteilte Zu-
fallsgrosse X Werte in B annimmt. Es kommt dann namlich vor, dass die normalverteilte
Zufallsgrosse X einzelne Punkte mit Wahrscheinlichkeit grosser Null annimmt. Dies ist
nicht das, was wir unter einer normalverteilten Zufallsgrosse verstehen wollen.
Wir m ussen uns also einschranken; man nimmt statt der Potenzmenge von R die sogenann-
te Borel--Algebra B(R). Sie ist per Denitionem die kleinste -Algebra auf R, welche alle
geschlossenen Intervalle enthalt. Die Mengen aus B(R) nennen wir Borel-Mengen. Man
sagt auch, B(R) wird von der Menge der geschlossenen Intervalle erzeugt; mehr dazu in
den

Ubungen.
Wir wollen B(R) ein bisschen untersuchen; was ist darin alles enthalten?
Was glauben Sie, wie ist die Kardinalitat von B(R)?
7
1.2.2 Dynkin- und -Systeme
Wenn Sie ein komplexes, abstraktes Mengensystem dahingehend untersuchen m ussen, ob
es sich dabei um eine -Algebra handelt, kann dies auf direktem Weg sehr schwierig sein.
Die folgenden Mengensysteme konnen hier helfen:
Denition 1.2 [Dynkin-System, auch d-System oder Monoton-System] Ein
Teilmengensystem D von heisst Dynkin-System, wenn folgende 3 Bedingungen erf ullt
sind:
a) D
b) A D A
c
D
c) A
1
, A
2
, . . . D, paarweise disjunkt,
n1
A
n
D.
Untersuchen Sie den Zusammenhang zwischen Dynkin-System und -Algebra.
Ein Beispiel eines Dynkin-Systems:
8
Lemma 1.3 Sei D ein Dynkin-System. Dann gelten:
1. A, B D und A B, dann gilt auch B\A D [Stabilitat des Dynkin-Systems bei
Bildung eigentlicher Komplemente]
2. (A
n
)
n
eine monoton wachsende Folge aus D, dann gilt

n=1
A
n
D.
Beweis Lemma 1.3
Wir ziehen hiermit gleich mit der Denition eines d-Systems aus Karr Seite 21:
9
Denition 1.4 [-System, Durchschnittsstabilitat] Ein Teilmengensystem C von
heisst -System oder durchschnittsstabil, wenn mit A, B C auch A B C.
Satz 1.5 Ein Dynkin-System ist genau dann eine -Algebra, wenn es auch durch-
schnittsstabil ist.
Beweis Satz 1.5
10
Wie bei den -Algebren, die von Mengensystemen erzeugt werden konnen, kann man auch
Dynkin-Systeme von Mengen erzeugen; analog gilt hier per Denitionem namlich: Sei U
ein Teilmengensystem von . Dann ist per DenitionemD(U) das kleinste Dynkin-System,
welches U enthalt. Es gilt dann der zentrale
Satz 1.6 [Monoton-Lemma f ur Mengen] Sei C ein -System. Dann gilt:
D(C) = (C).
Beweis Satz 1.6
2 Bemerkungen zur Bedeutung dieses Satzes:
11
1.3 Wahrscheinlichkeit P[.]
Denition 1.7 [Wahrscheinlichkeit P] Eine Wahrscheinlichkeit P ist eine reell-
wertige Funktion auf den Mengen aus A. Dabei m ussen folgende 3 Bedingungen erf ullt
sein:
a) A A P[A] 0
b) P[] = 1
c) Sei {A
i
}

i=1
eine abzahlbare Folge von disjunkten Mengen aus A, dann muss gelten:
P[

i=1
A
i
] =

i=1
P[A
i
].
Man darf in Denition 1.7 c) z.B. auch A
i
= , i 3 wahlen!
Man nennt das Tripel (, A, P) auch Wahrscheinlichkeitsraum; auf englisch Probability
Space. Eigenschaft c) nennen wir -Additivitat. In Vorlesung und

Ubungen sei immer
nichtleer (spater auch die Grundmenge bei allgemeinen Massen) - ausser wir sprechen es
explizit an.
Wir betrachten ein paar einfache Beispiele; mehr in den

Ubungen:
12
Aus Denition 1.7 lassen sich n utzliche Eigenschaften ableiten, welche wir im folgenden
Lemma zusammenfassen.
Lemma 1.8 [n utzliche Eigenschaften von P] Sei (, A, P) ein Wahrschein-
lichkeitsraum. Mit A, B A, (A
i
)
n
i=1
eine endliche und (B
i
)

i=1
eine unendliche Folge
von Ereignissen aus A gelten folgende Aussagen:
a) P[] = 0.
b) [endliche Additivitat] Sei {A
i
}
n
i=1
eine endliche Folge von pw disjunkten Mengen
aus A, dann muss gelten:
P[
n
i=1
A
i
] =
n

i=1
P[A
i
].
Daraus folgt auch das Prinzip der Gegenwahrscheinlichkeit: P[A] = 1 P[A
c
].
c) A B P[B] = P[A] + P[B\A]. Damit ist P insbesondere monoton in dem
Sinne, dass A B P[A] P[B].
d) P[A B] = P[A] +P[B] P[A B]. Damit ist P sogenannt (endlich) subadditiv:
P[A B] P[A] +P[B].
e) Sei {B
i
}

i=1
eine abzahlbare Folge von Mengen aus A, dann muss gelten:
P[

i=1
B
i
]

i=1
P[B
i
]. (Boolesche Ungleichung; subadditiv)
Beweis von Lemma 1.8 Diese Beweise haben wir zum Teil schon in der WTS in den

Ubungen besprochen. Sie sind jetzt in den WT-

Ubungen im Must-Teil angesiedelt. Im


Gegensatz zum ersten Semester wird jetzt auf die strenge mathematische Beweisf uhrung
(jenseits von anschaulichen Venn-Diagrammen) Wert gelegt. Die obigen Aussagen sind so
einleuchtend, dass man sich (als MathematikerIn) bewusst sein muss, dass sie trotzdem zu
beweisen sind!
13
Satz 1.9 Sei P eine nichtnegative, endlich additive Mengenfunktion auf A mit P[] =
1. Dann sind die folgenden 4 Aussagen aquivalent:
a) P ist auch -additiv (und damit eine Wahrscheinlichkeit),
b) Mit A
n
A in A gilt auch P[A
n
] P[A],
c) Mit A
n
A in A gilt auch P[A
n
] P[A],
d) Mit A
n
in A gilt auch P[A
n
] 0.
Die Bedeutung dieses Satzes liegt in folgendem Punkt: endliche Additivitat halten wir
sofort f ur eine sinnvolle Anforderung an ein sinnvolles P. Schwierigkeiten hat man allen-
falls mit der weitergehenden -Additivitat. Obiger Satz sagt, dass dies die gleich starke
Forderung ist wie Forderungen b), c) und d). Dies sind jedoch Forderungen nach einer
(monotonen) Stetigkeit von P, welche wir eher akzeptieren konnen.
Beweis von Satz 1.9
14
Als Vorbereitung auf den kommenden Satz: konvergiert
A
n
:=
_
(1)
n
n
, 2 +
(1)
n
n
_
und wenn ja, wogegen (vgl p 4 oben)?
Satz 1.10 [Stetigkeit von P] Es gelten
P[liminf
n
A
n
] liminf
n
P[A
n
] limsup
n
P[A
n
] P[limsup
n
A
n
]
und damit: falls A
n
A, dann auch P[A
n
] P[A].
Beweis von Satz 1.10
15
Satz 1.11 [Borel-Cantelli I - wichtig f ur Konvergenzaussagen]

n=1
P[A
n
] < P[limsup
n
A
n
] = 0. (BC I)
Es folgt wegen Satz 1.10 automatisch auch limsup
n
P[A
n
] = 0 und damit auch
lim
n
P[A
n
] = 0; spatestens jetzt sollte dies an ein Resultat aus der Analysis I erinnern!
Die Hauptaussage (BC-I) ist jedoch exibler einsetzbar, da der limsup sehr umfassend ist.
Beweis von Satz 1.11
16
Satz 1.12 [Eindeutigkeit von P] Sei A eine -Algebra auf und S ein -System
derart, dass (S) = A. Seien nun P
1
, P
2
Wahrscheinlichkeiten auf (, A) derart, dass
P
1
= P
2
auf S, dann P
1
= P
2
auf A.
Beweis von Satz 1.12
17
1.4 Wahrscheinlichkeiten auf R: (R, B(R), P)
Aus der Vorlesung WTS kennen wir bereits die Zufallsgrossen, welche wir in Kapitel 2 in-
tensiv studieren werden. Deren Verteilungsfunktionen liefern uns Wahrscheinlichkeiten auf
(R, B(R)), siehe Satz 1.17. Dies ist Grund genug, bereits jetzt in Kapitel 1 die Wahrschein-
lichkeiten auf R ein bisschen genauer unter die Lupe zu nehmen. Bevor wir dies tun, wollen
wir noch sogenannte Null-Mengen einf uhren:
Denition 1.13 [P-Nullmenge, P-fast sicher, (P-f.s., P-fs, fs)] Ein Ereignis A
gilt P-fast sicher, wenn P[A] = 1. Hingegen ist A eine P-Nullmenge, wenn P[A] = 0.
Ein paar kleine Bemerkungen:
Gilt zwingend A = bzw A = ?
18
Von Satz 1.12 wissen wir, dass jede Wahrscheinlichkeit P auf (R, B(R)) durch die Werte
auf den Intervallen der Art (, t] eindeutig determiniert ist. Es lohnt sich deshalb, diese
(aus der WTS bekannten) Gebilde genauer zu untersuchen. Dazu denieren wir erstmals:
Denition 1.14 [Verteilungsfunktion von P] Die Verteilungsfunktion von P ist
die Funktion F
P
: R [0, 1], deniert als F
P
(t) := P[(, t]]. Wenn es klar ist, konnen
wir die Indexierung in F
P
auch lassen und nur F schreiben.
Achten Sie bitte darauf, dass wir in Kapitel 1 die Verteilungsfunktionen untersuchen, ohne
Zufallsgr ossen zu erwahnen (ausser zur Motivation)! Wir lernen jetzt die Verteilungsfunk-
tionen ein bisschen kennen. Es gilt
Satz 1.15 [Eindeutigkeit F, P] Wenn F
P
1
= F
P
2
, dann gilt P
1
= P
2
auf B(R).
Beweis Satz 1.15
Wichtige Folgerung f ur die Anwendungen: In der Vlsg WTS und in der Ausbildung
anderer Studiengange lernen die StudentInnen zum Beispiel die Wahrscheinlichkeiten der
Normalverteilung uber die Normalverteilungstabelle (meist hinten in Statistik-B uchern)
kennen. Man konnte sich fragen, ob durch diese Tabelle (abgesehen von der Maschenweite
des Gitters; beachten Sie auch die Monotonie von F) P eindeutig festgelegt ist. Satz 1.15
bejaht dies auf B(R). B(R) enthalt aber alles, was AnwenderInnen ausrechnen wollen:
Komplemente, Vereinigungen, Schnitte.
19
Der folgende Satz ist bereits aus der WTS bekannt; wir formulieren ihn nochmals und
beweisen ihn unter Einsatz der bisherigen Resultate.
Satz 1.16 [Elementare Eigenschaften von F
P
] Sei F
P
die Verteilungsfunktion
von P. Dann gelten:
a) F
P
ist monoton wachsend; damit existieren jeweils die Limiten von links und von rechts
b) F
P
ist rechtsstetig; a) und b) heissen zusammen vom Franzosischen: c`adl`ag
c) lim
t
F
P
(t) = 0 und lim
t
F
P
(t) = 1.
Beweis von Satz 1.16
Wir denieren noch F() := lim
t
F(t) und F() := lim
t
F(t) - nach obigem
sind diese Denitionen sinnvoll!
20
Ohne Beweis f ugen wir noch an, dass jede Funktion auf R, welche die Eigenschaften
aus Satz 1.16 besitzt, eine Verteilungsfunktion einer Wahrscheinlichkeit P ist. Damit lassen
sich beinahe beliebige Wahrscheinlichkeiten entwickeln.
Satz 1.17 Sei F : R R monoton wachsend und rechtsstetig mit F() = 0 und
F() = 1. Dann existiert ein eindeutiges P auf B(R) so, dass F
P
= F.
Beispiel zu Satz 1.17
21
Wir haben in der WTS 2 Typen von Zufallsgrossen kennengelernt: diskret und stetig.
Mittels der Verteilungsfunktionen dieser Zufallsgrossen erhalten wir mit Satz 1.17 also
damit auch 2 Typen von Wahrscheinlichkeiten auf (R, B(R)). Schon in der WTS haben Sie
sich vielleicht die Frage gestellt, ob das denn alles sei. Mit wenig Nachdenken kommt man
schnell auf die Idee, dass man ja auch Linearkombinationen solcher Wahrscheinlichkeiten
nehmen kann (siehe auch

Ubungsblatt 3). Haben wir damit alles? Die Antwort folgt erst in
1.6 (Vollstandige Klassikation der Wahrscheinlichkeiten auf (R, B(R)). Wir wollen jedoch
kurz, halb zur Repetition, die beiden bisherigen Arten von Wahrscheinlichkeiten nochmals
anschauen.
Denition 1.18 [Diskrete Wahrscheinlichkeit] Eine Wahrscheinlichkeit P auf R
ist diskret, wenn es eine hochstens abzahlbare Menge C gibt, sodass P(C) = 1.
Beispiel zu Denition 1.18
Der folgende Satz ist derart anschaulich, dass er in der WTS bereits unbewiesen (und
vielleicht auch unausgesprochen) benutzt wurde. Er besagt, dass diskrete Wahrschein-
lichkeiten endliche oder abzahlbar unendliche konvexe Linearkombinationen von Dirac-
Massen (Punktmassen) sind. Die Verteilungsfunktionen wachsen nur durch Spr unge.
22
Satz 1.19 [Charakterisierung von diskreten Wahrscheinlichkeiten] F ur Wahr-
scheinlichkeiten auf R sind die folgenden Aussagen aquivalent:
a) P ist diskret.
b) Es existiert eine reelle Folge (t
i
) und Zahlen p
i
0 mit

i
p
i
= 1 derart, dass P =

i
p
i

t
i
.
c) Es existiert eine reelle Folge (t
i
) und Zahlen p
i
0 mit

i
p
i
= 1 derart, dass F
P
(t) =

i
p
i
1
{t
i
t}
.
Wir lassen oben im Satz und unten im Beweis beide Falle zu: endliche oder abzahlbar
unendliche Folgen bzw. Reihen.
Beweis Satz 1.19
Bemerkung/Warnung zum Wort diskret in der WT und der restlichen Mathematik (zB
diskrete Menge):
23
Wir wenden uns jetzt den stetigen Wahrscheinlichkeiten zu und prazisieren gleich mal:
ab jetzt heissen die stetigen Wahrscheinlichkeiten bzw stetigen Zufallsgrossen aus der WTS
absolut stetige Wahrscheinlichkeiten (bzw. Zufallsgrossen).
Denition 1.20 [absolut stetige Wahrscheinlichkeit] Eine Wahrscheinlichkeit
P auf R nennen wir absolut stetig, wenn es eine nichtnegative Funktion f
P
(Dichte von
P) auf R derart gibt, dass f ur alle (a, b]
P[(a, b]] = L
_
b
a
f
P
(t)dt.
Beispiel aus der WTS:
Bemerkung zur Dichtefunktion: f
P
(t) ist nicht eindeutig:
1) Das obige Integral ist ein Lebesgue-Integral (L-
_
, vgl Vlsg Reelle Analysis; siehe
auch kommende Seite); aber schon bei einem normalen Riemann-Integral, R-
_
, kann
man solch eine Dichtefunktion mindestens an endlich vielen Punkten andern.
2) Bei Lebesgue-Integralen gilt das sowieso (vgl Vlsg Reelle Analysis).
3) Die Dierenzen bei den diversen denkbaren f
p
s betreen aber lediglich Lebesgue-
Nullmengen (Forster Analysis III, Satze 2-4 in 7).
4) Man spricht deshalb auch von einer Version der Dichtefunktion (und wahlt dann mit
Vorteil zum Beispiel eine stetige Version).
24
Bemerkungen zur Integrationsart:
1) Das Integral in Denition 1.20 ist im allgemeinen Fall ein L-
_
.
2) Wenn der Integrand nichtnegativ ist (zum Beispiel bei einer Dichte), ist ein R-
_
immer
auch ein L-
_
(die Umkehrung gilt nicht - damit ist das L-
_
allgemeiner als das R-
_
).
3) Was wenn der Integrand auch negativ sein darf?
4) In den Vlsgen WTS, AS, SM und WT sind konkrete Integrale de facto immer R-
_
,
ausser es wird speziell erwahnt. In den Beweisen sind es aber oft L-
_
. StudentInnen,
welche das L-
_
noch nicht kennen, stellen sich ohne Nachteil einfach immer ein R-
_
vor.
Falls f
P
(t) st uckweise stetig ist (endliche Unterteilung), ist ein L-
_
immer ein R-
_
.
5) Kontrastbeispiel: L-
_
1
0
1
Q
(s)ds = (L-
_
aber nicht R-
_
).
6) Schema Integrationsarten, falls Integrand nicht-negativ:
7) Stieltjes-Integrale (Riemann-Stieltjes und Lebesgue-Stieltjes-Integrale) haben auf der
Basis (x-Achse) im Allgemeinen keine gleichmassige Gewichtung. Riemann- und Lebesgue-
Integrale schon. Mehr dazu in Kapitel 4.
Sie beweisen noch im Must-Teil von

Ubungsblatt 4 folgende kleine Umformulierung:
Korollar 1.21 [absolut stetige Wahrscheinlichkeit und F
P
] Eine Wahrschein-
lichkeit P auf R ist genau dann absolut stetig, wenn es eine nichtnegative Funktion f
P
(Dichte von P) auf R gibt mit
_

f
P
(s)ds = 1, so dass
F
P
(t) =
_
t

f
P
(s)ds.
Damit konnen wir also jede beliebige nichtnegative Funktion f mit
_

f(s)ds = 1 als
Dichte einer Wahrscheinlichkeit P auassen - dies ergibt uns also ein grosses Universum
von Wahrscheinlichkeiten!
25
1.5 Bedingte Wahrscheinlichkeit P[A|B]; Produktformel, Bayes und FTW
Diese Konzepte kamen schon in der Vlsg WTS (und AS) sehr ausf uhrlich zum Einsatz,
so dass wir nur als Repetition die Denition und die drei zentralen Regeln angeben. Kleine
Aufgaben dazu sind auf

Ubungsblatt 4 zu losen.
Denition 1.22 [Bedingte Wahrscheinlichkeit P[A|B]]
P[A|B] :=
P[A B]
P[B]
,
falls P[B] > 0. Man nennt P[A|B] die bedingte Wahrscheinlichkeit von A gegeben B.
Es gilt die sogenannte Produktformel:
P[A|B]P[B] = P[A B] = P[B|A]P[A].
Der Leser / die Leserin zeige: P[.|B] ist selber auch eine Wahrscheinlichkeit.
Formel von Bayes:
P[A|B] =
P[A B]
P[B]
=
P[B|A]P[A]
P[B|A]P[A] +P[B|A
c
]P[A
c
]
.
Lemma 1.23 [Formel von der totalen Wahrscheinlichkeit FTW] B
1
, B
2
, . . .
sei eine Partition von (die B
i
s sind disjunkt und

i=1
B
i
= ). Weiter sei f ur alle
B
i
, i 1, P[B
i
] > 0 erf ullt. Dann gilt f ur jedes A A:
P[A] =

i=1
P[A|B
i
]P[B
i
]. (FTW)
Ein analoges Resultat gilt auch f ur eine endliche Partition.
26
1.6 Miscellanea; Sie nden hier Bemerkungen zu:
1.6.1 R
1.6.2 Allgemeine Masse
1.6.3 Lebesgue Mass
1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum
1.6.5 Vollstandige Klassikation der Wahrscheinlichkeiten auf (R, B(R))
1.6.6 Warum -Algebren? Warum P auf B(R) und nicht auf P(R)?
1.6.7 Das Banach-Tarski-Paradoxon
1.6.8 Wichtige, nicht behandelte Probleme
1.6.1 R := R {} {}
Mutti hat Ihnen mal gesagt, dass Sie nicht durch 0 teilen d urfen. Auch war es Ihnen
verboten, + = zu schreiben, obschon Sie dies immer gereizt hatte. Hier d urfen Sie
solch schlimme Sachen endlich machen - vorausgesetzt, Sie beachten einige wenige Regeln.
Wir erlauben dies, weil sich dann einige Satze eleganter formulieren lassen. Ayatollahs
aus der reinen Mathematik sei versichert: unteres ist ganz koscher.
x +y :=
_

_
falls x R und y = oder umgekehrt
falls x = y =
falls x R und y = oder umgekehrt
falls x = y = .
xy :=
_

_
falls x > 0 und y = oder umgekehrt
falls x < 0 und y = oder umgekehrt
falls x = y = oder x = y =
falls x > 0 und y = oder umgekehrt
falls x < 0 und y = oder umgekehrt
falls x = und y = oder umgekehrt
0 falls x = 0 oder y = 0.
x
y
:=
_
falls x > 0 und y = 0
falls x < 0 und y = 0
0 falls x R und y = .
d urfen Sie nach wie vor nicht machen; ebenso nicht durch teilen.
Falls Sie Schwierigkeiten haben, sich etwas unter und + vorzustellen, ersetzen Sie
einfach durch Velo und + durch Maschendrahtzaun. Es geht topologisch genau
so gut - aber und + sind anschaulicher.
27
1.6.2 Allgemeine Masse
Wir kommen jetzt zu einer Verallgemeinerung des Konzeptes der Wahrscheinlichkeit,
zu den Massen. Masse sind nichtnegativ und -additiv; hingegen muss das Mass nicht
1 sein; nicht mal endlich. Despektierlich ist die Wahrscheinlichkeit ein Spezialfall der
Masstheorie, bei der das Mass endlich, genauer von Mass 1 ist. Aber diese Sicht ist
polemisch, despektierlich und vor allem ignorant.
Denition 1.24 [Mass] Sei E eine Menge und E eine -Algebra auf E. Dann
denieren wir:
a) (E, E) heisst Messraum; die Mengen aus E nennen wir messbare Mengen.
b) Ein Mass auf (E, E) ist eine Mengenfunktion : E R
+
derart, dass () = 0 und
wir verlangen auch, dass -additiv ist:
(
n
A
n
) =

n
(A
n
),
wo die Folge A
n
disjunkt aus E.
c) ist endlich wenn (E) < .
d) ist -endlich, wenn eine aufsteigende Folge E
i
aus E existiert derart, dass E
i
= E
und (E
i
) < f ur alle i 1.
e) Das Tripel (E, E, ) bezeichnen wir als Massraum.
Wir sehen sofort, dass unsere Wahrscheinlichkeitsraume immer auch Massraume sind (vgl
Denition 1.7). Die endlichen Massraume sind insofern nahe verwandt mit Wahrschein-
lichkeiten, als dass jedes endliche Mass mit Hilfe einer Wahrscheinlichkeit P geschrieben
werden kann:
(A) = (E)P(A).
Es gibt vor allem ein zentral wichtiges, unendliches Mass, welches wir f ur diese Vorlesung
brauchen. Wenn wir dieses haben, konnen wir weitere nicht-triviale Beispiele zu Denition
1.24 anschauen und den obigen Begrien ein bisschen Leben einhauchen. Es handelt sich
dabei um das Lebesgue-Mass.
28
1.6.3 Lebesgue-Mass
In der Analysis wird das Lebesgue-Mass eingef uhrt. Die saubere Einf uhrung des Lebesgue-
Masses dauert mehrere Stunden. Deshalb verzichten wir in dieser Vorlesung darauf. Es
ist auch so, dass man durch die saubere Einf uhrung des Lebesgue-Masses nicht unbedingt
besser damit zu rechnen versteht...
Wir kennen den Messraum (R, B(R)). Der folgende Satz garantiert uns ein Mass auf
diesem Messraum, der dadurch zum Massraum (R, B(R), ) wird. Das Mass , dessen
Existenz dort garantiert wird, erweitert unseren bisherigen Begri der Lange eines Inter-
valls. Auf normalen Intervallen I = [a, b] mit a b gilt (I) = b a. a darf ubrigens
sein und b darf ebenso + sein. Die Lange wird dann +.
Satz 1.25 [Existenz des Lebesgue-Masses ] Auf (R, B(R)) existiert ein ein-
deutiges -endliches Mass - das Lebesgue-Mass - derart, dass f ur jedes Intervall I :=
[a, b], a b gilt: (I) = b a.
Wir haben in Denition 1.13 die P-Nullmengen kennengelernt. Analog deniert man jetzt
Denition 1.26 [Lebesgue-Nullmengen] Eine Menge A B(R) heisst Lebesgue-
Nullmenge, wenn (A) = 0.
Bemerkungen zu fs/as (WT) und f u/ae (Analysis)
29
Lemma 1.27 [Q ist eine Lebesgue-Nullmenge]
Beweis Lemma 1.27
Fangfrage zum Beweis von Lemma 1.27: Q ist dicht in R; haben wir damit nicht auch
bewiesen, dass R eine Lebesgue-Nullmenge ist?
30
1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum
Wir haben bisher die beiden Typen von Wahrscheinlichkeiten diskret und absolut
stetig kennengelernt (absolut stetig war in der einf uhrenden Vlsg WTS einfach stetig).
Es war uns intuitiv sofort klar, dass man auch konvexe Linearkombinationen dieser Wahr-
scheinlichkeiten bilden kann. Jetzt kommt ein dritter Typ, dessen Existenz nicht oen-
sichtlich ist:
Denition 1.28 [singular stetige Wahrscheinlichkeiten] Sei P eine Wahrschein-
lichkeit und F
P
deren Verteilungsfunktion. Falls F
P
stetig ist und die Menge der Wachs-
tumspunkte von F
P
Lebesgue-Mass 0 haben, nennen wir P singular stetig.
Bemerkungen zu Wachstumspunkte von F
P
Man konnte Zweifel haben, dass so was uberhaupt existiert. Zudem ist man versucht zu
formulieren, dass abzahlbare Mengen immer Lebesgue-Mass 0 haben (das stimmt sogar
(unformuliertes Korollar zu Lemma 1.27)) und uberabzahlbare Mengen nicht mehr Mass
0 haben. Zum Kontrast f uhren wir jetzt das Cantorsche Diskontinuum ein:
31
Welche Eigenschaften hat dieses Diskontinuum?
1.6.5 Vollstandige Klassikation der Wahrscheinlichkeiten auf (R, B(R)), ohne
Beweis
Satz 1.29 [Vollstandige Klassikation der Wahrscheinlichkeiten] Jede Vertei-
lungsfunktion F kann als konvexe Linearkombination F = aF
d
+ bF
a
+ cF
s
dargestellt
werden. Dabei sind F
d
eine diskrete, F
a
eine absolut stetige und F
s
eine singular stetige
Verteilungsfunktion.
Worin liegt die tiefere Bedeutung dieses Satzes? Denition 1.18 (diskrete Wahrschein-
lichkeit) scheint einleuchtend (mit der Ausnahme, dass eine Wahrscheinlichkeit auf Q
diskret ist (obschon Q dicht in R)). Danach folgt jedoch die irritierend indirekte De-
nition von absolut stetigen Wahrscheinlichkeiten uber die Verteilungsfunktion mit Hilfe
des Lebesgue-Integrals! Man muss also das Lebesgue-Mass kennen und das Lebesgue-
Integral, um die Denition von absolut stetigen Wahrscheinlichkeiten zu verstehen - ist
das nicht Willk ur, muss das so sein? Satz 1.29 ist dann jedoch so einfach und elegant, dass
das wohl der kanonische Weg ist, den eine hohere Instanz vorgesehen hat!
32
1.6.6 Warum -Algebren? Warum P auf B(R) und nicht auf P(R)?
Man fragt sich als jungeR StudentIn zu Recht, weshalb wir diese -Algebren einf uhren und
nicht einfach ein P auf P(R) denieren. Dazu ein paar Gr unde:
1. Es funktioniert so, wie wir es gemacht haben (siehe bisheriges Kapitel). Dies tont
defensiv-hilos, in Anbetracht der Schwierigkeiten, welche sonst auftreten, ist es eine sehr
gute Antwort.
2. In der Finanzmathematik (allgemein in einer Vorlesung Stochastische Prozesse, Martin-
galtheorie) betrachtet man nicht nur einzelne Zufallsgrossen X (siehe Kapitel 2), sondern
ganze sogenannte Stochastische Prozesse X
t
. Bereits in der WTS haben wir am Rand
darauf hingewiesen, dass Zufallsgrossen X nicht beliebige Funktionen X : R sind,
sondern sogenannt messbare Abbildungen sein m ussen (das Urbild muss in der -Algebra
sein). Dies wird auch bei den Stochastischen Prozessen der Fall sein. Dort wird man aber
nicht nur eine -Algebra haben, sondern eine ganze Folge von solchen -Algebren. Diese
stehen in der Finanzwelt f ur die Informationsmenge - und die ist gerade dort sehr wichtig!
3. Der Hammer ist dann der folgende
Satz 1.30 [von Banach und Kuratowski (1929)] Unter Annahme der G ultigkeit
der Kontinuumshypothese gibt es keine auf ganz P(R) denierte, -additive Funktion P
so, dass P[R] = 1 und f ur jedes x R gilt P[{x}] = 0.
Damit scheiden die absolut stetigen Wahrscheinlichkeiten schon mal aus; diese geben
einzelnen Punkten immer Wahrscheinlichkeit 0. Damit haben wir auf ganz P(R) auch
keine Normalverteilung. Die Service-Vorlesungen in Statistik f ur IngenieurInnen, Natur-
wissenschaftlerInnen, OekonomInnen, SoziologInnen und PsychologInnen sind in diesem
Punkt also regelmassig falsch. Hingegen wird es kaum jemals Probleme geben, da die
Mengen zwischen B(R) und P(R) meines Wissens NIE in der Praxis auftreten.
Was, wenn wir die Kontinuumshypothese nicht annehmen wollen? Solange es zwischen N
und R nur eine endliche Kaskade von verschiedenen Machtigkeiten gibt, gilt ein analoger
Satz.
33
1.6.7 Das Banach-Tarski-Paradoxon
Der folgende Satz benotigt im Beweis das Auswahlaxiom und sonst lediglich die akzep-
tierten Axiome der Mathematik. Dann ist der Satz mathematisch richtig, aber schwer
nachvollziehbar (vgl. auch Artikel in der NZZ von Frau Prof. Bandle):
Satz 1.31 [Banach-Tarski-Paradoxon] Sei K eine Kugel im R
3
. Dann existiert
eine Zerlegung
K = A
1
A
2
. . . A
m
B
1
B
2
. . . B
n
von K in paarweise disjunkte Teilmengen A
i
, B
j
derart, dass wir damit 2 neue Kugeln K
gleicher Grosse zusammensetzen konnen:
K = A

1
A

2
. . . A

m
und
K = B

1
B

2
. . . B

n
,
wo A
i
kongruent zu A

i
ist und B
j
kongruent zu B

j
. Die A

i
bzw B

j
sind wieder disjunkt.
1.6.8 Wichtige, nicht behandelte Probleme
1. Man kann sich fragen, ob es zwischen B(R) und P(R) etwas relevantes gibt? Die
Antwort ist klar JA: Wir haben in Satz 1.25 die Existenz des Lebesgue-Masses lediglich
auf (R, B(R)) garantiert erhalten. Wir sagen jetzt, dass eine Menge zum System B(R)
gehort, falls 2 Borel-Mengen A, B derart existieren, dass A B mit (B\A) = 0.
Das System B(R) heisst das System der Lebesgue-Mengen und ist eine -Algebra (kleine

Ubungsaufgabe). Damit kann man also das Lebesgue-Mass nat urlich auf B(R) fortsetzen;
man spricht dann von einer Vervollstandigung von . Wir haben damit folgende Kaskade
von Systemen:
B(R) B(R) P(R).
Die im Artikel von Frau Bandle erwahnte Vitali-Menge ist ein Grund f ur das letzte
(Beweis in Vlsg falls Zeit). Wir werden B(R) in dieser Vorlesung kaum benutzen, aber in
der hoheren Stochastik und Masstheorie ist es notwendig, sich damit auseinanderzusetzen.
34
2. Wir haben - nicht nur beim Lebesgue-Mass - die Existenzfrage von Massen und vor allem
Wahrscheinlichkeiten ausgeklammert. Dabei ist es meist einfach, Wahrscheinlichkeiten
auf einfachen Systemen zu denieren und deren Existenz und Vereinbarkeit mit den
Axiomen der Wahrscheinlichkeit zu beweisen. Dass diese Wahrscheinlichkeiten dann aber
zum Beispiel sinnvoll auf ganz B(R) erweitert/fortgesetzt werden konnen - das ist lang-
wierig. Die Beweise (Fortsetzungssatze) gehoren in eine Vorlesung uber Masstheorie.
35
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
2 Zufallsgrossen
Bevor wir uns den Zufallsgrossen zuwenden (2.3), wollen wir noch kurz 2 Themen vor-
holen: Allgemeine Bemerkungen zu Abbildungen und Mengen (2.1) und Bemerkungen zu
R
n
, B(R
n
) und auf (R
n
, B(R
n
)) (2.2):
2.1 Allgemeine Bemerkungen zu Abbildungen und Mengen
Sei (, A, P) ein Wahrscheinlichkeitsraum. Wir untersuchen erstmal das Urbild einer
Menge unter einer Abbildung und fordern vorerst nicht, dass die Abbildung messbar (d.h.
eine Zufallsgrosse) ist.
Denition 2.1 [Urbild einer Menge] Sei X eine Funktion von nach R. Das
Urbild unter einer Abbildung X von B P(R) ist die folgende Teilmenge von :
X
1
(B) := {X B} := {|X() B}.
Man beachte, dass wir erst am Schluss dieser Denitions-Kette einen mathematisch exak-
ten Ausdruck haben!
Wir wollen die Abbildung X
1
genauer untersuchen; die Abbildung X
1
erhalt Teilmen-
gen, Vereinigungen, Schnitte, Disjunktheit und Komplementbildung (vergleiche auch mit
Honours-Aufgabe auf Blatt 2):
Lemma 2.2 [X
1
und Mengenoperationen] Seien A, B sowie {B

| I} Borel-
Mengen. Dann gelten:
a) Sei A B, dann auch X
1
(A) X
1
(B)
b) X
1
(
I
B

) =
I
X
1
(B

)
c) X
1
(
I
B

) =
I
X
1
(B

)
d) Falls A B = , dann auch X
1
(A) X
1
(B) =
e) X
1
(A
c
) = [X
1
(A)]
c
Vorsicht:
I
B

/ B(R) moglich, da I uberabzahlbar hier erlaubt!


36
Je nach Zeit; Beweis von Teilen von Lemma 2.2 in Vlsg; sonst/Rest in den

Ubungen:
37
2.2 Bemerkungen zu R
n
, B(R
n
) und auf (R
n
, B(R
n
))
Denition 2.3 [B(R
n
)] Die Borel--Algebra auf R
n
ist diejenige -Algebra B(R
n
),
welche vom -System der Rechtecke (Cartesische Produkte von Intervallen)
n

i=1
(a
i
, b
i
]
erzeugt wird.
Ein weiterer Erzeuger von B(R
n
) ist die Menge {

n
i=1
B
i
|B
i
B(R)}. Man beachte, dass
{

n
i=1
B
i
|B
i
B(R)} B(R
n
); Ausnahmebeispiel:
Wir wollen noch das Lebesgue-Mass auf (R
n
, B(R
n
)) einf uhren. Wir unterscheiden bei
der Bezeichnung von nicht nach Dimension! Auf (R
n
, B(R
n
)) ist das einzige -endliche
Mass derart, dass (a
i
b
i
, f ur 1 i n)

i=1
[a
i
, b
i
]

=
n

i=1
(b
i
a
i
).
Man sieht an dieser Formel bereits, dass eine Gerade in der Ebene Lebesgue-Mass 0 hat
und ebenso eine Ebene imR
3
. Allgemein Hyperebenen imR
n
; auch der Graph von stetigen
Funktionen f : R
n1
R mit kompaktem Trager (vgl Vlsg Reelle Analysis).
38
2.3 Zufallsgrosse
Denition 2.4 [Zufallsgrosse X auf (, A, P)] Eine Zufallsgrosse auf (, A, P) ist
eine Funktion X : R mit der Eigenschaft, dass
X
1
(B) A (mb)
f ur alle B B(R). Die geforderte Eigenschaft nennt man Messbarkeit (mb).
Warum diese mb?
Obige Denition ist ubrigens ein Spezialfall von
Denition 2.5 [messbare Abbildung, Borel-Funktion] Es seien (E
1
, E
1
) und
(E
2
, E
2
) Messraume (vgl. Denition 1.24). g : E
1
E
2
. g heisst E
1
E
2
-messbar, wenn
g
1
(A) E
1
f ur alle A E
2
. Falls (E
i
, E
i
) = (R, B(R)) f ur i {1, 2}, nennt man g eine Borel-Funktion.
F ur LeserInnen auf der Suche nach den ganz grossen Zusammenhangen der hoheren Mathe-
matik: wenn Sie den Begri des Messraumes mit der Topologie und die messbare Abbildung
mit der stetigen Funktion vergleichen, werden Sie gewisse Analogien entdecken.
39
Bemerkungen zu Denition 2.4:
1. Zufallsgrossen nennt man auch Zufallsvariablen.
2. In der Vlsg WTS (weitgehend auch in AS, SM) haben wir uns nicht um die mb
gek ummert. Dies wird jetzt anders. Um jedoch die beiden Teile auseinanderzuhalten: f ur
die Anwendungen und Ihre Vorstellungswelt ist eine Zufallsgrosse einfach eine Funktion
X : R; damit die Mathematik nicht schiefgeht, fordern wir dazu noch die mb.
Beispiele (Indikatorfunktion(en), konstante Funktionen, einfache Zufallsgrossen):
40
2.4 Ein paar weitere, verwandte Denitionen
Denition 2.6 [n-dimensionaler Zufallsvektor] Ein n-dimensionaler Zufallsvek-
tor X = (X
1
, . . . , X
n
) ist eine Funktion R
n
derart, dass jede Koordinate eine Zu-
fallsgrosse ist.
Zufallsvektoren werden wir vor allem auch in der Vorlesung SM benutzen: Wenn wir Daten
(x
1
, . . . , x
n
) haben, so stellen wir uns vor, diese Daten sind Realisationen eines Zufallsvek-
tors X = (X
1
, . . . , X
n
), also X() = (X
1
(), . . . , X
n
()) = (x
1
, . . . , x
n
), f ur ein , welches
gerade eingetreten ist (Zustand der Welt). Das geschieht im Modellierungsschritt, wo
man auch die Verteilung der Zufallsgrosse wahlen muss (je mehr Zufallsgrossen Sie ken-
nen, desto besser konnen Sie das). Wir haben diesen Schritt im Statistikteil der WTS auch
schon gemacht. In der Informatik heisst Modellierung ubrigens etwas anderes! In der WT
werden wir Zufallsvektoren entweder in obigem Sinn benutzen (zufalliges Element im R
n
)
oder als endliche Folge von Zufallsgrossen. Mathematisch ist es beide Male das gleiche.
Denition 2.7 [Sub--Algebra, Filtration] Seien A und F beide -Algebren. Wir
sagen, A ist eine Sub--Algebra von F (geschrieben als A F), wenn A A gilt
A A A F.
Sei T eine geordnete Menge und seien (A
t
)
tT
Sub--Algebren von A. Wir nennen eine
Familie (A
t
)
tT
eine Filtration (in A), wenn
s t A
s
A
t
. (Isotonie)
Denition 2.8 [(A
t
)
tT
-adaptierter Stochastischer Prozess] Sei T eine geord-
nete Indexmenge. Wir nennen (, A, P, (A
t
)
tT
, (X
t
)
tT
) [kurz (X
t
)
tT
] einen (A
t
)
tT
-
adaptierten stochastischen Prozess [kurz stochastischen Prozess], wenn f ur alle t T
gilt, dass X
t
A
t
B(R)-messbar ist.
41
Wie bei der Denition der Zufallsgrosse, vernebelt die strenge mathematische Denition
den Blick auf das Wesentliche: T ist die Zeitmenge (diskret oder stetig je nach Model-
lierungsgegenstand) und der Zustandsraum ist allgemein R. F ur jedes feste nennen
wir die Abbildung von T nach R
t X
t
()
Pfad (Trajektorie, Realisierung) des Prozesses. Man nennt deswegen stochastische Prozesse
auch zufallige Funktionen. In der Funktionalanalysis werden Sie die Analysis in einer
Verallgemeinerung betreiben, dass Sie (deterministische) Funktionen (zB im C[[0, )])
wie Punkte in einem Raum begreifen werden. In dieser Abstraktion werden dann viele
Resultate bewiesen, welche f ur die Stochastischen Prozesse ebenfalls gebraucht werden
konnen. In der hoheren Stochastik sind deshalb gute Kenntnisse in Funktionalanalysis
sehr wichtig.
In den Anwendungen (vgl Vlsg AS) kann man dann je nach Modellierungsgegenstand also
die Zeit (zB diskret oder stetig) und den Zustandsraum (diskret oder stetig) frei wahlen;
f urs erste gibt es die folgenden 4 (= 2 2) Moglichkeiten:
42
2.5 Von Zufallsgrossen erzeugte -Algebren
Das folgende Resultat haben wir auf Blatt 2 im Honours-Teil bereits zu Fuss bewiesen;
wir werden es jetzt mit neu erlernten Begrien und Resultaten eleganter formulieren und
beweisen konnen:
Lemma 2.9 [von X erzeugte -Algebra] Sei X eine Zufallsgrosse. Die Familie
(X) := {X
1
(B)|B B(R)}
ist eine -Algebra auf . Man nennt sie die von X erzeugte -Algebra.
Beweis Lemma 2.9:
43
Beispiele zu von X erzeugte -Algebra
44
kleine Dissonanz und deren Auosung
Wir haben in der WTS die Zufallsgrossen folgendermassen deniert:
WTS-Denition 2.1 [Zufallsgrosse X auf (, A, P)] Eine Zufallsgrosse auf (, A, P)
ist eine Funktion X : R mit der Eigenschaft, dass { |X() a} A f ur alle
reellen a. Die geforderte Eigenschaft nennt man Messbarkeit.
Wie ist das jetzt mit unserer Denition 2.4?
45
2.6 Algebraische Verkn upfungen, Limiten und Transformationen von Zufalls-
grossen
Falls Sie Wahrscheinlichkeitsrechnung und Statistik auf Gymnasial- oder Fachhoch-
schulstufe unterrichten oder Service-Veranstaltungen f ur Nicht-MathematikerInnen halten,
so werden Sie ohne Bedenken zum Beispiel Summen von Zufallsgrossen bilden. Deni-
tion 2.4 beinhaltet aber, wie bereits gesagt, 2 Teile. Der erste Teil ist unproblematisch:
Zufallsgr ossen sind Abbildungen von nach R. Also wird man Summen und andere al-
gebraische Verkn upfungen und Limiten punktweise denieren. Aber sind das dann noch
Zufallsgr ossen? Haben wir auch die Messbarkeit? Die folgenden Lemmata bejahen dies:
Lemma 2.10 [Algebraische Operationen] Seien X und Y Zufallsgrossen. Dann
gilt:
a) aX +bY ist eine Zufallsgrosse, wo a, b R; damit wird die Menge aller Zufallsgrossen
zu einem
b) max{X, Y } und min{X, Y } sind Zufallsgrossen
c) XY ist eine Zufallsgrosse
d) Falls f ur jedes gilt, dass Y () = 0, so ist auch X/Y eine Zufallsgrosse
e) X
+
, X

, |X| sind Zufallsgrossen.


Beweis von Lemma 2.10
46
Beweis von Lemma 2.10 (Fortsetzung)
47
Lemma 2.11 [Folgen, Limiten, Summen von Zufallsgrossen] Sei (X
i
)
i1
eine
Folge von Zufallsgrossen. Dann gilt:
a) sup
n
X
n
, inf
n
X
n
sind Zufallsgrossen.
b) limsup
n
X
n
, liminf
n
X
n
sind Zufallsgrossen.
c) Falls X() := lim
n
X
n
() f ur alle existiert, dann ist auch X eine Zu-
fallsgrosse.
d) Falls X() :=

n=1
X
n
() f ur alle existiert, dann ist auch X eine Zufallsgrosse.
Beweis von Lemma 2.11
Kleine Bemerkung:
48
Lemma 2.12 [Transformationen von Zufallsgrossen] Sei (X
1
, . . . , X
n
) ein Zu-
fallsvektor und sei g : R
n
R eine Borel-Funktion (g
1
(B) B(R
n
) f ur alle B B(R)).
Dann ist auch Y := g(X
1
, . . . , X
n
) eine Zufallsgrosse.
Beweis von Lemma 2.12
49
Wir haben die einfachen Zufallsgrossen bereits eingef uhrt. Sie werden ihrem Namen
vollig gerecht insofern, dass sie endliche Linearkombinationen von Indikatorfunktionen sind
- und Indikatorfunktionen sind wirklich einfach zu handhaben. Wir werden die einfachen
Zufallsgr ossen bei der Denition von Erwartungswerten benutzen. Dazu wird Lemma 2.13
benutzt:
Lemma 2.13 [Approximation nichtnegativer Zufallsgrossen durch eine Folge
einfacher Zufallsgrossen] Sei X eine nichtnegative Zufallsgrosse. Dann gibt es eine
monoton wachsende Folge einfacher Zufallsgrossen 0 X
1
X
2
. . . sodass X
n
() X()
f ur alle .
Beweis von Lemma 2.13
50
Wir kommen jetzt - was die Beweistechnik anbelangt (!) - zu einem Analogon von
Satz 1.6 [Monoton-Lemma f ur Mengen]. Wir werden das nachfolgende Monoton-Lemma
f ur Zufallsgrossen dann einsetzen, wenn wir beweisen wollen, dass eine bestimmte Menge
von Zufallsgrossen alle Zufallsgrossen enthalt.
Theorem 2.14 [Monoton-Lemma f ur Zufallsgrossen] Sei G ein -System, wel-
ches A erzeugt. H sei eine Menge von Funktionen auf derart, dass
i) 1 H (konstante Funktion ist drin)
ii) 1
A
H f ur alle A G
iii) H ist ein Vektorraum
iv) Falls X
n
H f ur alle n und sup
n
X
n
() < f ur alle , dann gehort auch
sup
n
X
n
zu H.
Dann beinhaltet H alle (!) Zufallsgrossen.
Beweis von Theorem 2.14
51
Beweisfortsetzung:
Bemerkung 2.15 [zu Karr-Theorem 2.22] Im Buch von Karr hat es hier noch ein
Theorem 2.22; es ist falsch: 1
A
c ist zum Beispiel nicht in H, wenn man S = {A} wahlt!
52
2.7 Verteilungen, Verteilungsfunktionen und vorgegebene Verteilungen
2.7.1 Verteilungen und Verteilungsfunktionen im Fall von Zufallsgrossen (n=1)
Wir haben in Kapitel 1 (Wahrscheinlichkeit) nach der Wahrscheinlichkeit P auch die
Verteilungsfunktion einer Wahrscheinlichkeit F
P
auf (R, B(R)) kennengelernt. Mit Deni-
tion 1.14 und Satz 1.15 haben wir eine 1-1-Beziehung zwischen den P und den F
P
erhalten.
Wir haben damit viel Vorarbeit geleistet, welche uns jetzt ein z ugiges Vorgehen erlaubt,
um diese Konzepte mit dem X zu verbinden. In Kapitel 1 hatten wir die Zufallsgrossen
hochstens zu Motivationszwecken benutzt.
Wir werden in 2.7.3 lernen, dass wir zu jeder vorgegebenen Verteilungsfunktion bzw
Wahrscheinlichkeit immer auch eine Zufallsgrosse mit ebendieser Verteilung konstruieren
konnen. Zu jeder Zufallsgrosse erhalten wir aber auch kanonisch eine Wahrscheinlichkeit
auf (R, B(R)):
Sei (, A, P) ein Wahrscheinlichkeitsraum. Sei X eine Zufallsgrosse auf diesem Wahr-
scheinlichkeitsraum. In Aufgabe 34 haben Sie gezeigt: durch
P
X
(B) := P[X
1
(B)] := P[{|X() B}]
wird eine Wahrscheinlichkeit auf (R, B(R)) deniert. Wir haben damit zusammengefasst
folgende 2 Wahrscheinlichkeitsraume (, A, P) und (R, B(R), P
X
):
Nebenbei: in der allgemeinen Masstheorie spricht man von einem Bildmass; P wird durch
X abgebildet; man hat dann in diesem Sinn f ur ein B B(R) folgende Schreibweise
X(P)[B] := P[X
1
(B)].
53
Es folgen noch einige Bezeichnungen, die sich eingeb urgert haben:
Denition 2.16 [Verteilung, Verteilungsfunktion, Survivalfunktion] Sei X
eine Zufallsgrosse. Dann nennt man
a) P
X
(B) := P[X
1
(B)], B B(R), die Verteilung von X. Das Wort Verteilung wird
umgangssprachlich jedoch auch allgemeiner benutzt; man kann sagen, X hat die Verteilung
N(,
2
) oder hat diese Dichte oder Verteilungsfunktion statt das P
X
(B) anzugeben.
b) F
X
(t) := P
X
((, t]) := P[X t] die Verteilungsfunktion von X. Englisch: Cumula-
tive Distribution Function (CDF).
c) S
X
(t) := 1 F
X
(t) := P[X > t] nennt man selbsterklarend die Survivalfunktion (am
Besten motiviert mit der Exp()-Zufallsgrosse):
X nennen wir diskret, absolut stetig oder singular stetig, falls das P
X
von der je-
weiligen Art ist. Ebenso spricht man im Fall von absolut stetigen Zufallsgrossen X von
der Dichtefunktion f
X
, falls f
X
= f
P
und f
P
die Dichtefunktion von P
X
ist.
54
Bemerkungen zur Gleichheit von Zufallsgrossen bzw deren Verteilungen:
55
2.7.2 Verteilungen und Verteilungsfunktionen im Fall von Zufallsvektoren
Denition 2.17 [Gemeinsame Verteilungsfunktion; engl. Joint CDF] Sei
X = (X
1
, . . . , X
n
) ein Zufallsvektor. Dann denieren wir:
a) Die Verteilung von X ist die Wahrscheinlichkeit P
X
(B) := P[X B] auf R
n
.
b) Die Gemeinsame Verteilungsfunktion von X ist die Funktion F
X
: R
n
[0, 1], welche
folgendermassen deniert ist:
F
X
(t
1
, . . . , t
n
) := P[X
1
t
1
, . . . , X
n
t
n
].
Auch hier kann man zeigen, dass P
X
durch F
X
eindeutig festgelegt ist (kleine HA).
Wir zeigen jetzt, dass wir aus der gemeinsamen Verteilungsfunktion von X immer die
Randverteilungen herausdestillieren konnen:
Lemma 2.18 [Gewinnen von F
X
i
aus F
X
] Sei X ein Zufallsvektor. Dann gilt f ur
alle t, i:
F
X
i
(t) = lim
t
j
,j=i
F
X
(t
1
, . . . , t
i1
, t, t
i+1
, . . . , t
n
).
Beweis Lemma 2.18
56
Analog zum eindimensionalen Fall, nennen wir einen Zufallsvektor X
* diskret, falls es eine hochstens abzahlbare Menge C R
n
gibt, sodass P[X C] = 1.
* absolut stetig, falls es eine Funktion f
X
: R
n
R
+
(gemeinsame Dichte - im Gegensatz
zu den Rand-Dichten) gibt, sodass
P[X
1
t
1
, . . . , X
n
t
n
] =

t
1

. . .

t
n

f
X
(u
1
, . . . , u
n
)du
1
. . . du
n
.
Im Fall der diskreten Zufallsvektoren gilt (Vorsicht beim vermuteten absolut stetigen
Pendant):
Lemma 2.19 [diskreter Zufallsvektor und diskrete Einzelkomponenten] Ein
Zufallsvektor ist genau dann diskret, wenn alle seine Einzelkomponenten diskrete Zu-
fallsgrossen sind.
Beweis Lemma 2.19
57
Lemma 2.20 [absolut stetiger Zufallsvektor und absolut stetige Einzelkom-
ponenten] Sei X = (X
1
, . . . , X
n
) ein absolut stetiger Zufallsvektor. Dann gilt f ur alle
Einzelkomponenten, dass auch diese absolut stetig sind und es gilt:
f
X
i
(t) =

. . .

f
X
(u
1
, . . . , u
i1
, t, u
i+1
, . . . , u
n
)du
1
. . . du
i1
du
i+1
. . . du
n
.
Beweis Lemma 2.20 und Gegenbeispiel zur vermuteten Umkehrung
In Karr folgen an dieser Stelle noch die wichtigsten Verteilungen. Wir haben dies in der
WTS (weitere in SM, AS) besprochen. Lesen Sie vielleicht nochmals WTS-Kapitel 4 durch.
Auch die Transformation von stetigen Zufallsgrossen wurde bereits in WTS-Kapitel 2 (2.6)
besprochen. Karr geht noch unvollstandig auf die mehrdimensionalen Transformationen
ein; dies machen wir nur einmal in der Vlsg SM.
58
2.7.3 Vorgegebene Verteilungen
Bisher haben wir Zufallsgrossen X einfach als gegeben betrachtet. Wir haben Satze
geschrieben der Art: sei X standardnormalverteilt, also eine N(0, 1)-Zufallsgrosse. Dies
konnten wir zu Recht machen, denn es gilt
Satz 2.21 [Existenz von (, A, P) und X zu gegebenem F] Sei F eine Vertei-
lungsfunktion auf R. Dann existiert ein Wahrscheinlichkeitsraum (, A, P) und eine Zu-
fallsgrosse X so, dass F
X
= F.
Beweis Satz 2.21 (handschriftlich bereits in 2.5 behandelt)
Satz 2.21 ist jedoch nur eine Existenzaussage, wir wollen noch eine konstruktive Methode
herleiten. Dazu f uhren wir Konzepte ein, welche in der Vorlesung SM in Kapitel 4 auch
verwendet werden.
59
Denition 2.22 [Inverse von F oder Quantil-Funktion von F] Wir denieren
die Inverse (oder Quantil-Funktion) einer Verteilungsfunktion F als
F
1
(x) := inf{t : F(t) x}, x (0, 1).
Ein paar Bemerkungen und Bilder, um dieses Konstrukt besser kennenzulernen:
Wir listen hier ein paar elementare Eigenschaften von F
1
auf, welche wir gleich benutzen
werden. Sie beweisen diese Aussagen in

Ubungsblatt 9.
Lemma 2.23 [elementare Eigenschaften von F
1
] Sei F
1
die Inverse von F.
Dann gelten:
a) F ur alle (x, t) gilt F
1
(x) t x F(t).
b) F
1
ist monoton wachsend und links-stetig.
c) Falls F stetig ist, dann gilt F(F
1
(x)) = x f ur alle x (0, 1).
60
Jetzt kommt - im Gegensatz zu Satz 2.21 - eine konstruktive Methode. Dazu ein paar
Vorbemerkungen:
1. Im Statistik-Paket R (vgl Vlsg WTS) und in anderen Statistik-Paketen haben Sie alle
wichtigen Zufallsgrossen bereits implementiert.
2. Man kann sich aber einerseits fragen, wie die EntwicklerInnen von R dies gemacht haben
und andererseits kann es auch sein, dass Sie in einer anderen Programmierumgebung dies
zu Fuss selber machen m ussen.
3. Was jetzt folgt ber ucksichtigt nicht allfallige algorithmische Probleme wegen der Rechen-
geschwindigkeit.
4. Im Semesterapparat nden Sie das Buch Introduction to Stochastic Calculus Applied
to Finance von Lamberton/Lapeyre. Dort hat es in Kapitel 8 weitere Angaben zur
Programmierung von Zufallsgrossen, Zufallsvektoren und -Prozessen.
5. Wir setzen im Folgenden voraus, dass Sie eine U[0, 1]-Zufallsgrosse bereits besitzen.
Diese erhalten Sie in meist gen ugender Prazision zum Beispiel, in dem Sie einen Zufalls-
generator f ur nat urliche Zahlen von 1 bis N haben und dann das Resultat durch N teilen.
6. Die jetzt folgende Methode Quantil-Transformation (eher Statistik) nennt man auch
Inverse Distribution Function-Methode (eher Stochastik).
Lemma 2.24 [Inverse Distribution Function-Methode] Sei F eine Verteilungs-
funktion auf R. Sei U eine U[0, 1]-Zufallsgrosse Dann hat X := F
1
(U) die Verteilungs-
funktion F.
Beweis von Lemma 2.24 und Beispiel (exp())
Sie sehen anhand des Beispiels auch, dass Sie entweder F
1
in geschlossener Form
bereits haben m ussen oder eine gute numerische Approximation kennen.
61
Zu Lemma 2.24 gibt es auch eine Umkehrung. In der Vorlesung SM sehen wir mit
Hilfe von WT-Lemma 2.25 in SM-Kapitel 4 uber Testtheorie, dass bei stetiger Teststatistik
unter der Nullhypothese der P-Wert eine U[0, 1]-Verteilung besitzt.
Lemma 2.25 [Verteilung von F
X
(X) wenn F
X
stetig] Sei F
X
stetig, dann hat
F
X
(X) eine U[0, 1]-Verteilung.
Beweis Lemma 2.25
Ohne Beweis f ugen wir noch das Pendant f ur Vektoren von Satz 2.21 an:
Satz 2.26 [Existenz von (, A, P) und X zu gegebenem F] Sei F : R
n

[0, 1] eine n-dimensionale Verteilungsfunktion. Dann existiert ein Wahrscheinlichkeits-


raum (, A, P) und ein Zufallsvektor X := (X
1
, . . . , X
n
) so, dass F
X
= F.
62
Wir schliessen dieses Kapitel ab mit Bemerkungen zu Folgen von Zufallsgrossen. Wir
brauchen dies in Kapitel 5 und vor allem in der Vlsg AS.
Nehmen wir einmal an, wir haben mathematisch sauber ein (, A, P) und eine Folge
von Zufallsgrossen (X
n
)
n0
konstruiert. Dann muss wegen der Stetigkeit von P sicher
gelten:
P[X
1
t
1
, . . . , X
n
t
n
] = lim
t
P[X
1
t
1
, . . . , X
n
t
n
, X
n+1
t].
Falls wir zu einer gegebenen Folge von Verteilungsfunktionen (F
n
)
n0
eine Folge von Zu-
fallsgrossen (X
n
)
n0
konstruieren wollen, m ussen wir also sicher fordern, dass
lim
t
F
n+1
(t
1
, . . . , t
n
, t) = F
n
(t
1
, . . . , t
n
).
In der Tat ist diese Konsistenzbedingung auch gen ugend. Dies ist ein fundamentales Re-
sultat aus der Masstheorie und lautet (Beweis in A.N. Sirjaev: Wahrscheinlichkeit)
Satz 2.27 [Satz von Kolmogorov uber die Existenz stochastischer Prozesse]
F ur alle n gelte, dass F
n
eine Verteilungsfunktion auf R
n
ist. Es gelte zudem die Konsis-
tenzbedingung
lim
t
F
n+1
(t
1
, . . . , t
n
, t) = F
n
(t
1
, . . . , t
n
)
f ur alle n und (t
1
, . . . , t
n
). Dann gibt es einen Wahrscheinlichkeitsraum (, A, P) und
eine Folge von Zufallsgrossen (X
n
)
n0
so, dass F
n
f ur alle n die Verteilungsfunktion von
(X
1
, . . . , X
n
) ist.
63
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
3 Unabhangigkeit
Wir repetieren zuerst unsere elementaren Vorstellungen von Unabhangigkeit von Ereignis-
sen und Zufallsgrossen aus der WTS:
64
3.1 Unabhangigkeit von Zufallsgrossen
Entgegen dem Aufbau in WTS werden wir jetzt zuerst die Unabhangigkeit von Zufallsgros-
sen behandeln und denieren hierzu erstmal:
Dention 3.1 [Unabhangigkeit von Zufallsgrossen] Zufallsgrossen X
1
, . . . , X
n
sind unabhangig, wenn
P[X
1
B
1
, . . . , X
n
B
n
] =
n

i=1
P[X
i
B
i
]
f ur alle Borelmengen B
1
, . . . , B
n
. Eine unendliche Menge von Zufallsgrossen sei un-
abhangig, wenn jede endliche Teilmenge hiervon unabhangig ist.
Obige Denition ist ein wenig umstandlich: wir m ussten dazu jede Borel-Menge
uberpr ufen - und die konnen kompliziert sein! Bereits in der Vlsg WTS haben wir je-
doch gesehen, dass die Faktorisierung der Verteilungsfunktion bereits ein gleichwertiges
Kriterium ist. Damit konnen wir - wie schon haug in Kapitel 1 und 2 - eine Vereinfachung
machen derart, dass anstelle von allen Borel-Mengen lediglich ein Erzeugendensystem von
B(R) - hier die halboenen Intervalle (, a] - uberpr uft werden m ussen.
Satz 3.2 [Faktorisierung von F und Unabhangigkeit] Zufallsgrossen X
1
, . . . , X
n
sind unabhangig genau dann wenn
F
X
(t
1
, . . . , t
n
) =
n

i=1
F
X
i
(t
i
)
f ur alle t
1
, . . . , t
n
R.
Beweis Satz 3.2
:
65
:
66
Bereits in der Vlsg WTS haben wir immer wieder betont, dass die Denition der Vertei-
lungsfunktion(en) gleich ist f ur alle Arten von Verteilungen (diskret, absolut stetig und sin-
gul ar stetig - sogar f ur konvexe Linearkombinationen hiervon). Unterschiede ergeben sich,
sobald wir die Wahrscheinlichkeitsfunktionen (diskret) bzw die Dichten (absolut stetig) im
Hinblick auf die Unabhangigkeit der zugrunde liegenden Zufallsgrossen untersuchen wollen.
Deshalb folgen jetzt 2 sich entsprechende Satze (Satz 3.3 und Satz 3.4):
Satz 3.3 [Unabhangigkeit diskreter Zufallsgrossen] Seien X
1
, . . . , X
n
diskrete
Zufallsgrossen mit Werten in der abzahlbaren Menge C. Dann gilt: X
1
, . . . , X
n
sind un-
abhangig genau dann wenn
P[X
1
= a
1
, . . . , X
n
= a
n
] =
n

i=1
P[X
i
= a
i
]
f ur alle a
1
, . . . , a
n
C.
Beweis Satz 3.3
67
Dann noch das Analogon im stetigen Fall:
Satz 3.4 [Unabhangigkeit absolut stetiger Zufallsgrossen] X := (X
1
, . . . , X
n
)
sei ein absolut stetiger Zufallsvektor. Dann gilt: X
1
, . . . , X
n
sind unabhangig genau dann
wenn
f
X
(x
1
, . . . , x
n
) =
n

i=1
f
X
i
(x
i
)
f ur fast alle x
1
, . . . , x
n
R.
Beweis Satz 3.4
68
Um das folgende, kleine Korollar zu verstehen, lesen Sie vorher bitte die Resultate und
Denitionen aus 2.7 nochmals durch. Gemass Lemma 2.20 gilt, dass die Komponenten
eines absolut stetigen Zufallsvektors immer auch absolut stetig sind. Wir haben bereits
dort darauf hingewiesen, dass - im Gegensatz zum diskreten Fall - die Umkehrung nicht
gilt und dazu auch ein Beispiel gegeben. Hingegen gilt die Umkehrung, wenn wir noch die
Unabhangigkeit der Einzelkomponenten fordern:
Korollar 3.5 [absolut stetiger Vektor und absolut stetige Komponenten bei
Unabhangigkeit] Seien X
1
, . . . , X
n
unabhangige Zufallsgrossen. Dann gilt: die Kompo-
nenten (X
i
)
n
i=1
sind genau dann absolut stetig, wenn auch der Vektor (X
1
, . . . , X
n
) absolut
stetig ist.
Beweis Korollar 3.5
69
3.2 Unabhangigkeit von Ereignissen
Denition 3.6 [Unabhangigkeit von Ereignissen] Ereignisse A
1
, . . . , A
n
sind
unabhangig, wenn die Indikatoren 1
A
1
, . . . , 1
A
n
(Zufallsgrossen!) unabhangig sind. Eine
unendliche Sammlung von Ereignissen nennen wir unabhangig, wenn jede endliche Teil-
sammlung unabhangig ist.
Wir m ussen nat urlich schauen, dass diese Denition gleichwertig mit der Denition aus
der WTS ist - dies ist der Fall:
Satz 3.7 [Gleichwertigkeit der Denitionen von Unabhangigkeit von Ereig-
nissen] Ereignisse A
1
, . . . , A
n
sind unabhangig genau dann wenn
P[
iI
A
i
] =

iI
P[A
i
]
f ur jede Teilmenge I {1, . . . , n}.
Beweis Satz 3.7
Sie beweisen in einer

Ubungsaufgabe, dass A
1
, . . . , A
n
genau dann unabhangig sind, wenn
auch A
c
1
, . . . , A
c
n
unabhangig sind.
70
In Kapitel 1 haben wir in Satz 1.11 [Borel-Cantelli I] gezeigt, dass

n=1
P[A
n
] < P[limsup
n
A
n
] = 0.
Im Fall von Unabhangigkeit haben wir auch eine Umkehrung der Art:
Satz 3.8 [Borel-Cantelli II] Seien A
1
, A
2
, . . . unabhangige Ereignisse. Dann gilt

n=1
P[A
n
] = P[limsup
n
A
n
] = 1.
Beweis Satz 3.8
In den

Ubungen werden Sie noch Beispiele zu Borel-Cantelli angeben m ussen.
71
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
4 Erwartungswerte
4.0 Ein paar Vorbemerkungen
1. Wir haben in Kapitel 2 nach Lemma 2.11 einen kurzen Abstecher gemacht, in dem
wir eine Erweiterung von (, A, P) und einem darauf denierten X vorgenommen haben,
um auch Werte als Werte einer Zufallsgrosse zuzulassen. Wir brauchen dies in der Vlsg
AS. Falls eine Zufallsgrosse X mit Wahrscheinlichkeit > 0 den Wert + annimmt (und
beispielsweise nach unten beschrankt ist), dann denieren wir den Erwartungswert als +.
Es ist aber bereits in der Vlsg WTS darauf hingewiesen worden, dass eine Zufallsgrosse
durchaus sowohl mit Wahrscheinlichkeit 1 endliche Werte annehmen kann, aber trotzdem
keinen endlichen Erwartungswert hat. Dazu geben Sie im Must-Teil auf Blatt 10 ein
einfaches Beispiel (benutzen Sie dazu den Erwartungswertsbegri aus der WTS).
2. In der WTS haben wir in WTS-Denition 3.1 den Erwartungswert E[X] einer
diskreten und (absolut) stetigen Zufallsgrosse X deniert als
E[X] :=

x
i
x
i
P[X = x
i
] falls X diskret

xf(x)dx falls X (absolut) stetig.


Weiters denierten wir mit g(x) eine Borel-Funktion von R nach R:
E[g(X)] =

x
i
g(x
i
)P[X = x
i
] falls X diskret

g(x)f(x)dx falls X (absolut) stetig.


Diese Denitionen gelten, falls die Summe bzw. das Integral existiert. Dabei wird jeweils
uber den gesamten Wertebereich der Zufallsgrosse summiert respektive integriert.
Diese Denitionen reichen f ur eine einf uhrende Vorlesung und Serviceveranstaltun-
gen. Sie sind auch anschaulich wegen des bekannten Durchschnitts und der physikalischen
72
Interpretation als Schwerpunkt. Diese beiden Denitionen sind aber nicht ganz unprob-
lematisch, wenn einfach so parallel hingeschrieben. Die erste ist ein Spezialfall der zweiten
Denition und es ist nicht sofort ersichtlich, dass dies nicht auf einmal zu 2 verschiede-
nen Erwartungswerten f uhren konnte: je nachdem, ob man in einer konkreten Situation
die erste oder die zweite Denition benutzt. Das Problem obiger Denitionen ist aber ins-
besondere, dass wir in der modernen Stochastik ein besseres Fundament brauchen; deshalb
wird zur Denition von Erwartungswerten weit ausgeholt (4.1-4.3, 4.4, 4.5). Wir werden
die obigen Resultate in 4.5 (also relativ spat) sauber erarbeiten.
3. Was wollen wir sinnvollerweise von einem Erwartungswert fordern (haben wir in
der WTS uber E gelernt)?
73
4.1 Erwartungswert einfacher Zufallsgrossen
Sei (, A, P) ein Wahrscheinlichkeitsraum. Wir haben in Kapitel 2 einfache Zufallsgrossen
eingef uhrt in dem Sinne, dass Sie nur endlich viele Werte annehmen und damit eine Darstel-
lung in der Art
X =
n

i=1
a
i
1
A
i
(D)
besitzen, wo (A
i
)
n
i=1
eine Partition von ist (die a
i
s m ussen nicht verschieden sein). Dann
denieren wir erstmal
Denition 4.1 [Erwartungswert einer einfachen Zufallsgrosse] Sei X eine
einfache Zufallsgrosse mit Darstellung X =

n
i=1
a
i
1
A
i
. Dann denieren wir
E[X] :=
n

i=1
a
i
P[A
i
].
Wir orientieren uns damit bei dieser Denition durchaus am diskreten Fall von WTS-
Denition 3.1: auch dort war der Erwartungwert eine gewichtete Summe; die Gewichte sind
dabei die Wahrscheinlichkeiten (P[A
i
]), mit denen die Werte (a
i
) angenommen werden.
Sie zeigen in einer kleinen

Ubung, dass dies wohldeniert in dem Sinne ist, dass der Er-
wartungswert nicht von der Darstellung (D) abhangt.
Berechnen Sie mit Hilfe von Denition 4.1 E[1
A
] und E[c], wo c eine Konstante.
74
Nach diesen kleinen Resultaten folgen Linearitat und Monotonie von E bei einfachen Z.G.:
Satz 4.2 [Linearitat von E bei einfachen Z.G.] Seien X, Y beide einfache Z.G.
und a, b R. Dann ist auch aX +bY eine einfache Z.G. und es gilt:
E[aX +bY ] = aE[X] +bE[Y ].
Beweis von Satz 4.2:
Wie folgt jetzt hieraus die Monotonie von E bei einfachen Z.G.?
75
4.2 Erwartungswert nichtnegativer Zufallsgrossen
In Lemma 2.13 haben wir gezeigt, dass wir f ur jede Z.G. X mit X 0 eine Folge
von einfachen Zufallsgrossen 0 X
1
X
2
. . . haben, sodass X
n
() X() punktweise.
Es ist dann naheliegend, den Erwartungswert nichtnegativer Zufallsgrossen als Limes von
Erwartungswerten ebensolcher Z.G. zu denieren:
Denition 4.3 [Erwartungswert nichtnegativer Zufallsgrossen] Sei X eine
nichtnegative Zufallsgrosse. Sei X
n
eine monotone, nichtnegative Folge von einfachen
Zufallsgrossen, sodass X
n
X. Dann denieren wir
E[X] := lim
n
E[X
n
] .
Wegen der Monotonie von E f ur einfache Z.G. haben wir auch E[X
1
] E[X
2
] . . ..
Damit existiert der Limes auf jeden Fall (monotone Folgen konvergieren immer eigentlich
oder uneigentlich). Der Limes kann aber unendlich sein.
Wir m ussen noch die technisch relevante Erwartung uberpr ufen, dass obiger E[X] nicht
von der gewahlten Folge abhangt; dies ist der Fall:
Lemma 4.4 [E ist unabhangig von der approximierenden Folge] Seien (X
n
)
und (

X
k
) beides Folgen von monotonen, nichtnegativen, einfachen Z.G., welche beide gegen
X konvergieren. Dann gilt auch
lim
n
E[X
n
] = lim
k
E[

X
k
].
Streng mathematisch gesehen, durfte man in Denition 4.3 nicht das gleiche Zeichen E
f ur den Erwartungswert benutzen wie in Denition 4.1. Aber wegen Lemma 4.4 d urfen wir
bei einfachen, nichtnegativen Zufallsgrossen X diese auch durch die Folge von X
n
:= X
f ur alle n approximieren und erhalten damit den gleichen Wert in Denition 4.1 wie
in Denition 4.3. In 4.3 wird diese mathematische Ranesse noch in den negativen Teil
fortgesetzt - es wird also erlaubt sein, hier immer das gleiche Symbol E zu benutzen!
76
Beweis von Lemma 4.4:
77
Genau wie in Teil 4.1 werden wir auch hier - jetzt f ur eine grossere Klasse von Z.G. - die
wichtigsten Eigenschaften beweisen:
Satz 4.5 [Linearitat von E bei nichtnegativen Zufallsgrossen] Seien X, Y je
nichtnegative Z.G. und a, b R
+
. Dann gilt
E[aX +bY ] = aE[X] +bE[Y ].
Beweis Satz 4.5:
Auch hier wollen wir noch auf die Monotonie von E bei nichtnegativen Z.G. schliessen:
78
Es folgen jetzt noch ein paar Resultate vor 4.3, welche thematisch eher zu Kapitel 5
(n ) gehoren, beweistechnisch aber jetzt Sinn machen:
Der folgende Satz ist der erste in dieser Vlsg, welcher die allgemeine Frage in WT und
Analysis behandelt:
wann darf ich Limesbildung und Integration vertauschen?.
Satz 4.6 [Lemma von Fatou] Sei (X
n
) eine nichtnegative Folge von Zufallsgrossen.
Dann gilt:
E[liminf
n
X
n
] liminf
n
E[X
n
].
Geben Sie eine Situation an, in der obige Ungleichung strikt gilt:
In den

Ubungen m ussen Sie im Honours-Programm noch eine Erweiterung hin zum limsup
beweisen.
Beweis von Satz 4.6:
79
Satz 4.7 [Satz uber monotone Konvergenz von Beppo Levi (1875-1961)] Sei
(X
n
) eine monotone, nichtnegative Folge von Zufallsgrossen mit X
n
X. Dann gilt:
lim
n
E[X
n
] = E[ lim
n
X
n
] = E[X].
Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 1 in 9 in Forster Analysis III.
Beweis von Satz 4.7:
Beachten Sie bitte, dass unser Beispiel nach dem Lemma von Fatou nicht im Widerspruch
zu Satz 4.7 steht!
In den Vlsgen WTS, AS und SM haben wir bereits mehrfach die Umformung
E[

k=1
Y
k
] =

k=1
E[Y
k
]
gemacht. Ohne Einschrankungen (diese waren in WTS, AS und SM immer gegeben) gilt
diese Formel nicht; hingegen konnen wir jetzt schon beweisen:
Satz 4.8 [Partialsummen und Vertauschung von Limesbildung und Integra-
tion] Seien Y
k
0 und

k=1
Y
k
() < f ur alle . Dann gilt:
E[

k=1
Y
k
] =

k=1
E[Y
k
].
Beweis Satz 4.8:
80
4.3 Erwartungswert von Zufallsgrossen (Integrierbare Zufallsgrossen)
Wir kommen hiermit zum letzten Erweiterungsschritt nach 4.1 und 4.2: wir werden
jetzt auch die negativen Zufallsgrossen einbeziehen. Gegen uber 4.2 werden wir uns aber
auch leicht einschranken, da wir Endlichkeit der involvierten Grossen fordern.
Wir repetieren aus Kapitel 2: X
+
:= max{X, 0}, X

:= min{X, 0} (beide nichtnegativ!)


und damit X = X
+
X

und |X| = X
+
+X

.
Denition 4.9 [Integrierbar, Erwartungswert, L
1
] Sei X eine Z.G.. Dann
denieren wir
a) X ist integrierbar, wenn E[|X|] < .
b) Falls X integrierbar ist, denieren wir den Erwartungswert von X als
E[X] = E[X
+
] E[X

].
c) Wir bezeichnen mit L
1
die Menge der integrierbaren Zufallsgrossen.
Kleine Betrachtungen zu Denition 4.9:
81
Satz 4.10 [Linearitat von E] Seien X, Y L
1
und a, b R, dann gilt
aX +bY L
1
und
E[aX +bY ] = aE[X] +bE[Y ].
Beweis Satz 4.10:
In kleinen

Ubungsaufgaben zeigen Sie noch f ur X L
1
, dass dann |E[X]| E[|X|] und
falls X Y L
1
, dann E[X] E[Y ].
82
Nach Lemma von Fatou (Satz 4.6), Satz uber die monotone Konvergenz (Satz 4.7),
folgt hiermit ein dritter Satz uber die Frage, wann Limesbildung und Integration (Sum-
mation, Erwartungswertbildung) vertauscht werden darf:
Satz 4.11 [Satz uber majorisierte Konvergenz von Henri Lebesgue (1875-
1941)] Seien X
1
, X
2
, . . . und X integrierbare Z.G. derart, dass f ur alle gilt X
n
()
X(). Wir fordern weiter, dass eine Z.G. Y derart existiert, dass Y L
1
und |X
n
| Y
f ur alle n. Dann gilt:
lim
n
E[X
n
] = E[X].
Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 2 in 9 in Forster Analysis III.
Beweis Satz 4.11:
Vermeintliche Gegenbeispiele und Beispiele:
83
4.4 Integration bez uglich Verteilungsfunktionen
Die Integration bez uglich Verteilungsfunktionen ist ein Spezialfall des Riemann-Stielt-
jesschen Integrals (noch allgemeiner ware das Lebesgue-Stieltjessche Integral nach Thomas
Jan Stieltjes (1856-1894)). Als Sie in der einf uhrenden Vorlesung uber Analysis das
Riemann-Integral kennengelernt haben, haben Sie wohl unschwer festgestellt, dass die
Gewichtung einer Funktion f(x) auf der x-Achse gleichmassig geschah: wenn Sie eine
Treppenfunktion integriert haben, so haben Sie kleine Rechtecke summiert:

b
a
(x)dx :=
n

k=1
c
k
(x
k
x
k1
).
(Eine Funktion f ist demnach genau dann Riemann-integrierbar, wenn man ein Ober- und
Unterintegral von Treppenfunktionen beliebig nahe zusammenf uhren kann.)
Eine physikalisch sinnvolle Erweiterung dieses Integral-Begries geht dann in die Rich-
tung, dass man nicht mehr einfach gleichmassig (uniform, gleichgewichtet, Distanz (x
k

x
k1
)) die Funktionswerte summiert, sondern eine gewichtete Summe von Funktionswerten
nimmt: damit gelangen wir zum Riemann-Stieltjesschen Integral.
Denition 4.12 [Riemann-Stieltjessches Integral] Seien f und zwei reell-
wertige Funktionen auf [a, b]. Sei Z := {x
0
, . . . , x
n
} eine Zerlegung von [a, b] und :=
{
1
, . . . ,
n
} ein zugehoriger Zwischenvektor, so heisst
S

(f, Z, ) :=
n

k=1
f(
k
)[(x
k
) (x
k1
)]
eine Riemann-Stieltjessche Summe f ur f bez uglich . Wenn f ur jede Folge von Zerlegun-
gen, deren Feinheit gegen Null konvergiert, diese Summe konvergiert (die Grenzwerte fallen
alle zusammen (!)), so sagen wir, dass f bez uglich RS-integrierbar ist (Riemann-Stietjes-
integriebar). Man schreibt daf ur

b
a
f(x)d(x),

b
a
fd(x) oder

b
a
fd.
Mit (x) = x haben wir unser bekanntes Riemann-Integral! F ur die weiteren Berechnun-
gen zentral ist dann
84
Satz 4.13 [Verbindung Riemann-Integral und RS-Integral] Ist die Funktion f
Riemann-integrierbar und existiert die Ableitung

auf [a, b], so existiert

b
a
fd
und es gilt
RS

b
a
fd = R


1
(b)

1
(a)
f

dx.
PhysikerInnen konnen bei solchen Formeln (vgl. Substitutionsregel der Integrationsrech-
nung) der Versuchung eines ausgekl ugelten Dierentialkalk uls nicht widerstehen, um diese
Formel zu begr unden; dieses geht folgendermassen:
Solange man sich bewusst ist, dass dies noch kein Beweis obiger Formel ist, ist es OK zum
Finden von Losungen (ahnlich wie beim Losen von DGL und PDEs). Aber es ist kein
Beweis; diesen ndet man zB in Heusser I: Kapitel XI.
85
Nach dieser Auistung von Denition und Resultaten uber das Riemann-Stieltjessche
Integral aus der Analysis, wollen wir jetzt die Integration bez uglich Verteilungsfunktionen
einf uhren. Dabei werden wir zwar sehen, dass diese Erwartungswerte eben Riemann-
Stieltjessche Integrale sind, hingegen kann man die ganze Theorie auch ohne Kenntnisse
des Riemann-Stieltjesschen Integrals verstehen und einf uhren. Genau so werden wir das -
abgesehen von Querverweisen - auch machen.
Es sei - ebenfalls vorbereitend - darauf hingewiesen, dass im ganzen bisherigen Kapitel 4
bei jedem Erwartungswert
E[X]
einer Zufallsgrosse X auch eine Wahrscheinlichkeit P im Spiel ist (Denition 4.1 und darauf
basierende Erweiterungen). Deshalb indexiert man den Erwartungswert manchmal, sobald
die dazugehorige Wahrscheinlichkeit P eine Rolle spielt in der Art
E
P
[X].
Zum Beispiel in der Finanzmathematik werden Sie nicht nur das normale, aus his-
torischen Daten geschatzte, P f ur die Entwicklung eines stochastischen Prozesses (zum
Beispiel Aktienkurs S
t
) haben, sondern auch ein sogenanntes Risk-Neutral-Measure Q.
Sie haben dann - was Anfanger sehr stark verwirrt - ein E
P
[S
t
] und ein E
Q
[S
t
].
Falls wir jetzt eine Verteilungsfunktion F auf R haben, dann gibt es wegen Satz 1.17 ein
eindeutiges P auf B(R) derart, dass F
P
= F. Es gilt dann
P[(a, b]] = F(b) F(a). (Gewicht)
Wir haben beim Exkurs uber das Riemann-Stieltjessche Integral gesagt, dass man mit
dem Riemann-Stieltjesschen Integral eine unterschiedliche Gewichtung bei der Integration
erreicht. Genau dies machen wir (versteckt) mit Hilfe von (Gewicht) in nachfolgender
Denition. Die nachfolgenden Funktionen sollen alle Borel-messbar sein.
86
Denition 4.14 [Integral bez uglich einer Verteilungsfunktion] Sei F eine
Verteilungsfunktion auf R. Dann denieren wir
a) f ur eine nichtnegative Funktion g das Integral von g bez uglich F als

R
g(x)dF(x) := E
F
[g] ,
wobei wir (vgl. oben) E
F
[g] und E
P
[g] simultan verwenden. E
F
[g] ist ein uns bekannter
Ausdruck: es ist der Erwartungswert der Zufallsgrosse g auf dem Wahrscheinlichkeitsraum
(R, B(R), P
F
) (vgl Teil 4.2). Man benutzt an dieser Stelle ublicherweise ein kleines g f ur
eine Zufallsgrosse (!) wegen spaterer Formeln!
b) Analog zu 4.3 denieren wir: eine Funktion g ist integrierbar bez uglich F, falls

R
|g(x)|dF(x) < .
Wir denieren in dem Fall das Integral von g bez uglich F als

R
g(x)dF(x) :=

R
g
+
(x)dF(x)

R
g

(x)dF(x).
Da Sie diese Integrationsform noch nicht kennen, als Erklarungsversuch ein Resultat aus
der Zukunft: wir werden spater sehen, dass E[X] =

x dF
X
(x). Angenommen, X ist
eine N(,
2
)-Zufallsgrosse. Dann m usste ja gelten, dass E[X] =

x dF
X
(x) = . Wie
kann aber ein Integral uber ganz R (!) von x einen endlichen Wert liefern, ja uberhaupt
deniert sein? Da hilft eben die ungleiche Gewichtung durch dF, welche wir im Riemann-
Stieltjesschen Integral haben:
87
Wir haben in Denition 4.14 das Integral bez uglich einer Verteilungsfunktion deniert
als etwas uns wohl bekanntes, als einen Erwartungswert. Damit konnen wir jetzt aber alle
Resultate aus 4.2 und 4.3 importieren - sie m ussen auch f ur dieses Integral gelten. Wir
repetieren die wichtigsten Resultate summarisch und ubersetzen sie gleich in die neue
Sprache:
* g c

gdF = c (nicht so bei Riemann-Integral)


* B B(R)

1
B
dF = P
F
(B)
* g, h je 0; a, b R
+
oder g, h integrierbar und a, b R dann (Linearitat)

(ag +bh)dF = a

gdF +b

hdF
* Monotonie: 0 g h oder g, h integrierbar und g h

gdF

hdF
* Fatou: g
n
0 f ur alle n, dann

liminf
n
g
n
dF liminf
n

g
n
dF
* Monotone Konvergenz: 0 g
1
g
2
. . . g
n
g f ur alle x, dann

g
n
dF

gdF.
* Majorisierte Konvergenz: g
n
g f ur alle x und existiert h integrierbar, sodass
|g
n
| h f ur alle n, dann

g
n
dF

gdF.
Wo stehen wir? Wir konnen (ausser mit Hilfe von unbewiesenen Resultaten aus
WTS) zum Beispiel nicht mal einen Erwartungswert einer absolut-stetigen Zufallsgrosse
berechnen (ausser wir approximieren ihn mit Hilfe einer monoton wachsenden Folge von Er-
wartungswerten von einfachen Zufallsgrossen - viel Spass!). Wir werden jetzt zuerst unter-
suchen, wie ein Integral bez uglich einer Verteilungsfunktion aussieht, wenn die Verteilungs-
funktion diskret bzw absolut-stetig ist. Damit konnen wir dann in 4.5 endlich die Formeln
aus WTS (WT-Kapitel 4.0) herleiten.
88
Integrale bez uglich diskreter Verteilungsfunktionen sind Summen:
Satz 4.15 [Integral bez uglich einer diskreten Verteilungsfunktion] Sei F(t) =

p
i
1(t
i
t), dann gilt f ur alle nichtnegativen g

gdF =

i
p
i
g(t
i
). (4.1)
Beweis Satz 4.15:
Korollar 4.16 [integrierbares g bei diskretem F] g ist integrierbar bzgl F genau
dann wenn

i
p
i
|g(t
i
)| < .
In dem Fall gilt (4.1).
89
Integrale bez uglich absolut-stetiger Verteilungsfunktionen sind Riemann-Integrale:
Satz 4.17 [Integral bez uglich einer absolut-stetigen Verteilungsfunktion] Sei
F eine absolut-stetige Verteilungsfunktion mit (st uckweise) stetiger Dichtefunktion f. Sei
g nichtnegativ und (st uckweise) stetig. Dann gilt:

gdF =

g(x)f(x)dx, (4.2)
dabei haben wir auf der rechten Seite jetzt ein (normales) Riemann-Integral (vgl Satz 4.13).
Beweis-Skizze Satz 4.17 (Vervollstandigung in den

Ubungen):
Korollar 4.18 [integrierbares g bei absolut-stetigem F] Sei F eine absolut-
stetige Verteilungsfunktion mit (st uckweise) stetiger Dichtefunktion f. Sei g (st uckweise)
stetig. Dann ist g integrierbar bzgl F, genau dann wenn

|g(x)|f(x)dx < ,
wobei dann (4.2) gilt.
90
4.5 Operationelle Formeln zur Berechnung von Erwartungswerten
Wir werden in den folgenden 4 Resultaten (Satz 4.19, Korollar 4.20, Satz 4.21 und
Satz 4.22), meist zuerst immer noch relativ abstrakt, die zentralen Formeln herleiten. Diese
m ussen danach noch explizit f ur die Anwendung ausgedeutscht werden (am Schluss von
Teil 4.5).
Satz 4.19 [Operationelle Formel bei nichtnegativen Zufallsgrossen] Sei X
0. Dann gelten:
E[X] =


0
xdF
X
(x) =


0
[1 F
X
(y)]dy. (4.3)
Wir haben also in der Mitte ein Integral bzgl einer Verteilungsfunktion, wobei jetzt g(x)
x; das Integral rechts ist ein Riemann-Integral! Wir kennen die Formel rechts bereits aus
der WTS.
Beweis von Satz 4.19
91
Der Spezialfall, wo X nur Werte auf N
0
annimmt, war schon in der WTS speziell
hervorgehoben worden und wird in der AS eingesetzt:
Korollar 4.20 [Operationelle Formel bei Zufallsgrossen mit Werten nur in
N
0
] Sei P[X N
0
] = 1. Dann gelten:
E[X] =

n=0
nP[X = n] =

k=1
P[X k]. (4.4)
Beweis von Korollar 4.20
Wir werden jetzt auch negative Werte erlauben und erhalten dazu
Satz 4.21 [Operationelle Formel bei X L
1
] Sei X L
1
. Dann gilt
E[X] =

xdF
X
(x). (4.5)
Beweis von Satz 4.21
92
Zum Schluss noch der Fall, wo wir nicht nur den Erwartungswert einer Zufallsgrosse
X, also E[X] berechnen wollen, sondern - wo g borelsch - den Erwartungswert einer trans-
formierten Zufallsgrosse g(x), also E[g(X)]. Dazu konnte man theoretisch einfach die
Verteilungsfunktion von g(X) berechnen und dann mit den bisherigen Formeln fortfahren.
Dies kann schwierig werden - es ist Gott sei Dank auch nicht notwendig:
Satz 4.22 [Operationelle Formel f ur E[g(X)]] Sei g(X) L
1
oder zumindest g
nichtnegativ. Dann gilt
E[g(X)] =

g(x)dF
X
(x). (4.6)
Beweis von Satz 4.22
93
Wirklich operationelle Formeln f ur den taglichen Gebrauch und Ihre Begr undung
Auf Englisch nennt man obige Formel(n) zur Berechnung von E[g(X)] auch the Law
of the unconscious statistician weil die (angewandten) StatistikerInnen im Gegensatz zu
den hard core MasstheoretikerInnen die Mathematik hinter obiger Formel nicht sehen:
http://en.wikipedia.org/wiki/Law of the unconscious statistician.
Warum haben wir dieses

gdF uberhaupt eingef uhrt? Es erlaubt uns eine okonomische Be-


weisf uhrung: moglichst viel (Satz 4.19, 4.21 und 4.22) wird gemeinsam f ur alle Verteilungs-
arten gezeigt. Wir haben nach Satz 1.29 (Vollstandige Klassikation der Wahrschein-
lichkeiten) und mit der dortigen Bezeichnung f ur jede Verteilungsfunktion F eine Darstel-
lung der Art F = aF
d
+bF
a
+cF
s
. Danach kann man dann noch a = 1 oder b = 1 setzen
und erhalt dann die ublichen Spezialfalle.
94
4.6 L
p
-Raume und Ungleichungen
In diesem Teil folgen wichtige Ungleichungen im Zusammenhang mit Erwartungswer-
ten. Man kann in einer allgemeinen Masstheorie-Vorlesung auf einem hoheren Niveau viele
der nachfolgenden Resultate abstrakter herleiten; die wichtigsten Anwendungen sind dann
in der Analysis (vgl Forster Analysis III, 10) und hier nachfolgend in der Wahrschein-
lichkeitstheorie. Meist gibt es ein Pendant der folgenden Resultate mit Erwarungswerten
in der Form von Integralen (Riemann- und mehrdimensionale Lebesgue-Integra-
le) oder Summen.
Denition 4.23 [L
p
-Raum] Sei 1 p < . Dann bezeichnen wir mit L
p
die Menge
der Zufallsgrossen X derart, dass E[|X|
p
] < (p-tes Moment immer noch integrierbar).
Um uns kommende Beweise zu vereinfachen, behandeln wir noch
Lemma 4.24 [Youngs Ungleichung] Sei h : R
+
R
+
eine stetige, streng mono-
ton wachsende Funktion mit h(0) = 0 und h() = . Sei k die punktweise Inverse von h.
Wir denieren H(x) :=

x
0
h(y)dy und K(x) :=

x
0
k(y)dy. Dann gilt f ur alle a, b R
+
,
ab H(a) +K(b).
Beweis Lemma 4.24
95
Wir halten hier noch fest, dass nat urlich weiterhin die Jensen-Ungleichung (WTS-
Lemma 3.5) und die Ungleichung(en) von Bienayme-Tschebyschew (und artverwandte)
(WTS-Satz 5.1) gelten; Sie beweisen in den

Ubungen eine Verallgemeinerung von WTS-
Satz 5.1.
Satz 4.25 [Holdersche Ungleichung] Seien p, q > 1 derart, dass
1
p
+
1
q
= 1,
mit X L
p
und Y L
q
. Dann gilt XY L
1
und
E[|XY |] E[|X|
p
]
1/p
E[|Y |
q
]
1/q
.
Die analogen Satze in der Analysis sind Satz 7 in 16 in Forster Analysis I (Summen),
Beispiel (18.5) in 18 in Forster Analysis I (Riemann-Integral) und Lemma 1 in 10 in
Forster Analysis III (mehrdimensionale Lebesgue-Integrale).
Beweis Holdersche Ungleichung
Korollar 4.26 [Cauchy-Schwarz Ungleichung] Seien X, Y L
2
. Dann ist XY
L
1
und
E[|XY |]

E[|X|
2
]E[|Y |
2
] .
Die allgemeinste Form dieses Resultats ist wohl in der Linearen Algebra die gleichnamige
Ungleichung (Fischer LinAlg, 5.1.3 und 5.4.7). Die analogen Satze in der Analysis nden
sich bei der Holderschen Ungleichung an oben genannten Stellen. Die Cauchy-Schwarz
Ungleichung ist oensichtlich ein Spezialfall der Holderschen Ungleichung wo p = q = 2;
damit ist nichts mehr zu beweisen.
96
Nach diesen schonen Analogien zwischen der Analysis und der WT kommt jetzt leider
ein wichtiger Unterschied: Wir haben bereits in der WTS in den

Ubungen (damals ohne
den jetzigen

Uberbau - jetzt in der neuen Sprache) bewiesen, dass wenn 1 r s, dann
gilt L
s
L
r
; der Beweis geht (WT hat endliches Mass!) folgendermassen:
Warum gilt das analoge Resultat nicht in der Analysis? Gegenbeispiel:
Sie untersuchen f ur die WT noch den Fall wo 0 < r s 1 in den

Ubungen.
Neben obigen Inklusionen in der WT gilt sogar weitergehend, dass E[|X|
p
]
1/p
wachsend
ist in p, p 1:
Korollar 4.27 [Lyapunov-Ungleichung] Sei 1 r s und X L
s
. Dann gilt
E[|X|
r
]
1/r
E[|X|
s
]
1/s
.
Beweis Korollar 4.27
97
Wir haben in der WTS bereits (spatestens bei der Denition der Varianz) gesehen,
dass f ur X L
2
immer gilt
E[X
2
] E[X]
2
.
Man kann dies jetzt auf ganz viele Arten mit Hilfe obiger Satze beweisen bzw memorieren,
wie alles?
98
Wir kommen jetzt zu einem unscheinbaren Resultat (Dreiecksungleichung), welches
dann gewaltige Konsequenzen hat:
Satz 4.28 [Minkowski-Ungleichung] Sei p 1 und X, Y L
p
. Dann ist auch
X +Y L
p
und
E[|X +Y |
p
]
1/p
E[|X|
p
]
1/p
+E[|Y |
p
]
1/p
.
Die analogen Satze in der Analysis sind Satz 8 in 16 in Forster Analysis I (Summen),
Beispiel (18.5) in 18 in Forster Analysis I (Riemann-Integral) und Corollar zu Lemma
1 in 10 in Forster Analysis III (mehrdimensionale Lebesgue-Integrale).
Beweis Satz 4.28
Nach Wikipedia (22. Mai 2008): Minkowski (1864-1909); 1896-1902 an ETHZ, Kollege
von Hurwitz, Albert Einstein war Sch uler von Minkowski.
99
Was folgt jetzt aus Satz 4.28? Skizze weiterer Pfad in WT und Funktional-Analysis
100
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
5 n (Konvergenz, LLN)
5.1 Konvergenzarten
In der WT gibt es viele Konvergenzarten f ur Folgen von Zufallsgrossen. Sie haben
alle ihre Berechtigung. In der Analysis untersucht man auch die Konvergenz von Funktio-
nenfolgen und hat auch dort (zum Teil) analoge Begrie und Theoreme. Es gibt jedoch
einen wichtigen Unterschied: in der WT haben wir ein endliches Mass (im Gegensatz zum
Lebesgue-Mass auf R in der Analysis). Damit gelten in der WT Satze, welche verallge-
meinert in der Analysis nicht gelten. Wir werden die Resultate aus der Analysis auch
prasentieren (aber ohne Beweise, immerhin mit Gegenbeispielen).
Im Folgenden ist (X
n
)
nN
eine Folge von Zufallsgrossen auf einem Wahrscheinlichkeitsraum
(, A, P); ebenso ist X eine Zufallsgrosse auf dem gleichen (, A, P).
1. Ein erster Konvergenzbegri macht einen R uckgri auf die gewohnliche Konvergenz
einer Folge von reellen Zahlen: die Konvergenz in Wahrscheinlichkeit, auch stochas-
tische Konvergenz genannt. Dazu wahlen wir ein festes > 0 und berechnen
p
n
() := P[|X
n
X| > ].
Dieses p
n
() ist jetzt eine reelle Zahl! Wenn wir jetzt n gehen lassen, dann ist das
eine gewohnliche Konvergenz von reellen Zahlen (hoentlich gegen 0). Exakte Denition:
Wir sagen, dass eine Folge von Zufallsgrossen X
n
, n 0, in Wahrscheinlichkeit gegen eine
Zufallsgr osse X konvergiert, wenn f ur jedes > 0 gilt:
lim
n
P[|X
n
X| > ] = 0.
In den Anwendungen ist die Zufallsgrosse X haug ein Mittelwert (von iid X
i
) oder 0.
Diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (WLLN: Weak Law of
Large Numbers).
101
2. Ein weiterer Konvergenzbegri macht ebenfalls R uckgri auf die gewohnliche Konver-
genz einer Folge von reellen Zahlen: die fast sichere Konvergenz. Jargon: fs-Konvergenz
(fast sichere) oder as-Konvergenz (almost surely); in der Analysis eher ae-Konvergenz (al-
most everywhere). Dazu xiert man zuerst ein bestimmtes Elementarereignis . Man
kann sich dann f ur dieses fragen, ob lim
n
X
n
() = X(). Falls dies nicht nur f ur ein
bestimmtes gilt, sondern im Gegenteil die Menge aller s mit dieser Eigenschaft Mass
1 haben, dann liegt fs-Konvergenz vor. Exakte Denition: Die Folge von Zufallsgrossen
X
n
, n 0, konvergiert fs gegen X, wenn
P[{| lim
n
X
n
() = X()}] = 1.
Auch hier wird in den Anwendungen die Zufallsgrosse X haug ein Mittelwert (von iid X
i
)
oder 0 sein. Auch diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (SLLN:
Strong Law of Large Numbers).
Leute von der Gasse sprechen in den beiden ersten Fallen vom limP und vom Plim.
3. Der dritte wichtige Konvergenzbegri wird uber die Erwartungswerte deniert: die
sogenannte L
p
-Konvergenz. Die Folge (X
n
), n 1, konvergiert gegen eine Zufallsgrosse
X in der L
p
-Norm (eigentlich eine Pseudo-Norm), wenn gilt:
lim
n
E[|X
n
X|
p
] = 0.
Auch hier wird X haug eine Konstante sein. F ur p = 2 spricht man auch von Konvergenz
im quadratischen Mittel.
4. Die vierte Konvergenzart tanzt insofern aus der Reihe, als dass die Folge der Zu-
fallsgrossen X
n
nicht auf demselben Wahrscheinlichkeitsraum deniert sein muss (wir wer-
den nicht einzelne s von Anfang bis Unendlich verfolgen). Man st utzt sich bei dieser
Konvergenz auf die Verteilungsfunktion; dies gibt der Konvergenz in Verteilung auch
den Namen: Eine Folge von Zufallsgrossen X
n
, n 1, konvergiert in Verteilung gegen eine
Zufallsgr osse X, wenn die Folge der Verteilungsfunktionen F
X
n
(a) gegen die Verteilungs-
funktion F
X
(a) konvergiert und zwar an allen Stetigkeitspunkten von F
X
! Es gibt viele
102
alternative Denitionen dieser Konvergenzart (auch in allgemeinen metrischen Raumen),
die hier vorgestellte ist die elementarste. Diese Konvergenz haben wir in WTS-Kapitel 5
schon kennengelernt. Die Konvergenz war dort gegen eine Standard-Normalverteilung -
die Verteilungsfunktion der Normalverteilung ist bekanntlich uberall stetig, womit wir die
Sache mit den Stetigkeitspunkten in der WTS gar nicht beachten mussten.
Vergleich zur Vorlesung WTS:
1. Mit fs-Konvergenz und L
p
-Konvergenz haben wir zwei neue Konvergenzarten kennen-
gelernt.
2. Neu haben wir eine allgemeine Zufallsgrosse X als Limes und nicht mehr nur einen
Mittelwert oder eine N(0, 1)-Zufallsgrosse.
3. In der elementaren WTS (auch in der Mittelschule und f ur Nicht-Mathematiker/innen
an den Hochschulen) wird meist die Konvergenz in Wahrscheinlichkeit gebraucht um die
Konvergenz des arithmetischen Mittels gegen den theoretischen Mittelwert (eine reelle
Zahl und keine Zufallsgrosse mit positiver Varianz) zu formulieren (LLN) und die Kon-
vergenz in Verteilung f ur den CLT. Kurz: Konvergenz in Wahrscheinlichkeit f ur Konver-
genz gegen einen einzelnen Punkt und Konvergenz in Verteilung gegen eine Zufallsgrosse
mit positiver Varianz. Dies ist am Anfang der Ausbildung als Gedachtnisst utze und
Orientierung durchaus erlaubt - ab jetzt aber zu simpel.
103
5.2 DAS Schema (WT)
104
5.3 Konvergenzsatze
Satz 5.1 [L
p
-Konvergenz Konvergenz in Wahrscheinlichkeit] Sei (X
n
),
n 1, eine Folge von Zufallsgrossen, welche in der L
p
-Norm gegen eine Zufallsgrosse X
konvergiert. Dann konvergiert die Folge auch in Wahrscheinlichkeit gegen X.
Beweis von Satz 5.1 nehmen wir X = 0. Sei > 0. Wir haben
E[|X
n
|
p
] E[|X
n
|
p
I
{|X
n
|}
]
p
E[I
{|X
n
|}
] =
p
P[|X
n
| ]. (5.1)
Wenn die Folge aber in L
p
konvergiert, dann wegen (5.1) auch in Wahrscheinlichkeit.

Lemma 5.2 [p q 1: L
p
-Konvergenz L
q
-Konvergenz] Sei (X
n
), n 1, eine
Folge von Zufallsgrossen, welche in der L
p
-Norm gegen eine Zufallsgrosse X konvergiert
und sei p q 1. Dann konvergiert die Folge auch in der L
q
-Norm gegen X.
Beweis von Lemma 5.2:

105
Satz 5.3 [fs-Konvergenz Konvergenz in Wahrscheinlichkeit] Sei (X
n
), n
1, eine Folge von Zufallsgrossen, welche fs gegen eine Zufallsgrosse X konvergiert. Dann
konvergiert die Folge auch in Wahrscheinlichkeit gegen X.
Beweis von Satz 5.3

106
Satz 5.4 [Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung]
Sei (X
n
), n 1, eine Folge von Zufallsgrossen, welche in Wahrscheinlichkeit gegen eine
Zufallsgrosse X konvergiert. Dann konvergiert die Folge auch in Verteilung gegen X.
Beweis von Satz 5.4

Man beachte auch den Spezialfall einer Konvergenz gegen eine Konstante auf Blatt 11 als
Erganzung zu Satz 5.4.
107
5.4 Beispiele und Gegenbeispiele
5.4.1 Erstes Beispiel/Gegenbeispiel
Sei (, A, P) = ([0, 1], B([0, 1]), ). Wir denieren eine Folge von Zufallsgrossen
X
n
() := 1
[0,1/n]
().
Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.
108
5.4.2 Zweites Beispiel/Gegenbeispiel
Sei (, A, P) = ([0, 1], B([0, 1]), ). Wir denieren eine Folge von Zufallsgrossen
X
n
() := n1
[0,1/n]
().
Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.
109
5.4.3 Drittes Beispiel/Gegenbeispiel
Finden Sie ein Beispiel, das zeigt, dass aus der Konvergenz in L
1
nicht zwingend die
fs-Konvergenz folgt.
110
5.5 Und wie sieht das Ganze in der Analysis aus?
111
5.6 LLN (WLLN, SLLN) revisited
Aus Zeitgr unden konnen wir den Beweis des SLLN im FS 10 nicht f uhren, er folgt im
FS 12. Interessierte StudentInnen sind bis dann auf Karr verwiesen.
Denition 5.5 [Gesetz der grossen Zahlen] Eine Folge X
i
, i 1, von Zu-
fallsgrossen mit endlichen Erwartungswerten gen ugt dem (schwachen/starken) Gesetz der
grossen Zahlen, wenn die Folge
1
n
n

i=1
(X
i
E[X
i
])
(in Wahrscheinlichkeit/fast sicher) gegen 0 konvergiert. Die Abk urzungen WLLN und
SLLN stehen englisch f ur Weak Law of Large Numbers (bei Konvergenz in Wahrschein-
lichkeit) resp. Strong Law of Large Numbers (bei fast sicherer Konvergenz).
In Satz 5.3 sehen wir, dass aus SLLN die WLLN folgt. Das Gesetz der grossen Zahlen ist
oenbar eine Eigenschaft einer Folge. Es gilt folgender starker Satz, welcher ubrigens nicht
die Existenz einer Varianz fordert:
Satz 5.6 [Satz von Kolmogoro] Sei X
i
, i 1, eine Folge von paarweise un-
abhangigen, identisch verteilten Zufallsgrossen mit E[|X
1
|] < . Dann gen ugt diese Folge
dem SLLN; es gilt also
1
n
n

i=1
X
i
E[X
1
]
fast sicher, falls n . Diese Folge gen ugt wegen Satz 5.3 auch dem WLLN.
Beweis: Karr und/oder FS 12 in dieser Vlsg.

112