Sie sind auf Seite 1von 124

Wahrscheinlichkeitstheorie I

Teil 1

Dr. Guido Elsner

Fakultät für Mathematik


Universität Bielefeld

Sommersemester 2018

Vorläufige Version, bitte nicht weitergeben!


Dieses Skript entspricht größtenteils dem Skript von Prof. Dr. Friedrich Götze aus
dem Sommersemester 2016.
2
Inhaltsverzeichnis

1 Einleitung – Mengensysteme, Inhalte und Maße 5

2 Messbare Abbildungen und Zufallsvariablen 25

3 Das Integral 31

4 Konvergenzbegriffe und Konvergenzsätze 39

5 Funktionenräume 49

6 Endliche Produktmaße 55

7 Stochastische Unabhängigkeit und 0-1-Gesetze 61

8 Satz von Kolmogorov – Unendliche Produktmaße 69

9 Die Gesetze der großen Zahlen 75

10 Bedingte Erwartungen 81

11 Martingale 97

12 Schwache Konvergenz 111

3
4
1 Einleitung – Mengensysteme, Inhalte
und Maße

In den ersten Kapiteln dieses Skriptes sollen – neben der Einführung von den üblichen Nota-
tionen – zunächst für die Wahrscheinlichkeitstheorie wichtige Grundlagen aus der Maß- und
Integrationstheorie wiederholt und auf wahrscheinlichkeitstheoretische Fragestellung bezogen
werden.

In der Maß- und Integrationstheorie sollen


• ein Maß-, Inhalts- bzw. Integralbegriff für große Klassen von Mengen bzw. Funktionen
auf abstrakten Mengen und Räumen wie Rp definiert werden, die bzgl. der Limesbildung
vollständig sind und

• Existenz- und Eindeutigkeitsausssagen für Maße (z.B. für den unendlich wiederholten
Münzwurf oder die Brown’sche Bewegung) bewiesen werden.
Dies ist erforderlich, da z. B. so elementare Funktionen wie
(
1, x irrational,
f (x) =
0, x rational,

nicht Riemann-integrierbar ist. Ferner sind monotone Limiten von Riemann-integrierbaren Funk-
tionen nicht immer wieder Riemann-integrierbar. Daher stellt sich die Frage, ob und wie man
einen Integralbegriff formulieren kann, sodass auch derartige f integrierbar sind und allgemei-
nere Konvergenzsätze gelten.
Die Konstruktion eines solchen Integrals erfordert in der Maßtheorie die Beantwortung der
folgenden Frage: Gibt es eine „natürliche“ Erweiterung des Begriffs der Länge eines Intervalls
[a, b], definiert durch
λ([a, b]) := b − a, b ≥ a,
so dass gilt:
(1) λ(A
P∞ + x) = λ(A),Sfür alle x ∈ R für eine beliebige Teilmenge A ⊂ R, und

(2) i=1 λ(Ai ) = λ( i=1 Ai ) für eine beliebige Folge disjunkter Teilmengen Ai ⊂ R?

Die Antwort ist leider nein, denn:


Wegen des Auswahlaxioms existiert eine Menge A ⊂ (0, 1) von Repräsentanten
S für R/Q, und
die Mengen A + x, x ∈ Q0 := [0, 1) ∩ Q, sind alle disjunkt. Da x∈Q0 (A + x) ⊂ (0, 2), folgt
S P
2 ≥ λ x∈Q0 (x + A)) = x∈Q0 λ(x + A) nach (2). Daraus folgt aber λ(A) = 0 nach (1), und

5
P
somit wiederum λ(R) = x∈Q λ(A + x) = 0, erneut nach (2).

Falls (2) durch die Bedingung der endlichen Additivität ersetzt wird, existiert ein solches λ
(siehe Hewitt-Ross, Abstract Harmonic Analysis I, 1963, S. 242–245).
Die Konsequenz aus dieser Diskussion ist, dass das Definitionsgebiet für das obige λ eine echte
Teilmenge der Potenzmenge P(R) sein muss, um die σ-Additivität (2) erhalten zu können.

Historische Anmerkungen:
Noch für die Mathematiker des 18. Jahrhunderts war die Integration primär die inverse Opera-
tion zur Differentiation, obwohl seit Archimedes (287–212 v. Chr.) die Bedeutung des Integrals
als Limes einer Folge von Zerlegungssummen auch bekannt war. Daher war die Aufgabe, ei-
ne Funktion zu integrieren, zunächst gleichbedeutend mit dem Problem der Bestimmung einer
Stammfunktion.
Nach dem Aufbau des Systems der reellen Zahlen durch Dedekind und Cantor und der Ent-
wicklung der abstrakten Mengentheorie stellte sich das Problem eines angemessenen Begriffs des
Volumens einer Teilmenge des Rp , welches erst durch E. Borel (1871–1956) und H. Lebesgue
(1875–1941) eine befriedigende Antwort erhalten hat. H. Lebesgue hat diese Problemstellung
1902 in seiner Dissertation so gefasst:
Wir wollen jeder beschränkten Teilmenge E der reellen Achse eine nichtnegative reelle Zahl
m(E) zuordnen, die wir das Maß von E nennen, so dass folgende Bedingungen erfüllt sind:
(1) Die Vereinigung von endlich oder abzählbar unendlich vielen Mengen, von denen keine zwei
einen gemeinsamen Punkt enthalten, hat als Maß die Summe der Maße.
(2) Je zwei kongruente Mengen haben gleiches Maß.
(3) Das Maß des Einheitsintervalls [0, 1] ist 1.
Auffällig ist, dass Lebesgue schon abzählbare Vereinigungen von Mengen zulässt.
Falls wir nur endliche Vereinigungen in (1) zulassen, erhalten wir das folgende Inhaltsproblem:
Gesucht ist eine auf P(Rp ), das heißt auf der Potenzmenge des Rp , erklärte „Inhaltsfunktion“
m : P(Rp ) → [0, ∞]
mit folgenden Eigenschaften:
(1) Endliche Additivität: Für alle A, B ⊂ Rp mit A ∩ B = ∅ gilt
m(A ∪ B) = m(A) + m(B).
(2) Bewegungsinvarianz: Für jede Bewegung1 β : Rp → Rp und für alle A ⊂ Rp gilt
m(β(A)) = m(A).
(3) Normiertheit:
m([0, 1]p ) = 1.
Hierauf gibt es sehr seltsam anmutende Lösungen, die nicht der Intuition entsprechen. In seinem
berühmten Buch „Grundzüge der Mengenlehre“ beweist F. Hausdorff (1868–1942) das folgende
Resultat:
1
Unter einer Bewegung des Rp versteht man eine Abbildung, die die euklidische Metrik auf dem Rp invariant
läss t.

6
Satz 1.1 (Hausdorff, 1914)
Das Inhaltsproblem ist unlösbar für den Rp , falls p ≥ 3.
Dass hier die Dimensionsbeschränkung p ≥ 3 wirklich notwendig ist, erkannte S. Banach (1892–
1945) im Jahre 1923:
Satz 1.2 (Banach, 1923)
Das Inhaltsproblem ist lösbar für R1 und für R2 , aber es ist nicht eindeutig lösbar.
Nach John von Neumann (1903–1957) ist der tiefere Grund für die Dimensionsabhängigkeit der
Antwort auf das Inhaltsproblem darin zu sehen, dass für p ≥ 3 die Bewegungsgruppe des Rp
wesentlich reichhaltiger ist als in den Fällen p = 1, 2. Das wird auf geradezu dramatische Weise
deutlich in folgendem Paradoxon von S. Banach und A. Tarski (1902–1983):
Satz 1.3 (Banach und Tarski, 1924)
Es sei p ≥ 3, und A, B ⊂ Rp seien beschränkte Mengen mit nicht leerem Inneren. Dann gibt es
Mengen C1 , . . . , Cn ⊂ Rp (wobei n von A und B abhängt) und Bewegungen β1 , . . . , βn , sodass
A die disjunkte Vereinigung der Mengen C1 , . . . Cn ist und B die disjunkte Vereinigung der
Mengen β1 (C1 ), . . . , βn (Cn ).
Dieses Ergebnis erscheint absurd, „denn wollten wir die Körper teilen in eine endliche Anzahl
von Teilen, so ist es unzweifelhaft, dass wir sie nicht zusammensetzen könnten zu Körpern, die
mehr Raum einnehmen als früher...“, wie es Galilei (1564–1642) formuliert. Der Satz von Banach
und Tarski behauptet jedoch das krasse Gegenteil: z. B. besagt der Satz, dass es möglich sei,
eine Vollkugel vom Radius 1 im R3 derart disjunkt in endlich viele Teilmengen zu zerlegen und
die Teilstücke durch geeignete Bewegungen des R3 derart disjunkt wieder zusammenzusetzen,
dass dabei zwei disjunkte Vollkugeln vom Radius 1 (oder gar 1000 Vollkugeln vom Radius 106 )
herauskommen. Der Grund für dieses paradoxe Ergebnis ist, dass die Mengen C1 , . . . , Cn im
Satz von Banach und Tarski im Allgemeinen unvorstellbar kompliziert beschaffen sind. Fordern
wir, dass (1) für abzählbare disjunkte Vereinigungen gelten soll, so ist das Inhaltsproblem nicht
lösbar, wie bereits oben gezeigt wurde (Vitali, 1905). Darüber hinaus gilt der folgende Satz von
Banach und Tarski:
Satz 1.4 (Banach und Tarski, das Maßproblem, 1924)
Es sei p ≥ 1, und A, B ⊂ Rp seien beliebige (möglicherweise auch unbeschränkte) Mengen mit
nicht leerem Inneren. Dann gibt es abzählbar viele Mengen Ck ⊂ Rp , k ∈ N, und Bewegungen
βk : Rp → Rp , k ∈ N, sodass A die disjunkte Vereinigung der Ck , k ∈ N, ist und B die disjunkte
Vereinigung der βk (Ck ), k ∈ N.

Neben der Erweiterung des Integralbegriffs gibt es Anforderungen aus der Wahrscheinlichkeits-
theorie, die die Entwicklung eines allgemeinen Maßbegriffs erforderlich machen, z.B. bei der
Modellierung des unendlichen, fairen und unabhängigen Münzwurfs:

Satz 1.5 (Vitali, 1905)


Betrachten wir den Grundraum
Ω = {0, 1}N := {ω = (ωn )n∈N | ωn ∈ {0, 1} für alle n ∈ N}
der 0-1-Folgen, als Ergebnisraum des unendlichen Münzwurfs (0 steht für Zahl, 1 steht für Kopf).
Dann gibt es keine Funktion P : P(Ω) → [0, +∞), die die folgenden Bedingungen erfüllt:

7
(N) Normiertheit: P (Ω) = 1

(A) σ-Additivität: Für paarweise disjunkte Teilmengen (Ereignisse) A1 , A2 , ... ∈ P(Ω) (d.h.
für i 6= j ist Ai ∩ Aj = ∅) gilt:
! ∞
[ X
P An = P (An )
n∈N n=1

(I) Invarianz: Für alle n ∈ N haben die Ereignisse An := {Im n-ten Wurf fällt 0} =
{ω = (ωn )n∈N ∈ Ω | ωn = 0} und Bn := {Im n-ten Wurf fällt 1} = {(ωn )n∈N ∈ Ω | ωn = 1}
dieselbe Wahrscheinlichkeit (Diese Bedingung drückt die Unabhängigkeit der Würfe und
die Fairness der Münze aus.).

Im Folgenden wollen wir einige häufig verwendeten Notationen zusammenstellen. Ist Ω eine
Menge, so bezeichnet P(Ω) die Potenzmenge von Ω, das heißt die Menge der Teilmengen von
Ω. Teilmengen von P(Ω) werden auch als Klassen oder Familien von Teilmengen bezeichnet
beziehungsweise Mengensysteme genannt
 und meist mit A, B, F, R etc. bezeichnet.
c
Sind
 A, B ⊂ Ω, so bezeichnet A = x ∈ Ω : x ∈ / A das Komplement von A in Ω und A\B =
x∈A:x∈ / B die Mengendifferenz. Die symmetrische Differenz ist A4B = (A\B) ∪ (B\A).
Sind {An }n∈N eine Folge von Mengen undS∞ A eine weitere Menge, so bedeutet An ↑ A, dass
An+1 ⊃ An für alle n ∈ N und A = Tn=1 An gelten. Entsprechend bedeutet An ↓ A, dass
An+1 ⊂ An für alle n ∈ N und A = ∞ n=1 An gelten. Man schreibt stattdessen auch A =
lim ↑n→∞ An beziehungsweise A = lim ↓n→∞ An .
Ist {An }n∈N eine beliebige Folge von Mengen, so sind
∞ [
\ ∞ ∞
[
lim sup An := Am = lim Am ,
n→∞ n→∞
n=1 m=n m=n
[∞ \ ∞ \∞
lim inf An := Am = lim Am .
n→∞ n→∞
n=1 m=n m=n

Es gilt offenbar:

x ∈ lim sup An ⇔ Es gilt x ∈ An für unendlich viele n ∈ N.


n→∞
x ∈ lim inf An ⇔ Es gilt x ∈
/ An für höchstens endlich viele n ∈ N.
n→∞

Es bezeichne
+
reellen Zahlen, N die Menge der natürlichen Zahlen, N0 = N∪{0}
 R die Menge der
und R = x ∈ R : x ≥ 0 . Zu R können zwei Punkte ∞ und −∞ adjungiert werden: Dazu
wird R = R ∪ {∞} ∪ {−∞} definiert. Auf R wir in natürlicher Weise addiert und multipliziert,
bis auf die Konvention 0·∞ = 0·(−∞) = 0. Ausdrücke der Art ∞−∞ oder ∞+(−∞) sind nicht
definiert. Für jede Folge {xn }n∈N in R existieren lim xn = lim sup xm und lim xn = lim inf xm
n→∞ n→∞m≥n n→∞ n→∞m≥n

in R.

8
Ist f : A → B eine Abbildung, so sei f [C] := { f (x) : x ∈ C } für C ⊂ A undS f −1 [D]:=
c
{Sx ∈ A : f (x) ∈ D } für TD ⊂ B.
2
Man beachte, dass f −1 [C c ] = f −1 [C] sowie f −1 i∈I Ci =
−1 −1 −1
 T
i∈I f [Ci ] und f i∈I Ci = i∈I f [Ci ] gelten.
Ist A eine Familie von Teilmengen von B, so bezeichnet f −1 [A] die Familie { f −1 [C] : C ∈ A }
von Teilmengen von A.
Sind f, g : A → B zwei Abbildungen, so sind unter anderem folgende Schreibweisen gebräuch-
lich:

{ f ∈ C } = f −1 [C],
{ f = g } = { x ∈ A : f (x) = g(x) },
{ f 6= g } = { x ∈ A : f (x) 6= g(x) }.

Ist B eine Teilmenge der reellen Zahlen, so kann { f ≤ t } = { x ∈ A : f (x) ≤ t } für t ∈ R


geschrieben werden.

Für die Konstruktion allgemeiner Maße auf Ω betrachten wir nachfolgend Mengensysteme
A ⊂ P(Ω) mit bestimmten Eigenschaften:

Definition 1.6 (Mengentheoretische Operationen)


A ⊂ P(Ω) heißt
(1) vereinigungsstabil (in Zeichen: ∪-stabil), wenn A, B ∈ A ⇒ A ∪ B ∈ A. Entsprechend wird
für die Operationen ∩, \, 4 der Stabilitätsbegriff eingeführt.
˙
(2) stabil gegenüber der Bildung disjunkter Vereinigung (in Zeichen: ∪-stabil), wenn gilt: A, B ∈
A, A ∩ B = ∅ ⇒ A ∪˙ B := A ∪ B ∈ A.
(3) stabil gegenüber der Bildung von Mengendifferenzen von Teilmengen (in Zeichen:
\⊃ -stabil), wenn A, B ∈ A, A ⊃ B ⇒ A \ B ∈ A.
(4) stabil gegenüber der Bildung von Komplementen (in Zeichen: c-stabil), wenn A ∈ A ⇒
Ac ∈ A.
(5) stabil gegenüber der Bildung S∞ abzählbar unendlicher Vereinigungen (in Zeichen:
∪∞ -stabil), wenn Ai ∈ A ⇒ i=1 Ai ∈ A. Entsprechend wird der Begriff für abzählbar
unendlich viele Durchschnitte sowie für die gleichen Bildungen bei zugrundeliegenden paar-
weise disjunkten Mengen definiert.

Proposition 1.7
Seien Ω und Ω0 zwei Mengen und sei T : Ω0 → Ω eine Abbildung. Seien weiter A ⊂ P(Ω) und
{Ai : i ∈ I} eine Familie von Teilsystemen von P(Ω), wobei I 6= ∅ eine beliebige Indexmenge
ist. Ist A bzw. sind Ai für alle i ∈ I stabil bzgl. einer Operation aus Definition 1.6, so ist dies
auch
(1) T −1 [A],
T
(2) i∈I Ai .
2
Mitunter werden Bild und Urbild auch mit runden Klammern notiert.

9
Beweis:
Der Beweis ergibt sich durch einfaches Nachrechnen. 

Bemerkung
Bei Verwendung der Inklusionsabbildung für Ω0 ⊂ Ω ist wegen (1) mit A auch Ω0 ∩ A =
{Ω0 ∩ A | A ∈ A} stabil.

Korollar 1.8
Ist H eine Menge von Operationen aus Definition 1.6 und E ⊂ P(Ω), so gibt es ein kleinstes
(bzgl. Inklusion) E H ⊂ P(Ω), so dass E H H-stabil und E ⊂ E H ist. H-stabil bedeutet hier
natürlich Stabilität bzgl. der H bildenden Operationen. Man nennt E H das von E erzeugte
System.

Beweis:
Man setze \
EH = A.
E⊂A⊂P(Ω)
A ist H-stabil

Wir geben nun eine Übersicht über verschiedenen Mengensysteme. Dabei gibt die folgende Ta-
belle neben den definierenden Eigenschaften an, ob die leere Menge und die Menge Ω zum
System dazugehören. Die weiteren Spalten stellen dar, welche der in 1.6 eingeführten Stabili-
tätseigenschaften die jeweiligen Mengensysteme aufweisen.

Definition und Satz 1.9 (Mengensysteme und ihre Eigenschaften)


Ein System A ⊂ P(Ω) heißt:

∅ Ω ∪ ∪˙ ∩ ∪∞ ∪˙ ∞ ∩∞ \ \⊃ 4 c
i) Ω ∈ A
Algebra ii) A c-stabil × × × × × × × × ×
iii) A ∪-stabil
i) Ω ∈ A
σ-Algebra ii) A c-stabil × × × × × × × × × × × ×
iii) A ∪∞ -stabil
i) ∅ ∈ A
Ring ii) A \-stabil × × × × × × ×
iii) A ∪-stabil
i) Ω ∈ A
Dynkin-System ii) A \⊃ -stabil × × × × × ×
iii) A ∪˙ ∞ -stabil

Beweis:
Diese Tabelle
T fußt auf denS∞De Morgan’schen Regeln, auf A ∩ B = A \ (A \ B) sowie auf der
Identität ∞ A
i=1 i = A1 \ ( i=2 (A1 \ Ai )). Weiter benötigen wir das folgende Lemma. 

10
Beispiel 1.10
(1) P(Ω) ist eine σ-Algebra.
(2) A :=  endliche Teilmengen von Ω ist ein Ring.
(3) A := A ⊂ Ω : A abzählbar oder Ac abzählbar  ist eine cσ-Algebra.

(4) ∅ 6= A ⊂ Ω erzeugt eine σ-Algebra σ(A) := ∅, Ω, A, A . Dies ist die kleinste A enthal-
tende σ-Algebra. 
(5) Für die
SIntervalle I := (a, b] : a < b, a, b ∈ R ist das System der endlichen Vereinigungen
n
A := i=1 Ai : n ∈ N0 , Ai ∈ I ein Ring wegen
 Lemma 1.11
(6) Sei |Ω| = 2p für ein p ∈ N und sei D := E ⊂ Ω : |E| = 2r, 0 ≤ r ≤ p , so ist D ein
Dynkin-System. Im Falle p > 1 ist D keine Algebra und somit auch keine σ-Algebra.

Lemma 1.11
Ist R ⊂ P(Ω) \-stabil, so lässt sich jede endliche (abzählbare) Vereinigung als endliche (abzähl-
bare) disjunkte Vereinigung von Mengen aus R schreiben.

Beweis:
Für Ai ∈ R setze man B1 := A1 , B2 := A2 \ A1 und Bn+1 := An+1 \ ( ni=1 Ai ) = (· · · (An+1 \
S
An ) \ · · · ) \ A1 ∈ R. Dann ist Bn+1 ∩ Ai = ∅ für jedes i ≤ n, und somit ist Bn+1 ∩ Bi = ∅
n
S n
S
für jedes i ≤ n, da Bi ⊂ Ai . Dann folgt aus der Induktionsannahme Ai = Bi für n, dass
i=1 i=1
Sn+1 Sn Sn+1
i=1 Ai = Bn+1 ∪ i=1 Ai = i=1 Bi , wobei die Bi disjunkt sind und damit die Behauptung
für n + 1. 

Satz 1.12
Ein Dynkin-System D ist eine σ-Algebra genau dann, wenn D ∩-stabil ist.

Beweis:
„⇒“ ist offensichtlich. „⇐“ : D ist \-stabil, da A \ B = A \ (A ∩ B). Daraus folgt mit Lemma
1.11: D ist ∪∞ -stabil, und somit die Aussage. 
Definition 1.13
Es sei E ⊂ P(Ω), und σ(E) bezeichne die kleinste σ-Algebra, die E enthält. Weiter bezeichne
D(E) das kleinste Dynkin-System, das E enthält.

Satz 1.14
Sei E ⊂ P(Ω), und E sei ∩-stabil. Dann gilt

σ(E) = D(E).

Beweis:
Es gilt σ(E) ⊃ D(E), da σ(E) ein Dynkin-System ist. Wegen Satz 1.12 bleibt zu zeigen, dass
D(E) ∩-stabil ist, denn σ(E) ⊂ D(E), falls D(E) eine σ-Algebra ist. Sei

DB := A ⊂ Ω : A ∩ B ∈ D(E) = i−1

B [D(E)], wo iB (A) := A ∩ B.

11
Dann ist DB ein Dynkin-System nach der Bemerkung zu Proposition 1.7. Weiter gilt E ⊂ DB
für alle B ∈ E. Daraus folgt D(E) ⊂ DB für alle B ∈ E. Dies bedeutet für A ∈ D(E) und B ∈ E,
dass A ∩ B ∈ D(E), d. h. B ∈ DA und daher E ⊂ DA für alle A ∈ D(E). Somit folgt D(E) ⊂ DA ,
d. h.
A, B ∈ D(E) ⇒ A ∩ B ∈ D(E).
Also ist D(E) ∩-stabil und damit nach Satz 1.12 eine σ-Algebra. 

Der Grund für die Einführung von Dynkin-Systemen ist, dass ihre Eigenschaften einfacher zu
überprüfen sind als die einer σ-Algebra.
Definition 1.15
Ein Mengensystem M =
6 ∅ in P(Ω) heißt monotone
T Klasse, falls
(i) Mk ∈ M, Mk ⊃ Mk+1 , k = 1, 2, · · · ⇒ Sk Mk ∈ M,
(ii) Mk ∈ M, Mk ⊂ Mk+1 , k = 1, 2, · · · ⇒ k Mk ∈ M.

Satz 1.16
Sei A eine Algebra. Die kleinste A enthaltende monotone Klasse M(A) ist eine σ-Algebra, und
M(A) = σ(A).

Beweis:
Übung. 

Nachfolgend wenden wir uns jetzt dem Inhalts- bzw. Maßbegriff zu:

Definition 1.17
Sei R ein Ring. Eine Abbildung µ : R → R heißt Inhalt, falls
(1) µ(A) ≥ 0 für alle A ∈ R,
(2) µ(∅) = 0,
(3) für alle Ai ∈ R, i = 1, 2, . . . , n, mit Ai ∩ Aj = ∅ für alle i 6= j gilt
n
[ n
X
µ( Ai ) = µ(Ai ).
i=1 i=1

Eine Abbildung µ heißt stetiger Inhalt (oder Prämaß), falls (1) und (2) gelten und (3) ersetzt
wird durch:
(4) Für alle Ai ∈ R, i ∈ N, mit Ai ∩ Aj = ∅ für alle i 6= j gilt

[ ∞
X ∞
[
µ( Ai ) = µ(Ai ), falls Ai ∈ R.
i=1 i=1 i=1

Die Abbildung µ heißt Maß, falls R eine σ-Algebra ist.

Definition 1.18
Sei A ⊂ P(Ω), A =
6 ∅. Eine Mengenfunktion m : A → R heißt

12
(1) endlich, wenn
|m(A)| < ∞ für alle A ∈ A.
(2) σ-endlich, wenn Ω eine abzählbare Vereinigung von Mengen Ωk ∈ A ist mit der Eigenschaft
|m(Ωk )| < ∞ für jedes k ∈ N.
(3) normiert, wenn Ω ∈ A und m(Ω) = 1.
(4) Wahrscheinlichkeitsmaß (W-Maß), falls A eine σ-Algebra ist und m ein normiertes Maß ist.

Beispiel 1.19
(1) Seien A eine σ-Algebra in Ω und ω ∈ Ω mit {ω} ∈ A. Dann ist durch
(
1, ω ∈ A,
εw (A) :=
0, sonst,

ein W-Maß auf Ω definiert. Man spricht auch von der Einheitsmasse in ω.
(2) Ist {µn }n∈N eine Folge von Maßen (stetigen Inhalten, Inhalten) und ist {αn }n∈N eine Folge
in R+ , so ist auch
X∞
µ := α n µn
n=1

ein Maß (stetiger


 Inhalt, Inhalt).
(3) Es sei R := endliche Vereinigungen von Intervallen (a, b] ⊂ R . Dann ist R ein Ring.
Definiere
µ((a, b]) := b − a.
Dann ist durch diese Festsetzung in eindeutiger Weise ein Inhalt µ auf R definiert. (Zeige
mittels einer gemeinsamen Verfeinerung, dass der Inhalt µ(A) von A ∈ R, berechnet mittels
zweier disjunkter Zerlegungen (Lemma 1.11), stets zu identischen Ergebnissen führt). Später
wird gezeigt, dass µ ein stetiger Inhalt ist. Rb
(4) Sei f (x) ≥ 0 eine stetige Funktion und µ((a, b]) := a f (x) dx das Riemann Integral von f
auf (a, b]. Dann ist dies
 ein Inhalt.
(5) Sei Ω = N und R := A ⊂ N: A endlich oder Ac endlich , so ist R ein Ring in Ω.
(
0, A endlich,
µ(A) :=
∞, Ac endlich,

ist ein Inhalt, aber kein stetiger Inhalt auf R, denn



[ ∞
X
µ( {k}) = µ(N) = ∞, aber µ{k} = 0.
k=1 k=1

Proposition 1.20
Sei R ein Ring in Ω und µ ein Inhalt auf R. Dann gilt für alle A, B, Ai ∈ R, i = 1, 2, . . . :
(1) µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B).

13
(2) Aus A ⊂ B folgt µ(A) ≤ µ(B).
(3) Aus A ⊂ B S mit µ(A)P < ∞ folgt µ(B \ A) = µ(B) − µ(A).
(4) Es gilt µ( ni=1 Ai ) ≤ ni=1 µ(Ai ).
(5) Aus Ai ∩ Aj = ∅ für i 6= j und ∪∞ i=1 Ai ∈ R folgt


[ ∞
X
µ( Aj ) ≥ µ(Aj ).
j=1 j=1

Beweis:
˙ ⇒ µ(B) = µ(B \ A) + µ(A). Hieraus folgert man (3) und ebenfalls
(3): Es gilt B = (B \ A) ∪A
(2).
(1):Aus A ∪ B = A ∪˙ (B \ A) folgt µ(A ∪ B) = µ(A) + µ(B \ A) und aus B = (A ∩ B) ∪˙ (B \ A)
folgt µ(A ∩ B) + µ(B \ A) = µ(B).
Die Addition ergibt µ(A ∩ B) + µ(B \ A) + µ(A ∪ B) = µ(A) + µ(B \ A) + µ(B), woraus (1)
folgt, falls µ(B \ A) < ∞. Gilt µ(B \ A) = ∞, so ist die Behauptung klar.
n
(4): Wie in Lemma 1.11 zerlege ni=1 Ai = ∪˙ i=1 Bi mit Bi ⊂ Ai und Bi ∩ Bj = ∅ für i 6= j. Damit
S
gilt
[n n
[ Xn Xn
µ( Ai ) = µ( Bi ) = µ(Bi ) ≤ µ(Ai ).
i=1 i=1 i=1 i=1
S∞
(5): Sei A := i=1 Ai , so folgt
n
X n
[ ∞
X
µ(Ai ) = µ( Ai ) ≤ µ(A) ⇒ µ(Ai ) ≤ µ(A).
i=1 i=1 i=1

Proposition 1.21
Es sei R ein Ring in Ω und µ ein Inhalt auf R. Man betrachte die folgenden Eigenschaften:
(1) µ ist ein stetiger Inhalt.
(2) Für jede Folge R 3 An ↑ A mit A ∈ R gilt lim µ(An ) = µ(A) (Stetigkeit von unten).
n→∞
(3) Für jede Folge R 3 An ↓ A mit A ∈ R und µ(An ) < ∞ für ein n ∈ N gilt lim µ(An ) = µ(A)
n→∞
(Stetigkeit von oben).
(4) Für jede Folge R 3 An ↓ ∅ und µ(An ) < ∞ für ein n ∈ N gilt lim µ(An ) = 0 (Stetigkeit in
n→∞
∅).
(5) Für jede Folge R 3 An ↓ A mitTA ∈ R und µ(An ) ≥ ε für ein ε > 0 und alle n ∈ N, sowie
µ(An ) < ∞ für ein n, gilt A = ∞
n=1 An 6= ∅.
Dann bestehen die folgenden Implikationen:

(1) ⇔ (2) ⇒ (3) ⇔ (4) ⇔ (5).

Ist µ auf R endlich, so sind alle Eigenschaften äquivalent.

14
Bemerkung: Auf die Voraussetzung µ(An ) < ∞ in (3) kann nicht verzichtet werden, wie das
folgende Beispiel zeigt:
Sei ∞
\
µ = Länge An = [0, 1] ∪ [n, ∞) und A := An = [0, 1].
n=1

Dann gilt
µ(An ) = ∞ aber 1 = µ(A) 6= lim µ(An ) = ∞.
n→∞

Beweis:
„(1)⇒(2)“: Setze B1 = A1 , Bn := An \ An−1 , n ≥ 2. Dann sind die Bn ∈ R paarweise disjunkt
(da An ⊂ An+1 ) mit
[n [∞
An = Bm , A= Bm .
m=1 m=1

Wegen der Stetigkeit von µ gilt dann



X n
X
µ(A) = µ(Bm ) = lim µ(Bm ) = lim µ(An ).
n→∞ n→∞
m=1 m=1

„(2)⇒(1)“: Sei (An )n∈N eine Folge paarweise disjunkten Mengen aus R mit A := ∞
S
n=1 An ∈ R.
Setze Bn = A1 ∪ · · · ∪ An . Dann folgt Bn ↑ A und µ(A) = lim µ(Bn ). Wegen der endlichen
n→∞
Additivität von µ ist
µ(Bn ) = µ(A1 ) + · · · + µ(An ),
und daher
k
X ∞
X
µ(A) = lim µ(Bk ) = lim µ(An ) = µ(An ).
k→∞ k→∞
n=1 n=1

Somit ist µ σ-additiv, d. h. stetig.


„(2)⇒(3)“: Sei o.E. µ(A1 ) < ∞. Nach Proposition 1.20 (3) gilt

µ(A1 \ An ) = µ(A1 ) − µ(An ) für alle n.

Aus An ↓ A folgt (A1 \ An ) ↑ (A1 \ A), wobei alle Mengen in R sind. Nach (2) gilt dann

µ(A1 \ A) = lim µ(A1 \ An ) = µ(A1 ) − lim µ(An ).


n→∞ n→∞

Wegen A ⊂ A1 und µ(A) < ∞ gilt µ(A1 \ A) = µ(A1 ) − µ(A). Damit folgt (3).
„(3)⇔(4)“ klar, da An ↓ A äquivalent zu (An \ A) ↓ ∅
„(3)⇒(5)“: Da µ(An ) < ∞ für ein n, folgt aus (3)

lim µ(An ) = µ(A) ≥ ε > 0,


n→∞

woraus schließlich \
A= An 6= ∅ folgt.
n

15
„(5)⇒(4)“: Sei R 3 An ↓ ∅, µ(An ) < ∞ für ein n. Falls die monotone T Folge µ(An ) nicht gegen 0
konvergiert, d. h. µ(An ) ≥ ε > 0 für alle n gilt, so folgt nach (5) n An 6= ∅ im Widerspruch
zur Annahme R 3 An ↓ ∅. Also gilt limn→∞ µ(An ) = 0.
„(4)⇒(2)“: Sei µ endlich und R 3 An ↑ A mit A ∈ R. Dann folgt A \ An ↓ ∅. Da µ endlich ist,
gilt limn→∞ µ(A \ An ) = 0 und µ(A \ An ) = µ(A) − µ(An ), woraus (2) folgt. 

Satz 1.22 (Stetigkeit durch kompakte Approximation)


Sei µ ein endlicher Inhalt auf einem Ring R über einem Hausdorff’schen topologischen Raum
Ω (z. B. R oder ein beliebiger metrischer Raum). Falls für alle A ∈ R und ε > 0 eine kompakte
Menge C existiert sowie eine Menge B ∈ R mit

B ⊂ C ⊂ A und µ(A \ B) < ε,

so ist µ ein stetiger Inhalt auf R.

Beweis:
Sei (Ak )k eine Folge aus R mit Ak ↓ A und µ(Ak ) ≥ α > 0. Seien weiter Ak ⊃ Ck ⊃ Bk
Mengen mit A, Ak , Bk ∈ R und Ck kompakt, und sei µ(Ak \ Bk ) < α 2−(k+1) für alle k ∈ N. Aus
Bk = Ak \ (Ak \ Bk ) = Ak ∩ (Ak \ Bk )c folgt (nach De Morgan)
N
\ N
\ N
[
Bk = ( Ak ) \ ( (Ak \ Bk ).
k=1 k=1 k=1

Folglich gilt
N
\ N
\ N
[
µ( Bk ) = µ( Ak ) − µ( (Ak \ Bk ))
k=1 k=1 k=1
N
X
≥ µ(AN ) − µ(Ak \ Bk )
k=1

X α
≥ α−α 2−(k+1) ≥ .
k=1
2

Daraus folgt N
T TN
k=1 Ck ⊃ k=1 Bk 6= ∅ für alle N . Schließlich gilt aufgrund der Kompaktheit

T∞ MengenTC∞k und der wegen der endlichen Durchschnittseigenschaft kompakter Mengen: ∅ 6=


der
k=1 Ck ⊂ k=1 Ak (Übung). 
Beispiel 1.23 (Konstruktion des Lebesgue-Inhaltes)
(1) Sei RM der Ring der endlichen Vereinigungen von Intervallen (a, b] ⊂ (−M, M ], wo M > 0,
und sei µ der Längeninhalt µ((a, b]) := b − a. Dann ist µ stetig. Hierzu wähle man zu
A = (a, b] und ε > 0 ein δ > 0 so, dass ε > δ und a + δ < b, und man setze C := [a + δ, b]
und B := (a + δ, b], sodass A ⊃ C ⊃ B und µ(A \ B) < ε folgt. Da C kompakt ist, folgt
somit die Eigenschaft aus Satz 1.22 für alle A = (a, b] und mit Hilfe von Lemma 1.11 auch
für alle R ∈ RM . Dies zeigt die Stetigkeit von µ.

16
(2) Das gleiche Argument liefert die Stetigkeit von

µα : RM → R,

definiert mittels einer rechtseitig stetigen, monoton wachsenden Funktion α : R → R durch

µ((a, b]) := α(b) − α(a).



(wobei man α(a + δ) − α(a) < ε benutzt). Die Funktion α wird Verteilungsfunktion von
µ genannt.
Übung: Man zeige, dass man die Konstruktion aus Beispiel 1.23 auch direkt auf dem Ring R,
d. h. mit M = ∞, vornehmen kann.

Für stetige Inhalte können wir nun den Definitionsbereich erweitern (ähnlich wie dies etwa bei
der Fortsetzung einer stetigen Funktion z. B. auf den rationalen Zahlen der Fall ist). Man erhält
daraus wieder eine „stetige“ Abbildung auf dem erweiterten Bereich.
Sei R ein Ring über Ω und µ ein stetiger Inhalt über R. Sei weiter A ⊂ Ω beliebig. Wir stellen
nun die Frage, wie wir µ(A) sinnvoll festlegen können. Ein Versuch ist, A von außen durch
Überdeckungen von Vereinigungen von Mengen aus R zu approximieren und das Infimum der
Inhalte der Vereinigungen zu bilden.
Definition 1.24
Sei R ein Ring über Ω und µ ein Inhalt über R. Für A ⊂ Ω setze

[

U(A) := (An )n∈N : An ∈ R und A ⊂ An
n=1

und ( P

inf µ(An ) : (A n )n∈N ∈ U(A) , falls U(A) 6= ∅,
µ∗ (A) := n=1
∞, sonst.

Diese Konstruktion mit abzählbaren Überdeckungen ist natürlicher als das Infimum über endli-
che Überdeckungen. Beispiel: Man wähle das Lebesgue’sche Prämaß 1.23(1) und berechne die
Funktion µ∗ von Q ∩ [0, 1]. Dies ist 0 nach Konstruktion 1.24 und 1 für eine Konstruktion mit
endlichen Überdeckungen (Übung). Für die Funktion µ∗ gilt
Proposition 1.25
Für die in 1.24 definierte Funktion µ∗ : P(Ω) → R gilt:
(1) µ∗ (∅) = 0.
(2) Ist A ⊂ B ⊂ Ω, so gilt µ∗ (A) ≤ µ∗ (B) (Monotonie).

(3) Für Ai ⊂ Ω, i ∈ N gilt µ∗ ( ∞ µ∗ (Ai ) (Subadditivität).
S P
i=1 Ai ) ≤
i=1

Beweis:
(1): Wähle (∅, ∅, ∅, . . . ) ∈ U(∅).
(2): Für A ⊂ B gilt U(B) ⊂ U(A).

17
(3): Sei (An )n∈N ⊂ P(Ω). O.B.d.A. ist µ∗ (An ) < ∞ für alle n ∈ N. Dann ist U(An ) 6= ∅ für alle
n ∈ N. Sei nun ε > 0. Dann gibt es für alle n ∈ N eine Folge (Anm )m∈N ∈ U(An ) mit

X
µ(Anm ) ≤ µ∗ (An ) + 2−n ε.
m=1

in U( ∞
S
Weiter liegt (Anm )n,m∈N n=1 An ), und somit


[ X

µ( An ) ≤ µ(Anm )
n=1 m,n

X ∞
X

≤ µ (An ) + 2−n ε .
n=1
|n=1{z }

Da dies für beliebige ε > 0 gilt, folgt (3). 

Definition 1.26
Sei Ω 6= ∅. Eine Funktion µ∗ : P(Ω) → R mit den Eigenschaften (1)–(3) aus Proposition 1.25
heißt äußeres Maß auf Ω.

Für den Fall µ(Ω) = 1 könnte man nun ein „inneres Maß“ für Mengen A ∈ R durch µ∗ (A) =
1 − µ∗ (Ac ) definieren. Dann gilt auch hier µ∗ (∅) = 0, sowie A ⊂ B ⊂ Q ⇒ µ∗ (A) ≤ µ∗ (B).
Im Fall Ω = R haben Borel (1894) und Lebesgue (1902) Mengen A von außen mit offenen und
von innen mit kompakten Mengen approximiert und solche Mengen messbar genannt, bei denen
die entsprechenden Infima bzw. Suprema, genannt äußeres und inneres Maß, übereinstimmen.
Wie kann man dies ohne offene bzw. kompakte Mengen tun? Hier wäre es plausibel, denjenigen
Mengen A ein Maß zuzuordnen, für die µ∗ (A) = µ∗ (A) gilt. Im folgenden wird dies etwas
allgemeiner geschehen, da die Maße nicht unbedingt endlich sind.

Definition 
Es sei A∗ := A ⊂ Ω : µ∗ (Q) ≥ µ∗ (Q ∩ A) + µ∗ (Q \ A) für alle Q ⊂ Ω .

Bemerkung 1.27
Wegen der Subadditivitätseigenschaft (3) von µ∗ , angewandt auf die Folge Q∩A, Q\A, ∅, ∅, . . .,
gilt sogar

A∗ = A ⊂ Ω : µ∗ (Q) = µ∗ (Q ∩ A) + µ∗ (Q \ A) für alle Q ⊂ Ω .



(1.1)

Mit µ∗,Q (A) := µ∗ (Q)−µ∗ (Q\A) bedeutet diese Bedingung µ∗,Q (A) = µ∗ (A) für alle Teilmengen
Q mit Q ⊃ A.

Nun gilt der


Satz 1.28 (Carathéodory, 1914)
(1) Sei µ∗ ein äußeres Maß. Dann ist A∗ eine σ-Algebra über Ω und die Restriktion von µ∗ auf
A∗ ist ein Maß.

18
(2) Ist das äußere Maß µ∗ über einen Inhalt µ wie in 1.24 definiert, so ist σ(R) ⊂ A∗ . Falls µ
zudem stetig ist, ist die Restriktion von µ∗ auf R gleich µ (d. h. µ∗ ist eine Fortsetzung von
µ auf σ(R)).
(3) Ist µ auf R stetig und σ-endlich, so ist die Fortsetzung auf σ(R) eindeutig bestimmt.

Beweis:
(1): A∗ ist eine Algebra: Ω ∈ A∗ ist klar. Wegen der Symmetrie von (1.1) in A und Ac enthält
das System A∗ mit jeder Menge A auch deren Komplement. A∗ ist ∪-stabil: Für A, B ∈ A∗
wähle man nun in der Definition von A∗ einerseits Q ∩ A und andererseits Q \ A = Q ∩ Ac .
Dann gilt

µ∗ (Q) ≥ µ∗ (Q ∩ A) + µ∗ (Q ∩ Ac )
≥ µ∗ (Q ∩ A) + µ∗ ((Q ∩ Ac ) ∩ B) + µ∗ ((Q ∩ Ac ) ∩ B c )
(B ∈ A∗ angewandt auf Q ersetzt durch Q ∩ Ac )
≥ µ∗ ((Q ∩ A) ∪ (Q ∩ Ac ∩ B)) + µ∗ (Q ∩ (A ∪ B)c )
(endliche Subadditivität von µ∗ )
= µ∗ (Q ∩ (A ∪ B)) + µ∗ (Q ∩ (A ∪ B)c ), für alle Q ⊂ Ω,

d. h. A ∪ B ∈ A∗ . Sei nun (An )n∈N eine Folge paarweise disjunkter Mengen aus A∗ und sei

[
A := An .
n=1

In der Identität (1.1) ergibt die Wahl von A = A1 und Q ersetzt durch Q ∩ (A1 ∪ A2 )

µ∗ (Q ∩ (A1 ∪ A2 )) = µ∗ (Q ∩ A1 ) + µ∗ (Q ∩ A2 ).

Mittels vollständiger Induktion folgt


n
[ n
X

µ (Q ∩ Ai ) = µ∗ (Q ∩ Ai )
i=1 i=1
Sn
für alle Q ∈ P(Ω) und n ∈ N. Ferner liegt Bn := i=1 Ai in A∗ . Wegen Q \ Bn ⊃ Q \ A folgt
n
X
µ∗ (Q) = µ∗ (Q ∩ Bn ) + µ∗ (Q \ Bn ) ≥ µ∗ (Q ∩ Ai ) + µ∗ (Q \ A)
i=1

für jedes Q und n ∈ N. Daraus ergibt sich



X
µ∗ (Q) ≥ µ∗ (Q ∩ Ai ) + µ∗ (Q \ A) ≥ µ∗ (Q ∩ A) + µ∗ (Q \ A)
i=1

für alle Q ∈ P(Ω), d. h. A ∈ A∗ . Da A∗ somit ein ∩-stabiles Dynkin-System ist (Übung!), ist
A∗ nach P Satz 1.14 eine σ-Algebra. Setzt man in der letzte Ungleichungskette Q = A, so folgt
µ∗ (A) = ∞ ∗ ∗ ∗
i=1 µ (Ai ) (wegen Subadditivität). Also ist die Restriktion von µ auf A ein Maß.

19
(2): Zu zeigen ist R ⊂ A∗ . Sei Q ⊂ Ω beliebig und o.B.d.A. µ∗ (Q) < ∞, d. h. U(Q) 6= ∅. Sei
(An )n∈N ∈ U(Q) und A ∈ R. Dann ist An ∩ A ∈ R disjunkt zu An \ A ∈ R für alle n ∈ N und
daher µ(An ) = µ(An ∩ A) + µ(An \ A). Folglich ist

X ∞
X ∞
X
µ(An ) = µ(A ∩ An ) + µ(An \ A).
n=1 n=1 n=1

Weiter ist für jede solche Folge (An )n∈N


(An ∩ A)n∈N ∈ U(Q ∩ A) und (An \ A)n∈N ∈ U(Q \ A),
und daher

X ∞
X ∞
X
µ∗ (Q) = inf µ(An ) ≥ inf µ(An ∩ A) + inf µ(An \ A)
(An )n∈N (An )n∈N (An )n∈N
n=1 n=1 n=1
= µ∗ (Q ∩ A) + µ∗ (Q \ A),
d. h. A ∈ A∗ . Wir müssen nur noch zeigen, dass µ∗ (A) = µ(A) für alle A ∈ R ist. Aus

{A, ∅, ∅, . . . } ∈ U(A) folgt µ∗ (A) ≤ µ(A). Für alle (An )n∈N ⊂ R mit A ⊂ ∪ An folgt N
S
n=1 A ∩
n=1
An ↑ A ∈ R und daher mit Proposition 1.21 (2) sowie Proposition 1.20 (5) auch
N
[ ∞
X ∞
X
µ(A) = lim µ( A ∩ An ) ≤ µ(A ∩ An ) ≤ µ(An ),
N
n=1 n=1 n=1

woraus µ∗ (A) ≥ µ(A) folgt.


(3): Die Eindeutigkeit der Fortsetzung von R auf σ(R) folgt sofort aus dem folgenden Eindeu-
tigkeitssatz. 

Satz 1.29 (Eindeutigkeitssatz)


Sei E ein ∩-stabiler Erzeuger einer σ-Algebra A über Ω, in welchem eine Folge (An )n∈N von
Mengen mit An ↑ Ω existiert. Sind dann µ1 und µ2 zwei Maße auf A mit
(1) µ1 (A) = µ2 (A) für alle A ∈ E und
(2) µ1 (An ) < ∞ für alle n ∈ N,
so folgt µ1 = µ2 auf A.

Beweis:
Sei E ∈ E mit µ1 (E) = µ2 (E) < ∞. Dann folgt für alle D ∈ A ebenfalls µ1 (E ∩ D) < ∞ und
µ2 (E ∩ D) < ∞. Setze nun

DE := D ∈ A : µ1 (E ∩ D) = µ2 (E ∩ D) .
Dann ist DE ein Dynkin-System. Also folgt aus der ∩-Stabilität von E und nach Satz 1.14
DE ⊃ D(E) = σ(E) = A. Also folgt µ1 (E ∩ D) = µ2 (E ∩ D) für alle D ∈ A. Da die µi von
unten stetig sind (siehe Proposition 1.21), gilt für En ↑ Ω, d. h. En ∩ D ↑ D, dass
µ1 (D) = lim µ1 (En ∩ D) = lim µ2 (En ∩ D) = µ2 (D).
n→∞ n→∞

20
Definition 1.30
Sei Ω 6= ∅, A eine σ-Algebra über Ω und µ ein Maß auf A. Dann heißt (Ω, A) messbarer Raum
und (Ω, A, µ) Maßraum bzw. Wahrscheinlichkeitsraum (kurz W-Raum), falls µ(Ω) = 1. Ferner
heißt (Ω, A, µ) vollständig, falls aus A ⊂ B ∈ A und µ(B) = 0 folgt, dass A ∈ A (natürlich ist
dann µ(A) = 0).
Satz 1.31
Sei Ω 6= ∅, R ein Ring über Ω und µ ein stetiger Inhalt auf R. Sei µ∗ das durch µ induzierte
äußere Maß (siehe Definitionen 1.24 und 1.26) und A∗ die σ-Algebra der µ∗ -messbaren Men-
gen. Dann ist (Ω, A∗ , µ∗ ) vollständig. Dies ist die sogenannte Carathéodory-Erweiterung von
(Ω, R, µ).
Beweis:
Sei B ∈ A∗ mit µ∗ (B) = 0 und A ⊂ B. Zunächst ist µ∗ (A) = 0 wegen µ∗ (B) = 0. Daraus folgt
µ∗ (Q ∩ A) = 0 für alle Q ⊂ Ω und somit µ∗ (Q) ≥ µ∗ (Q ∩ Ac ) = µ∗ (Q ∩ A) + µ∗ (Q ∩ Ac ), also
A ∈ A∗ , d. h. A∗ ist vollständig. 
Satz 1.32
Sei (Ω, A, µ) ein Maßraum.
(1) Dann existiert eine kleinster vollständiger Maßraum (Ω, A, µ) mit A ⊂ A, µ|A = µ, die
Vervollständigung von (Ω, A, µ).
(2) Sei Ω 6= ∅ und R ein Ring über Ω, µ ein σ-endlicher stetiger Inhalt auf R. Dann ist die
Carathéodory-Erweiterung (Ω, A∗ , µ∗ ) die Vervollständigung von
(Ω, σ(R), µ∗ |σ(R) )
(vgl. Definition 1.13).
Beweis:
(1): Der Beweis funktioniert, wie man sich das vorstellt. Sei

N := B ⊂ Ω : ∃ A ∈ A, B ⊂ A, µ(A) = 0
und setze A := σ(A ∪ N ). Sei A0 := A ∪ N : A ∈ A, N ∈ N und damit A0 ⊂ A . Nun ist A0


eine σ-Algebra (Übung), und da A die kleinste σ-Algebra ist, die alle Mengen der Form A ∪ N ,
A ∈ A, N ∈ N enthält, folgt A = A0 . Setze nun µ(A ∪ N ) := µ(A) (wohldefiniert!). Dann ist
(Ω, A, µ) die genannte Vervollständigung.

(2): O.B.d.A. ist Ω ∈ R und µ(Ω) = 1. Sei A := σ(R) und A die Vervollständigung von
A. Da A∗ vollständig ist (Satz 1.31), folgt A∗ ⊃ A. Sei also B ∈ A∗ . Dann gibt es Folgen
(k)
((An )n∈N )k∈N ⊂ U(B), sodass

X

lim µ(A(k)
n ) = µ (B),
k→∞
n=1
S∞ (k)
oder, wenn wir A(k) := n=1 An setzen, lim µ∗ (A(k) ) = µ∗ (B). Nun ist
k→∞
(A(k) )k∈N ∈ U(B) und somit

\
A(∞) := A(k) ⊃ B und µ∗ (A(∞) \ B) ≤ µ∗ (A(k) ) − µ∗ (B) für alle k.
k=1

21
Daher ist µ∗ (A(∞) \ B) = 0, A(∞) ∈ A und µ∗ (A(∞) ) = µ∗ (B). Wendet man die gleiche Argu-
mentation auf B c an, erhält man eine Menge A e(∞) ⊃ B c und µ∗ (A
e(∞) ∈ A mit A e(∞) ) = µ∗ (B c ).
Also ist
B = (Ae(∞) )c ∪(B \ (A
e(∞) )c ) und (B \ (Ae(∞) )c ) ⊂ A(∞) \ (A
e(∞) )c ,
| {z }
∈A

wo µ∗ (A(∞) \ (A
e(∞) )c ) = 0 =⇒ B ∈ A. 
Wir wollen nun die allgemeinen Sätze anwenden, um uns ein Maß auf R mit der von den
halboffenen Rechtecken erzeugten σ-Algebra zu verschaffen.
Proposition 1.33 (Konstruktion des Lebesgue-Maßes)
(1) Aus Beispiel 1.23 und Satz 1.28 folgt, dass sich λ restringiert auf (−M, M ], wobei
λ((a, b]) := b − a, zu einem Maß auf σ(RM ) fortsetzen lässt. Mit einer Zerlegung R = ∪˙ i Ii
in endliche, halboffene Intervalle erhält man sofort die Maßeigenschaft für λ auf σ(R), der
von den halboffenen Intervallen erzeugten σ-Algebra. (Aus der Übung zu Beispiel 1.23 folgt,
dass man auch direkt den Fall M = ∞ betrachten kann.)
(2) Sei wieder R der Ring, der von den Intervallen der Form (a, b] in R erzeugt wird. Bezeichne
O das System der offenen Teilmengen in R bezüglich der natürlichen Topologie. Dann gilt

σ(R) = σ(O).

Beweis:
(2): Sei (a, b) := {x ∈ R : a < x < b}. Dann ist (a, b] = ∞ 1
T
n=1 (a, b+ n ), und daher σ(R) ⊂ σ(O).
Andererseits kann man jede offene Menge in R als abzählbare Vereinigung von Intervallen der
Form (a, b) darstellen (Übung). Ferner ist

[ 1
(a, b) = a, b − .
n=1
n

Da (a, b − n1 ] ∈ σ(R), folgt O ⊂ A(R) und damit σ(O) ⊂ σ(R). 

Definition 1.34
Die Mengen in σ(O) heißen Borel-Mengen, B := σ(O) die Borel-σ-Algebra. Die Fortsetzung von
λ auf B heißt Borel-Maß. Der vollständige Maßraum (R, B, λ) wird Lebesgue-Raum genannt,
und die Mengen in B bezeichnet man als Lebesgue-messbare Mengen, λ heißt Lebesgue-Maß.

Von der eigentlichen Carathéodory-Konstruktion wird später neben der Festlegung durch die
Werte auf einem Erzeuger (Satz 1.29) der folgende Approximationssatz benutzt.

Satz 1.35 (Approximationssatz)


Sei µ ein Maß auf der von dem Ring R erzeugten σ-Algebra A = σ(R), und sei µ auf R
σ-endlich. Dann gilt:
(1) Falls B ∈ A und ε > 0,Sso gibt es eine S Folge A1 , A2 , . . . disjunkter Mengen aus R mit
µ(Ak ) < ∞, sodass B ⊂ k Ak und µ(( k Ak ) \ B) < ε. S
(2) Ist µ(B) < ∞, so existieren endlich viele Mengen Ak ∈ R, sodass µ(( k Ak )4B) < ε gilt.

22
Beweis:
(1): Wegen Satz 1.28 (2) gilt σ(R) ⊂ A∗ . Weiter ist die Restriktion von µ∗ auf R gleich µ
und wegen Satz 1.29 ist die Restriktion von µ∗ auf σ(R) ebenfalls gleich µ, da µ ein Maß
auf A = σ(R) ist. Sei C ∈ A und µ(C) = µ∗ (C) < ∞. Dann gibt es nach S∞Konstruktion

von
S µ (Definition
P 1.24) zu jedem ε > 0 Mengen A n ∈ R, n ∈ N, mit C ⊂ n=1 An , sodass
µ( n An ) ≤ n µ(An ) < µ(C) + ε, d. h.
[
µ( An \ C) < ε.
n
S
Da µ auf R σ-endlich ist, gibt es Mengen Cm ∈ R mit Ω = m Cm und µ(CmS) < ∞ für jedes
m ∈ N. Ferner gibt es wie im ersten Schritt Mengen Amn ∈ R mit B ∩ Cm ⊂ n Amn und
[ ε
µ( Amn \ (B ∩ Cm )) < m .
n
2
S
DieSMengen Amn bilden also zusammen eine Folge Ak ∈ R, k ∈ N, mit B ⊂ k Ak und
S k AkS
µ(( ) \ B) < ε. Ersetze nun die Folge Ak durch eine Folge disjunkter Mengen A∗k ∈ R mit

k Ak = k Ak gemäß Lemma 1.11. Dies zeigt Teil (1).

(2): Man modifiziere die Konstruktion von An im ersten Teil


S des Beweises von (1) und ersetze
ε durch ε/2 . Falls µ(B) < ∞, so gilt dies auch für A = n An mit geeignet gewählten An ∈
R.SWegen Proposition S 1.21 folgt aus der Stetigkeit von unten und der Endlichkeit µ(A) −
µ( n≤N An ) = µ(A \ n≤N An ) < ε/2 für ein N und damit die Behauptung µ(B4(∪N n=1 An )) <
ε. 

23
24
2 Messbare Abbildungen und
Zufallsvariablen
Definition 2.1
(1) Seien (Ω, A) und (Ω0 , A0 ) messbare Räume. Eine Abbildung ϕ : Ω → Ω0 heißt A-A0 -messbar,
falls
ϕ−1 [A0 ] ⊂ A, d. h. ϕ−1 [A0 ] ∈ A ∀ A0 ∈ A0 .
(2) Sei Ω0 = R und A0 = B 1 , die Borel’sche σ-Algebra in R1 . Dann heißen die A-B 1 -messbaren
Funktionen endliche A-messbare Funktionen. Auf R betrachte die σ-Algebra

B 1 := {B ∪ C : B ∈ B 1 ∧ C ⊂ { −∞, +∞ }}.

Die A-B 1 -messbaren Funktionen heißen verallgemeinerte oder numerische A-messbare Funk-
tionen.
(3) Sei (Ω, A, µ) ein Wahrscheinlichkeitsraum, so heißt eine A-A0 -messbare Abbildung eine
((Ω0 , A0 )-wertige) Zufallsvariable oder Zufallsgröße.
Beispiel 2.2
Sei (Ω, A) ein messbarer Raum und A eine Teilmenge von Ω. Die Indikatorfunktion (oder auch
Indikationsfunktion) (
1, ω ∈ A,
1A (ω) :=
0, ω∈ / A,
(manchmal auch mit χA (ω) oder mit IA (ω) bezeichnet) ist A-messbar genau dann, wenn A
messbar ist, also A in A liegt. Es gelten folgende Rechenregeln für beliebige Teilmengen A, B ⊂ Ω
bzw. für Familien (Ai )i∈I beliebiger Teilmengen von Ω:

A ⊂ B ⇔ 1A ≤ 1B , 1Ac = 1 − 1A ,
1Si∈I Ai = sup 1Ai , 1Ti∈I Ai = inf 1Ai .
i∈I i∈I

Definition 2.3
Eine Treppenfunktion f : Ω → R ist eine endliche Linearkombination messbarer Indikatorfunk-
tionen auf (Ω, A), d. h.
Xn
f= ak 1Ak , ak ∈ R, Ak ∈ A.
k=1

O.E.d.A. kann man annehmen, dass die Ak paarweise disjunkt sind (Übung).

25
Proposition 2.4
(1) Seien (Ω, A) und (Ω0 , A0 ) messbare Räume und E ein Erzeuger von A0 . Dann ist eine Ab-
bildung ϕ : Ω → Ω0 messbar genau dann, wenn ϕ−1 [E] ⊂ A.
(2) Seien (Ω, T ) und (Ω0 , T 0 ) topologische Räume und ϕ : Ω → Ω0 eine stetige Abbildung. Dann
ist ϕ Borel-messbar, d. h. messbar bezüglich der σ-Algebren, die von den Topologien erzeugt
werden.
(3) Seien ϕ1 : (Ω, A) → (Ω0 , A0 ) und ϕ2 : (Ω0 , A0 ) → (Ω00 , A00 ) eine A-A0 - bzw. A0 -A00 -messbare
Abbildung. Dann ist ϕ2 ◦ ϕ1 A-A00 -messbar.

Beweis:
(1): „⇒“ ist trivial.
„⇐“: Sei A∗ die größte σ-Algebra über Ω0 , für die ϕ messbar ist, d. h.

A∗ := A0 ⊂ Ω0 : ϕ−1 [A0 ] ∈ A , A∗ ist σ-Algebra.




Nach Voraussetzung ist E ⊂ A∗ , also auch σ(E) = A0 ⊂ A∗ . Folglich ist ϕ A-A0 -messbar.
(2) folgt unmittelbar aus (1) und (3) ergibt sich sofort durch Nachrechnen. 
Definition 2.5
Seien Ω eine Menge, (Ωi , Ai )i∈I messbare Räume und fi : Ω → Ωi Abbildungen für jedes i ∈ I.
Dann ist [
fi−1 [Ai ]

A := σ(fi , i ∈ I) := σ
i∈I

die kleinste σ-Algebra, bzgl. derer die fi A-Ai -messbar sind. Sie heißt die von allen (fi )i∈I
erzeugte σ-Algebra (oder auch Initial-σ-algebra).

Korollar 2.6
Seien (Ω, A) ein messbarer Raum und fi : Ω → R, i = 1, . . . , n, Borel-messbar sowie g : Rn → R
Borel-messbar. Dann ist h = g(f1 , . . . , fn ) Borel-messbar.

Beweis:
Sei f := (f1 , . . . , fn ) : Ω → Rn . Sei B n die Borel-σ-Algebra des Rn . Dann ist die Abbildung fA-
B n -messbar, da die Abbildung f σ ∪ni=1 fi−1 [B 1 ] -B n -messbar ist. Weiter gilt σ ∪ni=1 fi−1 [B 1 ] ⊂


A. Mit Proposition 2.4 (3) folgt die Behauptung. 


Korollar 2.7
Eine numerische Funktion f : Ω → R ist A-messbar genau dann, wenn { ω ∈ Ω : f (ω) ≤ a } ∈ A
für alle a ∈ R gilt.

Beweis:
Da E := { [−∞, a], a ∈ R } die σ-Algebra B 1 in R erzeugt (Übung, vgl. Proposition 1.33), folgt
die Behauptung aus Proposition 2.4 (1). 
Bemerkung 2.8
Für eine Funktion f : Ω → R sind äquivalent:
(1) {f ≤ a} ∈ A ∀ a ∈ R.
(2) {f ≥ a} ∈ A ∀ a ∈ R.
(3) {f > a} ∈ A ∀ a ∈ R.

26
(4) {f ≥ a} ∈ A ∀ a ∈ R0 , R0 ⊂ R dicht.
(5) {f > a} ∈ A ∀ a ∈ R0 , R0 ⊂ R dicht.
(6) {f ∈ O} ∈ A ∀ O offen.
(7) {f ∈ A} ∈ A ∀ A abgeschlossen.
(8) {a ≤ f < b} ∈ A ∀ a < b, a, b ∈ R.

Beweis:
Übung. 
Proposition 2.9
Seien f, g : Ω → R A-messbar und fn : Ω → R, n ∈ N, A-messbare Funktionen. Dann gilt:
(1) Die Mengen {f < g}, {f ≤ g}, {f = g}, {f 6= g} sind in A.
(2) Es sind c · f, c ∈ R, f ± g, f · g sowie f ∧ g und f ∨ g A-messbar.
(3) Es sind supn fn , inf n fn sowie lim supn fn und lim inf n fn A-messbar.
(4) Existiert limn fn (ω) für alle ω ∈ Ω punktweise, dann ist limn fn A-messbar.

Beweis:
(1): Es gelten die Identitäten {f < g} = q∈Q ({f < q} ∩ {q < g}), {f ≤ g} = {f > g}c sowie
S
{f = g} = {f ≤ g} ∩ {f ≥ g} und {f 6= g} = {f = g}c .
(2): Die Abbildungen c(x) := c · x, g(x, y) := x ± y, g(x, y) := x · y, g(x, y) := x ∨ y und
g(x, y) := x ∧ y sind stetig und daher messbar. Das ergibt zusammen mit Korollar 2.6 die Be-
hauptung.
(3): Es ist {supn fn ≤ a} = ∞
T
n=1 {fn ≤ a}, also ist supn fn messbar nach 2.7. Somit folgt
die Behauptung aus (2) mit inf fn = − sup(−fn ), und definitionsgemäß ist lim supn fn =
inf n supm≥n fm und lim inf n fn = supn inf m≥n fm .
(4): Es ist limn fn = lim inf n fn = lim supn fn . 
Proposition 2.10
Sei (Ω, A) ein messbarer Raum. f ist eine Treppenfunktion genau dann, wenn f A-messbar ist
und f (Ω) endlich ist (d. h. endliche Kardinalität hat).

Beweis:
„⇒“ ist klar, da f Summe A-messbarer Funktionen 1Ak ist, also nach Proposition 2.9 (2) wieder
A-messbar ist.
„⇐“: sei {y1 , . . . , yn } die Menge der Werte von f und sei Aj := f −1 (yj ). Dies ist eine disjunkte,
endliche Zerlegung von Ω, und es ist
n
X
f= yj 1Aj ,
j=1

also ist f eine Treppenfunktion. 

Da wir etwas später ein Integral als einen Limes über Integrale approximierender leicht inte-
grierbarer Funktionen konstruieren wollen, ist die folgende Behauptung zentral:

Proposition 2.11
Sei (Ω, A) ein messbarer Raum. Dann ist f : Ω → R genau dann A-B 1 -messbar, wenn es eine
Folge (fn )n von Treppenfunktionen, definiert auf Ω, gibt mit f = limn fn . Wenn f ≥ 0 ist, so
kann diese Folge monoton wachsend gewählt werden.

27
Bemerkung 2.12
Ist f ≥ 0 beschränkt, so gibt es sogar eine gleichmäßig konvergente monoton wachsende Folge
von Treppenfunktionen fn ↑ f .

Beweis:
„⇐“: Folgt aus Proposition 2.9 (4), da jede Treppenfunktion messbar ist.
„⇒“: Sei zunächst f ≥ 0. Setze
nk k + 1o
Ak,n := ≤ f < für k = 0, . . . , n · 2n − 1.
2n 2n
und
A+
n := {f ≥ n}.

Folglich ist
n2n −1
X k
fn := n 1A+n + 1A
k=0
2n k,n
eine Treppenfunktion für jedes n ∈ N, und die Folge der fn konvergiert gegen f , da es für ω mit
f (ω) ≤ n ein k gibt mit ω ∈ Ak,n , d. h. fn (ω) = k2−n , und damit 0 ≤ f (ω) − fn (ω) ≤ 21n gilt.
Ferner folgt aus der Schachtelung der Intervalle k/2n , (k + 1)/2n für n ersetzt durch n + 1:
fn (ω) ≤ fn+1 (ω) für jedes ω ∈ Ω. Damit ist die Behauptung für f ≥ 0 gezeigt. Falls f beschränkt
ist, so folgt aus diesem Beweis unmittelbar die gleichmäßige Konvergenz von Bemerkung 2.12.
Für Funktionen f mit beiderlei Vorzeichen konstruiere elementare konvergente Funktionenfolgen
fn± gegen die nichtnegativen messbaren Funktionen f − := min{−f, 0} bzw. f + := max{f, 0}.
Dann konvergiert fn+ − fn− gegen f = f + − f − . 
Proposition 2.13
Es seien (Ω, A) ein messbarer Raum und g, f : Ω → R Abbildungen. Dann ist g σ(f )-messbar
genau dann, wenn es ein Borel-messbares ϕ : R → R gibt, sodass g = ϕ ◦ f .

Der Beweis benutzt (erstmals) eine grundlegende Technik der Maßtheorie: wir beweisen zunächst
die Behauptung für Treppenfunktionen und werden dann ein geschicktes Argument vorführen,
um das Resultat auf allgemeine messbare Funktionen hochzuziehen. (Diese Beweistechnik wird
manchmal auch als maßtheoretische Induktion bezeichnet.)

Beweis:
„⇒“: Sei zunächst g eine Treppenfunktion. Dann ist g σ(f )-messbar mit (verschiedenen) Werten
y1 , . . . , yn genau dann, wenn g = nk=1 yk 1Ak mit paarweise disjunkten Ak ∈ σ(f ). Somit gibt
P
Si−1
es Mengen Ck ∈ B 1 mit Ak = {g = yk } = f −1 [Ck ]. Setze B1 := C1 , Bi := Ci \ ( j=1 Bj ), i ≥ 2
n
und B0 := R \ ∪j=1 Bj . Dann bilden die Bj eine messbare Zerlegung von R. Definiere
(
yi , x ∈ Bi , i = 1, . . . , n,
ϕ(x) :=
0, x ∈ B0 .

Dann ist ϕ Borel-messbar und man rechnet leicht nach, dass g = ϕ ◦ f gilt.
Ist nun g eine beliebige σ(f )-messbare Funktion, so gibt es nach Proposition 2.11 eine Folge (gn )n
von Treppenfunktionen mit g = limn→∞ gn . Nach der vorherigen Überlegung existiert dann eine

28
Folge Borel-messbarer Funktionen ϕn , sodass gn = ϕn ◦ f . Setze nun ϕ(ω) := lim supn ϕn (ω),
falls lim supn ϕn (ω) endlich ist; anderenfalls setze ϕ(ω) = 0. Dann ist ϕ Borel-messbar, und es
gilt
∞ > g(ω) = lim gn (ω) = lim(ϕn ◦ f )(ω) = lim ϕn (f (ω)) = ϕ ◦ f (ω),
n n n

da limn ϕn (f (ω)) wegen g(ω) < ∞ auch endlich ist.


„⇐“: Klar mit Proposition 2.4 (3). 

In der Wahrscheinlichkeitstheorie sind sog. Zufallsvariablen und ihre Verteilungen von zentraler
Bedeutung. Um sie zu definieren, führen wir zunächst den Begriff eines Bildmaßes für eine
messbare Abbildung ein.

Definition und Proposition 2.14


Sei µ ein Maß auf einem messbaren Raum (Ω, A) und T : (Ω, A) → (Ω0 , A0 ) eine Abbildung
in einen anderen messbaren Raum (Ω0 , A0 ) mit der Eigenschaft T −1 (A0 ) ⊂ A (d. h. T ist A-A0 -
messbar). Dann ist durch A0 7→ µ(T −1 [A0 ]) ein Maß µ0 auf A0 definiert. Es heißt das Bildmaß
von µ unter T , geschrieben T µ; also:

T µ(A0 ) := µ(T −1 [A0 ]).

Beweis:
Übung 
Im Falle eines Wahrscheinlichkeitsraumes erhalten wir:
Definition 2.15
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) ein Messraum und X : Ω → Ω0 eine Zufalls-
größe (also eine A-A0 -messbare Abbildung). Dann heißt das Bildmaß

PX := X(P )

die Verteilung von X bezüglich P .

Wir wollen hier ein paar klassische Verteilungen der Wahrscheinlichkeitstheorie auflisten:

Beispiel 2.16
(1) Sei p eine reelle Zahl mit 0 ≤ p ≤ 1 und q := 1 − p. Dann ist
n  
p
X n k n−k
βn := p q εk
k=0
k

ein sog. diskretes Wahrscheinlichkeitsmaß auf B. Im Falle 0 < p < 1 wird βnp Binomial- oder
Bernoulli-Verteilung genannt.
(2) Für jedes α > 0 ist

X αk
πα := e−α εk
k=0
k!
ein diskretes Wahrscheinlichkeitsmaß auf B, welches für α = 0 gleich ε0 ist. Für α > 0 heißt
πα die Poisson-Verteilung mit dem Parameter α.

29
30
3 Das Integral

Wir stellen in diesem Kapitel die Konstruktion des Integrals für eine möglichst große Klasse
messbarer Abbildungen vor. In der Wahrscheinlichkeitstheorie erhält man so die Begriffe des
Erwartungswertes und der Varianz.
Definition 3.1
Sei (Ω, A) ein messbarer Raum. Eine relle Funktion f : Ω → R heißt A-Elementarfunktion,
wenn f eine nichtnegative, A-messbare Treppenfunktion ist. Wir bezeichnen die Menge aller
Elementarfunktionen zu festem (Ω, A) mit E.

Proposition 3.2
Seien f, g ∈ E und a ∈ R+ . Dann sind a · f , f + g, f · g, f ∨ g und f ∧ g Elementarfunktionen.

Beweis:
Dies folgt unmittelbar aus Proposition 2.4. 
Bemerkung 3.3
f liegt genau dann in E, wenn es ein n ∈ N gibt mit f = ni=1 ai 1Ai mit Ai ∈ A disjunkt
P
und ∪ni=1 Ai = Ω sowie ai ≥ 0. Diese Darstellung von f heißt Normaldarstellung. Sie ist nicht
eindeutig.

Beweis:
Übung 
Lemma 3.4
Sei (Ω, A, µ) ein Maßraum und f ∈ E. Für zwei Normaldarstellungen
n
X m
X
f= αi 1Ai = βj 1Bj
i=1 j=1

gilt:
n
X m
X
αi µ(Ai ) = βj µ(Bj ).
i=1 j=1

Beweis:
Wir gehen zu einer gemeinsamen Verfeinerung von (Ai )i und (Bj )j über. Es ist
m
X n
X
µ(Ai ) = µ(Ai ∩ Bj ), µ(Bj ) = µ(Bj ∩ Ai ).
j=1 i=1

31
Also ist n n m m X
n
X X X X
αi µ(Ai ) = αi µ(Ai ∩ Bj ) = αi µ(Ai ∩ Bj ).
i=1 i=1 j=1 j=1 i=1

Da für ω ∈ Ai ∩ Bj 6= ∅, f (ω) = αi und f (ω) = βj gilt, ist dann αi = βj . Falls Ai ∩ Bj = ∅,


kann man den Koeffizienten αi ohne Änderung der Summe durchPβj ersetzen. Pn Insgesamt ist
m
also die rechte Seite der letzten Gleichheitskette identisch gleich j=1 βj i=1 µ(Ai ∩ Bj ) =
P m
β
j=1 j µ(B j ). 
Im Folgenden liege immer der Maßraum (Ω, A, µ) zugrunde.

Definition 3.5
Sei f ∈ E. Die nach Lemma 3.4 von der speziellen Darstellung f = ni=1 αi 1Ai unabhängige
P
Zahl Z n
X
f dµ := αi µ(Ai )
i=1
R
heißt µ-Integral von f über Ω. Die Zuordnung f 7→ f dµ ist somit eine Abbildung E → R+ .

Korollar 3.6
SeienR f, g ∈ E und a ∈ R+ . Dann gilt:
R für alle A ∈ A.
(1) R 1A dµ = µ(A)
(2) R a f dµ = a fRdµ. R
(3) (f + g)dµ = f dµ R + gdµ R (Linearität).
(4) Ist f ≤ g, so folgt f dµ ≤ gdµ (Monotonie).

Beweis:
(1) und (2) sind evident.
(3):
Pn Wir gehen zu einer Pmgemeinsamen Normaldarstellung P P über: Sei f =
im folgenden Sinne
i=1 αi 1Ai und g P= j=1 βj 1Bj , dann gilt f = i,j αi 1Ai ∩Bj und g = i,j βj 1Ai ∩Bj , und
somit gilt f + g = i,j (αi + βj ) 1Ai ∩Bj . Daraus folgt (3) wie im Beweis von Lemma 3.4.
(4): Seien f und g wie unter (3). Ist f ≤ g, so ist für ω ∈ Ai ∩ Bj f (ω) = αi ≤ g(ω) = βj .
Daraus folgt wie im Beweis von Lemma 3.4 αi µ(Ai ∩ Bj ) ≤ βj µ(Ai ∩ Bj )), woraus sich nach
Summation über alle i, j die Ungleichung (4) ergibt. 
Lemma 3.7
Sei (fn )n∈N ⊂ E mit der Eigenschaft fn ↑ f ∈ E. Dann gilt:
Z Z
lim fn dµ = f dµ.
n→∞

Beweis:
Wir unterscheiden zwei Fälle: Pn
(1): Sei µ({f 6= 0}) = +∞. Wenn f = i=1 αi 1Ai eine Normaldarstellung ist, können wir
(n)
o.B.d.A. annehmen, dass α1 > 0 und µ(A1 ) = +∞. Setzt man weiter A1 := {fn > 1/2 α1 },
(n) (n)
so ist (A1 )n aufsteigend in n, und ∪∞
n=1 A1 ⊇ A1 . Also ist
Z Z
1 (n)
lim fn dµ ≥ lim α1 µ(A1 ) = +∞ und f dµ ≥ α1 (A1 ) = +∞.
n→∞ n→∞ 2

32
(2): Sei nun µ({f 6= 0}) < +∞. Dann sei o.B.d.A. Ω = {f 6= 0} und µ(Ω) < +∞. Zum einen
gilt nun wegen fn ≤ f für alle n
Z Z
fn dµ ≤ f dµ < ∞

für alle n und daher Z Z


lim fn dµ ≤ f dµ < ∞.
n

Für die umgekehrte Ungleichung betrachte zu festem ε > 0 En := { f − fn > ε }. Nach Vor-
aussetzung gilt En ↓ ∅. Aus der Endlichkeit von µ(Ω) folgt limn→∞ µ(En ) = 0. Setzen wir
fmax := maxω∈Ω f (ω), so folgt fmax < +∞, da |f (Ω)| endlich ist. Es gilt somit
Z Z Z
f dµ = fn dµ + (f − fn )dµ
Z Z
= fn dµ + (1En + 1Enc )(f − fn )dµ
Z Z Z
= fn dµ + 1En (f − fn )dµ + 1Enc (f − fn )dµ
Z Z Z
≤ fn dµ + fmax 1En dµ + ε 1Enc dµ
Z
≤ fn dµ + fmax µ(En ) + εµ(Ω)

für alle n und daher Z Z


f dµ ≤ lim fn dµ + εµ(Ω).
n→∞

Da dies für alle ε > 0 stimmt, folgt die umgekehrte Ungleichung und damit die Aussage des
Lemmas. 

Korollar 3.8
Seien (fn )n∈N ⊂ E mit 0 ≤ f1 ≤ f2 ≤ . . . und limn fn ≥ f ∈ E, wobei limn fn messbar ist, aber
nicht notwendigerweise in E liegt(!). Dann gilt:
Z Z
lim fn dµ ≥ f dµ.
n→∞

Beweis:
Mittels der Folge gn := fn ∧ f und fn ≥ gn ↑ f folgt die Aussage sofort aus Lemma 3.7 und
Korollar 3.6 (4), d. h. Z Z Z
lim fn dµ ≥ lim gn = f dµ.
n→∞ n→∞


Korollar 3.9
Seien (fn )n und (gn )n zwei aufsteigende Folgen in E. Sei weiter limn fn ≥ gm und limn gn ≥ fm
für alle m ∈ N (d. h. limn fn = limn gn , aber der Limes liegt nicht unbedingt in E), dann gilt
Z Z
lim fn dµ = lim gn dµ.
n→∞ n→∞

33
Beweis:
Mittels zweifacher Anwendung von Korollar 3.8 evident, d. h.
Z Z
lim fn dµ ≥ gm dµ für alle m,
n→∞

und damit Z Z
lim fn dµ ≥ lim gm dµ.
n→∞ m→∞

Ebenso für die umgekehrte Ungleichung. 


Definition 3.10
(1) Es bezeichne E ∗ die Menge aller numerischen Funktionen f ≥ 0 auf Ω, zu welchen eine
monotone aufsteigende Folge (fn )n∈N von Elementarfunktionen fn ∈ E existiert mit f =
supn fn = limn fn . Es ist klar, dass E ⊂ E ∗ .
(2) Sei g ∈ E ∗ und (fn )n∈N ⊂ E, fn ↑ g mit g = sup fn . Dann heißt
Z Z
gdµ := lim fn dµ
n→∞
R
das µ-Integral von g. gdµ ist nach Korollar 3.9 wohldefiniert und stimmt auf E mit Defi-
nition 3.5 überein.
Korollar 3.11
Seien f und g in E ∗ und α ∈ R+ . Dann gilt

(1) Dann
R sind auch R g, f g, f ∧ g und f ∨ g in E .
R α f, f +
(2) R (f + g)dµ =R f dµ + gdµ.
(3) α f dµ = α f dµ. R R
(4) Gilt f ≤ g, so folgt f dµ ≤ gdµ.

Beweis:
Folgt mittels Definition und Limesbildung aus Korollar 3.6. 

Ein wesentliches Hilfsmittel für die schon erwähnte Technik des Übertragens gewisser Eigen-
schaften von Funktionen aus E auf Funktionen aus E ∗ ist der folgende Satz:
Satz 3.12 (von der Monotonen Konvergenz von B. Levi)
Sei (fn )n∈N ⊂ E ∗ eine monoton wachsende Folge. Dann existiert f := lim fn ∈ E ∗ und es gilt
n→∞
Z Z Z
lim fn dµ = lim fn dµ = f dµ.
n→∞ n→∞

Beweis:
(m) (m)
Da fn ∈ E ∗ für jedes n ∈ N, gibt es je eine Folge (fn )m∈N ⊂ E mit fn ↑ fn für m → ∞ und
alle n ∈ N. Wir setzen
(m) (m)
hm := max(f1 , . . . , fm )
und bemerken, dass hm ∈ E ist als Maximum endlich vieler Elementarfunktionen. Außerdem
ist hm ≤ max(f1 , . . . , fm ) ≤ f sowie nach Definition hm ↑, und daher folgt auch limm hm ≤ f .
(m)
Es gilt aber nach Definition von hm auch fn ≤ hm für alle m ≥ n, und somit limm→∞ hm ≥

34
(m)
supm fn = fn . Daher folgt limm hm ≥ f , also folgt zusammen mit dem Vorhergehenden f ∈ E ∗ .
Für die Gleichheit der Integrale beobachten wir zunächst, dass aus f ≥ fn für alle n ∈ N
Z Z
lim fn dµ ≤ f dµ
n→∞

folgt. Andererseits ist (hm )m∈N eine Folge in E, die gegen f aufsteigt, also gilt
Z Z Z
f dµ = lim hm dµ ≤ lim fm dµ,
m→∞ m→∞

da fm ≥ hm für jedes m ∈ N. 
Korollar 3.13
Seien (fn )n∈N eine Folge in E ∗ und f := ∞ ∗
P
n=1 fn . Dann ist f ∈ E und es gilt:


Z X ∞ Z
X
fn dµ = fn dµ.
n=1 n=1

Beweis: P
Setze gn := nk=1 fk ↑ ∞
P
k=1 fk , und die Behauptung folgt aus Satz 3.12 und der Linearität des
Integrals. 

In Proposition 2.11 hatten wir gesehen, dass sich jede messbare Abbildung als Limes einer
Folge von Treppenfunktionen schreiben lässt. Daher ist E ∗ identisch mit der Menge aller A-
messbaren numerischen Funktionen f ≥ 0 auf Ω. Wenn wir nun eine beliebige messbare Funktion
integrieren wollen, gehen wir wie folgt vor: Wir stellen f dar als Summe zweier nichtnegativer
reellwertiger Funktionen
f = f + − f −,
wobei f + := f ∨ 0 ≥ 0 und f − := −(f ∧ 0) ≥ 0. Dann ist f messbar genau dann, wenn sowohl
f + als auch f − messbar sind.

Definition 3.14
Sei (Ω, A, µ) ein Maßraum. EineRnumerische Funktion f auf Ω heißt µ-integrierbar , falls sie
A-messbar ist und f + dµ sowie f − dµ endlich sind. In diesem Fall heißt
R

Z Z Z
f dµ := f dµ − f − dµ
+

das µ-Integral
R von f über Ω. R R
Statt f dµ schreiben wir auch f (ω)µ(dw) oder f (ω)dµ(ω).

Bemerkung 3.15
Für f ∈ E ∗ ist fR = f + , d. h. alle f ∈RE ∗ mit endlichem Integral sind integrierbar. Allgemeiner
kann man auch f + dµ = +∞ oder f − dµ = +∞ zulassen, aber nicht beides.

35
Definition 3.16 (Erwartungswert und Varianz)
Sei X eine numerische Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Ist dann
X ≥ 0 oder X P -integrierbar, so heißt
Z
EP (X) := X dP

der Erwartungswert von X. Für jede P -integrierbare reelle Zufallsvariable X heißt

VarP (X) := VP (X) := EP ((X − EP (X))2 )

die Varianz von X.


Bezeichnung 3.17
Wir bezeichnen mit L1 (µ) die Menge aller µ-integrierbaren Funktionen auf Ω mit Werten in R.
Mit L1 (µ) bezeichnen wir die Menge aller numerischen und µ-integrierbaren Funktionen auf Ω.

Proposition 3.18
Sei f : Ω → R messbar. Dann sind äquivalent:
(1) f ∈ L1 (µ).
(2) f + , f − ∈ L1 (µ).
(3) |f | ∈ L1 (µ).
(4) Es gibt u, v ∈ L1 (µ) mit u ≥ f + und v ≥ f − .
(5) Es gibt g ∈ L1 (µ) mit |f | ≤ g.

Beweis:
Übung. 
Korollar 3.19
L1 (µ)
R ist ein Vektorverband,
R d. h. für f, g ∈ L1 (µ) und α ∈ R gilt:
(1) R α f dµ = α Rf dµ. R
(2) (f + g)dµ = fR dµ + gdµ. R
(3) Aus f ≤ g folgt f dµ ≤ gdµ (Halbordnung).
(4) fR∧ g und fR ∨ g sind in L1 (µ) (Verbandseigenschaft).
(5) | f dµ| ≤ |f |dµ (Dreiecksungleichung).

Bemerkung 3.20
(1) Die Eigenschaften (1)–(2) aus 3.19 bedeuten, dass das Integral eine Linearform auf L1 (µ)
ist.
(2) Die Eigenschaften (1)–(3) gelten auch, falls das Integral von f, g nur für die Negativteile
f − , g − endlich ist und die Positivteile evtl. unendliches Integral haben.
Beispiel 3.21
(1) Seien (Ω, A) ein messbarer Raum und εa die Einheitsmasse in a ∈ Ω. Dann ist L1 (εa ) =
R
{ f : Ω → R : |f (a)| < +∞ }, und es gilt f dεa = f (a).
(2) Sei (Ω, A, µ) ein Maßraum mit endlichem Maß µ. Ist dann f : Ω → R beschränkt und
messbar, so ist f ∈ L1 (µ). R
(3) Sind
R R ν Maße auf (Ω, A), so ist L1 (µ + ν) = L1 (µ) ∩ L1 (ν), und es gilt f d(µ + ν) =
µ und
f dµ + f dν.

36
Proposition 3.22R
Es sei f ∈ E ∗ mit f dµ < +∞. Dann ist

µ({ f = ∞ }) = 0.

Beweis: R R
Es ist n · 1{ f =+∞ } ≤ f für alle n ∈ N. Also ist n · µ({ f = +∞ }) = n · 1{ f =+∞ } dµ ≤ f dµ <
+∞. Und daher ist µ({ f = +∞ }) = 0. 
Definition 3.23
Sei E eine Eigenschaft, sodass für alle ω ∈ Ω gilt: entweder besitzt ω die Eigenschaft E oder
nicht. Man sagt dann, E gilt µ-fast überall (kurz: f.ü. bzw. µ-f.ü.), falls es eine Menge N ∈ A
gibt mit µ(N ) = 0, sodass E für alle ω ∈ N c gilt. Man beachte, dass es nicht erforderlich ist,
dass die Menge N 0 ⊂ N aller ω ∈ Ω, welche die Eigenschaft E nicht besitzen, eine µ-Nullmenge
ist. Im Allgemeinen wird N 0 ⊂ N nicht zu A gehören.
Beispiel 3.24
(1) f ∈ L1 (µ) ist f.ü. endlich (nach Prop. 3.22).
(2) lim fn = f µ-f.ü. ⇔ µ({ ω : limn fn (ω) existiert nicht oder 6= f (ω) }) = 0. Die Menge, auf der
fn nicht konvergiert, kann auch als {ω ∈ Ω : lim inf n fn (ω) < lim supn fn (ω)} beschrieben
werden.
Satz 3.25
Für alle f ∈ E ∗ ist f dµ = 0 genau dann, wenn f = 0 µ-f.ü.
R

Beweis:
1
Sei An := { f > n
} ↑ {f > 0}. Dann gilt limn µ(An ) = µ({f > 0}). Da nun n1 1An ≤ f , gilt
Z Z
1 1
0 ≤ µ(An ) = 1A dµ ≤ f dµ.
n n n
R
Also folgt mit f dµ = 0, dass µ(An ) = 0 für alle n ∈ N gilt. Also haben wir µ({ f > 0 }) = 0.
Falls umgekehrt µ{ f > 0 } = 0 und f ∈ E ∗ ist, so wählen wir eine Folge (fn )n∈N ⊂ E, die
monoton
R gegen f aufsteigt. Es gilt mit fn ≤ f , dass µ({ fn > 0 }) = 0 für alle n ∈
R N, und daher
fn dµ = 0 für alle n ∈ N. Nach dem Satz über monotone Konvergenz gilt also f dµ = 0. 
Satz 3.26
Seien f und g zwei A-messbare numerische Funktionen auf Ω, und es sei f = g µ-f.ü. Dann
gilt:
(1) Sind f, g ∈ E ∗ , so ist f dµ =R gdµ. R
R R

(2) Ist f ∈ L1 (µ), so auch g und f dµ = gdµ.

Beweis:
(1): Wir zerlegen f = f 1{ f 6=g } + f 1{ f =g } und g = g 1{ f 6=g } + g 1{ f =g } . Dann ist
Z Z Z Z
f 1{ f 6=g } dµ = g 1{ f 6=g } dµ = 0 und f 1{ f =g } dµ = g 1{ f =g } dµ.

R ±f = g Rµ-f.ü.
(2): Mit ist auch f + = g + und f − = g − µ-f.ü. Nach Voraussetzung und Teil (1)
folgt f dµ = g ± dµ ∈ R+ und damit die Behauptung. 

37
Korollar 3.27
Sind f, g : Ω → R A-messbar und ist |f | ≤ g µ-f.ü., dann ist mit g auch f µ-integrierbar.

Beweis:
Wir setzen g 0 := |f | ∨ g. Dann ist g 0 messbar, g 0 = g µ-f.ü. und |f | ≤ g 0 . Nach Satz 3.26 ist g 0
µ-integrierbar und nach Proposition 3.18 dann auch f . 
Bemerkung 3.28
f = g µ-f.ü. induziert eine Äquivalenzrelation auf L1 (µ). Bezeichnet man den Quotientenraum
mit L1 (µ), so gibt es eine Korrespondenz zwischen Sätzen über L1 (µ) und Sätzen über L1 (µ).

Abschließend wollen wir noch eine wichtige Formel für die Integration bezüglich des Bildmaßes
betrachten, die besonders für wahrscheinlichkeitstheoretische Größen relevant ist, wo man sie
z. B. häufig für die Berechnung von Erwartungswerten und Varianzen verwendet.

Satz 3.29 (Transformationsformel)


Es seien (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein Messraum. Weiter sei T : (Ω, A) → (Ω0 , A0 )
eine messbare Abbildung und T (µ) das Bildmaß auf (Ω0 , A0 ). Sei f ∈ L1 (T (µ)). Dann gilt
f ◦ T ∈ L1 (Ω, A, µ) und Z Z
f ◦ T dµ = f dT (µ).

Beweis:
Übung. 

38
4 Konvergenzbegriffe und Konvergenzsätze

In diesem Kapitel sammeln wir fundamentale Konvergenzsätze und die insbesondere für die
Wahrscheinlichkeitstheorie relevanten Konvergenzbegriffe.

Zunächst geben wir eine allgemeinere Fassung von Satz 3.12:


Satz 4.1 (monotone Konvergenz)
Sei fn : Ω → R, n ∈ N, eine monoton wachsende Folge messbarer, numerischer Funktionen.
Wenn ein g ∈ L1 (µ) mit fn ≥ g für alle n existiert, so gilt
Z Z
lim fn dµ = lim fn dµ.
n→∞ n→∞

Beweis:
Wir wenden Satz 3.12 auf die Folge (fn − g)n∈N an. Es gilt fn − g ≥ 0. Da g integrierbar ist,
folgt mit (fn )− = −(fn ∧ 0) ≤ −(g ∧ 0) = g − , dass auch fn− und limn fn− integrierbar sind und
somit das Integral über fn und limn fn definiert ist (wenn auch evtl. gleich +∞). Es gilt
Z Z Z
lim fn dµ = lim ( (fn − g)dµ + gdµ)
n→∞ n→∞
Z Z Z
= lim (fn − g)dµ + g dµ = lim fn dµ,
n→∞ n→∞

da die Integrale aller Negativteile von g, fn , limn fn endlich sind und somit die Additivität des
Integrals auch bei evtl. unendlichem Integral der Positivteile wegen Bemerkung 3.20 (2) gültig
bleibt. 
Satz 4.2 (Lemma von Fatou)
Sei fn : Ω → R eine Folge messbarer, numerischer Funktionen, sodass es ein g ∈ L1 (µ) mit
fn ≥ g für alle n ∈ N gibt. Dann gilt
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→∞ n→∞

Beweis:
Setze f := lim inf n→∞ fn und gm := inf n≥m fn . Dann ist gm ↑ f , gm ≥ g, und daher nach Satz
4.1
Z Z
f dµ = lim gm dµ und weiter
m
Z Z
gm dµ ≤ fn dµ für alle n ≥ m,

39
da alle Negativteile der Funktionen gm und fn endliches Integral haben und somit auch die
letzte Ungleichung wegen Bemerkung 3.19 gilt. Folglich ist
Z Z
f dµ ≤ lim inf fn dµ.
n→∞


Bemerkung 4.3
Ähnlich gilt für eine Folge fn wie im Lemma von Fatou mit fn ≤ g ∈ L1 (µ)
Z Z
lim sup fn dµ ≥ lim sup fn dµ.
n→∞ n→∞

Man betrachtet anstatt fn die Folge (−fn ). Die Bedingung fn ≥ g (bzw. fn ≤ g) ist notwendig
(Übung).

Satz 4.4 (von der majorisierten Konvergenz von H. Lebesgue)


Sei (Ω, A, µ) ein Maßraum und (fn )n∈N ⊂ L1 (µ) eine fast überall gegen f konvergente Folge.
Weiter gebe es ein h ∈ L1 (µ), sodass |fn | ≤ h für alle n ∈ N. Dann gibt es zu eine zu f fast
überall äquivalente messbare Funktion f ∗ ∈ L1 (µ) mit
Z Z Z

f dµ = lim fn dµ = lim fn dµ.
n→∞ n→∞

Beweis:
Sei A ∈ A die messbare Menge, auf der fn nicht konvergiert. Dann ist f ∗ := limn fn 1Ac eine
messbare Funktion und die Menge {f 6= f ∗ } ist in A enthalten. Offensichtlich gilt |f ∗ | ≤ h, d. h.
f ∗ ist eine Funktion in L1 . Ferner gilt | lim supn fn | ≤ h, d. h. lim supn fn ist in L1 (µ).
Wir wenden zweimal das Fatou’sche Lemma an, da fn ≥ −h und fn ≤ h für alle n gilt, und
erhalten:
Z Z Z
lim inf fn dµ ≤ lim sup fn dµ ≤ lim sup fn dµ
n→∞
Zn→∞ Zn→∞ Z

= lim sup fn 1Ac dµ = f dµ = lim inf fn 1Ac dµ
n→∞ n→∞
Z Z
≤ lim inf fn 1Ac dµ = lim inf fn dµ,
n→∞ n→∞

da lim sup fn = lim sup fn 1Ac f.ü., lim inf fn = lim inf fn 1Ac f.ü., und Satz 3.26 (2) gilt.
n→∞ n→∞ n→∞ n→∞

Im Folgenden wollen wir nun verschiedene Arten diskutieren, auf die eine Folge (fn )n∈N von
Funktionen konvergieren kann. Genauer unterscheiden wir die folgenden Konvergenzbegriffe:
Definition 4.5
Seien (Ω, A, µ) ein Maßraum und (fn )n∈N eine Folge von A-messbaren und numerischen Funk-
tionen auf Ω und f eine weiter A-messbare, numerische Funktion auf Ω. Dann
f.ü.
(1) konvergiert (fn )n∈N µ-f.ü. gegen f (in Zeichen: fn −→ f ), falls es eine Menge N ∈ A mit
µ(N ) = 0 gibt, sodass für alle ω ∈ N c limn fn (ω) existiert und limn fn (ω) = f (ω) ist.

40
µ
(2) konvergiert (fn )n∈N µ-stochastisch gegen f für ein endliches Maß µ (in Zeichen: fn −→ f ),
falls für alle ε > 0 gilt:

lim µ({ ω : |fn (ω) − f (ω)| > ε }) = 0.


n→∞

Falls µ nicht endlich ist, so heißt fn gegen f µ-stochastisch konvergent, falls fn 1A gegen
f 1A µ-stochastisch konvergiert für alle A ∈ A mit µ(A) < ∞.
k·k
(3) konvergiert (fn )n∈N gegen f in der RL1 -Norm (in Zeichen: fn −→
1
f ), falls
1
limn kfn − f k1 = 0, wobei kf k1 := |f |dµ die sogenannte L -Norm ist.

Der folgende Satz gibt erste Beziehungen zwischen den obigen Konvergenzbegriffen.
Satz 4.6
(1) Konvergiert (fn )n∈N µ-f.ü. gegen f , so auch µ-stochastisch.
(2) Konvergiert (fn )n∈N in der L1 -Norm gegen f , so auch µ-stochastisch.

Beweis:
f.ü.
(1): Falls fn −→ f , so gibt es N ∈ A mit µ(N ) = 0, sodass fn −→ f auf N c . Seien A ∈ A
S µ(A) < ∞ und ε > 0 gegeben. Setze An := { ω ∈ A : |fn (ω) − f (ω)| > ε } und Bn :=
mit
Am = { ω ∈ A : ∃ m ≥ n : |fm (ω) − f (ω)| > ε }. Dann folgt Bn ↓ B, wobei B ⊂ N . Also ist
m≥n
limn µ(Bn ) = 0 und daher auch limn µ(An ) = 0.
Um (2) zu zeigen, stellen wir zunächst das folgende Lemma voran. 
Lemma 4.7 (Tschebyscheff-Ungleichung)
Sei f ∈ L1 , f ≥ 0, und ε > 0. Dann gilt (eine Form der Tschebyscheff-Ungleichung):
R
f dµ
µ({ ω ∈ Ω : f ≥ ε }) ≤ .
ε
Beweis von 4.7: Sei E := { ω : f ≥ ε }. Dann ist f ≥ ε · 1E , und daher folgt
Z Z
f dµ ≥ ε · 1E dµ = ε · µ(E).


Beweis von Satz 4.6 (2):
Es gilt nun nach der Tschebyscheff-Ungleichung
R
|fn − f |dµ
≥ µ({ ω : |fn − f | > ε }).
ε
Konvergiert nun fn in der L1 -Norm gegen f , so konvergiert die linke Seite für alle ε > 0 gegen
0, also auch die rechte Seite. 
Weitere Implikationen gelten nicht:
Bemerkung 4.8
(1) Aus der L1 -Konvergenz oder der stochastischen Konvergenz folgt i. A. nicht die f.ü.-Kon-
vergenz.

41
(2) Aus der f.ü.-Konvergenz oder der stochastischen Konvergenz folgt i. A. nicht die Konvergenz
in der L1 -Norm.

Beweis:
(1): Seien Ω = [0, 1] und λ das Lebesgue-Maß. Gegeben sei weiter eine Folge von Funktionen
1
(fn,k )n∈N, k≤2n := 1[ k−1 k . Dann ist kfn,k k = n −→ 0 für alle n ∈ N, aber lim sup fn,k (ω) = 1
2 n , n]
2 1 2 n→∞
und lim inf fn,k (ω) = 0 für alle ω ∈ [0, 1].
(2): Sei Ω = [0, 1] und λ das Lebesgue-Maß. Weiter sei fn := 2n · 1[0, 1n ] für jedes n ∈ N. Dann
R 2
ist fn dλ = 1 für alle n ∈ N, aber fn → 0 λ-f.ü. 
Eine genauere Analyse von Beispiel (1) deutet darauf hin, dass die stochastische Konvergenz
immerhin die f.ü.-Konvergenz gewisser Teilfolgen impliziert. Das ist Inhalt des folgenden Satzes.
Satz 4.9
Sei (Ω, A, µ) ein σ-endlicher Maßraum. Eine Folge (fn )n∈N A-messbarer reeller Funktionen kon-
vergiert genau dann µ-stochastisch gegen eine A-messbare reelle Funktion f , wenn aus jeder
Teilfolge von (fn )n∈N eine µ-fast überall gegen f konvergente Teilfolge ausgesondert werden
kann.

Beweis: Vgl. Bauer, Maß-W-Theorie, Satz 19.6.


„⇒“: Sei fn stochastisch konvergent und fnk eine Teilfolge. Diese ist aber wiederum stochastisch
konvergent. Es genügt also zu zeigen: Jede stochastisch konvergente Folge besitzt eine f.ü. kon-
vergente Teilfolge. Sei also (fn )n stochastisch gegen f konvergent. Wir konstruieren induktiv
eine Teilfolge (fnk )nk mittels

Ωk ↑ Ω mit µ(Ωk ) < +∞ für alle k


Ek := ω : |fnk (ω) − f (ω)| > k1 ∩ Ωk und


Wahl von nk ≥ nk−1 sodass µ(Ek ) ≤ 21k .


∞ S
f.ü. T
Zu zeigen bleibt: fnk −→ f . Setze E := Ek = lim supk Ek .
j=1k≥j

Dann gilt: a) ω ∈
/ E ⇒ fnk (ω) → f (ω) (klar) und b) µ(E) = 0, denn für jedes feste j0 gilt:
[ X 1
µ(E) ≤ µ( Ek ) ≤ −→ 0.
k j0 →∞
k≥j0 k≥j
2
0

„⇐“: Es gelte die Bedingung des Satzes. O.B.d.A. sei f ≡ 0. Ist fn nicht stochastisch konvergent,
so gibt es eine Teilfolge fnk von fn und δ, ε > 0, A ∈ A mit µ(A) < +∞ mit

(∗) µ(A ∩ {|fnk | > δ}) > ε für alle k.

Nach Voraussetzung existiert dann eine f.ü. konvergente Teilfolge fnk0 von fnk . Diese ist dann
auch stochastisch konvergent im Widerspruch zu (∗).  

Ebenso wie bei der f.ü.-Konvergenz können wir uns für die L1 -Konvergenz fragen, ob sie nicht
in speziellen Fällen durch stochastische Konvergenz impliziert wird. Dies führt auf die folgende
Begriffsbildung. Dazu sei im Folgenden (Ω, A, µ) wieder ein beliebiger Maßraum.

42
Bemerkung 4.10 (Rechenregeln)
Zunächst wollen wir an einige Rechenregeln erinnern. Es gilt:
(a) Seien A, B zwei
R R Mengen mit A ∩ B = ∅ und sei f eine integrierbare Funktion.
messbare
Dann gilt mit A f dµ := 1A f dµ
Z Z Z
f dµ = f dµ + f dµ,
A∪B A B

da 1A∪B f = 1A f + 1B f gilt.
(b) Sei f ≥ 0 eine integrierbare Funktion und seien A, B zwei messbare Mengen mit A ⊂ B.
Dann gilt Z Z
f dµ ≤ f dµ,
A B

da 1A f ≤ 1B f ist.
(c) Seien f, g zwei integrierbare Funktionen, so dass f ≤ g und sei A eine messbare Menge.
Dann gilt: Z Z
f dµ ≤ gdµ,
A A

da 1A f ≤ 1A g ist.
Definition 4.11
Eine Familie { fi , i ∈ I } µ-integrierbarer Funktionen heißt gleichmäßig oder gleichgradig µ-
integrierbar, falls es zu jedem ε > 0 ein h ∈ L1 (µ), h ≥ 0, gibt mit
Z
|fi | dµ < ε für alle i ∈ I.
{ |fi |≥h }

Beispiel 4.12
(1) Ist |I| < ∞, so ist { fi , i ∈ I } gleichmäßig µ-integrierbar, falls alle fi µ-integrierbar sind.
Wähle h := max{2|fi |, i ∈ I} in Definition 4.11
(2) Ist eine Familie { fi , i ∈ I } µ-integrierbarer Funktionen gleichmäßig dominiert, d. h. es gibt
ein g ∈ L1 (µ) mit |fi | ≤ g für alle i ∈ I, so ist diese Familie gleichmäßig µ-integrierbar.
Wähle z. B. h := 2g in Definition 4.11.

Bemerkung 4.13
Ist µ endlich, so ist {fi , i ∈ I} gleichmäßig µ-integrierbar genau dann, wenn
Z
lim sup |fi |dµ = 0.
k→∞ i∈I {|fi |>k}

Beweis:
„⇐“ ist trivial, denn für ein endliches µ ist die konstante Funktion k integrierbar.
„⇒“: Da { fi , i ∈ I } gleichmäßig µ-integrierbar ist, gibt es zu jedem ε > 0 ein hε ∈ L1 (µ),
sodass Z
sup |fi | dµ < ε.
i∈I { |fi |>hε }

43
Also ist für alle i ∈ I
Z Z Z
|fi | dµ = |fi | dµ + |fi | dµ
{ |fi |>k } { hε ≥|fi |>k } { |fi |>k∨hε }
Z Z
≤ hε dµ + |fi | dµ.
{ hε >k } { |fi |>hε }

Da hε 1{ hε >k } ↓ 0 für k → ∞, folgt mit Hilfe des Satzes über die monotone Konvergenz
Z
lim hε dµ = 0
k→∞ { hε >k }

und somit die Behauptung, denn die obige Abschätzung ist unabhängig von i ∈ I und gilt für
jedes beliebige ε > 0. 
Nunmehr ergibt sich die folgende Verallgemeinerung des Lebesgue’schen Satzes von der majo-
risierten Konvergenz:
Satz 4.14
Sei f und (fn )n∈N in L1 (µ). Dann sind äquivalent:
(1) Die Folge (fn )n∈N konvergiert in der L1 (µ)-Norm gegen f .
(2) Die Folge (fn )n∈N konvergiert µ-stochastisch gegen f und ist gleichmäßig µ-integrierbar.

Beweis:
Vergl. Bauer, Maß-W-Theorie, Satz 20.4. Wir benötigen für den Beweis zunächst die folgenden
Ergebnisse:
Lemma 4.15
Sei g ∈ L1 (Ω, A, µ), g ≥ 0. Dann gibt es für alle ε > 0 ein δ > 0, sodass für alle B ∈ A mit
µ(B) < δ gilt Z
ν(B) := gdµ < ε.
B

Die Abbildung B 7→ ν(B) ist ein endliches Maß auf (Ω, A).

Beweis:
R ↓ 0 für c → ∞, gibt es wegen des Satzes über die monotone Konvergenz ein 0 < c <
Da g 1{g>c}
+∞ mit {g>c} gdµ < ε/2. Setze δ := 2cε . Dann
Z Z Z
gdµ = gdµ + gdµ
B B∩{g≤c} B∩{g>c}
Z
≤ c · µ(B) + gdµ ≤ ε/2 + ε/2.
{g>c}

Ferner ist ν ein endliches Maß auf (Ω, A) (Übung). 


Weiterhin benötigen wir:

44
Lemma 4.16
Eine Folge (fn )n∈N , fn ≥ 0, ist gleichmäßig µ-integrierbar genau dann, wenn es zu jedem ε > 0
ein hε ∈ L1 (µ), hε ≥ 0 gibt mit Z
(fn − hε )+ dµ < ε

für alle n ∈ N. Ist µ endlich, so kann hε konstant gewählt werden mit hε ↑ ∞ für ε ↓ 0.

Beweis: R R
Aus (fn − hε )+ ≤ fn und {fn >hε } fn dµ ≥ {fn >hε } fn − hε dµ folgt sofort die eine Richtung, wobei
wir im Falle µ endlich Bemerkung 4.13 verwenden.
Sei nun die Bedingung von Lemma 4.16 erfüllt, d. h.
Z
(fn − hε )+ dµ < ε/2.

Dann gilt für k ∈ N


Z Z Z Z
1 1 + 1
hε dµ ≤ fn dµ ≤ (fn − hε ) dµ + hε dµ
{fn ≥khε } k {fn ≥khε } k k {fn ≥khε }
Z
1ε  ε
≤ + hε dµ ≤ für k groß genug.
k 2 2
| {z }
=C

Aus Integration von fn ≤ (fn − hε )+ + hε über {fn ≥ khε } folgt dann unmittelbar die Behaup-
tung. 
Nun zum
Beweis von 4.14:
„(1) ⇒ (2)“: Wir wissen bereits, dass L1 -Konvergenz stochastische Konvergenz impliziert.
Zu zeigen bleibt, dass {fn , n ∈ N} gleichmäßig integrierbar ist. kfn − f k1 → 0 impliziert
k|fn | − |f |k1 → 0 (denn |fn − f | ≥ ||fn | − |f ||); also sei o.B.d.A. fn , f ≥ 0. Ist nun ε > 0
gegeben, so gilt wegen Z Z
(fn − f )+ dµ ≤ |fn − f |dµ

und kfn − f k1 → 0, dass


Z
(∗) (fn − f )+ dµ < ε für alle n ≥ n0 (ε).
Pn0
Setze nun h := f + i=1 fi . Dann ist (wegen fn ≤ h für n ≤ n0 und (∗))
Z
(fn − h)+ dµ < ε

für alle n ∈ N, d. h. wegen Lemma 4.16 die Behauptung.


„(2) ⇒ (1)“: O.B.d.A. sei fn ≥ R 0 und f += 0. Nun gibt es zu jedem ε > 0 Rwegen Lemma
1
4.16 ein hε ∈ L , hε ≥ 0, mit (fn − hε ) < ε für alle n ∈ N. O.B.d.A. ist hε dµ > 0 für
ein ε > 0 (sonst ist hε ≡ 0 f.ü. und für alle ε > 0 und das gewünschte Resultat ist schon

45
R
erreicht). Zu diesem hε gibt es eine Menge A ∈ A mit µ(A) < +∞ und Ac hε dµ < . (Um
das einzusehen, setzen wir A := Aδ := R{hε > δ} für ein später zu bestimmendes δ > 0. Dann
gilt Acδ ↓ {hε = 0} für δ ↓ 0 und daher Ac hε dµ → 0 wegen monotoner Konvergenz und ferner
R R δ
∞ > hε dµ ≥ hε 1Aδ dµ ≥ δµ(Aδ ). Wähle also δ geeignet.) Nun tragen wir die Argumente
R
zusammen: Nach 4.15 gibt es ein δ > 0, sodass für alle B ∈ A mit µ(B) < δ gilt B hε dµ < ε.
µ
Da fn → 0, gibt es ferner ein n0 , sodass für

Bn := {ω ∈ Ω : fn (ω) > ε/µ(A)} gilt

µ(A ∩ Bn ) < δ für alle n ≥ n0 .


Also:
Z Z Z
fn dµ = fn dµ + fn dµ
A c
A∩Bn A∩Bn
Z Z Z
≤ fn dµ + hε dµ + (fn − hε )+ dµ
c
A∩Bn A∩Bn A∩Bn
ε
≤ · µ(A) + ε + ε = 3ε.
µ(A)

Weiter ist Z Z Z
fn dµ ≤ hε dµ + (fn − hε )+ dµ ≤ 2ε.
Ac Ac Ac
Also insgesamt Z Z Z
fn dµ = fn dµ + fn dµ < 5ε für alle n ≥ n0 .
A Ac

Sei I ⊂ R ein Intervall und f : I × Ω → R eine Funktion, sodass für alle festen x ∈ I die
Funktion ω 7→ f (x,
R ω) integrierbar sei. Wir wollen uns im Folgenden mit den parameterabhän-
gigen Integralen Ω f (x, ω)µ(dω) =: F (x) beschäftigen. Dabei untersuchen wir insbesondere,
unter welchen Bedingungen sich Stetigkeits- und Differenzierbarkeitseigenschaften von f auf
die Funktion x 7→ F (x) übertragen.

Satz 4.17 (Stetigkeit parameterabhängiger Integrale)


Sei X ein metrischer Raum und f : X × Ω → R eine Funktion mit folgenden Eigenschaften:
(1) Für alle x ∈ X ist f (x, ·) ∈ L1 (µ).
(2) Für µ-f.a. ω ∈ Ω ist f (·, ω) stetig im Punkt x0 ∈ X.
(3) Es gibt eine Umgebung U von x0 und eine integrierbare Funktion g ≥ 0, sodass für alle
x ∈ U gilt: |f (x, ·)| ≤ g µ-f.ü.
Dann ist die Funktion F : X → R,
Z
F (x) := f (x, ω)µ(dω)

stetig im Punkte x0 ∈ X.

46
Beweis:
Sei (xn )n∈N eine Folge von Punkten aus U mit limn→∞ xn = x0 . Dann folgt die Behauptung
durch Anwendung des Satzes von der majorisierten Konvergenz 4.4 auf die Funktionenfolge
fn := f (xn , ·), n ∈ N. 

Satz 4.18 (Differenzierbarkeit parameterabhängiger Integrale)


Sei I ⊂ R ein Intervall, x0 ∈ I und f : I ×Ω → R eine Funktion mit folgenden Eigenschaften:
(1) Für alle x ∈ I ist f (x, ·) ∈ L1 (µ).
(2) Die partielle Ableitung ∂f ∂x
(x0 , ω) existiert für alle ω ∈ Ω.
(3) Es gibt eine Umgebung U von x0 und eine integrierbare Funktion g ≥ 0, sodass für alle
x ∈ U ∩ I, x 6= x0 gilt
f (x, ω) − f (x0 , ω)
≤ g(ω) µ-f.ü.
x − x0
Dann ist die Funktion F : I → R,
Z
F (x) := f (x, ω)µ(dω)

(ggf. einseitig) differenzierbar im Punkte x0 ∈ X, ∂f∂x


(x0 , ·) ist integrierbar, und es gilt
Z
0 ∂f
F (x0 ) = (x0 , ω)µ(dω) .
Ω ∂x

Die Aussage des Satzes bleibt bestehen, falls man die Voraussetzungen (2) und (3) ersetzt durch

(4) Es gibt ein δ > 0, sodass die partielle Ableitung ∂f ∂x


(x, ω), ω ∈ Ω, für alle x ∈ U :=
(x0 − δ, x0 + δ) ∩ I existiert.
(5) Es gibt eine integrierbare Funktion g ≥ 0, sodass für alle x ∈ U und alle ω ∈ Ω gilt

∂f
(x, ω) ≤ g(ω) .
∂x

Beweis:
Sei (xn )n∈N eine Folge von Punkten aus U mit limn→∞ xn = x0 sowie xn 6= x0 für alle n ∈ N.
Dann folgt die Behauptung unter den Voraussetzungen (1)–(3) durch Anwendung des Satzes
von der majorisierten Konvergenz 4.4 auf die Funktionenfolge fn := (f (xn , ·) − f (x0 , ·))/(xn −
x0 ), n ∈ N. Ersetzen wir (2) und (3) durch (4) und (5), so liefert der Mittelwertsatz der
Differentialrechnung zu jedem n ∈ N und jedem ω ∈ Ω ein (i. A. von ω abhängiges!) x0n ∈ U ,
sodass
∂f 0
|fn (ω)| = (xn , ω) ≤ g(ω) .
∂x
Die Behauptung folgt dann erneut aus dem Satz von der majorisierten Konvergenz. 

47
48
5 Funktionenräume

Wir betrachten nun die Räume mehrfach integrierbarer Funktionen und ihre Struktur.

Sei fortan (Ω, A, µ) ein Maßraum. Für eine messbare, numerische Funktion f auf Ω und
1 ≤ p < ∞ setze
Z
kf kp := ( |f |p dµ)1/p und
kf k∞ := inf{ α > 0 : µ(|f | > α) = 0 },
wobei wir inf ∅ := ∞ setzen.
Für 1 ≤ p ≤ ∞ sei weiter Lp (µ) die Menge der A-messbaren, numerischen Funktionen f , für
die kf kp < +∞ ist. Man spricht auch von der Menge der p-fach µ-integrierbaren Funktionen.
Satz 5.1
Seien f und g zwei A-messbare, numerische Funktionen. Dann gilt:
(1) (Hölder’sche Ungleichung) Für 1 ≤ r, p, q ≤ ∞ mit 1r = p1 + 1q gilt

kf gkr ≤ kf kp kgkq .
(2) (Minkowski-Ungleichung) Es sei f + g wohldefiniert und sei 1 ≤ p ≤ +∞ Dann gilt
kf + gkp ≤ kf kp + kgkp .
(3) Ist µ(Ω) < +∞, so gilt für 1 ≤ p ≤ q ≤ ∞ stets Lq ⊂ Lp sowie
1
kf kp ≤ µ(Ω) s kf kq ,
1 1
wobei s
+ q
= p1 .

Beweis:
(1): O.B.d.A. wählen wir q < +∞ und f und g nichtnegativ. Für x ≥ 1 und r ≤ p gilt
r r r
xr/p ≤ 1 + (x − 1) = x + ,
p p q
denn für x = 1 stimmt die Ungleichung, und die linke Seite steigt langsamer als die rechte
Seite, d. h. die Ableitung der linken Seite ist immer kleiner als die der rechten Seite. Integration
über die Ableitungen liefert dann die Behauptung für x ≥ 1. Für α ≥ β > 0 setze in dieser
Ungleichung x = αβ und multipliziere beiderseits mit β. Dann folgt
r r r r
αp β q ≤ α + β (geometrisches-arithmetisches Mittel-Ungl.).
p q

49
Diese Ungleichung ist in α und β symmetrisch, darum kann auf die Voraussetzung α ≥ β
verzichtet werden. Im Falle von β = 0 oder α = 0 ist die Ungleichung trivialerweise richtig.
O.B.d.A. sei kf kpp ≥ kgkqq > 0, andernfalls ist die Ungleichung (1) trivial. (Denn ist kgkqq = 0,
so ist g = 0 µ -fast überall und
p
somit ist auch f g = 0 µ-fast überall. Dann gilt aber auch
g q (ω)
kf gkr = 0.) Setzen wir α = fkf(ω)
kp
und β := kgkq
, so folgt
p q

(f · g)r (ω) r f p (ω) r g q (ω)


r r ≤ +
kf kp kgkq p kf kpp q kgkqq

für alle ω ∈ Ω. Nach µ-Integration folgt somit


p q
kf · gkrr r kf kp r kgkq
r r ≤ + = 1,
kf kp kgkq p kf kpp q kgkqq

also kf · gkr ≤ kf kp · kgkq .


(2): O.B.d.A. seien f und g nichtnegativ, denn kf + gkp ≤ k|f | + |g|kp . Weiter sei p < +∞.
Da (f + g)p ≤ 2p (f ∨ g)p ≤ 2p (f p + g p ) < +∞, folgt kf + gkp < ∞. Dann erhält man mit
Hölder-Ungleichungen mit r = 1 = p1 + p/(p−1)
1

Z
kf + gkpp = (f + g)p dµ
Z Z
p−1
= f (f + g) dµ + g(f + g)p−1 dµ

≤ kf + gkpp−1 (kf kp + kgkp ),

denn es gilt z.B.


Z Z 1/p Z  p−1
p
p
p−1 p (p−1) p−1
f (f + g) dµ ≤ f dµ (f + g) dµ .

Nach Division der vorletzten Ungleichung durch kf + gkp−1 p (wobei o.E. kf + gkp−1
p 6= 0, da
sonst die Ungleichung trivialerweise gilt) folgt die Behauptung.
(3): Es ist
Z Z Z
p p
kf kp = |f | dµ = p
|f | dµ + |f |p dµ ≤ µ(Ω) + kf kqq ,
{|f |≤1} {|f |>1}

1 1
also Lq ⊆ Lp . Ist nun s, sodass s
+ q
= p1 , so folgt

kf kp = kf · 1kp ≤ k1ks kf kq = µ(Ω)1/s kf kq .


Somit ist k·kp eine Halbnorm.
Weiter sei Lp := Lp /(f.ü. = ) der Quotientenraum bezüglich der µ-fast überall-Gleichheit.
Er wird in natürlicher Weise zu einem normierten Raum mittels der kanonischen Abbildung
(Übung). Dann ist kf kp , 1 ≤ p ≤ ∞, die p-Norm von f .

50
Bemerkung 5.2
Lq ⊂ Lp liegt dicht für 1 ≤ p ≤ q für µ endlich.
Es reicht, die Behauptung im Fall q = ∞ zu zeigen. Benutze 4.13 für µ endlich und eine
Funktion, d. h. I ist einelementig.

Wir führen für die obigen Beispiele allgemeine Begriffe ein:


Definition 5.3
(1) Ein normierter Vektorraum E ist ein Vektorraum über K = C, R, versehen mit einer Norm-
Funktion k·k, sodass für alle x, y ∈ E, α ∈ K gilt
(a) kxk ≥ 0,
(b) kxk = 0 genau dann, wenn x = 0,
(c) kαxk = |α| kxk ,
(d) kx + yk ≤ kxk + kyk .
(2) E heißt vollständig oder Banachraum, falls jede Norm-Cauchy-Folge aus E gegen ein Ele-
ment von E konvergiert.
(3) Ein Vektorraum E über K heißt Prä-Hilbertraum, falls es ein inneres Produkt hx, yi auf
E × E mit Werten in K gibt, sodass für alle x, y, z ∈ E, α, β ∈ K gilt
(a) hx, xi ≥ 0, hx, xi = 0 genau dann, wenn x = 0,
(b) hαx + βy, zi = αhx, zi + βhy, zi,
(c) hx, yi = hy, xi,
wobei der Querstrich die konjugiert
p komplexe Zahl bedeutet.
E versehen mit x → kxk := hx, xi ist ein normierter Vektorraum (Übung).
(4) Ein Prä-Hilbertraum, der bezüglich der vom Skalarprodukt induzierten Norm vollständig
ist, heißt Hilbertraum.
Proposition 5.4
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Auf der Menge Z aller Zufallvariablen induziert
X ∼ Y ⇔ X = Y P -f.ü. eine Äquivalenzrelation. Bezeichne mit Z den Quotientenraum von Z
modulo ∼. Für Zufallsvariablen X und Y aus Z sei
|X − Y |
d(X, Y ) := EP ( ).
1 + |X − Y |
Dann ist (Z, d) ein metrischer Raum und in Z ist die Konvergenz einer Folge von Zufallsvariablen
(Xn )n∈N P -stochastisch gegen eine Zufallsvariable X äquivalent zu d(Xn , X) → 0.

Beweis:
Übung.
Hinweis: Zeige (a + b)/(1 + a + b) ≤ a/(1 + a) + b/(1 + b) für a, b ≥ 0 und verwende |X − Y | >
|X−Y |
ε ⇔ 1+|X−Y |
> ε/(1 + ε). 

Proposition 5.5
(1) Sei fn ∈ Lp (Ω, A, µ), ∞ > p ≥ 1, fn ≥ 0. Dann gilt

X ∞
X
|| fj ||p ≤ ||fj ||p .
j=1 j=1

51
(2) Dominierte Konvergenz in Lp :
Sei g ∈ Lp (Ω, A, µ), p ≥ 1, |fn | ≤ g für alle n, und limn fn (ω) existiere für µ-fast alle ω.
Dann gibt es ein f ∈ Lp (Ω, A, µ) und limn fn = f µ-f.ü. mit
n→∞
||fn − f ||p −−−→ 0.

Beweis:
(1) Es gilt

||f1 + · · · + fn ||p ≤ ||f1 ||p + · · · + ||fn ||p


X∞
(?) ≤ ||fj ||p .
j=1
Pn
limn j=1 fj existiert und wegen montoner Konvergenz erhalten wir
Z Xn Z X∞
p
lim ( fj ) dµ = ( fj )p dµ
n→∞
j=1 j=1

woraus mit (?) die Behauptung (1) folgt.


(2) Aus g ∈ Lp folgt |g(ω)| < ∞ für alle ω ∈/ N1 , µ(N1 ) = 0. Ferner existiert limn fn (ω) für alle
ω∈/ N2 , µ(N2 ) = 0. Setze
(
limn fn (ω) ω∈/ N1 ∪ N2
f (ω) :=
0 sonst.
n→∞
Aus g p ∈ L1 folgt |f |p ∈ L1 , d. h. f ∈ Lp . Ferner gilt für gn := |fn − f |p , dass gn −−−→ 0 µ-f.ü.
und
gn ≤ (|fn | + |f |)p ≤ (g + |f |)p ∈ L1 .
Wegen des Satzes über dominierte Konvergenz folgt
Z
lim gn dµ = 0,
n→∞

d. h. kfn − f kp → 0. 

Satz 5.6 (von Fischer-Riesz)


(1) Die Räume Lp (µ) sind für jedes 1 ≤ p ≤ ∞ Banachräume, d. h. vollständige, normierte
Vektorräume. R
(2) Der Raum (L2 (µ), || · ||2 ) mit dem Skalarprodukt hf, gi := f g dµ ist ein Hilbertraum.

Beweis:
(1): Zu zeigen ist die Vollständigkeit.
1. Fall: p = ∞. Sei (fn )n∈N eine Cauchy-Folge. Dann existiert (nach Definition der ∞-Norm)
eine Folge (Nn,m ) von Nullmengen, sodass
c
|fn (ω) − fm (ω)| ≤ kfn − fm k∞ für alle ω ∈ Nn,m .

52
S
Setzen wir N := Nn,m , so ist µ(N ) = 0 und für alle ω ∈
/ N ist fn (ω) eine Cauchy-Folge. Also
n,m
existiert eine Funktion f , sodass fn (ω) → f (ω) und sogar |fn (ω) − f (ω)| < ε gleichmäßig in
ω ∈ N c für alle n ≥ n(ε). Somit folgt kfn − f k∞ < ε für alle n ≥ n0 (ε).
2. Fall: p < ∞. Sei (fn )n∈N eine Lp (µ)-Cauchy-Folge. Zu jedem k existiert dann ein nk > nk−1 ,
sodass für alle j ≥ nk gilt
fn − fn < 2−k

k j p

und damit
fn − fn < 2−k .

k k+1 p

Wir setzen nun ∞


X
h := |fn1 | + |fnk+1 − fnk |.
k=1

Dann folgt aus Proposition 5.5 (1)


Z ∞
p
1/p X
h dµ ≤ kfn1 kp + fn − fn < ∞.
k+1 k p
k=1

Damit folgt aber h < ∞ µ-fast sicher und



X
|fnk+1 (ω) − fnk (ω)| < ∞
k=1

für µ-fast alle ω, d. h. fnk (ω) ist µ-f.ü. eine Cauchy-Folge in Bezug auf den gewöhnlichen Betrag
in R, denn
2 −1
kX
|fnk1 (ω) − fnk2 (ω)| ≤ |fnj+1 (ω) − fnj (ω)| → 0
j=k1

für k1 , k2 → ∞. Also liefert die Vollständigkeit von R die µ-f.ü.-Existenz eines f (ω) mit

lim fnk (ω) = f (ω).


k→∞

Da nun wegen der Dreiecksungleichung und Definition von h |fnk | < h für alle k ∈ N gilt,
k→∞
folgt aus dem Satz über majorisierte Konvergenz 5.5 (2), dass kfnk − f kp −−−→ 0, also auch
kfn − f kp → 0, da fn eine Cauchy-Folge in Lp (µ) ist. 

53
54
6 Endliche Produktmaße

Im folgenden Kapitel soll die Existenz und Eindeutigkeit von endlichen Produktmaßen sowie
die Integration bezüglich solcher Produktmaße untersucht werden.

Zunächst sei das Produkt einer Familie von Mengen erklärt.

Definition 6.1
Sei {Ωi , i ∈ I} eine beliebige Familie von Mengen. Dann ist
O 
Ω := Ωi := (ωi )i∈I : ωi ∈ Ωi , i ∈ I
i∈I

das Produkt der Räume Ωi . Falls die Ωi identisch sind, also Ωi = Ω0 für alle i ∈ I, dann
S ist
I
Ω := Ω0 . Man kann die Elemente des Produktes beliebiger Ωi als Funktionen ω : I → i∈I Ωi
auf der Indexmenge I auffassen. Ist I endlich, so ist
n
O 
Ω= Ωi = Ω1 × · · · × Ωn = (ω1 , . . . , ωn ) : ωi ∈ Ωi , 1 ≤ i ≤ n .
i=1

Definition
N 6.2
Sei Ω = i∈I Ωi . Dann heißt die Abbildung Xi : Ω → Ωi mit ω 7→ ωi die i-te N
Koordinaten-
abbildung oder Projektion auf Ωi . Für eine Teilmenge J ⊂ I heißt XJ : Ω → j∈J Ωj mit
ω 7→ ω|J := (ωj )j∈J Einschränkung von ω auf J.

Definition 6.3
−1
N S
Seien (Ωi , Ai ), i ∈ I, messbare Räume. Dann heißt i∈I Ai := A( i∈I Xi (Ai )) Produkt-σ-
 σ-Algebra, bezüglich derer alle
Algebra. Dies ist die kleinste Xi messbar sind. Ist |I| < ∞, so
heißt A = A1 × · · · × An = (ω1 , . . . , ωn ) : ωi ∈ Ai , i ∈ I (messbares) Rechteck, falls Ai ∈ Ai
für alle i ∈ I.
Proposition 6.4
Sei I = {1, . . . , n} und Ei ein Erzeuger von Ai in Ωi . Weiter gebe es für jedes i eine Folge
(Eik )k∈N in Ei mit Eik ↑ Ωi . Dann ist

E1 × · · · × En , Ei ∈ Ei , 1 ≤ i ≤ n

ein Erzeuger für ni=1 Ai .


N

55
Beweis:
Wir betrachten nur den Fall n = 2, der Rest folgt durch vollständige Induktion. Sei A0 die
kleinste σ-Algebra, die alle Mengen E1 × E2 , Ej ∈ Ej , j = 1, 2 enthält. Sei A2 ∈ E2 beliebig und
−1
E1k ↑ Ω1 , ES1k ∈ E1 . Sei X2 die Projektion auf die zweite Koordinate. Dann folgt X2 (A2 ) =
∞ 0 −1 −1
Ω1 × A2 = k=1 (E1k × A2 ) ∈ A . Da X2 (A2 ) die kleinste σ-Algebra ist, die X2 (E2 ) enthält
(Übung), gilt Ω1 × A2 ∈ A0 für alle A2 ∈ A2 . Ähnliches gilt bei Vertauschung der Koordinaten,
woraus (A1 × Ω2 ) ∩ (Ω1 × A2 ) = A1 × A2 ∈ A0 für alle Aj ∈ Aj , j = 1, 2 und damit A0 ⊃ A1 ⊗ A2
folgt.
Da X1−1 (E1 ) ∩ X2−1 (E2 ) = E1 × E2 , gilt A0 ⊂ A1 ⊗ A2 und somit die gewünschte Gleichheit. 

Bemerkung 6.5
Auf die Einschränkung in der vorausgegangenen Proposition 6.4 lässt sich nicht verzichten:
Zum Beispiel sei A1 = {∅, Ω}, E1 = {∅} und E2 = A2 = ∅, A, Ac , Ω für ein mindestens
zweielementiges Ω, wo A 6= ∅ und A 6= Ω. Dann bildet das System der Mengen ∅ × A = ∅
offenbar keinen Erzeuger von A1 ⊗ A2 .

Proposition 6.6
Seien Ri , i = 1, . . . , k, k ≥ 2, Ringe. Dann gilt:
(1) Das System R der endlichen Vereinigungen von Rechtecken der Form A1 × · · · × Ak mit
Ai ∈ Ri ist wieder ein Ring.
(2) Jedes A ∈ R ist disjunkte Vereinigung von Rechtecken A1 × · · · × Ak mit Ai ∈ Ri .

Beweis:
Teil (2) folgt sofort aus Lemma 1.11. Wir zeigen die Behauptung (1) nur für k = 2. Der
allgemeine Fall folgt durch vollständige Induktion. Seien A1 = E1 × F1 und A2 = E2 × F2
Rechtecke mit Ei ∈ R1 bzw. Fi ∈ R2 . Dann kann man A1 ∪ A2 bzw. A1 \ A2 als disjunkte
Vereinigung von höchstens 7 bzw. 3 Rechtecken der Gestalt (E1 \ E2 ) × (F1 \ F2 ), d. h. von
Mengen aus R, darstellen. Wegen A \ (B ∪ C) = (A \ B) \ C folgt durch Induktion sofort, dass
die Differenz- und Vereinigungsstabilität auch für endliche Vereinigungen von Rechtecken gilt.


Im Folgenden wollen wir zunächst das Produkt zweier Maßräume studieren. Die entsprechenden
Aussagen über endliche Produkte folgen dann mittels vollständiger Induktion.
Definition 6.7
Seien (Ωi , Ai , µi ), i = 1, 2 zwei Maßräume. Für jede Menge Q ⊂ Ω1 × Ω2 und jedes ωi ∈ Ωi heißt

Qω1 := { ω2 ∈ Ω2 : (ω1 , ω2 ) ∈ Q } ω1 -Schnitt von Q und


Qω2 := { ω1 ∈ Ω1 : (ω1 , ω2 ) ∈ Q } ω2 -Schnitt von Q.

Für eine Abbildung X : Ω1 × Ω2 → Ω0 in eine beliebige Menge Ω0 definieren wir die entspre-
chenden Schnittabbildung als

Ω2 3 ω2 →
7 Xω1 (ω2 ) := X(ω1 , ω2 ) und
Ω1 3 ω1 → 7 Xω2 (ω1 ) := X(ω1 , ω2 ).

56
Satz 6.8
Für Q ∈ A1 ⊗ A2 und ωi ∈ Ωi , i = 1, 2, ist Qω1 ∈ A2 und Qω2 ∈ A1 . Ist (Ω0 , A0 ) ein weiterer
Messraum und ist X : Ω1 × Ω2 → Ω0 eine A1 ⊗ A2 -A0 -messbare Abbildung, so ist Xω1 A2 -A0 -
messbar und entsprechend Xω2 A1 -A0 -messbar.

Beweis:
Für Q, Q1 , Q2 , · · · ⊂ Ω := Ω1 × Ω2 und ω1 ∈ Ω1 gilt

(Ω \ Q)ω1 = Ω2 \ Qω1 ,
(∪n Qn )ω1 = ∪n (Qn )ω1 ,
Ωω1 = Ω2 und
(
A2 ω1 ∈ A1 ,
(A1 × A2 )ω1 =
∅ sonst

(Ai ⊂ Ωi , i = 1, 2). Folglich ist A0 := { Q ⊂ Ω1 ×Ω2 , Qω1 ∈ A2 } eine σ-Algebra, die alle Mengen
A1 × A2 mit Ai ∈ Ai , i = 1, 2, enthält. Nun ist aber nach Definition der Produkt-σ-Algebra
A1 ⊗ A2 die kleinste alle derartigen Mengen enthaltende σ-Algebra, woraus A1 ⊗ A2 ⊂ A0 und
die Behauptung folgt. Ferner ist für jede Menge A0 ∈ A0

Xω−1
1
(A0 ) = (X −1 (A0 ))ω1 ∈ A2 ,

und somit gilt auch der zweite Teil der Behauptung. 


Aus den stochastischen Methoden ist der Begriff der Übergangswahrscheinlichkeit z. B. bei
Markoff-Ketten bekannt. Die folgende Definition verallgemeinert diese Begriffsbildung:

Definition 6.9
Seien (Ωi , Ai ), i = 1, 2, zwei messbare Räume. Eine Abbildung

P : Ω1 × A2 → R
(ω1 , A2 ) 7→ P (ω1 , A2 )

heißt Übergangskern, falls gilt:


(1) P (·, A2 ) ist A1 -B 1 -messbar für alle A2 ∈ A2 .
(2) P (ω1 , ·) ist ein Maß auf A2 für alle ω1 ∈ Ω1 .
Gilt P (ω1 , Ω2 ) = 1 für alle ω1 ∈ Ω1 , so heißt die Abbildung P Übergangswahrscheinlichkeit.
Satz 6.10
Seien (Ωi , Ai ), i = 1, 2, zwei messbare Räume, µ1 ein σ-endliches Maß auf (Ω1 , A1 ) und P ein
Übergangskern mit P (ω1 , Ω2 ) < ∞ für alle ω1 ∈ Ω1 . Dann gibt es genau ein Maß µ := µ1 × P
in (Ω, A) = ⊗2i=1 (Ωi , Ai ), definiert durch
Z
µ(A1 × A2 ) = (µ1 × P )(A1 × A2 ) := P (ω1 , A2 ) dµ1 (ω1 ),
A1

wobei Ai ∈ Ai , i = 1, 2. Für beliebige A ∈ A gilt


Z
µ(A) = (µ1 × P )(A) = P (ω1 , Aω1 ) dµ1 (ω1 ). (∗)

57
Beweis:
Der Beweis erfolgt in zwei Schritten. Wir zeigen zunächst, dass für alle A ∈ A gilt:

ω1 7→ P (ω1 , Aω1 ) ist A1 -messbar.

Dann zeigen wir, dass durch (∗) ein Maß auf A definiert wird. Die Eindeutigkeit von µ (als Fort-
setzung von µ|A1 ×A2 ) folgt dann aus dem Eindeutigkeitssatz von Caratheodory.
Wir betrachten zunächst

A0 := { A ∈ A : ω1 7→ P (ω1 , Aω1 ) ist A1 -messbar}.

Aus den leicht zu überprüfenden Aussagen

P (ω1 , (Ω1 × Ω2 )ω1 ) = P (ω1 , Ω2 ),


P (ω1 , Acω1 ) = P (ω1 , Ω2 ) − P (ω1 , Aω1 ),
X
P (ω1 , (∪An )ω1 ) = P (ω1 , (An )ω1 )

für A, An ∈ A und An paarweise disjunkt, folgt, dass A0 ein Dynkin-System ist. Dieses enthält
die Mengen A1 × A2 , wo Ai ∈ Ai , denn es gilt :

P (ω1 , (A1 × A2 )ω1 ) = P (ω1 , A2 )1A1 (ω1 ).

Das System E dieser Mengen ist aber ∩-stabil und erzeugt A, also gilt A = A0 .
Dass durch (∗) ein Maß definiert ist, folgt aus dem Satz über monotone Konvergenz: Ist nämlich
An ↑ A, An , A ∈ A1 ⊗ A2 , so gilt P (ω1 , (An )ω1 ) ↑ P (ω1 , Aω1 ) für alle ω1 ∈ Ω1 und damit
µ(An ) ↑ µ(A).

Korollar 6.11 (Existenz und Eindeutigkeit endlicher Produktmaße)
Sind (Ωi , Ai , µi ), i = 1, 2, . . . , n, endliche Maßräume, so existiert genau ein Maß µ auf (Ω, A)
mit n
Y
µ(A1 × · · · × An ) = µi (Ai ) für alleAi ∈ Ai . (∗∗)
i=1
Nn
Dieses µ heißt Produktmaß der (µi )i∈I , in Zeichen µ := i=1 µi = µ1 × · · · × µn .

Beweis:
O.B.d.A. sei n = 2 und µ1 , µ2 Wahrscheinlichkeitsmaße. Wir wenden Satz 6.10 auf den Über-
gangskern P : Ω1 × A2 → [0, 1], (ω1 , A2 ) 7→ µ2 (A2 ) an! 
Bemerkung 6.12 (µi σ-endlich)
Sind die µi σ-endlich, so gilt Ωi = ˙ k Ωik mit µi (Ωik ) < ∞, und Ω1k × Ω2j ist eine Zerlegung von
S
Ω. Für k ∈ N ist µik (Bi ) := µi (Bi ∩ Ωik ) mit Bi ∈ Ai , i = 1, 2, endlich. Also existieren Maße
µ1k × µ2j auf A, eingeschränkt auf die Teilmenge Ω1k × Ω2j . Setzen wir nun
∞ X
X ∞
µ := µ1k × µ2j ,
k=1 j=1

so folgt die Aussage von Korollar 6.11 auch für σ-endliche Maße.

58
Beispiel 6.13 Nk
(1) (Volumenmaße). Sei Bk = i=1 B die Produkt σ-Algebra der Borel-Mengen im Rk ,
erzeugt von den offenen Rechtecken (a, b) = ki=1 (ai , bi ), ai < bi . Dann existiert nach Be-
N
merkung 6.12 das Lebesgue-Borel’sche Maß λk auf

(−M, M ]k , Bk ∩ (−M, M ]k


und durch Zerlegung von Rk in disjunkte halboffene Rechtecke somit auch auf (Rk , Bk ). Es
ist wegen Satz 3.13 durch

λk (A1 × · · · × Ak ) = λ(A1 ) · · · λ(Ak ), Ai ∈ B,

eindeutig festgelegt. Wegen der Erzeugereigenschaft der Intervalle und Bemerkung 6.12
sowie Proposition 6.4 ist dieses Volumenmaß schon durch seine Werte auf endlichen Recht-
ecken
λk (a1 , b1 ) × · · · × (ak , bk ) = (b1 − a1 ) · · · (bk − ak )


eindeutig festgelegt.
(2) (Münzwurf). Auf Ω = {0, 1}n und A = P(Ω) lässt sich mit P ({0}) = 1 − P ({1}) = p, 0 ≤
p ≤ 1, das Produktmaß

P n {(ω1 , . . . , ωn )} := P {ω1 } · · · P {ωn } ,


  
ωi ∈ {0, 1},

definieren.
Satz 6.14
Seien (Ωi , Ai ), i = 1, 2, zwei messbare Räume und (Ω, A) = (Ω1 , A1 ) ⊗ (Ω2 , A2 ). Weiter sei µ1
ein σ-endliches Maß auf (Ω1 , A1 ) und P ein Übergangskern mit P (ω1 , Ω2 ) < ∞ für alle ω1 ∈ Ω1 .
Dann gilt für eine A-messbare Abbildung f ≥ 0 oder eine µ1 × P -integrierbare Abbildung f
Z Z Z 
f d(µ1 × P ) = fω1 (ω2 ) dP (ω1 , dω2 ) dµ1 (ω1 ).
Ω1 Ω2

Beweis:
Ist f = 1A , A ∈ A, so folgt die Aussage aus Satz 6.10. Den allgemeinen Fall erhält man aus
der Approximation durch Treppenfunktionen und dem Satz über monotone Konvergenz bzw.
einer Zerlegung f = f + − f − (Übung!). 

Korollar 6.15 R
In der Notation des letzten Satzes sei f ≥ 0 A-messbar. Dann gilt f d(µ1 × P ) = 0 ⇔ fω1 = 0
f.ü. bzgl. P (ω1 , ·) für µ1 -fast alle ω1 .

Als Korollar für µ1 ⊗ µ2 erhält man außerdem folgenden zentralen

Satz 6.16 (von Fubini)


Seien (Ωi , Ai , µi ), i = 1, 2, zwei σ-endliche Maßräume. Sei f : Ω1 × Ω2 → R entweder
R eine
Funktion in L1 (µ1 ⊗µ2 ) oder f ≥ 0 und A1 ⊗A2 -messbar. Dann ist die Funktion ω2 7→ fω2 dµ1

59
R
bzw. ω1 7→ fω1 dµ2 , µ2 - bzw. µ1 -integrierbar oder, im zweiten Fall, A2 - bzw. A1 -messbar.
Ferner gilt jeweils
Z Z Z
f d(µ1 ⊗ µ2 ) = ( f (ω1 , ω2 ) µ2 (dω2 )) µ1 (dω1 )
Z Z
= ( f (ω1 , ω2 ) µ1 (dω1 )) µ2 (dω2 ).

Entsprechende Aussagen gelten für die Ausdehnung auf den Fall endlich vieler Faktoren.

Beweis:
Ähnlich wie in Korollar 6.11 / Bemerkung 6.12 (Übung!). 

60
7 Stochastische Unabhängigkeit und
0-1-Gesetze

In diesem Kapitel führen wir den Begriff der stochastischen Unabhängigkeit ein und betrachten
erste wichtige Konsequenzen für die Wahrscheinlichkeitstheorie.

Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Wir führen ein wenig Sprache zur Beschreibung
von Experimenten mit zufälligem Ausgang ein. Ereignisse sind Teilmengen A in Ω mit A ∈ A;
ist für ein ω ∈ Ω die Menge {ω} ∈ A, so heißt ω Elementarereignis. Ist der Ausgang eines Ex-
perimentes ω ∈ A ∈ A, so sagt man, das Ereignis A tritt ein. P (A) heißt die Wahrscheinlichkeit
von A. Die leere Menge ∅ ist das sogenannte unmögliche Ereignis, es hat die Wahrscheinlichkeit
P (∅) = 0. Die Grundmenge Ω ist das sichere Ereignis. Ereignisse A ∈ A mit P (A) = 1 bzw.
P (A) = 0 heißen fast sichere bzw. fast unmögliche Ereignisse.

Definition 7.1
Für zwei Ereignisse A, B in A mit P (B) > 0 heißt

P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit von A gegeben B (unter der Hypothese B). Die Abbildung
A 3 A 7→ P (A|B) ist wieder ein Wahrscheinlichkeitsmaß auf (Ω, A).
Definition 7.2
Zwei Ereignisse A, B ∈ A heißen P -stochastisch unabhängig, falls

P (A ∩ B) = P (A) P (B),

also P (A|B) = P (A) (die zusätzliche Information aus B hat keinen Einfluss auf die Wahr-
scheinlichkeit des Eintretens von A). Allgemeiner heißt eine Familie (Ai )i∈I von Ereignissen in
A P -stochastisch unabhängig, falls für alle endlichen Teilmengen J ⊂ I mit |J| ≥ 2 gilt:
\ Y
P ( Aj ) = P (Aj ),
j∈J j∈J

d. h. alle endlichen Teilsysteme von Mengen sind stochastisch unabhängig.

Im Folgenden sprechen wir nur von der Unabhängigkeit und nicht immer von der stochastischen
Unabhängigkeit.

61
Bemerkung 7.3
(1) Sei (Bn )n∈N eine Folge paarweise disjunkter Ereignisse in A mit P (Bn ) > 0 für alle n ∈ N
sowie Ω = ∪˙ n Bn . Dann gilt
X
P (A) = P (Bn ) P (A|Bn )
n∈N

für alle A ∈ A (Formel von der totalen Wahrscheinlichkeit). Weiter gilt für A ∈ A mit
P (A) > 0 die Formel von Bayes:

P (Bn ) P (A|Bn )
P (Bn |A) = P .
n∈N P (Bn ) P (A|Bn )

(2) Seien A1 , . . . , An ∈ A stochastisch unabhängig. Dann gilt


n
Y
c
P (A1 ∪ · · · ∪ An ) = 1 − P ((A1 ∪ · · · ∪ An ) ) = 1 − P (Aci )
i=1
= 1 − (1 − P (A1 ))(1 − P (A2 )) · · · (1 − P (An ))
X Y
= (−1)|I|+1 P (Ai ),
I⊂{1,...,n},I6=∅ i∈I

wobei wir benutzt haben, dass mit zwei Ereignissen A, B ∈ A, die unabhängig sind, auch
A und B c unabhängig sind (dies wird wenig später viel allgemeiner gezeigt),
(3) Aus der paarweisen stochastischen Unabhängigkeit folgt nicht die stochastische Unabhän-
gigkeit, wie man sich an Hand eines einfachen Beispiels klarmachen kann.

Beispiel 7.4
(1) Seien (Ωi , Ai , Pi ) für i = 1, . . . , n Wahrscheinlichkeitsräume und (Ω, A, P ) der Produktraum.
Für A0i ∈ Ai sind die Ereignisse A1 := A01 × Ω2 × · · · × Ωn , . . ., An := Ω1 × · · · × Ωn−1 × A0n
P -unabhängig.
(2) SeienP Ω = [0, 1), A = Ω ∩ B 1 sowie P das Lebesgue-Maß auf [0, 1). Für x ∈ Ω sei
∞ 1 i
x = i=1 ωi ( 2 ) mit ωi ∈ {0, 1} die Binärentwicklung von x. Wenn wir die Darstellung
(ω1 , . . . , 0, 1, 1, 1, . . .) ersetzen durch (ω1 , . . . , 1, 0, 0, 0, . . .), so ist die Zuordnung x 7→ ωi (x)
eindeutig, und die Ereignisse Ai := { x ∈ Ω : ωi (x) = 1 }, i ∈ N, sind Borel-messbar und
P -unabhängig (Übung).

Technische Gründe führen zu der folgenden Verallgemeinerung des Begriffs der Unabhängigkeit:

Definition 7.5
Es seien Ui ⊂ A, i ∈ I, Teilsysteme von Ereignissen, sodass für alle endlichen Teilmengen
{i1 , . . . , ik } ⊂ I gilt
k
Y
P (Ai1 ∩ · · · ∩ Aik ) = P (Aij )
j=1

für alle Aij ∈ Uij , j = 1, . . . , k. Dann heißen die Ui , i ∈ I, P -stochastisch unabhängig.

62
Bemerkung 7.6
(1) Ist Ui = { Ai } mit Ai ∈ A für jedes i ∈ I, so liefert dies Definition 7.2 zurück.
(2) Die Familie (Ui )i∈I ist genau dann P -stochastisch unabhängig, wenn jede endliche Teilfamilie
P -stochastisch unabhängig ist.
(3) Die Unabhängigkeit bleibt erhalten, wenn man Ui verkleinert.

Lemma 7.7
Es seien Ui ⊂ A, i ∈ I, P -unabhängige und ∩-stabile Teilsysteme. Dann sind auch die σ-
Algebren σ(Ui ), i ∈ I, P -unabhängig.

Beweis:
Sei S ⊂ I endlich, |S| ≥ 2, s ∈ S und Ai ∈ Ui für i ∈ S. Betrachte
\ Y
Ds := {A ∈ A : P (A ∩ ( Ai )) = P (A) P (Ai )}.
i∈S\{s} i∈S\{s}

Dies ist ein Dynkin-System für alle Wahlen von Ai , i ∈ S \ {s}. Man betrachte dazu
\ \ Y
P (Ω ∩ ( Ai )) = P ( Ai ) = P (Ω) P (Ai )
i∈S\{s} i∈S\{s} i∈S\{s}

sowie für E, F ∈ Ds mit E ⊂ F :


\ \ \
P ((F \ E) ∩ ( Ai )) = P (F ∩ ( Ai )) − P (E ∩ ( Ai ))
i∈S\{s} i∈S\{s} i∈S\{s}
Y Y
= P (F ) P (Ai ) − P (E) P (Ai ).
i∈S\{s} i∈S\{s}

Dabei haben wir immer die Unabhängigkeit der Ausgangsfamilie sowie die Maßeigenschaften
von P genutzt. Eine analoge Überlegung liefert die dritte definierende Eigenschaft eines Dynkin-
Systems, wobei man die σ-Additivität von P benutzt. Nun ist für s ∈ S auch Us ⊂ Ds , also wegen
der ∩-Stabilität σ(Us ) = D(Us ) ⊂ Ds nach Satz 1.12. Somit sind aber die endlichen Familien
{σ(Us ), Ui , i ∈ S \ {s}} P -unabhängig. Das gleiche Verfahren für alle anderen Elemente der
Menge S liefert nach endlich vielen Schritten die Behauptung. 

Eine einfache Folgerung aus diesem Lemma ist, dass mit einer Familie von Ereignissen Ai in
A auch die Familie der jeweils erzeugten σ-Algebren σ({Ai }) = { ∅, Ai , Aci , Ω } unabhängig ist,
und somit auch die Familie der Ereignisse Aci .
Lemma 7.8 S
Es seien Ui ⊂ A, i ∈ I, P -unabhängige und ∩-stabile Teilsysteme. Weiter sei I = j∈J Ij eine
Zerlegung von I in paarweise disjunkte Mengen Ij . Dann ist die Familie (Aj )j∈J mit
[
Aj := σ( Ui )
i∈Ij

P -unabhängig.

63
Beweis:
Übung. 

Definition 7.9
Eine Familie (Xi )i∈I von Zufallsvariablen auf Ω, deren Wertebereiche von i abhängig sein kön-
nen, heißt P -stochastisch unabhängig, kurz unabhängig, wenn die Familie (σ(Xi ))i∈I der von
ihnen erzeugten σ-Algebren unabhängig ist im Sinne der Definition 7.5, d. h. (Xi−1 (Ai ))i∈I sind
unabhängige Mengensysteme.
Bemerkung 7.10
(1) Sind Ui ⊂ A, i ∈ I, unabhängige Teilfamilien in Ω, und sind die Xi Ui -Ai -messbare
Abbildungen mit Werten in (Ωi , Ai ), so sind die Xi offenbar unabhängig.
(2) Sind die Xi unabhängig und (Ωi , Ai )-wertig, und ist für jedes i ∈ I die Abbildung
Yi : (Ωi , Ai ) → (Ω0i , A0i ) eine messbare Abbildung in einen Messraum (Ω0i , A0i ), so sind
die Zufallsgrößen (Yi ◦ Xi ) unabhängig, d. h. Funktionen unabhängiger Zufallsvariablen sind
wieder unabhängig.

Beweis:
Übung. 
Proposition 7.11
Sei (Xi )i=1,...,n eine endliche Familie von (Ωi , Ai )-wertigen Zufallsvariablen und Ei ein ∩-stabiler
Erzeuger von Ai mit Ωi ∈ Ei für jedes i = 1, . . . , n. Dann ist die Familie (Xi )i=1,...,n genau dann
unabhängig, wenn
\n Yn
−1
P ( Xi (Ei )) = P (Xi−1 (Ei ))
i=1 i=1

für jede Wahl von Mengen Ei ∈ Ei für i = 1, . . . , n gilt.

Beweis:
Di := { Xi−1 (Ei ), Ei ∈ Ei } ist ein Erzeuger von σ(Xi ), der mit Ei ebenfalls ∩-stabil ist. Nach
Lemma 7.7 ist also zu zeigen, dass die Unabhängigkeit der (Di )i=1,...,n äquivalent ist zu

P (Xi−1
1
(Ei1 ) ∩ . . . ∩ Xi−1
m
(Eim )) = P (Xi−1
1
(Ei1 )) · . . . · P (Xi−1
m
(Eim ))

für alle Wahlen von Eij ∈ Eij , 1 ≤ m ≤ n. Da man geeignete Ei gleich Ωi setzen kann, ist dies
aber klar.

Ist X eine numerische Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit X ≥ 0
oder X P -integrierbar, so gilt nach Satz 3.29 für jede Borel-messbare, reelle Funktion f auf R,
welche ≥ 0 oder PX -integrierbar ist, dass

EP (f ◦ X) = EPX (f ).

Somit ist mit f (x) = x der Erwartungswert einer Zufallsvariablen darstellbar als
Z
EP (X) = x PX (dx).

64
Mittels Produkten von Wahrscheinlichkeitsmaßen wollen wir nun zeigen, dass die Unabhängig-
keit von Zufallsvariablen eine Eigenschaft ihrer Verteilungen ist. Dazu definieren wir zu einer
beliebigen Familie (Xi )i∈I von A-Ai messbaren Zufallsgrößen die Produktabbildung

⊗i∈I Xi : Ω → ×i∈I Ωi = {v : I → ∪i∈I Ωi }


ω 7→ v(ω)(i) := Xi (ω),
S
d. h. wir ordnen jedem ω ∈ Ω die Abbildung i 7→ Xi (ω) von I in i∈I Ωi zu. Dann ist nach
einer entsprechenden Verallgemeinerung von Korollar 2.6 auf beliebige Familien die Abbildung
Y := ⊗i∈I Xi eine (×i∈I Ωi , ⊗i∈I Ai )-messbare Zufallsgröße, denn die Abbildungen pi ◦ N
Y = Xi
mit der gewöhnlichen Projektion pi sind A-Ai -messbar. Somit ist die Verteilung PY auf i∈I Ai
definiert.

Definition 7.12
Die Verteilung PY in der obigen Notation wird die gemeinsame Verteilung der Familie (Xi )i∈I
genannt.

Satz 7.13
Sei I eine endliche Menge. Eine Familie (Xi )i∈I von Zufallsvariablen auf (Ω, A, P ) ist genau
dann unabhängig, wenn ihre gemeinsame Verteilung das Produkt ihrer einzelnen Verteilungen
ist, wenn also in der obigen Notation gilt:
O
PY = PXi .
i∈I

Beweis:
Seien Ai ∈ Ai für jedes i ∈ I. So gilt
\
PY (×i∈I Ai ) = P ( Xi−1 (Ai )).
i∈I

PY ist genau dann das Produktmaß der PXi , i ∈ I, wenn für beliebige Ai ∈ Ai gilt: PY (×i∈I Ai ) =
Q
i∈I PXi (Ai ). Also ist dazu gleichwertig, dass
\ Y
P ( Xi−1 (Ai )) = P (Xi−1 (Ai ))
i∈I i∈I

für alle Ai ∈ Ai , i ∈ I. Dies ist nach Satz 7.11 aber gleichbedeutend mit der Unabhängigkeit
der (Xi )i∈I . 
Korollar 7.14
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und seien Xi ∈ L1 (P ), i = 1, . . . n, unabhängige,
reellwertige Zufallsvariablen. Dann gilt:
(1) (Multiplikationssatz) X1 X2 ∈ L1 (P ) und
Z
EP (X1 X2 ) = X1 (ω) X2 (ω) P (dω) = EP (X1 ) EP (X2 ).

65
(2) (Gleichheit nach Bienaymé) Für die Varianz gilt
Xn n
X
VarP ( Xj ) = VarP (Xj ).
j=1 j=1

Beweis:
(1): Zunächst gilt für jedes |Xj | nach Satz 3.29 und Satz 7.13
Z Z
|X1 | |X2 | dP = x1 x2 P|X1 |×|X2 | (dx1 , dx2 )
Z
= |x1 | |x2 |PX1 ⊗ PX2 (dx1 , dx2 ).

Nach dem Satz von Fubini folgt daraus EP (|X1 |)EP (|X2 |) < ∞ und damit X1 X2 ∈ L1 (P ).
Wiederholung der Argumente mit X1 , X2 und Fubini liefert die Behauptung.
(2): Wegen EP ((X1 − EP (X1 ))(X2 − EP (X2 ))) = 0 folgt die Behauptung durch Nachrechnen.

Definition 7.15
Es sei (An )n∈N eine Folge von σ-Algebren von Ereignissen aus A. Dann heißt

\ ∞
[
T∞ := σ( Am )
n=1 m=n

die σ-Algebra der terminalen Ereignisse der Folge (An )n∈N .


Beispiel 7.16 S T
(1) Es sei (An )n∈N eine Folge in A. Dann ist lim inf An = n m≥n Am und lim sup An =
n→∞ n→∞
Am in T∞ , erzeugt von der Folge (An )n∈N , wobei An := { ∅, An , Acn , Ω } hier für
T S
n m≥n

S
jedes n ∈ N die von An erzeugte σ-Algebra sei. Dazu betrachte Qn := Am ↓. Es gilt
m=n

S
Qn ∈ Tn := σ( Am ). Da Tn in n fällt, ist Qn , Qn+1 , . . . ∈ Tn für jedes n ∈ N. Also ist
m=n

T ∞
T
aber auch lim sup An = Qk = Qk in Tj für jedes j ∈ N, und somit terminal. Gleiches
n→∞ k=1 k=j
gilt für lim inf n An = (lim supn Acn )c .Definiert man eine Abbildung
(
1 ω ∈ A,
1A (ω) =
0 sonst,
so gilt 1lim inf n An = lim inf n 1An und 1lim supn An = lim supn 1An .
(2) Seien X1 , X2 , ... Zufallsvariablen und An := σ(Xn ). Dann gilt für alle m ∈ N:
A := {(Xn )n∈N konvergiert} = {(Xn )n≥m konvergiert}
\ [ \ [ 
= {|Xn0 − Xn1 | < } ∈ σ An
>0 N ≥m n0 ,n1 ≥N n≥m
∈Q


T ∞
S
Somit gilt A ∈ T∞ (X1 , X2 , ...) := T∞ = σ( An ), d.h. A ist terminal.
m=1 n=m

66
Satz 7.17 (0-1-Gesetz von Kolmogorov)
Es sei (An )n∈N eine P -unabhängige Folge von σ-Algebren in A. Dann gilt für jedes terminale
Ereignis A der Folge entweder P (A) = 0 oder P (A) = 1.

Beweis:
S Lemma 7.8 ist Tn+1 in der Bezeichnung von Beispiel 7.16 unabhängig von
Nach
σ( nm=1 Am ). Damit ist auch TS∞ ⊂ Tn+1Snunabhängig von dieser σ-Algebra für alle n. Somit ist

T∞ aber auch unabhängig von n=1 σ( m=1 Am ). Das letzte Mengensystem ist als Vereinigung
einer in n aufsteigenden Folge von σ-Algebren ein durchschnittsstabiles Mengensystem. Also
ist T∞ nach Lemma 7.7 S∞unabhängig von der vonSdiesem Mengensystem erzeugten σ-Algebra,
∞ S∞
und dieseSist gerade σ( n=1 An ). Da weiterhin σ( m=n Am ) ⊂ σ( n=1 An ) für alle n ∈ N, folgt
T∞ ⊂ σ( ∞ n=1 An ). Somit ist T∞ zu sich selbst unabhängig, also gilt für jedes

A ∈ T∞ : P (A) = P (A ∩ A) = P (A)2 ,

und somit
P (A) ∈ { 0, 1 }.

Ist eine Folge von Ereignissen (An )n∈N unabhängig, so ist auch die Folge der von den An er-
zeugten σ-Algebren An = {∅, Ω, An , Acn } unabhängig. Also gilt dann

P (lim sup An ) = 0 oder 1 und auch P (lim inf An ) = 0 oder 1


n→∞ n→∞

(Übung). Wir betrachten nun eine notwendige und eine hinreichende Bedingung für das Eintre-
ten jedes dieser beiden Fälle.

Lemma 7.18 (Borel-Cantelli) P∞


(1) Es sei (An )n∈N eine Folge von Ereignissen mit n=1 P (An ) < ∞. Dann gilt
P (lim supn→∞ An ) = 0. P∞
(2) Es seien An für n ∈ N unabhängige Ereignisse mit n=1 P (An ) = ∞. Dann gilt
P (lim supn→∞ An ) = 1.

Beweis:
(1): Sei Bk := ∞
S
n=k An . Dann fällt Bk in k gegen lim supn An ab. Also ist


X
P (lim sup An ) = lim P (Bk ) ≤ lim P (An ) = 0.
n k k
n=k

(2): Wir benutzen aus derPAnalysis:


Gilt für 0 ≤ an ≤ 1, dass ∞
Qk
n=1 an = ∞, so folgt lim n=1 (1 − an ) = 0. Für n ∈ N gilt nun
k→∞


[ ∞
\ k
\
P( Am ) = 1 − P ( Acm ) = 1 − lim P ( Acm )
k→∞
m=n m=n m=n

Y
= 1−( (1 − P (Am ))),
m=n

67
S∞
also P ( m=n Am ) = 1 für alle n ∈ N, und somit

[
P (lim sup An ) = lim P ( Am ) = 1.
n n
m=n

Korollar 7.19
Seien X, X1 , X2 , . . . reelle Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Es
gelte

X
P (|Xn − X| > ε) < ∞ für alle ε > 0.
n=1

Dann konvergiert (Xn )n P -f.s. gegen X.

Beweis:
Übung. 

Beispiel 7.20
(1) Sei Ω = (0, 1), A die Borelmengen auf Ω und P das Lebesgue-Maß auf Ω. Mit An = (0, an )
für eine Folge an → 0 ist lim supn An = ∅. Ist nun an so gewählt, dass an > 1/n, so folgt
P
n P (An ) = ∞. Also gilt die Umkehrung von (1) im Lemma von Borel und Cantelli im
Allgemeinen nicht.
(2) Sei p eine Primzahl und Ap := { n ∈ N : p teilt n }. Dann existiert kein Wahrscheinlich-
keitsmaß auf Ω = N, sodass die Ereignisse
P Ap unabhängig sind und P (Ap ) = 1/p gilt. Dies
folgt aus der bekannten Tatsache p 1/p = ∞, wobei wir über alle Primzahlen summieren.
Da ω ∈ lim supp Ap bedeutet, dass ω durch unendlich viele Primzahlen p teilbar ist, folgt
aus Borel-Cantelli, dass dies für P -fast alle ω ∈ N gilt. Also gäbe es mindestens eine Zahl
n ∈ N mit dieser Eigenschaft, die dann aber offensichtlich nicht mehr endlich sein kann.

68
8 Satz von Kolmogorov – Unendliche
Produktmaße

Wir betrachten nun die Frage, wie man etwa im Beispiel 6.13 (2) ein Maß Q auf Ω := {0, 1}N
definieren kann, sodass z. B.

Q {(ω1 , . . . , ωn )} × {0, 1}N = P n {(ω1 , . . . , ωn )} , wo P ({0}) = 1/2 = P ({1}),


 

gilt. Mit anderen Worten wollen wir die Konstruktion unendlicher Produkte von Wahrschein-
lichkeitsmaßen näher untersuchen. Hierzu brauchen wir einige weitere Definitionen.

I eine beliebige Indexmenge und seien (Ωi , Ai ) messbare Räume für jedes i ∈ I. Setze
Sei fortan N
(Ω, A) := i∈I (Ωi , Ai ).N N
Für J ⊂ I sei nun XJ : i∈I (Ωi , Ai ) → j∈J (Ωj , Aj ) die Einschränkung auf ΩJ .

Definition 8.1
Sei J ⊂ I eine beliebige Teilmenge
N der Indexmenge I. N
(1) Eine Teilmenge A ⊂ i∈I Ωi heißt Zylinder mit Basis in ΩJ = j∈J Ωj , falls A die Form
XJ−1 (AJ ) hat, wobei AJ ⊂ ΩJ in j∈J Aj liegt. Falls J eine endliche Teilmenge ist, heißt
N
A Zylinder mit endlicher
N Basis.
(2) Die Teilmenge A ⊂ i∈I Ωi heißt Rechteck-Zylinder, falls in der Definition aus Teil (1) J
endlich und AJ ein Rechteck ist.

Beispiel: Seien (Ωi , Ai ), i ∈ N, messbare Räume, und sei Ω := ⊗i∈N Ωi sowie A1 ∈ A1 . Dann
ist X1−1 (A1 ) = A1 × ⊗i≥2 Ωi ein (Rechteck-)Zylinder mit Basis in Ω1 .
Die nächste Proposition zeigt, dass messbare Mengen nur von abzählbar vielen Koordinaten
abhängen können. Dies ist eine wichtige Beobachtung für die spätere Untersuchung von stocha-
stischen Prozessen.

Proposition 8.2
Seien I eineN beliebige Indexmenge und (Ωi , Ai ) messbare Räume für jedes i ∈ I. Weiter sei
(ΩI , AI ) := i∈I (Ωi , Ai ). Dann existiert zu A ∈ AN
I eine abzählbare Teilmenge I0 der Index-
menge I, sodass A ein Zylinder mit Basis in ΩI0 = i∈I0 Ωi ist.

Beweis:
Wir zeigen, dass das Mengensystem, für das die Behauptung gilt, eine σ-Algebra ist, die natürlich
den Erzeuger, also die Zylindermengen mit endlicher Basis, enthält. Die eigentliche Behauptung

69
folgt dann aus der Minimalität von AI . Sei also A = XI−1
N
0
(A0 ) mit A0 ∈ i∈I0 Ai und I0
−1
abzählbar. Dann gilt allgemein A = XI0 (A0 ). Ist weiter (A )n∈N eine Folge mit A(n) =
c c (n)

XI−1 (n)
N S
n
(An ), wo An ∈ i∈In Ai und In abzählbar ist, so ist n∈N A ein Zylinder mit Basis

in ΩI0 , wo I0 := ∪n=1 In wieder abzählbar ist. 

Definition 8.3
Seien I eine beliebige Indexmenge undN(Ωi , Ai ) messbare Räume für jedes i ∈ I. Weiter seien
für alle J ⊂ I endlich auf (ΩJ , AJ ) := j∈J (Ωj , Aj ) endliche Maße µJ gegeben. Dann heißt die

Familie (ΩJ , AJ , µJ ), J ⊂ I endlich konsistent oder auch projektiv , falls die Verträglichkeits-
bedingung

XJ−1 (AJ ) = XJ−1 0


0 (AJ 0 ) ⇒ µJ (AJ ) = µJ 0 (AJ 0 ) für alle J, J ⊂ I endlich

erfüllt ist, wobei XJ und XJ 0 die Projektionen auf ΩJ bzw. ΩJ 0 bezeichnen.

Beispiel 8.4 N N N 
Es sei (ΩJ , AJ , µJ ) := j∈J Ω j , j∈J Aj , j∈J µ j für J ⊂ I, J endlich, je ein Produkt
von Wahrscheinlichkeitsräumen. Dann ist dies eine konsistente Familie.

Beweis:
Sei XJ−1 (AJ ) = XJ−1 −1 J
0 (AJ 0 ) = XJ∩J 0 (AJ∩J 0 ) wie oben. Bezeichnet XJ∩J 0 : ΩJ → ΩJ∩J 0 die Projek-

tionsabbildung, so folgt mit Fubini


Z
J
µJ (AJ ) = 1AJ∩J 0 ◦ XJ∩J 0 dµJ

Z Z 
J
= 1AJ∩J 0 ◦ XJ∩J 0 dµJ\J 0 dµJ∩J 0
Z
= 1AJ∩J 0 dµJ∩J 0

= µJ 0 (AJ 0 ),

wobei die letze Gleichheit analog zu den ersten Schritten gezeigt wird. 

Man kann sich nun fragen, ob eine konsistente Familie von σ-endlichen oder endlichen µJ ein
σ-additives µ auf (ΩI , AI ) induziert. Leider ist die Antwort im Allgemeinen nein. Im Beispiel
{0, 1}N des unendlichen Münzwurfs ist die Antwort jedoch positiv. Hierzu brauchen wir die
Approximation der Maße von innen durch kompakte Mengen.
Definition 8.5
Sei (Ω, A) ein metrischer Raum, versehen mit der Borel-σ-Algebra (also mit der kleinsten σ-
Algebra, die alle in Ω offenen Mengen enthält). Ein endliches Maß µ heißt kompakt approxi-
mierbar, falls für alle A ∈ A gilt:
µ(A) = sup{µ(K) | K ⊂ A kompakt}.

70
Satz 8.6 (von Kolmogorov)
Seien (Ωi , Ai ), i ∈ I, metrische Räume, versehen mit der Borel-σ-Algebra N (also mit der
kleinsten σ-Algebra, die alle offenen Mengen enthält). Sei (ΩJ , AJ ) := j∈J (Ωj , Aj ) und
(ΩJ , AJ , µJ ), J endlich, eine konsistente Familie von endlichen Maßräumen. Ferner seien für
alle endlichen Teilmengen J ⊂ I die Maße µJ kompakt approximierbar.
N
Dann existiert ein eindeutig bestimmtes Maß µ auf (ΩI , AI ) := i∈I (Ωi , Ai ), dessen Randver-
teilungen durch die Maße µJ gegeben sind, d. h. für alle J ⊂ I endlich gilt

µJ = XJ (µ) = µXJ . (∗)

Sind alle µJ Wahrscheinlichkeitsmaße, so ist auch µ ein Wahrscheinlichkeitsmaß.

Beweis:
XJ−1 (AJ ) ist auf ΩI eine Algebra definiert und es gilt
S
Durch Z :=
J⊂I endlich

AI = σ (Xi ; i ∈ I) = σ (XJ ; J ⊂ I endl.) = σ (Z)

(Übung, zu Details siehe H. Bauer, Wahrscheinlichkeitstheorie (1991), S. 60 ff.). Eine konsistente


Familie definiert eine Mengenfunktion µ auf der Algebra Z durch
µ XJ−1 (AJ ) := µJ (AJ ) für AJ ∈ AJ .


Wegen der Konsistenz ist µ wohldefiniert und ein Inhalt (Übung, s. o.). Im Falle von W-Maßen
gilt offensichtlich µ(ΩI ) = 1. Durch (∗) ist µ auf dem Erzeuger Z von AI festgelegt, sodass
die Eindeutigkeit des Maßes µ sofort aus dem Eindeutigkeitssatz 1.29 folgt. Weiter folgt die
Existenz sofort aus dem Satz von Carathéodory 1.28, falls µ ein stetiger Inhalt auf Z ist. Nach
Proposition 1.21 reicht es dafür, die ∅-Stetigkeit von µ nachzuweisen:
T (Zn )n∈N eine antitone Folge in Z mit µ(Zn ) ≥ α > 0 für alle n ∈ N. Zu zeigen ist nun
Sei
n∈N Zn 6= ∅.
Jedes Zn ∈ Z ist von der Form Zn = XJ−1 n
(An ) für ein An ∈ AJn und ein Jn ⊂ I endlich.
Wir können o.B.d.A. Jn ⊂ Jn+1 für alle n ∈ N annehmen. Nach Voraussetzung sind alle Maße
µJn kompakt approximierbar, sodass für alle n ∈ N eine in ΩJn kompakte Menge Kn ⊂ An
existiert mit µJn (An \ Kn ) = µJn (An ) − µJn (Kn ) ≤ 2−n α. Für Zn0 := XJ−1 n
(Kn ) gilt dann
−1 −1
Zn ∈ XJn (AJn ), Zn ⊂ Zn und µ (Zn \ Zn ) = µ XJn (An \ Kn ) = µJn (An \ Kn ) ≤ 2−n α. Durch
0 0 0

Yn := Z10 ∩ ... ∩ Zn0 erhalten wir nun eine antitone Folge (Yn )n∈N mit Yn ⊂ Zn0 ⊂ Zn für alle
n ∈ N. Die endliche Additivität von µ liefert
n
! n
!
[ [
µ(Zn ) − µ(Yn ) = µ(Zn \ Yn ) ≤ µ (Zn \ Zi0 ) ≤ µ (Zi \ Zi0 )
i=1 i=1

n
X n
X
≤ µ(Zi \ Zi0 ) ≤ α 2−i < α ,
i=1 i=1

wobei die erste Ungleichung aus der Tatsache folgt, dass Zn \ Yn ⊂ ∪ni=1 (Zn \ Zi0 ) gilt. Aus
µ(Zn ) ≥ α folgt µ(Yn ) > 0 und somit Yn 6= ∅ für alle n ∈ N. Wir wählen für alle n ∈ N nun ein
yn ∈ Yn . Für m ≥ n gilt nun wegen der Antitonie ym ∈ Ym ⊂ Yn ⊂ Zn0 , d. h. XJn (ym ) ∈ Kn .
Für alle t ∈ Jn ist die Projektionsabbildung XtJn : ΩJn → Ωt stetig, und daher ist XtJn (Kn )
kompakt. Wegen Xt = XtJn ◦ XJn liegen alle Glieder der Folge (Xt (ym ))m≥n in XtJn (Kn ) ⊂ Ωt .

71
S
Als abzählbare Vereinigung von endlichen Mengen ist n∈N Jn abzählbar, etwa
[
Jn = {t1 , t2 , ...}.
n∈N

(1)
Aus der Kompaktheit folgt dann, dass die Folge (ym )N eine Teilfolge (ym )N besitzt, für die
(1) (2)
(Xt1 (ym ))N konvergiert. Wiederum aus der Kompaktheit folgt die Existenz einer Teilfolge (ym )N
(1) (2) (m)
von (ym )N , sodass (Xt2 (ym ))N konvergiert usw. Für die Diagonalfolge (ym )N existiert dann
S (m)
für jedes t ∈ Jn der Limes zt := lim Xt (ym ) ∈ Ωt .
n∈N m→∞
(m)
Für m ≥ n liegt XJn (ym ) in Kn , und folglich gilt auch XJn (ym ) ∈ Kn . Als Kompaktum
(m)
ist Kn insbesondere abgeschlossen, sodass aus der Konvergenz des Tupels
S (Xt (ym ))t∈Jn gegen
(zt )t∈Jn in ΩJn für m → ∞ sofort (zt )t∈Jn ∈ Kn folgt. Zu jedem t 6∈ n∈N Jn wählen wir noch
ein beliebiges Element zt ∈ Ωt . Für z = (zt )t∈I gilt dann
T XJn (z) = (zt )t∈Jn ∈ Kn und daher
−1 0
z ∈ XJn (Kn ) = Zn ⊂ Zn für alle n ∈ N. Somit gilt z ∈ n∈N Zn 6= ∅. 

Korollar 8.7
Für jedes i ∈ I einer beliebigen Indexmenge sei Ωi eine endliche Menge oder ein vollständiger
und separabler metrischer Raum (z. B. Ωi = [0, 1] oder Ωi = Rp ). Sei weiter Ai im Falle einer
endlichen Menge Ωi die Potenzmenge auf Ωi und sonst die Borel-σ-Algebra. Dann gibt es zu
N Familie (ΩJ , AJ , µJ ) von endlichen Maßräumen ein eindeutig bestimmtes Maß
einer konsistenten
µ auf AI := i∈I Ai mit
µ XJ−1 (AJ ) = µJ (AJ )


für alle AJ ∈ AJ , J ⊂ I endlich.

Beweis:
In den oben genannten Räumen besitzt jedes endliche Maß die kompakte Approximationseigen-
schaft (vgl. H. Bauer, Maß- und Integrationstheorie (1992), S. 180 ff.) 

Korollar 8.8
∈ I, kompakt approximierbare W-Maße. Dann existiert genauNein W-Maß µ auf
Seien µi , iN
(Ω, A) := i∈I (Ωi , Ai ), sodass für alle J ⊂ I endlich gilt: XJ (µ) = µXJ = j∈J µj .

Beweis:
Wir wenden den Satz von Kolmogorov auf die nach Beispiel 8.4 konsistente Familie
O O O
( Ωj , Aj , µj ), J ⊂ I endlich,
j∈J j∈J j∈J

an und bemerken, dass mit allen µi auch alle µJ , J endlich, kompakt approximierbar sind.
(Übung!) 
Bemerkung 8.9
Auf die Voraussetzung, dass die Räume metrisch und mit der Borel-σ-Algebra versehen sein
müssen, sowie auf die Voraussetzung der kompakten Approximierbarkeit kann im Falle unend-
licher Produkte von Wahrscheinlichkeitsmaßen verzichtet werden (vergleiche hierzu den Beweis
in H. Bauer, Wahrscheinlichkeitstheorie (1991), S. 60 ff.).

72
Beispiel 8.10
(1) Insbesondere
 existert ein Wahrscheinlichkeitsmaß
 µ auf dem Raum der unendlichen Münz-
wurffolgen { 0, 1 } , P{ 0, 1 } mit
N N

  Pk Pk
µ (ω1 , . . . , ωk ) × { 0, 1 }N = p i=1 ωi (1 − p)k− i=1 ωi ,

wobei 0 ≤ p ≤ 1.
(2) Markovketten auf einem abzählbaren Zustandsraum (Übung für Konsistenz).
(3) Sei Z
1  1 2
µ0,s (I) := √ exp − x dx
I 2π s 2s
für ein s > 0 und ein Intervall I ⊂ R das jeweilige Riemann Integral. Dies definiert einen
Inhalt auf dem System der Intervalle in R, der sich nach
N Satz 1.28 zu einem Maß auf (R, B)
fortsetzen lässt. Dann existiert das Produktmaß µ := s∈R+ µ0,s auf dem Raum (R
R+
, B R+ )
mit µ(Xs−1 (I)) = µ0,s (I).

Im Folgenden betrachten wir das „unendliche“ Analogon zu Satz 7.13:


Satz 8.11
Sei I eine beliebige Menge. Eine Familie (Xi )i∈I von Zufallsvariablen auf (Ω, A, P ) ist genau
dann unabhängig, wenn ihre gemeinsame Verteilung das Produkt ihrer einzelnen Verteilungen
ist, wenn also gilt: O
P N Xi = PXi ,
i∈I
i∈I

wobei das Produktwahrscheinlichkeitsmaß nach Korollar 8.8 bzw. Bemerkung 8.9 existiert.

Beweis:
Für jede nicht-leere, endliche Menge J ⊂ I bezeichne mit N
pJ die Projektionsabbildung
N auf
×i∈J Ωi und mit Y bzw. YJ Ω → ×i∈J Ωi die Abbildungen i∈I Xi bzw. i∈J Xi . Dann gilt
:
YJ = pJ ◦ Y , also
PYJ = pJ (PY )
mittels der Transitivität der Bildung von Bildmaßen. Da nun die Unabhängigkeit der Familie
(Xi )i∈I äquivalent zu der Unabhängigkeit von (Xi )i∈J für alle endlichen J ist, reicht es zu zeigen,
dass O
P YJ = PXi
i∈J
N
für alle endlichen J ⊂ I, denn wie im Satz von KolmogorovN ist PY = i∈I PXi äquivalent zur
Gleichheit auf endlichen Zylindermengen, d. h. zu pJ (PY ) = i∈J PXi für alle endlichen J ⊂ I.
Somit folgt die Behauptung aus Satz 7.13. 
Abschließend betrachten wir noch eine Folge messbarer Räume (Ω0 , A0 ), (Ω1 , A1 ), ..., ein Wahr-
scheinlichkeitsmaß P0 auf A0 und stochastische Kerne

K j : Ω0 × ... × Ωj−1 × Aj → [0, 1], j = 1, 2, ... ,




73
d. h. K j ((ω0 , . . . , ωj−1 ), · ) ist jeweils Wahrscheinlichkeitsmaß. Mittels Satz 6.10 definiert man
nun induktiv Wahrscheinlichkeitsmaße

Qn := P0 × K 1 × ... × K n := ... (P0 × K 1 ) × K 2 ... × K n


auf A0 ⊗ ... ⊗ An , die durch ihre Werte auf Zylindermengen A0 × ... × An , Aj ∈ Aj , j = 0, 1, ..., n
eindeutig festgelegt sind. Aus dem Satz von Fubini (für Übergangskerne) (Satz 6.14) folgt mit
Induktion sofort:
Lemma 8.12
Für eine A0 ⊗ ... ⊗ An -messbare Funktion f : Ω0 × ... × Ωn → R mit f ≥ 0 oder f ∈ L1 (Qn ) gilt
Z Z Z Z  
n 1
f dQn = ... f (ω0 , ..., ωn )K (ω0 , ..., ωn−1 , dωn ) ...K (ω0 , dω1 ) dP0 (ω0 ).
Ω0 Ω1 Ωn

Insbesondere gilt für Funktionen f , die nur von den Variablen ω0 , ..., ωn−1 abhängen:
Z Z
f dQn = f dQn−1 .

Sind (Ωi , Ai ) endliche Räume mit der Potenzmenge als σ-Algebra bzw. vollständige, separable
metrische Räume mit Borel-σ-Algebra, so erhalten wir aus dem Korollar 8.7 zum Satz von
Kolmogorov:
Satz 8.13 (Ionescu-Tulcea)
N∞ j
Sei (Ω, A) := i=1 (Ωi , Ai ) und seien P0 und K wie oben. Dann existiert genau ein Wahr-
scheinlichkeitsmaß P auf A mit
O ∞ Z Z Z  
n 1

P A0 × ... × An × Ωi = ... K (ω0 , ..., ωn−1 , dωn ) ...K (ω0 , dω1 ) dP0 (ω0 ).
i=n+1 A0 A1 An

für alle Aj ∈ Aj , j = 0, ..., n, und alle n ∈ N0 .

Beweis:
Sei Qn das oben definierte Maß auf A0 ⊗ ... ⊗ An . Für jede endliche Teilmenge I von N0
{0,...,n} {0,...,n}
existiert ein n ∈ N0 mit I ⊆ {0, ..., n}. Setze µI := XI [Qn ], wobei XI die Projektion
bezeichnet. Dann folgt aus Lemma 8.12 sofort die Wohldefiniertheit von µI , I ⊆ N0 endlich,
und somit auch µI = XIJ [µJ ], d. h. die Familie (µI )I⊆N0 endlich ist konsistent. Die Behauptung
folgt nun aus Korollar 8.7 und Lemma 8.12 mit f := 1A1 ×...×An . 
Bemerkung 8.14
(1) Auf die Voraussetzung, dass die Räume (Ωi , Ai ) endliche Räume bzw. vollständige, separable
metrische Räume mit Borel-σ-Algebra sein müssen, kann verzichtet werden. In diesem Fall
muss ein auf C. Ionescu Tulcea zurückgehender Beweis geführt werden (vgl. z. B. Gänssler-
Stute, Grundlagen der Wahrscheinlichkeitstheorie (1975), Satz 1.9.3).
(2) Hängt der Kern K n (ω0 , ..., ωn−1 , ·) = Pn (·) nicht von ω0 , N
..., ωn−1 ab, so stimmt das Maß P
aus dem Satz von Ionescu-Tulcea mit dem Produktmaß ∞ n=0 Pn überein.

74
9 Die Gesetze der großen Zahlen

In diesem Kapitel stellen wir die Gesetze der großen Zahlen vor. Das Studium der Gesetze
der großen Zahlen hat eine lange Geschichte. Jakob Bernoulli (1654–1705) kannte bereits das
schwache Gesetz der großen Zahlen für den Fall der nach ihm benannten Bernoulli’schen Ver-
suchsfolge. Ist im Folgenden klar, dass ein fester Wahrscheinlichkeitsraum (Ω, A, P ) zugrunde
liegt, so schreiben wir kurz E für EP und Var für VarP , wobei E den Erwartungswert und Var
die Varianz einer Zufallsgröße bezeichnet.
Lemma 9.1 (Schwaches Gesetz der großen Zahlen)
Sei (Xi )i∈N eine Folge von reellwertigen Zufallsvariablen, definiert auf einem Wahrscheinlichkeits-
raum (Ω, A, P ), und sei (an )n∈N mit an > 0 eine Folge aufsteigender reeller Zahlen. 
Weiter seien Xi ∈ L2 (Ω, A, PnP ) für alle i ∈ N, Cov(X i , Xj ) := E (X i − E(X i ))(X j − E(X j )) =0
1
für alle i 6= j und lim a2 j=1 Var(Xj ) = 0. Dann folgt
n→∞ n

 X n 
1

lim P (Xj − E(Xj )) > ε = 0 für alle ε > 0.

n→∞ an j=1

Beweis:
Sn := nj=1 (Xj − E(Xj )). Aus der Gleichheit von Bienaymé, Korollar 7.14 (2), folgt
P
Wir setzen P
Var(Sn ) = nj=1 Var(Xj ). Somit folgt mit Hilfe der Tschebyscheff-Ungleichung 4.7
 
1 Var(Sn ) n→∞
P |Sn | > ε ≤ −−−→ 0.
an ε2 a2n


Bemerkung 9.2
Ist (Xi )i∈N eine Folge unabhängiger und identisch verteilter Zufallsgrößen und ist
X1 ∈ L2 (Ω, A, P ), so gilt mit an = n
n
1X
Xj −→ E(X1 ) P -stochastisch.
n j=1

Beispiel 9.3
(1) Seien Y1 , Y2 , . . . unabhängige und identisch verteilte Zufallsgrößen und sei Xj := 1A (Yj ),
A ∈ B 1 . Wir bezeichnen die Verteilung der Yj mit Q = PY1 . (Das ist eine Verteilung auf
(R, B 1 ).) Es sei A ∈ B 1 . Dann gilt
n
1 1X n→∞
#{j ≤ n : Yj ∈ A} = 1A (Yj ) −−−→ Q(A) P -stochastisch.
n n j=1

75
(2) Es sei ϕ : [0, 1] → R eine stetige Funktion. Man beweise als Übung, dass für Xj ∈ {0, 1}
unabhängig und identisch verteilt mit P (Xj = 1) = p, 0 < p < 1, und Sn = (X1 + · · · +
Xn )/n gilt:
n→∞
E(ϕ(Sn )) −−−→ ϕ(p).
Da Eϕ(Sn ) = nk=0 nk pk (1 − p)n−k ϕ( nk ), wird ϕ damit durch Polynome auf [0, 1] approxi-
P 

miert (Weierstraß’scher Approximationssatz).


Proposition 9.4
Sei Xn , n ∈ N, eine Folge von Zufallsvariablen (auf (Ω, A)), sodass für n, m → ∞ gilt: Xn −
P
Xm → 0, d. h. man hat eine P -stochastische Cauchy-Folge. Dann existiert eine Zufallsvariable
P
X mit Xn → X.
Beweis:
Man wähle eine Folge nk ↑ ∞, sodass für alle m, n ≥ nk gilt
P (|Xn − Xm | > 2−k ) < 2−k .
Insbesondere folgt für die Mengen Ak = {|Xnk − Xnk+1 | ≥ 2−k } aus dem Lemma von Borel-
Cantelli (Satz 7.18 (1)), dass P (lim supk Ak ) = 0, d. h. es gilt für P -fast alle ω ∈ Ω, dass
|Xnk (ω) − Xnk+1 (ω)| < 2−k
für alle k > K und ein K = K(ω) gilt. Daraus folgt für diese ω mittels ∆-Ungleichung:
l−1
X
lim |Xnk (ω) − Xnl (ω)| ≤ lim 2−m = 0,
k,l→∞ k,l→∞
m=k

d. h. Xnk (ω), k ∈ N, ist eine Cauchy-Folge und konvergiert daher gegen ein X(ω) ∈ R. Der
Limes X(ω) ist fast überall definiert und messbar und kann daher zu einer Zufallsvariablen X
auf Ω fortgesetzt werden, sodass lim Xnk = X P -fast sicher und damit auch P -stochastisch gilt.
Schließlich folgt aus der Annahme, dass für alle ε > 0 und alle δ > 0 P {|Xn − Xnk | > ε} < δ
für alle nk ≤ n ≤ nk+1 und hinreichend großes k gilt, die Behauptung. 
Man beachte, dass aus diesem Beweis auch folgt, dass Konvergenz in Wahrscheinlichkeit fast
überall Konvergenz einer Teilfolge impliziert.
Korollar 9.5
Es seien (Xi )i∈N unabhängige Zufallsgrößen mit E Xj2 < ∞ für jedes j ∈ N und ∞
P
j=1 Var(Xj ) <
∞. Dann existiert eine Zufallsgröße X mit der Eigenschaft
n
n→∞
X
(Xj − E(Xj )) −−−→ X P -stochastisch.
j=1

Beweis:
Es sei ε > 0. Aus
n n
n,m→∞
X X
−2
P (| (Xj − E(Xj ))| > ε) ≤ ε Var(Xj ) −−−−→ 0
j=m+1 j=m+1
Pn 
folgt, dass j=1 (Xj − E(Xj )) n∈N eine Cauchy-Folge bezüglich der P -stochastischen Konver-
genz ist, d. h. nach Proposition 9.4 folgt die Behauptung 

76
Beispiel 9.6
Es seien αj ∈ {−1, 1}, j ∈ N, unabhängige und identisch verteilte Zufallsgrößen, definiert auf
Ω := {−1, 1}N (d. h. z. B. die j-ten Projektionen αj : Ω → {−1, 1}), mit Q(αj = 1) = Q(αj =
−1) = 21 und P := QN das Produktmaß auf Ω. Dann konvergiert für s ∈ C
n
X αj n→∞
−−−→ Xs P -stochastisch,
j=1
js

falls Re (() s) > 12 , wo Xs : Ω → C eine Zufallsvariable ist.


n→∞
Manchmal lässt sich die Verteilung der Reihe bestimmen: Es gilt z. B. nj=1 αj 2−j −−−→ Z
P
P -stochastisch, wobei Z in [−1, 1] gleichverteilt ist, d. h.
b−a
P (a ≤ Z ≤ b) = , −1 ≤ a ≤ b ≤ 1 (Übung).
2
Wir betrachten nun den stärkeren Konvergenzbegriff der fast sicheren Konvergenz.

Fast sichere Konvergenz von Summen


Beispiel 9.7
Sei As := {ω ∈ {−1, 1}N : lim nj=1 αj (ω)j −s existiert}. Hierbei seien die Bezeichnungen aus
P
n→∞
Beispiel 9.6 übernommen. Dann ist As ∈ A∞ (α1 , α2 , . . . ) ein Terminalereignis, d. h. P (As ) = 0
oder P (As ) = 1.

Interessant ist nun die Frage, welcher Fall in diesem Beispiel eintritt. Um dies zu klären, benö-
tigen wir den folgenden Satz:
Satz 9.8 (Ottaviani-Skorokhod)
Es seien X1 , . . . , Xn unabhängige Zufallsgrößen. Sei weiter ε > δ > 0 beliebig vorgegeben. Setze
Sk = X1 + · · · + Xk . Dann gilt:
P (|Sn | ≥ ε − δ)
P ( max |Sk | ≥ ε) ≤ .
k=1,...,n min P (|Sn − Sk | ≤ δ)
k=1,...,n

Beweis:
Für 1 ≤ k ≤ n setze

Ak := {|S1 | < ε, . . . , |Sk−1 | < ε, |Sk | ≥ ε}


Bk := {|Sn − Sk | ≤ δ}, B := {|Sn | ≥ ε − δ}.

Dann sind die Ereignisse Ak , k = 1, . . . , n, disjunkt und es gilt


n
[
Ak = { max |Sk | ≥ ε}.
k=1,...,n
k=1

Weiterhin sind die Ereignisse Ak und Bk unabhängig, denn Sn − Sk = Xk+1S+ · · · + Xn . Wegen


|Sn | ≥ |Sk | − |Sn − Sk | gilt für ω ∈ Ak ∩ Bk , dass |Sn | ≥ ε − δ, womit man nk=1 (Ak ∩ Bk ) ⊂ B

77
erhält. Also folgt nk=1 P (Ak )P (Bk ) = nk=1 P (Ak ∩ Bk ) = P ( nk=1 (Ak ∩ Bk )) ≤ P (B). Daraus
P P S
folgt aber unmittelbar
n
X n
[
P (B) ≥ ( min P (Bl )) P (Ak ) ≥ ( min P (Bl )) P ( Ak )
l=1,...,n l=1,...,n
k=1 k=1
= ( min P (Bl ))P ( max |Sk | > ε).
l=1,...,n k=1,...,n

Eine Ungleichung wie die in Satz 9.8 bewiesene nennt man auch Maximalungleichung. Es gibt
eine Reihe von Varianten solcher Ungleichungen in der Literatur. Wir können nun aus der
Ottaviani-Skorokhod-Ungleichung den folgenden bedeutenden Satz von Lévy herleiten.
Satz 9.9 (von Lévy)
Es seien X1 , X2 , . . . unabhängige reelle Zufallsvariablen. Dann gilt: Aus der P -stochastischen
Konvergenz der Reihe ∞
P
j=1 X j folgt die P -fast sichere Konvergenz der Reihe (und umgekehrt).

Beweis:
Nach Satz 4.6 folgt aus der P -fast sicheren Konvergenz immer die P -stochastische Konvergenz.
Bleibt also die umgekehrte Richtung zu zeigen.
Aus Satz 9.8 folgt mit δ = 2ε :
1 ε
hm,N := P ( max |Sk − Sm | ≥ ε) ≤ P |SN − Sm | > , (∗)
k=m,...,N 1 − pm,N 2
wobei pm,N := maxk=m,...,N P (|SN −Sk | > 2ε ). Da nun die Reihe P -stochastisch konvergiert, folgt
SN − Sm → 0 P -stochastisch für N, m → ∞. Daraus folgt aber pm,N → 0, wenn N, m → ∞.
Bilden wir nun zuerst den Limes für N → ∞, so garantiert die Maßstetigkeit
[
hm := lim hm,N = P ( {|Sk − Sm | > ε}) = P (sup |Sk − Sm | > ε).
N →∞ k≥m
k≥m

Damit folgt mittels (∗) im Limes für m → ∞:



\
lim hm = P ( {sup |Sk − Sm | > ε})
m→∞
m=1 k≥m
≤ lim sup P {|SN − Sm | > ε/2}/(1 − pm,N ) = 0.
m,N →∞
P∞
Nun steht links das Ereignis aller ω ∈ Ω, für die die Reihe j=1 Xj nicht konvergiert. Daraus
ergibt sich die P -fast sichere Konvergenz. 

Korollar 9.10
(1) Eine unabhängige Folge (Xi )i∈N reeller Zufallsvariablen genüge der Bedingung

X
Var(Xj ) < ∞.
j=1

78
Dann gilt
n
X
lim (Xj − E(Xj )) existiert P -fast sicher.
n→∞
j=1
P∞ 2
(2) Es seien ck ∈ C mit k=1 |ck | < ∞ und die Zufallsvariablen αk seien definiert wie in
Beispiel 9.6. Dann folgt:
n
X
lim ck αk existiert P -fast sicher.
n→∞
k=1

Beispiel 9.11
Die Reihe ∞ −s
konvergiert P -fast sicher für Re (() s) > 21 , wobei die βj unabhängige
P
j=1 βj j
und identisch verteilte Zufallsgrößen seien mit βj ∈ {−1, 0, 1}, j ∈ N, und E(βj ) = 0. Damit
haben wir die Frage in Beispiel 9.7 beantwortet.
Für individuelle Folgen (βj )j∈N wie oben kann die Beantwortung der Frage sehr schwierig sein:
Sei (
(−1)r falls j = p1 . . . pr Primfaktorzerlegung
βj :=
0 falls ∃ m ∈ N m2 |j, m ≥ 2.
Hier gilt limN →∞ #{n ≤ N : µ(n) = ±1}/N = π32 , und es gilt: Die Reihe ∞ −s
P
j=1 βj j konvergiert
1
für alle s ∈ C mit Re (() s) > 2 dann und nur dann, wenn die sogenannte „Riemann’sche
Vermutung“ stimmt, die trotz vieler Bemühungen bis heute noch nicht bewiesen oder widerlegt
ist.

Weiter gilt ein starkes Gesetz der großen Zahlen:Kategorien


Satz 9.12 (Starkes Gesetz der großen Zahlen nach Kolmogorov)
(1) Es seien (Xi )i∈N eine unabhängige Folge integrierbarer reeller Zufallsvariablen
P∞ −2und (an )n∈N
mit an > 0 eine Folge gegen ∞ aufsteigender reeller Zahlen. Weiter sei j=1 aj Var(Xj ) <
∞. Dann gilt
n
1 X
lim (Xj − E(Xj )) = 0 P -fast sicher.
n→∞ an
j=1

(2) Es sei (Xi )i∈N eine Folge reeller, integrierbarer, identisch verteilter und unabhängiger Zu-
fallsvariablen. Dann gilt
n
1X
lim Xj = E(X1 ) P -fast sicher.
n→∞ n
j=1

Beweis:
(1): Aus Korollar 9.10 angewendet auf die Zufallsgrößen Xj /aj folgt:
n
X 1 
lim Xj − E(Xj ) existiert P -f.s.
n→∞ a
j=1 j

79
1
Das nachfolgende Lemma 9.13 angewendet auf xj := aj
(Xj (ω) − E(Xj )) liefert dann

n
1 X 
lim Xj − E(Xj ) = 0 P -f.s.
n→∞ an
j=1

(2): Falls Var(X1 ) < ∞, folgt die Behauptung des Starken Gesetzes der großen Zahlen wegen
∞ ∞
X X 1
Var(Xk /k) = Var(X1 ) 2
<∞
k=1 k=1
k

sofort aus (1) mit ak := k.


Der allgemeine Fall, in dem nur E|X1 | < ∞ gefordert wird, wird später mit Hilfe des sog.
Ergodensatzes bewiesen.

Lemma 9.13 (Kronecker-Lemma)
Sei x1 , x2 , . . . eine Folge reeller Zahlen mit limn→∞ nj=1 xj = s, wo s endlich ist. Wähle an ↑ ∞.
P
Dann gilt
n
1 X
lim ak xk = 0.
n→∞ an
k=1

Beweis: P
Sei rn = ∞
k=n+1 xk , r0 := s. Dann gilt xn = rn−1 − rn , n = 1, 2, . . . und

n
X n
X n−1
X n
X
In := ak x k = ak (rk−1 − rk ) = ak+1 rk − ak rk .
k=1 k=1 k=0 k=1

Daher
n
X n−1
X
|In | = | ak x k | ≤ (ak+1 − ak )|rk | + a1 |s| + an |rn |.
k=1 k=1

Für jedes ε > 0 wähle ein N ∈ N mit |rk | ≤ ε für k > N . Dann gilt mit r̄ := maxn≥1 |rn | und
n>N
n−1
X N
X −1 n−1
X
(ak+1 − ak )|rk | ≤ (ak+1 − ak )|rk | + ε (ak+1 − ak )
k=1 k=1 k=N
≤ r̄(aN − a1 ) + ε(an − aN ).

Dividieren wir nun In durch an und bilden den lim sup, so folgt mit aN /an → 0, an → ∞, dass

n
1 X aN − a1  an − aN 
lim sup ak xk ≤ lim sup r̄ + lim sup ε

n an n an n an
k=1
≤ ε.

80
10 Bedingte Erwartungen

Der Zugang zum Begriff des Martingals erfolgt über den Begriff der bedingten Erwartung,
den wir in diesem Kapitel entwickeln wollen. Sei dazu X eine Zufallsvariable, definiert auf
einem Wahrscheinlichkeitsraum (Ω, A, P ). Der Erwartungswert E(X), falls er existiert, ist die
Mittelung von X über Ω. Der Übergang X → E(X) 1Ω gibt somit die maximale Vergröberung
von X durch eine Funktion mit genau einem Wert E(X) an. Sei nun A1 ∪ A2 ∪ · · · ∪ Ak = Ω
mit P (Aj ) > 0, j = 1, . . . , k, eine disjunkte Zerlegung von Ω. Dann kann man X entsprechend
durch eine Mittelung auf Aj approximieren. Damit meinen wir
k
X E(X 1Aj )
X 7→ E(X|A0 ) := 1Aj , (10.1)
j=1
P (Aj )

wobei A0 := A(A1 , . . . , Ak ) die von der Zerlegung erzeugte σ-Algebra ist.


Man kann vermuten, dass E(X|A0 ) die beste Approximation von X durch auf Aj , j = 1, . . . , k,
konstante, messbare Funktionen sein wird. Dies ist der Inhalt der folgenden Proposition:
Proposition 10.1
Sei X ∈ L2 (Ω, A, P ). Für die obige σ-Algebra A0 gilt:
inf ||Z − X||22 = ||E(X|A0 ) − X||22 .
Z∈L2 (Ω,A0 ,P )

Beweis:
Mit X0 := E(X|A0 ) und dem Skalarprodukt h·, ·i im Hilbertraum L2 (Ω, A, P ) gilt
||Z − X||22 = ||(Z − X0 ) + (X0 − X)||22
= ||Z − X0 ||22 + 2hZ − X0 , X0 − Xi + ||X0 − X||22 .
Nun gilt X0 = kj=1 mj 1Aj für geeignete mj ∈ R (vgl. (10.1)). Mit Z ist dann auch Z − X0 in
P

L2 (Ω, A0 , P ), und somit ist Z − X0 = kj=1 cj 1Aj mit cj ∈ R. Daraus folgt


P

k
X Z k
X 
hZ − X0 , X0 − Xi = cj 1Aj ml 1Al − X dP
j=1 l=1
k
X Z Z 
= cj 1Aj mj dP − X1Aj dP = 0
j=1
k
X  
= cj P (Aj )mj − EX1Aj = 0,
j=1

81
wobei wir verwendet haben, dass 1Aj 1Al = 0 für l 6= j gilt. 
Es ist nun leicht einzusehen, dass die Abbildung M0 : X 7→ E(X|A0 ) zu obigem A0 eine lineare,
positive (d. h. aus f ≥ 0 folgt M0 f ≥ 0) Abbildung ist mit M0 : L2 (Ω, A, P ) → L2 (Ω, A0 , P ) ,→
L2 (Ω, A, P ).
Wir wenden uns nun der Konstruktion einer solchen sogenannten bedingten Erwartung M0 für
beliebige σ-Algebren A0 ⊂ A zu. Es gilt:
Proposition 10.2
Es sei H0 := L2 (Ω, A0 , P ) ,→ H := L2 (Ω, A, P ). Dann ist H0 ein || · ||2 -abgeschlossener Unter-
raum in H.

Beweis:
Es sei (Xn )n∈N ⊂ H0 und X ∈ H mit ||Xn − X||2 → 0 für n → ∞. Nach Satz 5.6 (Fischer-Riesz)
ist (Xn )n∈N als Cauchy-Folge in H0 konvergent gegen ein X0 ∈ H0 , also ||Xn − X0 ||2 → 0 für
n → ∞. Damit ist aber X = X0 P -fast sicher. 

Eine Möglichkeit der Konstruktion der bedingten Erwartung ist nun, M0 : H → H0 als die
orthogonale Projektion in H zu wählen. Wir beweisen dazu einen allgemeinen Existenzsatz für
Hilberträume. Anschließend kann dies dann für Zufallsgrößen X ∈ L1 (Ω, A, P ) verallgemeinert
werden.
Es sei H ein Hilbertraum über R mit Skalarprodukt (x, y) 7→ hx, yi ∈ R. Sei weiter H0 ⊂ H ein
Unterraum. Dann heißt der Unterraum

H0⊥ := {x ∈ H : hx, x0 i = 0 für alle x0 ∈ H0 }

das orthogonale Komplement von H0 . Wir bezeichnen mit Id : H → H die identische Abbildung.
Satz 10.3 (Orthogonale Projektion)
Es sei H ein Hilbertraum und H0 ⊂ H ein abgeschlossener Unterraum. Dann existiert eine
stetige lineare Abbildung M0 : H → H0 mit den Eigenschaften
(1) x − M0 x ∈ H0⊥ für alle x.
(2) hM0 x, yi = hx, M0 yi = hM0 x, M0 yi für alle x, y ∈ H (M0 ist selbstadjungiert).
(3) M02 = M0 .
(4) x = y + z mit y ∈ H0 und z ∈ H0⊥ impliziert y = M0 x für alle x ∈ H.
(5) ||x||2 = ||M0 x||2 + ||x − M0 x||2 für alle x ∈ H.

Beweis:
Wir konstruieren M0 x: Es sei x ∈ H und yn ∈ H0 mit limn→∞ ||x − yn || = inf ||x − y|| =: δ.
y∈H0
Wegen der Apollonius-Identität gilt für alle u, v ∈ H
1
||u||2 + ||v||2 = (||u + v||2 + ||u − v||2 )
2
und daher mit u = x − ym , v = x − yn
ym + yn
2 = 1 ||ym − yn ||2 .
||x − ym ||2 + ||x − yn ||2 − 2 x −
2 2

82
ym +yn ym +yn 2

Da ym , yn ∈ H0 , folgt 2
∈ H0 und somit x − 2
≥ δ 2 . Somit erhalten wir

1
lim sup ||ym − yn ||2 ≤ δ 2 + δ 2 − 2δ 2 = 0,
m,n→∞ 2

d. h. (yn )n∈N ist Cauchy-Folge in H. Wegen der Vollständigkeit von H folgt somit die Existenz
eines M0 x ∈ H mit ||yn − M0 x|| → 0 für n → ∞. Da H0 abgeschlossen ist, folgt M0 x ∈ H0 . Falls
x0 +M x 2
nun x00 ∈ H0 eine weitere beste Approximation zu x ist, gilt ||x−x00 || = δ und x− 0 2 0 ≥ δ 2 .
Wegen Apollonius für x, x00 , M0 x folgert man wie oben

x0 + M0 x
2 = 1 ||x00 − M0 x||2 ≥ 0.
0 ≥ δ 2 + δ 2 − 2 x − 0

2 2
Dies bedeutet aber x00 = M0 x und damit hat man die Eindeutigkeit.
(1): Es sei y ∈ H0 beliebig. Dann gilt

||x − M0 x − ty||2 = ||x − M0 x||2 + t2 ||y||2 − 2thx − M0 x, yi

für alle t ∈ R. Wegen der Extremaleigenschaft von M0 x hat die quadratische Form auf der
rechten Seite der obigen Gleichung ein Minimum in t = 0, d. h. Differentiation in t = 0 liefert
hx − M0 x, yi = 0. Somit folgt (1).
(2): Aus hM0 x, yi = hM0 x, (y − M0 y) + M0 yi = hM0 x, y − M0 yi + hM0 x, M0 yi und hx, M0 yi =
hx − M0 x + M0 x, M0 yi = hx − M0 x, M0 yi + hM0 x, M0 yi folgt mit (1) die Behauptung.
(3): Offensichtlich gilt: ist y ∈ H0 , so ist M0 y = y. Damit ist M02 = M0 .
(4): Sei x = y + z mit y ∈ H0 und z ∈ H0⊥ . Dann ist y + z = M0 x + (x − M0 x) und somit
y−M0 x = x−M0 x−z ∈ H0 ∩H0⊥ . Damit folgt aber ky−M0 xk2 = hy−M0 x, y−M0 xi = 0. Daraus
folgt (4).
(5) folgt aus (1).
Wir zeigen nun die Linearität von x 7→ M0 x. Es seien x, y ∈ H und a, b ∈ R. Dann gilt
 
aM0 x + bM0 y + a(Id −M0 )x + b(Id −M0 )y
= ax + by
= M0 (ax + by) + (Id −M0 )(ax + by)

Hier ist nun jeweils der erste Summand der ersten bzw. der letzten Summe in H0 und der zweite
in H0⊥ . Aus (4) folgt M0 (ax + by) = aM0 x + bM0 y. Aus (5) folgt ||M0 x||2 ≤ ||x||2 , also ist M0
stetig. 
Wir wenden diesen Satz auf H0 = L2 (Ω, A0 , P ) und H = L2 (Ω, A, P ) an:
Satz 10.4
Sei A0 ⊂ A eine Teil-σ-Algebra und g, h ∈ L2 (Ω, A, P ). Dann existiert eine orthogonale Pro-
jektion
E(·|A0 ) : L2 (Ω, A, P ) → L2 (Ω, A0 , P )
mit Rden Eigenschaften:
R
R für alle BR ∈ A0 .
(1) B g dP = B E(g|A0 ) dP
(2) Ist h A0 -messbar und B h dP = B g dP für alle B ∈ A0 , so folgt h = E(g|A0 ) P -fast
sicher.

83
(3) E(·|A0 ) lässt sich eindeutig auf L1 (Ω, A, P ) ⊃ L2 (Ω, A, P ) fortsetzen, d. h.
E(·|A0 ) : L1 (Ω, A, P ) → L1 (Ω, A0 , P ),
sodass (1) und (2) für alle g, h ∈ L1 (Ω, A, P ) gilt.
Beweis:
Aus Proposition 10.2 folgt, dass H0 abgeschlossen ist. Somit existiert nach 10.3 eine orthogonale
Projektion auf L2 (Ω, A0 , P ).
(1): Aus Satz 10.3 (2),(3) folgt mit 1B ∈ H0 :
Z Z
g dP = h1B , gi = hE(1B |A0 ), gi = h1B , E(g|A0 )i = E(g|A0 ) dP.
B B
R 
(2): Aus (1) folgt 1B h−E(g|A0 ) dP = 0 für alle B ∈ A0 . Mit B± := {h−E(g|A0 ) ≷ 0} ∈ A0
folgt die Behauptung aus Satz 3.25.
(3): Für n ∈ N sei gn := g 1{|g|≤n} , d. h. |gn − g| ≤ |g| ∈ L1 . Mit dem Satz von der dominierten
Konvergenz folgt Z
(∗) lim |gn − g| dP = 0.
n→∞

R gn beschränkt
Da R ist, ist gn ∈ L2 (Ω, A, P ). Setze hn := E(gn |A0 ) ∈ L2 (Ω, A0 , P ). Mit (1) folgt
g dP = B hn dP für alle B ∈ A0 und für alle n ∈ N. Also
B n
Z Z Z

(∗∗) sup hm dP − hn dP = sup (gn − gm ) dP
B∈A0 B B B∈A0 B
Z Z
≤ sup |gn − gm | dP ≤ |gn − gm | dP.
B∈A0 B

Sei nun B+ := {hn − hm ≥ 0}, B− := {hn − hm ≤ 0}. Dann gilt B± ∈ A0 und (∗∗) liefert
Z Z
|hm − hn | dP ≤ |gm − gn | dP.

Die Addition dieser beiden Ungleichungen liefert dann


Z Z
|hm − hn | dP ≤ 2 |gm − gn | dP.

Aus (∗) folgt somit, dass (hn )n∈N eine || · ||1 -Cauchy-Folge ist. Nach Satz 5.6 von Fischer-Riesz
für L1 (Ω, A0 , P ) folgt die Existenz eines h ∈ L1 (Ω, A0 , P ) mit limn→∞ ||hn − h||1 = 0. Weiter
gilt für B ∈ A0
Z Z Z Z Z
| gdP − hdP | ≤ | gdP − hn dP | + | (hn − h)dP |
B B Z B B Z B

≤ |g − gn |dP + |hn − h|dP


ZB Z
≤ |g − gn |dP + |hn − h|dP,
R R
woraus für n → ∞ mit (∗) B
gdP = B
hdP folgt. Die Eindeutigkeit folgt wie in (2). 

84
Definition 10.5
Die in Satz 10.4 (3) definierte Funktion E(g|A0 ) für g ∈ L1 (Ω, A, P ) heißt bedingte Erwartung
von g gegeben A0 .

Bemerkung 10.6
(1) Die bedingte Erwartung ist P -fast sicher eindeutig bestimmt.
(2) Es gilt: E(g|A) = g und E(g|{∅, Ω}) = E(g)1Ω P -fast sicher.
(3) Falls A0 = A(X) für ein messbares X : Ω → R, so heißt E(g|X) := E(g|A(X)) die bedingte
Erwartung von g gegeben X. Nach Proposition 2.13 existiert eine Borel-messbare Abbildung
ϕ : R → R, so dass E(g|X) = ϕ ◦ X : Ω → R. Hierbei heißt ϕ(x) die bedingte Erwartung
von g gegeben X = x oder kurz E(g|X = x) := ϕ(x), wobei ϕ PX -fast sicher eindeutig ist.

Bedingte Erwartungen haben alle Eigenschaften des Integrals bzw. des Erwartungswertes:
Proposition 10.7
(1) E(ag1 +bg2 |A0 ) = a E(g1 |A0 )+b E(g2 |A0 ) für alle g1 , g2 ∈ L1 (P ) und a, b ∈ R P -fast sicher.
(2) g ≥ 0 P -fast sicher, g ∈ L1 (P ) ⇒ E(g|A0 ) ≥ 0 P -fast sicher.
(3) Es sei fn ≥ g für alle n ∈ N, g ∈ L1 (P ) und (fn )n∈N eine monoton wachsende Folge in
L1 (P ) mit Limes in L1 (P ). Dann gilt:

lim E(fn |A0 ) = E( lim fn |A0 ) P -fast sicher.


n→∞ n→∞

(4) Es sei g ∈ L1 (P ), h A0 -messbar und g h ∈ L1 (P ). Dann gilt

E(g h|A0 ) = h E(g|A0 ).



(5) Es gilt E E(g|A0 ) = E(g) für alle g ∈ L1 (P ).
(6) Es seien A1 ⊂ A0 ⊂ A σ-Algebren. Dann gilt:

E E(g|A0 )|A1 = E(g|A1 )

für alle g ∈ L1 (P ).
(7) Die Abbildung

M0 : L1 (Ω, A, P ) −→ L1 (Ω, A0 , P )
g 7→ E(g|A0 )

ist ein linearer Operator mit ||M0 || = sup {||M0 f ||1 : ||f ||1 = 1} = 1 und M02 = M0 .
(8) Es konvergiere (gn )n∈N gegen g in der L1 (P )-Norm. Dann konvergiert auch E(gn |A0 ) in der
L1 (P )-Norm gegen E(g|A0 ).
(9) Es gilt die bedingte Hölder-Ungleichung: Es seien f ∈ Lp (P ), g ∈ Lq (P ) mit 1r = p1 + 1q und
1 ≤ r, p, q ≤ ∞. Dann gilt:

 1/r  1/p  1/q


     
r p q
E |f g| |A0 ≤ E |f | |A0 E |g| |A0

P -fast sicher.

85
Beweis: R R
(1): Da aE(g1 |A0 )+bE(g2 |A0 ) A0 -messbar ist und B ag1 +bg2 dP = B aE(g1 |A0 )+bE(g2 |A0 )dP
für alle B ∈ A0 gilt, folgt die Behauptung
R aus der
R Definition und Eindeutigkeit in 10.4.
(2): Es sei A ∈ A0 . Dann ist A E(g|A0 ) dP = A g dP ≥ 0. RDaraus folgt E(g|AR0 ) ≥ 0 P -fast
sicher, denn Rwählt man A = {E(g|A0 ) < 0}, so gilt 0 ≥ 1A E(g|A0 )dP = 1A gdP ≥ 0,
d. h. es folgt 1A E(g|A0 )dP = 0 und daher 1A E(g|A0 ) = 0 P -fast sicher nach Satz 3.25, d. h.
P (A) = 0.
(3): Es sei ohne Einschränkung fn ≥ 0, fn ↑ f . Dann folgt nach (1) und (2) E(fn |A0 )(ω) ↑ für
alle ω ∈/ N mit P (N ) = 0. Ferner gilt
Z Z
fn dP = E(fn |A0 ) dP
A A

für alle n ∈ N und A ∈ A0 . Mit dem Satz von der monotonen Konvergenz (einmal auf fn und
einmal auf E(fn |A0 ) angewandt) folgt also
Z Z Z Z
lim fn dP = f dP = lim E(fn |A0 ) dP = lim E(fn |A0 ) dP,
n→∞ A A n→∞ A A n→∞

woraus wegen der Eindeutigkeit E(f |A0 ) = limn→∞ E(fn |A0 ) P -fast sicher folgt.
(4): Es ist |g|, |g| |h| ∈ L1 (P ). Sei ohne Einschränkung g, h ≥ 0. Weiter sei zunächst h = 1B mit
B ∈ A0 und A ∈ A0 beliebig. Dann gilt
Z Z Z Z
gh dP = g dP = E(g|A0 ) dP = hE(g|A0 ) dP,
A A∩B A∩B A

woraus wegen der Eindeutigkeit E(gh|A0 ) = h E(g|A0 ) P -fast sicher folgt. Damit gilt diese
Gleichheit wegen (1) auch für Treppenfunktion und wegen (3) auch für beliebige messbare
Funktionen h. R R R R 
(6): Für B ∈ A1 ⊂ A0 gilt B E(g|A1 ) dP = B g dP = B E(g|A0 ) dP = B E E(g|A0 )|A1 dP
nach Definition. Wegen der A1 -Messbarkeit des letzten Integranden folgt die Behauptung aus
der Eindeutigkeit.
(5): Folgt mit A1 = {∅, Ω}.
(7): Aus g ∈ L1 (P ) folgt |g| + g ≥ 0 und |g| − g ≥ 0. Damit ergibt sich mit (1) und (2)
−E(|g||A0 ) ≤ E(g|A0 ) ≤ E(|g||A0 ), also |E(g|A0 )| ≤ E(|g||A0 ) P -fast sicher. Mittels Integra-
tion folgt nun mit (5), dass ||E(g|A0 )||1 ≤ ||E(|g||A0 )||1 = ||g||1 und damit ||M0 || ≤ 1. Aus (1)
folgt die Linearität und wegen E(1|A0 ) = 1 P -fast sicher schließlich ||M0 || = 1. Mit A0 = A1
in (6) sieht man M02 = M0 .
(8) folgt aus (7).
(9) ist eine Übung (man kopiere den Beweis der unbedingten Hölder Ungleichung). 
Sei nun A1 ∪ A2 ∪ · · · ∪ Ak = Ω mit P (Aj ) > 0, j = 1, . . . , k, eine disjunkte Zerlegung von Ω und
A0 die von diesen Mengen erzeugte σ-Algebra. Dann gilt für jede Menge B ∈ A nach Definition
der bedingten Erwartung
X k
E(1B |A0 ) = P (B|Aj )1Aj
j=1

mit den bedingten Wahrscheinlichkeiten P (B|Aj ) = P (B ∩ Aj )/P (Aj ), die Mittelwerte von 1B
über die Mengen Aj sind. Deshalb nennt man diese Treppenfunktion in Analogie zur bedingten

86
Erwartung E(1B |A0 ) die bedingte Wahrscheinlichkeit von B gegeben A0 . Dies ist eine A0 -
messbare Funktion (!) auf Ω.
Definition 10.8
Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A0 ⊂ A eine Teil-σ-Algebra. Dann heißt Q :
Ω × A → R bedingte Wahrscheinlichkeit von P gegeben A0 , falls die folgenden Eigenschaften
erfüllt sind:
(1) ω 7→ Q(ω, A) ist A0 -messbar für alle A ∈ A,
(2) A 7→ Q(ω, A) ist ein Wahrscheinlichkeitsmaß für alle ω ∈ Ω, d. h. Q ist ein Übergangskern
(siehe
R Definition 6.9),
(3) B Q(ω, A) P (dω) = P (A ∩ B) für alle B ∈ A0 .
Ein offensichtlicher Kandidat hierfür wäre
Q(ω, A) := EP (1A |A0 )(ω), ω ∈ Ω.
Er erfüllt (1) und (3). Für A1 , A2 , . . . ∈ A paarweise disjunkt existiert ein N ∈ A0 mit P (N ) = 0
und ∞
X
Q(ω, Aj ) = Q(ω, ∪j Aj ) ∀ ω ∈ / N,
j=1

wegen Proposition 10.7 (1). Aber N hängt von (Aj )j∈N ab! Man nennt dieses Q(ω, ·) eine Version
der bedingten Wahrscheinlichkeit. Version soll dabei heißen, dass diese Abbildung für ein festes
A ∈ A P -fast sicher mit einer bedingten Wahrscheinlichkeit übereinstimmt. Es gilt nun der
folgende Satz, der hier nicht bewiesen werden soll:

Satz 10.9
Sei P ein Wahrscheinlichkeitsmaß auf (R, B 1 ) und A0 ⊂ B 1 eine Teil-σ-Algebra. Dann existiert
eine bedingte Wahrscheinlichkeit gegeben A0 als Version der bedingten Erwartungen E(1A |A0 ).
Ähnliches gilt für (Rk , B k ).
Man betrachte die Ausführungen in Breiman, Probability, §4.3, sowie Bauer, Wahrscheinlich-
keitstheorie, §44, Satz 44.3. Die Idee der Konstruktion im Beweis dieses Satzes ist ungefähr
die folgende: Man wähle sich einen abzählbaren Erzeuger von B 1 , etwa As = (−∞, s], s ∈ Q.
Dann ist Q(ω, ·) durch Q(ω, As ), s ∈ Q, festgelegt. Man wähle dann Versionen von bedingten
Erwartungswerten, sodass s 7→ Q(ω, As ) mit s ∈ Q (ggf. nach Abänderung auf einer Nullmenge)
die folgenden Eigenschaften erfüllt: Q(ω, As ) ≤ Q(ω, At ) für s < t ∈ Q und lims→±∞ Q(ω, As ) =
0 oder = 1. Definiere dann Q(ω, (−∞, r]) := lims↓r Q(ω, As ). Dies ist eine rechtsstetige Funktion.
Diese Definition und der Fortsetzungssatz von Carathéodory liefern den Beweis: Man prüfe 10.8
(3) nach (es gilt für B = As , s ∈ Q, dann auch für Differenzen, und dann wende man den Satz
von der monotonen Konvergenz an, um 10.8 (3) für alle halboffenen Intervalle zu zeigen, woraus
die Behauptung wegen des Eindeutigkeitsatzes für die Maße auf beiden Seiten von 10.8 (3) für
alle messbaren B folgt.)

Korollar 10.10
Sei Q(ω, A) eine bedingte Wahrscheinlichkeit von P gegeben A0 . Dann gilt für f ∈ L1 (P ):
Z
E(f |A0 )(ω) = f dQ(ω, ·)

für P -fast alle ω ∈ Ω.

87
Beweis:
Für f = 1A mit A ∈ A ist dies nach Definition klar. Mit 10.7 (3) geht der Beweis dann wie
üblich durch Approximation beliebiger f ≥ 0 durch monotone Folgen von Treppenfunktionen
und Zerlegung f = f + − f − . 

Maße mit Dichten – Der Satz von Radon-Nikodým


Seien nun µ, ν zwei endliche, positive Maße in (Ω, A) mit der Eigenschaft, dass µ(A) = 0
für ein A ∈ A impliziert, dass auch ν(A) = 0Rgilt. Man fragt nun nach der Existenz einer
messbaren Abbildung f : Ω → R+ mit ν(A) = A f dµ. (Ein solches f wird auch als „Dichte“
bezeichnet.) Sei µ ein endliches Maß und f ∈ L1 (µ) mit f ≥ 0. Nach dem Satz über die
dominierte Konvergenz folgt für eine Folge An ↓ ∅
Z
lim f dµ = 0.
n An

Hieraus folgert man, dass Z


ν(A) := f dµ
A
eine nichtnegative σ-additive Mengenfunktion mit ν(∅) = 0, d. h. ein endliches Maß ist. Für
stetige Funktionen f auf R weiß man aus der Analysis (Hauptsatz der Integral- und Differential-
rechnung), dass Z a+ε
−1
lim ε f (x)dx = f (a)
ε↓0 a
ist, d. h. man kann f aus dem obigem Maß ν zurückgewinnen. Im Folgenden wollen wir diesen
„Differentiationssatz“ für endliche Maße verallgemeinern.
Wir benötigen noch den folgenden Existenzsatz:
Satz 10.11 (Riesz’scher Darstellungssatz in Hilberträumen)
Es sei λ : H → R ein stetiges lineares Funktional auf einem Hilbertraum H. Dann existiert
genau ein aλ ∈ H mit λ(x) = hx, aλ i für alle x ∈ H.
Beweis:
Es sei Hλ := {x ∈ H : λ(x) = 0} 6= H (falls λ 6= 0). Hλ = λ−1 (0) ist abgeschlossen, da λ
stetig ist. Sei a ∈ H \ Hλ und a0 ∈ Hλ die orthogonale Projektion von a auf Hλ (existiert
nach Satz 10.3), wobei 0 6= a − a0 ∈ Hλ⊥ nach 10.3 (1). Setze a1 := (a − a0 )/||a − a0 || ∈ Hλ⊥ .
λ(x)
Wegen λ(a1 ) = λ(a)/||a − a0 || 6= 0 ist x − λ(a1)
a1 ∈ Hλ wohldefiniert und wegen a1 ∈ Hλ⊥
λ(x)
gilt: hx − λ(a1)
a1 , a1 i = 0, d. h. mit Auflösen λ(x) = λ(a1 )hx, a1 i. Setze aλ := λ(a1 )a1 . Die
Eindeutigkeit von aλ ist klar. 

Korollar 10.12 (Satz von Radon-Nikodým)


Es seien µ, ν endliche Maße mit der Eigenschaft, dass µ(A) = 0 für ein A ∈ A immer ν(A) = 0
impliziert (in Zeichen: ν  µ, man sagt, ν ist absolut stetig bezüglich µ). Dann gibt es ein
f ∈ L1 (µ), f ≥ 0, mit Z
ν(A) = f dµ ∀A ∈ A.
A

f =: dµ
heißt Radon-Nikodým-Ableitung von ν nach µ und ist µ-fast sicher eindeutig.

88
Beweis:
Es sei λ := µ + ν. Da ν endlich ist, folgt L2 (λ) ⊂ L2 (ν) ⊂ L1 (ν). Sei für f ∈ L2 (λ)
Z
Λ(f ) := f dν.

Dann gilt wegen Hölders Ungleichung 5.1


Z 1/2 Z 1/2
1/2 2 1/2 2
|Λ(f )| ≤ ν(Ω) |f | dν ≤ ν(Ω) |f | dλ .

Damit ist Λ ein beschränktes (und somit auch stetiges) lineares Funktional auf L2 (λ). Nach
Satz 10.11 existiert also ein f0 ∈ L2 (λ) mit
Z Z

(∗) Λ(f ) = f dν = f f0 dλ = hf, f0 i

für alle f ∈ L2 (λ). Insbesondere folgt für f = 1E , E ∈ A, dass


Z
ν(E) = f0 dλ ≥ 0
E

für alle E ∈ A und daher auch f0 ≥ 0 λ-fast sicher nach Satz 3.25. Da
Z
(1 − f0 ) dλ = λ(E) − ν(E) = µ(E) ≥ 0
E

für alle E ∈ A gilt, folgt schließlich erneut nach Satz 3.25 f0 ≤ 1 λ-fast sicher. Wir können also
f0 so wählen, dass 0 ≤ f0 ≤ 1 und (∗) gilt. Wir setzen nun Ω1 = {f0 = 1}, Ω2 = {0 < f0 < 1}
und Ω3 = {f0 = 0}. Dies sind Mengen aus A und sie zerlegen den Raum Ω. Wir folgern zunächst
ν(Ω3 ) = 0 und
Z Z Z Z Z
(∗∗) (1 − f0 ) dν = ν(E) − f0 dν = f0 dλ − f0 dν = f0 dµ
E E E E E

für alle messbaren E. Aus dieser Gleichung können wirR nun zwei Aussagen folgern.
Erstens gilt: Wählt man E = Ω1 , so gilt µ(Ω1 ) = Ω1 f0 dµ = 0. Zweitens kann man aus der
Gleichung (∗∗) mit den üblichen Approximationsmethoden von 1E , E ⊂ Ω2 , auf alle messbaren
f : Ω2 → R+ schließen und erhält
Z Z
(∗ ∗ ∗) f (1 − f0 ) dν = f f0 dµ.
Ω2 Ω2

1E
Setze nun f = 1−f0
mit E ⊂ Ω2 (und in A). Dann gilt wegen (∗ ∗ ∗)
Z Z Z
f0
ν(E) = f (1 − f0 )dν = f f0 dµ = dµ.
Ω2 E 1 − f0

Schließlich ist mit µ(Ω1 ) = 0 auch ν(Ω1 ) = 0 (wegen ν << µ (!)), also (mit ν(Ω3 ) = 0)
Z
f0
ν(E) = ν(E ∩ Ω2 ) = 1Ω2 dµ.
E 1 − f0

89
Damit endlich können wir für die gesuchte Ableitung
(
f0 (ω)
dν , ω ∈ Ω2 ,
(ω) := f (ω) = 1−f0 (ω)
dµ 0, sonst,

setzen. Die Eindeutigkeit ist mit der üblichen Methode klar. 

Bemerkung 10.13
Allgemeiner gilt: Seien µ ein σ-endliches Maß und ν ein beliebiges Maß mit ν  µ. Dann gibt
es ein f : Ω → R+ mit Z
ν(A) = f dµ ∀A ∈ A.
A
f ist µ-fast sicher eindeutig.

Beweis:
Übung! 

Korollar 10.14 (Eigenschaften der Radon-Nikodým-Ableitung)


Seien µ, ν, ρ σ-endliche Maße auf einem messbaren Raum (Ω, A) mit ρ  ν  µ.

(1) Ist f : Ω → R eine messbare Funktion, so ist f ∈ L1 (ν) genau dann, wenn f dµ ∈ L1 (µ),
und in diesem Falle gilt Z Z

f dν = f dµ.

(2) Es gilt die Kettenregel :
dρ dρ dν
= µ-f.ü.
dµ dν dµ

(3) f := d(µ+ν)
existiert, und für ν, µ endlich gilt

dν f
= µ-f.ü.
dµ 1−f

(4) Ist dµ
> 0 µ-f.ü., so gilt auch µ  ν, und es ist

dµ  dν −1
= ν-f.ü.
dν dµ

Beweis:
Übung. 

90
Der Birkhoff’sche Ergodensatz
Wir betrachten nun einen sogenannten Ergodensatz und als Folgerung daraus das starke Gesetz
der großen Zahlen nach Kolmogorov, so wie wir es in Satz 9.12 formuliert haben.
Es sei (Ω, A, Q) ein Wahrscheinlichkeitsraum und (Xi )i∈N eine Folge von unabhängigen und
identisch verteilten Zufallsvariablen. Sei

X : Ω → RN

ω 7→ (X1 (ω), X2 (ω), . . . ).


Dies ist eine A-B N messbare Abbildung. Sei P = QX die induzierte Verteilung auf (RN , B N ).
Dann ist P = ⊗∞ j=1 QX1 nach Satz 8.11, da die Xj unabhängig sind. Für die „Zeitverschiebung“

T : RN → RN
(x1 , x2 , . . . ) 7→ (x2 , x3 , x4 , . . . )

gilt: T ist messbar und für A = {x ∈ RN : xj ∈ Aj , j = 1, . . . , k} folgt

PT (A) = P {T −1 A} = P {T (x1 , x2 , . . . ) ∈ A}
= P {(x1 , x2 , . . . ) ∈ RN : x2 ∈ A1 , x3 ∈ A2 , . . . , xk+1 ∈ Ak }
Yk
= Q(X1 ∈ Aj ) = P (A).
j=1

Damit ist PT = P , da die endlich-dimensionalen Zylindermengen ein ∩-stabiler Erzeuger sind.


Man sagt dann, dass T wahrscheinlichkeitstreu ist. Da für x := (x1 , x2 , x3 , . . . ) ∈ RN mit T 0 := Id
gilt
(T j x)1 = xj+1 , j = 0, 1, . . . , (?)
folgt für die messbare Zufallsgröße f : RN → R mit f (x) := x1
 n 
1X
P x∈R :
N
xj konvergiert für n → ∞
n j=1
 n 
1X j−1
= P x∈R :
N
f (T x) konvergiert für n → ∞ .
n j=1

Nach Beispiel 7.16 und Satz 7.17 ist das obige Ereignis in T∞ (X1 , X2 , . . . ) terminal und hat
somit Wahrscheinlichkeit 0 oder 1. Wir müssen zeigen, dass die Wahrscheinlichkeit 1 ist, um
das starke Gesetz (Satz 9.12) zu beweisen. Wir verallgemeinern dazu die obige Situation.

Definition 10.15
Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Sei T : Ω → Ω eine messbare Abbildung.
(1) A ∈ A heißt T -invariant, falls
P (A4T −1 A) = 0.
(2) T heißt wahrscheinlichkeitserhaltend oder -treu, falls PT = P .

91
(3) T heißt ergodisch, falls T wahrscheinlichkeitserhaltend ist und jede T -invariante Menge
A ∈ A Wahrscheinlichkeit 0 oder 1 hat.
(4) Die σ-Algebra J = J (T ) der T -invarianten Mengen heißt invariante σ-Algebra von T .

In unserem Beispiel mit P = QNX1 und T wie oben (Zeittransformation) gilt für ein T -invariantes
A: Aus (1) folgt P ((T k−1 [A]∆A) = 0 für alle k und mit (?) erhalten wir A = Bk ∪ Nk , wo
Bk ∈ σ(Xk+1 , Xk+2 , . . .) und P (Nk ) = 0, Nk ∈ A für alle k, d. h.

A ∈ ∩∞
k=1 σ(Xk+1 , Xk+2 , . . .) = T∞ (X1 , X2 , . . .).

Somit liegt A in der Vervollständigung der terminalen σ-Algebra T∞ der X1 , X2 , . . . (vgl. Satz
1.32 (2)), welche nach dem 0-1-Gesetz 7.17 für unabhängige Xj trivial ist, d.h. nur Ereignisse
mit Wahrscheinlichkeit 0 oder 1 enthält. Also ist T : RN → RN bzgl. P ergodisch.
Als Vorbereitung für den Ergodensatz betrachten wir:
Lemma 10.16 (Maximalungleichung)
Es seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und T : Ω → Ω eine wahrscheinlichkeits-
erhaltende Abbildung. Weiter sei f ∈ L1 (P ) und

fn (ω) := f (ω) + f (T ω) + · · · + f (T n−1 ω), f0 (ω) = 0

und
An := {ω ∈ Ω : max(f1 (ω), . . . , fn (ω)) ≥ 0}.
Dann gilt Z
f dP ≥ 0.
An

Beweis:
Es sei
Fn (ω) := max(f0 (ω), f1 (ω), . . . , fn (ω)).
Für jedes k ≤ n gilt dann Fn (T ω) ≥ fk (T ω). Damit folgt

f (ω) + Fn (T ω) ≥ f (ω) + fk (T ω) = fk+1 (ω)

und somit
f (ω) + Fn (T ω) ≥ max(f1 (ω), . . . , fn (ω)).
Für ω ∈ An ist die rechte Seite ist gleich Fn (ω). Daraus folgt
Z Z Z
f dP ≥ Fn dP − Fn ◦ T dP.
An An An

Da weiter Fn (ω) = 0 für ω ∈


/ An und Fn (ω) ≥ 0, sieht man
Z Z Z Z Z
f dP ≥ Fn dP − Fn dPT = Fn dP − Fn dP = 0.
An Ω Ω Ω Ω

92
Satz 10.17 (Birkhoffs individueller Ergodensatz)
Es seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und T : Ω → Ω eine messbare Abbildung mit
PT = P und f ∈ L1 (P ). Sei weiter
f + f ◦ T + · · · + f ◦ T n−1
An f := .
n
Dann konvergiert An f P -fast sicher gegen E(f |J ), wobei J die σ-Algebra der invarianten
Mengen ist. Weiter gilt limn→∞ E|An f − E(f |J )| = 0.

Beweis:
Es sei a < b und

Ωa,b := ω : lim inf (An f )(ω) < a < b < lim sup(An f )(ω) .
n→∞ n→∞

Wir zeigen P (Ωa,b ) = 0 für alle a < b. Angenommen, es ist P (Ωa,b ) > 0. Die Menge Ωa,b ist
invariant unter T . Man betrachte den Wahrscheinlichkeitsraum (Ωa,b , Ωa,b ∩ A, µ), wo µ(A) :=
P (A∩Ωa,b )
P (Ωa,b )
. Dann gilt für T : Ωa,b → Ωa,b , dass µT = µ. Setze

g(ω) := f (ω) − b, h(ω) := a − f (ω).

Dann folgt aus der Annahme lim supn→∞ (An g)(ω) > 0 sowie lim supn→∞ (An h)(ω) > 0 für
alle ω ∈ Ωa,b . Insbesondere folgt mit gn := nAn g und hn := nAn h, dass supn≥1 gn (ω) > 0 und
supn≥1 hn (ω) > 0 für alle ω ∈ Ωa,b und daher
[ [
Ωa,b = max gn (ω) > 0, ω ∈ Ωa,b = max hn (ω) > 0, ω ∈ Ωa,b .
1≤n≤N 1≤n≤N
N | {z } N | {z }
AN BN

Wir bezeichnen die Mengen nach dem ersten Gleichheitszeichen mit AN und nach dem zweiten
mit BN . Aus Lemma 10.16 folgt nun
Z Z
g dµ ≥ 0, h dµ ≥ 0 für alle N.
AN BN
R
Aus
R BN , AN ↑ Ωa,b folgern wir mit dem Satz über dominierte KonvergenzR g dµ ≥ 0 und
h dµ ≥ 0. Durch Addition beider Ungleichungen folgt nach Definition (h + g)dµ = a − b ≥ 0.
Dies ist ein Widerspruch, also folgt P (Ωa,b ) = 0, woraus sich
[  
P Ωa,b = P lim inf An f 6= lim sup An f = 0
n→∞ n→∞
a<b∈Q

ergibt. Es sei
Af := lim inf An f.
n→∞

Dann gilt Af (T ω) = Af (ω), d. h. Af ist invariant, also J -messbar. Falls f ≥ 0, so ist auch
An f ≥ 0 für alle n und nach dem Lemma von Fatou erhalten wir
Z Z n−1 Z
X Z
−1
Af dP ≤ lim inf An f dP = lim inf n f dPT j = f dP < ∞,
n→∞ n
j=0

93
d. h. Af ∈ L1 (P ). Anderenfalls zerlege man wie üblich f = f+ − f− , f± ≥ 0 und zeige analog
Af ∈ L1 (P ). Wir unterscheiden nun zwei Fälle:

1. Fall: Es sei |f | ≤ K. Dann ist auch |An f | ≤ K für alle n, woraus mit dem Satz über
dominierte Konvergenz von Lebesgue folgt, dass limn→∞ E|An f − Af | = 0. Mit B ∈ J gilt nun
wieder mit dem Lebesgue’schen Konvergenzsatz
Z Z Z
f dP = lim An f dP = Af dP.
B n→∞ B B

Die J -Messbarkeit von Af liefert damit Af = E(f |J ) P-fast sicher.

2. Fall: f ist nicht beschränkt: Zu ε > 0 existiert dann ein K und ein g ∈ L1 (P ) mit E|g−f | < ε
und |g| ≤ K. Mit Hilfe der ∆-Ungleichung finden wir

E|An f − E(f |J)| ≤ E|An (f − g)| + E|An g − E(g|J)| + E|E(g − f |J)|


≤ 2E|f − g| + E|An g − E(g|J)|,

wobei wir in der letzten Ungleichung E|An (f − g)| ≤ EAn |f − g| = E|f − g| (W-Treue von T )
sowie 10.7 (7) benutzt haben. Damit erhalten wir lim supn→∞ E|An f − E(f |J )| < 2 ε für alle
ε > 0. 
Korollar 10.18
Gegeben sei die Situation von Satz 10.17. Ist T ergodisch, so gilt

lim An f = E(f ) P -fast sicher.


n→∞

Beweis:
Ist A ∈ J , so ist P (A) = 0 oder P (A) = 1, da T ergodisch ist. Daraus folgt sofort die
Behauptung. 

Korollar 10.19
Es gilt die Aussage von Satz 9.12 (2), d. h. das starke Gesetz der großen Zahlen von Kolmogorov.

Beweis:
Der Zeitverschiebung T : RN → RN aus unserem Beispiel oben ist ergodisch. 

Beispiel 10.20
(1) Sei Ω = [0, 1) und P das Lebesgue-Maß auf [0, 1). Sei T : Ω → Ω definiert durch

ω 7→ ω + a mod 1, a ∈
/ Q.

Dann ist T wahrscheinlichkeitserhaltend und ergodisch.


(2) Sei Ω = [0, 1)k und P das Lebesgue-Maß auf Ω. Es seien a0 := 1 und T : Ω → Ω definiert
durch
ω 7→ ω + (a1 , . . . , ak ) mod 1
Pk
d. d. j=0 nj aj = 0 mit nj ∈ Z impliziert, dass nj = 0 für alle j. Dann ist T ergodisch.

94
Beweis:
(1) Nach der Vorlesung Maß- und Integrationstheorie (z. B. Fischer-Riesz, Satz 5.6) ist H =
L2 ([0, 1), B ∩ [0, 1), λ|[0,1) ; C) ein Hilbertraum von Funktionen f : [0, 1) → C mit Basis en (x) :=
exp[2πinx], n ∈ Z, d. h. f ∈ H hat Entwicklung
X
f= cn exp[2πinx] in H,
n∈Z

d.
Ph. die Reihe konvergiert in H bzgl. k·k, d. h. eine Teilfolge konvergiert P -f.s. gegen f und
2
n∈Z |cn | < ∞. Dann gilt
X
f (T x) = cn exp[2πinx] exp[2πina]
n∈Z

im L2 -Sinne, d. h. falls f (x) = f (T x) P -f.s., so folgt wegen der Basiseigenschaft für die Koeffi-
zienten cn (1 − exp[2πina]) = 0, d. h. cn = 0 oder exp[2πina] = 1. Letzteres ist für a irrational,
n 6= 0 nie richtig, d. h. cn = 0 für n 6= 0, also f ≡ c0 P -f.s. Für alle A ∈ B ∩ [0, 1) setze nun
f = 1A . So folgt 1A = c0 P -f.s., also 1A ≡ 0 oder 1A ≡ 1 P -f.s., d. h. P (A) = 0 oder P (A) = 1.
Also ist T (x) = x + a mod 1 ergodisch.
(2) Folgt genauso mit H = L2 (Ω, B k ∩ Ω, P ) und der Orthonormalbasis exp[2πihn, xi], n ∈ Zk ,
und der Tatsache, dass mit a = (a1 , . . . , ak )

exp[2πihn, ai] − 1 = 0 ⇔ hn, ai = n0 für ein n0 ∈ Z ⇔ n = (n1 , . . . , nk ) = 0, also n0 = 0.

95
96
11 Martingale

Der Begriff des Martingals wurde von Doob eingeführt. Das starke Gesetz der großen Zahlen han-
delt von der fast sicheren Konvergenz normierter Summen Sn = X1 +· · ·+Xn von unabhängigen
Folgen (Xi )i∈N integrierbarer und zentrierter Zufallsvariablen. Mit Hilfe des Martingalbegriffs
erscheint das Konvergenzverhalten solcher Summenfolgen und vieler anderer Folgen von Zufalls-
größen in einem neuen Licht. Wir verwenden im folgenden die Bezeichnungsweise: Ist (Xi )i∈N
eine Folge von solchen Zufallsvariablen, so ist E(Xn+1 |σ(X1 , . . . , Xn )) =: E(Xn+1 |X1 , . . . , Xn ).
Wir betrachten einleitend das folgende sehr berühmte Beispiel:
Beispiel 11.1 (Das Ruin-Problem)
Es sei (Xn )n∈N ein Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit P (Xn = 1) = p = 1 − P (Xn = −1), 0 < p < 1. Dann ist E(Xn ) = 2p − 1.
Wir interpretieren die Folge (Xn )n∈N als ein Spiel zwischen einem Spieler und seinem Gegen-
spieler (etwa die Bank eines Casinos). Dabei bedeutet Xn (ω) = 1 bzw. −1 für den Spieler
Gewinn oder Verlust in der n-ten Spielrunde bei einem Spielverlauf ω. Der Spieler lege sich auf
die folgende Strategie bei seinen Einsätzen fest: Er wählt eine Folge (en )n∈N von Funktionen
en : {−1, 1}n → R+ , n = 1, 2, . . . .
Für die (n + 1)-te Spielrunde wird der vom Ausgang der vorausgegangenen n Runden abhängige
Einsatz en (X1 (ω), . . . , Xn (ω)) geleistet, wobei die erste Runde mit dem Einsatz e0 gespielt wird.
Die Bank leiste keine Einsätze. Wir geben dem Spieler ein Startkapital S0 > η > 0 und verlangen
einen Mindesteinsatz en ≥ η > 0, der aus dem vorhandenen Kapital Sn zur Zeit n zu finanzieren
ist, d. h. es soll außerdem Sn − en ≥ 0 für alle n mit en > 0 gelten, sonst darf der Spieler nicht
weiter setzen (formal: en = 0, keine Einsätze).
Wir betrachten nun den Gesamtgewinn (Sn )n∈N des Spielers nach der n-ten Runde. Es ist
S1 = S0 + e0 X1 , wobei e0 eine Konstante ist, und wir definieren induktiv
Sn+1 (ω) = Sn (ω) + en (X1 (ω), . . . , Xn (ω)) Xn+1 (ω).
Wir interessieren uns nun für die sogenannte Ruinwahrscheinlichkeit. Dazu sei zu einem vor-
gegebenen Wert η > 0 (dem Mindesteinsatz) T (ω) := min{n ∈ N : Sn (ω) < η}, falls solche
 n
existieren, und T (ω) = +∞, sonst. Wir fragen nach der Wahrscheinlichkeit P T < +∞ , der
sogenannten Ruinwahrscheinlichkeit. Es gilt für alle n ∈ N P -fast sicher
E(Sn+1 |X1 , . . . , Xn ) = Sn + en (X1 , . . . , Xn ) E(Xn+1 |X1 , . . . , Xn )
= Sn + en (X1 , . . . , Xn ) E(Xn+1 )
= Sn + en (X1 , . . . , Xn ) (2p − 1),
da Sn σ(X1 , . . . , Xn )-messbar ist und Xn+1 von σ(X1 , . . . , Xn ) unabhängig ist. Wir haben dabei
die folgende Proposition verwendet:

97
Proposition 11.2
Ist X ∈ L1 (P ) und ist A1 ⊂ A eine Teil-σ-Algebra von A, von der X unabhängig ist, so folgt
E(X|A1 ) = E(X) P -fast sicher.
Beweis:
Es gilt für alle B ∈ A1 :
Z Z Z
X dP = E(1B X) = P (B) X dP = E(X) dP.
B B

Hierbei haben wir die Unabhängigkeit von 1B und X benutzt. Damit folgt die Behauptung. 
Also folgt in Beispiel 11.1: für p = 1/2 gilt E(Sn+1 |X1 , . . . , Xn ) = Sn P -fast sicher, für p < 1/2
gilt E(Sn+1 |X1 , . . . , Xn ) ≤ Sn fast sicher und für p > 1/2 gilt E(Sn+1 |X1 , . . . , Xn ) ≥ Sn fast
sicher.
Bemerkung 11.3
Offenbar gilt σ(S1 , . . . , Sn ) ⊂ σ(X1 , . . . , Xn ) (Übung!). Also ist Xn+1 auch von σ(S1 , . . . , Sn )
unabhängig, und daher gilt in Beispiel 11.1
E(Sn+1 |S1 , . . . , Sn ) = Sn
P -fast sicher für p = 1/2.
Eine solche Folge S1 , S2 , . . . von Zufallsgrößen, für die zudem E|Sj | < ∞ gilt, heißt nach Doob
Martingal (Zaumzeug). Entsprechend nennt man die Folge Submartingal, falls anstelle der obigen
Gleichheit ≥ fast sicher gilt, und Supermartingal, falls ≤ fast sicher gilt.
Allgemeiner betrachtet man eine aufsteigende Folge von σ-Algebren (Ft )t∈J (in Ω), wobei J
eine geordnete Menge bezeichnet, und Zufallsgrößen Xt , die Ft -messbar sein sollen (z. B. Ft =
σ(Xs : s ≤ t, s ∈ J)). Dann definiert man
Definition 11.4
Es seien J eine geordnete Menge und (Ω, A, P ) ein Wahrscheinlichkeitsraum.
(1) Eine Filtration oder Filtrierung ist eine aufsteigende Familie (Ft )t∈J von σ-Algebren Ft ⊂ A
für alle t ∈ J, d. h. es gilt Fs ⊂ Ft für alle s, t ∈ J mit s < t.
(2) Eine Familie von Zufallsgrößen (Xt )t∈J heißt zu der Filtration (Ft )t∈J adaptiert, wenn Xt
für jedes t ∈ J Ft -messbar ist.
(3) Sei (Xt )t∈J eine zu der Filtration (Ft )t∈J adaptierte Familie von Zufallsgrößen mit Xt ∈
L1 (P ) für alle t ∈ J. Dann heißt (Xt )t∈J ein Martingal , falls E(Xt |Fs ) = Xs P -fast sicher
gilt für alle s, t ∈ J mit s ≤ t. Entsprechend heißt (Xt )t∈J Submartingal , falls E(Xt |Fs ) ≥ Xs
fast sicher, und Supermartingal , falls E(Xt |Fs ) ≤ Xs fast sicher gilt.

Für den Rest dieses Kapitels betrachten wir nur noch den Fall I = N. (Natürlich bleibt alles
mit geringfügigen Änderungen auch für die endlichen Mengen I = {1, . . . , n} richtig.)
Bemerkung 11.5
Ist (Fn )n∈N eine Filtration und ist (Xn )n∈N eine adaptierte Familie in L1 (P ), so ist (Xn )n∈N
ein (Sub-)Martingal genau dann, wenn für alle n ∈ N
E(Xn+1 |Fn ) (≥) = Xn P -f.s.
gilt.

98
Beweis:
„⇒“: klar. „⇐“: Turmeigenschaft der bedingten Erwartung und Iteration. 
Bemerkung 11.6
Das Mengensystem Fn := σ(X1 , . . . , Xn ) in Beispiel 11.1 kodiert den bisherigen Spielverlauf
(j)
bis zur Zeit n. Betrachtet man nun N Zufallsvariablen Xn+1 , j = 1, . . . , N , die zusammen
mit X1 , . . . , Xn unabhängig sind und dieselbe Verteilung haben, so gilt für die zugehörigen
Spielgewinne, gegeben die gleiche Vergangenheit X1 , . . . , Xn :
1 (1) (N )  (1) 
lim Sn+1 + · · · + Sn+1 = E Sn+1 |Fn = Sn P -fast sicher
N →∞ N

(1) (1)
für p = 12 . Dies folgt wegen X1 + ... + Xn + E(Xn+1 ) = E Sn+1 |Fn aus dem Starken Gesetz


großer Zahlen (Satz 9.12):


1 (1) (N )  1 (1) (N )  (1)
Sn+1 + · · · + Sn+1 = X1 + ... + Xn + Xn+1 + · · · + Xn+1 −→ X1 + ... + Xn + E(Xn+1 ).
N N N →∞

Also ist E(Sn+1 |Fn ) der mittlere Gewinn gegeben die (Kenntnis der) Vergangenheit über alle
Spielfortsetzungen.

Wir betrachten das folgende Spiel (das sich z. B. als Aktienverkaufsproblem interpretieren lässt):
Man beobachtet ein Martingal (Xn )n∈N bzgl. einer Filtration (Fn )n∈N , bis man stoppt. Stoppt
man zum Zeitpunkt n ∈ N, so erhält man die Auszahlung Xn . Für die erwartete Auszahlung
zum deterministischen Zeitpunkt n ∈ N gilt dann
E(Xn ) = E( E(Xn |F1 ) ) = E(X1 ) ;
| {z }
= X1 P -f.s.
sie ist also für alle n ∈ N gleich. Dies führt auf die natürliche Frage: Kann man die erwartete
Auszahlung verbessern, indem man – abhängig vom Verlauf des Spiels – zu einem zufallsab-
hängigen Zeitpunkt T stoppt? Bei der Entscheidung, ob man stoppt, kann man nur Kenntnisse
über die Vergangenheit, nicht aber über die Zukunft benutzen (kein Prophet). Dies führt auf
die folgende Begriffsbildung:
Definition 11.7
Eine Stoppzeit (auch Optionszeit genannt) bezüglich einer Filtrierung (Fn )n∈N ist eine Zufalls-
variable T : Ω → N ∪ {∞} mit der Eigenschaft
{T = n} := {ω ∈ Ω : T (ω) = n} ∈ Fn für alle n ∈ N.
(Bemerkung: Manchmal bezeichnet man auch nur Abbildungen mit Werten in N als Stoppzeiten
und Abbildungen mit Werten in N ∪ {∞} als erweiterte Stoppzeiten.)
Für eine Familie (Xn )n∈N von Zufallsgrößen und eine Stoppzeit T sei
(
XT (ω) (ω), T (ω) < ∞,
XT (ω) :=
0, T (ω) = ∞.

(Bemerkung: Die Festlegung XT (ω) := 0 für T (ω) = ∞ ist willkürlich; wir werden aber meist
Stoppzeiten mit P (T < ∞) = 1 betrachten.)

99
Bemerkung 11.8
(1) Eine Zufallsvariable T : Ω → N ∪ {∞} ist eine Stoppzeit genau dann, wenn für alle n ∈ N
{T ≤ n} ∈ Fn gilt.
(2) Jede konstante Abbildung T : Ω → N ist eine Stoppzeit
(3) Sind T1 , T2 Stoppzeiten, so auch T1 ∨ T2 = max{T1 , T2 }, T1 ∧ T2 = min{T1 , T2 } sowie T1 + T2 .
(4) Sei (Xt )t∈N0 eine zu (Ft )t∈N0 adaptierte Familie. Dann sei für A ∈ B 1 TA (ω) := inf{t ∈ N0 :
Xt (ω) ∈ A} bzw. TA (ω) := ∞, falls die Menge leer ist. Dies ist eine (erweiterte) Stoppzeit.
Sie wird erste Eintrittszeit in A genannt.
(5) Die Abbildung XT ist eine Zufallsvariable.

Beweis:
benutze die Zerlegung der Zeit {TA = n} = {X0 6∈ A, . . . , Xn−1 6∈
(1) – (3): Übung. In (4) und (5)P
A, Xn ∈ A} ∈ Fn sowie XT = n∈N Xn 1{T =n} . 

Satz 11.9 (Optional Sampling Theorem)


Sei (Xn )n∈N ein (Sub-)Martingal bzgl. (Fn )n∈N und τ eine Stoppzeit bzgl. (Fn )n∈N . Dann ist
(Xτ ∧n )n∈N ein (Sub-)Martingal bzgl. (Fn )n∈N .

Für den Beweis benötigen wir:


Satz 11.10 (Martingaltransformationssatz)
Sei (Xn )n≥1 ein (Sub-)Martingal bzgl. (Fn )n≥1 und (An )n≥2 eine Folge von Zufallsvariablen,
sodass An Fn−1 -messbar ist für alle n ≥ 2. (Eine solche Folge heißt auch vorhersagbar bzgl.
(Fn )n≥1 .) Setze
hA, Xi1 := 0,
hA, Xin := A2 (X2 − X1 ) + . . . + An (Xn − Xn−1 ), n ≥ 2.
Wenn die An nichtnegativ und beschränkt sind, dann ist die Transformierte (hA, Xin )n≥1 ein
(Sub-)Martingal bzgl. (Fn )n≥1 .

Bemerkungen:
(1) Interpretation:
(Xn )n∈N = Aktienkurs
(Fn )n∈N = Informationen über Kurse bis n
(An )n≥2 = Anzahl der Aktien, die man vom Zeitpunkt n−1 bis zum Zeitpunkt n besitzt
(hA, Xin )n∈N = Gewinn / Verlust von 1 bis n
(2) Der Prozess (hA, Xin )n∈N heißt auch zeitdiskretes stochastisches Integral. Die Einführung
des zeitstetigen stochastischen Integral wird ein zentrales Thema in der WT II sein.

Beweis von Satz 11.10:


Für n ≥ 1 ist hA, Xin Fn -messbar und integrierbar (Übung!). Für n ≥ 2 gilt
E(hA, Xin |Fn−1 ) − hA, Xin−1 = E(hA, Xin − hA, Xin−1 |Fn−1 )
hA,Xin−1 Fn−1 -mb

= E(An (Xn − Xn−1 )|Fn−1 )

= An · E(Xn − Xn−1 |Fn−1 )


An Fn−1 -mb
 
= An · E(Xn |Fn−1 ) − Xn−1 (≥) = 0
Xn−1 Fn−1 -mb

100
P -f.s. und damit die Behauptung; vgl. Bemerkung 11.5. 

Beweis von Satz 11.9:


Setze An = I(τ ≥ n) = 1 − I(τ ≤ n − 1) ∈ Fn−1 , n ≥ 2. Dann gilt
X
hA, Xin = (Xk − Xk−1 ) = Xτ ∧n − X1 , n ≥ 1.
k:τ ≥k
n≥k≥2

Mit Satz 11.10 folgt für n ≥ 2 für den Fall Xn Martingal

E(Xτ ∧n |Fn−1 ) = E(hA, Xin + X1 |Fn−1 ) = hA, Xin−1 + X1 = Xτ ∧(n−1) P -f.s.


X1 Fn -mb

und damit die Behauptung; vgl. Bemerkung 11.5. Ebenso gilt dies für Xn Submartingal. 
Wir können nun die oben gestellte Frage für eine große Klasse von Stoppzeiten (negativ) beant-
worten:
Satz 11.11 (Optional Sampling Theorem)
Sei (Xn )n∈N ein (Sub-)Martingal bzgl. (Fn )n∈N und τ eine Stoppzeit bzgl. (Fn )n∈N .
(1) Ist τ P -f.s. beschränkt, d. h. gilt P (τ ≤ n0 ) = 1 für ein n0 ∈ N, so gilt E(Xτ ) (≥) = E(X1 ).
R endlich, d. h. gilt P (τ < ∞) = 1, und gilt darüber hinaus E|Xτ | < ∞ sowie
(2) Ist τ P -f.s.
limn→∞ {τ >n} |Xn | dP = 0, so gilt E(Xτ ) (≥) = E(X1 ).

Beweis:
(1) Da (Xτ ∧n )n∈N nach Satz 11.9 ein Martingal bzgl. (Fn )n∈N ist, gilt

E(Xτ ) = E(Xτ ∧n0 ) = E( E(Xτ ∧n0 |F1 ) ) (≥) = E(Xτ ∧1 ) = E(X1 ) .


| {z }
(≥) = Xτ ∧1 P -f.s.

(2) Nach (1) gilt E(Xτ ∧n )(≥) = E(X1 ), n ∈ N. Schreibe

E(Xτ ∧n ) = E(Xτ I(τ ≤ n)) + E(Xn I(τ > n)) .

Für n → ∞ gilt Xτ I(τ ≤ n) → Xτ P -f.s. (wegen P (τ < ∞) = 1) und somit

E(Xτ I(τ ≤ n)) → E(Xτ )

(wegen majorisierter Konvergenz, mit |Xτ | ∈ L1 (P ) als Majorante). Außerdem gilt

|E(Xn I(τ > n))| ≤ E(|Xn | I(τ > n)) → 0

(nach Voraussetzung). Daraus folgt die Behauptung. 

Gestoppte Filtration
Sei τ eine Stoppzeit zu (Fn )n∈N ⊂ A. Dann ist

Fτ := {A ∈ A : A ∩ {τ = n} ∈ Fn für alle n ∈ N}

eine σ-Algebra (Übung!), die sog. σ-Algebra der τ -Vergangenheit. Sie enthält alle Informationen
bis zum Stoppzeitpunkt τ .

101
Bemerkung 11.12
(1) Es gilt Fτ = {A ∈ A : A ∩ {τ ≤ n} ∈ Fn für alle n ∈ N}.
(2) Sind τ1 ≤ τ2 Stoppzeiten zu (Fn )n∈N , so gilt Fτ1 ⊂ Fτ2 .
(3) Ist (Xn )n∈N eine adaptierte Folge zu (Fn )n∈N und ist τ eine Stoppzeit zu (Fn )n∈N , so gilt
{Xτ ≤ a} ∈ Fτ für alle a ∈ R, d. h. Xτ ist Fτ -messbar.

Beweis:
Übung! Definitionen einsetzen. 

Satz 11.13 (Optional Sampling Theorem für beschränkte Stoppzeiten)


Ist (Xn )n∈N ein (Sub-)Martingal bzgl. (Fn )n∈N und sind τ1 , τ2 P -f.s. beschränkte Stoppzeiten
bzgl. (Fn )n∈N mit τ1 ≤ τ2 , so gilt

E(Xτ2 |Fτ1 ) (≥) = Xτ1 P -f.s.

Insbesondere gilt E(Xτ2 ) (≥) = E(Xτ1 ).

Beweis:
Erinnerung: Sind X,Y G-messbare integrierbare Zufallsgrößen (wobei G ⊂ A Unter-σ-algebra),
so gilt X (≥) = Y P -f.s. genau dann, wenn
Z Z
X dP (≥) = Y dP für alle A ∈ G.
A A

Also ist mit X = E(Xτ2 |Fτ1 ), Y = Xτ1 und G = Fτ1 zu zeigen, dass
Z Z Z
E(Xτ2 |Fτ1 ) dP = Xτ2 dP (≥) = Xτ1 dP für alle A ∈ Fτ1 ⊂ Fτ2 .
A A A

Dazu führen wir eine Zerlegung nach der Zeit durch: Sei etwa P (τ2 ≤ n) = 1 für n ∈ N. Dann
gilt wegen A ∩ {τ1 = k} ∈ Fk , k = 1, . . . , n, und unter Verwendung von Satz 11.9, da (Xτ2 ∧n )n
ein (Sub-)Martingal ist,
Z n Z
X n Z
X
Xτ2 dP = Xτ2 ∧n dP = E(Xτ2 ∧n |Fk ) dP
A k=1 A∩{τ1 =k} k=1 A∩{τ1 =k}

n Z
X n Z
X Z
(≥) = Xτ2 ∧k dP = Xτ1 dP = Xτ1 dP
k=1 A∩{τ1 =k} k=1 A∩{τ1 =k} A

für alle A ∈ Fτ1 . 

Korollar 11.14
(1) Ist (Xn ) ein (Sub-)Martingal bzgl. (Fn ) und ist (τk ) eine aufsteigende Folge beschränkter
Stoppzeiten, so ist (Xτk )k∈N ein (Sub-)Martingal bzgl. (Fτk )k∈N .
(2) Ist (Xn ) ein (Sub-)Martingal bzgl. (Fn ) und ist τ eine Stoppzeit, so ist (Xτ ∧n ) ein (Sub-)
Martingal bzgl. (Fτ ∧n ) ⊂ (Fn ).

102
Unter Zusatzvoraussetzungen kann man auch Satz 11.13 auf unbeschränkte (aber P -f.s. endli-
che) Stoppzeiten verallgemeinern:
Satz 11.15 (Optional Sampling Theorem für unbeschränkte endliche Stoppzeiten)
Ist (Xn )n∈N ein gleichgradig integrierbares (Sub-)Martingal bzgl. (Fn )n∈N und sind τ1 , τ2 P -f.s.
endliche Stoppzeiten bzgl. (Fn )n∈N mit τ1 ≤ τ2 , so gilt

E(Xτ2 |Fτ1 ) (≥) = Xτ1 P -f.s.

Insbesondere gilt E(Xτ2 ) (≥) = E(Xτ1 ).

Für den Beweis von Satz 11.15 benötigen wir zunächst einige Hilfssätze.

Lemma 11.16 (Doob-Zerlegung)


Sei (Xn ) eine bzgl. (Fn ) adaptierte Familie von Zufallsvariablen mit E|Xn | < ∞ für alle n ∈ N0 .
Dann existiert eine eindeutige Zerlegung (Xn ) = (Mn ) + (An ), wobei (Mn ) Martingal und (An )
vorhersagbar mit A0 = 0. Diese Zerlegung heißt Doob-Zerlegung. (Xn ) ist genau dann ein
Submartingal, wenn A monoton wachsend ist.

Beweis:
Definiere für n ∈ N0
n
X
Mn := X0 + (Xk − E(Xk |Fk−1 )),
k=1
n
X
An := (E(Xk |Fk−1 ) − Xk−1 ). (11.1)
k=1

Offenbar gilt Xn = Mn + An . Per Konstruktion ist (An )n vorhersagbar mit A0 = 0 und (Mn )n
ist Martingal, denn E(Mn − Mn−1 |Fn−1 ) = E(Xn − E(Xn |Fn−1 )|Fn−1 ) = 0. Beachte außerdem,
dass genau dann E(Xk |Fk−1 ) − Xk−1 ≥ 0 gilt, wenn (Xk ) ein Submartingal ist, d. h. (Xk ) ist
ein Submartingal genau dann, wenn A monoton wachsend ist.
Zur Eindeutigkeit: Seien Xn = Mn +An = Mn0 +A0n zwei Zerlegungen (mit obigen Eigenschaften).
Dann ist Mn − Mn0 = A0n − An ein vorhersagbares Martingal. Damit gilt aber

Mn − Mn0 = E(Mn − Mn0 |Fn−1 ) = Mn−1 − Mn−1


0
= . . . = M0 − M00 = A0 − A00 = 0.

Lemma 11.17
Eine Familie M ⊂ L1 (P ) ist gleichgradig integrierbar genau dann, wenn eine Funktion ϕ :
[0, ∞) → [0, ∞) mit

lim ϕ(x)/x = ∞ und sup Eϕ(|X|) < ∞ (11.2)


x→∞ X∈M

existiert. Hier kann ϕ monoton wachsend und konvex gewählt werden.

103
Beweis:
Sei ϕ wie angegeben. Dann gilt Ka := inf ϕ(x) ↑ ∞, wenn a ↑ ∞. Also ist für a > 0
x≥a x
Z Z Z
1 1 a→∞
sup |f |dP ≤ sup ϕ(|f |)dP ≤ sup ϕ(|f |)dP −−−→ 0.
f ∈M Ka f ∈M {|f |≥a} Ka f ∈M
{|f |≥a}

Sei nun M gleichgradig integrierbar. Nach Lemma 4.16 existiert eine Folge an ↑ ∞ mit
Z
sup (|f | − an )+ dP < 2−n .
f ∈M

Setze ϕ(x) := ∞ +
P
n=1 (x − an ) . ϕ ist als Summe konvexer Funktionen wieder konvex. Ferner gilt
für alle n ∈ N und x ≥ 2an , dass
n
ϕ(x) X ak n
≥ (1 − )+ ≥ ,
x k=1
x 2

ϕ(x)
also x
↑ ∞. Damit gilt für alle f ∈ M mit monotoner Konvergenz
Z ∞ Z
X ∞
X
ϕ(|f |)dP = +
(|f | − an ) dP ≤ 2−n = 1.
n=1 n=1

Satz 11.18
Sei (Xn ) ein gleichgradig integrierbares Martingal bzgl. (Fn ). Dann ist die Familie {Xτ :
τ P -f.s. endliche Stoppzeit} gleichgradig integrierbar.

Zum Beweis von Satz 11.18 benötigen wir noch

Proposition 11.19 (Bedingte Jensen-Ungleichung und Submartingale)


Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
(1) Ist A0 ⊂ A eine Unter-σ-algebra, ist X eine integrierbare Zufallsgröße mit Werten in einem
offenen Intervall I ⊂ R und ist ϕ : I → R eine konvexe Funktion, sodass ϕ ◦ X ebenfalls
integrierbar ist, so gilt E(ϕ ◦ X|A0 ) ≥ ϕ(E(X|A0 )) P -f.s.
(2) Es seien (An )n∈N eine Filtration, (Xn )n∈N ein Martingal bzgl. (An )n∈N und ϕ : R → R
eine konvexe Funktion, sodass ϕ ◦ Xn für alle n ∈ N integrierbar ist. Dann ist (ϕ ◦ Xn )n∈N
ein Submartingal bzgl. (An )n∈N .

Beweis:
Der erste Teil ist eine Übung, der zweite folgt aus (1). 

Beweis von Satz 11.18:


Nach Lemma 11.17 gibt es eine konvexe monotone Funktion ϕ mit (11.2). Sei τ < ∞ P -f.s. Nach
Satz 11.13 (Optional Sampling Theorem für beschränkte Stoppzeiten) mit τ1 := τ ∧ n, τ2 := n

104
gilt, dass E(Xn |Fτ ∧n ) = Xτ ∧n , und aus Proposition 11.19 (1) (bedingte Jensen-Ungleichung)
folgt zudem

ϕ(|Xτ ∧n |) = ϕ(|E(Xn |Fτ ∧n )|) ≤ ϕ(E(|Xn | |Fτ ∧n )) ≤ E(ϕ(|Xn |)|Fτ ∧n )

P -f.s. Also gilt

Eϕ(|Xτ |)1{τ ≤n} = Eϕ(|Xτ ∧n |)1{τ ≤n}


≤ EE(ϕ(|Xn |)1{τ ≤n} |Fτ ∧n ) = Eϕ(|Xn |)1{τ ≤n}
≤ L := sup Eϕ(|Xn |) < ∞
n∈N

für alle τ , d. h. für n → ∞ gilt wegen monotoner Konvergenz Eϕ(|Xτ |) ≤ L < ∞ für alle τ .
Nach Lemma 11.17 ist dann {Xτ , τ endliche Stoppzeit} gleichgradig integrierbar. 

Beweis von Satz 11.15 (Optional Sampling):


Sei (Xn ) zunächst ein Martingal. Für A ∈ Fτ1 ist {τ1 ≤ n} ∩ A ∈ Fτ1 ∧n . Also gilt nach Satz
11.13 für beschränkte Stoppzeiten E(Xτ2 ∧n |Fτ1 ∧n ) = Xτ1 ∧n P -f.s. Somit gilt auch

E(Xτ2 ∧n 1{τ1 ≤n}∩A ) = E(Xτ1 ∧n 1{τ1 ≤n}∩A ).

Nach Satz 11.18 ist (Xτ1 ∧n , n ∈ N0 ) und somit auch (Xτ1 ∧n 1{τ1 ≤n}∩A , n ∈ N0 ) gleichgradig
integrierbar. Analoges gilt für τ2 statt τ1 . Nach Satz 4.14 folgt

EXτ2 1A = lim EXτ2 ∧n 1{τ1 ≤n}∩A = lim EXτ1 ∧n 1{τ1 ≤n}∩A = EXτ1 1A
n→∞ n→∞

für alle A ∈ Fτ1 . Es folgt E(Xτ2 |Fτ1 ) = Xτ1 P -f.s.


Sei nun (Xn ) ein Submartingal. Nach Satz 11.16 hat (Xn ) die Doob-Zerlegung (Xn ) = (Mn ) +
(An ), wobei (Mn ) ein Martingal und (An ) vorhersagbar und monoton wachsend mit A0 = 0 ist.
Insbesondere ist (An ) positiv. Setze nun A∞ := limn→∞ An . Dann gilt An ↑ A∞ , A∞ ≥ 0 sowie

E|An | = EAn = E(Xn − X0 ) ≤ E|Xn − X0 | ≤ E|X0 | + sup E|Xm | < ∞.


m∈N0

Hierbei folgt der zweite Schritt aus (11.1) und der letzte aus der gleichgradigen Integrierbarkeit
von (Xn ). Wegen monotoner Konvergenz gilt also EA∞ < ∞ und daher ist (An ) gleichgradig
integrierbar, vgl. Beispiel 4.12 (2). Somit ist auch das Martingal (Mn ) = (Xn )−(An ) gleichgradig
integrierbar. Nun folgt

E|Xτ2 | ≤ EAτ2 + E|Mτ2 | ≤ EA∞ + E|Mτ2 | < ∞

wegen des ersten Teils des Beweises bzw. Satz 11.18, d. h. es gilt Xτ2 ∈ L1 (P). Schließlich ist

E(Xτ2 |Fτ1 ) = E(Mτ2 |Fτ1 ) + E(Aτ2 |Fτ1 )


= Mτ1 + Aτ1 + E(Aτ2 − Aτ1 |Fτ1 )
≥ Mτ1 + Aτ1 = Xτ1 .

Hierbei folgt der zweite Schritt aus dem ersten Teil des Beweises (da (Mn ) ein g. i. Martingal
ist) und der dritte aus der Monotonie von (An ). 

105
Korollar 11.20
Ist (Xn ) ein gleichgradig integrierbares (Sub-)Martingal bzgl. (Fn ) und ist (τk ) eine aufsteigende
Folge P -f.s. endlicher Stoppzeiten, so ist (Xτk ) ein (Sub-)Martingal bzgl. (Fτk ).

Bezeichne im Folgenden Xn∗ := sup1≤k≤n Xk und |X|∗n := sup1≤k≤n |Xk |.

Lemma 11.21 (Doob-Ungleichung; L1 -Version)


Ist (Xn ) ein Submartingal, dann gilt für alle λ > 0
λ P (Xn∗ ≥ λ) ≤ E(Xn 1 {Xn∗ ≥λ} ) ≤ E(|Xn | 1 {Xn∗ ≥λ} ).

Beweis:
Die zweite Ungleichung ist trivial. Für die erste betrachte τ := inf{k ≥ 0 : Xk ≥ λ} ∧ n. Nach
Satz 11.13 gilt wegen τ ≤ n
EXn ≥ EXτ = EXτ 1{Xn∗ ≥λ} + EXτ 1{Xn∗ <λ} ≥ λP (Xn∗ ≥ λ) + EXn 1{Xn∗ <λ} ,
da τ = n, falls Xn∗ < λ. Subtrahiere nun auf beiden Seiten EXn 1{Xn∗ <λ} . 

Satz 11.22 (Doob-Ungleichung; Lp -Version)


Sei (Xn ) ein Martingal oder ein positives Submartingal. Dann gilt:
(1) Für alle p ≥ 1 und alle λ ≥ 0 gilt
λp P (|X|∗n ≥ λ) ≤ E(|Xn |p ) .
(2) Für jedes p > 1 gilt
E(|Xn |p ) ≤ E((|X|∗n )p ) ≤ ( p−1
p p
) E(|Xn |p ) .

Beweis:
Die erste Aussage folgt für Xn Martingal aus der L1 -Version (Lemma 11.21), da |Xn |p nach
Proposition 11.19 Submartingal ist und {|X|∗n ≥ λ} = {(|X|∗n )p ≥ λp } gilt. Sei Xn ein positives
Submartingal. Die Funktion x 7→ xp ist konvex für p ≥ 1, x ≥ 0. Also ist |Xn |p wegen Proposition
11.19 (1) ein Submartingal, denn
E(|Xn |p |Fm ) = E(Xnp |Fm ) ≥ (E(Xn |Fm ))p ≥ |Xm |p
P -f.s., womit (1) gezeigt ist.
Die beiden Ungleichungen in (2) sind erfüllt, falls E|Xn |p = ∞. Sei also E|Xn |p < ∞. Nach
Lemma 11.21 gilt
λP (|X|∗n ≥ λ) ≤ E|Xn |1{|X|∗n ≥λ} ,
d. h. für alle K > 0 gilt
Z |X|∗n ∧K Z Z K
(|X|∗n p p−1
pλp−1 1{|X|∗n ≥λ} dλdP
 
E ∧ K) =E pλ dλ =
0 0
Z K
= pλp−1 P (|X|∗n ≥ λ)dλ
0
Z K  Z |X|∗n ∧K 
p−2
≤ pλ E|Xn |1{|X|∗n ≥λ} dλ = pE |Xn | λp−2 dλ
0 0
p
= E|Xn |(|X|∗n ∧ K)p−1 ,
p−1

106
wobei im dritten und fünften Schritt Fubini benutzt wurde. Die Hölder-Ungleichung liefert
p p p−1
E(|X|∗n ∧ K)p ≤ E|Xn |(|X|∗n ∧ K)p−1 ≤ (E(|X|∗n ∧ K)p ) p (E|Xn |p )1/p .
p−1 p−1
Durch Potenzierung dieser Ungleichung mit p und Division durch (E(|X|∗n ∧ K)p )p−1 erhalten
∗ p p
wir E (|X|n ∧ K) ≤ ( p−1 ) E|Xn |p , woraus im Limes K → ∞ mit monotoner Konvergenz die
p

Behauptung folgt. 

Für die Untersuchung der Konvergenz von Martingalen führen wir den Begriff der Aufkreuzung
(oder auch Überquerung) ein. Definiere rekursiv Stoppzeiten σ0 = 0 und

τk := inf{n ≥ σk−1 : Xn ≤ a}, k ∈ N,


σk := inf{n ≥ τk : Xn ≥ b}, k ∈ N.

Es gilt τk = ∞, falls σk−1 = ∞ und σk = ∞, falls τk = ∞. Wir sagen, dass X zwischen τk und
σk die k-te Aufkreuzung über [a, b] hat, falls σk < ∞. Für n ∈ N definiere

Una,b := sup{k ∈ N0 : σk ≤ n}
 
Una,b
S
als Anzahl der Aufkreuzungen bis zur Zeit n. ist F∞ = σ Fn -messbar, da gilt:
n∈N
{Una,b ≥ k} = {σk ≤ n}.

Lemma 11.23 (Aufkreuzungsungleichung)


Sei (Xn ) ein Submartingal und Una,b die Anzahl der Aufkreuzungen des Intervalls [a, b] bis zum
Zeitpunkt n. Dann gilt
E(Xn − a)+ − E(X0 − a)+
E(Una,b ) ≤ .
b−a

Beweis:
Der Beweis erfolgt durch Anwendung des Martingaltransformationssatzes 11.10. Setze
(
1, falls m ∈ {τk + 1, . . . , σk } für ein k ∈ N,
Hm :=
0, sonst.

H ist nichtnegativ und vorhersagbar, da {Hm = 1} = ∞


S
k=1 ({τk ≤ m − 1} ∩ {σk > m − 1})
gilt und jedes dieser Ereignisse in Fm−1 liegt. Sei Yn := max(Xn , a) für alle n. Für k ∈ N mit
σk < ∞ gilt Yσi − Yτi = Yσi − a ≥ b − a für i ≤ k. Also gilt

X k
X σi
X
hH, Y iσk = Hm (Ym − Ym−1 ) = (Yj − Yj−1 )
m≤σk i=1 j=τi +1
k
X
= (Yσi − Yτi ) ≥ k(b − a).
i=1

Für j ∈ {σk , . . . , τk+1 } gilt hH, Y ij = hH, Y iσk und für j ∈ {τk + 1, . . . , σk } gilt wegen Yj − Yτk ≥
0, dass hH, Y ij ≥ hH, Y iτk = hH, Y iσk−1 . Für jedes n gilt daher hH, Y in ≥ (b − a)Una,b . Nach

107
Proposition 11.19 (2) ist (Yn ) ein Submartingal und damit nach Satz 11.10 auch hH, Y i und
h1 − H, Y i. Es ist Yn − Y0 = h1, Y in = hH, Y in + h1 − H, Y in . Also folgt mit Eh1 − H, Y in ≥
Eh1 − H, Y i0 = 0

E(Xn − a)+ − E(X0 − a)+ = E(Yn − Y0 ) ≥ EhH, Y in ≥ (b − a)EUna,b


Damit könnenSwir nun einen ersten Martingalkonvergenzsatz beweisen. Wir erinnern daran,
dass F∞ := σ( n≥1 Fn ).

Satz 11.24 (Martingalkonvergenzsatz; L1 -Version)


Sei (Xn ) ein Submartingal bzgl. (Fn ) mit supn EXn+ < ∞. Dann existiert eine F∞ -messbare
Zufallsvariable X∞ mit E|X∞ | < ∞ und Xn → X∞ P -f.s.

Beweis: +
Für a < b gilt wegen E(Xn − a)+ ≤ ||a|| + EXn+ nach Lemma 11.23 EUna,b ≤ a+EX b−a
n
. Der
a,b := a,b
monotone Limes U limn→∞ Un ≥ 0 existiert, und nach Voraussetzung gilt mit monotoner
Konvergenz EU = limn→∞ EUna,b < ∞. Speziell ist also P (U a,b < ∞) = 1.
a,b

Definiere folgende Ereignisse in F∞ :

C a,b := {lim inf Xn < a} ∩ {lim sup Xn > b} ⊂ {U a,b = ∞} und


n→∞ n→∞
C = ∪a<b∈Q C a,b (wie im Ergodensatz!).

Dann gelten P (C a,b ) = 0 und P (C) = 0 und (Xn ) konvergiert auf C c , d. h. P -f.s. Da Xn
F∞ -messbar ist, ist X∞ := lim Xn F∞ -messbar. Wegen des Lemmas von Fatou gilt
+
EX∞ = E lim inf Xn+ ≤ lim inf EXn+ ≤ sup{EXn+ : n ≥ 0} < ∞.
n n

Da (Xn ) Submartingal ist, gilt wieder mit Fatou



EX∞ ≤ lim inf EXn− = lim inf (EXn+ − EXn ) ≤ sup{EXn+ : n ∈ N} − EX0 < ∞,
n n

womit E|X∞ | < ∞. 

Eine weitere Anwendung ist der

Satz 11.25 (Martingalkonvergenzsatz; Version für gleichgradige Integrierbarkeit)


Sei (Xn ) ein gleichgradig integrierbares (Sub-)Martingal bzgl. (Fn ). Dann existiert eine F∞ -
messbare Zufallsvariable X∞ ∈ L1 mit Xn → X∞ P -f.s. und in L1 .
Weiter gilt Xn (≤) = E(X∞ |Fn ) P -f.s. für alle n ∈ N, d. h. (Xn )n∈N∪{∞} ist ein (Sub-)Martingal
bzgl. (Fn )n∈N∪{∞} .

Beweis:
Wir führen den Beweis nur für den Submartingal-Fall. Für jede gleichgradig integrierbare Familie
(Xn )n gilt supn E|Xn | < ∞ (Übung!) und damit inbesondere supn EXn+ < ∞. Nach Satz 11.24

108
existiert daher der fast sichere Limes X∞ ∈ L1 (P ), und wegen Satz 4.14 gilt Xn → X∞ in
L1 (P ).
Da x 7→ x+ konvex ist, also ((x + y)/2)+ ≤ (x/2)+ + (y/2)+ und damit auch (x + y)+ ≤ x+ + y +
gilt, folgt für n ≥ m aus der Submartingal-Eigenschaft
=0
z }| {
E[(Xm − E(X∞ |Fm ))+ ] ≤ E[(Xm − E(Xn |Fm ))+ ] +E[(E(Xn − X∞ |Fm ))+ ]
n→∞
≤ E[E((Xn − X∞ )+ |Fm )] ≤ kXn − X∞ k1 −−−→ 0,

wobei die vorletzte Ungleichung aus der bedingten Jensen-Ungleichung 11.19 (1) folgt. Hieraus
ergibt sich Xm ≤ E(X∞ |Fm ) P-f.s. 

Korollar 11.26
Sei (Xn )n ein Martingal mit Xn ≥ 0 für alle n. Dann gibt es eine Zufallsvariable X∞ ∈ L1 (P )
mit X∞ = limn→∞ Xn P -f.s. Ferner gilt EX∞ = EX0 genau dann, wenn (Xn ) gleichgradig
integrierbar ist.

Beweis:
Da Xn ≥ 0 und ein Martingal ist, gilt supn EXn+ = EX0 < ∞, d. h. wegen Satz 11.24 existiert
n→∞
eine Zufallsvariable X∞ ∈ L1 (P ) mit Xn −−−→ X∞ P -f.s.
n→∞
Falls (Xn ) gleichgradig integrierbar ist, so gilt wegen Satz 4.14 auch Xn −−−→ X∞ in L1 (P ),
n→∞
d. h. EXn −−−→ EX∞ oder EX∞ = EX0 . Ist andererseits EX∞ = EX0 erfüllt, so gibt es zu
ε > 0 ein aε mit E(X∞ − a)+ < ε für alle a ≥ aε . Nun gilt (x − a)+ = x − (x ∧ a) für alle x ∈ R.
Also folgt mittels dominierter Konvergenz

lim E(Xn − a)+ = lim(EXn − E(Xn ∧ a)) = EX∞ − E(X∞ ∧ a) = E(X∞ − a)+ < ε,
n n

d. h. es existiert ein Nε , sodass supn≥Nε E(Xn − a)+ < ε für alle a ≥ aε . Ist nun an so groß, dass
E(Xn −a)+ < ε für alle a ≥ an , so folgt mit Aε = max(aε , a1 , . . . , aNε −1 ), dass supn E(Xn −a)+ <
ε für alle a ≥ Aε , d. h. (Xn ) ist wegen Lemma 4.16 gleichgradig integrierbar. 

Satz 11.27 (Martingalkonvergenzsatz; Lp -Version)


Ist p > 1 und (Xn ) ein Lp -beschränktes Martingal bzgl. (Fn ) (d. h. supn∈N kXn kp < ∞), so
existiert eine F∞ -messbare Zufallsvariable X∞ ∈ Lp mit Xn → X∞ P -f.s. und in Lp .

Beweis:
Nach Lemma 11.17 mit φ(x) := |x|p , p > 1, ist (Xn ) gleichgradig integrierbar. Also existiert
nach Satz 11.25 eine F∞ -messbare Zufallsvariable X∞ , sodass Xn → X∞ P -f.s. Wegen der
Doob-Ungleichung Satz 11.22 gilt für alle n
 p
p p
E max{|Xk | : k ≤ n} ≤ E|Xn |p .
p−1
Also folgt für alle m ∈ N mittels monotoner Konvergenz
 p
p p p p
E|Xm | ≤ E sup |Xk | = lim E max |Xk | ≤ sup E|Xn |p < ∞
k∈N0 n k≤n p − 1 n∈N0

109
gleichmäßig in m, d. h. nach Lemma 11.17 ist |Xn |p gleichgradig integrierbar. Wegen |Xn −
X∞ |p ≤ 2p sup{|Xn |p : n ∈ N0 } ∈ L1 (P ) ergibt sich daher kX∞ kp ≤ kX∞ − Xn kp + kXn kp < ∞
n→∞
und mittels dominierter Konvergenz weiter kXn − X∞ kp −−−→ 0. 

Wir kehren nun abschließend zu Beispiel 11.1 zurück. In der dortigen Situation ist S0 , S1 , S2 , . . .
mit Sn+1 = Sn + en (X1 , . . . , Xn )Xn+1 für p = 1/2 ein Martingal und für p ≤ 1/2 ein Supermar-
tingal mit Sn ≥ 0. Sei T das größte n mit |Sn − Sn−1 | = en−1 ≥ η und T = ∞, falls es kein
solches n gibt. Also ist T die Zeit der letzten Wette. Dann gilt der

Satz 11.28
Für das Beispiel 11.1 mit p ≤ 1/2 ist P (T < ∞) = 1 und EST ≤ S0 .

Beweis:
Wegen −Sn ≤ 0 für alle n ∈ N0 ist (−Sn )n ein Submartingal mit supn E(−Sn )+ = 0. Daher exi-
n→∞
stiert nach Satz 11.24 eine Zufallsvariable S∞ mit E|S∞ | < ∞ und Sn −−−→ S∞ P -fast sicher. Ist
nun T = ∞, so gilt |Sn −Sn−1 | ≥ η für alle n ∈ N0 , woraus {T = ∞} ⊆ {(Sn )n konvergiert nicht}
folgt. Damit ergibt sich P (T < ∞) = 1. Weiter gilt auf {T < ∞} per Konstruktion ST = S∞ ,
sodass mit Fatou und der Supermartingaleigenschaft EST = ES∞ ≤ lim inf n ESn ≤ ES0 = S0
folgt. 

110
12 Schwache Konvergenz

Seien X, Xn , n ≥ 1, Zufallsgrößen auf (Ω, A, P). Wir wollen die Konvergenz der Verteilungen
der Xn gegen die Verteilung von X untersuchen.
Eine starke Forderung wäre

lim P(Xn ∈ A) = P(X ∈ A) für alle A ∈ B,


n→∞

d. h. PXn (A) → PX (A) für alle A ∈ B.

Wir untersuchen diese Forderung am Beispiel Xn ≡ n1 für alle n sowie X ≡ 0. Nach der obigen
n→∞
Definition sollte insbesondere P(Xn ≤ a) −−−→ P(X ≤ a) für alle a ∈ R gelten. Für a = 0
ist aber 0 = P(Xn ≤ 0) 9 P(X ≤ 0) = 1, d. h. es gälte δ 1 9 δ0 . Ein Konvergenzbegriff für
n
Verteilungen sollte also insbesondere die Distanz der Punktmassen (in unserem Beispiel in 0
und n1 ) berücksichtigen, d. h. glätten.
Hierzu reicht es z. B., f stetig (statt wie oben f = 1A ) zu wählen. Dann ist
Z Z   Z Z
1
f (Xn )dP = f dδ 1 = f −→ f (0) = f dδ0 = f (X)dP.
n n
R
Dabei muss allerdings gewährleistet sein, dass f dPXn existiert. Daher definieren wir
Definition 12.1
(1) Sei (E, B) ein vollständiger separabler metrischer Raum mit Metrik d und Borel-σ-Algebra
B = B(E) (z. B. E = Rk , E = Lp (Rk , Bk , µ), 1 ≤ p < ∞), und seien Qn , Q Wahrscheinlich-
keitsmaße auf (E, B). Dann heißt Qn gegen Q schwach konvergent (in Zeichen Qn ⇒ Q),
falls Z Z
lim f dQn = f dQ
n

für alle stetigen und beschränkten Funktionen f : E → R.


(2) Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Xn , X : Ω → (E, B) Zufallsvariablen mit
Werten in einem metrischen Raum E wie in (1). Dann heißt Xn gegen X schwach konvergent
(Xn ⇒ X), falls PXn ⇒ PX in (E, B).

Satz 12.2 (Mantelsatz / Portmanteau-Theorem)


Seien X, Xn Zufallsgrößen auf (Ω, A, P) mit Werten in einem vollständigen separablen metri-
schen Raum E. Dann sind äquivalent:
(1) Xn ⇒ X.
(2) lim inf n→∞ P(Xn ∈ O) ≥ P(X ∈ O) für alle offenen Mengen O ⊂ E.

111
(3) lim supn→∞ P(Xn ∈ A) ≤ P(X ∈ A) für alle abgeschlossenen Mengen A ⊂ E.
(4) limn→∞ P(Xn ∈ B) = P(X ∈ B) für alle B ∈ B(E) mit X ∈ / ∂B P-f.s., wo ∂B = B̄ \ B̊ =
{x ∈ E : d(x, B) = 0, d(x, B c ) = 0}. (B heißt auch Stetigkeitsmenge von X oder PX .)

Beweis:
Sei (1) gegeben und O ⊂ E offen. Die Funktion x 7→ d(x, Oc ) = inf{d(x, y) : y ∈ Oc } ist stetig,
und (
1, falls d(x, Oc ) > m1 ,
fm (x) := für x ∈ E
md(x, Oc ), falls d(x, Oc ) ≤ m1 ,
ist stetig mit fm ↑ 1O , 0 ≤ fm ≤ 1 (Übung! ). Dann gilt wegen monotoner Konvergenz
(1)
P(X ∈ O) = E 1O (X) = lim E fm (X) = lim(lim E fm (Xn )) .
m m n

Da E fm (Xn ) ≤ E 1O (Xn ) = P(Xn ∈ O) für alle m gilt, folgt limn E fm (Xn ) ≤ lim inf n P(Xn ∈ O)
für alle m, d. h. (2).
(3) ⇔ (2) folgt mittels Komplementbildung O := Ac .
Nehmen wir nun (3) und damit auch (2) an. Sei B ∈ B(E). Dann gilt
P(X ∈ B̊) ≤ lim inf P(Xn ∈ B̊) ≤ lim inf P(Xn ∈ B)
n n
≤ lim sup P(Xn ∈ B) ≤ lim sup P(Xn ∈ B̄) ≤ P(X ∈ B̄) . (?)
n n

Da P(X ∈ ∂B) = P(X ∈ B̄) − P(X ∈ B̊) = 0, folgt aus (?)


lim inf P(Xn ∈ B) = lim sup P(Xn ∈ B) = P(X ∈ B) ,
n n

d. h. (4).
Sei nun (4) richtig. Wir zeigen (3): Sei A ⊂ E abgeschlossen. Dann betrachte die abgeschlossenen
Mengen
Aε = {x ∈ E : d(x, A) ≤ ε} für ε > 0.
Es gilt ∂(Aε ) ⊂ {x ∈ E : d(x, A) = ε}. Somit sind die Mengen ∂(Aε ) messbar und disjunkt für
unterschiedliche ε > 0. Sei E0 := {ε > 0 : P(X ∈ ∂(Aε )) > 0}. Dann ist E0 abzählbar (Übung! ).
Für ε ∈/ E0 ist P(Xn ∈ A) ≤ P(Xn ∈ Aε ) für alle n, und aus
lim P(Xn ∈ Aε ) = P(X ∈ Aε )
n→∞

folgt
lim sup P(Xn ∈ A) ≤ lim sup P(Xn ∈ Aε ) = P(X ∈ Aε ) .
n n
ε
Da wegen A abgeschlossen A ↓ A für ε ↓ 0, ε ∈ / E0 , gilt, folgt (3) mittels Stetigkeit von P.
Sei schließlich (2) richtig und f ≥ 0 stetig. Wegen Aufgabe 10 (b) und Fatou gilt, da
{x ∈ E : f (x) > t} offen,
Z ∞ Z ∞
E f (X) = P(f (X) > t)dt ≤ lim inf P(f (Xn ) > t)dt
0 0 n→∞
Z ∞
≤ lim inf P(f (Xn ) > t)dt = lim inf E f (Xn ) . (?)
n 0 n

112
Falls nun f : E → R stetig und |f | ≤ c < ∞, so liefert (?) angewandt auf die Funktionen c ± f
E(c + f (X)) ≤ lim inf n E(c + f (Xn )) und lim inf n E(c − f (Xn )) ≥ E(c − f (X)) oder nach Sub-
traktion von c auf beiden Seiten

E f (X) ≤ lim inf E f (Xn ) ≤ lim sup E f (Xn ) ≤ E f (X) ,


n n

d. h. (1). 
Ist E = R und sind FXn bzw. FX die entsprechenden Verteilungsfunktionen, so ist die schwache
n→∞
Konvergenz Xn ⇒ X dazu äquivalent, dass FXn (t) −−−→ FX (t) in jedem Stetigkeitspunkt t von
FX gilt (Übung). Der schwache Limes ist eindeutig:

Proposition 12.3 (Eindeutigkeit des schwachen Limes)


Seien µ, ν Borel-Wahrscheinlichkeitsmaße auf einem vollständigen separablen metrischen Raum
E. Dann gilt Z Z
f dµ = f dν für alle f stetig, beschränkt ⇔ µ = ν.

Beweis:
„⇐“: klar.
„⇒“: Sei O ⊂ E offen. Wähle wie im Beweis von Satz 12.2 fm ↑ 1O , fm : E → [0, 1] stetig.
Monotone Konvergenz liefert µ(O) = ν(O), d. h. nach Satz 1.29 (Identität auf dem Erzeugenden-
system der σ-Algebra B) folgt die Behauptung. 
Für die schwache Konvergenz reicht auch schon eine kleinere Klasse stetiger beschränkter Funk-
tionen, wenn E = Rd :
Definition 12.4
Sei E = Rd und ht , xi = dj=1 tj xj das euklidische Skalarprodukt.
P

Ist µ ein Borel-Wahrscheinlichkeitsmaß auf Rd , so heißt die Funktion µ̂ : Rd → C, definiert


durch Z
µ̂(t) := exp(i ht , xi)µ(dx) (i2 = −1),

charakteristische Funktion (oder Fourier-Transformierte) von µ.


Weiter heißt für ein Borel-Wahrscheinlichkeitsmaß µ auf Rd+ := R+ × . . . R+ die Funktion µ̃ :
Rd+ → R, definiert durch Z
µ̃(v) := exp[− hv , xi]µ(dx),
Rd+

Laplace-Transformierte von µ.
Ist X eine Zufallsgröße mit Verteilung µ, so heißt µ̂(t) = E eiht ,Xi charakteristische Funktion
(oder Fourier-Transformierte) von X und im Falle µ(Rd+ ) = 1 analog µ̃(v) = E e−hv ,Xi Laplace-
Transformierte von X.

Bemerkung 12.5 (Eigenschaften von µ̂(t) sowie µ̃(t))


Es gilt
(1) |µ̂(t)| ≤ µ̂(0) = 1, µ̂(−t) = µ̂(t).
(2) t 7→ µ̂(t) ist gleichmäßig stetig.

113
(3) Ist µ ein W.Maß auf Rd+ , so gilt µ̃(u) = µ̂(iu) sowie µ̂(t) = µ̃(−it).
(4) Seien µ, ν W-Maße auf Rd . Dann gilt µ \ ⊗ ν(t, s) = µ̂(t)ν̂(s) für t, s ∈ Rd .

Beweis:
Übung! 

Definition 12.6
(1) Eine Folge (µn , n ∈ N) von Wahrscheinlichkeitsmaßen auf Rd heißt straff (tight), falls

lim sup µn {x ∈ Rd : kxk > r} = 0.



r→∞ n

Eine Folge (Xn ) von Zufallsvariablen mit Werten in Rd heißt straff, falls (PXn ) straff ist.
(2) Ist allgemeiner (E, d) ein metrischer Raum mit Borel-σ-Algebra B, so heißt eine Familie von
Wahrscheinlichkeitsmaßen Π auf (E, B) straff, falls es für alle ε > 0 eine kompakte Menge
K gibt mit
ν(K) ≥ 1 − ε
für alle ν ∈ Π. Ebenso wie oben definiert man darauf aufbauend Straffheit für eine Familie
von S-wertigen Zufallsvariablen als die Straffheit der Familie ihrer Verteilungen.

(1) und (2) sind für Folgen von Wahrscheinlichkeitsmaßen auf E = Rd äquivalent (Übung).
Anschaulich ist eine Folge von Wahrscheinlichkeitsmaßen (µn , n ∈ N) auf Rd straff, falls für r
groß die Masse aller µn in der Kugel Br (0) bleibt bis auf einen „Rest“ ε = ε(r).
Bemerkung 12.7
Seien Xn , n ∈ N, X Zufallsvariablen auf Rd mit Xn ⇒ X (schwach). Dann ist (Xn ) straff.

Beweis:
Sei r > 1 fest. Dann ist f (x) := (1 − (r − kxk)+ )+ eine stetige beschränkte Funktion mit
0 ≤ f (x) ≤ 1, f (x) = 1, kxk > r, und es gilt

lim sup P(kXn k > r) ≤ lim E f (Xn ) = E f (X) ≤ P(|X| > r − 1) .


n n→∞

Hierbei haben wir im vorletzten Schritt die schwache Konvergenz verwendet und im letzten
Schritt benutzt, dass f (x) = 0 für kxk ≤ r − 1 und f (x) ≤ 1, falls kxk > r − 1. Nun konvergiert
die rechte Seite gegen 0, falls r ↑ ∞, d. h. die Behauptung. 
Dies ist wichtig für die Auswahl konvergenter Teilfolgen.
Wir benötigen...
Lemma 12.8 (Flankenabschätzungen)
Für jedes W-Maß µ auf R gilt
R 2/r
(a) µ({x ∈ R : |x| ≥ r}) ≤ 2r −2/r (1 − µ̂(t))dt, r > 0.
(Bemerkung: Dieses Integral ist reell, siehe unten!)
R 1/r
(b) µ([−r, r]) ≤ 2r −1/r |µ̂(t)| dt, r > 0.
(c) Falls µ(R+ ) = 1, so gilt µ([r, ∞]) ≤ 2(1 − µ̃(1/r)), r > 0.
(1) Ist µ ein Wahrscheinlichkeitsmaß auf Rd , so gilt |µ̂(t) − µ̂(s)|2 ≤ 2(1 − Re (µ̂(t − s))).

114
Beweis:
iz
(1): Für c > 0 beliebig
R c itx  folgt mit Fubini
 und der Identität e = cos(z) + i sin(z) für alle z ∈ R
sowie −c e dt = 2c sin(cx)
cx
− δ0 (x) sin(cx)
cx
−1
Z c Z Z c
(1 − µ̂(t))dt = (1 − eitx )dtµ(dx)
−c
Z −c
   
sin(cx) sin(cx)
= 2c 1− − δ0 (x) −1 µ(dx)
cx cx
Z   Z
sin(cx) 1
≥ 2c 1− µ(dx) ≥ 2c µ(dx)
{|cx|≥2} cx {|cx|≥2} 2

= cµ({x : |cx| ≥ 2}),

da sin(z) ≤ z für alle z ∈ R+ (differenziere beide Seiten: cos(z) ≤ 1, und integriere anschließend
wieder unter Ausnutzung der Monotonie des Integrals), sin(z) ≤ z2 für alle z ≥ 2 (klar wegen
z/2 ≥ 1!) und somit (aus Symmetriegründen)

sin(z) sin(z) 1
z ≤ 1, z ∈ R, z ≤ 2 , |z| ≥ 2 .

Die erste Ungleichheit erklärt dann den dritten, die zweite den vierten Schritt. Dies zeigt (1),
wenn c = 2/r.
(2): Es gilt 1 − cos(z) ≥ z 2 /4, falls |z| ≤ 1. (Betrachte ähnlich wie oben wegen Symmetrie o. E.
nur z ∈ [0, 1]. Differenziert man beide Seiten zweimal, so erhält man cos(z) ≥ 1/2 für z ∈ [0, 1],
was offensichtlich wahr ist. Doppelte Integration liefert nun die ursprüngliche Behauptung.)
Also ist
1 1 − cos(z)
≤2
2 z2
R 1/r
auf |z| ≤ 1, und man erhält mit z = x/r und wegen −1/r (1 − r|t|) cos(xt)dt = 2r 1−cos(x/r)
x2

r
1 − cos(x/r) 1 − cos(x/r)
Z Z
1
µ([−r, r]) ≤ 2 µ(dx) ≤ 2 µ(dx)
2 (x/r)2 (x/r)2
Z−rZ
s. o.
= r (1 − r |t|)+ eixt dtµ(dx)
Z Z 1/r
Fubini
= r (1 − r |t|)+ µ̂(t)dt ≤ r |µ̂(t)| dt .
−1/r

Im letzten Schritt haben wir die Dreiecksungleichung für Integrale komplexwertiger Funktionen
benutzt und verwendet, dass (1 − r |t|)+ ≤ 1 und für t ∈ / (−1/r, 1/r) = 0 ist.
−x 1
(3): Falls x ≥ 1, so gilt e < 2 . Damit folgt
Z Z
−tx 1
1 − µ̃(t) = (1 − e )µ(dx) ≥ (1 − e−tx )µ(dx) ≥ µ({x : tx ≥ 1}) .
{x:tx≥1} 2

Setze also t = 1/r.

115
(4): Sei X ein Zufallsvektor mit Verteilung µ. Dann gilt
2
|µ̂(t) − µ̂(s)|2 = E(eiht ,Xi − eihs ,Xi )

2
= E(eiht ,Xi−ihs ,Xi − 1)eihs ,Xi
2 2
≤ E eih(t−s) ,Xi − 1 E eihs ,Xi (nach Cauchy-Schwarz)
| {z }
=1
iht−s ,Xi −iht−s ,Xi
= E (e − 1)(e − 1) = 2(1 − Re (µ̂(t − s))) ,

da e−iht−s ,Xi + eiht−s ,Xi = 2 cos(ht − s , Xi). 

Definition 12.9
Eine Familie (fi )i∈I komplexwertiger Funktionen auf Rd heißt gleichgradig stetig in t0 ∈ Rd bzw.
gleichgradig gleichmäßig stetig, falls zu jeden  > 0 ein δ = δ(, t0 ) > 0 existiert, so dass für alle
i ∈ I und alle s ∈ Rd mit |s−t0 | < δ gilt: |fi (s)−fi (t0 )| <  bzw. zu jeden  > 0 ein δ = δ() > 0
existiert, so dass für alle i ∈ I und alle s, t ∈ Rd mit |s − t| < δ gilt: |fi (s) − fi (t)| < .
Lemma 12.10 (Straffheit und gleichgradige Stetigkeit)
Sei (µn , n ∈ N) eine Familie von Wahrscheinlichkeitsmaßen auf Rd .
(1) (µn , n ∈ N) ist straff genau dann, wenn (µ̂n (t), n ∈ N) gleichgradig stetig in 0 ist.
(2) (µn , n ∈ N) ist straff, wenn es ein Wahrscheinlichkeitsmaß µ gibt mit limn→∞ µ̂n (t) = µ̂(t)
für alle t ∈ Rd .
(3) Falls (µn , n ∈ N) straff ist, so ist t 7→ µ̂n (t) gleichgradig gleichmäßig stetig auf Rd .

Beweis:
(1): „⇒“: Vgl. (3).
√ für x = (x1 , . . . , xd ) kxk∞ := maxj=1,...,d |xj | die Maximumsnorm. Dann gilt kxk∞ ≤
„⇐“: Sei
kxk ≤ d kxk∞ und
d
√ X
µn ({x : kxk ≥ r d}) ≤ µn ({x : kxk∞ ≥ r}) ≤ µn ({x = (x1 , . . . , xd ) : |xj | ≥ r}) . (∗)
j=1

Somit folgt wegen Lemma 12.8 (1) für die eindimensionalen Marginalverteilungen von xj unter
µn
Z 2/r
1
sup µn ({x : |xj | ≥ r}) ≤ sup 2 (1 − µ̂n (tej ))dt ,
n n 4/r −2/r
wobei ej = (0, . . . , 0, 1, 0, . . . , 0) den j-ten Basisvektor bezeichnet. Hierbei haben wir die cha-
rakteristischen Funktionen der Marginalverteilungen mittels der Transformationsformel 3.29 auf
diejenigen von µn zurückgeführt. Nun konvergiert die rechte Seite für r ↑ ∞ gegen Null, wenn
µ̂n (tej ) gleichgradig stetig ist in t = 0, da 1 − µ̂n (0 · ej ) = 0 für j = 1, . . . , d. Also ist (µn , n ∈ N)
straff.
n→∞
(2): Analog zur Rückrichtung von (1) folgt aus (∗), Lemma 12.8 (1) und 1 − µ̂n (tej ) −−−→
1 − µ̂(tej ), dass wegen dominierter Konvergenz
Z 2/r Z 2/r
1 1
lim sup µn ({x : |xj | ≥ r}) ≤ lim 2 (1 − µ̂n (tej ))dt = 2 (1 − µ̂(tej ))dt,
n n 4/r −2/r 4/r −2/r

116
wobei die rechte Seite für r ↑ ∞ gegen Null
√ konvergiert. Somit gibt es zu ε > 0 ein R1 = R1 (ε)
und ein n0 ∈ N mit µn ({x : |xj | ≥ R1 / d}) < ε/d für alle j = 1, . . . , d und alle n ≥ n0 , d. h.
wegen (∗) folgt µn ({x : kxk > R1 }) < d dε = ε für alle n ≥ n0 und mittels Monotonie von Maßen
sogar
µn ({x : kxk > r}) < ε (∗∗)
für alle r ≥ R1 und alle n ≥ n0 . Andererseits ist (µn , n = 1, . . . , n0 − 1) offensichtlich straff nach
Teil (1). Also finden wir ein R2 = R2 (ε), sodass (∗∗) für alle r ≥ R2 und alle n = 1, . . . , n0 − 1
gilt. Setzt man R := max(R1 , R2 ), so hat man (∗∗) für alle r ≥ R und alle n ∈ N und damit
die Straffheit, da ε beliebig war. Damit ist (2) gezeigt.
(3): Für alle n ∈ N sei Xn ein Zufallsvektor mit Verteilung µn . Wegen der Straffheit existiert
2
zu ε > 0 ein r > 0 mit P(kXn k > r) ≤ ε6 für alle n. Weiter existiert ein δ = δ(ε, r) > 0 mit
2
1 − cos(hu , Xn i) ≤ ε6 für alle kuk ≤ δ und kXn k ≤ r, denn |hu , Xn i| ≤ kuk kXn k ≤ δr. Also
gilt

1 − Re E eihu ,Xn i = E (1 − cos(hu , Xn i)) I{kXn k≤r} + E (1 − cos(hu , Xn i)) I{kXn k>r}

| {z } | {z }
≤ε2 /6 ≤2
2 2 2
ε ε ε
≤ ·1+2· = ,
6 6 2
d. h. nach Lemma 12.8 (4) mit u = t − s folgt |µ̂n (t) − µ̂n (s)| ≤ ε für alle |t − s| ≤ δ. 

Satz 12.11 (Stetigkeits- und Eindeutigkeitssatz von Lévy)


Seien µ, µ1 , µ2 , . . . Wahrscheinlichkeitsmaße auf Rd . Dann gilt µn ⇒ µ genau dann, wenn µ̂n (t) →
µ̂(t) für jedes t ∈ Rd gilt. In diesem Fall gilt µ̂n → µ̂ gleichmäßig auf beschränkten Mengen.
(Ähnliches gilt für die Laplace-Transformierte µ̃.)

Bemerkung: Im Falle µn ≡ ν folgt: µ = ν ⇔ ν̂ = µ̂ (vgl. Proposition 12.3), d. h. µ̂ charakterisiert


µ. Ähnliches gilt für µ̃, wie wir später zeigen werden.
Für den Beweis benötigen wir den folgenden Approximationssatz:
Lemma 12.12
Sei Cr := [−r, r]d , r > 0. Jede auf Cr koordinatenweise periodische stetige Funktion f : Rd → C
kann auf Cr gleichmäßig beliebig gut durch Linearkombinationen von gk (x) := exp [πi hk , xi /r],
k ∈ Zd , approximiert werden.

Beweis:
Betrachte den kompakten Torus Er , der als Quotientenraum der Äquivalenz x ≡ y + 2rk,
k ∈ Zd , auf dem Rd entsteht, und versehe ihn mit dem induzierten euklidischen Abstand. Dann
beschreiben die periodischen stetigen Funktionen f : Cr → C gerade alle stetigen Funktionen
auf Er , und die gk , k ∈ Zd , liefern spezielle stetige Funktionen auf Er . Sei C der Vektorraum der
C-Linearkombinationen von gk : Er → C. Dann ist C eine Algebra mit 1, für die aus g ∈ C auch
g ∈ C folgt. Sie trennt Punkte, denn zu x1 , x2 ∈ Er , x1 6= x2 , gibt es immer ein k = (k1 , . . . , kd ),
kj ∈ {0, ±1}, mit gk (x1 ) 6= gk (x2 ). Also folgt die Behauptung aus dem nachstehend angegebenen
Satz von Stone-Weierstraß. 

117
Satz 12.13 (Stone-Weierstraß)
Sei E ein kompakter Hausdorffraum. Sei C ⊂ C(E, C) eine Unteralgebra der C-Algebra der
stetigen Funktionen, die Punkte trennt (d. h. für alle x, y ∈ E mit x 6= y gibt es ein f ∈ C mit
f (x) 6= f (y)) und abgeschlossen unter komplexer Konjugation ist (d. h. für alle f ∈ C ist auch
f ∈ C). Dann liegt C dicht in C(E, C) bzgl. der Supremumsnorm auf E.

Beweis:
1. Schritt (Reduktion auf reellwertige Funktionen):
f −f
Ist f ∈ C, so sind wegen Re (() f ) = f +f 2
und Im (() f ) = 2i
nach Voraussetzung auch
Re (() f ), Im (() f ) ∈ C. Insbesondere ist

C0 := {Re (() f ) : f ∈ C}

eine reelle Algebra, d. h. es gilt


1 ∈ C0 ,
f, g ∈ C0 , α ∈ R ⇒ f + g ∈ C0 , f · g ∈ C0 , αf ∈ C0 .
Die Algebra C0 trennt Punkte, denn wenn f (x) 6= f (y) für f ∈ C und Re (() f )(x) = Re (() f )(y),
so gilt Im (() f )(x) 6= Im (() f )(y), also Re (() if )(x) 6= Re (() if )(y). Da weiter C = C0 + iC0 ,
genügt es zu zeigen, dass C0 dicht in C(E, R) bzgl. der Supremumsnorm liegt.
2. Schritt:
Sei von nun an C ⊂ C(E, R) eine Unteralgebra der R-Algebra der stetigen reellwertigen Funktio-
nen, die Punkte trennt. Nach dem Weierstraß’schen Approximationssatz (vgl. Beispiel √ 9.3 (2))
gibt es eine Folge von Polynomen (pn )n∈N , welche auf [0, 1] die Funktion t 7→ t gleichmäßig
approximiert. Ist f ∈ C, so ist daher
!
2
f
|f | = kf k∞ · lim pn
n→∞ kf k2∞

im Abschluss C von C bzgl. k·k∞ -Konvergenz.


3. Schritt:
Da C ebenfalls eine R-Algebra ist, folgt wie in Schritt 2, dass mit f ∈ C auch |f | ∈ C gilt.
Insbesondere folgt für f, g ∈ C, dass
1
f ∨ g = (f + g + |f − g|) ∈ C,
2
1
f ∧ g = (f + g − |f − g|) ∈ C.
2
4. Schritt:
Wir konstruieren zu f ∈ C(E, R) und ε > 0 ein g ∈ C mit

|f (x) − g(x)| ≤ ε ∀x ∈ E. (12.1)

Hierfür zeigen wir zunächst: zu x ∈ E existiert ein gx ∈ C mit gx (x) = f (x) und

gx (y) ≤ f (y) + ε ∀y ∈ E. (12.2)

118
Beweis von (12.2):
Wegen der Punktetrennung existiert zu jedem z ∈ E \ {x} ein Hz ∈ C mit Hz (z) 6= Hz (x). Ohne
Einschränkung gelte Hz (x) = 0. Setze
f (z) − f (x)
hz (y) := f (x) + Hz (y) ∈ C,
Hz (z) (12.3)
hx (y) := f (y).
Dann gilt hz (x) = f (x) und hz (z) = f (z) für alle z ∈ E. Da f und hz stetig sind, existiert
zu z ∈ E eine offene Umgebung Uz 3 z mit hz (y) ≤ f (y) + ε für alle y ∈ Uz . Wegen der
Kompaktheit von E gibt es eine endliche Überdeckung Uz1 , . . . , Uzn von E. Setze
gx := min(hz1 , . . . , hzn ).
Dann gilt (12.2) und nach Schritt 3 ist gx ∈ C.
5. Schritt:
Sei f ∈ C(E, R) und gx für jedes x ∈ E wie in Schritt 4. Da f, gx stetig sind, existiert zu jedem
x ∈ E eine offene Umgebung Vx 3 x mit
gx (y) ≥ f (y) − ε ∀y ∈ Vx , (12.4)
weil
s. o.
gx (x) = min(hz1 (x), . . . , hzn (x)) = f (x).
Wähle nun eine endliche Überdeckung Vx1 , . . . , Vxm von E und setze
g := max(gx1 , . . . , gxm ).
Dann gilt auch g ∈ C nach Schritt 3 und kg − f k∞ < ε nach (12.2) und (12.4). Also liegt C
dicht in C(E, R), und somit folgt die Behauptung. 

Beweis von Satz 12.11:


Falls µn ⇒ µ, dann gilt µ̂n (t) → µ̂(t) für alle t ∈ Rd nach Definition der schwachen Konvergenz.
Nach Bemerkung 12.7 ist (µn ) straff und wegen Lemma 12.10 (3) konvergiert µ̂n gleichmäßig
auf kompakten Teilmengen von Rd (Übung), insbesondere also auf jeder beschränkten Menge.
Umgekehrt sei µ̂n (t) → µ̂(t) für ein Wahrscheinlichkeitsmaß µ auf Rd und alle t ∈ Rd . Nach
Lemma 12.10 (2) ist (µn ) straff. Sei nun f : Rd → R stetig mit |f | ≤ m < ∞, und sei
ε > 0. Sei weiter r > 0 so groß, dass supn µn (kxk > r) ≤ ε/(12m) (beachte die Straffheit
von (µn )n ) und µ(kxk > r) ≤ ε/(12m). Dann konstruieren wir eine stetige Approximation
fr : C2r = [−2r, 2r]d → R von f auf C2r mittels

f (x) : kxk∞ ≤ r
fr (x) := 
kxk∞ −r

f (x) 1 − r : kxk∞ > r
+

und eine 4r-periodische Fortsetzung von fr auf Rd mittels f˜(x) :=


P
k∈Zd fr (x − 4rk). Ins-
˜ d ˜
besondere gilt |f | ≤ m auf R . Schließlich wählen wir zu f |[−2r,2r]d nach Lemma 12.12 eine
Approximation X
g(x) = ck exp [πi hk , xi /2r] ,
k

119
sodass |f˜ − g| < 6ε auf C2r und wegen der Periodizität beider Funktionen auch auf Rd gilt.
Nun ist
Z Z Z Z Z Z Z Z

f dµn − f dµ ≤ f dµn − gdµn + gdµn − gdµ + gdµ − f dµ .

Weiter folgt für alle n ∈ N wegen f = f˜ auf {kxk∞ ≤ r}


Z Z Z Z
f dµn − gdµn ≤ (f − f˜)dµn + (f˜ − g)dµn


Z
ε
≤ 2m 1{kxk∞ >r} dµn + µ(Rd )
6
ε ε ε
≤ 2m sup µn (kxk > r) + ≤ + .
n 6 6 6
Die gleiche Abschätzung gilt für µ statt µn . Wegen µ̂n → µ̂ ist schließlich
Z 

Z
X Z Z
gdµn − gdµ = ck eπihk ,xi/2r µn (dx) − eπihk ,xi/2r µ(dx)


k
X ε
= ck (µ̂n (πk/2r) − µ̂(πk/2r)) <

3
k

für alle n ≥ n0 . Also folgt


Z Z
f dµn − f dµ ≤ ε + ε + ε = ε für alle n ≥ n0 .

3 3 3


Korollar 12.14 (Cramér-Wold)
Seien Z, Z1 , Z2 , . . . Zufallsgrößen mit Werten in Rd . Dann gilt Zn ⇒ Z genau dann, wenn
ht , Zn i ⇒ ht , Zi für alle t ∈ Rd .

Beweis:
Aus ht , Zn i ⇒ ht , Zi folgt E exp [i ht , Zn i] → E exp [i ht , Zi] für n → ∞ (Definition), also
Zn ⇒ Z nach Satz 12.11. Die andere Richtung ist klar. 

Verteilungen von Summen unabhängiger Zufallsvariablen


Seien X1 , X2 unabhängige Zufallsvariablen mit Werten in Rd und Verteilungen Q1 = PX1 ,
Q2 = PX2 auf (Rd , Bd ). Dann heißt
Z
Q1 ∗ Q2 (A) := Q1 (dx1 )Q2 (dx2 ) = (Q1 ⊗ Q2 )(s−1 (A)) ,
{(x1 ,x2 )∈R2d :x1 +x2 ∈A}

wobei s : R × R → Rd , s(x1 , x2 ) = x1 + x2 ,
d d

die Faltung von Q1 und Q2 . Offensichtlich gilt für obige Zufallsvariable:

120
Bemerkung 12.15
(1) Q1 ∗ Q2 (A) = P(X1 + X2 ∈ A)
(2) Die Faltung ist Rkommutativ und assoziativ. R
(3) RFalls Qi (A) = A fi (x)dx, i = 1, 2, so ist Q1 ∗ Q2 (A) = A f1 ∗ f2 (x)dx, wo f1 ∗ f2 (x) =
f1 (x − y)f2 (y)dy λ-f.s.

Beweis:
Übung! – Verwende Fubini und Transformationssatz. 

Das Wahrscheinlichkeitsmaß N (0, 1) auf (R, B) mit Dichtefunktion


1 1
ϕ(x) = √ exp [− x2 ]
2π 2

bzgl. des Lebesguemaßes heißt Gaußverteilung oder (Standard-)Normalverteilung. Für eine Zu-
fallsvariable X mit PX = N (0, 1) gilt E X = 0 und E X 2 = 1 = Var(X).
Allgemeiner bezeichnet man mit N (µ, σ 2 ), σ > 0, die Gaußverteilung mit Mittelwert µ und
Varianz σ 2 . Diese ist gegeben durch
 
2 A−µ
N (µ, σ )(A) := N (0, 1) , σ>0.
σ

Eine Zufallsvariable X ∈ Rd heißt gaußverteilt, falls hX , ti gaußverteilt ist für alle t ∈ Rd


(vergleiche Korollar 12.14). In diesem Fall gibt es einen Vektor a ∈ Rd , den Mittelwert, und eine
symmetrische, positiv definite Matrix Σ, die Kovarianz , sodass für alle t 6= 0

E hX , ti = ha , ti , Var(hX , ti) = hΣt , ti > 0 .

Die Verteilung N (a, Σ) auf Rd besitzt dann folgende Dichte bzgl. λd (dx):

hΣ−1 (x − a) , x − ai
 
1
ϕ(x) = exp −
(det Σ)1/2 (2π)d/2 2

Bemerkung: Ist Σ = Id, so sind die Komponenten von X unabhängig und gaußverteilt (Übung! ).

Proposition 12.16
(1) Seien X1 , . . . , Xn unabhängige Zufallsvariablen in Rd mit induzierten Verteilungen Q1 , . . . , Qn
in Rd . Dann gilt

· · · ∗ Qn (t) = Q̂1 (t) · · · Q̂n (t) ∀ t ∈ Rd .


E exp [i ht , X1 + · · · + Xn i] = Q1 ∗\
2
(2) N\ (a, Σ)(t) = exp [− ht ,Σti
(0, 1)(t) = exp [− t2 ], sowie N\ 2
] · exp [i ha , ti]

Beweis:
(1) Benutze exp [i ht , X1 + · · · + Xn i] = nj=1 exp [i ht , Xj i] und Fubini.
Q

(2) Vgl. Übungen. 

121
Satz 12.17 (Zentraler Grenzwertsatz in R1 und Rd )
(1) Sei (Xn ) eine Folge unabhängiger, identisch verteilter (u.i.v.) Zufallsvariablen in R mit
E Xn = µ, Var(Xn ) = P σ 2 ∈ (0, ∞) für alle n ∈ N.
−1/2 n
Dann gilt Sn := n j=1 (Xj − µ)/σ =⇒ N (0, 1), n → ∞.
(2) Sei (Zn ) eine Folge von u.i.v. Zufallsvariablen in Rd mit E Zn = a ∈ Rd , Σ := Cov(Zn ) =
E (Zn − a)(Zn − a)T > 0 (d. h. Σ ist positiv definit) für alle n ∈ N.
| {z }
d × d Matrix
Dann gilt Sn := n−1/2 nj=1 (Zj − a) =⇒ N (0, Σ), n → ∞.
P

Beweis:
n→∞
(1) Zu zeigen ist ϕn (t) := E exp [itSn ] −−−→ exp [−t2 /2]. Hierbei ist

ϕn (t) = (E exp [itn−1/2 (X1 − µ)/σ])n

wegen Proposition 12.16 (1). Ferner gilt mit Taylorentwicklung


z2
exp [iz] = 1 + iz − + z 2 ψ(z) ,
2
wo ψ stetig mit |ψ| ≤ C < ∞ und limz→0 ψ(z) = 0. Dann folgt mit Vn := n−1/2 (X1 − µ)/σ
 n
2 2 −1
E Vn 2 t n
ϕn (t) = 1 + i E Vn t − t + E (X1 − µ)2 ψ(Vn t) .
|{z} 2 σ2
=0

n→∞
Aus dominierter Konvergenz folgt εn := E (X1 − µ)2 ψ(Vn t) −−−→ 0, d. h.
n
t2 t2 t2 
     2
εn  1 n→∞ t
ϕn (t) = 1 − + 2 εn = exp n log 1 − 1−2 2 −−−→ exp −
2n nσ 2 σ n 2
für alle t ∈ R, woraus mit dem Stetigkeitssatz von Lévy 12.11 die Behauptung folgt.
(2) folgt sofort aus Korollar 12.14, da hSn , ti =⇒ N (0, tT Σt) (nachrechnen!).


Exkurs: Normalverteilung
Proposition 12.18 (Transformation von Wahrscheinlichkeitsdichten)
Sei X ⊂ Rd offen, P ein W.maß auf (X , BXd ) mit Dichtefunktion f . Sei Y ⊂ Rd offen und
T : X → Y ein Diffeomorphismus, d.h. T ist eine stetig differenzierbare Bijektion mit Jacobi-
Determinante det DT (x) 6= 0 für alle x ∈ X . Dann hat PT auf Y die Dichte

fT (y) := f (T −1 (y)) · | det DT −1 (y)|, y ∈ Y.

Beweis:
Maß- und Integrationstheorie. 

Wendet man diese Proposition auf affine Transformationen von Zufallsvektoren an, deren Ein-
träge unabhängige, standardnormalverteilte Zufallsvariablen sind, so erhält man:

122
Satz 12.19 (Multivariate Normalverteilung)
Seinen X1 , ..., Xd unabhängige, standardnormalverteilte Zufallsvariablen und X = (X1 , ..., Xd )T
der zugehörige Spaltenvektor, sei B ∈ Rd×d eine reguläre, reelle d × d Matrix und m =
(m1 , ..., md )T ein Spaltenvektor. Dann hat Y := BX + m die Verteilungsdichte
d 1 1
ϕm,C (y) := (2π)− 2 | det(C)|− 2 exp[− (y − m)T C −1 (y − m)], y ∈ Rd (Spalte), (12.5)
2
wobei C = BB T .
Für die Koordinaten Yi von Y gilt: E(Yi ) = mi und Cov(Yi , Yj ) = Ci,j , 1 ≤ i, j ≤ d.

Beweis:
Aufgrund der Unabhängigkeit der Xi besitzt PX die Produktdichte
d  
Y
− d2 1 T
ϕ(xi ) = (2π) exp − x x = ϕ0,E (x), x ∈ Rd ,
i=1
2

wobei E die Einheitsmatrix bezeichnet. Nach Lemma 12.18 hat y dann die Dichte

ϕ0,E (B −1 (y − m)) det(B −1 ) = ϕm,C (y).


Da die Xi unabhängig und standardnormalverteilt sind, gilt ferner


d
! d
X X X
E(Yi ) = E Bij Xj + mi = mi ; Cov(Yi .Yj ) = Bik Bjl Cov(Xk , Xl ) = Bik Bjk = Cij .
j=1 k,l k=1


Sei nun C ∈ Rd×d irgendeine positiv definite, symmetrische Matrix. Dann existiert nach dem
Hauptachsentransformationssatz eine orthogonale Matrix O und eine Diagonalmatrix D mit
1
positiven Diagonalelementen
√ Dii > 0, so dass C = ODOT . Sei D 2 die Diagonalmatrix mit den
1
Diagonalelementen Dii , 1 ≤ i ≤ d und B := OD 2 . Dann ist B regulär mit C = BB T . Folglich
ist ϕm,C aus (12.5) für jedes solche m und C die Dichtefunktion eines Zufallsvektors und somit
insbesondere eine Wahrscheinlichkeitsdichte.

Definition 12.20
Für ein m ∈ Rd und eine positiv definite, symmetrische Matrix C ∈ Rd×d heißt das Wahrschein-
lichkeitsmaß Nd (n, C) auf (Rd , B d ) mit der Dichte ϕm,C aus (12.5) d-dimensionale Normalver-
teilung (oder Gauß-Verteilung) mit Erwartungswert m und Kovaarianzmatrix C. Insbesondere
heißt Nd (0, E) = N (0, 1)⊗d multivariate Standardnormalverteilung.
Korollar 12.21 (Rotationsinvarianz von Nd (0, E))
Die Verteilung Nd (0, E) ist invariant unter allen orthogonalen Transformationen.

Beweis:
Sei O eine orthogonale Matrix und X ein gemäß Nd (0, E) verteilter Zufallsvektor. Für die
orthogonale Transformation O : Rd → Rd , x 7→ O · x folgt aus Satz 12.19, dass O · X die
Verteilung (Nd (0, E))O = Nd (0, C) mit C = OOT = E besitzt. 
Für affine Transformationen von allgemeinen multivariaten Normalverteilungen gilt:

123
Satz 12.22
Sei Y Nd (m, C)-verteilt, k ≤ d und A ∈ Rk×d eine reelle Matrix mit vollem Rang, b ∈ Rk . Dann
besitzt Z := AY + b die k-dimensionale Normalverteilung Nk (Am + b, ACAT ).

Beweis:
Sei zunächst m = 0, b = 0. Nach Satz 12.19 können wir annehmen, dass Y = BX für Nd (0, E)-
verteiltes X Nd (0, E) und eine reguläre Matrix B mit BB T = C. Sei U der Untervektorraum
von Rd , der durch die Zeilen von A · B aufgespannt wird. Da A vollen Rang hat und B regu-
lär ist, gilt dim U = k. Mithilfe des Gram-Schmidtschen Orthonormalisierungsverfahrens erhält
man eine Orthonormalbasis u1 , ..., uk von U , die durch uk+1 , ..., ud zu einer Orthonormalba-
sis von Rd ergänzt werden kann. Sei O die orthogonale Matrix mit den Zeilen u1 , ..., ud und
R die reguläre k × k-Matrix des Basiswechsels in U sowie (R|0) die um Nullspalten zu einer
k × d-Matrix ergänzte Matrix. Dann gilt: (R|0) · O = A · B. Nach Korollar 12.21 ist X̃ := O · X
standardnormalverteilt, d.h. alle Koordinaten sind unabhängig und eindimensional standardnor-
malverteilt. Folgich besitzt AY = ABX = (R|0)X̃ = R(X̃1 , ..., X̃k )T die Verteilung Nk (0, RRT ).
Mit RRT = (R|0)(R|0)T = (R|0)OOT (R|0)T = AB(AB)T = ABB T AT = ACAT folgt dann in
diesem Fall die Behauptung.
Sind m und b beliebig, so hat Y − m die Verteilung Nd (0, C). Da Z = A(Y − m) + (Am + b)
folgt aus der ersten Betrachtung, dass Z − (Am + b) die Verteilung Nk (0, ACAT ) und somit Z
die Verteilung Nk (Am + b, ACAT ) besitzt. 

Definition 12.23 (Normalverteilungen für positiv semidefinite Kovarianzmatrizen)


Sei nun C ∈ Rd×d eine positiv semidefinite, symmetrische Matrix. Dann existiert nach dem
Hauptachsentransformationssatz eine orthogonale Matrix O und eine Diagonalmatrix D mit
positiven Diagonalelementen Dii ≥ 0, so dass C = ODOT . Für ein m N ∈ Rd ist die multivariate
Normalverteilung Nd (m, C) auf (R , B ) gegeben als das Bildmaß von di=1 N (0, Dii ) unter der
d d

affinen Transformation x 7→ O · x + m. Hierbei ist N (0, 0) = δ0 die Dirac-Verteilung in 0 ∈ R.

Bemerkung 12.24
Nach Satz 12.22 stimmt diese Definition im positiv definiten Fall mit der Definition 12.20
überein. Hat C dem Eigenwert 0 mit der Vielfachheit k > 0, so besitzt Nd (m, C) jedoch keine
Wahrscheinlichkeitsdichte, sondern versieht nur Teilmengen eines (d−k)-dinmensionalen affinen
Unterraum von Rd mit positiver Wahrscheinlichkeit.
Satz 12.25
Sei X = (X1 , ..., Xd ) Nd (m, C)-verteilt. Dann sind X1 , ..., Xd genau dann unabhängig, wenn sie
paarweise unkorreliert sind.

Beweis:
Seien X1 , ..., Xd paarweise unkorreliert, dann ist C eine Diagonalmatrix und entsprechend gilt
det C = C11 · ... · Cdd . Somit besitzt X die Dichte
d
Y
ϕm,C (x) = ϕmi ,Cii (xi ),
i=1

d.h. die Produktdichte der Dichten ϕmi ,Cii der Xi , die somit unabhängig sind (vgl. Satz von
Fubini). Die andere Richtung gilt allgemein. 

124

Das könnte Ihnen auch gefallen