Elementare Wahrscheinlichkeitstheorie Und Statistik

Elementare Wahrscheinlichkeitstheorie und Statistik
Kurzfassung: Denitionen und Satze

Beweise und Beispiele werden in der Vorlesung behandelt
Vorlesung SS 2003 f ur Bio-Informatiker und Lehramtskandidaten
Prof. Dr. Gerd Wittstock
Universitat des Saarlandes
FR 6.1 Mathematik
Version: 9. Juli 2003
Inhaltsverzeichnis
1 Endliche W-Raume 1
1.1 W-Ma und W-Funktion . . . . . . . . . . 1
1.2 Elementare Kombinatorik . . . . . . . . . 3
1.3 Rechnen mit Indikatorfunktionen . . . . . 6
1.4 Produkt von endl. W-Raumen . . . . . . . 8
1.5 Bernoulli- und Binomialverteilung . . . . 11
1.6 Zufallsvariable und ihre Verteilung . . . . 13
1.7 Hypergeometrische Verteilung . . . . . . . 15
1.8 Gemeinsame Verteilung von Z-Var. . . . . 17
1.9 Unabhangige Zufallsvariable . . . . . . . . 19
1.10 Unabhangige Ereignisse . . . . . . . . . . 20
1.11 Bedingte Wahrscheinlichkeit . . . . . . . . 22
1.12 Zusammengesetzte W-Mae . . . . . . . . 24
1.13 Mehrstuge Experimente . . . . . . . . . 26
1.14 Polyas Urnenmodell . . . . . . . . . . . . 29
1.15 Erwartungswert . . . . . . . . . . . . . . . 30
1.16 Bedingte Erwartung . . . . . . . . . . . . 33
1.17 Erwartungswert des Produktes . . . . . . 35
1.18 Varianz und Kovarianz . . . . . . . . . . . 36
1.19 Bedingte Varianz . . . . . . . . . . . . . . 39
1.20 Schwaches Gesetz der groen Zahl . . . . 40
2 Diskrete und stetige W-Raume 44
2.1 Uniforme und geometrische Verteilung . . 44
2.2 Diskrete W-Raume . . . . . . . . . . . . . 45
2.3 Konvergenz gegen geomtr. Vertlng. . . . . 49
2.4 Poisson-Verteilung . . . . . . . . . . . . . 50
2.5 Allgemeine W-Raume . . . . . . . . . . . 53
2.6 Zufallsvariable und ihre Verteilung . . . . 55
2.7 Eindeutigkeit eines W-Maes . . . . . . . 56
2.8 Verteilungsfunktion . . . . . . . . . . . . . 56
2.9 Dichtefunktion, stetige Verteilungen . . . 58
2.10 Exponentialverteilung . . . . . . . . . . . 59
2.11 Normalverteilung . . . . . . . . . . . . . . 61
2.12 Grenzwertsatz von Moivre-Laplace . . . . 62
1 ENDLICHE W-R
AUME 1
1 Endliche W-Raume
In diesem Kapitel werden einige Grundbegrie der
Wahrscheinlichkeitstheorie (W-Theorie) f ur den beson-
ders einfachen Fall eines endlichen Wahrscheinlichkeits-
raumes (W-Raumes) eingef uhrt und einfache Folgerun-
gen gezogen.
Die genaue Regelung der Bezeichnungen mag f ur den
endlichen Fall etwas spitzndig klingen, bietet aber die
folgenden Vorteile:
Die Denitionen Bezeichnungen und Folgerungen gel-
ten f ur allgemeinere W-Raume sinngema weiter. Es
kommen nur noch einige mathematische Feinheiten
hinzu, die im endlichen Fall keine Bedeutung haben.
Die genaue Festlegung der Bezeichnungen erlaubt es,
in Beispielen kurz und prazise zu sagen, wie das Mo-
dell aussehen soll und was zu berechnen ist.
In den zugehorigen

Ubungen geht es haug darum,
umgangssprachlich formulierte Probleme, sogenante
Textaufgaben, in die streng geregelte Sprache der W-
Raume zu ubersetzen. Die anschlieende W-Rechnung
ist dann zumeist nur noch Fleiarbeit. Bei endlichen
W-Raumen kommt man mit den Grundrechenarten
+ / und etwas Elementarmathematik aus.

1.1 W-Ma und W-Funktion
1.1.1 Bez. (endlicher Grundraum)
Math.: Der Grundraum ist eine nichtleere endliche
Menge. Die Elemente werden mit bezeichnet. Die
Anzahl der Elemente [[ N ist eine nat urliche Zahl.
2
bezeichnet die Potenzmenge von . F ur die Teil-

mengen von verwenden wir die Buchstaben A, B 2
.
Modell: Ein Experiment mit endlich vielen mogli-
chen Ausgangen. ist die Ergebnismenge oder der
Ergebnisraum des Experimentes und enthalt alle
moglichen Ausgange und eventuell auch einige unmogli-
che Ausgange.
Es kann aus mathematischen Gr unden praktisch sein, einige
unmogliche Ausgange hinzuzunehmen, wenn dadurch einfacher
anzugeben ist ( z. B. Bemerkung 1.5.5)
Die Elemente nennt man die Elementarereignisse
des Experiments. Die Teilmengen A 2
heien Ereig-
nisse
Je nach Beispiel sind noch weitere Bezeichnungen f ur
ublich: Stichprobenraum . . .
1.1.2 Bsp. (W urfelexperiment)
Ergebnisraum: = 1, 2, 3, 4, 5, 6,
Elementarereignis: 6 . Es ist eine 6 gew urfelt wor-
den.
Ereignis A := 2, 4, 6 2
. Es ist eine gerade Augen-

zahl gew urfelt worden.
1.1.3 Bez. (Wahrscheinlichkeitsfunktion)
Math.: Eine W-Funktion p ist eine Funktion
p : [0, 1] mit
= 1.
F ur eine Teilmenge A 2
setzt man
P(A) :=
A
p
und nennt die Zahl P(A) die Wahrscheinlichkeit von A.

Die Abbildung
P : 2
[0, 1]
heit das zu p gehorende Wahrscheinlichkeitsma.
Man kann die W-Funktion aus dem W-Ma auf einfache Weise
rekonstruieren. Oensichtlich gilt p
= P().
Modell: Die Ergebnisse eines Experiments sind zufallig.
F ur jedes Elementarergebnis setzt man die Wahr-
scheinlichkeit p
fest, da eintritt. Die Wahrschein-

lichkeiten p
sind nichtnegative Zahlen und so normiert,

da die Summe der Wahrscheinlichkeiten 1 ist.
Ein Ereignis A tritt ein, wenn der Ausgang des Ex-
perimentes in A liegt. Die Wahrscheinlichkeit, das das
Ereignisses A eintritt, ist die Summe der Wahrschein-
lichkeitem p
mit A.
Man interpretiert die Werte P(A) = 0 als unmogliches
Ereignis und P(A) = 1 als sicheres Ereignis.
Anmerkung. Man ndet in der Literatur ( [7][Hinderer]) f ur
die W-Funktion p auch die Bezeichnung Zahldichte. Die Be-
gr undung hierf ur ist, da auf endlichen W-Raumen die Funktion
p die Dichte des W-Maes P bez uglich des Zahlmaes ist. Das
Zahlma ordnet jeder Teilmenge die Anzahl ihrer Elemente zu.
Bei
kontinuierlichen W-Maen tritt an die Stelle des Zahl-

maes haug das Lebesguesche Ma (Lange, Flache bzw. Raumin-
halt). In diesen Problemen haben die W-Mae eine Dichtefunktion
p bez uglich des Lebesgueschen Maes.
1.1.4 Bsp. (fairer W urfel)
Ergebnisraum: = 1, 2, 3, 4, 5, 6,
W-funktion: Fairer W urfel bedeutet, da alle sechs
Elementarereignis gleichwahrscheinlich sind. Also
ist:
p
=
1
6
f ur = 1, 2, . . . , 6.
W-Ma: Das Ereignis, es ist eine gerade Augenzahl
gew urfelt worden, hat die Wahrscheinlicheit
P(2, 4, 6) =
1
6
+
1
6
+
1
6
=
1
2
.
Anmerkung. Wir werden spater auch Zufallsexperimente mit ei-
ner kontinuierlichen Zahl von Elementarereignissen untersuchen.
Der Grundraum ist dann z. B. ein Intervall := [a, b] R.
Man denke an eine zufallige Drehung mit Drehwinkel
[0, 2). In diesem Modell ist die Wahrscheinlichkeit, da der Dreh-
winkel exakt 45
ist, wohl 0. Die Wahrscheinlichkeit, da der Dreh-

winkel im ersten Quadranten liegt wird 1/4 sein. Etwas allgemei-
ner:
P() = 0 und P([a, b]) =
ba
2
f ur 0 a b < 2.
Wie man sieht, ist nun die Funktion P() 0 nicht sehr
interessant! Die richtige Verallgemeinerung der W-Funktion ist die
Dichtefunktion, die aber i.a. nicht so einfach zu erklaren ist.
Im Hinblick auf allgemeinere Situationen st utzen wir die axio-
matische Beschreibung endlicher W-Raume auf den Begri des
W-Maes und nicht auf den zunachst einfacher erscheinenden Be-
gri der W-Funktion. Die W-Funktion ist aber ein sehr n utzliches
Hilfsmittel bei der Berechnung des W-Maes.
1.1.5 Def. (endlicher W-Raum)
Ein endlicher Wahrscheinlichkeitsraum ist ein Paar
(, P), bestehend aus einer nichtleeren endlichen Menge
und einer Abbildung P : 2
[0, ) mit den folgen-

den Eigenschaften:
Gerd Wittstock, UdS, FR 6.1 Mathematik, Elementare W-Theorie, SS 03 Version: 9. Juli 2003
1 ENDLICHE W-R
AUME 2
(i) P() = 1,
(ii) P(AB) = P(A)+P(B) f ur disjunkte A, B 2
.
P heit W-Ma auf .
Die Eigenschaft (i) ist eine sinnvolle Normierung. Die
Eigenschaft (ii) heit (endliche) Additivitat.
Anmerkung. Im physikalischen Sprachgebrauch bezeichnet man
W-Mae als Statistiken, z. Bsp. Boltzmann-Statistik in der kineti-
schen Gastheorie. Das kollidiert mit dem sonstigen Gebrauch des
Wortes Statistik
1.1.6 Festst. (Rechenregeln f ur W-Mae)
Es seien A, B, A
1
, . . . , A
n
2
.
Wenn A
1
, . . . , A
n
paarweise disjunkt sind, gilt:
P(
n
_
=1
A
) =
n
=1
P(A
) (1.1.1)
F ur beliebige A
1
, . . . , A
n
gilt:
P(
n
_
=1
A
)
n
=1
P(A
); (1.1.2)
Speziell ist:
P(A
c
) +P(A) = 1 (1.1.3)
P(A B) +P(A B) = P(A); (1.1.4)
P() = 0; (1.1.5)
P(A B) +P(A B) = P(A) +P(B), (1.1.6)
Wenn A B ist, dann gilt
P(A) P(B). (1.1.7)
1.1.7 Satz (W-Ma W-Funktion)
Es sei eine nichtleere, endliche Menge.
(i) Ist P ein W-Ma auf , so ist
p : [0, 1] mit p
:= P()
eine W-funktion auf .
(ii) Zu einer W-Funktion p : [0, 1] gibt es genau
ein W-Ma P : 2
[0, 1] mit p
= P().
In beiden Fallen gilt
P(A) =
Anmerkung. 1. Der axiomatische Zugang zur W-Theorie (Kol-

mogorov 1933) erklart den W-Raum durch die Regeln (Axiome),
die ein W-Raum erf ullen mu. Im Falle eines endlichen W-Raumes
sind dies die Regeln aus Denition 1.1.5.
2. Diese Regeln enthalten keine Angaben, wie in einem konkre-
ten Beispiel die Wahrscheinlichkeiten festzulegen sind.
Dazu benotigt man weitere Informationen uber das konkrete
Modell. Folgerungen aus den Axiomen helfen dann bei der Festle-
gung der Wahrscheinlichkeiten, wie wir in dem sehr einfachen (!)
Beispiel 1.1.4 gesehen haben.
1.1.8 Bem. (Haugkeitsinterpretation)
Man wiederhole ein Zufallsexperiment sehr haug und
achte darauf, da die verschiedenen Experimente sich
nicht beeinussen. Man sagt hierzu, die Experimente
sind unabhangig.
Bei n-maliger Wiederholung erhalt man die Ergebnis-
se
1
x
1
, x
2
, x
3
, . . . x
n
.
mit x
. F ur eine Teilmenge A 2
bezeichne
R
n
(A) :=
1
n
n
=1
1l
A
(x
)
die relative Haugkeit, mit der das Ereignis A in den n
Experimenten eingetreten ist. Dabei ist 1l
A
die charak-
teristische Funktion oder Indikatorfunktion von A:
1l
A
(w) :=
_
1 f ur A,
0 f ur , A.
Man wird naiv erwarten, da f ur groe n die relative
Haugkeit R
n
(A) ungefahr gleich der Wahrscheinlich-
kiet P(A) ist.
1.1.9 Bez. (empirische Wahrscheinlichkeit)
Die bei der Wiederholung zufalliger Experimente unter
gleichen Bedingungen beobachteten relativen Haugkei-
ten verwendet man als sogenannte empirische Wahr-
scheinlichkeiten. Bei festem n ist
2
A R
n
(A)
ein W-Ma auf .
Anmerkung. Hierauf beruht die statistische Schatzung der
Wahrscheinlichkeit, z. Bsp. Sterbetafeln. Man mochte aufgrund
von beobachteten relativen Haugkeiten in einer Versuchsserie
Vorhersagen f ur die relative Haugkeit in einer zuk unftigen Ver-
suchsserie machen.
Dies setzt voraus, das wir die Ergebnisse des Experiments als
zufallig betrachten konnen. D. h., es gibt keinen Anla an der Er-
fahrungstatsache zu zweifeln, da bei Wiederholungen des Experi-
ment mit mindestens derselben Anzahl von Versuchen, die relative
Haugkeiten nur sehr wenig schwanken werden.
Problem: Was sehr wenig ist, hangt von der Fragestellung ab.
Wie gro soll man n wahlen. Wie gro ist die Wahrscheinlichkeit,
da das beobachtete n-Tupel x
1
, x
2
, x
3
, . . . x
n
ein Ausreier ist:
n-mal Kopf beim M unzwurf !
Die axiomatische W-Theorie leistet bei der Beantwortung dieser
Frage Hilfestellung Schwaches Gesetz der groen Zahl.
1.1.10 Bez. (Laplace-Wahrscheinlichkeit)
Math.: Die Grundmenge hat
:= n Elemente. Alle
Elementarereignisse sind gleichwahrscheinlich. Also gilt
f ur und A 2
:=
1
n
und P(A) :=
[A[
[[
.
Man nennt diese W-Ma Laplace-Wahrscheinlichkeit
oder Gleichverteilung
2
1
Zur Bezeichnung: bezeichnet ein beliebiges Element des
Grundraumes. Eine konkrete Beobachtung bezeichnen wir dagegen
mit x ( Zufallsvariable, Statistik)
2
W-Mae nennt man auch W-Verteilungen
1 ENDLICHE W-R
AUME 3
Model: Fairer W urfel, fairer M unzwurf, gut gemisch-
tes Kartenspiel usw.
Hieraus konstruiert man dann weitere W-Raume wie:
Augensumme beim zweimaligen W urfeln.
Wann fallt zum ersten mal Kopf beim M unzwurf.
Bei Berechnung der Laplace-Wahrscheinlichkeit helfen Formeln
der Kombinatorik (Abschnitt 1.2), um die Anzahl der Elemente
von Mengen einer bestimmten Bauart zu bestimmen.
1.2 Elementare Kombinatorik
Elementare Kombinatorik: Lehre von der Abzahlung
endlicher strukturierter Mengen.
Die folgenden Tatsachen sind aus der Grundvorlesung bekannt:
1.2.1 Bem. (Permutation, Potenzmenge, Produkt)
(i) M ist eine endliche Menge mit [M[ := n Elemen-
ten, wenn es eine bijektive Abbildung von 1, 2, . . . , n
N auf die Menge M gibt. Die Zahl n heit die Machtig-
keit der Menge M.
F ur die leere Menge sei [[ = 0.
(ii) Bijektive Abbildungen : 1, 2, . . . , n M
heien Permutationen oder Anordnungen oder
Aufzahlungen der Menge M.
F ur eine Menge mit n Elementen gibt es
n! := 1 2 (n 1) n
Permutationen. Man setzt 0! = 1.
(iii) Eine injektive Abbildung : 1, . . . , k M
gibt eine Aufzahlung einer k-elementigen Teilmenge von
M an. Es gibt genau
(n)
k
:= n (n 1) (n k + 1)
injektive Abbildungen von 1, . . . , k in M. Beachte:
(n)
k
= 0 f ur k > n. Das leere Produkt ergibt (n)
0
= 1.
(iv) Eine Menge M mit n Elementen hat genau
_
n
k
_
:=
(n)
k
k!
k-elementige Teilmengen. Es ist
_
n
k
_
:=
_
_
_
n!
k!(n k)!
f ur 0 k n
0 f ur n < k.
Insbesondere ist
_
n
0
_
= 1. Der Ausdruck
_
n
k
_
heit Bino-
mialkoezient.
(v) Die Menge aller Teilmengen von M heit die Po-
tenzmenge von M. Jeder Teilmenge A M entspricht
eineindeutig ihre charakteristische Funktion oder Indi-
katorfunktion 1l
A
. Auf diese Weise erhalt man eine Bi-
jektion von 0, 1
M
mit der Potenzmenge.
Die Potenzmenge von M hat genau 2
]M]
Elemente.
Daher r uhrt die Bezeichnung 2
M
f ur die Potenzmenge.
(vi) Es seien M
1
, . . . , M
k
endliche Mengen. Die Pro-
duktmenge M :=
k
=1
M
hat
[M[ =
k
=1
[M
[
Elemente. Nach Denition ist das Produkt leer, wenn
zumindest einer der Faktoren M
= ist.
1.2.2 Festst. (Abzahlprinzip)
Bemerkung 1.2.1(vi) nennt man das Abzahlprinzip, da
man umgangssprachlich folgendermaen formuliert:
Es sei eine Menge von n-Tupeln =
(
1
,
2
, . . . ,
n
). Der Raum sei der Ergebnisraum
eines Experimentes, das aus n Teilexperimenten be-
steht. F ur jedes 1, 2, . . . , n sei k
die Zahl der

moglichen Ergebnisse des -ten Experiments. Die Zahl
k
sei unabhangig davon, wie die anderen Teilexperi-

mente ausgehen. Dann ist
[[ = k
1
k
2
k
n
.
Anmerkung. Oft lassen sich die Anzahlen auf eine von vier ty-
pischen Grundsituationen zur uckf uhren (Stichproben 1.2.3 und
Belegungen 1.2.5)
1.2.3 Bez. (Stichproben)
Aus einer n-elementigen Menge M kann man auf ver-
schiedene Weise eine Stichprobe vom Umfang k entneh-
men. Man nennt die Menge M auch eine Urne, aus der
man die Stichprobe zieht. Bei der Stichprobe unterschei-
det man, ob es zum Schlu auf die Reihenfolge ankommt
oder nicht und ob man nach jedem Ziehen wieder zur uck-
legt oder nicht. Das ergibt vier Typen
geordnete Stichprobe ohne Wiederholung:
k-maliges Ziehen aus der Urne ohne Zur ucklegen
unter Beachtung der Reihenfolge.
Bsp: Ziehung im Zahlenlotto 6 aus 49.
Math.: injektive Abbildung 1, 2, . . . , k M,
Aufzahlung einer k-elementigen Teilmenge.
geordnete Stichprobe mit Wiederholung:
k-maliges Ziehen aus der Urne mit Zur ucklegen un-
ter Beachtung der Reihenfolge.
Bsp. n = 6, k-maliges W urfeln mit einem W urfel.
Math.: k-Tupel, Abbildung 1, 2, . . . , k M.
ungeordnete Stichprobe ohne Wiederholung:
k-maliges Ziehen aus der Urne ohne Zur ucklegen
und ohne Beachtung der Reihenfolge.
Bsp: Gewinnzahlen im Zahlenlotto 6 aus 49.
Math.: k-elementige Teilmenge von M
Abbilung f : M 0, 1 mit

M
f() = k.
ungeordnete Stichprobe mit Wiederholung:
k-maliges Ziehen aus der Urne mit Zur ucklegen oh-
ne Beachtung der Reihenfolge.
Bsp. n = 6, k nicht unterscheidbare W urfel in einem
Becher.
Math.: Abbildung f : M N mit

M
f() = k.
1 ENDLICHE W-R
AUME 4
Anmerkung. Wir bestimmen nun die Anzahl der moglichen
Stichproben in den obigen vier Fallen. Das besagt noch nichts
uber geeignete W-Mae auf dem Raum der Stichproben!
1.2.4 Satz (Stichprobenanzahl)
F ur die Anzahl der moglichen Stichproben vom
Umfang k aus einer Menge mit n Elementen gilt:
Stichprobe vom
Umfang k aus
M, [M[ = n
ohne Wie-
derholung
mit Wie-
derholung
geordnete
Stichprobe
(n)
k
n
k
ungeordnete
Stichprobe
_
n
k
_ _
n +k 1
k
_
Dabei ist
(n)
k
:=
n!
(n k)!
= n (n 1) (n k + 1)
1.2.5 Bez. (Belegungen)
Eine Stichprobe vom Umfang k aus M kann man auch
anders interpretieren:
Die Menge M besteht aus Zellen. Man hat k Objek-
te, die auf die Zellen zu verteilen sind. Eine Stichprobe
x
1
, x
2
, . . . , x
k
gibt an, in welche Zelle die Objekte zu le-
gen sind.
Bei geordneten Stichproben werden die Objekte ent-
sprechend angeordnet und kommen der Reihe nach in
die angegebene Zelle. Bei Stichproben mit Wiederholung
kommen mehrere Objekte in dieselbe Zelle.
Sind die Objekte ununterscheidbar, so kommt es auf
die Reihenfolge, in der die Objekte auf die Zellen verteilt
werden, nicht an. Dieser Fall entspricht der ungeordneten
Stichprobe. Die ungeordnete Stichprobe gibt nur an, in
welche Zellen Objekte kommen.
Man hat also die folgenden vier Falle:
unterscheidbare Objekte, keine Mehrfachbele-
gung: geordnete Stichprobe ohne Wiederholung
Math.: Injektive Abbildung von der Menge K der
Objekte in die Menge M der Zellen.
unterscheidbare Objekte, Mehrfachbelegung: ge-
ordnete Stichprobe mit Wiederholung
Math.: Abbildung von der Menge K der Objekte
in die Menge M der Zellen.
nicht unterscheidbare Objekte, keine Mehrfach-
belegung: ungeordnete Stichprobe ohne Wieder-
holung
Math.: k-elementige Teilmenge von M oder Abbil-
dung f : M 0, 1 mit

M
f() = k.
nicht unterscheidbare Objekte, mit Mehrfach-
belegung: ungeordnete Stichprobe mit Wiederho-
lung
Math.: Abbildung f : M N mit

M
f() =
k.
Anmerkung. Wir bestimmen nun die Anzahl der moglichen Be-
legungen in den obigen vier Fallen. Das besagt noch nichts uber
geeignete W-Mae auf dem Raum der Belegungen!
1.2.6 Folg. (Anzahl der Belegungen)
F ur die Anzahl der moglichen Belegungen von n Zellen
mit k Objekten gilt:
Belegung von
M mit k Ob-
jekten, [M[ = n
ohne Mehr-
fachbelegung
mit Mehr-
fachbelegung
unterscheidbare
Objekte
(n)
k
:=
n!
(n k)!
n
k
Objekte nicht
unterscheidbar
_
n
k
_ _
n +k 1
k
_
Formeln f ur Binomialkoezienten. Wir bringen ei-
nige Beispiele. Man kann die Formeln einerseits durch Nach-
rechnen zeigen. Dazu wird man zumeist einen Induktionsbeweis
f uhren. Andere folgen leicht aus der binomischen Formel
(x +y)
n
=
n
k=0
_
n
k
_
x
k
y
nk
f ur n N
0
.
Man setze f ur x, y spezielle Werte ein, dierenziere die Formel . . .
Man kann solche Formeln auch durch Bildung von passen-
den Mengen von ungeordneten Stichproben ohne Wiederholung
aus 1, . . . , n, d.h. passenden Teilmengen der Potenzmenge von
1, . . . , n, interpretieren:
1.2.7 Bsp. (Komplementarmengen)
F ur 0 k n gilt
_
n
k
_
=
_
n
n k
_
.
Die Komplementbildung ist eine bijektive Abbildung der
Potenzmenge von 1, . . . , n auf sich. Es gibt also genau
soviele k-elementige Teilmengen wie (n k)-elementige
Teilmengen.
1.2.8 Bsp. (Additionstheorem)
F ur 1 k n gilt
_
n
k
_
=
_
n 1
k
_
+
_
n 1
k 1
_
.
linke Seite: Anzahl der ungeordneten Stichproben oh-
ne Wiederholung vom Umfang k aus 1, . . . , n.
Man zerlege diese in zwei disjunkte Typen. Deren An-
zahlen ergeben die rechte Seite.
n nicht in der Stichprobe: Dies sind alle ungeordne-
ten Stichproben ohne Wiederholung vom Umfang k
aus 1, . . . , n 1. Anzahl ist
_
n1
k
_
.
n ist in der Stichprobe: Nimmt man das Element n
davon weg, erhalt man alle ungeordneten Stichpro-
ben ohne Wiederholung vom Umfang k 1 aus
1, . . . , n 1. Anzahl ist
_
n1
k1
_
.
Man kann die Methode von Beispiel 1.2.8 verallgemeinern:
1 ENDLICHE W-R
AUME 5
1.2.9 Bsp. F ur 1 k n ist
_
n
k
_
=
n1
m=k1
_
m
k 1
_
=
_
k1
k1
_
+
_
k
k1
_
+. . .
_
n1
k1
_
.
linke Seite: Anzahl der k-elementigen Teilmengen von
1, . . . , n.
Man zerlege die Menge der k-elementigen Teilmengen
in folgende disjunkte Typen. Deren Anzahlen ergeben
die rechte Seite.
Teilmengen, die k + 1, . . . , n nicht enthalten:
Hiervon gibt es genau eine: 1, . . . , k. Anzahl ist
1 =
_
k1
k1
_
Teilmengen, die k + 2, . . . , n nicht enthalten
und k + 1 enthalten: Anzahl ist
_
k
k1
_
. . . . . .
Teilmengen, die n 1, n nicht enthalten und
n 2 enthalten: Anzahl ist
_
n3
k1
_
.
Teilmengen, die n nicht enthalten und n 1
enthalten: Anzahl ist
_
n2
k1
_
.
Teilmengen, die n enthalten: Anzahl ist
_
n1
k1
_
.
1.2.10 Bsp. F ur 1 k n ist
n
k=0
_
n
k
_
= 2
n
.
linke Seite: F ur k = 1, 2, . . . , n bilde man die Anzahlen
der k-elementigen Teilmengen von 1, . . . , n und
summiere diese auf. Dies ergibt die Anzahl aller
Teilmengen von 1, . . . , n.
rechte Seite: Machtigkeit der Potenzmenge von
1, . . . , n.
1.2.11 Bsp. F ur n N ist
_
n
0
_
+
_
n
2
_
+
_
n
4
_
+ =
_
n
1
_
+
_
n
3
_
+
_
n
5
_
+. . .
linke Seite: Anzahl der Teilmengen von 1, . . . , n mit
gerader Anzahl von Elementen.
rechte Seite: Anzahl der Teilmengen von 1, . . . , n
mit ungerader Anzahl von Elementen.
Es sei := 1, . . . , n. Die folgende Abbildung : 2
ist bijektiv und bildet Teilmengen A 2
mit gerader
Elementanzahl auf solche mit ungerader Elementanzahl
ab und umgekehrt.
: A
_
A n wenn n , A.
A n wenn n A.
Folglich gibt es genausoviel Teilmengen mit gerader An-
zahl wie mit ungerader Anzahl.
1.2.12 Bsp. F ur n N
0
ist
n
k=1
k
_
n
k
_
= n2
n1
.
Es sei = 1, . . . , n.
linke Seite: Machtigkeit der Menge
L := (a, A) [ A 2
, a A.
rechte Seite: Machtigkeit der Menge
R := (b, B) [ b , B b
=
_
b
(b, B) [ B b.
Man beachte, da dies eine Vereinigung von n dis-
junkten Mengen ist, die alle die gleiche Machtigkeit
2
n1
haben.
Die folgende Abbildung : L R ist bijektiv:
L (a, A) (a, A a) R.
Also sind L und R gleichmachtig.
1.2.13 Bsp. F ur n N
0
ist
n
k=0
_
n
k
_
2
=
n
k=0
_
n
n k
__
n
k
_
=
_
2n
n
_
.
Die erste Gleichung folgt aus der Komplementarformel
1.2.7.
F ur die zweite Gleichung realisieren wir die linke und
rechte Seite als Machtigkeiten. Es sei := 1, . . . , n.
linke Seite: Machtigkeit der Menge
L := (A, B) [ A, B 2
, [A[ +[B[ = n
rechte Seite: Machtigkeit der Menge
R := C [ C 0, 1, [C[ = n.
Die folgende Abbildung : L R ist bijektiv:
L (A, B) A0 B 1 R.
Also sind L und R gleichmachtig.
Anmerkung. Der Binomialkoezient
_
n
k
_
gibt an, auf wieviele
Arten man eine Menge mit n Elementen derart in zwei Gruppen
aufteilen kann, da die erste Gruppe k Elemente und die zweite
n k Elemente hat.
Die Multinomialkoezenten geben an, auf wie viele Arten man
eine Menge mit n Elementen in m Gruppen aufteilen kann, so
da die erste Gruppe k
1
, die zweite k
2
und die m-te Gruppe k
m
Elemente hat. Dabei kommt es auf die Reihenfolge der Gruppen
an und es mu nat urlch k
1
+k
2
+ k
m
= n gelten.
1.2.14 Bez. (Multinomialkoezienten)
Es seien m, n N, 1 m n und (k
1
, . . . , k
m
) N
n
0
mit
m
=1
k
= n. Es gibt
_
n
k
1
__
n k
1
k
2
_

_
n k
1
k
2
k
m1
k
m
_
=
n!
k
1
! k
2
! k
m
!
1 ENDLICHE W-R
AUME 6
Einteilungen einer n-elementigen Menge in m durch-
nummerierte Gruppen mit k
1
, k
2
, . . . , k
m
Elementen.
Die so bestimmten Zahlen heien Multinomialkoezi-
enten und werden mit
_
n
k
1
,...,k
m
_
bezeichnet. Man setzt
_
n
k
1
,...,k
m
_
= 0, wenn
m
=1
k
,= n ist.
Anmerkung. (Multinomialformel) Analog zur Binomialfor-
mel gibt es die Multinomialformel:
(p
1
+ +p
m
)
n
=
(k
1
,...,k
m
)N
m
0
k
1
++k
m
=n
n!
k
1
! k
2
! k
m
!
p
k
1
1
p
k
m
m
.
(1.2.1)
Ist speziell p
1
+ + p
m
= 1 so ist in Gleichung 1.2.1 die rechte
Seite gleich 1.
1.3 Rechnen mit Indikatorfunktionen
1.3.1 Bem. (Indikatorfunktion)
F ur A bezeichnet 1l
A
die charakteristische Funktion
oder Indikatorfunktion von A:
1l
A
(w) :=
_
1 f ur A,
0 f ur , A.
Es gelten die folgenden Regeln: ,
(i) 1l
AB
= 1l
A
+ 1l
B
, wenn A, B disjunkt sind;
(ii) 1l
n
=1
A
n
=1
1l
A
, wenn A
1
, . . . , A
n
paarweise
disjunkt sind;
F ur beliebige Teilmengen von gilt:
(iii) 1l
AB
= 1l
A
1l
B
= min1l
A
, 1l
B
,
(iv) 1l
n
=1
A
n
=1
1l
A
,
(v) 1l
A\B
= 1l
A
1l
AB
,
(vi) 1l
A
c = 1 1l
A
,
(vii) 1l
AB
= 1l
A
+ 1l
B
1l
AB
= min1l
A
, 1l
B
,
(viii) A B 1l
A
1l
B
.
Mit der folgenden Feststellung kann man die Rechenregeln f ur end-
liche W-Raume auf die entsprechenden Regeln f ur endliche Sum-
men zur uckf uhren.
1.3.2 Festst.
F ur eine Menge und eine endliche Teilmenge A
gilt
[A[ =
A
1l
A
()
1.3.3 Bem.
Mit der Morganschen Regel
_
n
_
=1
A
_
c
=
n
=1
A
c
(1.3.1)
folgt aus
1l
n
=1
A
=
n
=1
1l
A
(1.3.2)
und 1l
A
c = 1 1l
A
, da
1l
n
=1
A
= 1 1l
n
=1
A
c
(1.3.3)
= 1
n
=1
(1 1l
A
) (1.3.4)
=
n
i=1
(1)
i+1
s
i
. (1.3.5)
Dabei sind die s
i
die Summe der i-fachen Produkte der
Indikatorfunktionen:
s
i
=
1
1
<<
i
n
i
j=1
1l
A
j
.
Wendet man nochmal (1.3.2) an, so erhalt man
s
i
=
1
1
<<
i
n
1l
i
j=1
A
j
. (1.3.6)
1.3.4 Folg. (Siebformel)
Es seien A
1
, . . . , A
n
. F ur die Machtigkeit der Ver-
eingung gilt
n
_
=1
A
=
n
i=1
(1)
i+1
m
i
,
wobei die m
i
die summierten Machtigkeiten der i-fachen
Schnittmengen sind:
m
i
=
1
1
<<
i
n
j=1
A
.
Anmerkung. Die folgende Formel ist ein Spezialfall des Er-
wartungswertes einer Zufallsvariablen.
1.3.5 Festst.
F ur einen W-Raum (, P) und A 2
gilt
p(A) =
A
1l
A
()P().
Manchmal ist die die Wahrscheinlichkeit von Schnittmengen leich-
ter zu berechnen als die von Vereinigungen. Dann hilft die folgende
Formel:
1.3.6 Satz (Einschlu-Auschlu-Formel)
Es seien (.P) ein endlicher W-Raum und A
1
, . . . , A
n

2
. Dann ist
P(
n
_
=1
A
) =
n
i=1
(1)
i+1
S
i
,
wobei die S
i
die summierten Wahrscheinlichkeiten der
i-fachen Schnittmengen sind:
S
i
=
1
1
<<
i
n
P(
i
j=1
A
j
).
1 ENDLICHE W-R
AUME 7
1.3.7 Bsp.
Wie gro ist die Wahrscheinlichkeit, da bei einer Per-
mutation von M := 1, . . . , n alle Elemente vertauscht
werden, also keines an seinem Platz bleibt. Dabei seien
alle Permutationen gleichwahrscheinlich.
Der Grundraum sind die Permutationen
:= (x
1
, . . . , x
n
) 1, . . . , n
n
[ x
i
,= x
j
f ur i ,= j
mit Laplace-Wahrscheinlichkeit. Es ist [[ = n!.
F ur = 1, . . . , n sei
A
= (x
1
, . . . , x
n
) [ x
= .
Die Vereinigung
n
=1
A
ist die Menge der Permutatio-

nen, die zumindest eine Stelle festlassen, d.h. x
i
= i f ur
irgendein i M.
F ur beliebige 1
1
< <
i
n hat die Schnitt-
menge
i
j=1
A
j
= (x
1
, . . . , x
n
) [ x
j
=
j
f ur j = 1, . . . , i
genau (ni)! Elemente. Die Laplace-Wahrscheinlichkeit
des Durchschnitts hangt also nur von der Anzahl i der
Schnittmengen ab.
P
_
i
j=1
A
j
_
=
(n i)!
n!
.
Es gibt
_
n
i
_
mogliche Auswahlen f ur die Indizes 1
1
<
<
i
n.
Die Einschlu-Ausschlu-Formel ergibt nun
P
_
n
_
=1
A
_
=
n
i=1
(1)
i+1
_
n
i
_
(n i)!
n!
=
n
i=1
(1)
i+1
1
i!
(1.3.7)
Anmerkung. Man erinnere sich an die Exponentialreihe:
e
x
=
k=0
x
k
k!
f ur x R.
Setzt man x = 1, so folgt
lim
k
P
_
n
_
=1
A
_
=
k=1
(1)
k+1
1
k!
= 1
k=0
(1)
k
k!
= 1 e
1
0, 632. (1.3.8)
Da es sich um eine Leibniz-Reihe (alternierendes Vorzeichen der
Summanden) handelt, ist
P
_
n
_
=1
A
_
(1 e
1
)
1
(n + 1)!
.
F ur n = 6 ist
1
7!
0, 0002. Die gesuchte Wahrscheinlichkeit ist
fast konstant 0, 632
1 ENDLICHE W-R
AUME 8
1.4 Produkt von endl. W-Raumen
1.4.1 Bez. (Produkt von zwei Laplace-Raumen)
Math.: Es seien (
1
, P
1
) und (
2
, P
2
) zwei W-
Raume mit Laplace-Wahrscheinlichkeit. Der Grund-
raum :=
1

2
mit Laplace-Wahrscheinlichkeit
P heit das Produkt der beiden Raume (
1
, P
1
) und
(
2
, P
2
).
F ur die Anzahl gilt
[
1
2
[ = [
1
[[
2
.[
F ur = (
1
,
2
)
1
2
gilt also:
P() =
1
[[
=
1
[
1
[
1
[
2
[
. = P
1
(
1
)P
2
(
2
)
F ur Teilmengen der Form A B
1

2
erhalt
man
P(AB) =
AB
P()
=
1
A
2
B
P(
1
)P(
2
)
=
1
A
P(
1
)
2
B
P(
2
)
= P
1
(A)P
2
(B).
(1.4.1)
Diese Produktformeln sind der Anla f ur die Bezeich-
nung des Produktraumes:
:=
1
2
und P := P
1
P
2
Modell: Wir betrachten zwei Zufallsexperimente E
1
und E
2
die durch W-Raume (
1
, P
1
) und (
2
, P
2
) mit
Laplace-Wahrscheinlichkeit beschrieben werden. F uhrt
man beide Experimente E
1
und E
2
durch, so ist dies ein
neues Experiment E.
Die Ergebnismenge von E ist das Kartesische Produkt
:=
1
2
:= (w
1
, w
2
) [
1

1
,
2

2
.
Wenn E
1
und E
2
sich nicht gegenseitig beeinus-
sen, dann werden die Elementarereignisse in wie-
der gleichwahrscheinlich sein. D.h. E wird durch den
W-Raum (, P) modelliert, wobei P die Laplace-
Wahrscheinlichkeit ist.
F ur Ereignisse A 2
1
und B 2
2
ist A B das
Ereignis, da im ersten Experiment A eintritt und im
dem anderen B. Die Wahrscheinlichkeit von A B ist
die Wahrscheinlichkeit, da A eintritt, mal der Wahr-
scheinlichkeit, da B eintritt.
1.4.2 Bem. (Produkt von Laplace-Raumen)
Es seien (
, P
) Laplace-Raume. F ur den Produktraum

:=
1
2

n
mit Laplace-Wahrscheinlichkeit P gilt die Produktfor-
mel:
P(A
1
A
2
A
n
) = P
1
(A
1
) P
2
(A
2
) P
n
(A
n
).
f ur A
.
Anmerkung. Man kann auch ganz andere W-Verteilungen auf
dem Produktraum bilden.
Bsp. Es seien
1
=
2
= 0, 1 mir Laplaceverteilung. Man
denke an den Wurf mit einer fairen M unze.
Auf :=
1
2
betrachte man die folgende W-Funktion p:
p(i, j) :=
_
1
2
f ur i = j
0 f ur i ,= j.
Dieses (, P) beschreibt den zweimaligen Wurf mit einer
Trickm unze mit Gedachtnis. Beim ersten Wurf sind die Ele-
mentarereignisse Kopf und Zahl gleichverteilt. Das Ergebnis beim
zweiten Wurf ist immer das gleiche wie beim ersten Wurf.
Man beachte, schaut man sich nur die Ergebnisse des zweiten
Wurfes an, ohne den ersten zu kennen, so sind Kopf und Zahl
wieder gleichverteilt:
P(
1
0) = P(
1
1) =
1
2
( Bezeichnung 1.8.4 Marginalverteilungen ).
1.4.3 Ziel (Haugkeiten bei unabhang. Exper.)
Das folgende

Uberlegung beruht auf Plausibilitat, sie ist so nicht
mathematisch beweisbar, sondern dient als Motivation f ur die an-
schlieende Denition Satz 1.4.5
Wir betrachten zwei Zufallsexperimente E
1
und E
2
die durch W-Raume (
1
, P
1
) und (
2
, P
2
) beschrieben
werden. P
1
bzw. P
2
konnen beliebig sein.
E := (E
1
, E
2
) sei das Experiment, in dem man jeweils
E
1
und E
2
durchf uhrt. Dies soll so geschehen, da sich
die Ergebnisse von E
1
und E
2
nicht beinussen. E hat
den Ergebnisraum :=
1

2
mit einem noch zu
bestimmenden W-Ma P.
Wir betrachten zwei Ereignisse A 2
1
und B
2
2
mit positiven Wahrscheinlichkeiten P
1
(A) > 0 und
P
2
(B) > 0. Wir nehmen an, da in beiden Fallen f ur alle
hinreichend groen n die relative Haugkeiten R
n
(A)
P
1
(A) bzw. R
n
(B) P
2
(B) seien.
Man f uhre E N-mal durch, wobei N sehr gro sei.
Wie gro, werden wir gleich festlegen. Wir erhalten die
Ergebnisse
(x
1
, y
1
), (x
2
, y
2
), . . . , (x
N
, y
N
).
Hiermit bilden wir die relativen Haugkeiten:
R
N
(AB) :=
1
N
N
=1
1l
AB
(x
, y
)
R
N
(A) :=
1
N
N
=1
1l
A
(x
)
R
N
(B) :=
1
N
N
=1
1l
B
(y
)
Wir zeigen, da unter den getroenen Annahmen
R
N
(AB) R
N
(A)R
N
(B) (1.4.2)
ist.
Die Voraussetzung, da sich die Experimente nicht
beeinussen, interpretieren wir dahingehend, da
R
N
(A) P
1
(A) und R
N
(B) P
2
(B) ist. D.h., kein
Experiment beeinut den Ausgang des anderen.
1 ENDLICHE W-R
AUME 9
Wir wahlen unter den (x
, y
) diejenigen aus, f ur die

die erste Komponente in A liegt:
( x
1
, y
1
), ( x
2
, y
2
), . . . ( x
m
, y
m
).
Wenn N gro genug ist, wird nach Annahme
m
N
= R
N
(A) P
1
(A) > 0.
sein. F ur hinreichend groes N ist also
m = NR
N
(A) NP
1
(A) n.
Die getroene Auswahl der zweiten Komponenten
y
1
, y
2
, . . . y
m
hangt zwar vom Ausgang des ersten
Experimentes ab. Da sich die Experimente nicht be-
einussen, interpretieren wir dahingehend, da diese
Auswahl keinen Einu auf die relative Haugkeit im
zweiten Experiment hat. Es sei
R
m
(B) :=
1
m
m
=1
1l
B
( y
)
die relative Haugkeit mit der die y
in B liegen.
Da m hinreichend gro ist, ist nach unserer Annahme
R
m
(B) P
2
(B) R
N
(B).
Somit folgt
R
N
(AB) =
1
N
N
=1
1l
AB
(x
, y
)
=
1
N
N
=1
1l
A
(x
)1l
B
(y
)
=
1
N
m
=1
1l
B
( y
)
=
m
N
R
m
(B) = R
N
(A)

R
m
(B)
R
N
(A)R
N
(B).
Die obige Formel 1.4.2 legt die folgende Festsetzung
nahe: F ur A 2
1
, B 2
2
ist
P(AB) := P
1
(A)P
2
(B) (1.4.3)
Der folgende Satz 1.4.5 besagt, da es genau ein W-Ma P
1,2
auf
2
gibt, f ur da die Formel 1.4.3 gilt. Wir verwenden in der
folgenden anschaulichen

Uberlegung bereits die ubliche Bezeich-
nung P
1
P
2
f ur P
12
. F ur diese Verkn upfung von W-Maen ist
assoziativ Feststellung 1.4.7. Wir geben zuvor eine anschauliche
Interpretation des Assoziativgesetzes.
1.4.4 Ziel (Assoziativgesetz)
Man f uhre drei Zufallsexperimente E
1
, E
2
, E
3
so durch,
da sie sich nicht beeinussen. Die Experimente werden
durch die W-Raume (
i
, P
i
) (i = 1, 2, 3) modelliert. Das
Gesamtexperiment (E
1
, E
2
, E
3
) hat den Ergebnisraum
3
. Wie ublich identizieren wir
3
= (
1
2
)
3
=
1
(
2
3
).
D.h., man darf bei der Bildung von Tupeln innere
Klammern weglassen: (
1
,
2
,
3
) = (
1
, (
2
,
3
)) =
((
1
,
2
),
3
).
Wir denken uns zwei Experimentatoren, von denen
einer zwei Experimente durchf uhrt und der andere das
ubrige Experiment. Dann f uhren die beiden ihre Beob-
achtungen zu einem Experiment zusammen.
Der erste Eperimentator f uhrt die ersten beiden Ex-
perimente durch und der andere das dritte. Der
erste wird sein Experiment E
12
:= (E
1
, E
2
), wie
in Ziel 1.4.3 diskutiert, durch den Produktraum
(
12
, P
12
) := (
1
2
, P
1
P
2
) modellieren. Da E
12
und E
3
sich nicht beeinussen, werden die beiden
Experimentatoren das Gesamtexperiment E
(12)3
:=
(E
12
, E
3
) durch den Produktraum (
1,2
3
, P
12
P
3
) = (
1
3
, (P
1
P
2
) P
3
) beschreiben.
Nun teilen die beiden Experimentatoren die Experi-
mente anders auf: der erste f uhrt E
1
durch und der
andere die ubrigen beiden. Der zweite Experimenta-
tor wird sein Experiment E
23
= (E
2
, E
3
) durch den
W-Raum (
23
, P
23
) := (
2
3
, P
2
P
3
) beschrei-
ben. Die Zusammenf uhrung zu einem Experiment
E
1(23)
ergibt nun den W-Raum (
1
23
, P
1
P
23
)
(
1
3
, P
1
(P
2
P
3
)
Die Aufteilung der Experimente auf die Experimentato-
ren soll nat urlich das Ergebnis nicht verandern, d.h. die
beobachteten Haugkeiten f ur E
(12)3
und E
1(23)
sind un-
gefahr gleich. F ur die mathematische Konstruktion des
Produktes von W-Raumen wird das folgende Assozia-
tivgesetz gelten:
(P
1
P
2
) P
3
= P
1
(P
2
P
3
).
Man kann also wie beim Produkt von Zahlen die Klam-
mern weglassen.
Das Assoziativgesetz ist aber keine zusatzliche For-
derung an das Produkt von W-Raumen, sondern folgt
bereits aus der Eindeutigkeit der Konstruktion Satz
1.4.5
Eine analoge Betrachtung ergibt, da bei einer Permu-
tation der Experimente die Produktraume magleich
sind:
(
1
3
, P
1
P
2
P
3
)
= (
3
, P
1
P
2
P
3
)
1.4.5 Satz (Produkt von W-Raumen)
Es seien n N, (
, P
), ( = 1, . . . , n) endliche W-
Raume. Dann gibt es auf dem Produktraum
:=
n
=1
genau ein W-Ma P mit der folgenden Eigenschaft:

F ur alle n-Tupel (A
1
, A
2
, . . . , A
n
) mit A
ist
P(A
1
A
2
A
N
) = P
1
(A
1
)P
2
(A
2
) P(A
N
)
Man schreibt kurz P := P
1
P
2
P
n
und nennt P
das Produkt der Mae P
1
, P
2
, . . . , P
n
.
1 ENDLICHE W-R
AUME 10
Die zugehorige W-Funktion p : [0, 1] hat die
Form
p
(
1
,
2
,...,
n
)
= p
1
1
p
2
2
p
n
n
. (1.4.4)
1.4.6 Folg. (W-Funktion des Produktmaes)
Bei endlichen W-Raumen bestimmt die Formel 1.4.4 das
Produktma bereits eindeutig, denn es gilt:
P(A
1
. . . A
n
) =
(
1
,
2
,...,
n
)
A
1
A
n
p
(
1
,
2
,...,
n
)
=
w
1
A
1

w
n
A
n
p
(
1
,
2
,...,
n
)
=
w
1
A
1

w
n
A
n
p
1
1
p
2
2
p
n
n
=
w
1
A
1
p
1
1

w
n
A
n
p
n
n
= P
1
(A
1
) P
n
(A
n
).
Anmerkung. 1. Man spricht P
1
P
2
als
P1 tensor P2 oder
kurz
P1 mal P2. Das Wort tensor beugt einer Verwechslung mit

dem Produkt von Zahlen vor.
2. Zur Information: Die Benutzung des Wortes tensor r uhrt
daher, da es sich beim Produkt von Maen um einen Spezialfall
des Tensorproduktes V
1
V
2
von Vektorraumen V
1
, V
2
handelt.
Die Mae auf einer n-elementigen Menge bilden einen 2
n
-
dimensionalen Vektorraum M(). F ur endliche Mengen
1
,
2
ist
der Vektorraum M(
1

2
) isomorph zum Tensorprodukt der
Raume M(
1
) und M(
2
), oder kurz
M(
1
2
)
= M(
1
) M(
2
).
In diesem Sinne ist P
1
P
2
M(
1
) M(
2
).
Eine verwandte Bildung ist das Tensorprodukt reeller Funktio-
nen: F ur f
i
:
i
R (i = 1, 2) deniert man
f
1
f
2
:
1
2
R durch f
1
f
2
: (
1
,
2
) f
1
(
1
)f
2
(
2
).
Die reellen Funktionen auf einer n-elementigen Menge bilden
einen n-dimensionalen Vektorraum F(). F ur endliche Mengen
1
,
2
ist
F(
1
2
)
= F() F().
F ur zwei Funktionen f, g F() unterscheide man
f g F( ), f g(
1
,
2
) = f(
1
)g(
2
),
fg F(), fg() = f()g().
Die Gleichung (1.4.4) f ur die W-Funktionen kann man etwas
abstrakter auch so schreiben:
p = p
1
p
2
p
n
.
3. Man ndet f ur das Produktma auch die Bezeichnung (
[1][Krengel])
P
1
P2 := P
1
P
2
Anmerkung. Das kartesische Produkt ist assoziativ. Wie ublich
identiziert man
1

n
= (
1

n1
)
n
=
1
(
2

n
)
und f ur 1 < k < n 1
1

n
= (
1

k
) (
k+1

n
)
1.4.7 Festst. (Assoziativgesetz)
Es seien n N, (
, P
), ( = 1, . . . , n) endliche W-
Raume. Die Bildung des Produktmaes ist assoziativ:
P
1
P
n
= (P
1
P
n1
) P
n
= P
1
(P
2
P
n
)
und f ur 1 < k < n 1
P
1
P
n
= (P
1
P
k
) (P
k+1
P
n
)
Man darf also beliebig klammern:
F ur 1 < k
1
< k
n
< < k
l
= n gilt
(
1

k
1
) (
k
1
+1

k
2
)
(
k
l1
+1

k
l
) =
1

n
und
(P
1
P
k
1
) (P
k
1
+1
P
k
2
)
(P
k
l1
+1
P
k
l
) = P
1
P
n
1.4.8 Bez.
Bei der Bildung des Produktes von n gleichen Faktoren
(
t
, P
t
). schreiben wir kurz
:= (
t
)
n
und P := (P
t
)
n
.
1 ENDLICHE W-R
AUME 11
1.5 Bernoulli- und Binomialverteilung
1.5.1 Bez. (n-faches Bernoulli-Experiment)
1. Ein W-Ma P auf 0, 1 heit Bernoulli-Experiment.
P ist durch die Zahl p := P(1 [0, 1] eindeutig festge-
legt. Man nennt ein W-Ma auf 0, 1 kurz eine einfache
Bernoullische Verteilung mit dem Parameter p.
2. Ein Zufallsexperiment mit mit nur zwei Ausgangen,
die man mit 0 und 1 bezeichnet, heit ein einfaches
Bernoulli-Experiment mit Parameter p = P(1).
Man sagt auch Bernoullische Verteilung mit Erfolgswahrschein-
lichkeit p. Das kann aber in konkreten Beispielen sehr unpassend
klingen.
3. Wir betrachten nun das Experiment, das in der
n-fachen unabhangigen Wiederholung eines einfachen
Bernoulli-Experimentes mit Parameter p besteht. Wir
nennen dies kurz ein n-faches Bernoulli-Experiment mit
Parameter p.
Es sei also
:= 0, 1 und P
die einfache Bernoulli-

Verteilung mit Parameter p. Das n-fache Bernoulli-
Experiment wird dann durch
2

n
= 0, 1
n
P
1
P
2
P
n
= P
n
beschrieben. Nach Formel 1.4.4 ist
p
(
1
,
2
,...,
n
)
= p
k
(1 p)
nk
(1.5.1)
wenn
k :=
1
+
2
+ +
n
die Zahl der Einsen in (
1
,
2
, . . . ,
n
) ist. Das durch
Gleichung 1.5.1 bestimmte W-Ma P
n
auf 0, 1
n
heit
n-fache Bernoulli-Verteilung.
4. Das Ereignis, das insgesamt genau k Einsen auftre-
ten wird durch die Menge
A
k
:=
_
0, 1
n
[
n
=1
= k
_
beschrieben. Alle Elemente A
k
haben die gleiche
Wahrscheinlichkeit p
= p
k
(1 p)
nk
. Wir haben eine
bijektive Abbildung von A
k
auf die Menge der ungeord-
neten Stichproben ohne Wiederholung vom Umfang k
aus 1, 2, . . . , n. Die Stichprobe gibt an, auf welchen
Platzen die Einsen in sitzen. Also ist die Anzahl der
Elemente von A
k
gleich der Anzahl der k-elementigen
Stichproben, also gleich
_
n
k
_
. Die Wahrscheinlichkeit von
A
k
bezeichnet man mit
b
n,p
(k) :=
_
n
k
_
p
k
(1 p)
nk
. (1.5.2)
Da die A
k
paarweise disjunkt sind, ist
n
k=1
b
n,p
(k) =
n
k=0
_
n
k
_
p
k
(1 p)
nk
= 1. (1.5.3)
Man beachte, da die rechte Seite von Gleichung 1.5.3 sich auch
aus der binomischen Formel ergibt:
1 = (p + (1 p))
n
=
n
k=0
_
n
k
_
p
k
(1 p)
nk
.
1.5.2 Bez. (Binomialverteilung)
Das W-Ma auf := 0, 1, 2, . . . , n mit der W-
Funktion
p
k
:= b
n;p
(k) :=
_
n
k
_
p
k
(1 p)
nk
heit die Binomialverteilung mit Parameter n und p. Es
wird mit B
n;p
(A) f ur A 2
bezeichnet.
Anmerkung. 1. Bei einem n-fachen Bernoulli-Experiment mit
Parameter p ist die Binomialverteilung auf 0, 1, 2, . . . , n die
Wahrscheinlichkeit f ur die Anzahl der Einsen (Erfolge)
X() :=
n
=1
f ur = (
1
,
2
, . . . ,
n
) 0, 1
n
.
Die Funktion X : 0, 1
n
0, 1, 2, . . . , n ist ein Beispiel einer
Zufallsvariablen und die Binomialverteilung ist die Verteilung
von X.
2. Es gibt nicht die Binomialverteilung sondern eine Familie
solcher Verteilungen, die durch die Parameter n und p unterschie-
den werden.
Man kann die Binomialverteilung auf Experimente
mit mehr als zwei Ausgangen verallgemeinern.
1.5.3 Bsp. (Multinomialverteilung)
Bei einem Zufallsexperiment treten die moglichen Ele-
mentarereignisse
1
,
2
, . . . ,
m
mit den Wahrscheinlich-
keiten p
1
, p
2
, . . . , p
m
auf. Es ist
m
=1
p
= 1.
Wie gro ist die Wahrscheinlichkeit bei n-maliger un-
abhangiger Wiederholung des Experimentes k
1
mal das
Ergebnis
1
, k
2
mal das Ergebnis
2
, . . . und k
m
mal das
Ergebnis
m
zu erhalten? Dabei sind die k
N
0
und
es ist
m
=1
k
= n.
Das Experiment wird durch den Grundraum =
1
,
2
, . . . ,
m
und dem W-Ma P mit P
i
= p
i
be-
schrieben. Die n-malige unabhangige Wiederholung des
Experimentes wird durch den Produktraum
n
und das
Produktma P
n
modelliert.
F ur (x
1
, x
2
, . . . , x
n
)
n
mit
k
:=
n
=1
1l
]
(x
)
ist
P
n
(x
1
, x
2
, . . . , x
n
) =
n
=1
P(x
)
= p
k
1
1
p
k
2
2
p
k
m
m
.
(1.5.4)
Gleichung 1.5.4 verallgemeinert die n-fache Bernoulli-
Verteilung ( Gleichung 1.5.1) auf Experimente mit m
moglichen Ausgangen.
Es sei A das Ereignis, da f ur = 1, 2, . . . , m das
Ergebnis
genau k
mal eintrit:
A :=
_
(x
1
, x
2
, . . . , x
n
)
n
[
n
=1
1l
]
(x
) = k
f ur = 1, 2, . . . , m
_
(1.5.5)
1 ENDLICHE W-R
AUME 12
Die Anzahl der Elemente von A ist nach Bezeichnung
1.2.14
[A[ =
n!
k
1
! k
2
! k
m
!
.
Da nach Gleichung 1.5.4 alle Elemente von A die gleiche
Wahrscheinlichkeit haben ist
P
n
(A) = n!
m
=1
p
k
!
. (1.5.6)
1.5.4 Bez. (Multinomialverteilung)
Es seien m N, m 2, p
[0, 1] mit

m
=1
p
= 1.
Man erhalt auf dem Raum
:=
_
(k
1
, k
2
, . . . , k
m
) N
m
0
[
m
=1
k
= n
_
ein W-Ma P durch die Vorschrift
P(k
1
, k
2
, . . . , k
m
) := n!
m
=1
p
k
!
. (1.5.7)
Dieses W-Ma heit Multinomialverteilung mit den Pa-
rametern n und (p
1
, p
2
, . . . , p
n
) und wird mit M
n;p
1
,...,p
m
bezeichnet. Die durch Gleichung 1.5.7 erklarte W-
Funktion bezeichnet man mit m
n;p
1
,...,p
m
(k
1
, . . . , k
m
).
1.5.5 Bem.
Mitunter wird die Multinomialverteilung auch auf dem
groeren Raum
= 0, 1, . . . , n
m
erklart. Man setzt dann
M
n;p
1
,...,p
n
(k
1
, . . . , k
m
) = 0 f ur
m
=1
k
> n.
1 ENDLICHE W-R
AUME 13
1.6 Zufallsvariable und ihre Verteilung
In einem Zufallsexperiment (, P) interessiert haug
nicht das Elementarereignis sondern der Wert
f(), den eine Abbildung f : M an der Stelle
annimmt. Z. Bsp. bei zwei W urfeln die Augensumme
oder Pasch oder nicht-Pasch. In diesem Zusammenhang
nennt man die Abbildung f eine Zufallsvariable.
In der Stochastik wahlt man gewohnlich groe Buch-
staben X, Y , N, S . . . zur Bezeichnung von Zufallsva-
riablen. Wenn M oder seine Elemente besondere Namen
haben, verwendet man diese auch bei der Benennung
von X.
X : R reelle Zufallsvariable.
X : R
d
Zufallsvektor.
N : N zufallige Zahl.
Wenn die Elemente von M ublicherweise mit x, y, z be-
zeichnet werden, so verwendet man entsprechend X, Y ,
Z f ur M-wertige Zufallsvariable. F uhrt man das Zufalls-
experiment n-mal durch, so beobachtet man f ur die Zu-
fallsvariable X die Werte x
1
, x
2
, . . . , x
n
.
1.6.1 Bez. (Zufallsvariable)
Es sei (, P) ein W-Raum, M eine Menge. Eine Abbil-
dung X : M heit eine M-wertige Zufallsvariable.
Anmerkung. (Verwendung des Wortes Zufallsvariable)
1. Neben der in der Mengenlehre ublichen Bezeichnung f :
M f ur Abbildungen gibt es die hergebrachte Schreibweise y = f(x)
oder ganz kurz y = y(x). Man dr uckt aus, da ein Mewert y mit
einem Parameter x variiert. In den beiden letzteren Schreibweisen
heit y die abhangige Variable und x die unabhangige Variable.
In diesem Sinn ist eine Zufallsvariable X eine abhangige Varia-
ble. Die zugehorige unabhangige Variable ist ein Elementarereignis
eines W-Raumes (, P).
2. Das Wort Zufallsvariable erinnert auch an die bei mehr-
facher Wiederholung des Experimentes variierenden Ergebnisse
x
1
, x
2
, x
3
. . .. Haug konstruiert man erst bei der mathematischen
Modellierung den zugrundeliegenden W-Raum (, P) und die Ab-
bildung X : M.
3. Zufallsvariable heit auf englisch random variable,
franzosisch variable aleatoire.
1.6.2 Bsp. (Augensumme)
Man w urfelt mit zwei fairen W urfeln. Die Zufallsvariable
sei die erzielte Augensumme. Eigentlich interessiert nur
der Ergebnisraum A := 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
und das W-Ma auf A, da dieses Zufallsexperiment mo-
delliert. Einfacher ist aber das folgende Vorgehen:
1. Zwei unabhangige faire W urfel oder zweimaliges
unabhangiges W urfeln beschreibt man durch dem Pro-
duktraum
:= 1, . . . , 6 1, . . . , 6
= (i, j) [ i, j = 1, . . . , 6
(1.6.1)
und der Laplace-Wahrscheinlichkeit auf . Wir bilden
die Teilmengen
A
k
:= (i, j) [ i +j = k f ur k = 2, 3, . . . , 12.
Die Anzahl der Elemente ist
[A
2
[ = 1, [A
3
[ = 2, [A
4
[ = 3, . . . , [A
12
[ = 1.
Die Anzahl ist symmetrisch zu k = 7, da sich bei einem
W urfel die Augen auf gegen uberliegenden Seiten zu 7
erganzen.:
[A
7k
[ = [A
7+k
[ f ur k = 1, 2, . . . , 5.
Die entsprechenden Laplace-Wahrscheinlichkeiten sind:
P(A
2
) =
1
36
, P(A
3
) =
2
36
, P(A
4
) =
3
36
,
P(A
5
) =
4
36
, P(A
6
) =
5
36
, P(A
7
) =
6
36
,
P(A
8
) =
5
36
, P(A
9
) =
4
36
, P(A
10
) =
3
36
,
P(A
11
) =
2
36
, P(A
12
) =
1
36
.
Die gesuchte W-Funktion p
auf A := 2, 3, 4, 5, 6, 7,
8, 9, 10, 11, 12 ist also
x 2 3 4 5 6 7 . . . 11 12
p
1
36
2
36
3
36
4
36
5
36
6
36
. . .
2
36
1
36
Die Wahrscheinlichkeit einer Teilmenge B A ist
P
(B) :=
xB
p
(x) = P((i, j) [ i +j B).

2. Das obige vorgehen ist typisch. Man kann es mit
Hilfe der Zufallsvariablen (Augensumme)
X : N X : (i, j) i +j.
k urzer schreiben:
(, P) werde wie in Gleichung 1.6.1 erklart. Es ist
A := X() die Wertemenge von X. F ur eine Teilmenge
B A ist
P
X
(B) = P( [ , X() B) (1.6.2)
f ur die rechte Seite schreiben wir k urzer
= PX B
Das durch Gleichung 1.6.2 erklarte W-Ma auf A heit
die Verteilung der Zufallsvariablen X.
Wir haben in Gleichung 1.6.2 die Bezeichnung f ur das
W-Ma von P
in P
X
geandert, was sinnvoller ist.
Die Wahrscheinlichkeit eine 7 zu w urfeln ist nun
P
X
7 := PX = 7 =
6
36
.
und die Wahrscheinlichkeit, mindestens 7 Augen zu
w urfeln, ist P( 7 =
21
36
.
Es f uhrt auch nicht zu Schwierigkeiten, wenn man die
Verteilung von X auf einer groeren Menge erklart; z.
Bsp auf M := 1, 2, 3 . . . , 12. Dann ist eben P
X
(1) =
P(X = 1) = P() = 0.
1.6.3 Satz (Verteilung einer Zufallsvariablen)
Es seien (, P) ein W-Raum, M eine endliche Menge
und X eine M-wertige Zufallsvariable.
(i) Dann erhalt man ein W-Ma P
X
auf M durch die
Vorschrift:
P
X
(B) := P( [ , X() B)
1 ENDLICHE W-R
AUME 14
f ur B 2
M
. Man schreibt dies k urzer als P
X
(B) =
P(X B).
P
X
heit die Verteilung der Zufallsvariablen X oder
das Bild von P unter X oder auch das durch X und P
induzierte W-Ma.
(ii) Bezeichnet man wie ublich die Umkehrabbildung
auf der Potenzmenge mit
X
1
: 2
M
2
,
X
1
: B [ X() B,
so gilt P
X
:= P X
1
; d.h.
P
X
(B) = P(X
1
(B)) f ur B 2
M
.
Anmerkung. Bei einer reellen Zufallsvariablen X(, P) R ver-
wechsele man die Verteilung P
X
nicht mit der kumulativen Ver-
teilung. F ur reelle X deniert man die kumulative Verteilung F
X
durch
F
X
: R [0, 1], F
X
(t) := P(X t) =
X()t
p
.
Die kumulative Verteilung ist eine reelle Funktion einer reellen Va-
riablen. F ur endliche ist die kumulative Verteilung eine monoton
wachsende rechtsseitig stetige Treppenfunktion.
Zwischen der Verteilung P
X
und der kumulativen Verteilung
F
X
bestehen die folgenden Beziehungen:
F
X
(t) = P
X
_
(, t]) X()
_
,
P
_
(a, b] X()
_
= F
X
(b) F
X
(a).
1.6.4 Festst. (Funktionen von Zufallsvariablen)
Gegeben seien ein W-Raum (, P), endliche Mengen M,
t
und Zufallsvariablen
X : M, Y :
t
und eine Abbildung Z :
t
M so, da
X = Z Y
ist. Man bilde den W-Raum (
t
, P
Y
). Dann haben die
Zufallsvariablen
X : (, P) M und Z : (
t
, P
Y
) M
die gleiche Verteilung: (M, P
X
) = (M; P
Z
) oder kurz
(P
Y
)
Z
= P
ZY
. (1.6.3)
Anmerkung. 1. Eine andere Bezeichnung f ur das Bildma von P
unter X ist
L(X[P) = L(X) := P
X
.
Der Buchstabe Lsteht f ur engl. law = Verteilung. Gleichung 1.6.3
liest sich in dieser Bezeichnung als L(Z Y [P) = L(Z[L(Y [P)).
2. Andere Autoren ([2]) nennen das Bildma P
X
das von X
induzierte Ma und bezeichnen es mit P X. Gleichung 1.6.3 liest
sich in dieser Bezeichnung als (P Y ) Z = P (Z Y ).
3. Die obige Feststellung 1.6.4 besagt, da man dasselbe Expe-
riment mit unterschiedlichen Grundraumen und Zufallsvariablen
modellieren kann.
1.6.5 Bem. (W-Ma Verteilung einer Z-Var.)
(i) Verteilungen von Zufallsvariablen und W-Mae sind
zueinander aquivalente Konzepte.
Die Verteilung einer Zufallsvariablen ist ein W-Ma.
Zu jedem W-Ma P
t
auf einer endlichen Menge
t
gibt es eine Zufallsvariable X mit Bildmenge
t
und
der Verteilung P
t
, z. B. :=
t
, P := P
t
und
X := id
. Diese Zufallsvariable hat die Verteilung

P
X
= P
t
.
(ii) Aus Feststellung 1.6.4 folgt, da X nicht eindeutig
wahlbar ist.
Darauf kommt es aber auch nicht an. Letztendlich will
man die Wahrscheinlichkeit eines Ereignisses B 2
bestimmen. Die Zufallsvariable X : (, P)

t
mit
Verteilung P
X
= P
t
kann dabei helfen, wenn man das
Ma PX B leichter ermitteln kann. Man denke an
das Beispiel 1.6.2 der Augensumme von zwei W urfeln,
indem die Wahrscheinlichkeit f ur die Augensumme auf
die einfachere Laplace-Wahrscheinlichkeit zur uckf uhrt
wird.
(iii) Daher wird X : (, P)
t
spater oft gar nicht
explizit angegeben.
Zum Beispiel reicht die Angabe
Sei X eine binomi-

alverteilte Zufallsvariable mit den Parametern n und p
meist vollig aus. Dies bedeutet, da
X die Wertemen-
ge 0, . . . , n hat und da P
X
= B
n,p
ist. Die explizite
Angabe von (, P) und die Abbildungsvorschrift f ur X
braucht man nur solange, bis man erkannt hat, da X
biomialverteilt mit diesen Parametern ist. Danach ist es
zumeist vollig unwichtig, ob die Zufallsvariable X durch
W urfeln oder zufalliges Ziehen von Karten oder sonstwie
realisiert wird.
Andererseits kann aber ein gute Wahl eines speziellen
X : (, P)
t
die Rechnung erleichtern. Resultate,
die nur von der Verteilung P
X
abhangen, gelten dann
f ur alle Zufallsvariablen mit der gleichen Verteilung.
(iv) Ob man mit W-Raumen oder Zufallsvariablen
argumentiert, ist Geschmackssache. Zufallsvariable sind
oft anschaulicher und die Formulierungen mit Zufalls-
variablen sind dichter am Problem. Das ist aber nicht
unbedingt ein Vorteil!
Ein anderer Grund ist, Zufallsvariable kann man wie
ubliche Variable leicht in Formeln einsetzen, Dagegen ist
das Hantieren mit Mengen und Maen f ur den Nichtma-
thematiker gewohnungsbed urftig.
1 ENDLICHE W-R
AUME 15
1.7 Hypergeometrische Verteilung
1.7.1 Bsp. (Urnenmodel f ur hypergeom. Vert.)
1. Aus einer Urne mit N unterscheidbaren Kugeln wird
eine Stichprobe vom Umfang n ohne Wiederholung ent-
nommen. Die Urne enthalte zwei Sorten von Kugeln, K
schwarze und N K rote. Die Farbe soll keinen Einu
auf Wahrscheinlichkeit einer Stichproben haben, d.h., al-
le Stichproben sind gleichwahrscheinlich.
Die Zufallsvariable X mit Werten in
:= k N [ max(0, n (N K)) k min(K, n)
gibt die Anzahl der schwarzen Kugeln in der Stichprobe
an.
Man uberlege sich, da die genaue Wertemenge von X ist.
Die Verteilung von X heie die hypergeometrische
Verteilung auf .
2. F ur den Stichprobenraum kommen zwei Typen in
Frage ( Satz 1.2.4)
ord
: Geordnete Stichproben vom Umfang n aus N
ohne Wiederholung, Anzahl ist (N)
n
.
unord
: Ungeordnete Stichproben vom Umfang n aus
N ohne Wiederholung, Anzahl ist
_
N
n
_
.
Man versehe
ord
bzw.
unord
jeweils mit der Laplace-
Wahrscheinlichkeit P
ord
bzw. P
unord
.
3. Wir betrachten f ur X die beiden Falle
X
ord
:
ord

X
unord
:
unord

und zeigen, da beide die gleiche Verteilung haben.
4. Es sei Y :
ord

unord
die Abbildung, die je-
der geordneten Stichprobe die entsprechende ungeord-
nete Stichprobe zuordnet. Jedes ungeordnete Stichprobe
vom Umfang n hat n! mogliche Anordnungen, d.h.
[Y
1
[ = n! f ur alle
unord
.
Da
ord
die Laplace-Wahrscheinlichkeit hat ist die Ver-
teilung P
Y
die Gleichverteilung auf
unord
. Aus
X
ord
= X
unord
Y.
folgt nach Feststellung 1.6.4, da X
ord
und X
unord
die
gleiche Verteilung haben.
5. Die Verteilung von X
unord
ist etwas einfacher zu
berechnen, als die von X
ord
Wir bestimmen dazu die
Anzahl von X
unord
= k
unord
:
Jede Stichprobe zerfallt in eine Stichprobe aus den
schwarzen Kugeln und eine Stichprobe aus den roten
Kugeln. Es gibt
_
K
k
_
Moglichkeiten, aus K schwarzen Kugeln k aus-
zuwahlen.
_
NK
nk
_
Moglichkeiten, aus NK roten Kugeln nk
auszuwahlen.
Es tritt jede Kombination von schwarzen Stichproben
mit roten Stichproben auf. Nach dem Abzahlprinzip
1.2.2 ist die Anzahl von X
unord
= k das Produkt der
Moglichleiten:
[X
unord
= k[ =
_
K
k
__
NK
nk
_
.
F ur die Laplace-Wahrscheinlichkeit auf
unord
folgt:
P
unord
X
unord
= k =
[X
unord
= k[
[
unord
[
=
_
K
k
__
NK
nk
_
_
N
n
_ .
1.7.2 Bez. (hypergeometrische Verteilung)
Es seien N, K, n N mit
0 K N, 1 n N
und
:= k N [ max(0, n (N K)) k min(K, n).
Das durch
h
N,K,n
(k) :=
_
K
k
__
NK
nk
_
_
N
n
_
eindeutig bestimmte W-Ma auf heit die hypergeo-
metrische Verteilung mit den Parametern N, K, n
und wird mit H
N,K,n
bezeichnet. Die zugehorige W-
Funktion ist h
N,K,n
.
1.7.3 Bem. (Hypergeom. Vert. auf 0, 1, . . . , n)
Mitunter wird die hypergeometrische Verteilung auch
auf dem groeren Raum
:= 0, 1, . . . , n
erklart. Beachtet man, da nach Denition
_
K
k
_
= 0 f ur k > K,
_
NK
nk
_
= 0 f ur k < n (N K)
ist, so gilt hier die gleiche Formel
H
N,K,n
k :=
_
K
k
__
NK
nk
_
_
N
n
_
f ur k 0, . . . , n.
1.7.4 Bsp. (Herleitung mit
ord
)
Wir berechnen direkt die Verteilung der Zufallsvaria-
blen:
X := X
ord
:
ord

( Beispiel 1.7.1 Punkt 3). Der Raum
ord
der geord-
neten Stichproben vom Umfang n aus N Elementen hat
nach Voraussetzung die Laplace-Wahrscheinlichkeit. Die
Anzahl der Stichproben ist (N)
n
( Satz 1.2.4).
Wir zahlen, wieviele dieser Stichproben k schwarze
Kugeln enthalten. Dazu wahlen wir zunachst geordne-
te Stichproben von k schwarzen und n k roten Ku-
geln. Dann wahlen wir eine k-elementige Teilmenge aus
1, . . . , n, die die Platzen angibt, auf die schwarzen Ku-
geln der Reihe nach gelegt werden. Die weien Kugeln
kommen der Reihe nach auf die verbleibenden Platze. So
erhalten wir alle geordneten Stichproben vom Umfang n
mit k schwarzen Kugeln. Es gibt
1 ENDLICHE W-R
AUME 16
(K)
k
geordnete Stichproben vom Umfang k aus den
K schwarzen Kugeln.
(NK)
nk
geordnete Stichproben vom Umfang nk
aus den N K roten Kugeln.
_
n
k
_
Moglichkeiten, die Platze f ur die k schwarzen Ku-
geln zu wahlen.
Nach dem Abzahlprinzip 1.2.2 ist die Anzahl von X =
k das Produkt der Moglichleiten:
[X = k[ = (K)
k
(N K)
nk
_
n
k
_
.
F ur die Laplace-Wahrscheinlichkeit auf
unord
folgt:
PX = k =
[X = k[
[
ord
[
=
(K)
k
(N K)
nk
_
n
k
_
(N)
n
= H
N,K,n
k.
Das Herleitung der hypergeometrischen Verteilung mit Hilfe ge-
ordneter Stichproben ist zwar etwas aufwendiger. Sie bietet daf ur
einen anderen Vorteil: Man kann die hypergeometrisch verteilte
Zufallsvariable X
ord
als Summe von n gleichverteilten Bernoulli-
Variablen schreiben. Diese Darstellung ist hilfreich bei der Berech-
nung des Mittelwertes der hypergeometrischen Verteilung.
1.7.5 Bsp. N Kugeln bestehen wieder aus K schwarzen
und N K roten Kugeln.
1. Auf dem Raum
ord
der geordneten Stichproben
ohne Wiederholung vom Umfang n aus den N Kugeln
bilde man f ur (i = 1, . . . , n) die Zufallsvariablen
V
i
:
ord
0, 1,
V
i
:
_
1 wenn
i
schwarz,
0 wenn
i
rot.
2. Die Zufallsvariable ( Beispiel 1.7.1 Punkt 3)
X
ord
:=
n
i=1
V
i
gibt die Anzahl der schwarzen Kugeln in der geordneten
Stichprobe an.
3. Wie man leicht sieht, ist jedes V
i
einfach Bernoulli-
verteilt mit Erfolgswahrscheinlichkeit p :=
K
N
. Dazu be-
rechnen wir die Anzahl der Elemente von V
i
= 1. Es
gibt
K mogliche schwarze Kugeln, die man auf den i-ten
Platz legen kann.
(N 1)
n1
Moglichkeiten die Kugeln f ur die restli-
chen n 1 Platze zu wahlen.
Da
ord
mit Laplace-Wahrscheinlichkeit versehen ist,
folgt
PV
i
= 1 =
K(N 1)
n1
(N)
n
=
K
N
.
Die V
1
, . . . , V
n
sind also gleichverteilte Bernoulli-
Variable.
4. Da die Summe X hypergeometrisch und nicht bino-
mialverteilt ist, beschreibt das Tupel (V
1
, . . . , V
n
) aber
kein n-faches Bernoulli-Experiment.
Da die Stichprobe ohne zur ucklegen gezogen wird, beeinussen
sich die Ergebnisse V
i
gegenseitig. Z. Bsp. in dem Fall N = n = 2
und K = 1 kann man aus dem Wert von V
1
auf den Wert von V
2
schlieen!
Um die im obigen Beispiel in Punkt 4 aufgetretene Problematik
besser zu verstehen f uhren wir die gemeinsame Verteilung und
die Marginalverteilung von Tupeln von Zufallsvariablen ein.
Wir konstruieren noch ein weiteres Modell einer Zufallsvariablen
mit hypergeometrischer Verteilung.
1.7.6 Bsp. Die N Kugeln bestehen wieder aus K
schwarzen und N K roten Kugeln.
Man realisiere eine geordnete Stichprobe vom Um-
fang n aus N nummerierten Kugeln, indem man die N
Kugeln permutiert und dann die jeweils ersten n St uck
auswahlt. Der Grundraum
perm
:= (
1
, . . .
N
) 1, . . . , n
N
[
i
,=
j
(i ,= j)
der Permutationen habe die Laplace-Wahrscheinlichkeit.
Die Zufallsvariable
X
perm
:
perm

gibt die Anzahl der schwarzen Kugeln in (
1
, . . . ,
n
) an.
Aufgabe: 1. Man zeige, da X
perm
die gleiche Ver-
teilung hat, wie Zufallsvariable X
ord
:
ord
(siehe
Beispiel 1.7.1 Punkt 3). X
perm
ist folglich hypergeome-
trisch Verteilt.
2. Man berechne direkt die Wahrscheinlichkeit von
W = k.
1.7.7 Bsp. Man kann als Grundraum auch den Raum
sr
aller n-Tupel
:= (
1
, . . . ,
n
) s, r
n
von optisch nicht unterscheidbaren Kugeln nehmen, von
denen hochstens K schwarz (= s) und hochstens N K
rot (= r) sind. Die Zufallsvariable
X
sr
:
sr
N
0
gebe die Anzahl der schwarzen Kugeln in einem n-Tupel
an. Um die Wahrscheinlichkeit eines n-Tupels
sr
zu bestimmen, nummeriere man K schwarze und NK
rote Kugeln, um sie unterscheidbar zu machen. D.h. man
f uhre eine Zufallsvariable
W :
ord

sr
ein, die diese Nummern wieder entfernt und versehe
sr
mit der Bildverteilung (P
ord
)
W
. Da
X
ord
= X
sr
W
ist, hat X
sr
die gleiche Verteilung wie X
ord
, d.h. X
sr
ist
hypergeometrisch verteilt.
Aufgabe: Man zeige: F ur
sr
ist
(P
ord
)
W
= P
ord
(W
1
) =
(K)
k
(N K)
nk
(N)
n
wobei k := X
sr
die Anzahl der schwarzen Kugeln in
ist. Man berechne nun direkt die Verteilung von X
sr
.
1 ENDLICHE W-R
AUME 17
1.8 Gemeinsame Verteilung von Z-Var.
1.8.1 Bez. (Gemeinsame Verteilung von Z-Var.)
Es seien (, P) ein endlicher W-Raum, M
1
, M
2
, . . . , M
n
endliche Mengen und X
: M
Zufallsvariable. Man
fasse die Zufallsvariablen X
zu einer Zufallsvariablen X
mit Wertevorrat M := M
1
M
2
M
n
zusammen:
X = (X
1
, X
2
, . . . , X
n
) : M,
X : (X
1
(), X
2
(), . . . , X
n
()).
Die Verteilung P
X
nennt man die gemeinsame Vertei-
lung von X
1
, X
2
, . . . , X
n
. Sie ist durch die W-Funktion
p
X (x
1
,x
2
,...,x
n
)
= PX = (x
1
, x
2
, . . . , x
n
)
f ur (x
1
, x
2
, . . . , x
n
) M eindeutig bestimmt.
Man kann dies auch als p
X (x
1
,x
2
,...,x
n
)
= PX
1
= x
1
, X
2
=
x
2
, . . . , X
n
= x
n
schreiben.
1.8.2 Bem. (Assoziativgesetz f ur gemeins. Vert.)
1
, M
2
, . . . , M
n
endliche Mengen, X
: M
Zufallsvariable und
X := (X
1
, X
2
, . . . , X
n
). F ur 1 = k
0
< k
1
< k
2
<
k
l
= n bilde man
Y
:= (X
k
1
, , X
k
1
) f ur = 1, 2, . . . , l 1,
Y
l
= (X
k
l1
, . . . , X
n
) und Y := (Y
1
, Y
2
, . . . , Y
l
). Dann
haben X und Y die gleiche gemeinsame Verteilung:
P
X
= P
Y
.
1.8.3 Bsp. (Indikatorvariable)
1. Ein Zufallexperiment werde durch den W-Raum
(, P) beschrieben. F ur A 2
ist die Indikatorvariable

(charakteristische Funktion) 1l
A
eine Zufallsvariable mit
Werten in der Menge 0, 1. Die Indikatorvariable 1l
A
hat die W-Funktion
p := P1l
A
= 1 = P(A),
1 p = P1l
A
= 0 = P(A
c
).
Die Bildverteilung P
1l
A
der Indikatorvariablen ist die ein-
fache Bernoulli-Verteilung mit Parameter p := P(A) (
Bezeichnung 1.5.1).
2. Man f uhre das Experiment n-mal
unabhangig
durch. Dies wird durch den W-Raum (
n
, P
n
) be-
schrieben. F ur A 2
sei
A
:=
n
[
A
das Ereignis, da im -ten Experiment A eintritt. Die
Zufallsvariable
X :=
n
=1
1l
A
:
n
0, 1, 2, . . . , n (1.8.1)
gibt an, wie oft das Ereignis A bei den n-Versuchen
eingetreten ist. Die gemeinsame Verteilung der Indika-
torvariablen 1l
A
1
, 1l
A
2
, . . . , 1l
A
n
ist die n-fache Bernoulli-
Verteilung auf 0, 1
n
, denn es gilt (Bezeichnung 1.5.1
Gleichung (1.5.1)):
P
n
1l
A
1
= x
1
, . . . , 1l
A
n
= x
n
= p
k
(1 p)
nk
,
wobei k = X(x
1
, . . . , x
n
) die Anzahl der Einsen in dem
Tupel (x
1
, . . . , x
n
) ist.
Also ist die Verteilung P
X
die Binomialverteilung mit
den Parametern n und p = P(A) (Bezeichnung 1.5.2).
Anmerkung. Die in Gleichung 1.8.1 denierte Zufallsvariable hat
also die gleiche Verteilung wie das in Bezeichnung 1.5.2 beschrie-
bene Experiment. Dies ist ein gutes Beispiel f ur die in Bemerkung
1.6.5 erlauterte Verwendung von Zufallsvariablen.
1.8.4 Bez. (Marginalverteilung)
Es seien
Mengen und :=
1

n
. Wir be-
zeichnen die Projektion von auf die -te Komponente,
( = 1, . . . , n), mit
pr
, pr
: (
1
,
2
, . . . ,
n
)
.
Man spricht auch kurz von den Koordinatenvariablen.
(i) Ist P ein W-Ma auf dem Produktraum, so heien
die Verteilungen der Projektionen pr
die eindimensio-
nalen Randverteilungen oder Marginalverteilungen von
P.
(ii) Ist I = i
1
, i
2
, . . . , i
k
1, 2, . . . , n eine k-
elementige Teilmenge, so nennt man die gemeinsame
Verteilung von (pr
i
1
, pr
i
2
, . . . , pr
i
k
) eine k-dimensionale
Rand oder Marginalverteilung von P.
(iii) Ist P
X
die gemeinsame Verteilung der Zufallsva-
riablen X = (X
1
, X
2
, . . . , X
n
) und i
1
< < i
k

1, . . . , n, dann ist die entsprechende k-dimensionale
Randverteilung von P
X
die gemeinsame Verteilung von
(X
i
1
, X
i
2
, . . . , X
i
k
) ( Feststellung 1.6.4). Daher heit
die gemeinsame Verteilung von (X
i
1
, X
i
2
, . . . , X
i
k
) auch
eine k-dimensionale Randverteilung der Zufallsvariablen
X = (X
1
, X
2
, . . . , X
n
).
Anmerkung. 1. Eine Verteilung P auf einem Produktraum =
1, 2, . . . , m 1, 2, . . . , n lat sich als Matrix schreiben, wenn
man die Werte P(, ) wie eine Matrix anordnet. Die Randver-
teilung P
pr
1
ist dann die Zeilensumme und P
pr
2
die Spaltensum-
me.
2. I. a. ist P verschieden von dem Produkt seiner Marginalver-
teilungen.
Bsp. Hier ein einfaches Beispiel f ur die obige Situation. Das
Experiment ist das Werfen eines fairen W urfels. Also :=
1, 2, 3, 4, 5, 6 mit Laplace-Wahrscheinlichkeit. Die Zufallsvaria-
blen seien gerade Augenzahl bzw Augenzahl mindestens vier:
X
1
:= 1l
{2,3,6}
und X
2
:= 1l
{4,5,6}
.
P
X
1
, P
X
1
ist jeweils die Bernoulli-Verteilung mit Parameter
1
2
:
P
X
(1) = P
X
(0) =
1
2
f ur = 1, 2.
Die Werte der gemeinsamen Verteilung geben wir als Matrix an
und tragen auch die beiden Marginalverteilungen ein:
1 0 p
X
1
1
2
6
1
6
1
2
0
1
6
2
6
1
2
p
X
2
1
2
1
2
F ur das Produkt der Randverteilungen gilt aber
(P
X
1
P
X
2
)(, ) =
1
4
f ur . = 1, 2.
1 ENDLICHE W-R
AUME 18
1.8.5 Bsp. (Randverteilung der Multinomial-V.)
Die Multinomialverteilung M
n;p
1
,...,p
m
) auf
m
=
0, 1, . . . , n
m
hat als i-te Randverteilung die Binomial-
verteilung B
n,p
i
. (Bemerkung 1.5.5) und Bezeichnung
1.5.2).
Wir leiten die Behauptung auf zwei Weisen her; der
zweite Beweis folgt in Beispiel 1.8.9
Zur Abk urzung sei P := M
n;p
1
,...,p
n
(k
1
, . . . , k
m
). Mit
Hilfe der Multinomialformel ( Bezeichnung 1.2.14
Gleichung (1.2.1)) berechnen wir direkt aus der De-
nition der Multinomialverteilung den Wert
Ppr
m
= k = n!
_

k
1
++k
m1
=nk
m1
=1
p
k
k
u
!
_
p
k
m
k!
= (p
1
+ p
m1
)
nk
n!
(n k)!
p
k
m
k!
=
_
n
k
_
(1 p
m
)
nk
p
k
m
= B
n,p
m
k.
Aus der Symmetrie der Formel f ur die Multinomialver-
teilung folgt entsprechend Ppr
i
= k = B
n,p
i
k f ur
i = 1, . . . , m.
1.8.6 Bez. Wir sagen, da eine Abbildung f : M
nur von der -ten Koordinate abhangt, wenn es eine
Abbildung
f :
M gibt, so da f =

f pr
ist.
Man sagt hierf ur auch, f lat ich uber pr
faktorisieren.
1.8.7 Satz (von je einer Koordinate abh. ZVn)
Es seien (
, P
), ( = 1, . . . , n) endliche W-Raume und

(, P) := (
1

n
, P
1
P
n
) der Produk-
traum. F ur Zufallsvariable X
, ( = 1, . . . ,
n
), die je-
weils nur von der -ten Komponente abhangen,
ist die gemeinsame Verteilung das Produkt der Vertei-
lung der X
:
F ur dieses X := (X
1
, X
2
, . . . , X
n
) ist
P
X
= P
X
1
P
X
2
P
X
n
.
1.8.8 Bez. (Standardmodell f ur unabh. ZV.)
Hat man n Zufallsexperimente, die durch die W-Raume
(
1
, P
1
), . . . , (
n
, P
n
) beschrieben werden, so modelliert
das Produktma P = P
1
P
n
die gemeinsa-
me Durchf uhrung dieser Experimente ohne gegenseiti-
ge Beeinussung. Hangen die Zufallsvariablen X
,( =
1, . . . , n) jeweils nur vom Ausgang des -ten Experimen-
te ab, haben sie keinen Einu aufeinander. Die Vertei-
lung der Zufallsvariablen X := (X
1
, . . . , X
n
) beschreibt
das Ergebnis von n Zufallsexperimenten, die sich gegen-
seitig nicht beeinussen. D.h. das W-Ma P
X
des Zu-
fallsexperimentes X ist das Produkt der W-Mae P
X
der Einzelexperimente.
Der obige Satz 1.8.7 beschreibt einen wichtigen Spezi-
alfall von unabhangigen Zufallsvariablen und ist zugleich
das Standardmodell zur Konstruktion unabhangiger
Zufallsvariabler.
Wir verwenden die allgemeine Idee von Bezeichnung 1.8.8 f ur
eine zweite Herleitung der Randverteilung der Multinomialver-
teilung ( Beispiel 1.8.5). Wir wahlen dazu ein n-Tupel X =
(X
1
, . . . , X
m
) von Zufallsvariablen X : (, P)
m
die multino-
mial verteilt sind. Nach Bezeichnung 1.8.4 (iii) ist die i-te Randver-
teilung von P
X
gleich P
X
i
. Wir zeigen, da P
X
i
binomial verteilt
ist.
1.8.9 Bsp. (Randverteilung der Multinomial-V.)
Die Multinomialverteilung M
n;p
1
,...,p
m
) auf
m
=
0, 1, . . . , n
m
hat als i-te Randverteilung die Binomial-
verteilung B
n,p
i
. (Bemerkung 1.5.5) und Bezeichnung
1.5.2).
Dazu sei =
1
, . . . ,
m
ein Grundraum mit m
Elementen und P das W-Ma mit P
i
= p
i
f ur i =
1, . . . , m. Man bilde das Produkt (
n
, P
n
) und f ur i =
1, . . . , m die Zufallsvariablen
X
i
:
n
0, . . . , n
X
i
: (y
1
, . . . , y
n
)
n
j=1
1l
i
]
(y
j
).
X
i
beschreibt, wie oft das Element
i
unter den
y
1
, . . . , y
n
vorkommt. Nach Bezeichnung 1.5.4 hat das
m-Tupel X = (X
1
, . . . , X
m
) die Verteilung M
n;p
1
,...,p
m
.
Nach Konstruktion ist die Zufallsvariable
Y
j
: (x
1
, . . . , x
n
) 1l
i
]
(x
j
)
einfach Bernouli-verteilt mit Erfolgswahrscheinlichkeit
p
i
und hangt nur von der j-ten Komponente ab. Nach
Satz 1.8.7 ist das n-Tupel Y = (Y
1
, . . . , Y
n
) n-fach
Bernoulli-verteilt mit dem Parameter p
i
und folglich (
Bezeichnung 1.5.1 (4)) ist die Summe
X
i
:=
n
j=1
Y
j
binomialverteilt mit den Parametern n und p
i
.
1 ENDLICHE W-R
AUME 19
1.9 Unabhangige Zufallsvariable
1.9.1 Ziel (Unabhangigkeit von Zufallsvar.)
Man hat ein Zufallsexperiment E mit dem W-Raum
(, P) und n Zufallsvariable X
: M
, ( =
1, . . . , n). Wir f uhren nun die folgenden beiden Expe-
rimente durch:
Wir f uhren das Experiment E n-mal so durch,
da sich die einzelnen Durchf uhrungen nicht be-
einussen und beobachten der Reihe nach die
Elementarereignise
1
, . . . ,
n
. Bei der ersten
Durchf uhrung notieren den Wert X
1
(
1
), bei der
zweiten Durchf uhrung X
2
(
2
) und beim n-ten
mal den Wert X
n
(
n
). Nach Satz 1.8.7 ist die
Verteilung der so gebildeten Zufallsvariablen
(
1
, . . . ,
n
) (X
1
(
1
), . . . , X
n
(
n
))
das Produkt P
X
1
P
X
n
der Verteilung der Kom-
ponenten.
Wir f uhren das Experiment E durch. Wenn das
Ergebnis ist, so notieren wir das n-Tupel
X() := (X
1
(), . . . , X
n
()).
Wir nennen die Zufallsvariablen X
1
, . . . , X
n
un-
abhangig, wenn sich bei der zweiten Versuchsanordnung
dieselbe gemeinsame Verteilung ergibt wir bei der ersten
Versuchsanordnung, d.h.
P
X
= P
X
1
P
X
n
Bsp. Hier ein einfaches Beispiel f ur die obige Situation. Das
Experiment ist das Werfen eines fairen W urfels. Also :=
1, 2, 3, 4, 5, 6 mit Laplace-Wahrscheinlichkeit. Die Zufallsvaria-
blen seien gerade Augenzahl bzw Augenzahl durch drei teilbar:
X
1
:= 1l
{2,4,6}
und X
2
:= 1l
{3,6}
.
P
X
1
ist die Bernoulli-Verteilung mit Parameter
1
2
:
P
X
1
(1) = P
X
1
(0) =
1
2
.
P
X
2
ist die Bernoulli-Verteilung mit Parameter
1
3
:
P
X
2
(1) =
1
3
, P
X
2
(0) =
2
3
.
Die Werte der gemeinsamen Verteilung geben wir als Matrix an
und tragen die Marginalverteilungen P
X
1
und P
X
2
ein:
1 0 P
X
1
1
1
6
2
6
1
2
0
1
6
2
6
1
2
P
X
2
1
3
2
3
Man pr uft leicht nach, da das Produkt P
X
1
P
X
2
dieselbe Tabelle
ergibt.
Nach Feststellung 1.10.2 (b) reicht es in diesem Fall, die folgende
Beziehung zu pr ufen:
1
2

1
3
= P(X
1
= 1)P(X
2
= 1)
!
= P(X
1
= 1, X
2
= 1) = P(6) =
1
6
.
Die restlichen Werte der Tabelle folgen hieraus.
1.9.2 Def. (Unabhangigkeit von Zufallsvar.)
endliche
Mengen und X
: M
, ( = 1, 2, . . . , n), Zufalls-
variable.
Das Tupel X := (X
1
, X
2
, . . . , X
n
) heit unabhangig
wenn die gemeinsame Verteilung P
X
gleich dem Produkt
der Verteilungen P
X
1
, P
X
2
, . . . P
X
n
ist:
P
X
= P
X
1
P
X
2
P
X
n
.
Anmerkung. Zur Betonung oder Unterscheidung sagt man auch
stochastisch unabhangig.
Sind die Zufallsvariablen X
1
, . . . , X
n
nicht unabhangig, so hei-
en sie (stochastisch) abhangig.
1.9.3 Satz (Unabhangigkeit von Zufallsvar.)
endliche
Mengen und X
: M
, ( = 1, 2, . . . , n), Zufalls-
variable. Die folgenden Aussagen sind aquivalent:
(a) Die Familie X := (X
1
, X
2
, . . . , X
n
) ist un-
abhangig.
(b) F ur beliebige B
, ( = 1, 2, . . . n) gilt:
PX B
1
B
2
B
n
= PX
1
B
1
PX
2
B
2
PX
n
B
n
.
Man kann die Bedingung auch in der Form
PX
1
B
1
, X
2
B
2
, . . . , X
n
B
n
= PX
1
B
1
PX
2
B
2
PX
n
B
n
.
schreiben.
(c) F ur (x
1
, . . . , x
n
) M
1
M
n
gilt
PX = (x
1
, . . . , x
n
)
= PX
1
= x
1
PX
2
= x
2
PX
n
= x
n
.
(d) Die Wahrscheinlichkeitsfunktion p
X
der gemein-
samen Verteilung von X := (X
1
, X
2
, . . . , X
n
) hat Pro-
duktgestalt: d.h. es gibt Funktionen p
: M
[0, 1]
derart, da
p
X
(x
1
, . . . , x
n
) = p
1
(x
1
) p
n
(x
n
)
f ur (x
1
, . . . , x
n
) M
1
. . . M
n
gilt.
Anmerkung. In der Literatur wird haug Satz 1.9.3 als Deniti-
on f ur die Unabhangigkeit von Zufallsvariablen gwahlt und spater
die

Aquivalenz zu Denition 1.9.2 gezeigt.
1.9.4 Bem.
Es seien X
: (, P) M
, ( = 1, 2, . . . , n) unabhangi-
ge Zufallsvariable.
(i) Ist eine Permutation von 1, 2, . . . , n so sind
auch X
1
, X
2
, . . . , X
n
unabhangig.
Man kann also auch von einer Familie (X
i
)
iI
von unabhangi-
gen Zufallsvariablen sprechen, wenn I eine endliche Indexmenge
ist.
(ii) Ist I 1, 2 . . . , n eine Indexmenge, so ist die
Teilfamilie (X
i
)
iI
ebenfalls unabhangig.
(iii) F ur eine disjunkte Zerlegung I
1

. . .

I
k
=
1, 2, . . . , n bilde man die Zufallsvariablen Y
:=
(X
i
)
iI
1
( = 1, . . . , k). Dann sind Y
1
, Y
2
. . . . , Y
k
un-
abhangig
1 ENDLICHE W-R
AUME 20
1.9.5 Satz (Funktionen unabhangiger ZV.)
Es seien X
: (, P) M
, ( = 1, 2, . . . , n) unabhangi-
ge Zufallsvariable. Ferner sei 1, 2, . . . , n die disjunkte
Vereinigung von Indexmengen I
1
, I
2
, . . . , I
k
und
f
iI
M
i
N
f ur = 1, 2, . . . , k
Abbildungen in endliche Mengen N
. Man bilde die Zu-

fallsvariablen
Z
:= f
(X
i
)
iI
f ur = 1, 2, . . . , k.
Dann sind Z
1
, Z
2
, . . . , Z
n
unabhangig.
Speziell gilt: Sind die Zufallsvariablen X
: (, P) M
,
( = 1, 2, . . . , n) unabhangig, und sind f
: M
beliebi-
ge Abbildungen, N
endlich, so sind die Zufallsvariablen

Z
:= f
( = 1, 2, . . . , n)
unabhangig.
Anmerkung. (i) Satz 1.9.5 gilt nicht mehr, wenn die I
i
nicht
disjunkt sind.
(ii) Auch ist f ur eine unabhangige n-Tupel reeller Zufallsvaria-
bler X := (X
1
, X
2
, . . . , X
n
) und eine invertierbare n n-Matrix
A ist das n-Tupel AX i. a. nicht unabhangig.
beginbsp Zzweimaliger fairer M unzwurf. Es seien pr
1
, pr
2
:
0, 1
2
0, 1 die beiden Ergebnisse. pr
1
, pr
2
sind unabhangige
Zufallsvariable. Dagegen sind die Zufallsvariablen
X
1
:= pr
1
+ pr
2
und X
2
:= pr
1
pr
2
nicht unabhangig. So folgt aus X
1
= 2, da X
1
= 0 ist oder aus
X
2
= 1 folgt X
1
= 1. Andererseits sind
pr
1
=
1
2
(X
1
+X
2
) und pr
2
=
1
2
(X
1
X
2
)
unabhangig, obwohl X
1
, X
2
abhangig sind.
1.10 Unabhangige Ereignisse
1.10.1 Bez. (Unabh. Ereignisse)
Endlich viele Ereignisse A
1
, . . . , A
n
eines W-Raumes
(, P) heien (stochastisch) unabhangig, wenn die In-
dikatorfunktionen 1l
A
1
, . . . , 1l
A
n
unabhangig sind.
1.10.2 Festst. (unabhangige Ereignisse)
F ur die Unabhangigkeit der Ereignisse A
1
, A
2
, . . . , A
n
reicht es, eine der folgenden einfacheren Bedingungen
(b) oder (c) nachzupr ufen.
Die folgenden Bedingungen sind aquivalent:
(a) A
1
, A
2
, . . . , A
n
2
sind unabhangig.
(b) f ur jede nichtleere Teilmenge I 1, 2, . . . , n
gilt:
P(
iI
A
i
) =
iI
P(A
i
).
(c) F ur jede nichtleere Teilmenge I 1, 2, . . . , n
gilt
P(
iI
A
i

jI
c
A
c
j
) =
iI
P(A
i
)
jI
c
P(A
c
j
).
Damit eine Familie A
1
, . . . , A
n
unabhangig ist, mu man in Fest-
stellung 1.10.2 die Produktformel (b) bzw. (c) f ur alle Teilfamilien
I pr ufen.
1.10.3 Bsp. Eine faire M unze wird dreimal ge-
worfen. Der Ergebnisraum ist 0, 1
3
mit Laplace-
Wahrscheinlichkeit.
A
1
:= (
1
,
2
,
3
) [
1
+
2
+
3
2
A
2
:= (
1
,
2
,
3
) [
1
= 1
A
3
:= (
1
,
2
,
3
) [
2
=
3
Es ist P(A
i
) =
1
2
f ur i = 1, 2, 3 und
P(A
1
A
2
A
3
) = P(1, 1, 1) =
1
8
,
aber
P(A
1
A
2
) = P(1, 1, 1), (1, 1, 0), (1, 0, 1)
=
3
8
,= P(A
1
)P(A
2
).
Anmerkung. (unvereinbare Ereignisse sind abhangig)
1. Wir nennen Ereignisse A
1
, . . . , A
n
unvereinbar, wenn
n
i=1
A
i
= und mindestens ein P(A
i
) ,= 0. Unvereinbare Ereignis-
se sind abhangig und nicht etwa unabhangig!
2. Der Begri der paarweisen Unabhangigkeit ist nicht weiter
wichtig. Im folgende Beispiel werden drei paarweise unabhangige
Ereignisse konstruiert, die zusammen unvereinbar sind.
1.10.4 Bem. (
! paarweise unabh. Ereignisse)

F ur n 3 konnen Ereignisse A
1
, . . . , A
n
auch dann abhangig
sein, wenn je zwei der Ereignisse unabhangig sind (sogenann-
te paarweise Unabhangigkeit) Beispiel: Fairer W urfel wird zwei-
mal unabhangig voneinander geworfen. D.h. := 1, . . . , 6
2
mit
Laplace-Wahrscheinlichkeit.
A
1
:= (x
1
, x
2
) [ x
1
gerade
A
2
:= (x
1
, x
2
) [ x
2
gerade
A
3
:= (x
1
, x
2
) [ x
1
+x
2
ungerade
1 ENDLICHE W-R
AUME 21
Es ist
P(A
i
) =
1
2
f ur i = 1, 2, 3
P(A
i
A
j
) =
1
4
f ur i, j = 1, 2, 3, i ,= j.
Die Ereignisse sind also paarweise stochastisch unabhangig. Sie
sind aber nicht unabhangig, da
P(A
1
A
2
A
3
) = P() = 0
ist.
Anmerkung. Dass Beispiel der Ereignisse A
1
und A
3
zeigt
noch folgendes: Zwei Ereignisse konnen sehrwohl stochastisch un-
abhangig sein, obwohl eins mitbestimmt, ob das andere eintritt (
Bedingte Wahrscheinlichkeit)
Aus Satz 1.9.5 und den Regeln aus Bemerkung 1.3.1 ergibt sich
das folgende Resultat:
1.10.5 Satz (Rechenreglen: unabh. Ereignisse)
Es seien A
1
, . . . , A
n
unabhangige Ereignisse. F ur eine
Zerlegung I
1

. . .

I
k
= 1, 2, . . . , n bilde man mittels
mengentheoretischer Operationen (Durchschnitt, Verei-
nigung, Komplement) aus den Familien A
i
[ i I
,
( = 1, . . . k) neue Mengen B
I
1
, . . . , B
I
k
.
Dann sind auch B
I
1
, . . . , B
I
k
unabhangig.
Beispiel: Sind A, B, C, D, E, F unabhangig, so sind auch A B,
C (D \ E), F
c
unabhangig.
1 ENDLICHE W-R
AUME 22
1.11 Bedingte Wahrscheinlichkeit
1.11.1 Bsp. Beim Wurf mit einem fairen W urfel ist
unter der Annahme, da eine gerade Augenzahl
gew urfelt wurde, anschaulich klar, da
die Wahrscheinlichkeit von 1, 3, 5 gleich 0 ,
die Wahrscheinlichkeit von 2, 4, 6 gleich 1
ist, und da 2, 4, 6 die gleiche Wahrscheinlich-
keit haben. Also ist, unter der obigen Annahme, die
Wahrscheinlichkeit von 2 gleich
1
3
u.s.w.
Wir wollen die intuitive Wahl der Wahrscheinlichkeiten im obigen
Beispiel 1.11.1 mit

Uberlegungen zur relativen Haugkeit in einer
langen Folge von Experimenten untermauern. Wir losen uns f ur
diese Diskussion vom konkreten Beispiel des W urfelns.
1.11.2 Ziel (Haugkeit bei bedingten Exprmtn.)
Das folgende

Uberlegung beruht auf Plausibilitat, sie ist so nicht
mathematisch beweisbar, sondern dient als Motivation f ur die an-
schlieende Denition 1.11.3
Ein Zufallsexperiment E wird mit einem W-Raum
(, P) modelliert. Wir betrachten zwei Ereignisse A, B
2
mit A B und nehmen an, da in einer Serie von

Zufallsexperimenten, die sich gegenseitig nicht beeinus-
sen, f ur hinreichend groes n die relative Haugkeiten
R
n
(A) P(A) bzw. R
n
(B) P(B) seien. Weiterhin sei
P(B) > 0.
Eine Serie von Zufallsexperimenten ergebe die Be-
obachtungen x
1
, x
2
, . . . , x
N
. Aus diesen wahle man die
Teilserie derjenigen Beobachtungen aus, die in B liegen:
x
1
, . . . , x
m
B.
F ur groes N werden die die relativen Haugkeiten
R
N
(B) =
m
N
sehr dicht an P(B) > 0 liegen. Auch wird
R
N
(A) P(A) sein.
Die relative Haugkeit f ur das Ereignis A in der aus-
gewahlten Teilserie ist
R
m
(A) =
1
m
m
=1
1l
A
( x
) =
N
m
1
N
N
=1
1l
A
(x
)
=
R
N
(A)
R
N
(B)

P(A)
P(B)
.
1.11.3 Def. (Bedingte Wahrscheinlichkeit)
Es seien (, P) ein endlicher W-Raum und B 2
mit
P(B) > 0.
(i) Man deniert ein W-Ma P( . [B) auf 2
B
durch
die Vorschrift
P(A[B) :=
P(A)
P(B)
f ur A 2
B
.
P(A[B) heit die bedingte Wahrscheinlichkeit von A ge-
geben B.
(ii) Oft ist es zweckmaig, die bedingte Wahrschein-
lichkeit als W-Ma auf dem urspr unglichen Grundraum
aufzufassen. Man setzt dann
P(C[B) := P(C B[B) f ur C 2
.
Streng genommen handelt es sich hierbei um das Bild des W-
Maes P( . [B) unter der Zufallsvariablen : B , wobei die
Einbettung der Teilmenge B in ist. Man identiziert in diesem
Fall das W-Ma P( . [B mit seinem Bildma unter .
(iii) Man deniert praktischer Weise die bedingte
Wahrscheinlichkeit auch im Fall P(B) = 0 und setzt
P(C[B) = 0. Auf diese Weise erreicht man, da die fol-
genden Formeln auch in diesem Fall sinnvoll bleiben.
Nat urlich ist in diesem Fall P( . [B) 0 kein W-Ma.
Anmerkung. Man kann die Denition 1.11.3 auch etwas simpler
auassen: F ur ein B 2
ist die Einschrankung P[2

B
ein Ma auf
B. Wenn P(B) > 0 ist, kann man die Einschrankung normieren,
so da man ein W-Ma erhalt. Man bezeichnet
P( . [B) :=
1
P(B)
P[2
B
.
(B, P( . [B)) entspricht der Bildung eines Unterraumes bei ande-
ren mathematischen Strukturen. Die dann anschlieende Frage,
wie man einen W-Raum aus
disjunkten Unteraumen rekonstru-

iert, ndet f ur endliche W-Raume eine ganz einfache Antwort (
Abschnitt 1.12)
1.11.4 Bsp. Der Spielleiter wirft verdeckt zwei faire
W urfel und verk undet
Augensumme ist 8. Frage:

Wie gro ist die bedingte Wahrscheinlichkeit, da min-
destens eine 6 geworfen wurde?
Antwort: Unter der Voraussetzung, da der Spielleiter
vorher festgelegt hatte, da er nur eine der Informatio-
nen
Augensumme < 8 oder 8
bekanntgegeben wird,
ist die bedingte Wahrscheinlichkeit f ur mindestens eine
6 unter den Augen
3
5
.
Da die Spielregel vorher bekannt ist, kann man aus der Angabe
des Spielleiters keine weiteren Informationen ziehen. Was anderes
ware es, wenn der Spielleiter auch statt der 8 eine andere mogliche
Zahl wahlen d urfte!
Der Grundraum ist 1, . . . , 6
2
mit Laplace-
Wahrscheinlichkeit. Es gibt die Ereignisse
A
6
:= (1, 6), . . . , (6, 6), (6, 5), . . . , (6, 1),
B
8
:=
_
_
. . . . (2, 6)
. . . (3, 5) (3, 6)
. . (4, 4) (4, 5) (4, 6)
. (5, 3) (5, 4) (5, 5) (5, 6)
(6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
_
_
Oensichtlich ist [B
8
[ = 15 und [A
6
B
8
[ = 9 und somit
P(A
6
[ B
8
) =
9
36
/
15
36
=
3
5
.
1.11.5 Bsp. Eine Urne enthalte K schwarze und NK
rote Kugeln. Vom Spielleiter werden zunachst zufallig
aber verdeckt m Kugeln entnommen und nichts uber de-
ren Farben mitgeteilt. Dann werden oentlich n Kugeln
gezogen, wobei nat urlich n N m ist.
Was ist die Wahrscheinlichkeit, da unter den n oent-
lich gezogen Kugeln k St uck schwarz sind.
Antwort. Die Anzahl der schwarzen Kugeln unter den
n oentlich gezogenen Kugeln ist hypergeometrisch ver-
teilt mit den Parametern N, K, n. Die Wahrscheinlich-
keit f ur k schwarze Kugeln ist
H
N,K,n
k =
_
K
k
__
NK
nk
_
_
N
n
_
1 ENDLICHE W-R
AUME 23
Die vorhergehende verdeckte Entnahme von m Kugeln
hat keinen Ein us auf die Wahrscheinlichkeitsverteilung
der nachfolgenden n Kugeln.
Ein schnelles Argument hierf ur ist: Die Wahrschein-
lichkeit einer geordneten Stichprobe, in der zuerst m Ku-
geln kommen und dann eine Anordnung von n Kugeln,
von denen k schwarz sind, hat die gleiche Wahrschein-
lichkeit wie eine Stichprobe, in der die besagten n Kugeln
vor den m Kugeln kommen.
Man kann den Vorgang auch als m+n-stuges Zufallsexperiment
modellieren und die (bedingte) Wahrscheinlichkeit daf ur berech-
nen, da k schwarze Kugeln gezogen werden, wenn zuvor irgend-
welche m Kugeln gezogen wurden ( Abschnitt 1.13 Mehrstuge
Experimente).
1.11.6 Satz (von der totalen Wahrscheinlichkeit)
Es seien (, P) ein endlicher W-Raum und
= B
1
.
. . .
.
B
n
eine Zerlegung von in disjunkte Teilmengen B
.
(i) Dann gilt die Formel von der totalen Wahr-
scheinlichkeit
P(A) =
n
=1
P(A[B
) P(B
) f ur A 2
.
(ii) Im Fall P(A) > 0 gilt f ur k = 1, . . . , n die Formel
von Bayes:
P(B
k
[A) =
P(A[B
k
) P(B
k
)
n
=1
P(A[B
) P(B
)
, (1.11.1)
Anmerkung. 1. Die Formel von Bayes folgt aus der Formel (i)
von der totalen Wahrscheinlichkeit und der Beziehung
P(B
k
[A) =
P(B
k
A)
P(A)
=
P(A[B
k
)P(B
k
)
P(A)
2. Ein Spezialfall von Satz 1.11.6 (i) ist die Formel
P(A) = P(A[B)P(B) +P(A[B
c
)P(B
c
).
D.h. die Wahrscheinlichkeit von A ergibt sich aus den Wahrschein-
lichkeiten P(B), P(B
C
) und den bedingten Wahrscheinlichkeiten
P(A[B), P(A[B
c
).
Man beachte die Konvention: P(B) = 0 P(A[B) = 0.
3. Genauso erhalt man als Spezialfall von Satz 1.11.6 (ii) die
Formel
P(B[A) =
P(A[B)P(B)
P(A[B)P(B) +P(A[B
c
)P(B
c
)
.
1.11.7 Bsp. Eine Person wird ohne besonderen Ver-
dacht auf HIV getestet, etwa anlalich einer Operation.
Uberraschend fallt der Test positiv aus. Wie ist das Er-
gebnis zu bewerten?
Die derzeit ublichen Tests (Stand 2001) erkennen Er-
krankte mit einer Wahrscheinlichkeit von 0, 998 und lie-
fern f ur Gesunde mit einer Wahrscheinlichkeit von 0, 99
ein negatives Resultat. Es gibt in Deutschland ca. 50.000
Erkrankte bei 80 10
6
Einwohnern. Es bezeichne
K Ereignis, da irgend eine Person an HIV erkrankt
ist,
T
pos
Ereignis, da irgendeine Person positiv getestet
wird.
Geht man also aus, da die Person einem durchschnitt-
lichen Erkrankungsrisiko unterliegt, so gilt
P(K) =
50.000
80 10
6
6.25 10
4
.
Bekannt sind die bedingten Wahrscheinlichkeiten
P(T
pos
[ K) = 0, 998
P(T
pos
[ K
c
) = 1 0.99 = 0, 01.
Also ist
P(K|T
pos
) =
P(T
pos
|K)P(K)
P(T
pos
|K)P(K) +P(T
pos
|K
c
)P(K
c
)
=
0, 998 6.25 10
4
0, 998 6.25 10
4
+ 0, 01 (1 6.25 10
4
)
0, 06.
Die Wahrscheinlichkeit, da die Person tatsachlich er-
krankt ist, wenn sie positiv getestet wurde, betragt 6%.
Gehort die Person dagegen zu einer Risikogruppe A
mit P(K
A
) = 0, 01 so ist die bedingte Wahrscheinlich-
keit, da diese Person tatsachlich krank ist
P(K
A
|T
pos
)
=
P(T
pos
|K
A
)P(K
A
)
P(T
pos
|K
A
)P(K
A
) +P(T
pos
|K
c
A
)P(K
c
A
)
=
0, 998 0, 01
0, 998 0, 01 + 0, 01 0.99
50%.
Das Beispiel zeigt, da ein allgemeines Screening f ur
seltene Krankheiten, das nicht auf Risikogruppen be-
schrankt ist, selbst bei Verwendung zuverlassiger Tests,
von eingeschrankten Wert ist.
1.11.8 Satz (Multiplikationsformel)
In einem endlichen W-Raum gilt f ur A
1
, . . . , A
n
2
P
_
n
=1
A
_
= P(A
1
)
n
=2
P
_
A
[
1
=1
A
_
= P(A
1
) P(A
2
[A
1
)P(A
3
[A
1
A
2
)
P(A
n
[A
1
A
n1
).
Bsp. (Geburtstagsproblem) Die Wahrscheinlichkeit, da von n
zufallig nacheinander ausgewahlten Personen keine zwei am selben
Tag Geburtstag haben, ist
(365)
n
365
n
.
Dabei wurde das Jahr zu 365 Tagen ohne Schaltjahre gerechnet.
Alle Tage treten mit gleicher Wahrscheinlichkeit als Geburtstage
auf.
Der zugrunde liegende W-Raum ist also (
n
, P
n
), wobei =
1, . . . , 365 und P die Laplace-Wahrscheinlichkeit auf ist. Man
setze A
k
das Ereignis, da die (k +1)-te Person an einem anderen
Tag Geburtstag hat, als die davor gewahlten und wende Satz 1.11.8
an.
Anderes Model, da zur gleichen Losung f uhrt: Wahrscheinlich-
keit, da eine geordnete Stichprobe mit Wiederholung vom Um-
fang n aus der Menge 1, . . . 365 keine zwei gleichen Elemente
entalt.
1 ENDLICHE W-R
AUME 24
1.11.9 Bem. (bed. Wahrsch. und Unabhangigkeit)
Gegeben seien zwei Ereignisse A, B eines W-Raumes
(, P) und es sei P(B) > 0.
A, B sind dann und nur dann unabhangig, wenn
P(A[B) = P(A) gilt.
1.12 Zusammengesetzte W-Mae
1.12.1 Satz (zusammengesetzte W-Mae)
Es sei (
0
, P
0
) =
01
, . . . ,
0n
ein W-Raum mit
n Elementen und dem W-Ma P
0
. Weiterhin seien
(
11
, P
11
), . . . , (
1n
, P
1n
) endliche W-Raume und
:=
11
.
. . .
.

1n
die disjunkte Vereinigung der
11
, . . . ,
1n
.
Oder anders ausgedr uckt: hat eine Zerlegung in n paarweise
disjunkte Mengen
11
, . . . ,
1n
2
.
Zur Abk urzung setze man p
0
:= P
0
0
.
Dann gibt es genau ein W-Ma P auf derart, da
f ur = 1, . . . , n gilt:
P(
1
) = p
0
, (1.12.1)
und falls p
0
> 0 ist:
P(A[
1,
) = P
1
(A
1,
) f ur A 2
. (1.12.2)
Beachte: Wenn P(
1
) = p
0
= 0 ist, so ist denitionsgema
P(A[
1,
) = 0.
Anmerkung. (Zusammengesetzte W-Mae) 1. Aus der For-
mel von der totalen Wahrscheinlichkeit ( Satz 1.11.6 (i)) und
den Eigenschaften (1.12.1) und (1.12.2) folgt f ur das zusammen-
gesetzte W-Ma P die Formel:
P(A) =
n
=1
p
0
P
(A
1
) f ur A 2
. (1.12.3)
Dadurch ist P eindeutig bestimmt.
2. Zum Beweis der Existenz deniert man P durch die Formel
(1.12.3) und pr uft nach, da diese Funktion P ein W-Ma mit den
Eigenschaften (1.12.1) und (1.12.2) ist.
3. Speziell folgt aus Gleichung (1.12.2) die Produktformel
P(A) = p
0
P
1
(A) f ur A 2
1
.
4. Im Spezialfall, da die Raume (
1
, P
1
) alle gleich sind:
(
,

P) := (
11
, P
11
) = = (
1n
, P
1n
)
kann man mit
0

folgendermaen identizieren: F ur
1,
sei das entsprechende Element in

. Dann ergibt die Zu-
ordnung
(
0
, )
eine Bijektion der disjunkten Vereinigung :=
11
.
. . .
.

1n
mit dem Produktraum
0
. Unter dieser Identizierung ist das

zusammengesetzte W-Ma P gerade das Produktma P
0

P.
Dies sieht man folgendermaen: F ur
1
folgt aus den
Bedingungen (1.12.1) und (1.12.2), da
P = P( [
1
) P(
1
) = P
1
P
0
= P
0

P(
0
, )
ist.
5. Auch sonst ist es oft vorteilhaft, die Elemente von :=
11
.
. . .
.

1n
etwas aufwendiger als Paare
(
0
, ) f ur
1
zu schreiben. Man denke an gekoppelte Experimente, wenn das
erste das Ergebnis
0
ist, f uhre man das Experiment mit dem
Ergebnisraum
1
aus. Man erhalt nun die Gesamtbeobachtung
(
0
, ) mit
1,
. F ur die Wahrscheinlichkeit eines Elemen-
tarereignisses folgt aus Gleichung (1.12.2) die Pfadformel:
P(
0,
, ) = P
0
0
P
1
. (1.12.4)
Wir benutzen diese Schreibweise in dem folgenden Beispiel:
1 ENDLICHE W-R
AUME 25
1.12.2 Bsp. (zusammengesetzte W-Mae)
1. Wir haben drei Urnen, eine weie Urne, eine
schwarze und eine rote. Alle drei enthalten jeweils eine
Anzahl von schwarzen Kugeln und roten Kugeln.
weie Urne: drei schwarze, eine rote
schwarze Urne: vier schwarze, eine rote
rote Urne: drei schwarze, zwei rote
Zuerst wird aus der weien Urne eine Kugel gezogen.
War diese schwarz, wird anschlieend aus der schwar-
zen Urne eine Kugel gezogen, anderenfalls aus der roten
Urne. Der Ereignisraum besteht also aus den Tupeln
:= (s, s), (s, r), (r, s), (r, r)
Gesucht ist das W-Ma P auf , das die eingangs be-
schriebene Zugreihenfolge modelliert.
2. Wir bestimmen P mit Hilfe von Satz 1.12.1
uber zusammengesetzte W-Mae, Bekannt sind die W-
Raume:
(
0
, P
0
): Ziehen einer Kugel aus der weien Urne
p
01
:= P
0
s =
3
4
, p
02
:= P
0
r =
1
4
;
(
11
, P
11
): Ziehen einer Kugel aus der schwarzen Ur-
ne:
P
11
s =
4
5
, P
11
r =
1
5
;
(
12
, P
12
): Ziehen einer Kugel aus der roten Urne:
P
12
s =
3
5
, P
12
r =
2
5
;
Wir konnen als disjunkte Vereinigung von
11
und
12
auassen, indem wir identizieren:
11

= (s, s), (s, r),
12

= (r, s), (r, r). (1.12.5)
Durch diese Bezeichnung unterscheiden wir eine schwar-
ze Kugel (s, s) in der schwarzen Urne von einer schwar-
zen Kugel (r, s) in der roten Urne.
Die Elementarereignisse haben die folgenden
bedingten Wahrscheinlichkeiten P([
1i
), (i = 1, 2),
die wir in einer Tabelle eintragen:
P([
11
) P([
12
)
(s, s) P
11
(s, s) 0
(s, r) P
11
(s, r) 0
(r, s) 0 P
12
(r, s)
(r, r) 0 P
12
(r, r).
(1.12.6)
Durch passende Wahl und Addition dieser Werte berech-
net man
P(A[
1i
) = P
1i
(A
1i
) f ur A 2
und i = 1, 2.
3. So erhalt man f ur die Ereignisse
S := zweite Kugel schwarz
R := zweite Kugel rot
die bedingten Wahrscheinlichkeiten
P(S[
11
) = P
11
(s, s), P(R[
11
) = P
11
(s, r),
P(S[
12
) = P
12
(r, s), P(R[
12
) = P
12
(r, r).
Mit der Formel (1.12.3) von der totalen Wahrschein-
lichkeit folgt:
P(S) = p
01
P(S[
11
) +p
02
P(S[
12
) =
3
4

4
5
+
1
4

3
5
=
3
4
,
P(R) = p
01
P(R[
11
) +p
02
P(R[
12
) =
3
4

1
5
+
1
4

2
5
=
1
4
.
4. Mit der Formel von Bayes ( Satz 1.11.6 (ii))
erhalt man die Antwort auf die folgende Frage: Wie
gro ist die bedingte Wahrscheinlichkeit, da wir aus der
schwarzen bzw. der roten Urne gezogen haben, gegeben,
da die zweite Kugel schwarz ist:
P(
11
[ S) =
P(S [
11
)P(
11
)
P(S)
=
4
5

3
4
3
4
=
4
5
,
P(
12
[ S) =
P(S [
12
)P(
12
)
P(S)
=
3
5

1
4
3
4
=
1
5
,
Anmerkung. (a priori und a posteriori-Verteilung) P(
11
[
S) ist die bedingte Wahrscheinlichkeit, da beim ersten mal eine
schwarze Kugel gezogen wurde gegeben, da auch beim zweiten
Zug eine schwarze Kugel gezogen wird. Genauso ist P(
12
[ S) die
bedingte Wahrscheinlichkeit, da beim ersten mal eine rote Kugel
gezogen wurde gegeben, da beim zweiten Zug eine schwarze Kugel
gezogen wird. Hierf ur ist die folgende Sprechweise ublich:
Die Wahrscheinlichkeiten p
01
=
3
4
und p
01
=
1
4
f ur eine schwar-
ze bzw. der rote Kugel beim ersten Zug nennt man die a priori
Wahrscheinlichkeiten. Die Information, da beim zweiten Zug die
aus einer der beiden Urnen gezogene Kugel schwarz ist, verschiebt
die apriori Wahrscheinlichkeiten zu den a posteriori Wahrschein-
lichkeiten P(
11
[ S) =
4
5
bzw. P(
12
[ S) =
1
5
.
F ur die schwarze Urne ist die a posteriori Wahrscheinlichkeit
gegeben S groer als die a priori Wahrscheinlichkeit, da bei ihr
das Verhaltnis der schwarzen Kugeln zu den roten groer ist, als
bei der roten Urne.
1 ENDLICHE W-R
AUME 26
1.13 Mehrstuge Experimente
Oft wird ein mehrstuges Zufallsexperiment durch einen Ereignis-
baum beschrieben.
Ein Baum ist ein zusammenhangender gerichteter Graph, der
zwischen je zwei Ecken genau eine Kante enthalt. Wir machen von
den folgenden einfachen Eigenschaften von Baumen gebrauch:
Es gibt genau einen Knoten, genannt Wurzel, mit Eingangs-
grad 0, d.h. es f uhren keine Kanten hinein. Alle anderen Knoten
haben den Eingangsgrad 1, d.h. es f uhrt genau eine Kante hinein.
Die Knoten mit Ausgangsgrad 0 d.h. es f uhren keine Kanten
hinaus heien die Endknoten des Baumes. Alle anderen Knoten
heien Verzweigungsknoten.
Ein Pfad ist eine Folge von Kanten, so da der Endknoten
einer Kante der Anfangsknoten der nachsten ist.
In einem Baum gibt es zu jedem Knoten genau einen Pfad von
der Wurzel zu diesem Knoten. Die Tiefe eines Knotens ist die
Lange dieses Pfades.
Die Zuordnung von Knoten zu ihren Pfaden ergibt eine Bi-
jektion der Menge der Endknoten auf die Menge der maximalen
Pfade des Baumes.
Ein Ereignisbaum dient dazu, auf der Menge der Endknoten
oder gleichbedeutend der Menge der maximalen Pfade ein W-Ma
mit geeigneten Eigenschaften zu konstruieren.
1.13.1 Bez. (Ereignisbaum)
(i) Ausgehend von einem Knoten der 0-ten Stufe lauft
je eine Kante, zu den die Ausgange der 0-ten Stufe
reprasentierenden Knoten, wobei jede Kante mit der
entsprechenden

Ubergangswahrscheinlichkeit oder
Eintrittswahrscheinlichkeit des entsprechenden Elemen-
tes der 0-ten Stufe versehen wird.
(ii) Jeder dieser Knoten der 1-ten Stufe ist entweder
ein Endknoten oder von ihm laufen wieder Kanten zu
Knoten 2-ter Stufe, die die Ausgange der ersten Stufe
beschreiben. Hier werden die Kanten mit der

Uber-
gangswahrscheinlichkeit oder Eintrittswahrschein-
lichkeit f ur das Ergebnis in der ersten Stufe versehen;
usw.
(iii) Die

Ubergangswahrscheinlichkeiten der Kanten,
die von demselben Knoten ausgehen, m ussen sich zu
Eins addieren.
Anmerkung. In einem mehrstugen Zufallsexperiment sind die
Elementarereignisse die Endknoten (Blatter) oder gleichbedeutend
die Pfade von der Wurzel zu den Endknoten.
In einer Aufgabenstellung ist zumeist die Wahrscheinlichkeits-
verteilung auf den Endknoten gefragt. Die Umformulierung in die
entsprechenden Pfade ermoglicht es, die gesuchten Wahrschein-
lichkeiten stufenweise zu berechnen:
Es gilt die Pfadregel: Die Wahrscheinlichkeit eines Pfades
ist das Produkt der

Ubergangswahrscheinlichkeiten seiner Kan-
ten. F ur den Fall eines zweistugen Experiments siehe Gleichung
(1.12.4) und allgemein Folgerung 1.13.4.
Wir veranschaulichen die Bezeichnung 1.13.1 mit folgenden Bei-
spiel eines dreistugen Ereignisbaumes:
1.13.2 Bsp. (Ereignisbaum)
Aus einer Urne mit 2 schwarzen und 3 roten Kugeln
werden 3 Kugeln ohne Zur ucklegen gezogen. Dies ergibt
den folgenden Ereignisbaum:
0-te Stufe t
tf t
t tf t t
t t t t t t t
H
H
H
H
H
H
H
@
@
@
@
@
@
@
@
@
@
@
@
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
s r
s r s r
r s r s r s r
2
5
3
5
1
4
3
4
1
2
1
2
1
1
3
2
3
1
3
2
3
2
3
1
3
P
1
10
1
10
2
10
1
10
2
10
2
10
1
10
. .
A, P(A)=
4
10
. .
B, P(B)=
3
10
Die

Ubergangswahrscheinlichkeit ist der jeweilige Anteil von
schwarzen bzw. roten Kugeln in der Urne. Das Produkt dieser
Anteile ergibt die Wahrscheinlichkeit einer Zugreihenfolge. In der
untersten Zeile sind die Wahrscheinlichkeiten der Endknoten ein-
getragen.
Man beobachtet die folgenden Zudammenhange: F ur die ange-
gebenen Teilmengen A, B ist
die Wahrscheinlichkeit P(A) =
2
5
gleich der

Ubergangswahr-
scheinlichkeit der obersten linken Kante, die zu allen Endknoten
der Menge A f uhrt.
die bedingte Wahrscheinlichkeit P(B[A) =
3
10
/
4
10
=
3
4
. Letz-
teres ist die

Ubergangswahrscheinlichkeit der Kante (s, r) (fett ge-
zeichnet), entlang der sich die kleinere Menge B von der groeren
Menge A abspaltet.
Die f ur A und B beobachteten Eigenschaften gelten f ur alle
Teilmengen der Endknoten dieser Bauart und werden das W-Ma
auf den Endknoten eindeutig charakterisieren ( Satz 1.13.3).
Aufgabe. In dem Beispiel ist die Wahrscheinlichkeit
der Pfade (s, s, r), (s, r, s), (r, s, s) immer gleich
1
10
. Man
uberlege sich, da die Wahrscheinlichkeit eines Pfades
nur von der Anzahl der schwarzen und roten Kugeln in
dem Pfad und nicht von deren Reihenfolge abhangt.
Aufgabe. Aus einer Urne mit 2 schwarzen und 3 roten
Kugeln werden Kugeln ohne zur ucklegen gezogen. Man
zeichne den Ereignisbaum f ur das folgende Experiment:
1. Es werden solange Kugeln entnommen, bis die
zweite schwarze Kugel gezogen wurde.
2. Es werden solange Kugeln entnommen, bis die Ur-
ne leer ist.
Man berechne die Wahrscheinlichkeiten der einzelnen
Pfade mit der Pfadregel. Wie gro ist in beiden Fallen
die Wahrscheinlichkeit, da in drei Z ugen beide schwar-
zen Kugeln gezogen wurden? ( Feststellung 1.13.5)
Der folgende Satz 1.13.3 besagt, da es zu jedem Ereignisbaum,
genau einen W-Ma auf den Raum der Pfade gibt, so da die be-
dingte Wahrscheinlichkeit
der Menge der Pfade, die durch eine

eine Kante laufen, gegeben
die Menge der Pfade, die durch den

Anfangspunkt der Kante laufen, gerade die vorgegebene

Uber-
gangswahrscheinlichkeit dieser Kante ist.
1.13.3 Satz (Mehrstuge Experimente)
Gegeben sei ein Ereignisbaum mit Wurzel a
0
. Die

Uber-
gangswahrscheinlichkeiten der Kante mit Anfangspunkt
a und Endpunkt b sei p(b[a). Die

Ubergangswahrschein-
lichkeiten der Kanten, die von einem Knoten ausgehen
addieren sich zu 1.
1 ENDLICHE W-R
AUME 27
Es sei der Raum der Endknoten. F ur einen Kno-
ten a sei
a
die Menge der Endknoten, deren Pfad vom
Ursprung zu dem Endknoten uber den Knoten a f uhrt.
Es gibt genau eine W-Ma P auf mit den folgenden
beiden Eigenschaften:
(i) F ur eine Knoten a erster Stufe ist
P(
a
) = p(a[a
0
).
(ii) F ur eine Kante (a, b) des Baumes ist
P(
b
[
a
) = p(b[a).
Beweisskizze. F ur einen Ereignisbaum sei der Grundraum die Men-
ge der Endknoten. Zu jedem Endknoten gibt es genau einen Pfad von
der Wurzel zu diesem Endknoten.
Der allgemeine Fall folgt aus dem ein- und zweistugen Fall durch
vollstandige Induktion uber die Lange l des langsten Pfades des Bau-
mes zu einem Endknoten. Den Induktionsschritt
l l + 1f uhren
wir ab l = 2 durch. Zuvor behandeln wir die dabei benotigten Falle
l = 0, 1, 2:
l = 0: F ur den Zweck des Beweises vereinbaren wir noch, da im
Falle eines trivialen Baumes, d.h. eines Baumes, der nur aus der Wur-
zel besteht und keine Kanten hat, die Wurzel ein Endknoten mit
Wahrscheinlichkeit 1 ist.
l = 1: Hierzu gibt es oensichtlich eine W-Raum (
0
, P
0
), wobei
P
0
0
die

Ubergangswahrscheinlichkeit der betreenden Kante ist.
l = 2: Der Satz 1.12.1 zeigt f ur einen zweistugen Baum die Exi-
stenz und Eindeutigkeit des W-Maes auf den Endknoten.
Induktionsschritt: F ur einen Baum der Lange l + 1 entferne man
die Wurzel und die von der Wurzel ausgehenden Kanten, die wir mit
01
, . . . ,
0n
bezeichnen. Diese bilden einen Baum der Lange 1.
Die bisherigen Knoten erster Stufe sind nun die Wurzeln f ur eine
Familie von n disjunkten Baumen der Lange l, die zusammen die-
selben Endknoten haben, wie der vorgegebene Baum. Der Raum
der Endknoten hat also eine disjunkte Zerlegung
:=
11
.
. . .
.

1n
in die Endknoten der gebildeten Teilbaume. Nach Induktionsannahme
gibt es auf jedem der Raume
1,
ein W-Ma P
1
mit den Eigen-
schaften (i) und (ii).
Nach Satz 1.12.1 gibt es auf genau ein W-Ma mit den Ei-
genschaften (1.12.1) und (1.12.2). Man pr ufe nun nach, da P die
geforderten Eigenschaften (i) und (ii) im Bezug auf den urspr ungli-
chen Baum hat.
Anmerkung. (Bezeichnung der

Ubergangswahrscheinlich-
keiten) Manchmal schreibt man f ur eine Kante (a
1
, a
), deren
Anfang die Tiefe 1 hat, die

Ubergangswahrscheinlichkeit auch
suggestiver in der Form
p(a
[a
0
, . . . , a
1
) := p(a
[a
1
),
wobei (a
0
, . . . , a
1
, a
) der Pfad von der Wurzel zu a
ist.
Man berechnet das W-Ma eines Pfades mit der Pfad-
regel:
1.13.4 Folg. (Pfadregel)
F ur einen Endknoten sei (a
0
, . . . , a
k
= ) der
Pfad vom Ursprung zu . Dann ist
P = p(a
1
[a
0
)p(a
2
[a
1
) p(a
k
[a
k1
).
Ebenso folgt f ur einen inneren Knoten a
k
mit Pfad
(a
0
, . . . , a
k
), da
P(
a
k
) = p(a
1
[a
0
)p(a
2
[a
1
) p(a
k
[a
k1
ist
Beweis. (der Pfadregel) Da
=
k
=1
a
k
ist, folgt aus der Multiplikationsregel ( Satz 1.11.8)
P = P(
a
1
)P(
a
2
[
a
1
) P(
a
k
[
a
k1
)
= p(a
1
[a
0
)p(a
2
[a
1
) p(a
k
[a
k1
).
Anmerkung. (Fortgesetzte mehrstuge Experimente)
Wenn man ein mehrstuges Zufallsexperiment E
0
noch durch
einige weitere anschlieende Zufallsexperimente zu einem Experi-
ment E erganzt, werden sich die Wahrscheinlichkeiten der zuvor
gewonnenen Beobachtungen nicht andern. Sie werden aber in die
Wahrscheinlichkeiten des Gesamtexperimentes E eingehen.
Die folgende Feststellung besagt, wie man aus der zu E gehoren-
den W-Ma P das zu E
0
gehorende W-Ma P
0
berechnet:
Man erhalt die Wahrscheinlichkeit eines Ereignisses
0
des
Zufallsexperiments E
0
, wenn man die Wahrscheinlichkeiten aller
moglichen Ereignisse des umfangreicheren Experimentes E, bei
deren Gewinnung
0
als Zwischenschritt vorkommt, aufaddiert.
Diese

Uberlegung ist oft hilfreich. Man denke an ein Zufalls-
spiel, das beendet wird, sobald einer der Spieler eine vorgegebene
Anzahl k von gewonnenen Spielen erreicht hat. Ein Spielverlauf
besteht aus mindestens k und hochstens 2k 1 Runden. Die For-
meln werden meist ubersichtlicher, wenn man in Gedanken immer
2k 1 Runden spielt und dann die Spielverlaufe zusammenfat,
in denen jeweils ein Spieler mehr Runden gewonnen hat als der
andere.
Formuliert man diese Regel in der Sprache der Ereignisbaume
und Zufallsvariablen, so erhalt man die folgende Feststellung.
1.13.5 Festst. (Fortgesetzte mehrstuge Exp.)
Es sei T
0
ein Ereignisbaum. Man bilde einen groeren
Ereignisbaum T indem man an einige der Endknoten
von T
0
jeweils einen beliebigen Ereignisbaum anf ugt.
Es seien
0
die Endknoten von T
0
und die Endkno-
ten von T. Nach Konstruktion gibt es zu jedem End-
knoten genau einen Endknoten
0

0
derart,
da der Pfad von der Wurzel nach durch
0
geht. Auf
diese Weise erklart man eine Abbildung
X :
0
durch
0
.
Es seien (
0
, P
0
) und (, P) die durch Satz 1.13.3 ein-
deutig bestimmten W-Raume.
Dann ist die Bildverteilung P
X
= P
0
.
1.13.6 Bsp. (Verteilung der Asse beim Skat)
Entgegen der ubliche Weise kann man sich vorstellen,
da jeder der Spieler der Reihe nach zehn Karten der
32 Karten auf einmal bekommt und die verbleibenden
zwei in den
Skatkommen. Bei einem gut gemischten

Kartenspiel ist die Reihenfolge in der die Karten ausge-
geben werden irrelevant. Man vergleiche die Diskussion
zur Herleitung der hypergeometrischen Verteilung (
Abschnitt 1.7).
Wir modellieren dies als 3-stuges Experiment, bei
dem alle moglichen Zuteilungen von Karten mit der glei-
chen Anzahl von Assen f ur den jeweiligen Spieler zu ei-
nem Knoten zusammengefat sind, d.h. wir unterschei-
den nur zwei Typen von Karten: Asse und nicht-Asse.
Man kann den Baum verschieden weit ausf uhren.
1 ENDLICHE W-R
AUME 28
Sobald die vier Asse verteilt, ist ein Endknoten er-
reicht. Die Endknoten haben unterschiedliche Tiefe.
Es gibt also 5 Knoten erster Stufe f ur die Falle, da der erste
Spieler k
1
= 0, . . . 4 Asse erhalten hat. Von dem Knoten 0 zweigen
f unf Kanten ab, vom nachsten vier Kanten usw. Der Knoten 4 ist
bereits ein Endknoten. Und so fort.
Man zeichnet f ur jeden der drei Spieler die auf
Grund der vorangehenden Verteilung der Asse verblei-
benden Moglichkeiten ein. Alle Endknoten haben die
Tiefe drei.
D.h., von dem Knoten 4 erster Stufe gibt es genau eine Kante
zu dem Knoten (4, 0) und von dort eine Kante zu einem Knoten
(4, 0, 0). Die

Ubergangswahrscheinlichkeiten f ur diese Kanten sind
p(0[4) = 1 und p(0[4, 0) = 1.
Man zeichnet f ur jeden der drei Spieler je f unf Kno-
ten f ur die Falle k
1
= 0, . . . 4 Asse. Auf die Weise ent-
steht ein Produktbaum.
Auf Grund der bereits vergebenen Asse erhalten dann die unmogli-
chen Kanten die

Ubergangswahrscheinlichkeit 0.
Nach Feststellung 1.13.5 f uhren alle Moglichkeiten
zum gleichen Ergebnis.
Die

Ubergangswahrscheinlichkeit f ur die Anzahl Asse
ist hypergeometrisch verteilt, wobei aber die Parameter
von dem vorangehenden Pfad abhangen.
Es sei die Menge der moglichen Pfade dieses Baumes
und X
i
: 0, . . . , 4 die Anzahl der Asse f ur den i-
ten Spieler. F ur die

Ubergangswahrscheinlichkeiten folgt
dann
p(X
1
= k
1
) = H
32,4,10
(k
1
),
p(X
2
= k
2
[X
1
= k
1
) = H
22,4k
1
,10
(k
2
),
p(X
3
= k
3
[X
1
= k
1
, X
2
= k
2
) = H
12,4k
1
k
2
,10
(k
3
),
Oensichtlich sind die Regeln f ur einen Ereignisbaum
erf ullt. Es sei P die Wahrscheinlichkeitsverteilung auf
den Pfaden zu den Endknoten.
F ur die Wahrscheinlichkeit des Pfades (1, 1, 1), da
jeder Spieler genau ein Ass bekommt, erhalt man mit
der Pfadregel ( Folgerung 1.13.4)
P(1, 1, 1) =
_
4
1
__
28
9
_
_
32
10
_

_
3
1
__
19
9
_
_
22
10
_

_
2
1
__
10
9
_
_
12
10
_
Die meisten Fakultaten k urzen sich weg:
= 10
3
4!2!
32 31 30 29
0, 056.
Bsp. (Produktbaum) Das Produkt
1
. . .
n
von endlichen
Mengen kann man auch als Baum ansehen:
Mit dem leeren Tupel () bezeichne man die Wurzel, Die Knoten
des Baumes sind die k-Tupel (x
1
, . . . , x
k
)
1
. . .
k
mit k =
1, . . . , n. Schreibt man Pfade
_
(), (x
1
), (x
1
, x
2
), . . . , (x
1
, . . . , x
k
)
_
vereinfacht als (x
1
, . . . , x
k
) so kann man die k-Tupel auch als Pfade
lesen. Die n-Tupel sind die Endknoten oder die maximalen Pfade
des Baumes.
Wir formulieren den Satz 1.13.3 noch einmal f ur den wichtigen
Spezialfall der Produktbaume:
1.13.7 Folg. (Produktbaume)
Gegeben sei ein n-stuges Experiment, (n 2). Das -
te Teilexperiment habe die endliche Ergebnismenge
,
( = 1, . . . , n). Man schreibe den Ereignisbaum als Pro-
duktbaum
:=
1

n
und bezeichne die Ergebnisse des -ten Experiments mit
X
; d.h. X
ist die -te Projektion pr
.
Gegeben seien f ur jede Kante eines Pfades
(x
, x
1
, . . . , x
1
) die

Ubergangswahrscheinlichkeit
p(x
[x
1
, . . . , x
1
), so da 0 p(x
[x
1
, . . . , x
1
) 1
und
p(x[x
1
, . . . , x
1
) = 1
ist. Im Falle = 1 schreiben wir die

Uergangswahr-
scheinlichkeiten als p(x
1
) statt p(x
1
[()).
Dann gibt es genau ein W-Ma P auf mit folgenden
Eigenschaften:
(i) F ur x
1

1
gilt
PX
1
= x
1
= P(x
1

2

n
)
= p(x
1
).
(ii) F ur (x
1
, . . . , x
)
1
. . .
, ( = 2, . . . , n),
gilt
3
P
_
X
= x
[ X
1
= x
1
, . . . , X
1
= x
1
_
= P
_
1
j=1
j
x
j=+1
j
[ (x
1
. . . , x
1
)
n
j=+1
j
_
= p(x
[x
1
, . . . , x
1
).
Dieses Ma wird mit der Pfadregel berechnet:
P = p(x
1
)p(x
2
[x
2
) p(x
n
[ x
1
, . . . , x
n1
)
f ur = (x
1
, . . . , x
n
) .
3
Man schreibt kurz
P(X = x [ Y = y) := P(X = x [ Y = y).
1 ENDLICHE W-R
AUME 29
1.14 Polyas Urnenmodell
Anmerkung. (Polyas Urnenmodelle) Polya dachte bei dem
folgenden Beispiel 1.14.1 an die Ausbreitung einer Infektion. Er
wahlte ein Urnenmodell, bei dem die Kugeln die inzierten bzw.
die immunisierten Individuen innerhalb einer Population reprasen-
tieren. Die Anzahlen der inzierten und der immunisierten wach-
sen nach einer Zufallsregel. Man kann aber auch an die Modellie-
rung von
Seilschaftendenken.
Das Modell kann man variieren, indem man statt nur einer
zusatzlichen Kugel mehrere Kugeln der gleichen Farbe zur ucklegt
oder auch wegnimmt. Die so entstehenden Verteilungen f ur die An-
zahl der gezogenen schwarzen Kugeln heien Polya-Verteilungen.
Spezialfalle sind die Binomialverteilung (keine zusatzliche Kugel)
und die hypergeometrische Verteilung (kein Zur ucklegen).
Wir untersuchen als Beispiel den Fall, da jeweils die gezogene
Kugel und eine zusatzliche Kugel der gleichen Farbe zur uckgelegt
wird.
1.14.1 Bsp. (Polyas Urnenmodell)
Einer Urne enthalt K schwarze und N K rote Ku-
geln. Es wird eine Kugel gezogen und zusammen mit
einer weiteren neuen Kugel derselben Farbe in die Urne
zur uckgelegt und so fort. Die Anzahl der Kugeln wachst
also nach jedem Zug und die Zusammensetzung der Ur-
ne andert sich zufallig.
1. Bei einer Zugfolge der Lange n seien k schwarze und
nk rote Kugeln gezogen worden. Nach dem Zur uckle-
gen enthalt die Urne dann N +n Kugeln, davon sind
K +k schwarz und N +n (K +k) rot.
woraus sich die

Ubergangswahrscheinlichkeiten nach die-
ser Zugfolge f ur den nachsten Zug ergeben:
Die Wahrscheinlichkeit nun eine schwarze Kugel zu
ziehen ist
K+k
N+n
.
Die Wahrscheinlichkeit nun eine rote Kugel zu zie-
hen ist
N+n(K+k)
N+n
.
F uhrt man diese Zufallsexperiment n-mal durch, so
erhalt einen Ereignisbaum und somit ein W-Ma P
n
auf
dem Raum
n
der Endknoten. Nimmt man statt der
Endknoten die zugehorigen Pfade, so ist in diesem Fall
n
= s, r
n
.
2. Da die

Ubergangswahrscheinlichkeiten in jedem
Schritt nicht von der Reihenfolge abhangen, in der rote
oder schwarze Kugeln zuvor gezogen wurden, sondern
nur von der Anzahl der bisher gezogenen schwarzen Ku-
geln, bieten sich die folgende Bezeichnungen an:
Z
i
:=
_
1 i-te Kugel schwarz,
0 i-te Kugel rot.
Die Anzahl der bis zum j-ten Schritt gezogenen schwar-
zen Kugeln ist
X
j
:=
j
i=1
Z
i
.
3. Die Wahrscheinlichkeit eines Pfades (z
1
, . . . , z
n
)
n
mit X(z
1
, . . . , z
n
) =
n
i=1
Z
i
(z
i
) = k ist:
P
n
(Z
1
= z
1
, . . . , Z
n
= z
n
) ()
=
K(K+1)(K+k1)(NK)(NK+1)(NK+(nk)1)
N(N+1)(N+n1)
=
(K +k 1)
k
((N K) + (n k) 1)
nk
(N +n 1)
n
Die Gleichung () folgt aus der Pfadregel ( Folgerung
1.13.4) durch Induktion uber n.
4. Die Wahrscheinlichkeit, da nach n Schritten k
schwarze Kugeln gezogen wurden ist
P
n
X
n
= k ()
=
(z
1
,...,z
n
)s,r]
n
X(z
1
,...,z
n
)=k
PZ
1
= z
1
, . . . , Z
n
= z
n
=
_
n
k
_
(K+k1)
k
((NK)+(nk)1)
nk
(N+n1)
n
=
_
K+k1
k
__
(NK)+(nk)1
nk
_
/
_
N+n1
n
_
Man kann diese Gleichung () auch folgendermaen deuten: In N
Kasten, von denen K schwarz sind, werden n nicht unterscheidbare
Kugeln mit Wiederholung gelegt. Auf dem Raum der Belegungen
wahle man die Gleichverteilung. Die Zufallsvariable X
n
gibt an,
wieviele Kugeln in den schwarzen Kasten liegen.
5. Im Falle N = 2 und K = 1 ist
P
n
X
n
= k =
1
(n + 1)
f ur k = 0, . . . , n.
Die Zufallsvariable X
n
beschreibt in diesem Fall ein kom-
plizierte Methode, die Gleichverteilung zu erzeugen.
1 ENDLICHE W-R
AUME 30
1.15 Erwartungswert
1.15.1 Bsp.
Ihnen wird folgendes Spiel angeboten. Sie d urfen eine
M unze vier mal werfen. Wenn in jedem der vier W urfe
Zahl fallt, gewinnen Sie 20 Euro. Erscheint in genau
drei W urfen Zahl, so erhalten Sie 10 Euro. Sie m ussen
aber bei jedem Spiel einen Einsatz von 4 Euro zahlen.
W urden Sie zustimmen, dieses Spiel einen ganzen Abend
zu spielen?
Wenn Sie darauf eingehen, werden Sie ab und zu mal 6 Euro oder
sogar 16 Euro gewinnen und in vielen anderen Runden 4 Euro ver-
lieren. Die Frage lautet also, welchen durchschnittlichen Gewinn
oder Verlust Sie bei den vielen Runden, die im Laufe des Abend
gespielt werden, pro Runde zu erwarten haben.
Ob Sie in einer Runde etwas gewinnen oder verlieren,
hangt vom Ausgang eines Zufallsexperiments ab. Wenn
man unterstellt, da es sich eine faire M unze handelt,
wird man das Zufallsexperiment durch den Ereignis-
raum := 1, 0
4
mit der Laplace-Wahrscheinlichkeit
beschreiben. Dabei stehe 1 f ur Zahl und 0 f ur Kopf. Die
Zufallsvariable X : R mit
X() :=
_
_
4 f ur

4
i=1
i
< 3,
6 f ur

4
i=1
i
= 3.
16 f ur

4
i=1
i
= 4
gibt an, welchen Gewinn oder Verlust Sie in einem Spiel
mit dem Ergebnis = (
1
, . . . ,
4
) 1, 0
4
machen.
Die drei Falle, die eintreten konnen, haben die Wahr-
scheinlichkeiten
PX = k :=
_
_
11
16
f ur k = 4
4
16
f ur k = 6
1
16
f ur k = 16.
Bei einer groen Anzahl n von Spielen
erwartet man,
da die relativen Haugkeiten in der die Verluste oder
Gewinne eintreten, ungefahr gleich den angegebenen
Wahrscheinlichkeiten sein werden:
R
n
X = 4
11
16
,
R
n
X = 6
4
16
,
R
n
X = 16
1
16
.
Die Bilanz bei n Spielen ist also voraussichtlich
n
_
4R
n
X = 4+6R
n
X = 6+16R
n
X = 16
_
n
_
4
11
16
+ 6
4
16
+ 16
1
16
_
= n
1
4
.
Bei dem Spiel wird man also im Schnitt
1
4
Euro pro
Runde verlieren.
Entsprechende

Uberlegungen f ur eine beliebige reellwertige Zu-
fallsvariable f uhren auf die folgende Denition:
1.15.2 Def. (Erwartungswert)
Es seien (, P) ein endlicher W-Raum und X : R
eine reellwertige Zufallsvariable mit der endlichen Wer-
temenge X() R Dann heit die Zahl
E(X) :=
xX()
x PX = x
der Erwartungswert der Zufallsvariablen X.
Zur Klarstellung, welches W-Ma verwendet wird,
schreibt man auch E
P
(X).
1.15.3 Festst. (Formeln: Erwartungswert)
Es seien (, P) ein endlicher W-Raum und X, Y : R
reellwertige Zufallsvariable.
(i) Der Erwartungswert einer Zufallsvariablen hangt
nur von ihrer Verteilung ab:
E(X) :=
xX()
x P
X
x.
Man spricht deshalb auch von dem Erwartungswert eines
W-Maes auf einer endlichen Teilmenge von R.
(ii) Haug ist es praktisch, den Erwartungswert als
Summe uber die Elemente von auszudr ucken:
E(X) =
X() P.
Anmerkung. Die Formel Feststellung 1.15.3 (i) erlaubt es, bei
der Berechnung des Erwartungswertes die Zufallsvariable durch
eine andere mit der gleichen Verteilung zu ersetzen.
Anmerkung. (geordneter Vektorraum der ZVn) Die reellen
Zufallsvariablen X, Y uber einem W-Raum (, P) bilden einen
geordneten reellen Vektorraum mit der Addition
(X +Y )() := X() +Y (),
und der Multiplikation
(aX)() := aX() f ur a R.
Die Ordnung X Y bedeutet, da punktweise X() Y () f ur
alle ist.
1.15.4 Festst. (Erwartungswert linear, monoton)
Es seien (, P) ein endlicher W-Raum und X, Y : R
reellwertige Zufallsvariable.
(i) Die Bildung des Erwartungswertes ist linear:
E(X +Y ) = E(X) +E(Y )
E(X) = E(X) f ur R.
(ii) Die Bildung des Erwartungswertes ist monoton
wachsend:
aus X Y folgt E(X) E(Y ).
(iii) Der Erwartungswert einer Indikatorfunktion ist
gleich der Wahrscheinlichkeit des zugehorigen Ereignis-
ses:
E(1l
A
) = P(A) f ur A 2
.
1.15.5 Bsp. (Serien)
Es sei (Z
0
, Z
1
, . . . , Z
n
) eine Tupel von n + 1-fach
Bernoulli-verteilten Zufallsvariablen mit Parameter p
[0, 1] Dann ist jeder der Zufallsvariablen
S
i
:= 1l
Z
i
,=Z
i1
]
f ur i = 1, . . . , n
1 ENDLICHE W-R
AUME 31
Bernoulli-verteilt mit Parameter 2p(1 p). Um dies
einzusehen. bilden wir die gemeinsame Verteilung von
S
i1
, S
i
):
Z
i1
Z
i
1 0
1 p
2
p(1 p)
0 (1 p)p (1 p)
2
Also ist PS
i
= 1 = 2p(1p). Wenn S
i
= 1 ist, so wird
an der i-ten Stelle eine neue Serie von gleichen Werten
eingeleitet. Die Zufallsvariable
Y :=
n
i=1
S
i
beschreibt die Anzahl der Serien in einem Ergebnistupel
(z
0
, z
1
, . . . , z
n
), wobei aber die von z
0
eingeleitete Serie
nicht mitzahlt. Die Anzahl der Serien in dem Tupel ist
X := Y +1 und der Erwartungswert f ur die Anzahl von
Serien ist ( Feststellung 1.15.4)
E(X) = E(1) +E(Y ) = 1 +n 2p(1 p).
Im Falle eines n + 1-maligen fairen M unzwurf ist die
erwartete Anzahl von Serien gleich 1 +
n
2
.
Anmerkung. Da der Erwartungswert einer Zufallsvariablen X
nur von der Verteilung P
X
abhangt, erhalt man aus Feststellung
1.6.4 die Transformationsformel f ur den Erwartungswert:
1.15.6 Festst. (Transformationsformel)
Gegeben seien ein endlicher W-Raum (, P), eine end-
liche Menge
t
und eine Abbildung Y :
t
. Man
versehe
t
mit der Bildverteilung P
Y
.
Wenn f ur die Zufallsvariablen
X : R und Z :
t
R
die Beziehung X = Z Y besteht, dann gilt
E
P
(X) = E
P
Y
(Z).
Man kann dies Ergebnis folgendermaen schreiben (Feststellung
1.6.4)
E
P
(X) =
xX()
xP
X
x =
zZ(
)
z(P
Y
)
Z
z = E
P
Y
(Z).
1.15.7 Folg. (Funktionen von ZVn)
eine reellwertige Zufallsvariable. F ur eine reelle Funktion
f : X() R gilt
E(f(X)) =
xX()
f(x)PX = x.
1.15.8 Bsp. (Erwartungswerte)
eine reellwertige Zufallsvariable.
1. Es sei X Laplace-verteilt, n := [[, und =
1
, . . . ,
n
. Dann gilt
E(X) =
1
n
n
=1
X(
).
Der Erwartungswert einer Laplace-verteilten Zufallsva-
riablen X ist das arithmetische Mittel der Werte von
X.
2. Es sei X Bernoulli-verteilt mit dem Parameter
p. Dann gilt
E(X) = 1 P
X
1 + 0 P0 = 1 p + 0 (1 p) = p.
3. Es sei X binomialverteilt mit den Parametern n
und p. Dann ist
E(X) = np.
Beweis. F ur den Beweis benutzen wir das Standardmodell eines
Bernoulli-Experimentes ( Bezeichnung 1.8.8). F ur einen rechneri-
schen Beweis Beispiel 1.15.9.
Es sei := 1, 0 mit W-Ma P1 := p, P0 = 1 p. Auf
(
n
, P
n
) gibt die Zufallsvariablen
X() =
n
i=1
pr
i
() =
n
i=1
i
die Anzahl der Einsen in dem n-Tupel = (
1
, . . . ,
n
)
n
an.
Das Tupel (pr
1
, . . . , pr
n
) ist n-fach Bernoulli-verteilt mit dem Pa-
rameter p und folglich ist die Summe X binomialverteilt mit dem
Parametern n und p ( Beispiel 1.8.3). Nach Feststellung 1.15.4
folgt nun
E(X) =
n
i=1
E(pr
i
) = np.
4. Es sei X hypergeometrisch verteilt mit den Pa-
rametern N, K und n. Dann gilt
E(X) = n
K
N
.
Beweis. F ur den Beweis benutzen wir ein Urnenmodell mit geordneten
Stichproben vom Umfang n ohne Wiederholung ( Beispiel 1.7.5).
F ur einen rechnerischen Beweis Beispiel 1.15.9.
Eine Urne mit N Kugeln enthalte K schwarze und N K ro-
te Kugeln. Auf dem Raum
ord
der geordneten Stichproben =
(
1
, . . . ,
n
) ohne Wiederholung vom Umfang n aus den N Kugeln
bilde man f ur (i = 1, . . . , n) die Zufallsvariablen
V
i
:
ord
0, 1,
V
i
:
_
1 wenn
i
schwarz,
0 wenn
i
rot.
Jede der Zufallsvariablen V
i
ist Bernoulli-verteilt mit Parameter p =
K
N
. Die Zufallsvariable ( Beispiel 1.7.1 Punkt 3)
X = X
ord
:=
n
i=1
V
i
gibt die Anzahl der schwarzen Kugeln in der geordneten Stichpro-
be an. X ist hypergeometrisch verteilt mit den Parametern N, K, n.
Nach Feststellung 1.15.4 folgt nun
E(X) =
n
i=1
E(V
i
) = np.
Anmerkung. Man beachte, das bei gleichen Parametern n und
p =
K
N
die Binomialverteilung und die hypergeometrische Vertei-
lung den gleichen Erwartungswert haben.
Der Erwartungswert der schwarzen Kugeln in einer Stichprobe
vom Umfang n aus einer Urne mit K schwarzen und N K roten
Kugeln ist in den beiden Fallen
Ziehen mit Zur ucklegen und
Ziehen ohne Zur ucklegen gleich n

K
N
.
1 ENDLICHE W-R
AUME 32
1.15.9 Bsp. Man kann den Erwartungswert der Bino-
mialverteilung und der hypergeometrischen Verteilung
auch direkt aus den Formeln f ur die Verteilung berech-
nen:
1. Es sei X binomialverteilt mit den Parametern n, p:
PX = k) = B
n,p
(k) =
_
n
k
_
p
k
(1 p)
nk
.
Dann folgt
E(X) =
n
k=0
k
_
n
k
_
p
k
(1 p)
nk
= np
n
k=1
_
n1
k1
_
p
k1
(1 p)
(n1)(k1)
= np
n1
=0
_
n1
_
p
(1 p)
(n1)
= np
_
p + (1 p)
_
n1
= np.
2. Es sei X hypergeometrisch verteilt mit den Para-
metern N, K, n. Aus
PX = k = H
N.K,n
(k) =
_
N
n
_
1
_
K
k
__
NK
nk
_
folgt
E(X) =
_
N
n
_
1
n
k=0
k
_
K
k
__
NK
nk
_
=
_
N
n
_
1
K
n
k=1
_
K1
k1
__
NK
nk
_
=
_
N
n
_
1
K
n1
k=0
_
K1
__
(N1)(K1)
n1
_
=
_
N
n
_
1
K
_
N1
n1
_
= n
K
N
.
Hierbei wurde die folgende Formel f ur Binomialkoezi-
enten benutzt
_
N1
n1
_
1
n1
=0
_
K1
__
(N1)(K1)
(n1)
_
=
n1
=0
H
N1.K1,n1
() = 1.
1.15.10 Bem. (partielle Summation)
F ur eine Zufallsvariable X : (, P) N
0
ist die folgende
Summationsmethode oft hilfreich.
Mit m := max(X() gilt
E(X) =
n
=1
PX
Beweis.
E(X) =
m
=0
PX =
=
m
=1
=1
PX = ()
=
m
=1
m
=
PX = ()
=
m
=1
PX
Fur die Umsummierung von () zu () schaue man sich das folgende
Bild an:
PX = 1
PX = 2 PX = 2
PX = 3 PX = 3 PX = 3
.
.
.
PX = m PX = m PX = m . . . PX = m
In () wird uber die Zeilen summiert und in () uber die Spalten.
1 ENDLICHE W-R
AUME 33
1.16 Bedingte Erwartung
1.16.1 Def. (bedingte Erwartung)
Es seien (, P) ein W-Raum, A 2
und X : R.
Unter der bedingten Erwartung von X gegeben A ver-
steht man den Erwartungswert der Einschrankung X[A
von X auf die Menge A in bezug auf das bedingte W-
Ma P([A).
Man bezeichnet den bedingten Erwartungswert von X
gegeben A mit
E(X[A) :=
xX(A)
x P(X = x[A) (1.16.1)
und wenn P(A) > 0 ist:
=
1
P(A)
A
X()P. (1.16.2)
(1.16.3)
Da die bedingte Wahrscheinlichkeit P(.[A) auf die Menge A kon-
zentriert ist, gilt auch
P(X[A) :=
xX()
x P(X = x[A). (1.16.4)
Anmerkung. Analog zur Formel von der totalen Wahrschein-
lichkeit ( Satz 1.11.6) gilt:
1.16.2 Satz (totale Erwartungswert)
= B
1
.
. . .
.
B
n
eine Zerlegung von in disjunkte Teilmengen B
mit P(B
) > 0. F ur eine reelle Zufallsvariable X :

R gilt dann
E(X) =
n
=1
E(X[B
) P(B
)
Anmerkung. Zur Vereinfachung vereinbaren wir die folgende
Konvention: Damit die Formel vom totalen Erwartungswert all-
gemein gilt, setze man im Fall P(B) = 0 auch E(X[B) = 0. Dies
pat zu der Vereinbarung Denition 1.11.3 (iii).
Man beachte nur, da im Fall P(B) = 0 weder P(.[B) 0 ein
W-Ma ist noch E(X[B) = 0 ein
Erwartungswert ist.
Eine andere Moglichkeit ist es, in Fall P(B) = 0 den Aus-
druck E(X[B) undeniert zu lassen, und zu vereinbaren, da dann
E(X[B)P(B) = 0 sein soll. Da im Falle endlicher und auch dis-
kreter W-Raume ein Ereignis B mit P(B) = 0 mit Sicherheit
nicht eintritt, ist es unwichtig, wie man in diesem Fall das Symbol
E(X[B) interpretiert. Wir kommen im Fall stetiger Verteilungen
auf diese Frage wieder zur uck.
1.16.3 Bem.
, P(A) > 0 und

X : R. Sind X und 1l
A
unabhangig, so gilt
E(X[A) = E(X)
1.16.4 Bez. (bedingte Erwartung E(X[Y ))
Es seien (, P) ein endlicher W-Raum, M eine endliche
Menge und
X : (, P) R und Y : (, P) M
Zufallsvariable. Man deniert die bedingte Erwartung
von X gegeben Y als
E(X[Y ) : (M, P
Y
) R,
mit
E(X[Y ) : y
_
E(X [ Y = y) falls PY = y > 0,
0 sonst
f ur y M. Man beachte, da diese bedingte Erwartung
eine reelle Zufallsvariable ist.
Bsp. (bedingte Erwartung bzgl. einer ZV) X gebe das Ge-
wicht eines B urgers abgerundet in kg an und Y die Korpergroe
abgerundet in cm. Man versehe die Menge der B urger mit der
Laplace-Verteilung P. Dann ist
E(X) das Durchschnittsgewicht der Bevolkerung.
E(X [ Y = y) das Durchschnittsgewicht der B urger, die y cm
gro sind.
E(X[Y ) das Durchschnittsgewicht als Funktion der Groe.
P
Y
beschreibt den Anteil der B urger mit gegebener Korper-
groe an der Bevolkerung.
Nun ist anschaulich klar, da der Erwartungswert von E(X[Y )
bez uglich P
Y
gleich dem Durchschnittsgewicht E(X) der Bevolke-
rung ist.
Wir wollen die obige anschauliche

Uberlegung in eine allge-
meing ultige Aussage uberf uhren ( Feststellung 1.16.5).
Anmerkung. 1. Mit der Vereinbarung E(X[B) = 0, falls P(B) =
0 ist, konnen wir die obige Denition k urzer schreiben:
E(X[Y ) : y E(X [ Y = y) f ur y M.
2. Ist Y : (, P) M eine Zufallsvariable, so bildet die Familie
Y = y, (y M), eine Zerlegung von , bei der jedoch PY =
y = 0 moglich ist. Wenn Y nicht surjektiv ist, sind auch einige
der Mengen Y = y leer. Auch das stort nicht weiter.
Aus dem Satz von der totalen Erwartung folgt nun:
1.16.5 Festst. (Erwartungswert von E(X[Y ))
Es seien (, P) ein endlicher W-Raum, M eine endliche
Menge und
X : (, P) R und Y : (, P) M
Zufallsvariable. F ur den Erwartungswert der bedingten
Erwartung E(X[Y ) gilt dann
E(E(X[Y )) = E(X).
1.16.6 Bem. (E(X[Y ) f ur X, Y unabhangig)
und X, Y : R.
Sind X und Y unabhangig, so gilt
E(X[Y ) = E(X)1l
y]PY =y]>0]
P(E(X[Y ) E(X)) = 1
Da es auf die Werte auf unmoglichen Ereignissen nicht ankommt,
setzt man f ur unabhangige X, Y zur Vereinfachung E(X[Y ) =
E(X).
Anmerkung. (bedingte Verteilung) Zur Berechnung der Be-
dingten Erwartung E(X[A) ist es oft n utzlich, zuerst die bedingte
Verteilung
x P(X = x [ A)
von X gegeben A zu berechnen.
Zur Berechnung der bedingten Erwartung E(X[Y ) benotigt
man zuerst die bedingte Verteilung
x P(X = x [ Y = y)
von X gegeben Y = y.
1 ENDLICHE W-R
AUME 34
1.16.7 Bez. (bedingte Verteilung)
Es seien (, P) ein endlicher W-Raum und X : R.
1. F ur A 2
nennt man
2
X()
B P(X B [ A)
die bedingte Verteilung von X gegeben A. F ur P(A) > 0
ist die bedingte Verteilung ein W-Ma.
Man schreibt auch P
X|A
(B) := P(X B [ A).
2. F ur eine Zufallsvariable Y M und C 2
M
heit
2
X()
B P(X B [ Y C)
die bedingte Verteilung von X gegeben Y C.
Man schreibt auch P
X|Y
(B[C) := P(X B [ Y C).
1.16.8 Bsp.
Es seien X, Y unabhangige, binomialverteilte Zufallsva-
riable mit den Parametern K, p bzw. L, p und 0 < p < 1.
Dann gilt mit N := K +L
(i) Die bedingte Verteilung von X gegeben X+Y = n
ist die hypergeometrische Verteilung mit den Parametern
N, K, n:
P(X [ X +Y = n) = H
N,K,n
f ur n = 0, . . . , N.
(ii) Der bedingte Erwartung von X gegeben X + Y
ist
E(X[X +Y ) : n n
K
N
f ur n = 0, . . . , N.
Beweis. Wir betrachten N-fach Bernoulli-verteilte Zufalls-
variable Z
1
, . . . , Z
N
, wobei N := K+L ist. D.h., wir haben
N unabhangige Bernoulli-Experimente mit der gleichen Er-
folgswahrscheinlichkeit 0 < p < 1. Die Zufallsvariablen
X :=
K
i=1
Z
i
, Y :=
N
i=K+1
Z
i
.
geben die Anzahl der Erfolge unter den ersten K bzw. unter
den restlichen L Experimenten an. X+Y ist die Gesamtan-
zahl der Erfolge. Nach Bezeichnung 1.5.1 haben X und Y
die angegebene Verteilung.
Zunachst wollen wir das Ergebnis, da X[X +Y = n hypergeo-
metrisch verteilt ist, anschaulich interpretieren. Dabei sieht man
auch, warum der Erfolgsparameter p nicht in das Ergebnis eingeht.
Es mu nur 0 < p < 1 gelten.
Dies folgt aber aus dem obigen Modell: Gegeben sind nun X +
Y = n Erfolge, die sich in X Erfolge in den ersten K Experimenten
und Y Erfolge unter den restlichen L = N K Experimenten
aufteilen. Eine solche Aufteilung wird durch die Einschrankung
X[X +Y = n beschrieben.
Da es sich um unabhangige Bernoulli-Experimente mit glei-
cher Erfolgswahrscheinlichkeit handelt, sind alle diese Aufteilun-
gen gleichwahrscheinlich. Jede Aufteilung der n Erfolge entspricht
also einer Stichprobe vom Umfang n aus einer Urne mit K schwar-
zen Kugeln und N K roten Kugeln ( Beispiel 1.7.1). Folglich
sind die Aufteilungen hypergeometrisch verteilt mit den Parame-
tern N, K, n.
Wen diese Argumentation nicht ganz uberzeugt, der rechnet mit
den Denitionen:
Da die Z
1
, . . . , Z
N
N-fach Bernoulli-verteilt mit dem Pa-
rameter p sind, ist
X binomialverteilt mit den Parametern K, p,
Y binomialverteilt mit den Parametern L, p,
X +Y binomialverteilt mit den Parametern N, p.
Wir berechnen nun die bedingte Wahrscheinlichkeit
P(X = k [ X +Y = n) nach Denition 1.11.3:
P(X = k [ X +Y = n) =
PX = k, X +Y = n
PX +Y = n
=
PX = k, Y = n k
PX +Y = n
=
PX = k PY = n k
PX +Y = n
=
B
K,p
kB
NK,p
n k
B
N,p
n
=
_
K
k
_
p
k
(1 p)
Kk
_
NK
nk
_
p
nk
(1 p)
(NK)(nk)
_
N
n
_
p
n
(1 p)
Nn
=
_
K
k
__
NK
nk
_
_
N
n
_
= H
N,K,n
k.
Nach Beispiel 1.15.8 (4) ist
E(X [ X +Y )(n) := E(X [ X +Y = n) = n
K
N
Zur

Ubung berechnen wir noch
E(E(X [ X +Y )) =
N
n=0
E(X [ X +Y = n)PX +Y = n
=
K
N
N
n=0
nB
N,p
n
=
K
N
Np = Kp = E(X),
wie es nach Feststellung 1.16.5 sein mu.
Aufgabe Es seien (X
1
, X
2
, X
3
) multinomialverteilt
mit den Parametern N; p
1
, p
2
, p
3
, wobei p
1
, p
2
, p
3

(0, 1) und p
1
+p
2
+p
3
= 1 ist ( Beispiel 1.5.3)
Man zeige: X
1
gegeben X
2
= n ist binomialverteilt
mit den Parametern N n,
p
1
1p
2
und berechne die be-
dingte Erwartung E(X
1
[ X
2
= n).
Man gebe eine anschauliche Erklarung f ur das Resul-
tat.
1.16.9 Bsp. (Zufallige Anzahl der Summanden)
Es seien X
1
, . . . , X
k
: (, P) R Zufallsvariable mit
gleichem Erwartungswert
E(X
i
) = E(X
j
) f ur (i, j = 1, . . . , k)
und N : (, P) 1, . . . , N eine von (X
1
, . . . , X
k
)
unabhangige ganzzahlige Zufallsvariable.
Man bilde die Summe
S := X
1
+ +X
N
mit einer zufalligen Anzahl von Summanden. Dann gilt
E(S) = E(X
1
) E(N).
1 ENDLICHE W-R
AUME 35
Beweis. Da X := (X
1
, . . . , X
k
) und N unabhangig sind, sind f ur
festes n 1, . . . , k auch
S
n
:= X
1
+ +X
n
und N unabhangig ( Satz 1.9.5). Also ist
P(S = s [ N = n) = P(S
n
= s [ N = n)
= PS
n
= s.
Wir berechnen nun f ur n 1, . . . , k die bedingte Erwartung
E(S [ N = n) =
s()
sP(S = s [ N = n)
=
s()
sPS
n
= s
= E(S
n
) = E(X
1
+ +X
n
)
= E(X
1
) + +E(X
n
)
und da die E(X
1
) = = E(X
N
) ist
= E(X
1
) n.
Es gilt also E(S[N) = E(X
1
)N. Nach Feststellung 1.16.5 ist
E(S) = E(E(S[N)) = E(X
1
) E(N).
1.17 Erwartungswert des Produktes
1.17.1 Satz (Produkt zweier unabhangiger ZV.)
Gegeben sei ein endlicher W-Raum (, P). Sind X, Y :
R unabhangige Zufallsvariable, so gilt
E(XY ) = E(X) E(Y )
Beweis. Man setze M := X(), N := Y (). Man zerlege den Raum
mit Hilfe der Zufallsvariablen (X, Y )
=
_
(x,y)MN
(X, Y ) = (x, y)
Auf jeder der Mengen (X, Y ) = (x, y) ist das Produkt XY = xy
konstant und folglich E(XY [ (X, Y ) = (x, y)) = xy. Aus der Formel
f ur den totalen Erwartungswert folgt nun
E(XY ) =
(x,y)MN
E(XY [ (X, Y ) = (x, y))P(X, Y ) = (x, y)
=
(x,y)MN
xyP(X, Y ) = (x, y)
und da X, Y unabhangig sind gilt nach Satz 1.9.3 (c)
=
(x,y)MN
xyPX = x PY = y
=
xM
yN
xPX = x yPY = y
=
xM
xPX = x
yN
yPY = y
= E(X) E(Y ).
1.17.2 Folg. (Produkt unabhangiger ZVn)
Gegeben sei ein endlicher W-Raum (, P). Sind X
i
:
R, (i = 1, . . . , n) unabhangige Zufallsvariable, so
gilt
E(
n
i=1
) =
n
i=1
E(X
i
).
Anmerkung. Man kann die Aussage uber den Erwartungswert
des Produktes zweier Zufallsvariabler auch folgendermaen for-
mulieren:
1.17.3 Bem. (bed. Erwart.-wert des Produktes)
Gegeben sei ein endlicher W-Raum (, P) F ur X, Y :
R gilt
E(XY [ Y ) = E(X[Y ) Y.
F ur unabhangige X, Y , ist P(E(X[Y ) E(X)) = 1 (
Bemerkung 1.16.6) und folglich E(E(X[Y )) = E(X).
Mit Feststellung 1.16.5 folgt nun
E(XY ) = E(E(XY [ Y )) = E(X) E(Y ).
Anmerkung. Die Menge der reellen Zufallsvariablen auf einem
endlichen W-Raum (, P) bilden einen reellen Vektorraum V der
Dimension n = [[. Ist =
1
, . . . ,
n
, so bilden die Indikator-
funktionen
1l
{
1
}
, . . . , 1l
{
n
}
Eine Basis von V. Man jede reelle Zufallsvariable Xin der Form
X =
n
=1
X(
)1l
{
}
schreiben. Bezeichnet man die Werte x
:= X(
) so gilt X =
n
=1
x
1l
{
}
. Das Tupel (x
)
n
=1
sind die Koordinaten von X
V.
1 ENDLICHE W-R
AUME 36
Auf dem Vektorraum R
n
verwendet man gerne das Standards-
kalarprodukt
x y :=
n
=1
x
f ur x = (x
), y = (y
) R
n
.
und die Norm
|x| =
_
n
=1
x
2
1/2
=
x x
Im R
3
ist |x y| der ubliche Euklidische Abstand der Punkte mit
den Koordinaten x und y. Die Norm ist also der Abstand zum Null-
punkt. Man kann die Euklidische Geometrie des dreidimensionalen
Anschauungsraumes mit Hilfe des Standardskalarproduktes und
der Norm beschreiben. So stehen zwei Vektoren x, y genau dann
senkrecht aufeinander, wenn das Standardskalarprodukt x y = 0
ist. Ersetzt man die drei Dimensionen durch n-Dimensionen so
erhalt man eine naheliegende Verallgemeinerung.
Auf dem Vektorraum V verwendet man ein anderes
Skalar-
produkt, da besser mit dem W-Raum (, P) harmoniert, aber
sonst analoge Eigenschaften hat. Man nimmt den Erwartungswert
des Produktes
E(XY ) =
n
=1
X(
)Y (
)P
f ur X, Y V.
Damit kann man eigentlich genauso rechnen wie mit dem Stan-
dardskalarprodukt. An die Stelle der Norm tritt der Ausdruck
_
E(X
2
),
f ur den man kein eigenes Symbol einf uhrt. Dieses Skalarprodukt
ermoglicht es mit Zufallsvariablen geometrisch zu argumentieren.
Man beachte aber, da aus
_
E(X
2
) = 0 i.a. nicht X = 0
sondern nur PX = 0 = 1 folgt.
1.17.4 Festst. (Eigenschaften von E(XY ))
Die Funktion
V V (X, Y ) E(XY )
hat die folgenden Eigenschaften:
(i) linear in der ersten Variablen und symmetrisch
E((
1
X
1
+
2
X
2
)Y ) =
1
E(X
1
Y ) +
2
E(X
2
Y )
E(XY ) = E(Y X).
(ii) positiv semidenit
E(X
2
) 0 und E(X
2
) = 0 PX = 0 = 1.
Man sagt kurz, E(XY ) ist eine symmetrische positiv semidenite
Bilinearform.
Wenn P
> 0 , ( = 1, . . . , n), ist, dann ist die Funktion

E(XY ) positiv denit
E(X
2
) 0 und E(X
2
) = 0 X = 0.
(iii) Es gilt die Schwarzsche Ungleichung
[E(XY )[
_
E(X
2
)
_
E(Y
2
)
und die Dreiecksungleichung
_
E((X +Y )
2
)
_
E(X
2
) +
_
E(Y
2
).
In der Schwarzschen Ungleichung gilt das Gleichheits-
zeichen genau dann, wenn es ein R so gibt, da
PX = Y = 1 oder PX = Y = 1 ()
ist. In der Dreiecksungleichung gilt das Gleichheitszei-
chen genau dann, wenn es ein 0 gibt, so da ()
gilt.
1.18 Varianz und Kovarianz
Anmerkung. Man will in einer einzigen Zahl zusammenfassen,
wie weit die Werte einer reellen Zufallsvariablen X um ihren Er-
wartungswert streuen. Daf ur bieten sich im Prinzip verschiedene
Abstandsbegrie an, z. B. die durchschnittliche Abweichung:
E([X E(X)[) =
xX()
[x E(X)[PX = x. (1.18.1)
F ur die durchschnittliche Abweichung gibt es aber wenig hand-
habbare Formeln.
Wegen der guten Eigenschaften, die aus der formalen Analogie
zum euklidischen Abstand herr uhren, bevorzugt man die Stan-
dardabweichung. Haug ist es praktischer mit dem Quadrat der
Standardabweichung, genannt die Varianz, zu rechnen.
1.18.1 Def. (Standardabweichung und Varianz)
Es sei (, P) ein endlicher W-Raum. F ur X : (, P) R
deniert man
(X) :=
_
E
_
(X E(X))
2
_
(Standardabweichung)
(1.18.2)
Var(X) := E
_
(X E(X))
2
_
(Varianz) (1.18.3)
Um Klammern zu sparen, schreiben wir EX := E(X).
1.18.2 Bem. (Varianz eines W-Maes)
1. F ur ein ein W-Ma P auf einer endlichen Teilmenge
R deniert man den Mittelwert
(P) :=
P, (1.18.4)
die Standardabweichung:
(P) :=
_
( )
2
P
_
1/2
(1.18.5)
und die Varianz:
Var(P) :=
( )
2
P (1.18.6)
2. Es ist = E(id
), (P) = (id
) und Var(P) =
Var(id
).
3. Erwartungswert, Standardabweichung und Varianz
einer reellen Zufallsvariablen X hangen nur von der Ver-
teilung P
X
ab:
E(X) = (P
X
), (X) = (P
X
), Var(X) = Var(P
X
).
1.18.3 Festst. (Rechenregeln: Varianz)
X, X
1
, . . . , X
n
reelle Zufallsvariable auf . Es gilt
(i) Var(X +b) =
2
Var(X) f ur , a R.
(ii) Var(X) = E(X
2
)
_
E(X)
2
_
.
(iii) Sind X
1
, . . . , X
n
unabhangig, so gilt die Glei-
chung von Bienayme:
Var(X
1
+ +X
n
) = Var(X
1
) +. . . Var(X
n
). (1.18.7)
Die Gleichung von Bienayme (1.18.7) gilt allgemeiner, wenn
X
1
, . . . , X
n
unkorreliert sind. Es reicht z.B., da sie paarweise
unabhangig sind.
1 ENDLICHE W-R
AUME 37
Beweis. (i) Es reicht, die Aussage f ur n = 2 zu zeigen.
Var(X
1
+X
2
) = E
__
(X
1
EX
1
) + (X
2
EX
2
)
_
2
_
= E
_
(X
1
EX
1
)
2
_
+E
_
(X
1
EX
1
) (X
2
EX
2
)
_
+E
_
(X
2
EX
2
)
2
_
.
Da ((X
1
EX
1
) und (X
2
EX
2
) unabhangig sind, folgt nach Satz
1.17.1
Var(X
1
+X
2
) = Var(X
1
) +E(X
1
EX
1
) E(X
2
EX
2
)
+ Var(X
2
) = Var(X
1
) + Var(X
2
).
1.18.4 Bsp. (Varianz einiger Verteilungen)
(i) Ist X : (, P) 1, . . . , n Laplace-verteilt, so
gilt
Var(X) =
n
2
1
12
.
(ii) F ur eine Bernoulli-verteilte Zufallsvariable X
mit Erfolgsparameter p gilt
Var(X) = p(1 p).
(iii) F ur eine Zufallsvariable X, die binomialver-
teilt mit den Parametern n, p ist, gilt
Var(X) = np(1 p).
(iv) F ur eine Zufallsvariable X, die hypergeome-
trisch verteilt ist mit den Parametern N, K, n ist, gilt
Var(X) =
N n
N 1
n
K
N
_
1
K
N
_
.
Anmerkung. In einer Urne mit K schwarzen Kugeln und N K
roten Kugeln ist p :=
K
N
die Wahrscheinlichkeit, eine schwarze Ku-
gel zu ziehen. Eine Stichprobe vom Umfang n mit Wiederholung
aus der Urne ist die Anzahl der schwarzen Kugeln binomialverteilt
mit Parameter n, p und in einer Stichprobe ohne Wiederholung ist
die Anzahl der schwarzen Kugeln hypergeometrisch verteilt mit
den Parametern N, K, n. In beiden Fallen hat man den gleichen
Erwartungswert np = n
K
N
, aber die Varianz ist im hypergeome-
trischen Fall kleiner:
np(1 p) <
N n
N 1
np(1 p) f ur n = 2, . . . , N.
Im Extremfall n = N ist die Varianz der hypergeometrischen Ver-
teilung 0, was klar ist, da man in diesem Fall mit Sicherheit alle
schwarzen Kugeln zieht.
Beweis. (i) Ist X : (, P) 1, . . . , n Laplace-verteil, so gilt
E(X
2
) =
n
=1
2
1
n
=
n(n + 1)(2n + 1)
6
1
n
=
(n + 1)(2n + 1)
6
.
Var(X) = E(X
2
) (E(X))
2
=
(n + 1)(2n + 1)
6
_
n + 1
2
_
2
=
n
2
1
12
.
(ii) Da X
2
= X ist, folgt aus Feststellung 1.18.3 (ii)
Var(X) = E(X
2
)
_
E(X)
2
_
= p p
2
= p(1 p).
(iii) F ur den Beweis benutzen wir das Standardmodell eines Bernoulli-
Experimentes ( Bezeichnung 1.8.8).
Es sei := 1, 0 mit W-Ma P1 := p, P0 = 1 p. Auf
(
n
, P
n
) gibt die Zufallsvariablen
X() =
n
i=1
pr
i
() =
n
i=1
i
die Anzahl der Einsen in dem n-Tupel = (
1
, . . . ,
n
)
n
an.
Das Tupel (pr
1
, . . . , pr
n
) ist n-fach Bernoulli-verteilt mit dem Pa-
rameter p und folglich ist die Summe X binomialverteilt mit dem
Parametern n und p ( Beispiel 1.8.3). Aus Feststellung 1.18.3 (iii)
folgt nun
Var(X) =
n
i=1
Var(pr
i
) = np(1 p).
(iv)

Ubung.
1.18.5 Bsp. (Fixpunkte einer Permutation)
Wir benutzen die Notation aus Beispiel 1.3.7 (, P) sei
der W-Raum der Permutationen von 1, . . . , n mit der
Laplace-Wahrscheinlichkeit. F ur = 1, . . . , n sei
A
= (
1
, . . . ,
n
) [
= .
Es ist
P(A
) =
(n 1)!
n!
=
1
n
,
P(A
) =
(n 2)!
n!
=
1
n(n 1)
( ,= ).
Die Zufallsvariable
X :=
n
=1
1l
A
beschreibt die Anzahl der Fixpunkte einer Permutation.

Der Erwartungswert von X ist
E(X) =
n
=1
E(1l
A
) = n
1
n
= 1.
Wir berechnen die Varianz mit der Formel Var(X) =
E(X
2
)
_
E(X))
2
. Es gilt
E(X
2
) = E
_
n
=1
(1l
2
A
)
_
=
n
=1
E(1l
2
A
) + 2
1<n
E(1l
A
1l
A
)
=
n
=1
P(A
) + 2
1<n
P(A
)
= n
1
n
+ 2
_
n
2
_
1
n(n 1)
= 1 + 1 = 2.
Also ist Var(X) = 2 1 = 1. Weder Erwartungswert
noch Varianz hangen von n ab.
Anmerkung. Die Varianz erhalt man, wenn man in der symme-
trischen Bilinearform
(X, Y ) E
_
(X EX) (Y EY )
_
X = Y setzt. Diese Bilinearform heit die Kovarianz von X.
1.18.6 Bez. (Kovarianz)
Es seien (, P) ein endlicher W-Raum und X, Y reelle
Zufallsvariable auf (, P).
1 ENDLICHE W-R
AUME 38
(i) Die Kovarianz von X und Y bezeichnet man mit
Cov(X, Y ) := E
_
(X EX) (Y EY )
_
.
Die Kovarianz Cov(X, Y ) hangt nur von der gemeinsa-
men Verteilung von (X, Y ) ab.
(ii) Es gilt
Cov(X, Y ) = E(XY ) E(X)E(Y ).
1.18.7 Festst. (Regeln: Kovarianz)
(i) Die Kovarianz ist eine symmetrische, positiv semi-
denite Bilinearform. Es gilt also:
Cov(
1
X
1
+
2
X
2
, Y ) =
1
Cov(X
1
, Y ) +
2
Cov(X
2
, Y ),
Cov(X, Y ) = Cov(Y, X)
Cov(X, X) = Var(X) 0.
(ii) Es gilt die Schwarzsche Ungleichung
[Cov(X, Y )[ (X) (Y ).
(iii) und die Dreiecksungleichung
(X +Y ) (X) +(Y ).
1.18.8 Bem. (Summen unkorrelierter ZVn)
F ur reelle Zufallsvariable X
1
, . . . , X
n
: (, P) R gilt:
(i) Es gilt
Var(
n
=1
X
) =
n
=1
Var(X
) + 2
1<n
Cov(X
, X
).
(ii) Sind X
1
, . . . , X
n
paarweise unkorreliert; d.h.
Cov(X
, X
) = 0 f ur ,= ,
dann gilt die Gleichung von Bienayme:
Var(X
1
+ +X
n
) = Var(X
1
) + + Var(X
n
).
(iii) Sind X
1
, . . . , X
n
paarweise unkorreliert, so gilt
f ur die Standardabweichung des arithmetischen Mittels
1
n
n
=1
X
_
1
n
n
=1
X
_
=
(X
1
)
n
.
Geometrisch gesehen, ist der Fall (ii) der Satz von Pythagoras:
Das Verschwinden der Kovarianz bedeutet, da (X
EX
)
(X
EX
) f ur ,= ist. Die Varianz ist das Quadrat der Lange

von X
EX
.
1.18.9 Bsp. (Varianz von Serien)
Wir benutzen die Bezeichnungen von Beispiel 1.15.5.
(Z
0
, Z
1
, . . . , Z
n
) sind n + 1-fach Bernoulli-verteilt mit
Parameter p.
S
i
:= 1l
Z
i
,=Z
i1
]
f ur i = 1, . . . , n
sind Bernoulli-verteilt mit Parameter 2p(1p). Da S
i
, S
k
f ur i i +2 k unabhangig sind ( ( Satz 1.9.5), ist
Cov(S
i
, S
k
) = 0 f ur i i + 2 k.
Da
E(1l
Z
i
,=Z
i1
]
1l
Z
i+1
,=Z
i
]
= p
2
(1 p) +p(1 p)
2
ist
Cov(S
i
.S
i+1
) = E(S
i
S
i+1
) E(S
i
) E(S
i+1
)
= p
2
(1p)+p(1p)
2
4p
2
(1p)
2
= p(1p)(14p(1p))
Da S
2
i
= S
i
ist, folgt
Var(S
i
) = E(S
2
i
)
_
E(S
i
)
_
2
= 2p(1p) 4p
2
(1p)
2
= 2p(1p)(12p(1p))
Mit Bemerkung 1.18.8 (i) erhalten wir nun die Varianz
der Wechselsumme
Var(Y ) = Var(
n
i=1
S
i
)
=
n
i=1
Var(S
i
) +
n1
i=1
Cov(S
i
, S
i+1
)
= 2np(1p)(12p(1p))+2(n1)
_
p(1p)(14p(1p)
_
.
Da die Varianz translationsinvariant ist ( Feststellung
1.18.3 (i) ist die Varianz der Anzahl X = Y + 1 der
Serien
Var(X) = Var(Y ).
Anmerkung. Die Korrelation ist eine Kennzahl daf ur, in wie weit
X und Y einer linearen Relation gen ugen.
1.18.10 Bez. (Korrelation)
F ur reelle Zufallsvariable X, Y : (, P) R mit positi-
ver Variation V Var(X) > 0, Var(Y ) > 0 deniert man
die Korrelation
cor(X; Y ) :=
Cov(X, Y )
(X) (Y )
.
Aus der Schwarzschen Ungleichung f ur die Kovarianz (
Feststellung 1.18.7 (ii)) folgt
1 cor(X, Y ) 1.
1.18.11 Bem.
Es seinen X, Y : (, P) R reelle Zufallsvariable.
(i) sind die folgenden Aussagen aquivalent:
(a) cor(X, Y ) 1, 1.
(b) In der Schwarzschen Ungleichung f ur die Kovari-
anz gilt das Gleichheitszeichen:
[Cov(X, Y )[ = (X) (Y ).
(c) Es gibt ein R so, da
P
_
(X EX) (Y EY )
_
= 1
oder
P
_
(Y EY ) (X EX)
_
= 1.
ist. D.h., die Zufallsvariablen XEX und Y EY sind
mit Wahrscheinlichkeit 1 linear abhangig.

1 ENDLICHE W-R
AUME 39
(d) Es gibt Konstanten , , R derart, da
P(X +Y + = 0) = 1
ist.D.h., die Punkte (X(), Y () [ liegen mit
mit Wahrscheinlichkeit 1 auf einer Geraden.

(ii) Sind X, Y unabhangig, so ist cor(X, Y ) = 0, d.h.,
unabhangige Zufallsvariable sind linear unabhangig. Die
Umkehrung gilt i.a. nicht!
Anmerkung. Im Feststellung 1.17.4 hatten wir gesehen, da der
Ausdruck
X
_
E(X
2
)
analoge Eigenschaften hat, wie der Euklidische Abstand. Die Stan-
dardabweichung gibt also den Abstand einer reellen Zufallsvaria-
blen zu der Konstanten E(X) an. Fragt man umgekehrt nach der
Konstanten, die den Abstand zu X minimiert, so erhalt man den
Erwartungswert E(X).
1.18.12 Festst. (Minimaleigenschaft des EW)
Es seien (, P) ein endlicher W-Raum und X eine reelle
Zufallsvariable auf . Dann gilt f ur a R:
E
_
(X a)
2
_
= Var(X) +
_
E(X) a
_
2
.
Der Abstand
_
E
_
(X a)
2
_
wird also minimal f ur a :=
E(X).
Beweis.
E
_
(X a)
2
_
= E(X
2
2aX +a
2
)
= E(X
2
) 2a EX +a
2
= E(X
2
)
_
EX
_
2
+
_
a EX
_
2
= E
_
(X EX)
2
_
+
_
a EX
_
2
= Var(X) +
_
a EX
_
2
.
Anmerkung. Der Erwartungswert EX minimiert die durch-
schnittliche quadratische Abweichung E
_
(Xa)
2
_
von einer Kon-
stanten a. Sucht man statt dessen das Minimum der durchschnitt-
lichen Abweichung E([X a[), so wird man einen anderen
mitt-
leren Wert von X gef uhrt, den Median.
1.19 Bedingte Varianz
1.19.1 Bem. (bedingte Varianz)
Da E(X [ Y = y) := E
P(.]Y =y])
der Erwartungswert
bezgl. der bedingten Verteilung P(.[Y = y) ist, gelten
f ur E(X [ Y = y) und somit auch f ur
Var(X [ Y = y) := E
P(.]Y =y)
_
(X E(X [ Y = y))
2
_
= E
_
(X E(X [ Y = y))
2
[ Y = y
_
.
alle Rechenregeln einer Varianz.
(i) Man deniert die bedingte Varianz
Var(X [ Y ) = E
_
(X E(X[Y ) Y )
2
[ Y
_
.
(ii) Insbesondere gilt
Var(X) = E
_
Var(X[Y )
_
+ Var(E(X[Y )). (1.19.1)
Beweis. Nach Feststellung 1.18.3 (ii) ist
E
_
(XEX)
2
[ Y = y
_
= Var(X [ Y = y)+
_
E(X [ Y = y)EX
_
2
Mit der Gleichung vom totalen Erwartungswert ( Feststellung
1.16.5) folgt nun
Var(X) = E
_
E
_
(X EX)
2
[ Y
__
= E
_
Var(X[Y )
_
+E
__
E(X[Y ) EX
_
2
_
= E
_
Var(X[Y )
_
+E
__
E(X[Y ) E(E(X[Y ))
_
2
_
= E
_
Var(X[Y )
_
+ Var
_
E(X[Y )
_
.
1.19.2 Bsp. (Zufallige Anzahl der Summanden)
Es seien X
1
, . . . , X
k
unkorrelierte reelle Zufallsvariable
mit gleichen Erwartungswert und gleicher Varianz. Mit
einer von X
1
, . . . , X
k
unabhangigen Zufallsvariablen N
mit Werten in 1, . . . , k bilde man die Summe S :=
X
1
+ +X
N
. Dann gilt
Var(S) = Var(X
1
)E(N) +E(X
1
)
2
Var(N).
Beweis. Nach Beispiel 1.16.9 ist E(S[N) = E(X
1
)N. Da die
X
1
, . . . , X
n
paarweise unkorreliert sind, folgt
Var(S [ N = n) = Var(S
n
[N = n) = Var(S
n
)
= Var(X
1
) +. . . Var(X
n
) = nVar(X
1
)
und somit Var(S[N) = Var(X
1
)N. Nach Gleichung (1.19.1) ist
Var(S) = E(Var(S[N)) + Var(E(S[N))
= Var(X
1
)E(N) + (EX
1
)
2
Var(N)
1.19.3 Festst. (Minimal. der bed. Erwartung)
Gegeben seien ein endlicher W-Raum (, P), eine end-
liche Menge M und Zufallsvariable
X : (, P) R und Y : (, P) M.
Man suche unter allen Zufallsvariablen der Form
Z Y, wobei Z : M R,
diejenige, die die mittlere quadratische Abweichung
E
_
(X Z Y )
2
_
minimiert. Die Bestapproximation in diesem Sinne ist
Z = E(X[Y ).
1 ENDLICHE W-R
AUME 40
Beweis. Aus
E(X Z Y [ Y = y) = E(X Z(y) [ Y = y)
= E(X [ Y = y) Z(y)
folgt
E(X Z Y [ Y ) = E(X[Y ) Z.
Da nach Feststellung 1.18.3 (i)
Var(XZY [ Y = y) = Var(XZ(y) [ Y = y) = Var(X [ Y = y)
ist, folgt mit Feststellung 1.18.3 (ii)
E
_
(X Z Y )
2
[ Y = y)
= Var(X Z Y [ Y = y) +
_
E(X Z Y [ Y = y)
_
2
= Var(X [ Y = y) +
_
E(X [ Y = y) Z(y)
_
2
.
Es gilt also
E
_
(X Z Y )
2
[ Y ) = Var(X[Y ) +
_
E(X[Y ) Z
_
2
Mit der Gleichung vom totalen Erwartungswert ( Feststellung
1.16.5) folgt nun
E
_
(X Z Y )
2
_
= E
_
E
_
(X Z Y )
2
[ Y )
_
= E
_
Var(X[Y )
_
+E
__
E(X[Y ) Z Y
_
2
_
Die rechte Seite wird minimal fur Z = E(X[Y ).
1.20 Schwaches Gesetz der groen Zahl
Anmerkung. Die Chebychev-Ungleichung gibt eine einfa-
che Abschatzung f ur die Wahrscheinlichkeiten der Abweichung ei-
ner Zufallsvariablen von ihrem Erwartungswert. Der Beweis wird
ubersichtlicher, wenn man die Chebychev-Ungleichung auf die
Markov-Ungleichung zur uckf uhrt.
Die erstere heit auch die Chebychev-Bienayme-Ungleichung.
Man ndet die folgenden Schreibweisen: Chebychev=

Cebysev =
Tschebyschev.
Diese beiden Ungleichungen sind trotz ihrer einfachen Bau-
art und Herleitung erstaunlich wirkungsvoll. F ur spezielle W-
Mae gibt es scharfere Abschatzungen, die aber mehr Vorausset-
zungen erfordern. Die Markov-Ungleichung und die Chebychev-
Ungleichung gelten f ur jedes W-Ma
1.20.1 Lemma (Markov-Ungleichung)
Es sei (, P) ein endlicher W-Raum. F ur X : (, P)
[0, ) gilt
PX c
E(X)
c
f ur c > 0.
Beweis. Fur die Indikatorfunktion von X c gilt
1l
{Xc}

X
c
.
Aus der Monotonie und der Linearitat des Erwartungswertes (Fest-
stellung 1.15.4) folgt somit
PX c = E
_
1l
{Xc}
_
E
_ X
c
_
=
E(X)
c
.
Anmerkung. Etwas allgemeiner ist die folgende Variante der
Markov-Ungleichung, die man ebenso beweist.
1.20.2 Lemma (Markov-Ungleichung)
Ist : [0, ) [0, ) monoton wachsend, 0 < c mit
(c) > 0, so gilt f ur jede reelle Zufallsvariable X
P[X[ c
E(([X[)
(c)
.
1.20.3 Satz (Chebychev-Ungleichung)
Es sei (, P) ein endlicher W-Raum. F ur eine Zufallsva-
riable X : (, P) R gilt
P
_
[X E(X)[
_
Var(X)
2
f ur > 0.
Anmerkung. Man nennt die Konstante in der Chebychev-
Ungleichung ublicherweise > 0, weil man die Ungleichung
f ur kleine verwendet. Was im konkreten Fall klein bedeutet,
hangt von der Streuung von X ab. Man schreibt die Chebychev-
Ungleichung deshalb haug in der Form (c > 0):
P
_
[X E(X)[ c (X)
_

1
c
2
. (1.20.1)
oder
P
_
[X E(X)[
2
c Var(X)
_

1
c
. (1.20.2)
Bsp. (Chebychev-Ungl. f ur binomialverteilte ZV) Aus der
Chebychev-Ungleichung folgt f ur eine beliebige Zufallsvariable X:
P
_
[X E(X)[ 2 (X)
_

1
4
= 0, 25.
F ur eine binomialverteilte Zufallsvariable X ergibt eine genauere
Rechnung, da f ur groe n
P
_
[X E(X)[ 2 (X)
_
0.05
ist.
Anmerkung. Wendet man die Chebychev-Ungleichung auf das
arithmetische Mittel frac1n
n
=1
X
paarweise unkorrelierter
1 ENDLICHE W-R
AUME 41
Zufallsvariablen X
1
, . . . , X
n
an, die alle den gleichen Erwartungs-
wert und die gleiche Varianz
2
haben so erhalt man mit Be-
merkung 1.18.8 (iii) den folgenden Satz. Man beachte, da das
arithmetische Mittel eine um den Faktor
1
n
kleinere Varianz hat
Var
_ 1
n
n
=1
X
_
=

2
n
.
1.20.4 Festst. (schwaches Gesetz der groen Zahl)
Es seien (, P) ein endlicher W-Raum und X
1
, . . . , X
n
:
(, P) R paarweise unkorrelierte Zufallsvariable mit
Var(X
) M f ur = 1, . . . , n.
Dann gilt f ur alle > 0
P
_
1
n
n
=1
(X
EX
M
n
2
.
Haben uberdies X
1
, . . . , X
n
alle den gleichen Erwar-
tungswert := E(X
), ( = 1, . . . , n) so gilt
P
_
1
n
n
=1
X
M
n
2
. (1.20.3)
Anmerkung. (schwaches Gesetz der groen Zahl) Der obige
Feststellung 1.20.4 ist eigentlich eine Vorstufe des schwachen Ge-
setzes der groen Zahl. Dies erhalt man. wenn man in Gleichung
(1.20.3) die Anzahl n der Zufallsvariablen gegen gehen lat:
lim
n
P
_
1
n
n
=1
X

_
= 0. (1.20.4)
Im Spezialfall von Indikatorvariablen fallen die Begrie unkor-
reliert und unabhangig zusammen. Man erhalt somit das Ergebnis
von Jakob Bernoulli ( 1865):
Satz. (J. Bernoulli) F ur eine Folge A
1
, A
2
, . . . unabhangiger
Ereignisse mit gleicher Wahrscheinlichkeit p = P(A
n
) gilt
lim
n
P
_
1
n
n
=1
1l
A

_
= 0. (1.20.5)
Durch

Ubergang zu der komplementaren Menge folgt.
lim
n
P
_
1
n
n
=1
1l
A
<
_
= 1. (1.20.6)
Deutet man dies als eine Folge unabhangiger Wiederholungen
desselben Zufallsexperimentes, und die unabhangigen Ereignisse
A
n
als das Eintreten des Ergebnisses A im n-ten Versuch, so wird
die relative Haugkeit R
n
(A), mit der das Ereignis A eintritt,
durch die folgende Formel gegeben:
R
n
(A) =
1
n
n
=1
1l
A
.
Die Gleichung (1.20.6) lautet nun
lim
n
P
_
R
n
(A) P(A)
< = 1. (1.20.7)
Die Wahrscheinlichkeit, da sich in einer Folge unabhangiger
Bernoulli-Experimente mit Parameter p die relative Haugkeit R
n
der Erfolge von dem Parameter p um weniger als ein beliebig klei-
nes > 0 unterscheidet, konvergiert gegen Eins. Die axiomati-
sche W-Theorie enthalt und bestatigt die empirisch Beobachtung,
da man die Wahrscheinlichkeit durch relative Haugkeiten langer
Ketten von unabhangigen Experimenten beliebig genau approxi-
mieren kann.
Wir wollen dies mit den Mitteln der bisher entwickelten Theorie
endlicher W-Raume nochmal genauer formulieren:
1.20.5 Festst. (G. der gr. Z. f ur rel. Haugkeit.)
Es sei (, P) ein endlicher W-Raum. F ur A 2
gilt
P
n
_
(
1
, . . . ,
n
)
n
[
1
n
n
=1
1l
A
(
) P(A)
1
4n
2
.
Beweis. Die Zufallsvariablen ( = 1, . . . , n)
X
: (
n
, P
n
) 1, 0,
X
: (
1
, . . . ,
n
) 1l
A
(
)
sind unabhangig und Bernoulli-verteilt mit Parameter p = P(A). Es
ist E(X
) = p und Var(X
) = p(1 p)
1
4
. Nach der Chebychev-
Ungleichung ist
P
n
_
1
n
n
=1
X

_

1
4n
2
.
Anmerkung. (Problem) Nur reicht die bisher entwickelte Theo-
rie endlicher W-Raume nicht aus, um den Grenz ubergang n
in den Gleichungen (1.20.4) (1.20.7) zu vollziehen. Das Problem
ist, da es auf einem endlichen W-Raum niemals eine Folge paar-
weise unkorrelierter reeller Zufallsvariabler gibt.
Beweis. Das kann man folgendermaen einsehen. Wenn [[ = n,
so hat der Vektorraum V der reellen Zufallsvariablen auf =
1
, . . . ,
n
die Dimension n. Man kann ohne Einschrankung an-
nehmen da p
:= P
> 0 ist. Dann ist E(XY ) ein positiv de-

nites Skalarprodukt auf V ( Feststellung 1.17.4 (ii)). Eine Familie
(Y
i
)
iI
von Vektoren Y
i
V, die paarweise orthogonal sind
E(Y
i
Y
j
) = 0 f ur i ,= j,
ist linear unabhangig. Folglich enthalt die Familie hochstens n Ele-
mente. Somit hat jede Familie paarweise unkorrelierter reeller Zufalls-
variabler hochsten n Elemente.
Anmerkung. (abzahlbar viele Teilexperimente) Die Losung
dieses Problems bieten unendliche W-Raume mit nichtdiskreten
W-Maen, wie man sie auch bei geometrische Wahrscheinlich-
keitsaufgaben ndet. Bevor diese allgemeineren W-Raume zur
Verf ugung stehen, verabreden wir folgende Konvention zum Um-
gang mit abzahlbaren Folgen von Zufallsvariablen:
Wir betrachten eine Folge (E
n
)
nN
von Zufallsexperimenten,
von denen jedes nur endlich viele Ausgange hat. F ur jedes n N
bildet man einen endlichen W-Raum (
n
, P
n
), der die ersten n
Teilexperimente E
1
, . . . , E
n
modelliert. Die Elementareignisse in
n
sind die moglichen Ergebnisse := (
1
, . . . ,
n
) der ersten n
Teilexperimente.
Das System
1
, . . . ,
n
bildet einen Ereignisbaum, in dem die
Knoten der Tiefe die Menge
sind, mit den

Ubergangswahr-
scheinlichkeiten
p(
+1
[
1
, . . . ,
) :=
P
+1
(
1
, . . . ,
+1
)
P
(
1
, . . . ,
)
.
( Bezeichnung 1.13.1)
Zu jedem Elementarereignis (
1
, . . . ,
n+1
) in
n+1
bildet man
das entsprechende Elementarereignis (
1
, . . . ,
n
) in
n
, indem
man das n+1-te Ergebnis weglat. Dies deniert eine Projektion
pr
n
:
n+1

n
und es gilt
P
n+1
[ pr
n+1
() = (
1
, . . . ,
n
) = P
n
(
1
, . . . ,
n
).
D.h. P
n
ist die Bildverteilung von pr
n+1
. Induktiv folgt dann,
da P
n
die Bildverteilung von pr
n+1
pr
n+2
pr
n+k
ist. (
Feststellung 1.13.5).
Konvention. Unter einer Folge (X
n
)
n
von reellen Zufallsvaria-
blen verstehen wir das folgende: Die n-te Zufallsvariable ist eine
reelle Funktion auf dem n-ten Raum:
X
n
: (
n
, P
n
) R.
Die Werte von X
n
hangen nur von (
1
, . . . ,
n
) ab.
Man bezeichnet dies als eine Folge von Zufallsvariablen auf ei-
nem projektiven System von W-Raumen.
1 ENDLICHE W-R
AUME 42
1.20.6 Bez. (Folgen von ZVn auf proj. System)
1. Ein projektives System ist eine Folge von endli-
chen W-Raumen (
n
, P
n
), (n N), die durch Zufallsva-
riablen
pr
n
:
n+1

n
so verbunden sind, da P
n
die Bildverteilung von pr
n
ist:
(P
n+1
)
pr
n
= P
n
.
2. Eine Folge von Zufallsvariablen des projektiven Sy-
stems
X
n
:= (
n
, P
n
) R f ur n N
nennt man kurz eine Folge (X
n
)
n
von reellen Zufallsva-
riablen.
3. Man kann X
n
als Zufallsvariable auf einem der
hoheren Raume
n+k
betrachten, indem man die pas-
senden Projektionen davorschaltet:
X
(n+k)
n
:= X
n
pr
n+1
pr
n+2
pr
n+k
Es sei X
n
n
:= X
n
.
4. X
(n+k)
n
hat die gleiche Verteilung wie X
n
, also den
gleichen Erwartungswert E(X
n
) und die gleiche Varian
Var(X
n
).
5. X
1
, . . . X
n
heien unabhangig, wenn X
(n)
1
, . . . ,
X
(n)
n
unabhangig sind.
Dann sind nat urlich auch X
(n+k)
1
, . . . , X
(n+k)
n
un-
abhangig ( Denition 1.9.2 und Feststellung 1.6.4).
6. Die Folge (X
n
)
n
heit unabhangig, wenn jeder end-
liche Abschnitt X
1
, . . . , X
n
unabhangig ist.
7. X
1
, . . . X
n
heien paarweise unkorreliert, wenn
X
(n)
1
, . . . , X
(n)
n
paarweise unkorreliert sind.
Dann sind nat urlich auch X
(n+k)
1
, . . . , X
(n+k)
n
paar-
weise unkorreliert.
8. Im allgemeinen last man die obigen Indizes weg und
schreibt kurz X
n
statt X
(n+k)
n
. In diesem Sinne verste-
hen wir unter dem arithmetischen Mittel von X
1
, . . . , X
n
die Summe
S
n
:=
1
n
n
=1
X
:=
1
n
n
=1
X
(n+k)
(1.20.8)
f ur irgend ein k N
0
.
Genauer gesagt, bilden die arithmetischen Mittel eine
Folge von Zufallsvariablen S
n
: (
n
, P
n
) R und die
rechte Seite der Gleichung (1.20.8) deniert die entspre-
chende Variable S
(n+k)
n
.
9. Ebenso lassen wir den Index n, der das Modell an-
gibt, bei der Bildung der Wahrscheinlichkeit weg und
schreiben kurz P statt P
n
. F ur ein Ereignis A 2
n
ist
also
P(A) := P
n
(A) = P
n+k
pr
n+1
pr
n+k
A
Aus Feststellung 1.20.4 folgt sofort:
1.20.7 Satz (schwaches Gesetz der groen Zahl)
Es seien (
n
, P
n
, pr
n
) ein projektives System und
(X
n
)
nN
eine Folge paarweise unkorrelierter Zufallsva-
riabler auf dem System mit gleichen Erwartungswert
:= E(X
n
) und beschrankter Varianz Var(X
n
) M <
f ur alle n N. Dann gilt
P
_
1
n
n
=1
X
2
n
0 f ur n .
1.20.8 Bsp. (Ein vorteilhaftes Spiel?)
Ein Spiel heit fair, wenn der Erwartungswert des Ge-
winns gleich dem Erwartungswert des Verlustes ist. Ist
der Erwartungswert des Gewinns groer als der Erwar-
tungswert des Verlustes, so heit das Spiel vorteilhaft.
Das folgende Beispiel zeigt, da man auch bei einem
vorteilhaften mit beliebig groer Wahrscheinlichkeit sein
gesamtes Kapital verlieren kann.
Der Spieler begint mit einem Startkapital K
0
= 1 und
hat nach n Runden das Kapital X
n
. In jeder Runde
wird eine faire M unze geworfen. Das Kapital in der n-ten
Runde sei
X
n
:=
_
1
2
X
n
, wenn Kopf fallt,
5
3
X
n
, wenn Zahl fallt.
Setzt man
Y
n
:=
_
1
2
, wenn Kopf fallt,
5
3
, wenn Zahl fallt,
so gilt X
n
= Y
1
Y
n
K
0
. Die (Y
n
)
n
sind unabhangig
und haben alle den gleichen Erwartungswert
E(Y
n
) =
1
2
PKopf +
3
5
PZahl =
_
1
2
+
3
5
_
1
2
=
13
10
.
Nach Folgerung 1.17.2 ist
E(X
n
) = E(Y
1
) E(Y
n
)K
0
=
_
13
10
_
n
K
0
.
Das Spiel sieht also sehr vorteilhaft aus. Aber wie ent-
wickelt sich das Kapital? Dazu bilden wir
1
n
log X
n
=
1
n
n
=1
log Y
und wenden hierauf das schwache Gesetz der groen Zahl

an. Mit = E(log Y
n
),
2
= Var(Y
n
) f ur n N gilt
P
_
1
n
n
=1
log Y

2
n
0.
Nun ist aber =
1
2
(log
1
2
+ log
3
5
) < 0. F ur :=
1
2
folgt daher
PX
n
e
n/2
= P
1
n
log X
n

2
= P
1
n
log X
n

P[
1
n
log X
n
[
= 1 P
_
1
n
n
=1
log Y

_
1 f ur n .
1 ENDLICHE W-R
AUME 43
Da < 0 ist, strebt e
n/2
exponentiell schnell gegen 0
f ur n . F ur groe n hat man also mit sehr groer
Wahrscheinlichkeit sein Kapital nahezu verspielt. Der
Erwartungswert E(X
n
) ist dagegen sehr gro, da man
mit wenn auch sehr kleiner Wahrscheinlichkeit enorme
Gewinne machen kann.
Anmerkung. (starkes Gesetz der groen Zahl) Das starke
Gesetz der groen Zahl konnen wir mit den bisherigen Hilfmitteln
nicht adaquat formulieren. Wir leiten schon mal das entscheidende
Lemma her, aus dem das starke Gesetz der groen Zahl dann leicht
folgt.
Als Beispiel denken wir uns ein und dasselbe Experiment E im-
mer wieder unabhangig durchgef uhrt. Man modelliere E mit dem
W-Raum (, P) und die n-malige Durchf uhrung von E mit dem
Produktraum (
n
, P
n
). Dann beschreibt das projektive System
(
n
, P
n
, pr
n
) die nicht abbrechende Folge der unabhangigen
Wiederholungen von E. F ur eine Zufallsvariable X : (, P) R
deniert
X
n
: (
1
, . . . ,
n
) X(
n
)
eine Folge unabhangiger, identisch verteilter Zufallsvariabler (
Satz 1.8.7) F ur eine solche Folge kann man das schwache Gesetz
dergGroen Zahl wesentlich verscharfen:
1.20.9 Lemma
Es seien (
n
, P
n
, pr
n
) ein projektives System und (X
n
)
nN
eine
Folge unabhangiger, identisch verteilter Zufallsvariabler auf dem
System. Es sei := E(X
n
), (n N). Dann gibt es eine Konstante
0 < C < so, da
P
_
1
n
n
=1
X

_

C
4
n
2
f ur n .
Man beachte: Die Wahrscheinlichkeit geht wie n
2
gegen Null.
Dagegen ist im schwachen Gesetz der groen Zahl die Konver-
genzschwindigkeit wir n
1
Beweis. Zur Abk urzung setzen wir Y
n
= X
n
, so da E(Y
n
) = 0
ist. Die (Y
n
)
n
sind ebenfalls unabhangig und identisch verteilt. Da
f ur paarweise verschiedene i, j, k, l
E(Y
i
Y
j
Y
k
Y
l
) = E(Y
2
i
Y
j
Y
k
) = E(Y
3
i
Y
j
) = 0,
E(Y
2
i
Y
2
j
) = E(Y
2
i
)E(Y
2
j
)
gilt, folgt
E
_
1
n
n
=1
Y
_
4
=
1
n
4
1i,j,k,ln
E(Y
i
Y
j
Y
k
Y
l
)
=
6
n
4
1ijn
E(Y
2
i
Y
2
j
) +
1
n
4
n
i=1
E(Y
4
i
)
= n(n 1)
6
n
4
_
E(Y
2
1
)
_
2
+n
1
n
4
E(Y
4
1
)
C
n
2
.
Da die (Y
n
)
n
identisch verteilt sind, hangt die Konstante C nicht von
n ab. Mit der Markov-Ungleichung erhalten wir hieraus
P
_
1
n
n
=1
Y

_
= P
__ 1
n
n
=1
Y
_
4

4
_
E
_
1
n
n
=1
Y
_
4
4

C
4
n
2
.
2 DISKRETE UND STETIGE W-R
AUME 44
2 Diskrete und stetige W-Raume
2.1 Uniforme und geometrische Vertei-
lung
Anmerkung. Beim schwachen Gesetz der groen Zahl haben wir
die Grenzen der bisher als Modelle betrachteten endlichen W-
Raume erreicht. Die in Bezeichnung 1.20.6 eingef uhrten projek-
tiven Systeme (
n
, P
n
pr
n
) endlicher W-Raume sind umstandlich
zu handhaben und nicht allgemein genug:
Man m ute Produkte, Bildverteilungen, Bedingte Verteilungen
. . . f ur projektive Systeme erklaren. Wie verhalten sich projek-
tive Systeme von projektiven Systemen?
Interpretiert in einem projektiven System den Parameter n N
als Zeitpunkte, in denen die Experimente durchgef uhrt werden,
so konnte man auch an kontinuierliche Zeitparameter t R
denken.
Der elegante und auch anschauliche Ausweg sind unendliche W-
Raume.
Wir wollen hier zwei einfache Bespiele unendlicher
W-Raume mit anschaulichen Hilfsmitteln vorf uhren. Im
Beispiel 2.1.2 erhalten wir eine stetige W-Verteilung auf
dem Intervall [0, 1). im zweiten Beispiel 2.1.3 einen dis-
kretes W-Ma auf N. F ur beide Beispiele geben wir je-
weils zwei Herleitungen an,
als projektive Limes eines projektiven Systems
endlicher W-Raume,
als Grenzwerte einer Folge endlicher Verteilungen
auf [0, 1] bzw. auf N.
2.1.1 Bem. (Projektiver Limes)
Es sei (
n
, P
n
, pr
n
ein projektives System endlicher W-
Raume. Die Frage ist, kann man nicht ein W-Raum
(, P) nden, derart da die Raume (
n
, P
n
) Bilder von
(, P) mit der Bildverteilung sind. D.h., es gibt eine Fol-
ge von Zufallsvariablen
n
: (, P) (
n
, P
n
)
mit den folgenden Eigenschaften:
(i) Das Diagramm
n+1
n+1
pr
n

n
@
@
@R
n
kommutiert f ur alle n N,
(ii) P
n
= P
n
.
Haug kommt man mit den beiden Eigenschaften (i) und (ii)
aus. Zur Denition des projektiven Limes gehort noch die Ein-
deutigkeit, die wir der Vollstandigkeit halber hier mit au uhren.
Die Eindeutigkeit folgt aus einer universellen Eigenschaft. Zur
Formulierung dieser universellen Eigenschaft benotigt man den
Begri der mebaren Abbildung, den wir hier ohne Erklarung
verwenden.
(iii) Man nennt (, P,
n
) den projektiven Limes des projekti-
ven Systems (
n
, P
n
, pr
n
), wenn (, P,
n
) die folgende univer-
selle Eigenschaft hat:
Ist

,

P,
n
) ein weiterer W-Raum mit den Eigenschaften (i)
und (ii), so gibt es eine eindeutig bestimmte mebare Abbildung
:

mit
n
=
n
.
D.h. ist in diesem Sinne minimal.
2.1.2 Bsp. (M unzwurf-Raum)
Das immerwahrende Werfen einer fairen M unze be-
schreiben wir durch das projektive System
(
n
, P
n
, pr
n
) := (0, 1
n
, P
n
, pr
n
).
Dabei ist P die Laplace-Wahrscheinlichkeit auf 0, 1
und pr
n
: 0, 1
n+1
0, 1
n
die Projektion auf die
ersten n Komponenten.
Als projektiver Limes (, P) bietet sich hier ein guter
Bekannter aus der Analysis an, das Intervall [0, 1) R.
Wir beschranken uns auf die Eigenschaften Bemerkung
2.1.1 (i) und (ii).
Die universelle Eigenschaft (iii) gilt auch. Wir zeigen sie aber nicht,
da man f ur den Nachweis etwas Matheorie benotigt.
Damit die folgenden Formeln schon symmetrisch sind,
lassen wir bei allen Intervalle den rechten Endpunkt weg,
was aber nicht weiter wichtig ist. Die Wahrscheinlichkeit
eines Teilintervalls [a, b) [0, 1) ist seine Lange:
U([a, b]) := b a.
F ur endliche Vereingungen disjunkter Intervalle addiere
man die Langen. Man bezeichnet diese Wahrscheinlich-
keitsverteilung mit U := U
[0,1)
und nennt sie die Gleich-
verteilung oder uniforme Verteilung auf [0, 1).
Die Teilmengen
A
n
:=
_
1
2
n
,
2
2
n
_
_
3
2
n
,
4
2
n
_

_
2
n
1
2
n
,
2
n
2
n
_
sind unabhangig, da f ur alle
1
, . . . ,
k
1, . . . , n
gilt:
U
_
k
i=1
A
i
_
= 2
k
=
k
i=1
U(A
i
).
Die Indikatorfunktionen 1l
A
n
, (n N) sind n-fach
Bernoulli-verteilt mit Parameter p =
1
2
. Es gilt also:
(i) Die Bildverteilung von
n
:= (1l
A
1
, . . . , 1l
A
n
)
ist die Produktverteilung P
n
auf 0, 1
n
.
(ii) Nach Konstruktion ist
n
= pr
n

n+1
.
Auf ([0, 1), U) gibt es eine abzahlbare Familie (1l
A
n
)
n
unabhangiger und identisch verteilter reeller Zufallsva-
riabler. Diese beschreiben den unendlichen M unzwurf.
Anmerkung. Man fragt sich, ob man nicht statt ([0, 1), U) den
unendlichen Produktraum0, 1
N
versehen mit einem unendlichen
Produktma P
N
nehmen kann? In der Matheorie zeigt man, da
das geht und da die W-Raume ([0, 1), U) und (0, 1
N
, P
N
) in
einem noch zu prazisierenden Sinne isomorph sind. Beide Raume
reprasentieren den sogenannten projektiven Limes des projektiven
Systems:
limproj
n
(0, 1
n
, P
n
, pr
n
),
was wir hier aber mangels Matheorie nicht beweisen konnen.
AUME 45
2.1.3 Bsp. (geometrische Verteilung)
In einem n-fachen Bernoulli-Experiment mit Erfolgs-
wahrscheinlichkeit p > 0 ist die Wahrscheinlichkeit, den
ersten Erfolg genau im k + 1-ten Teilversuch zu haben,
d.h. man hat zuvor k Mierfolge
G
n;p
k :=
_
p(1 p)
k
f ur k = 0, . . . , n 1,
(1 p)
n
wenn gar kein Erfolg eintritt.
Wir werden den letzteren Fall, da kein Erfolg eintritt,
mit k = n kodieren. Da nach der geometrischen Sum-
menformel
n1
k=0
p(1 p)
k
= (1 p)
n
.
gilt, ist G
n;p
ein W-Ma auf
n
:= (1, . . . , n, n +
1, G
n;p
). Man nennt daher G
n;p
die gestoppte n-te
geometrische Verteilung.
gestoppt, da man ja wei-

ter experimentieren kann, bis ein Erfolg eintritt. Mit der
Projektion pr
n
:
n+1

n
,
pr
n
: k
_
k f ur k = 1, . . . , n,
n f ur k = n + 1, n + 2.
erhalt man ein projektives System (
n
, G
n;p
, pr
n
) von
endlichen W-Raumen ( Bezeichnung 1.20.6).
Den projektiven Limes kann man in diesem Fall sofort
erraten, es ist der Raum N der nat urlichen Zahlen mit
der geometrischen Verteilung
G
p
k = p(1 p)
k
f ur k N
0
.
Mit der geometrischen Reihe uberpr uft man
k=0
Pk = p
k=0
(1 p)
k
= p
1
1 (1 p)
= 1.
Die gestoppten W-Raume (
n
.G
n;p
) sind die Bilder von
(N, G
p
) unter der Projektion
n
: N
0
0, . . . , n
mit
n
: k
_
k f ur k = 1, . . . , n,
n f ur k = n + 1, n + 2, . . ..
Das System (N
0
, G
p
,
n
) erf ullt also die Bedingen (i)
und (ii) von Bemerkung 2.1.1.
Man sieht leicht, da auch die universelle Eigenschaft Bemer-
kung 2.1.1 (iii) erf ullt ist:
Ist (
P,
n
) ein weiteres System mit (i) und (ii), so bilde man
:

N mit
( ) := lim
n

n
( ).
Man beachte, da die Folge
_

n
( )
_
n
moton wachst und schlie-
lich konstant ist.
Anmerkung. In der folgenden Feststellung verwenden wir bereits
einige Eigenschaften diskreter W-Raume, die erst im folgenden
Kapiteln sauber deniert werden.
2.1.4 Bez. (Geometrische Verteilung)
(i) Die geometrische Verteilung auf N
0
mit dem Pa-
rameter p (0, 1) ist gegeben durch
G
p
k := p(1 p)
k
f ur k N
0
.
(ii) Eine Zufallsvariable X mit Werten in N ist geome-
trisch verteilt mit Parameter p, (0 < p < 1), wenn ihre
Bildverteilung auf N die geometrische Verteilung G
p
ist:
PX = k = p(1 p)
k1
f ur k N
0
.
2.2 Diskrete W-Raume
2.2.1 Def. (diskreter W-Raum)
Es sei eine beliebige Menge und
n
[ n N eine
abzahlbare Teilmenge von . Jedem
n
sei eine Wahr-
scheinlichkeit p
n
zugeordnet, derart da
0 p
n
1 f ur n N, (2.2.1)
n=1
p
n
= 1. (2.2.2)
Man deniert dann die Wahrscheinlichkeit einer Teil-
menge A 2
, indem man die Wahrscheinlichkeiten der
n
A aufaddiert.
P(A) :=
n=1
p
n
1l
A
(
n
). (2.2.3)
Man nennt dann P : 2
[0, 1] ein diskretes W-

Ma auf , da auf die abzahlbare Menge
n
[ n N
konzentriert ist.
Anmerkung. (Diskrete W-Raume) 1. Eine konvergente Rei-
he mit positiven Summanden kann man beliebig umsortieren. Es
kommt also auf die Reihenfolge der Punkte
n
nicht an. Man
schreibt daher auch
nN
p
n
:=
n=1
p
n
. (2.2.4)
Da es auf die Reihenfolge nicht ankommt, kann man auch an-
dere abzahlbare Indexmengen I = i
n
[ n N zulassen. F ur die
Summe schreibt man dann
iI
p
i
:=
n=1
p
i
n
.
2. In den theoretischen Aussagen werden wir die abzahlbar vie-
len
n
immer mit n = 1, 2, . . . durchnummerieren. Es konnen aber
auch andere abzahlbare Indexmengen auftreten, wie
die ganzen Zahlen Z. Diese kann man folgendermaen abzahlen:
Z = 0, 1, 1, 2, 2, 3, 3, . . .. Man schreibt in diesem Fall f ur die
Summe der Wahrscheinlichkeiten
n=
p
n
.
doppelt indizierte Punkte
m,n
mit m, n N. Mit dem Cantor-
schen Diagonalverfahren kann man die Punkte folgendermaen
zeilenweise durchzahlen:
11
12

21
13

22

31
14

23

32

41
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Allgemeiner gilt: Wenn I, J abzahlbar sind, so ist auch I J
abzahlbar.
3. Haug wird =
n
[ n N sein. Es wird sich als
praktisch erweisen, auch solche Falle zuzulassen, wie = R und
1
,
2
, . . . = Z.
4. Eigentlich gehoren die endlichen W-Raume ebenfalls zu den
diskreten W-Raumen. Man sollte die Denition 2.2.1 eigentlich so
formulieren:
AUME 46
2.2.2 Def. (alternative Denition: diskrete W-Raume)
Es sei eine beliebige Menge, I eine hochstens abzahlbar unend-
liche Indexmenge und
i
[ n I eine Teilmenge von . Jedem
i
sei eine Wahrscheinlichkeit p
i
zugeordnet, derart da
0 p
i
1 f ur i I, (2.2.5)
iI
p
i
= 1. (2.2.6)
Man deniert dann die Wahrscheinlichkeit einer Teilmenge A
2
, indem man die Wahrscheinlichkeiten der

i
A aufaddiert.
P(A) :=
iIA
p
i
1l
A
(
i
). (2.2.7)
Man nennt dann P : 2
[0, 1] ein diskretes W-Ma auf .

Konvention: Wir werden i. a. die einfachere Formulierung der
Denition 2.2.1 benutzen und stillschweigens bemerken, da alle
Folgerungen nat urlich auch f ur endliche W-Raume gelten.
Anmerkung. (diskretes W-Ma ist -additiv) Ein diskreter
W-Raum erf ullt die beiden Axiome (i) und (ii) aus der Deni-
tion 1.1.5 eines endlichen W-Raumes. In einem unendlichen dis-
kreten W-Raum (, P) kann man abzahlbare paarweise disjunkte
Teilmengen A
n
2
, (n N), betrachten und die Aussage in

Feststellung 1.1.6 Gleichung (1.1.1) uber die Additivitat von P
verscharfen.
2.2.3 Satz (diskretes W-Ma ist -additiv)
Es sei (, P) ein diskreter W-Raum. Dann gilt f ur jede
Familie (A
n
)
nN
paarweise disjunkter Mengen A
n
2
P
_

_
n=1
A
n
_
=
n=1
P(A
n
). (2.2.8)
Diese Eigenschaft heit -Additivitat.
Anmerkung. Mit dem Zusatz Bezeichnet man kurz Regeln
uber abzahlbare Vereinigungen oder Summen. Ebenso ist das
K urzel f ur abzahlbare Durchschnitte oder Prodkte im Gebrauch.
Beweis. P sei konzentriert auf die Menge
i
[ i N.
P
_

_
n=1
A
n
_
=
i=1
p
i
1l
n=1
A
n
(
i
)
Da die A
n
paarweise disjunkt sind, gilt
=
i=1
p
i
n=1
1l
A
n
(
i
)
wobei in der Summe
n=1
1l
A
n
(
i
) alle Summanden bis auf hochstens
einen gleich 0 sind. Da alle Terme nichtnegativ sind, darf man die
Summationsreihenfolge vertauschen:
P
_

_
n=1
A
n
_
=
n=1
i=1
p
i
1l
A
n
(
i
)
=
n=1
P(A
n
).
2.2.4 Festst. (Resultate aus Kap. 1.)
1. F ur einen abzahlbar unendlichen diskreten W-
Raum (, P), wobei P auf
n
[ n N konzentriert
ist, gelten alle Denitionen und Ergebnisse, die wir in
Abschnitt 1 getroen bzw. hergeleitet haben sinngema
weiter, da f ur ihre Herleitung nur endliche Operatio-
nen Vereinigung, Durchschnitt, Komplement von Men-
gen, Summe, Produkt, Quotient von Zahlen verwendet
werden; diese gelten mit der Denition 2.2.1, Gleichung
(2.2.3) weiter.
2. Bei der Bildung des Erwartungswertes einer reellen
Zufallsvariablen X : (, P) R mu man immer die
Zusatzvoraussetzung machen, da die Reihe
E([X[) :=
n=1
[X(
n
)[P
n
(2.2.9)
absolut konvergent ist. Wir schreiben hierf ur kurz
E([X[) < .
Dann konvergiert auch die Reihe
E(X) :=
n=1
X(
n
)P
n
(2.2.10)
und die Summanden d urfen beliebig umsortiert wer-
den. D.h., man kann mit absolutkonvergenten Reihen
bedenkenlos rechnen.
3. Wenn die Varianz auftritt, mu vorausgesetzt wer-
den, da E([X[
2
) < ist. Aus der Schwarzschen Un-
gleichung folgt
E([X[) = E([1 X[)
_
E(1)
_
E([X[
2
) < .
Dann ist auch
Var(X) = E(X
2
)
_
E(X)
_
2
< .
Die Kovarianz bildet man nur f ur reelle Zufallsvaria-
blen X, Y , f ur die
E([X[
2
) < und E[([Y
2
) <
ist.
2.2.5 Festst. (Erwartungswert der geomtr. V)
F ur eine geometrisch verteilte Zufallsvariable gilt:
(i) Der Erwartungswert ist
E(X) =
1 p
p
=
1
p
1.
(ii) Die Varianz ist
Var(X) =
1 p
p
2
Anmerkung. Beim wiederholten W urfeln mit einem fairen
W urfel hat man also im Mittel
E(X) =
_
1
6
_
1
1 = 5
Fehlversuche, bis die erste 6 fallt. Die Varianz von X ist
Var(X) =
5
6
_
1
6
_
2
= 30.
Die Standardabweichung ist (X) =
30.
Beweis. (i) Da man Potenzreihen innerhalb Ihres Konvergenzberei-
ches gliedweise dierenzieren kann, gilt
E(X) =
k=0
kp(1 p)
k
= p(1 p)
d
dp
k=0
(1 p)
k
= p(1 p)
d
dp
1
1 (1 p)
= p(1 p)
1
p
2
=
1
p
1.
AUME 47
(ii) Aus Feststellung 1.18.3 (ii) folgt
Var(X) = E
_
X(X 1)
_
+E(X)
_
E(X)
_
2
.
E
_
X(X 1)
_
=
k=0
k(k 1)p(1 p)
k
= p(1 p)
2
k=2
k(k 1)(1 p)
k2
= p(1 p)
2
d
2
dp
2
k=0
(1 p)
k
= p(1 p)
2
d
2
dp
2
1
1 (1 p)
= p(1 p)
2
2
p
3
=
2(1 p)
2
p
2
Somit ist
Var(X) =
2(1 p)
2
p
2
+
1 p
p
(1 p)
2
p
2
=
1 p
p
2
.
Bsp. (St. Peterburger Paradoxon) Das Rechnen und argu-
mentieren mit Zufallsvariablen X, f ur die E([X[) = ist, f uhrt
leicht zu paradoxen Ergebnissen. Hier ist ein Beispiel, das auf einen
Artikel zur uckgeht, den J. Bernoulli 1738 in der Zeitschrift der St.
Petersburger Akademie publizierte.
In einem Gl uckspiel wird eine faire M unze geworfen. Fall Kopf,
so erhalt der Spieler den doppelten Einsatz, anderenfalls ist der
Einsatz verloren. Ein Spieler mit unbegrenztem Kapital (und Zeit)
entscheidet sich f ur die folgende Strategie:
Er setzt beim ersten Spiel 1 Euro; gewinnt er, so hort er auf
zu spielen. Anderenfalls verdoppelt er seinen Einsatz. Dies macht
er so lange, bis er das erste mal gewinnt.
Gewinnt er beim n-ten Spiel, so hat er bis dahin
n
=1
2
= 2
n
1
Euro gesetzt und 2
n
Euro gewonnen. Der Reingewinn ist 1 Euro.
die Wahrscheinlichkeit, da er erstmals im n-ten Spiel gewinnt ist
G
1/2
n 1 =
1
2
_
1
2
_
n1
= 2
n
.
Die Wahrscheinlichkeit, da er nie gewinnt ist also kleiner als 2
n
f ur alle (n = 1, 2, . . . ), d.h. gleich 0.
Obwohl das Spiel fair ist, liefert die Methode mit Sicherheit den
Reingewinn 1 Euro!
Das Problem liegt darin begr undet, da bei beliebig langer
Spielzeit der Gewinn ohne Ber ucksichtigung des Einsatzes un-
endlichen Erwartungswert besitzt.
Der Grundraum N mit der geometrischen Wahrscheinlichkeit
G
1/2
beschreibt die Situation, da der Gewinn im n-ten Spiel ein-
tritt. Die Zufallsvariable
X : N N mit X(n) = 2
n
beschreibt den Gewinn. X hat aber unendlichen Erwartungswert:
E(X) =
n=1
X(n)G
1/2
n =
n=1
2
n
2
n
= .
Ebenso hat das Eingesetzte Kapital Y = X 1 unendlichen Er-
wartungswert.
In einem Spiel ist der Erwartungswert des Gewinnes, sofern er
endlich ist, der faire Preis, den man zu Beginn des Spieles setzen
kann. Ist der Erwartungswert unendlich, so gibt es keinen sinn-
vollen fairen Preis. In dem obigen Spiel m ute der Spieler vorab
unendlich viel Kapital als Einsatz zahlen!.
Anmerkung. Das Produkt endlich vieler diskreter W-Raume ist
wieder diskret:
2.2.6 Bez. (endl. Produkte diskreter WR.)
(i) Es seien (
i
, P
i
), (i = 1, . . . , k) endlich viele dis-
krete W-Raume. Die W-Mae seien jeweils auf die Men-
gen
M
i
=
(i)
n
[ n N
konzentriert.
:=
1

k
.
Man erklart das Produktma P := P
1
P
k
auf
:=
1

k
.
durch
P(A) =
(n
1
,...,n
k
)N
k
p
n
1
p
n
k
1l
A
(
(1)
n
1
, . . . ,
(k)
n
k
)
(2.2.11)
=
n
1
=1

n
k
=1
p
n
1
p
n
k
1l
A
(
(1)
n
1
, . . . ,
(k)
n
k
)
(2.2.12)
f ur A 2
.
(ii) Aus Gleichung (2.2.12) folgt die Produkteigen-
schaft:
P(A
1
. . . A
k
) = P
1
(A
1
) P
k
(A
k
)
f ur A
i
2
i
, (i = 1, . . . , k).
(iii) M := M
1
M
k
eine abzahlbare Teilmen-
ge von
1

n
und das Produktma ist auf M
konzentriert.
(iv) (iv) Mit dieser Denition des Produktmaes gel-
ten alle Resultate aus Kapitel 1 unverander fort.
2.2.7 Bez. (Bildverteilung einer ZV)
Es sei (, P) ein diskreter W-Raum und P sei konzen-
triert auf die abzahlbare Menge
n
[ n N. F ur eine
Zufallsvariable X : (, P) M ist dann das Bildma
P
X
(B) := PX B f ur B 2
M
auf die hochsten abzahlbare Menge A := X(
n
) [
n N konzentriert; diese kann auch endlich sein. Also
ist (M, P
X
) wieder ein diskreter W-Raum.
2.2.8 Folg. (Bildverteilungen)
Mit dieser Denition des Bildmaes ( Bezeichnung
2.2.7) gelten alle Resultate aus Kapitel 1 weiter. Ins-
besondere gilt:
(i) Endlich viele Zufallsvariable X = (X
1
, . . . , X
n
)
sind unabhangig, wenn ihre gemeinsame Verteilung P
X
gleich dem Produkt ihrer Randverteilungen ist:
P
X
= P
X
1
P
X
n
.
(ii) F ur den Erwartungswert einer reellen Zufallsva-
riablen (, P) R mit E([X[) < gilt
E(X) =
xX
xP
X
x
AUME 48
Anmerkung. Da das Bild eines diskreten W-Raumes wieder
ein diskreter W-Raum ist, sieht sehr ansprechend aus, schrankt
aber die Anwendbarkeit der diskreten W-Raume zur Modellbil-
dung stark ein:
Es gibt auf einem diskreten W-Raum keine abzahlbare Folge
(X
n
)
n
identisch verteilter unabhangiger Zufallsvariabler.
Wir wollen das Begr undung kurz skizzieren: Annahme, (X
n
)
n
sei eine abzahlbare Folge identisch verteilter unabhangiger Zufalls-
variabler. Man wahle B
n
X
n
() so, da PX
n
(B
n
) = p
(0, 1) f ur n N. Die Zufallsvariablen 1l
X
1
n
(B
n
)
bilden eine abzahl-
bare Folge von unabhangigen Bernoulli-Variablen mit Parameter
p (0, 1).
Ahnlich wie im Beispiel 2.1.2 des unendlichen M unzwurfs zeigt

man, da der projektive Limes dieses System das Intervall [0, 1)
mit der uniformen Verteilung U ist. Der Raum ([0, 1), U) ist aber
kein diskreter W-Raum.
AUME 49
2.3 Konvergenz gegen geomtr. Vertlng.
Anmerkung. Wir interessieren uns f ur konvergente Folgen dis-
kreter W-Mae, die alle auf dieselbe abzahlbare menge konzen-
triert sind. Dann ist der Grenzwert wieder ein diskretes W-Ma,
In diesem Abschnitt betrachten wir ein relativ einfaches und an-
schauliches Beispiel, in dem der Grenzwert die geometrische Ver-
teilung ist. In den folgenden Abschnitten untersuchen wir dann die
Konvergenz der Binomialverteilung bei wachsendem n und zeigen:
Bei geeigneter Parameterwahl konvergiert die Binomialvertei-
lung B
n,p
einerseits gegen die
Poisson-Verteilung auf N, also wieder eine diskrete Vertei-
lung.
und bei anderer Wahl der Parameter gegen die
Normalverteilung auf R, also eine Verteilung mit stetiger
Dichte.
2.3.1 Bsp. (Konvergenz gegen die geom. V.)
Wir betrachten zunachst Zufallsexperimente mit ei-
nem endlichen Ergebnisraum. Aus einer Urne mit K
schwarzen Kugeln und N K roten Kugeln wird eine
geordnete Stichprobe := (
1
, . . . ,
n
) vom Umfang
N gezogen. Es werden also alle Kugeln gezogen. Der
Raum
ord
der geordneten Stichproben sei mit Laplace-
Wahrscheinlichkeit versehen. Es gibt
_
N
K
_
mogliche
Platze f ur die schwarzen Kugeln, die roten kommen auf
die restlichen Platze. Also ist:
[
ord
[ =
_
N
K
_
.
Die Zufallsvariable X :
ord
N gibt an, wieviele
rote Kugeln gezogen werden, bevor die erste schwarze
kommt:
X : maxi [ 0 i N K,
1
, . . . ,
i
rot
Wenn die erste schwarze Kugel im k +1-ten Zug erschi-
en, sind bereits k rote Kugeln und eine schwarze gezo-
gen worden. Es verbleiben also noch
_
Nk1
K1
_
mogliche
Platze f ur die verbleibenden K 1 schwarzen Kugeln.
Also ist
P
N,K
X = k =
_
Nk1
K1
_
_
N
K
_ f ur k = 0, . . . N K.
Wir betrachten den Raum N
0
mit dem diskreten W-Ma
P
N,K
. Es gilt also
P
N,K
X = k
=
(N k 1)!
(K 1)!(N K k)!
K!(N K)!
N!
=
K
N k
k1
i=0
N K i
N i
(2.3.1)
f ur k = 0, . . . N K und 0 sonst.
Man kann die Gleichung (2.3.1) auch direkt interpretieren, als die
Wahrscheinlichkeit, zunachst k rote Kugeln zu ziehen und dann
eine schwarze.
Grenz ubergang: Wie verhalt sich die Verteilung
P
N,K
wenn man immer mehr Kugeln in der Urne hat?
Man f uhre einen Grenz ubergang N, K derart
aus, da der Anteil der schwarzen Kugeln
K
N
p (0, 1)
konvergiert. D.h. man wahle eine Folge (K
N
)
N
so da
lim
N
K
N
N
= p mit 0 < p < 1.
Aus der Gleichung (2.3.1) erhalt man in diesem Fall
lim
N
P
N,K
N
k = p(1 p)
k
.
Der Grenzwert ist die geometrische Wahrscheinlichkeit
zum Parameter p:
lim
N
P
N.K
= G
p
(2.3.2)
Das Ergebnis ist anschauulich zu verstehen. Bei festem k wahle
man N und K
N
pN sehr gro. Dann andert sich beim Ziehen
von k Kugeln aus der Urne der Restbestand praktisch nicht und
folglich sind die Wahrschenlichkeiten f ur die Farbe der nachsten
Kugeln annahernd konstant p bzw. 1 p. Die Wahrscheinlichkeit,
erst k rote und dann eine schwarze Kugel zu ziehen ist also
(1 p)
k
p.
Anmerkung. (Bose-Einstein-Statistik) Man kann das W-
Ma in dem obigen Beispiel 2.3.1 auch als die Verteilung der An-
zahl der Objekte in einer Zelle bei einer Belegung mit nichtunter-
scheidbaen Objekten interpretieren ( Bezeichnung 1.2.5).
R rote Kugeln werden durch einen Zufallsmechanismus auf
K+1 Zellen mit den Nummern 0, 1, . . . , K verteilt. Als Zufallsme-
chanismus verwende man ein Urne mit K schwarzen Kugeln und
R = NK roten Kugeln, aus der man alle Kugeln der Reihe nach
entnimmt. Man hat also eine geordnete Stichprobe von roten und
schwarzen Kugeln. Die roten Kugeln werden dann nach folgender
Regel auf die K + 1 Zellen verteilt:
Begint die Stichprobe mit einer roten Kugel, so kommt diese
und die folgenden roten Kugeln solange in die Zelle mit der Num-
mer 0, bis eine schwarze Kugel gezogen wird, andernfalls bleibt
die Zelle mit der Nummer 0 leer. Die schwarzen Kugeln bilden
nun die Trennwande zwischen den folgenden Zellen mit den Num-
mern 1, . . . , K 1. Die roten Kugeln zwischen der i-ten und der
i +1-ten schwarzen Kugel kommen in die Zelle mit der Nummer i.
Die roten Kugeln, die auf die K-te schwarze Kugel folgen, kommen
in die letzte Zelle mit der Nummer K.
Ein Beispiel sagt mehr als tausend Worte: Es sei K = 5, R = 6.
Die Stichprobe
r, r, s, s, r, r, r, s, s, r, s
ergibt die Belegungszahlen 2, 0, 3, 0, 1, 0.
Da alle
_
R+K
R
_
Anordnungen von R roten und K schwarzen Ku-
geln gleichwahrscheinlich sind, bewirkt dieser Zufallsmechanismus,
da alle so erzeugten Belegungen der Zellen gleichwahrscheinlich
sind. Die Zufallsvariable X mit der durch die Gleichung (2.3.1)
gegebene Verteilung gibt die Anzahl der roten Kugeln in der Zelle
mit der Nummer 0 an.
P
R,K
X = k :=
K
R +K k
k1
i=0
R i
R +K i
f ur k = 0, . . . , R.
F ur R, K mit
R
K
ist
lim
R,K
P
R,K
k =
1
+ 1
_

1 +
_
k
= G
p
k, (2.3.3)
wobei p =

1+
und der Erwartungswert von G
p
ist.
Aus Symmetriegr unden hat die Anzahl der Kugeln in jeder an-
deren Zelle die gleiche Verteilung wie X und ist also aprroximativ
geometrisch verteilt.
_
R+K
R
_
ist die Anzahl Belegungen von K + 1 Zellen mit R
nicht unterscheidbaren Objekten (Folgerung 1.2.6). In der Phy-
sik heit diese Laplace-Wahrscheinlichkeit auf den Belegungen
die Bose-Einstein Statistik. Man ndet sie in der Quantenme-
chanik bei der Beschreibung der sogenannten Bose-Teilchen. Ele-
mentarteilchen von diesem Typ sind ununterscheidbar, d.h. der
Austausch zweier Teilchen andert nichts am Zustand des Systems.
AUME 50
Es konnen mehrere Bose-Teilchen in der selben Zelle sein oder
physikalisch ausgedr uckt, denselben Zustand haben. Ein anderer
Typ sind die Fermi-Dirac-Teilchen, die ebenfalls ununterscheidbar
sind, von denen aber immer hochsten eines in einer Zelle sein kann.
Die Gleichverteilung auf den moglichen Belegungen impliziert al-
so, das die die Zahl der Teilchen in der gleichen Zelle annahernd
geometrisch verteilt ist.
Anmerkung. Im allgemeinen hat man bei Belegungenmit mit
unterscheidbaren Objekten nicht die Gleichverteilung (Bose-
Einstein-Statistik), sondern die Multinomialverteilung. Die An-
zahl der Objekte in einer Zelle ist dann die Randverteilung, also
binomialverteilt ( Beispiel 1.8.5).
Wir werden analog zum Vorgehen im Beispiel 2.3.1 f ur Zufalls-
variable X
n
, die B
n,p
verteilt sind, den Grenzwert der Verteilung
f ur n unter der Nebenbedingung E(X
n
) untersuchen.
Dabei stoen wir die auf die Poissonverteilung auf N.
2.4 Poisson-Verteilung
Anmerkung. Die Exponentialfunktion e
x
gilt
e
x
= lim
n
_
1 +
x
n
_
n
f ur x R. (2.4.1)
e
x
hat die Potenzreihenentwicklung
e
x
=
n=0
x
n
n!
f ur x R. (2.4.2)
F ur > 0 ist e

n
n!
> 0 und
n=0
e
n
n!
= 1. (2.4.3)
Man kann also mit diesen Werten ein diskretes W-Ma auf N
0
bilden.
2.4.1 Bez. (Poisson-Verteilung)
1. F ur > 0 heit das Wahrscheinlichkeitsma P
auf N
0
mit
P
k = e
k
k
die Poisson-Verteilung zum Parameter
2. Eine Zufallsvariable X heit Poisson-verteilt, wenn
sie ihre Werte in N
0
annnimt und
PX = k = e
k
k
ist.
2.4.2 Festst. (Eigenschaften: Poisson-Verteilung)
Eine Poisson-verteilte Zufallsvariable X hat den Erwar-
tungswert
E(X) =
und die Varianz
V ar(X) = .
ist also zugleich der Erwartungswert und die Varianz
ein P
-verteilten Zufallsvariablen.
Beweis.
E(X) =
k=0
ke
k
k!
= e
k=1
k1
(k 1)!
= e
= .
Aus Feststellung 1.18.3 (ii) folgt
Var(X) = E
_
X(X 1)
_
+E(X)
_
E(X)
_
2
.
E
_
X(X 1)
_
=
k=0
k(k 1)e
k
k!
=
2
e
k=2
k2
(k 2)!
=
2
e
=
2
und somit
Var(X) =
2
+
2
= .
2.4.3 Satz (Konvergenz gegen Poisson-Verteilung)
F ur eine Folge von Binomialverteilungen B
n,p
n
, (n N),
deren Mittelwerte
n
:= np
n
konvergieren:
lim
n
n
=: (2.4.4)
gilt
lim
n
B
n,p
n
k = e
k
k!
. (2.4.5)
Unter der Nebenbedingung (2.4.4) konvergiert die Bino-
mialverteilung gegen die Poissonverteilung.
AUME 51
Beweis. Es ist
B
n,p
n
k =
_
n
k
_
p
k
n
(1 p
n
)
nk
=
1
k!
n(n 1) (n k + 1)p
k
n
(1 p
n
)
nk
=
1
k!
n
n
n 1
n

n k + 1
n
k
n
_
1

n
n
_
nk
=
1
k!
n
n
n 1
n

n k + 1
n
k
n
_
1

n
n
_
k
_
1

n
n
_
n
Letzteres konvergiert f ur n gegen
B
n,p
n
k
1
k!
e
.
Dabei haben wir das folgende Bemerkung 2.4.4 benutzt:
2.4.4 Bem. Man kann die Gleichung (2.4.1) noch etwas
verscharfen: F ur 0
n
gilt
_
1

n
n
_
n
e
Dies sieht man folgendermaen ein: Da der nat urliche Logarithmus

log x die Ableitung
d
dx
log x = 1/x hat, folgt aus dem Mittelwert-
satz der Dierentialrechnung
log
_
1

n
n
_
log 1 =
n
n
1
1
n
mit 0 <
n
<
n
/n. Also gilt
n
0 f ur n . Da log 1 = 0 ist
folgt hieraus
_
1

n
n
_
n
= exp
_
nlog
_
1

n
n
__
= exp
_
n
_

n
n
1
1
n
__
exp().
Anmerkung. Die Approximation der Binomialverteilung B
n,p
durch die Poisson-Verteilung P
mit = np ndet ihre Anwen-

dung f ur groe Werte von n und sehr kleine Werte von p. Das ist
aus folgenden Gr unden angebracht:
Die Binomialkoezienten
_
n
k
_
werden schnell sehr gro und
die Werte der Binomialverteilung lassen sich f ur groe n und kleine
p nicht gut berechnen. Die Poisson-Verteilung kann gut rekursiv
berechnen:
P
(0) = e
, P
(k) =

k
P
k 1
Manchmal sind n und p nicht genau bekannt, man wei nur,
da n gro und p klein ist. Wenn man den Erwartungswert = np
schatzen schatzen, kann man die Verteilung trotzdem gut appro-
ximieren.
2.4.5 Bsp. (Verteilung der Schadensmeldungen)
Die Anzahl der Schadensmeldungen in einem Zeitraum
(0, t], t > 0, sei proportional zur Lange des Intervalls
(0, t], also gleich t mit einem empirisch zu ermittelnden
Faktor . Die Schadensmeldungen treen zufallig ein,
z.B. bei einer Versicherung. Wie ist die Verteilung X
der Schadensmeldungen in einem festen Zeitraum (0, t]
anzusetzen?
Klar ist, X nimmt seine Werte in N
0
an. Wir zer-
legen das Intervall (0, t] in n gleichlange Teilintervalle.
Wenn n gro ist und somit die Teilintervalle kurz sind,
ist anzunehmen, da in jedem Teilintervall hochstens ein
Schadenfall eintritt. Weiterhin nehmen wir an, da das
Auftreten eines Schadens in einem Teilintervall nicht da-
von abhangt, ob und in welchen anderen Teilinterval-
len Schaden auftreten. D.h., man kann so tun, als ob
die Schadensfalle in den einzelnen gleichlangen Teilin-
tervallen n-fach Bernoulli-verteilt mit dem Parameter
p = t/n sind Die Zufallsvariable X ist die Summe der
Erfolge. und folglich annahernd binomialverteilt mit

den Parametern n und p t/n.
Diese

Uberlegung kann man f ur alle hinreichen groen
n N anstellen. Das liefert den Ansatz f ur die Verteilung
von X:
PX = k = lim
n
B
n,t/n
k
= P
t
k = e
t
(t)
k
k!
f ur k N
0
.
(2.4.6)
f ur k N
0
.
Anmerkung. Wir halten fest, die Poisson-Verteilung P
ist ein
Modell f ur die Anzahl rein zufallig auftretender Zeitpunkte in ei-
nem Zeitintervall. Man denke an die Zeitpunkte, in denen im Bei-
spiel 2.4.5) ein Schaden eintritt. Andere typische Beispiele sind
die in einem Callcenter eingehenden Anrufe, die uber einen Mail-
Server weiterzuleitenden Emails, die Anzahl der Kunden an einem
Schalter, die Anzahl der Zeitpunkte, in denen ein Atom einer ra-
dioaktiven Substanz zerfallt. Das Intervall kann auch eine andere
Dimension haben, z.B. die Anzahl der Fahrzeuge auf einem Stra-
enabschnitt.
Anmerkung. (zum Beispiel 2.4.5 Schadensmeldungen) In
der obigen Diskussion haben wir darauf verzichtet, einen formalen
W-Raum (, P) f ur X : (, P) N
0
anzugeben. Wir gehen mal
davon aus, da einen solchen Raum gibt und wollen die Herleitung
der Gleichung (2.4.6) etwas prazisieren:
1. Man zerlegt das Intervall (0, t] in n-Teile und bezeichnet mit
X
n,j
, (j = 1, . . . , n) die Anzahl der Schadensmeldungen im j-ten
Teilintervall. Dann ist
X = X
n,1
+. . . X
n,n
.
Wir haben vorausgesetzt:
X
n,1
, . . . , X
n,n
unabhangig und identisch verteilt. ()
2. Dann haben wir X
n,j
durch die Indikatorvariable 1l
{X
n,j
1}
ersetzt und X durch die Summe
S
n
:=
n
j=1
1l
{X
n,j
1}
.
angenahert. Da die Ereignisse X
n,j}
> 1 unabhangig sind und
die gleiche Wahrscheinlichkeit p
n
:= PX
n,1
1 besitzen, ist S
n
eine B
n,p
n
verteilte Zufallsvariable. Aus
1l
{X
n,1
1}
X
n,1
folgt
p
n
= E(1l
{X
n,1
1}
) E(X
n,1
) =
t
n
.
3. Wir haben dann mit
munteren Worten p
n
t/n gesetzt,
d.h. wir setzen voraus, da
lim
n
np
n
= lim
n
E(S
n
)
!
= E(X) = t ()
Hiermit folgt aus Satz 2.4.3
lim
n
PS
n
= k = lim
n
B
n,p
n
k = P
t
. (2.4.7)
Wir wollen nun schlieen, da X ebenfalls Poissson-verteilt mit
dem Parameter t ist.
4. Dazu zeigen wir die folgende Aussage:
Aus () folgt
lim
n
P
_
n
_
j=1
X
n,j
2
_
= 0. (2.4.8)
D.h. bei immer feiner werdender Zerlegung wird das Auftreten
von mehr als einem Schaden immer unwahrscheinlicher. Dies sieht
man folgendermaen ein:
AUME 52
Wir benutzen in der folgenden Gleichung die -Additivitat des
nicht genauer angegebenen Wahrscheinlichkeitsmaes P. Im Fal-
le diskreter W-Raume hatten wir die -Additivitat in Satz 2.2.3
gezeigt.
E(S
n
) =
n
j=1
P1l
{X
n,j
1}
=
n
j=1
k=1
PX
n,j
= k
j=1
k=1
kPX
n,j
= k
!
=
n
j=1
E(X
n.j
) = E(X).
Aus () folgt somit
lim
n
n
j=1
k=2
(k 1)PX
n,j
= k = 0.
Aus der -Additivitat von P folgt nun
P
_
n
_
j=1
X
n,j
2
_

n
j=1
k=2
PX
n,j
= k
j=1
k=2
(k 1)PX
n,j
= k 0
und somit die die Gleichung (2.4.8).
5. Aus den Gleichungen (2.4.7) und (2.4.8) erhalten wir nun die
Verteilung von X. Wir zerlegen dazu die Menge X = k in die
folgenden Falle:
PX = k = P(X = k X = S
n
) +P(X = k X ,= S
n
)
= P(S
n
= k X = S
n
) +P(X = k X ,= S
n
)
= PS
n
= k P(S
n
= k X ,= S
n
)
+P(X = k X ,= S
n
)
Da
X ,= S
n

n
_
j=1
X
n,j
2
ist, folgt aus (2.4.8)
lim
n
P(S
n
= k X ,= S
n
) = 0,
lim
n
P(X = k X ,= S
n
) = 0.
Also ist PX = k = lim
n
PS
n
= k = P
t
k.
Anmerkung. Bei der Herleitung der Poisson-Verteilung in der
obigen Anmerkung haben wir vorausgesetzt, da sich X als
Summe von n unabhangigen, identisch verteilten Zufallsvaria-
blen schreiben lat. Wir wollen zeigen, da dies f ur eine Poisson-
verteilte Zufallsvariable f ur jedes n einzeln moglich ist, indem wir
X durch eine passende Zufallsvariable

X mit der gleichen Vertei-
lung ersetzen. Eigentlich benotigen wir einen W-Raum, auf dem
dies f ur alle n zugleich moglich ist.
In der

Ubung wird gezeigt, da f ur unabhangig Zufallsvariable
X und Y , die Poisson-verteilt sind mit den Parametern bzw ,
die Summe X +Y wieder Poisson-verteilt ist mit dem Parameter
+.
Es sei X Poisson-verteilt mit dem Parameter . Man wahle eine
Zufallsvariable Y die Poisson-verteilt mit dem Parameter /n ist.
Z.B. die identische Abbildung von (, P) := (N
0
, P
/n
).
Man bilde nun das n-fache Produkt (
n
, P
n
) mit den Projek-
tionen pr
:
n
und setze
X
= Y pr
f ur = 1, . . . , n.
Die X
sind unabhangig und P

/n
verteilt. Also ist
X :=
n
=1
X
verteilt.
Da X und

X dieselbe Verteilung haben, kann man X durch

X
ersetzen. Die letztere Zufallsvariable ist die Summe von n identisch
verteilten unabhangigen Zufallsvariablen.
AUME 53
2.5 Allgemeine W-Raume
Anmerkung. Wir geben die formale Denition eines W-Raumes.
Die diskreten W-Raume ordnen sich hier als wichtiges Beispiel
ein. Wir werden keine tieferliegenden Ergebnisse uber allgemeine
W-Raume herleiten, sondern benotigen die Denition im wesent-
lichen, um in den folgenden Beispielen die ubliche Terminologie
verwenden zu konnen.
Es erweist sich als zweckmaig und vielfach aus Gr unden der
Logik als notwendig, da man bei uberabzahlbaren Ereignisraum-
en, wie z.B. bei den reellen Zahlen R, als Ereignisse nicht mehr
alle Teilmengen des Grundraumes zulat, sondern sich auf eine
kleineres Mengensystem beschrankt, da alle
interessierenden
Ereignisse enthalt. Im Fall der reellen Zahlen wird man z. B. die
Wahrscheinlichkeit von Intervallen berechnen wollen.
Wie wir bei der Untersuchung diskreter W-Raume bereits gese-
hen haben, ist das wesentliche theoretische und rechnerische Hilfs-
mittel die Approximation durch einfachere Modelle. Der

Ubergang
zu Grenzwerten vereinfacht einerseits die Theorie aber auch die
praktische Berechnung. Der Grenzwert ist der ideale genaue Wert,
mit den man jede Approximation vergleichen kann. Die Kenntnis
des Grenzwertes ermoglicht es oft andere, bessere Naherungen zu
nden, als die, mit denen man zunachst die Existenz des Grenz-
wertes und seine Eigenschaften gefunden hat.
Um Grenzwerte bilden zu konnen, m ussen wir f ur die Ereig-
nisse abzahlbare Mengenoperationen (Vereinigung, Durchschnitt,
Komplement) zulassen. Im Falle der reellen zahlen kommt man
also nicht umhin, auch all die Teilmengen zu betrachten, die sich
durch
beliebig wiederholte abzahlbare Mengenoperationen aus

Intervallen bilden lassen. Man nennt dies das System der Borel-
Mengen B(R) auf R. Es wird sehr aufwendig und ist auch nicht
notig, dieses Mengensystem durch Konstruktionsvorschriften zu
beschreiben. Man charakterisiert die Borel-Mengen B(R) als das
kleinste Mengensystem, das alle Intervalle enthalt und aus dem
abzahlbaren Mengenoperationen nicht hinausf uhren.
Um diese Gedanken zu prazisieren gibt man eine axiomatische
Charakterisierung und gelangt so zum Begri der -Algebra:
2.5.1 Def. (-Algebra)
Es sei eine Menge. eine Teilmenge / 2
heit ein
Mengensystem auf .
Ein Mengensystem / heit eine -Algebra, wenn fol-
gendes gilt:
1. /
2. Mit A / ist auch das komplementare Menge
A
c
/.
3. Ist (A)
nN
in /, so ist auch
_
n=1
A
n
/.
In der W-Theorie nennt das Paar (, /) einen Ereignis-
raum und die Elemente von / Ereignisse. In der Ma-
theorie sagt man Meraum oder mebarer Raum
dazu.
Anmerkung.
1. Man beachte, es nicht gefordert wird, da eine -Algebra
f ur beliebige Familien (A
i
)
iI
die Vereingungen
iI
A
i
enthalt.
Diese Eigenschaft ist i.a. auch falsch.
Ein einfaches Beispiel ist die sonst nicht weiter interessante
-Algebra
, := A R [ A oder A
c
hochstens abzahlbar.
Es sind alle einpunktigen Mengen a ,. Jede Menge ist Verei-
nigung ihrer Punkte. Da R uberabzahlbar ist, ist , , = 2
R
, z.B. ist
das Intervall [0, ) , ,.
2. In den Axiomen einer -Algebra steht auch nicht, da die
einpunktigen Mengen zu , gehoren. Das wird aber haug der Fall
sein.
2.5.2 Festst. (Rechenregeln: -Algebren)
Es sei / eine -Algebra auf der Menge .
(i) Es ist =
c
/.
(ii) Sind A
1
, . . . , A
n
/, so erganze man sie durch
= A
n+1
= A
n+2
= . . . zu einer Folge. Somit ist die
endliche Vereinigung A
1
A
n
=
n=1
A
n
/.
(iii) Es sei (A
n
)
nN
in /. Nach der de Morganschen
Regel gilt:
n=1
A
n
=
_

_
n=1
A
c
n
_
c
/.
(iv) Analog zum Punkt (ii) ist mit A
1
, . . . , A
n
/
auch der Durchschnitt A
1
A
n
/.
(v) Ist (A
n
)
nN
in / eine fallende Folge, d.h.
A
1
A
2
A
n
A
n+1
,
dann kann man A
k
als disjunkte Vereinigung schreiben:
A
k
=
_

n=1
A
n
_
_
n=k
(A
n
A
n+1
),
Das System
j=1
A
j
und (A
n
A
n+1
)
n
besteht aus paar-
weise disjunkten Mengen. Ist (A
n
)
n
eine beliebige Folge
in /, dann kann man die Vereinigung der A
n
als dis-
junkte Vereinigung schreiben:
_
n=k
A
n
=
_
n=1
_
A
n
n1
_
i=1
A
i
_
Also
_
n=k
A
n
= A
1
(A
2
A
1
) (A
3
(A
1
A
2
)) . . .
2.5.3 Bsp. (-Algebren)
1. F ur eine beliebige Menge ist die Potenzmenge 2
eine -Algebra auf . 2
ist oensichtlich die grote

-Algebra auf . Sie ist i.a. viel zu gro.
Die kleinste -Algebra auf ist , .
2. Der Durchschnitt einer beliebigen Familie von -
Algebren auf ist eine -Algebra.
3. Wenn =
n
[ n N hochstens abzahlbar un-
endlich ist, so ist 2
die kleinste -Algebra auf , die

alle einelementigen Teilmengen (Punkte) von enthalt.
Aus diesem Grunde rechnet man bei diskreten W-Raum-
en immer mit der vollen Potenzmenge.
4. Zu / 2
gibt es eine kleinste / umfassende

-Algebra, die man mit (/) bezeichnet.
Beweis. Die Potenzmenge 2
ist eine -Algebra ist, die / enthalt.

Nun bilde man den Durchschnitt aller -Algebren, die / enthalten.
Dieser Durchschnitt ist nicht leer, ist eine -Algebra, und enthalt /.
5. Ist insbesondere = R, so bezeichnet man mit
B(R) die kleinste -Algebra auf R, die alle oenen Men-
gen enthalt. B(R) heit die Borel-Algebra von R.
AUME 54
Jedes abgeschlossene oder halbabgeschlossene Inter-
vall ist Durchschnitt von abzahlbar vielen oenen Inter-
vallen:
[a, b] =
n=1
(a
1
n
, b +
1
n
),
[a, b) =
n=1
(a
1
n
, b).
Weiterhin ist jede oene Menge in R die Vereinigung von
hochstens abzahlbar vielen oenen Intervallen. Daher ist
B(R) auch die kleinste -Algebra die alle beschrankten
Intervalle enthalt.
B(R) ist auch die kleinste -Algebra, die alle Intervalle
der Form (, a] enthalt.
Weiterhin ist jede einpunktige Menge a = [a, a]
B(R) und somit auch jede abzahlbare Menge in B(R)).
Wenn man von dem EreignisraumR spricht, ist immer
(R, B(R)) gemeint.
6. F ur ein Intervall I R sei
B(I) := A [ A B(R) und A I.
B(I) ist die kleinste -Algebra auf I, die alle Teilinter-
valle von I enthalt.
7. Die Borel-Algebra B(R
d
) ist die kleinste -Algebra,
die alle oenen Teilmengen des R
d
enthalt. Wie im Fal-
le n = 1 zeigt man, da B(R
n
) die kleinste -Algebra
ist, die alle oenen oder alle halboenen oder alle abge-
schlossenen achsenparallelen Quader enthalt.
Weiterhin ist B(R
d
) die kleinste -Algebra, die alle
Mengen der Form
(, a
1
] (, a
2
] (, a
n
]
enthalt.
2.5.4 Bem. (Bild und Urbild einer -Algebra)
1. Es seien (, /) ein Meraum,

eine Menge und
X :

eine Abbildung. Dann ist
/ := B 2
[ X
1
(B) /
eine -Algebra.
Man beachte, das das Mengensystem X(A) [ A , i.a. keine
-Algebra ist, selbst wenn X surjektiv ist, da i.a. X(A)
c
,= X(A
c
)
ist.
2. Es seien eine Menge, (
,

/) eine Meraum und
X :

eine Abbildung. Dann ist
X
1
(/) := A 2
[ A = X
1
(B) f ur ein B

/
eine -Algebra.
Anmerkung. Wir denieren nun den allgemeinste Version eines
W-Raumes.
2.5.5 Def. (W-Ma auf einer -Algebra)
Es sei (, /) ein Meraum. Eine Abbildung P : /
[0, 1] heit ein W-Ma, wenn die Axiome von Kolmogo-
rov gelten:
1. P() = 1.
2. F ur eine Folge (A
n
)
nN
paarweise disjunkter Er-
eignisse in / gilt
P
_

_
n=1
A
n
_
=
n=1
P(A
n
) (-additiv)
Das Tripel (, /, P) heit ein W-Raum.
2.5.6 Satz (Rechenregeln: W-Mae)
Es sei (, /, P) ein W-Raum (Denition 2.5.5). Dann
gilt
(i) F ur zwei disjunkte Mengen A, B / ist
P(A B) = P(A) +P(B) (additiv)
Es gelten also alle Rechenregeln aus Feststellung 1.1.6
uber endliche Mengenoperationen.
(ii) F ur eine beliebige Folge (A
n
)
n
in / gilt
P
_

_
n=1
A
n
_
n=1
P(A
n
) (-subadditiv)
(iii) F ur eine monoton fallende Folge (A
n
)
nN
in /
gilt
P
_

n=1
_
= lim
n
P(A
n
). (von oben stetig)
(iv) F ur eine monoton wachsende Folge (A
n
)
nN
in /
gilt
P
_

_
n=1
_
= lim
n
P(A
n
). (von unten stetig)
2.5.7 Bsp. (Uniforme Verteilung)
1. Man zeigt in allen gangigen Lehrb uchern zur Ana-
lysis III, da es genau eine W-Ma U auf den Borel-
Mengen B([0, 1]) gibt, so das
U[a, b] := b a f ur 0 a b < 1.
gilt. Aus Stetigkeit von oben bzw. unten folgt dann
U[a, b) = U(a, b] = U(a, b) = U[a, b]
Man nennt diese W-Ma die uniforme Verteilung auf
[0, 1]. In den Lehrb uchern zur Analysis heit diese W-
Ma das Lebesgue-Ma und wird mit bezeichnet.
2. Das Lebesgue-Ma existiert auch auf jedem ande-
ren echten, beschrankten Intervall I R. Um die unifor-
me Verteilung auf I zu erhalten, mu man normieren.
Man setzt
U
I
(A) :=
(A)
(I)
f ur A B(I).
Ist I = [a, b], so gilt also
U
I
([c, d]) =
d c
b a
f ur a c < d b.
AUME 55
2.6 Zufallsvariable und ihre Verteilung
2.6.1 Def. (mebare Abb, Zufallsvariable)
1. Es seien (, /) und (
,

/) Meraume. Eine Abbil-
dung X :

heit mebar, wenn
X
1
(B) / f ur B

/.
2. Ist (, /, P) ein W-Raum und (
,

/) ein Me-
raum, dann heit eine mebare Abbildung X :

eine Zufallsvariable.
Wir schreiben hierf ur kurz X : (, /, P) (
,

/).
Anmerkung. F ur jede Zufallsvariable X : (, ,, P) (
,

,)
deniert jedes B

, ein Ereignis X B = X
1
(B) ,,
dessen Wahrscheinlichkeit PX B man bilden kann. Wie im
endlichen und diskreten Fall ( Satz 1.6.3) heit
P
X
: B PX B f ur B

,
die Bildverteilung von X.
2.6.2 Festst. (Regeln: Zufallsvariable)
(i) Es seien (, /, P) ein W-Raum, (
,

/) und (
,

/)
Meraume. Ist X :

eine Zufallsvariable und :

mebar, dann ist X wieder Mebar, also eine
Zufallsvariable.
(ii) Es seien (, /, P) ein W-Raum, (
,

/) ein Me-
raum und Ist T ein Erzeugendensystem von

/, d.h.,
(T) = /.
Eine Abbildung X :

ist bereits eine Zufallsva-
riable, wenn
X
1
(D) / f ur alle D T gilt.
Beweis. (i) Nach Vorausetzung ist f ur alle C

,
( X)
1
(C) = X
1
(
1
(C)) ,.
(ii) Das Mengensystem
, := A 2
[ X
1
(A) ,
ist eine -Algebra, die T umfat. Also ist

, = (T)

,.
2.6.3 Satz (Verteilung einer Zufallsvariablen)
Es seien (, /, P) ein W-Raum, (
,

/) ein Meraum
und X :

eine Zufallsvariable. Dann ist die Abbil-
dung
P
X
:

/) [0, 1],
P
X
: B P(X
1
(B)) f ur B

/
ein W-Ma auf

/.
P
X
heit die Verteilung von X oder das Bildma von
P unter X. (
,

/, P
X
) heit der von X induzierte W-
Raum.
Beweis. Wir weisen die Eigenschaften aus Denition 2.5.5 nach. P
X
ist eine Abbildung von

, in [0, 1] mit P
X
(
) = 1. Wir zeigen die

-Additivitat: F ur eine Folge (B
n
)
n
paarweise disjunkter Mengen in
, gilt
P
X
_

_
n=1
B
n
_
= P
_
X
1
_

_
n=1
B
n
_
_
= P
_

_
n=1
X
1
(B
n
)
_
=
n=1
P(X
1
(B
n
)) =
n=1
P
X
(B
n
).
Man beachte, wenn B
1
, B
2
disjunkt sind, so sind auch die Urbilder
X
1
(B
1
) und X
1
(B
2
) disjunkt.
Anmerkung. Die Feststellung 1.6.4 gilt sinngema weiter:
2.6.4 Bem. (Funktionen von Zufallsvariablen)
Gegeben seien ein W-Raum (, /, P), Meraume (
,

/)
(
,

/) und Zufallsvariable
X :

, Y :

und eine mebare Abbildung Z :

so, da
X = Z Y
ist. Man bilde den W-Raum (
, P
Y
). Dann haben die
Zufallsvariablen
X : (, P)

und Z : (
, P
Y
)

die gleiche Verteilung: (
, P
X
) = (
; P
Z
) oder kurz
(P
Y
)
Z
= P
ZY
. (2.6.1)
AUME 56
2.7 Eindeutigkeit eines W-Maes
Anmerkung. (Problem: W-Funktion zu U identisch 0)
1. F ur die Uniforme Verteilung auf [0, 1] hat jede einpunktige
Menge das Ma Null:
Ua = lim
n
U([a
1
n
, a +
1
n
]) = 0.
Bei endlichen und diskreten W-Raumen (, P) ist die W-Funktion
p : P ein n utzliches Hilfsmittel ( Satz 1.1.7). Im Falle
der uniformen Verteilung ist die W-Funktion identisch 0 und n utzt
nichts bei der Berechnung von U.
2. Da es i.a. nicht einfach ist, die Werte P(A) eines W-Maes
P f ur alle A , zu berechnen, sucht man nach einem moglichst
einfachen Mengensystem T ,, derart da P durch seine Werte
auf T eindeutig festgelegt ist. Das obige Beispiel zeigt, da die
einpunktigen Mengen dazu i.a. nicht geeignet sind.
Der folgende Satz aus der Matheorie, den wir ohne Beweis
angeben, sagt, wie ein solches Mengensystem T beschaen sein
mu. F ur einen Beweis siehe z.B. [2, Anhang M.4 ].
3. In den Anwendungen rechnet man die meiste Zeit mit der
Wahrscheinlichkeit von Ereignissen aus T. Aber ab und zu ist
es doch wichtig, da man nicht auf diese kleine Mengensystem
beschrankt ist, sondern sich gedanklich in der von T erzeugten
-Algebra frei bewegen kann.
2.7.1 Satz (Dynkin: Eindeutigkeit v. W-Maen)
Es seien (, /) ein Meraum und P, Q zwei W-Mae
auf /. Ist T / ein
-stabiles Mengensystem und

stimmen P und Q auf T uberein, so stimmen sie auch
auf der erzeugten -Algebra (T) uberein. Wenn also
(T) = / ist, so folgt P = Q.
Dabei bedeutet, T ist
-stabil:
D E T f ur alle D, E T.
2.7.2 Bsp. (zum Satz von Dynkin)
Das Mengensystem
T :=
_
(, x
1
] (, x
n
] [ x R
d
_
ist

-stabil und erzeugt die Borel-Algebra B(R
d
). Satz
2.7.1 f uhrt zu der Denition 2.8.1 der Verteilungsfunk-
tion F(x) := P((]) eines W-Maes auf R.
Bsp. Sei = 1, 2, 3, 4 und T = 1, 2, 2, 3. Da
1 = 1, 2 \ 2, 3,
2 = 1, 2 2, 3,
3 = 2, 3 \ 1, 2,
4 = \
_
1, 2 2, 3
_
gilt, ist die von T erzeugte -Algebra gleich der Potenzmenge 2
.
T ist nicht
-stabil. Hier sind zwei verschieden W-Mae auf ,

die auf T ubereinstimmen:
P Laplace-W. auf ,
Q := P([2, 4).
Dieses Beispiel zeigt, da im Satz 2.7.1 die Voraussetzung, das
erzeugende System T ist
-stabil, wirklich benotigt wird.

2.8 Verteilungsfunktion
Anmerkung. Das Beispiel 2.7.2 f uhrt zu der folgenden Denition:
2.8.1 Def. (Verteilungsfunktion)
Ein W-Ma P auf B(R
d
) ist eindeutig durch seine Ver-
teilungsfunktion
F : R
d
[0, 1],
F : x P
_
(, x
1
] (, x
n
]
_
festgelegt.
Manchmal nennt man F auch kurz die Verteilung von P. Die Be-
zeichnung
Verteilung wird aber ebenfalls f ur das Bildma einer

Zufallsvariablen benutzt. Bei einer Zufallsvariablen X : (, P)
R
d
mu man sorgfaltig zwischen dem Bildma P
X
und der Vertei-
lungsfunktion F
X
von P
X
unterscheiden! Zur Unterscheidung wird
f ur F
X
auch die Bezeichnung kumulative Verteilung verwendet.
2.8.2 Festst. (Verteilungsfkt. rechtsseitig stetig)
Es sei P ein W-Ma auf (R, B(R)) mit Verteilungsfunk-
tion F. Dann gilt
(i) F ur jede monoton fallende Folge (x
n
)
n
, mit
lim
n
x
n
= b gilt
lim
n
F(x
n
) = P
_

n=1
(, x
n
]
_
= P
_
(, b]
_
= F(b).
F ist also rechtsseitig stetig.
(ii) F ur jede monoton fallende Folge (x
n
)
n
, mit
lim
n
x
n
= gilt
lim
n
F(x
n
) = P
_

n=1
(, x
n
]
_
= P() = 0.
Es ist also lim
x
F(x) = 0.
(iii) F ur jede monoton wachsende Folge (x
n
)
n
, mit
lim
n
x
n
= gilt
lim
n
F(x
n
) = P
_

_
n=1
(, x
n
]
_
= P
_
(,
_
= 1.
Es ist also lim
x
F(x) = 1.
Anmerkung. In der Matheorie zeigt man die Umkehrung zu
Feststellung 2.8.2.
2.8.3 Satz (Ma zu einer Verteilungsfkt.)
Sei F : R [0, 1] eine monoton wachsende, rechtsseitig
stetige Funktion mit
lim
x
F(x) = 0 und lim
x
F(x) = 1.
Dann gibt es genau eine W-Ma P auf der Borel-Algebra
B(R), so da F die Verteilungsfunktion von P ist:
P
_
(, x]
_
= F(x) f ur x R.
AUME 57
Anmerkung. (Zum Bew. von Satz 2.8.3) 1. Wir konstruieren
das gesuchte Ma P als die Verteilung einer Zufallsvariablen
X : (0, 1) R,
die man die Quantilfunktion von F nennt.
Dabei tragt (0, 1) die uniforme Verteilung U(Beispiel 2.5.7).
und P ist das Bildma U
X
. Die Abbildung X ist eine Art
Um-
kehrfunktion zu F. Die genaue Konstruktion, die noch weitere
Anwendungen ndet, formulieren wir in Feststellung 2.8.4.
2. Wenn F : R (0, 1) stetig und streng monoton wachsend
ist, und
lim
x
F(x) = 0 und lim
x
F(x) = 1.
gilt, so folgt aus dem Zwischenwertsatz, da das Bild F(R) = (0, 1)
ist. F ist also bijektiv und hat eine stetige Umkehrfunktion X :
(0, 1) R, die die gew unschte Gleichung (2.8.2) erf ullt.
3. Wenn F nur monoton wachsend ist oder Sprungstellen hat,
deniert man eine verallgemeinerte Umkehrfunktion, die soge-
nannte Quantilfunktion:
2.8.4 Festst. (Quantilfunktion)
Sei F : R [0, 1] eine monoton wachsende, rechtsseitig
stetige Funktion mit
lim
x
F(x) = 0 und lim
x
F(x) = 1.
(i) Die Quantilfunktion (Quantil-Transformation) X
zu F wird deniert durch
X(t) := minx R [ F(x) t f ur t (0, 1). (2.8.1)
Man beachte, da F rechtsseitig stetig ist, wird das Minimum in
Gleichung (2.8.1) wirklich angenommen. Man zeichne ein Bild, das
zeigt
was in einer Sprungstelle von F passiert,
was passiert, wenn F auf einem Teilintervall konstant ist
und wie X jeweils aussieht.
(ii) Nach Konstruktion der Quantilfunktion X gilt f ur
t (0, 1), x R
X(t) x t F(x)
X
1
((, x]) = (0, F(x)] B((0, 1), (2.8.2)
Aus Gleichung (2.8.2) folgt, da X :
_
(0, 1), B((0, 1)
_
(R, B(R)) mebar ist.

Anmerkung. Aus Gleichung (2.8.2) folgt f ur das Bildma der
Quantilfunktion X:
2.8.5 Folg. (Verteilung der Quantilfunktion)
Die Quantilfunktion X ist eine reelle Zufallsvariable auf
dem W-Raum (0, 1) mit der uniformen Verteilung U und
es gilt
U
_
X
1
(, x]
_
= U
_
(0, F(x)]
_
= F(x).
D.h. F ist die Verteilungsfunktion ihrer Quantilfunktion
X.
Anmerkung. Da jedes W-Ma P auf (R, B(R)
_
durch seine Ver-
teilungsfunktion F eindeutig bestimmt ist ( Denition 2.8.1),
kann man die Folgerung 2.8.5 auch so aussprechen:
2.8.6 Folg.
Jedes W-Ma P auf (R, B(R)
_
ist Bildma einer reel-
len Zufallsvariablen auf dem Wahrscheinlichkeitsraum
_
(0, 1), B(0, 1), U
(0,1)
_
.
Anmerkung. Da viele Programmiersprachen eine Funktion (ran-
dom) bieten, die eine uniform auf (0, 1) verteilte Zufallsvariable
nachbilden, ermoglicht die Konstruktion in Folgerung 2.8.6 die Si-
mulation beliebiger reellwertiger Zufallsprozesse.
Anmerkung. (Quartile und Median) Mit der Quantilfunktion
bestimmt man die sogenannten Quantile eines W-Maes P, bzw
einer Verteilungsfunktion F, bzw einer Zufallsvariablen X. Eine
Zahl q R heit ein -Quantil, 0 < < 1, von P, wenn
P
_
(, q]
_
und P
_
[q, )
_
1 .
Ein
1
2
-Quantil q
1/2
heit ein Median. Ein Median ist ein
Punkt in R, an dem die Verteilungsfunktion das Niveau 1/2 ge-
rade ubersteigt oder uberspringt. Im Fall einer Sprungstelle zahlt
dieser Punkt sowohl bei der linken wie bei der rechten Halfte mit.
Wenn die Verteilungsfunktion in diesem Punkt nicht strikt mono-
ton wachst, ist der Median nicht eindeutig bestimmt.
Ist P die Verteilung einer reellen Zufallsvariablen X, so besagt
q ist ein -Quantil von X, da die Wahrscheinlichkeit f ur Be-

obachtungen von X,
die q sind, mindestens ist,
die q sind, mindestens (1 ) ist.
F ur eine reelle Zufallsvariable X auf einem Laplaceraum teilt das
1/4-Quantil q
1/4
grob gesprochen die Anzahl der Beobachtungen
von X in einer langen Beobachtungsreihe im Verhaltnis 1/4 zu 3/4
auf.
AUME 58
2.9 Dichtefunktion, stetige Verteilungen
Anmerkung. (Lebesgue-Ma und Lebesgue-Integral)
1. Auf (R, B(R)) existiert eindeutig ein Ma so, da das Ma
(I) eines jeden beschrankten Intervalls I gleich seiner Lange ist.
Dieses Ma heit das Lebesgue-Ma auf den Borel-Mengen
B(R).
Deniert wird das Lebesgue-Ma auf B(R) wie folgt: Ist G R
oen, so ist G Vereinigung von abzahlbar vielen oenen Intervallen
G =
n=1
(a
n
, b
n
), wobei a
n
< b
n
gilt. Man setzt dann
(G) =
_
_
_
n=1
(b
n
a
n
) wenn alle a
n
, b
n
R,
sonst.
F ur eine beliebige Menge A B(R) betrachtet man alle oenen
Mengen G, die A umfassen und setzt dann
(A) = inf
AG
(G).
Nun kann man zeigen, da so ein eindeutiges, wohldeniertes Ma
auf B(R) erklart wird, und, da f ur Intervalle I das Lebesgue-
Ma (I) die Lange des Intervalls ist.
2. Analog gibt es auf dem (R
d
, B(R
n
)) eindeutig das d-
dimensionale Lebesgue-Ma
d
, welches f ur Quader und an-
dere elementare Korper den elementaren Inhalt angibt.
3. Da (R) = ist, kann man durch Normierung aus R keinen
W-Raum machen. Um weitere Beispiel zu gewinnen, gehen wir
folgendermaen vor: Wenn f : R [0, ) eine intergrierbare,
nichtnegative Funktion mit
_

f(x) dx = 1 ()
ist, so setze man f ur Intervalle (a, b], a < b < ,
P
f
((a, b]) =
_
b
a
f(x) dx. ()
Dies erzeugt dann ein eindeutig bestimmtes W-Ma P
f
auf den
Borel-Mengen B(R). Man nennt f die Dichtefunktion dieses Ma-
es P
f
.
4. Wir m ussen noch ein paar Worte dar uber verlieren, was inte-
grierbare Funktion bedeutet und was das das Integral in der Glei-
chung () bzw. () eigentlich ist. F ur eine tragkraftige Theorie
braucht man hier das Lebesgue-Integral, Dieses ist eine Erwei-
terung des Riemann-Integrals mit vielen schonen und praktischen
Eigenschaften, die man bei dem enger gefaten Riemann-Integral
noch nicht ndet.
In vielen praktischen Fallen ist die Funktion f stetig oder st uck-
weise stetig, so da man die Integrale () und () mit Hilfe einer
Stammfunktion F bilden kann:
P
f
((a, b]) =
_
b
a
f(x) dx = F(b) F(a) (
)
P
f
(R) =
_

f(x) dx = lim
x
F(x) lim
y
F(y) (
)
Aber auch in diesem einfachen Fall ist das Lebesgue-Integral,
das nat urlich den selben Wert hat, ein n utzlicher Helfer.
5. Wir geben die allgemeine Denition einer Dichtefunktion,
beschranken uns in den Beispielen dann aber auf den st uckweise
stetigen Fall.
2.9.1 Def. (Dichtefunktion, stetiges W-Ma)
Eine integrierbare, nicht-negative Funktion f : R
[0, ) heit Dichtefunktion eines Wahrscheinlichkeits-
maes P auf B(R), wenn f ur alle a, b mit a <
b < gilt
P((a, b]) =
_
b
a
f(x) dx. (2.9.1)
Man nennt f auch Wahrscheinlichkeitsdichte oder kurz
Dichte von P.
Ein Wahrscheinlichkeitsma auf B(R) mit Dichtefunk-
tion heit ein stetiges W-Ma.
Anmerkung.
1. Wir benotigen im folgenden nur den Fall, da f stetig oder
st uckweise ist.
2. Wenn ein W-Ma P auf B(R) eine Dichtefunktion f hat, so
ist diese nicht ganz eindeutig bestimmt. So kann man f in endlich
vielen Punkten abandern, ohne den Wert des Integrals (2.9.1) zu
verandern.
Man kann zeigen, sind f
1
und f
2
Dichtefunktionen von P, so
ist die Menge f
1
,= f
2
eine Lebesgue-Nullmenge:
f
1
,= f
2
= 0.
Dann ist auch Pf
1
,= f
2
= 0.
2.9.2 Festst. (Verteilungs- und Dichtefunktion)
Es sei P ein W-Ma auf R mit Verteilungsfunktion F.
1. f ist genau dann die Dichtfunktion von P, wenn
F(x) =
_
x
f() d f ur x R (2.9.2)
gilt.
2. Man kann den Begri der Ableitung einer Funktion da-
hingehend verallgemeinern, da man die Gleichung (2.9.2) als
F
= f schreiben kann. Wir wollen diese Verallgemeinerung

nicht weiter verfolgen. Aus dem Hauptsatz der Dierential
und Integralrechnung folgt:
Ist die Verteilungsfunktion F bis auf endlich viele Aus-
nahmepunkte stetig dierenzierbar und gilt F
t
= f, so
ist f die Dichtefunktion von P.
2.9.3 Bsp. (Dichtfnkt. der uniform. Verteilng.)
1. Ein W-Mae P auf einem Intervall I kann man als
W-Mae auf ganz R auassen. Man setze
P(A) := P(A I) f ur A B(R).
Das so fortgesetzte W-Ma P ist auf I konzentriert und die be-
dingte Wahrscheinlichkeit P(.[I) = P.
2. Fat man die uniforme Verteilung U
[0,1]
im obigen
Sinne als W-Ma auf R auf, so hat U
[0,1]
die Verteilungs-
funktion
F(x) :=
_
_
0 f ur x < 0,
x f ur 0 x 1,
1 f ur x > 1.
und die Dichtefunktion
f(x) :=
_
_
0 f ur x < 0,
1 f ur 0 x 1,
0 f ur x > 1.
Da es auf einzelne Werte der Dichtefunktion nicht ankommt, kann
man auch f in den Punkten 0 und 1 auf den Wert 0 setzen. D.h,
f = 1l
[0,1]
oder f = 1l
[0,1)
usw.
2.9.4 Bem. (Dichtefunktion auf R
d
)
Es sei P ein W-Ma auf (R
d
, B(R
d
)) mit Verteilungs-
funktion
F(x
1
, . . . , x
d
) = P
_
(, x
1
] (, x
d
]
_
AUME 59
f ur x = (x
i
)
d
i=1
R
d
. Eine integrierbare, nichtnegative
Funktion f : R
d
[0, ) ist die Dichtefunktion des
W-Maes P, wenn f ur alle x = (x
i
)
d
i=1
R
d
gilt
F(x
1
, . . . , x
d
) =
_
x
1

_
x
d
f(
1
, . . . ,
d
) d
1
d
d
.
Dann gilt f ur alle Quader A = (a
1
, b
1
] (a
d
, b
d
]
P(a) =
_
b
1
a
1

_
b
d
a
d
f(
1
, . . . ,
d
) d
1
d
d
.
2.10 Exponentialverteilung
2.10.1 Bez. (Exponentialverteilung)
Die Exponentialverteilung ist das kontinuierliche Analo-
gon zur geometrischen Verteilung ( Beispiel 2.1.3).
(i) Die Exponentialverteilung mit dem Parameter >
0 hat die Dichtefunktion
f(x) =
_
e
x
f ur x > 0,
0 f ur x 0
= e
x
1l
(0,)
(x).
und die Verteilungsfunktion
F(x) =
_
1 e
x
f ur x > 0,
0 f ur x 0
= (1 e
x
)1l
(0,)
(x).
F ur die Quantilfunktion erhalt man
X(t) :=
log(1 t)
f ur t (0, 1).
(ii) Die Bedeutung des Parameters > 0 erklart sich
aus dem Erwartungswert und der Varianz einer
exponentialverteilten Zufallsvariablen X:
E(X) =
_

0
xe
x
dx =
1
,
Var(X) = E(X
2
) (EX)
2
=
1
2
.
Anmerkung. In den folgenden beiden Bemerkungen diskutieren
wir Zufallsexperimente, in denen die Exponentialverteilung typi-
scherweise auftritt.
2.10.2 Bem. (geom. Vert. exp.Vert.)
Um den Zusammenhang zur geometrischen Verteilung
(Beispiel 2.1.3) herzustellen, sei (X
n
)
n
eine Folge geo-
metrisch verteilter Zufallsvariabler mit den Parametern
p
n
. Wir setzen voraus, da lim
n
np
n
= ist. Der Grenz-
wert der Erwartungswerte der Variablen X
n
/n ist dann
( Feststellung 2.2.5)
E
_
X
n
n
_
=
1
np
n
1
n

1
.
F ur x > 0 betrachten wir die Wahrscheinlichkeit der
Menge
_
X
n
n
x
_
= X
n
nx
Da die geometrische Verteilung auf N
0
konzentriert ist,
haben X
n
nx und X
n
nx| die gleiche Wahr-
scheinlichkeit, wobei nx| die grote ganze Zahl nx
ist. F ur die Verteilungsfunktion von X
n
/n folgt nun
P
X
n
/n
((, x]) = P
X
n
((, nx|])
=
nx
k=0
_
1 p
n
_
k
p
n
= 1
_
1 p
n
_
nx+1
= 1
_
1
np
n
n
_
nx+1
.
AUME 60
F ur n konvergiert dies gegen 1 e
x
( Be-
merkung 2.4.4) Somit ist X
n
/n f ur groe n annahernd
exponentialverteilt mit dem Parameter = lim
n
np
n
.
Anmerkung. (Interpretation der Rechnung in Bem.
2.10.2) Die geometrische Verteilung G
p
k, k N
0
, gibt die
Wahrscheinlichkeit an, da in einem oft genug wiederholten
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p der erste
Erfolg nach k Mierfolgen eintritt. Man stelle sich vor, da die
einzelnen Bernoulli-Experimente in einem festen Takt mit Takt-
zeit 1 durchgef uhrt werden. Verk urzt man die Taktzeit auf 1/n,
n N, so sei die Erfolgswahrscheinlichkeit p
n
. Die Zufallsvariable
X
n
gebe an, wieviele Takte der Lange 1/n vergangen sind, bis der
erste Erfolg eintritt. Die Zufallsvariable X
n
/n gibt grob gesagt die
Zeit an, die verstrichen ist, bis der erste Erfolg eintritt.
Die getroene Voraussetzung np
n
besagt, da der Erwar-
tungswert f ur die Zeit bis zum ersten Erfolg gegen 1/ konvergiert.
Die Rechnung zeigt, da dann die Verteilungsfunktion von X
n
/n
gegen die Verteilungsfunktion der Exponentialverteilung zum Pa-
rameter konvergiert.
2.10.3 Bem.
Wir erinnern an das Beispiel 2.4.5 der Anzahl der Scha-
densmeldungen, die bei einer Versicherung nach dem
Zeitpunkt 0 bis einschlielich zum Zeitpunkt t > 0 ein-
gehen. Wenn > 0 die durchschnittliche Zahl der Scha-
densmeldungen in einem Zeitraum der Lange 1 ist, so ist
die Anzahl der Schadensmeldungen im Zeitraum (0, t]
Poisson-verteilt mit dem Parameter t.
Wir fragen nun nach der Wahrscheinlichkeit P
_
(0, t]
_
,
da im Zeitraum (0, t], (t > 0), mindestens ein Schaden
gemeldet wurde:
P
_
(0, t]
_
=
k=1
P
t
k = 1 P
t
0 = 1 e
t
.
Da wir erst die Schaden nach dem Zeitpunkt 0 registrie-
ren, ist P
_
(, 0]
_
= 0. Die Wahrscheinlichkeit f ur min-
destens einen Schadensfall bis zum Zeitpunkt t ist also
exponentialverteilt mit Parameter :
P
_
(, t]
_
=
_
1 e
t
(t > 0),
0 (t 0).
Anmerkung. Wir halten fest, bei einem Experiment mit rein
zufallig auftretenden Zeitpunkten, ist die Anzahl der Zeitpunkte
im Zeitintervall (0, t] Poisson-verteilt mit Parameter t und die
Wartezeit auf den ersten Zeitpunkt exponentialverteilt mit Para-
meter . Dabei ist die durchschnittliche Anzahl der Zeitpunkte
pro Zeiteinheit und 1/ die durchschnitliche Wartezeit.
Eine exakte Untersuchung ndet man in den Lehrb uchern
zur Wahrscheinlichkeitstheorie unter dem Stichwort Poisson-
Prozess.
AUME 61
2.11 Normalverteilung
Anmerkung. (Formeln zur Normalverteilung) Die Funktion
: x
1
2
e
x
2
/2
f ur x R (2.11.1)
ist positiv und symmetrisch um den Nullpunkt. Die Funktion
fallt sehr schnell, so da f ur alle Potenzen k N
0
lim
x
x
k
(x) = 0 (2.11.2)
ist. Man kann zeigen, da diese Funktion keine Stammfunktion in-
nerhalb der elementaren Funktionen (x
y
, log x, e
x
, sin x, cos x, . . . )
hat. Man bezeichnet die Stammfunktion mit
: x
_
x
2
/2
d f ur x R. (2.11.3)
und nennt sie die Gausche Fehlerfunktion oder wegen der
Form ihres Graphens auch die Gausche Glockenfunktion. Da-
bei ist die Integrationskonstante so gewahlt, da
lim
x
(x) = 0 (2.11.4)
ist. Der Faktor 1/
2 in der Denition von ist so gewahlt, da

lim
x
(x) =
1
2
_

2
/2
d = 1 (2.11.5)
wird. ist stetig dierenzierbar mit Ableitung
= . Da > 0
ist, ist
strikt monoton wachsend. (2.11.6)
Die Gleichung (2.11.4),(2.11.4) und (2.11.6) besagen, da Ver-
teilungsfunktion eines W-Maes auf R ist ( Satz 2.8.3).
Da symmetrisch um den Nullpunkt ist, ist der Mittelwert
dieses W-Maes
_

x(x) dx = 0. (2.11.7)
Es ist
d
dx
(x) = x(x). Durch partielle Integration erhalt man
_

x
2
(x)) dx =
_
x (x)
+
_

(x) dx = 1 (2.11.8)
und somit ist die Varianz = 1.
Einige Werte von
x 0 0.67 1, 00 1, 28 1, 64 1, 96 2, 33 3, 008
(x) 0, 5 0, 75 0, 84 0, 90 0, 95 0, 975 0, 99 0, 999
(2.11.9)
Die Werte f ur x < 0 erhalt man aus der Symmetrie (x) =
1 (x).
2.11.1 Bez. (Standard-Normalverteilung)
Das Wahrscheinlichkeitsma auf (R, B(R)) mit der Dich-
tefunktion
(x) :=
1
2
e
x
2
/2
f ur x R
und der Verteilungsfunktion
: x
_
x
2
/2
d f ur x R.
heit die Standard-Normalverteilung auf R.
Der Erwartungswert der Standard-Normalverteilung
ist 0 und die Varianz ist 1. Daher wird die Standard-
Normalverteilung mit N
0,1
bezeichnet.
Anmerkung. Durch Substitution
x =

und dx =
1
d
folgt aus den Gleichungen (2.11.5) (2.11.8)
_

_
d = 1,
_

_
d =
_

2
1
_
d
2
+
2
.
Also ist x
1
_
die Dichtefunktion eines W-Maes mit
Mittelwert und Varianz
2
.
F ur die zugehorige Verteilungsfunktion erhalt man mit der Sub-
stitution = t +
_
x
_
d =
_ x
(t) dt =
_
x
_
. (2.11.10)
Durch Verschiebung und Skalierung erhalt man aus der
Standard-Normalverteilung eine ganze Familie von W-Maen.
2.11.2 Bez. (Normalverteilungen N
,2
)
Das W-Ma auf (R, B(R)) mit der Dichtefunktion
1
_
=
1
2
2
exp
_
(x )
2
2
2
_
heit die Normalverteilung mit Mittelwert und Va-
rianz
2
. Es wird mit N
,
2 bezeicnet. Die zugehorige
Verteilungsfunktion ist
_
x
_
d =
_
x
_
,
wobei die Verteilungsfunktion von N
0,1
ist.
2.11.3 Festst. (ane Transform. normalvertl. ZV)
(i) Es sei X eine Zufallsvariable mit der Verteilung
N
,
2. F ur , R, ,= 0 hat dann Y := X + die
Verteilung N
+,()
2.
(ii) Es seien , R, > 0. Dann gilt f ur x R
N
,
2,
x
= N
+,()
2, t.
(iii) Wenn X normalverteilt mit den Parametern
und
2
ist, dann ist die zentrierte normalisierte Zufalls-
variable X
= (X )/ standard-normalverteilt (
Bezeichnung 2.12.1)
(iv) F ur , R, > 0
N
0,1
,
x
= N
,
2, x.
Beweis. (i) Klar ist, da
E(X +) = E(X) +,
Var(X +) =
2
Var(X)
ist. Zu zeigen ist, da Y normalverteilt ist. Es sei zunachst > 0
Da
Y y = X + y =
_
X
y
_
hat die Verteilungsfunktion F
Y
die Gestalt
F
Y
(y) =
_ y
_
d
=
_
y
_
( +)
_
d
wobei =

substituiert wurde. Die Dichtefunktion von F

Y
ist
also
y
1
_
y ( +)
_
und folglich ist Y normalverteilt mit Erwartungswert + und
Varianz ()
2
.
Die Aussagen (ii) , (iii) und (iv) folgen nun aus (i)
AUME 62
2.12 Grenzwertsatz von Moivre-Laplace
2.12.1 Bez. (normierte zentrierte ZV)
Um Zufallsvariable bsser vergleichen zu konnen ver-
schiebt und skaliert man ihre Werte so, da der Erwar-
tungswert zu 0 und die Varianz zu 1 wird:
zentrieren: Zu einer Zufallsvariablen X mit Erwar-
tungswert bilde man Y = X . Dann ist
E(Y ) = 0.
normieren: Zu einer Zufallsvariablen Y mit Varianz
2
bilde man Z = Y/. Dann ist Var(Z) = 1.
normieren-zentrieren Zu einer Zufallsvariablen X
mit Erwartungswert und Varianz
2
bilde man
X
:=
X
.
X
ist dann zentriert und normiert:

E(X
) = 0, Var(X
) = 1.
2.12.2 Satz (Moivre-Laplace)
Es sei (X
k
)
k
eine Folge binomialverteilter Zufallsvaria-
bler mit dem jeweiligen Parameter n
k
N, p
k
(0, 1).
Wenn
lim
k
Var(X
k
) =
ist, dann konvergieren die Verteilungsfunktionen F
X
k
der normierten und zentrierten Zufallsvariablen
X
k
:=
X
k
E(X
k
)
_
Var(X
k
)
=
X
k
n
k
p
k
_
n
k
p
k
(1 p
k
)
gegen die Standard-Normalverteilung. Die Konvergenz
ist gleichmaig auf R:
lim
k
sup
xR
F
X
k
(x) (x)
= 0.
2.12.3 Folg. (Moivre-Laplace)
Es seien 0 < p < 1 und (S
n
)
n
eine Folge B
n,p
-verteilter
Zufallsvariablen. Dann gilt
lim
n
sup
a<b
Pa < S
n
b (b) (a)
= 0.
Anmerkung. (zum Satz von Moivre-Laplace) 1. Der Satz
von Moivre-Laplace ist ein Spezialfall des zentralen Grenzwert-
satzes.
2. Man benotigt nur die Voraussetzung, da die X
k
binomial-
verteilt sind und ihre Varianzen
Var(X
k
) = n
k
p
k
(1 p
k
) f ur k .
Dann konvergieren auch die Erwartungswerte
E(X
k
) = n
k
p
k
n
k
p
k
(1 p
k
)
und die Anzahlen n
k
. Die p
k
m ussen nur 0 < p
k
< 1 erf ullen,
ansonsten ist ihr Verhalten f ur k unwichtig.
3. Man beachte, da die Verteilungen F
X
k
konvergieren. Es
wird nichts uber die Konvergenz der Zufallsvariablen X
k
gesagt.
Letzteres macht auch keinen Sinn, denn die X
k
haben zwar al-
le ihre Werte in N
0
R, sie konnen aber ganz unterschiedliche
Denitionsbereiche haben: X
k
: (
k
, P
k
) N
0
.
4. Der Satz sagt etwas uber die Konvergenz der Bildmae
(P
k
)
X
k
aus. Die Zufallsvariablen sind eigentlich uber ussig, ma-
chen aber die Formulierung anschaulicher.
Man kann den Satz von Moivre-Laplace auch als Grenzwertsatz
f ur Folgen (B
n
k
,p
k
)
k
von Binomialverteilungen formulieren. Bei
dem Bewesis eines vorbereitenden Hilfssatzes, des lokalen Grenz-
wertsatzes, werden wir diesen Standpunkt auch einnehmen.
2.12.4 Folg. (Approximation der BinomialV.)
Es sei 0 < p < 1. Dann gilt f ur n
sup
tR
B
n,p
_
(, t]
_
N
np,np(1p)
_
(, t]
_
0.
Also ist f ur k, l N
0
B
n,p
_
(, k]
_

_
k np
np(1 p)
_
und
B
n,p
k, . . . , l =
_
l np
np(1 p)
_
_
k np
np(1 p)
_
.
Die Approximation wird noch etwas besser, wenn man die soge-
nannte Stetigkeitskorrektur vornimmt:
B
n,p
_
(, k]
_

_
k +
1
2
np
np(1 p)
_
und
B
n,p
k, . . . , l =
_
l +
1
2
np
np(1 p)
_
_
k
1
2
np
np(1 p)
_
.
Mit heutigen Computeralgebraprogrammen kann man
B
n,p
auch f ur groe n recht genau berechnen. F ur for-
melmaige Rechnungen ist aber die Naherung durch die
Gausche Fehlerfunktion uberlegen.
Anmerkung. Das folgende Bsp. ist dem Lehrbuch [1] von Krengel
entnommen:
2.12.5 Bsp. (Bestimmung: Stichprobenumfang)
Wir wollen den Prozentsatz der Wahler einer Partei A
schatzen. Werden n Wahler befragt und sind darunter
S
n
Wahler der Partei A, so sei S
n
/n der Schatzer f ur
die Wahrscheinlichkeit p, da ein zufallig ausgewahlter
Wahler f ur die Partei A stimmt.
Wie gro mu n sein, damit die Wahrscheinlichkeit
eines Irrtums in der Schatzung von p von mehr als 1%
kleiner als 0, 05 ist?.
Es soll also gelten
P
_
0, 01
S
n
n
p 0, 01
_
0, 95.
Wir nehmen an, da die Befragungen unabhangig sind und somit
die S
n
B
n,p
verteilt sind.
Mit
n
= np und
n
=
_
np(1 p) ergibt sich mit
Folgerung 2.12.3
0, 95 P
_
0, 01n
n
S
n

0, 01n
n
_

_
0, 01n
n
_
0, 01n
n
_
= 2
_
0, 01n
n
_
1.
AUME 63
Also (0, 01n/
n
) 0, 975.
Aus der Tabelle (2.11.9) entnimmt man
1
(0, 975) =
1.96. Also mu
0, 01
_
np(1 p)
1, 96 n p(1 p)10.000 1, 96
2
sein.
Nun ist p leider unbekannt. Da aber max
0<p<1
p(1 p) =
0, 25 ist kommt man in jedem Fall mit
n = 0.25 10.000 1.96
2
= 9600
Befragungen aus. Hat man von vorneherein die Informa-
tion, da p 0, 1 ist, so ist max
0<p<0,1
p(1p) = 0, 1 0, 9 =
0, 09. Man kommt nun mit
n = 0, 09 10.000 1, 96
2
= 3450
Befragungen aus.
LITERATUR 64
Literatur
Lehrb ucher
[1] Krengel, U. Einf uhrung in die Wahrscheinlichkeits-
theorie und Statistik, 6. Auage 2002, Vieweg, ISBN
3-528-57259-0
[2] Pfanzagl, J. Elementare Wahrscheinlichkeitsrech-
nung, 2. Auage 1991, de Gruyter, ISBN 3-11-
013384-9
[3] Henze, N. Stochastik f ur Einsteiger, 4. Auage,
2003, Vieweg, ISBN 3-528-36894-2
Weitere Literatur
[4] Dehling, H. und B. Haupt Einf uhrung in die Wahr-
scheinlichkeitstheorie und Statistik, 2003, Springer,
ISBN 3-540-43384-8
[5] D umbgen, L. Stochastik f ur Informatiker, 2003,
Springer, ISBN 3-540-00061-5
[6] Georgii, H.-O. Stochastik: Einf uhrung in die Wahr-
scheinlichkeitstheorie und Statistik, 2002, de Gruy-
ter, ISBN 3-11-017235-6
[7] Hinderer, K. Grundbegrie der Wahrscheinlich-
keitstheorie, 1972, Springer
[8] Krickeberg, H. und H. Ziezold, Stochastische Me-
thoden, 4. Auage, 1994, Springer, ISBN 3-540-
57792-0

Elementare Wahrscheinlichkeitstheorie Und Statistik

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Elementare Wahrscheinlichkeitstheorie Und Statistik

Hochgeladen von

Copyright:

Verfügbare Formate

Elementare Wahrscheinlichkeitstheorie und Statistik

Kurzfassung: Denitionen und Satze

+ / und etwas Elementarmathematik aus.

bezeichnet die Potenzmenge von . F ur die Teil-

. Es ist eine gerade Augen-

und nennt die Zahl P(A) die Wahrscheinlichkeit von A.

fest, da eintritt. Die Wahrschein-

sind nichtnegative Zahlen und so normiert,

kontinuierlichen W-Maen tritt an die Stelle des Zahl-

ist, wohl 0. Die Wahrscheinlichkeit, da der Dreh-

[0, ) mit den folgen-

Anmerkung. 1. Der axiomatische Zugang zur W-Theorie (Kol-

die Zahl der

sei unabhangig davon, wie die anderen Teilexperi-

ist bijektiv und bildet Teilmengen A 2

ist die Menge der Permutatio-

) Laplace-Raume. F ur den Produktraum

) diejenigen aus, f ur die

genau ein W-Ma P mit der folgenden Eigenschaft:

P1 mal P2. Das Wort tensor beugt einer Verwechslung mit

die einfache Bernoulli-

(x) = P((i, j) [ i +j B).

. Diese Zufallsvariable hat die Verteilung

bestimmen. Die Zufallsvariable X : (, P)

Sei X eine binomi-

ist die Indikatorvariable

), ( = 1, . . . , n) endliche W-Raume und

. Man bilde die Zu-

endlich, so sind die Zufallsvariablen

! paarweise unabh. Ereignisse)

mit A B und nehmen an, da in einer Serie von

ist die Einschrankung P[2

disjunkten Unteraumen rekonstru-

Augensumme ist 8. Frage:

Augensumme < 8 oder 8

. Unter dieser Identizierung ist das

der Menge der Pfade, die durch eine

die Menge der Pfade, die durch den

) der Pfad von der Wurzel zu a

Skatkommen. Bei einem gut gemischten

ist die -te Projektion pr

Ziehen mit Zur ucklegen und

Ziehen ohne Zur ucklegen gleich n

) > 0. F ur eine reelle Zufallsvariable X :

, P(A) > 0 und

> 0 , ( = 1, . . . , n), ist, dann ist die Funktion

beschreibt die Anzahl der Fixpunkte einer Permutation.

) f ur ,= ist. Die Varianz ist das Quadrat der Lange

mit Wahrscheinlichkeit 1 linear abhangig.

mit Wahrscheinlichkeit 1 auf einer Geraden.

> 0 ist. Dann ist E(XY ) ein positiv de-

sind, mit den

und wenden hierauf das schwache Gesetz der groen Zahl

gestoppt, da man ja wei-

, indem man die Wahrscheinlichkeiten der

[0, 1] ein diskretes W-

, indem man die Wahrscheinlichkeiten der

[0, 1] ein diskretes W-Ma auf .

, (n N), betrachten und die Aussage in

Ahnlich wie im Beispiel 2.1.2 des unendlichen M unzwurfs zeigt

Dies sieht man folgendermaen ein: Da der nat urliche Logarithmus

mit = np ndet ihre Anwen-

Erfolge. und folglich annahernd binomialverteilt mit