Sie sind auf Seite 1von 58

Einfuhrung in die Stochastik fur Informatiker

Professor Kamps
SS 2004
Dominik Lenhard (Dominik@DLenhard.de)
12. Juli 2004

Dieses Skript ist parallel zur Vorlesung entstanden.


Selbstverstandlich ubernimmt der Autor keine Verantwortung
fur Vollstandigkeit oder Korrektheit.
Fur Schaden, die durch dieses Dokument - auch indirekt -
entstanden sind, haftet der Autor nicht.
Ein Dankeschon geht an dieser Stelle
an Peter Schroeder, der die Skizzen angefertigt hat
und an Christian Kohler,
der mich zum Teil mit Mitschriften versorgt hat.

1
Einf. in d. Stochastik f. Inf. INHALTSVERZEICHNIS

Inhaltsverzeichnis
0 Einfuhrung 3

1 Diskrete Wahrscheinlichkeitsraume 5
1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung . . . . . . . . . 5
1.2 Grundformeln der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Eigenschaften von Wahrscheinlichkeitsraumen . . . . . . . . . . . . . . . . 16
1.4 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5 Stochastische Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 Zufallsvariablen auf diskreten Wraumen 34


2.6 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.8 Das schwache Gesetz groer Zahlen . . . . . . . . . . . . . . . . . . . . . . 55

2
Einf. in d. Stochastik f. Inf.

0 Einfuhrung
Ziele und Aufgaben der Stochastik:

Modelle fur reale, zufallsabhangige Vorgange

Aussagen im Modell
Entscheidungshilfe durch Ruckubersetzung in die Realitat

Datenanalyse

Spezielle Beispiele:

Netzwerkanalyse

Warteschlangen

Analyse von Algorithmen

Simulation von Systemen

Deterministische Vorgange (Ursache Wirkung) sind eine Seite.


Zufallsabhangige Vorgange die Andere:

prinzipiell ein Ergebnis nicht vorhersehbar, weil Zufall eingreift



Ergebnisse von Glucksspielen
Lebensdauer eines Systems
falsch ubertragene Bits

Vorhersage prinzipiell moglich, aber zu komplex

Zahl der Einflussgroen zu hoch

Probleme bei Quantifizierung der Eingabegroen

Ziel:
Sicherheit uber die Unsicherheit gewinnen im folgenden Sinn: Einzelversuch nicht vor-
hersagbar, aber Aussage bei haufiger Versuchswiederholung moglich. , Datenerhebung,
Simulation

Beispiel:
Wurfelwurf als Experiment:
, mogliche Ergebnisse kodiert durch 1, ..., 6.
Stichprobenraum: = {1, ..., 6}.
Ergebnis: (Elementarereignis)
1
Klar: gleiche Chance fur jede Zahl: P ({}) = 6
.

3
Einf. in d. Stochastik f. Inf.

Andere Fragestellung:
Es fallt eine gerade Zahl.

, beschreibbar durch Teilmenge A := {2, 4, 6}


Klar: P (A) = 21

,Modell: , P() = {A|A }, P : P() [0, 1] mit P (A) = |A|


6
A .
Zu uberprufen:
Ubereinstimung von Modell mit Realitat durch Experiment Statistik.

4
Einf. in d. Stochastik f. Inf.

1 Diskrete Wahrscheinlichkeitsraume
1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung
(1.1) Definition: Sei eine hochstabzahlbare
P Menge. A := P() := {A|AP } und
p : [0, 1] eine Abbildung mit p() = 1. Die durch P (A) = A p(),
A , definierte Abbildung heit (diskrete) Wahrscheinlichkeitsverteilung (WV)
uber . Die Funktion p heit Zahldichte. Das Tripel (, A, P ) heit diskreter Wahr-
scheinlichkeitsraum. (, A) heit diskreter messbarer Raum.

(1.2) Bezeichnung: heit Grundmenge, Ergebnisraum, Stichprobenraum. A heit


Ereignis und speziell Elementarereignis, falls |A| = 1. Kurzschreibweise: P ({}) =
P () = p(), .

(1.3) Lemma:

a) Gegeben sei die Situation aus (1.1): Dann gilt:


i) 0 P (A) 1 A P()
ii) P () = 1
iii) P ist -additiv, das heit, fur paarweise
S disjunktePA1 , A2 , ... P() (das
Ai Aj = Pfur i 6= j) gilt: P ( i=1 Ai ) = i=1
heit, S P P (Ai ). Insbesondere
ist P ( A
i=1 i ) = u
i=1 P (A i ) u N und P () = p() = 1.
b) Sei P : p() R1 eine Abbildung mit den oben genanntenPdrei Bedingungen.
Es gibt genau eine Funktion p : [0, 1] mit P (A) = A p() A .

Beweis:

a) iii) Dritte Bedingung:



[ X X
X
X
P( Ai ) = P () = P () = P (Ai ).
S
i=1 i=1 Ai
i=1 Ai i=1

(1.4) Beispiel: Der Laplaceraum.


Sei = {1, ..., n}, p() = n1 . P heit dann diskrete Gleichverteilung oder
Laplaceverteilung.
Es ist P (A) = |A|
||
= n1 |A| A .
, Anzahl der gunstigen Falle dividiert durch die Anzahl aller Moglichkeiten.

(1.5) Beispiel: Ein Problem des Chavalier de Niere.
Was ist bei 3 Wurfelwurfen wahrscheinlicher? Summe 11 oder Summe 12?
Von Interesse:

Ereignis A: Summe der Augen = 11,


Ereignis B: Summe der Augen = 12.

5
Einf. in d. Stochastik f. Inf. 1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung

Jeweils 6 Falle.
Modell: = { = {1 , 2 , 3 }; i {1, ..., 6}}.
A = { ; 1 + 2 + 3 = 11}
B = { ; 1 + 2 + 3 = 12}
p() = 1 = 613 (Symmetrie)
Also: ist eine Menge von Tripeln, das heit, Wurfel sind unterscheidbar, das heit,
(6, 4, 1) 6= (6, 1, 4) 6= (1, 4, 6).
Abzahlen liefert:P |A| = 27, |B| 27
= 25.
25
Also: P (A) = A p() = 216 > 216 = P (B).

Auf Laplaceraumen:
Viele Argumente der Wahrscheinlichkeitsrechnung reduzieren sich auf Kombinatorik und
geschicktesAbzahlen.

, Wahl der richtigen Modelle



, Wahl der richtigen Zahlweise

i.a. Inhalt von Kapitel 2.

Zunachst noch Erweiterung und Ausblick:


Ausgangspunkt: -Additivitat in (1.3).
Zur Modellierung gewunscht:
= [0, 1] (Zinssatz)
= R (Abweichung von Sollwert)
= R+ (Lebensdauer eines Systems)
, Probleme, falls uberabzahlbar.
Es gibt keine Gleichverteilung uber die Potenzmenge von [0, 1], das heit, es gibt kei-

ne WV mit der Eigenschaft P (A + h) = P (A) A P(), A + h P(), wobei
A + h := {a + h, a A}, h R.
Also (Konsequenz aus der Mathematik):
Beschrankung auf geeignetes Mengensystem, das echt enthalten ist in der Potenzmenge
P() (falls -Additivitat weiter gefordert ist).
Geeigenete Struktur: -Algebra.

(1.6) Definition: Seien 6= und A P() (System von Teilmengen von ). A heit
-Algebra (von Ereignissen) uber , falls gilt:

i) A,
ii) A A AC A A A,
iii) (An )n N i=1 An A.
S

Das heit: Eine -Algebra ist abgeschlossen gegenuber der Bildung von Komple-
menten und abzahlbaren Vereinigungen.
Bezeichnung: Als Elementarereignis (vgl. (1.3)) bezeichnet man in diesem Zusam-
menhang eine Menge aus A, die keine echte Vereinigung anderer Ereignisse ist.

(1.7) Lemma:

6
Einf. in d. Stochastik f. Inf. 1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung

a) Sei A eine -Algebra. Dann gilt:


i) A, ( = C A)
ii) A, B A A B A
(A B) = (AC B C )C
iii) (An )n N A i=1 An A.
T

b) Seien B und A eine -Algebra uber . Dann ist B A := {B A, A A}


eine -Algebra uber B (Spur--Algebra).
c) Sei 6= .
A = {A , A ist hochstens abzahlbar oder AC ist hochstens abzahlbar}
ist eine -Algebra uber .
Bemerkung / Bezeichnung:
P() ist -Algebra uber ;
P() ist die feinste, A = {, } ist die grobste -Algebra uber .

Man kann zeigen: Es gibt stets eine -Algebra, die ein vorgegebenes System F von ein-

fachen Mengen enthalt.
Genauer:
(1.8) Satz: Seien 6= , F P().
Die kleinste -Algebra, die F enthalt, ist gegeben durch A(F) := {A P(); fur
jede -Algebra A mit F A gilt: A A}.
A(F) heit die von F erzeugte -Algebra.
Oft zur Modellierung benotigt: = Rn .
Dann: Wahle F als Menge aller nach links offenen Intervalle (a, b] = {x = (x1 , ..., xn )
Rn; ai < xi bi, 1 i n} fur a = (a1 , ..., an), b = (b1 , ..., bn) Rn.

Zugehorige -Algebra: A(F) =: Bn .


Borelsche -Algebra.
Bemerkung: Alle offenen und abgeschlossenen Mengen liegen in Bn , aber es gilt:
Bn 6= P(Rn )).
7
Einf. in d. Stochastik f. Inf. 1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung

Nun Definition eines allgemeinen Wahrscheinlichkeitsraumes ( Kolmogorow).


(1.9) Definition: Sei A eine -Algebra uber 6= .
Eine Abbildung P : A [0, 1] mit
(i) P (A) 0 A A,
(ii) P () = 1,
(iii) P ( A
S P
n=1 An ) = n=1 P (An ) fur alle paarweise disjunkten A1 , A2 , ... (-
Additivitat),
heit Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsma auf A. (, A, P )
heit Wahrscheinlichkeitsraum, (, A) heit messbarer Raum.
Bemerkung: Vergleiche diskreter Wahrscheinlichkeitsraum: Wahrscheinlichkeitsvertei-
lung ist festgelegt durch die Wahrscheinlichkeiten P () der Elementarereignisse. Zugang
uber allgemeine -Algebren ist im folgenden Sinne nicht schwieriger: Ist P (A) festgelegt
fur alle A F mit (i) bis (iii) (Matheorie) P (B) eindeutig bestimmt fur alle B A(F).

Zur besseren Vorstellung und Vereinfachung im Folgenden zunachst: hochstens abzahl-


bar und A = P().
Aber: Die im Kapitel 3 hergeleiteten Regeln mit Wahrscheinlichkeiten gelten allgemein.
, Genaueres spater!

Einfachste diskrete Wahrscheinlichkeitsverteilung:


(1.10) Sei 6= abzahlbar,
 fest.
1 falls A
Die durch (A) = , A P()
0 falls
/A
festgelegte Wahrscheinlichkeitsverteilung : P() R heit Dirac-Verteilung
oder Einpunktverteilung im Punkt .
Bemerkung: ist Wahrscheinlichkeitsverteilung, denn:

(i) P (A) 0.

(ii) P () = 1, da .
(iii) (An )n A paarweise disjunkt
 ein i N :
es gibt hochstens S Ai
S 1 falls n=1 An
( i=1 Ai ) =
 0 sonst
1 falls es Index i gibt: Ai
=
P sonst
0
= n=1 (An ).

(1.11) Definition: Sei (, A, P ) ein diskreter Wahrscheinlichkeitsraum.


T := supp(P ) := { ; P () > 0}
heit Trager von P .

8
Einf. in d. Stochastik f. Inf. 1.1 Diskrete Wahrscheinlichkeitsraume und deren Erweiterung

(1.12) Lemma: Sei (, A, P ) ein diskreter WR und T der Trager von P .


Dann gilt:
P (A) = T P () (A), A A, das heit, P ist darstellbar als gewichtete Summe
P
von Einpunktverteilungen.
Beweis:
X X
P () (A) = P () (A) =
T
X X X
P () (A) + P () (A) = P () = P (A).
| {z } | {z }
A 1
C
A 0 A

9
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

1.2 Grundformeln der Kombinatorik


Kombinatorik: Kunst des Zahlens

hier: Bestimmung der Machtigkeit von Mengen.
Grundvoraussetzung: Laplaceraum.

(2.1) Beispiel:
Speisekarte: 4 Vorspeisen, 3 Hauptgerichte, 3 Nachspeisen. Anzahl unterschiedlicher
Menus? klar: 4 3 3 = 36

(2.2) Beispiel:
4 Kneipen, Besuchsplan fur die nachsten 3 Tage (jeden Tag ein Besuch)

(i) mehrfacher Besuch moglich: 43 = 64 Plane


(ii) jede Kneipe hochstens einmal: 4 3 2 = 24 Plane

Nun systematisch:

(2.3) Bemerkung:
Urnenmodell als Hilfsmittel zum Laplace-Experiment: Urne mit n nummerierten
Kugeln (Nummern 1, ..., n)
sukzessives, zufalliges Ziehen von k Kugeln.
Daher:

Ziehen
mit Zurucklegen (mit Wiederholung)
ohne Zurucklegen (ohne Wiederholung)
Stichprobe
mit (zeitlicher) Reihenfolge ( Tupel)
ohne Reihenfolge (, lexikografische Ordnung)

(2.4) Ziehen mit Zurucklegen in Reihenfolge


Realisierung ist Tupel = (1 , ..., k ), wobei j : Nummer der j-ten gezogenen Kugel.
Aus Symmetriegrunden: jedes ist gleich wahrscheinlich.
Stichprobenraum: 1 = { = (1 , ..., k ); i {1, ..., n}, i {1, ..., k}} = {1, ..., n}k
mit |1 | = nk (vergleiche Bsp. (2.2) (i)).

(2.5) Ziehen ohne Zurucklegen in Reihenfolge


Realisierung ist k-Tupel mit verschiedenen Eintragen 2 = { {1, ..., n}k ; i 6= j
fur 1 i 6= j k}
n!
|2 | = n (n 1) ... (n k + 1) = (nk)! =: (n)k
Speziell: n = k |2 | = n! und 2 ist Menge aller Permutationen von 1, ..., n
(vergleiche Bsp. (2.2) (ii)).

10
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

(2.6) Ziehen ohne Zurucklegen ohne Reihenfolge


Ergebnis einer Ziehung: Welche Kugeln wurden ohne Beachtung der Reihenfolge
gezogen?
Daher lexikografische Ordnung:
3 = { {1, ..., n}k ; 1 < 2 < ... < k }
oder alternativ
03 = {A {1, ..., n}; |A| = k}
Bijektionzwischen 3 und 03 : 7 {1 , ..., k })
|3 | = nk = k!(nk)!
n!
(= |03 |), denn:
Betrachte Abbildng f : 2 3 mit (1 , ..., k ) 7 {1 , ..., k }.
Jedes Urbild f 1 (y) := {; f () = y} von y 3 hat genau k! Elemente ((2.5) mit
n = k)
|3 | = |k!2 | = k!(nk)!
n!
= nk .


Merkregel : Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist
n

k
.

(2.7) Ziehen mit Zurucklegen ohne Reihenfolge


Realisierung ist k-Tupel mit aufsteigend geordneten Koordinaten.
|4 | = { {1, ..., n}k , 1 2 ... k } mit |4 | = n+k1

k
.
Denn betrachte Abbildung (1 , ..., k ) 7 (1 , 2 + 1, ..., k + k 1).
Dies ist bijektive Abbildung von 4 in einen neuen Stichprobenraum.
f4 eines Modells, wo aus n+k 1 nummerischen Kugeln k Kugeln ohne Zurucklegen

und ohne Reihenfolge gezogen werden, genauer:
f4 = {( 0 , ..., 0 ) B k ; 0 < 0 < ... < 0 } mit B = {1, ..., n + k 1} und
1 k 1 2 k
i0 = i + i 1
|{z}
alle verschieden
f4 | = n+k1 .

(2.6)
|4 | = | k

(2.8) andere Bezeichnungen


(2.4): (n, k)-Permutation aus mit Wiederholung.
(2.5): (n, k)-Permutation aus ohne Wiederholung.
(2.6): (n, k)-Kombination aus ohne Wiederholung.
(2.7): (n, k)-Kombination aus mit Wiederholung.

(2.9) Satz: Die Urnenmodelle (2.4), (2.5) und (2.6) liefern Laplace-Raume, (2.7) bildet
keinen Laplace-Raum.

(2.10) zu (2.7): (Gegen-) Beispiel:


Argumentation uber Ziehen mit Zurucklegen in Reihenfolge.
Seien n = 4, k = 4 (mit Zurucklegen ohne Reihenfolge).
P ((1, 1, 1, 1)) = 414 , aber P ((1, 2, 3, 4)) = 44!4 .
Denn: Im Modell mit Reihenfolge ist (1 , P(1 ), P ) ein Laplace-Raum.

11
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

Ubersicht k-mal ziehen mit ohne


aus n Kugeln Zurucklegen Zurucklegen
Permutation mit (2.4) (2.5) unterscheidbare
Reihenfolge Laplace-Raum, Laplace-Raum, Murmeln
|1 | = nk |2 | = (n)k
Kombination ohne (2.7) kein (2.6) ununterscheidbare
Reihenfolge Laplace-Raum, Laplace-Raum, Murmeln
|4 | = n+k1 |3 | = nk
 
k
mit Mehrfach- ohne Mehr- k Murmeln
belegung fachbelegung verteilt auf n
Urnen
Dazu:

(2.11) Interpretation uber das Verteilen von Murmeln:


Anzahl der Moglichkeiten, k Murmeln auf n Platze zu verteilen.
Murmeln unterscheidbar: i-te Murmel in Zelle i , 1 i k, i {1, ..., n}
Nummer der Ziehung entspricht Nummer der Murmel.
Nummer der Kugel entspricht Nummer der Zelle.
, Fall 1 bei Mehrfachbelegung u.s.w.

(2.12) Beispiel:

(i) Geburtstagsproblem:
Gesucht: Wahrscheinlichkeit, mit der von k zufallig ausgewahlten Personen
mindestens 2 an demselben Tag eines Jahres Geburtstag haben =: pk .
Modell: Jahr mit 365 Tagen, Geburten gleichwahrscheinlich an allen Tagen des
Jahres.
, 1 mit n = 365 und nk Elementen (Ziehen von k Daten mit Zurucklegen).
Ereignis Ek : kein Geburtstag ist doppelt.
(Bekannt: P (A) + P (AC ) = 1), das heit, P (Ek ) = (n)
nk
k
= (365)
365k
k
= qk = (1 pk )
Speziell: p10 0, 12, p23 0, 51, p50 0, 97.
(ii) Hashing (Thematische Datenstrukturen):
Problem:
Teilmengen eines Ganzen mit Hilfe geeigneter (Hash-) Tafeln abspeichern.
Zugriff auf derartige Teilmengen.
Vorgehen: Zufalliges Ablegen von k Dateien in einem Feld der Lange n ( k).
moglich: Mehrfachbelegung Kollision.
Sei An,k die Bezeichnung fur: Eine Kollision findet statt.
(n)k Qk1 i
P (AC n,k ) = nk = i=1 (1 n ).

(2.13) Beispiel Lotto:


k = 6 Kugeln aus n = 49 ohneZurucklegen:
mit Reihenfolge 2
Freiheit der Modellwahl.
ohne Reihenfolge 3

12
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

Aber: Fragestellung 3. gezogene Kugel ist die 49 lasst sich nur in 2 behaupten.

Sei pk := P (k Richtige).
p6 = 491 = 13983816 1
(6)
Zu p4 in 3 ; gunstiges Ereignis A4 .

Sei 0 = {10 , ..., 60 } die Menge der geratenen Zahlen.
A4 = { 3 ; |{1 , ..., k } {10 , ..., 60 }| = 4}
Dazu: Lege 4 Kugeln von 0 fest (die richtigen Kugeln, 64 als Anzahl der Moglich-


keiten) und dann 2 Kugeln von {1, ..., 49}\ 0
(dies sind 43
2
).
6 43
 
, alle Kombinationen sind moglich 4 2 ist die Anzahl der gunstigen Moglich-
keiten. 6 43
( )( )
p4 = 4 49 2 = ...
(6)
(2.14) Beispiel:
(2.13) ist Spezialfall der hypergeometrischen Verteilung.
Urne mit S schwarzen und W weien Kugeln, n = S +W ; ziehe k( n) Kugeln ohne
Zurucklegen. Dann ist die Wahrscheinlichkeit, dass die Stichprobe genau s schwarze
und k s weie Kugeln enthalt:
S nS
S W
   
s w s ks
h(s; k, n, S) = S+W
 = n
 , s k.
k k

(Argumentation wie in (2.13))


Die durch h bestimmte Zahldichte (h(0) + h(1) + ... + h(k) = 1) definiert die hyper-
geometrische Verteilung.

Anwendung: Qualitatskontrolle
Warenstichprobe bei Gut-Schlecht-Prufung
Lieferung von n Teilen (intakt oder defekt) mit S defekten Teilen und n S intakten
Teilen.
Kontrolle: Stichprobe vom Umfang k ( n) ohne Zurucklegen.
Damit: Wahrscheinlichkeit fur s defekte Teile in der Stichprobe: h(s; k, n, S).

Anwendung: Fische zahlen.


Frage: Anzahl der Fische in einem Teich.
Fange S Fische.

markiere diese und setze wieder ein.

warten (d.h. mischen).



fange k Fische, darunter seien s bereits markierte.

( in Biologie: capture-recapture-Verfahren)
Intuitiv: Verhaltnis Sn ks , d.h., Schatzer fur n: k Ss .

Im Rahmen der Mathematischen Statistik:

13
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

h(s; k, n, S) ist die Wahrscheinlichkeit fur das Fangen von s markierten Fischen.
Prinzip der Maximum-Likelihood-Schatzung:
Wahle n so, dass bei Ergebnis s die Wahrscheinlichkeit h(s; k, n, S) fur diese Realisation
maximal wird.
Ergebnis: n = k Ss .

Beispiel: S = 1000, k = 1000, s = 100 n = 1000 1000


100
= 10000.
Fragen in der Statistik:
n: Schatzung in welchem Sinn?

Eigenschaften der Schatzung?
Besser: Intervall angeben, so dass wahrer Wert mit vorgegebener Vertrauenswahrschein-

lichkeit in diesem Intervall Konfidenzintervall; u.s.w.

(2.15) Beispiel: Anwendung wie (2.14), aber mit Zurucklegen, mit Reihenfolge.
Anzahl der moglichen Stichproben: nk .
Gesucht: Anzahl der Stichproben, die s defekte Teile enthalten.
Dazu: S s Moglichkeiten, s defekte Teile aus S auszuwahlen.
(n S)ks Moglichkeiten, k s intakte Teile aus n S auszuwahlen.

Hier: Ziehen mit Zurucklegen und mit Reihenfolge.


Daher: Anzahl der Moglichkeiten, s defekte Teile auf k Platze zu verteilen ks .


Damit: Wahrscheinlichkeit fur s defekte Teile (s {0, ..., k}):


     s  ks  
S 1 k s ks k S S k
b(s; k, ) = k S (nS) = 1 = ps (1p)ks ,
n n s s n n s
wobei p := Sn (Schlechtanteil).
Die durch b bestimmte Zahldichte (als Funktion von s) definiert die sogenannte
Binomialverteilung:
kurz: b(s; k,
Pp) oder b(k, p).
k
( Probe: s=0 ks ps (1 p)ks (Binomialsumme)
=
(p + (1 p))k = 1).

Intuitiv: n gro kaum Unterschied zwischen Ziehen mit und ohne Zurucklegen.
Dazu:
(2.16) Lemma: Sei (Sn )nN mit limn Snn = p (0, 1).
Dann gilt: limn h(s; k, n, Sn ) = b(s; k, p).
Beweis: siehe Ubung.
Siehe oben: Eine Produktion enthalte den Anteil p defekter Teile. Dann ist die Wahr-
scheinlichkeit fur sdefekte Teile in einer Stichprobe vom Umfang k (mit Zuruckle-
gen) b(s; k, p) = ks ps (1 p)ks .
Was passiert bei k und p 0?

14
Einf. in d. Stochastik f. Inf. 1.2 Grundformeln der Kombinatorik

(2.17) Lemma: Gegeben sei Folge von Binomialverteilungen b(s; k, pk ), k N mit k pk =


> 0 k N.
Dann gilt: limk b(s; k, pk ) = s! e fur s N0 .
s

Beweis:
   s  ks
k s ks k!
lim pk (1 pk ) = lim 1
k s k s!(k s)! k k
k  s
s k (k 1) ... (k s + 1) s


= lim s
1 1 = e .
k s! k
| {z } | {zk } | {z
k
}
s!
(k 1) k s + 1 e 1
1 ...
| {zk } | {z k }
1 1

Offensichtlich definiert p(s) := s


s!
e eine Zahldichte auf = N0 .
Sei > 0 beliebig:

X X s
p(s) = e = 1.
s=0
s!
|s=0{z }
e

(2.18) Bezeichnung: Die Wahrscheinlichkeitsverteilung auf N0 definiert durch die Zahl-


dichte p(s) = s! e , s N0 , > 0 heit Poissonverteilung mit Parameter ; kurz:
s

po(s; ) bzw. po().

Bemerkung:

(2.17) heit auch Gesetz der seltenen Ereignisse (wegen pk 0, k ).


Beispiel: radioaktiver Zerfall, Haufigkeiten von Fehlern in Systemen, Anzahlen von
Telefonaten, ... Bartbiewicz 1898

(2.17) gilt auch unter der Voraussetzung k pk k
(> 0).

15
Einf. in d. Stochastik f. Inf. 1.3 Eigenschaften von Wahrscheinlichkeitsraumen

1.3 Eigenschaften von Wahrscheinlichkeitsraumen


Sei in diesem Abschnitt (, A, P ) ein allgemeiner Wahrscheinlichkeitsraum.
(3.1) Lemma: Es gelten fur A, B A:
i) P (A B) = P (A) + P (B), falls A B = .
ii) P (B\A) = P (B) P (A), falls A B (Subtraktivitat von P ).

iii) P (AC ) = 1 P (A)


iv) A B P (A) P (B) (Monotonie von P)
v) P (A B) = P (A) + P (B) P (A B)
vi) P ( i=1 P (Ai ), A1 , A2 , ... A.
S Pn
i=1 Ai )

Beweis:
i) klar aus -Additivitat.
ii) B\A = B AC
Es ist: P (B) = P (B) = P (B(AAC )) = P ((B A}) (B AC )) (i)
| {z =
P (A)+
A
| {z }
disjunkt
P (B AC ).
iii) aus ii) mit B = .
iv) P (A) = P (B) P (B\A) P (B).
v) Wegen Additivitat gilt:
P (AC B) + P (A B) = P (B)
P (A B C ) + P (A B) = P (A)
Nun ist A B = (A B C ) (A B) (AC B)
| {z }
disjunkt
P (A B) = P (A B ) + P (A B) + P (AC B) = P (A) P (A B) +
C

P (A B) + P (B) P (A B) = P (A) + P (B) P (A B).


vi) Trick: Ereignis diskunkt aufspalten und dann Additivitat nutzen.
Es ist: i=1 Ai = A1 (A1 C A2 ) (A1 C A2 C A3 ) ... ( n1
Sn T C
j=1 Aj An ) =
Sn Tn
A1 i=2 (( j=1 Aj C ) Ai )
P ( ni=1 Ai ) = P (A1 ) + ni=2 P (( i1 C
S P T
j=1 Aj ) Ai )

P (A1 ) + ni=2 P (Ai ) = ni=1 P (Ai ).
P P
(iv)

16
Einf. in d. Stochastik f. Inf. 1.3 Eigenschaften von Wahrscheinlichkeitsraumen

(3.2) Definition: (Limites (Grenzwerte) von Ereignisfolgen)


Sei (An )nN A, A sei -Algebra uber 6= .
(An )n heit monoton wachsend, falls An An+1 n N.
(An )n heit monoton fallend, falls An An+1 n N.
(kurz: (An )n bzw. (An )n .
Fur monoton wachsende, bzw. fallende Ereignisfolgen heit jeweils

[
lim An = An
n
n=1

bzw.
\
lim An = An
n
n=1

der Limes von (An )nN .


Fur eine beliebige Ereignisfolge (An )n heien

[ [
\
lim sup An = lim ( Ak ) = Ak
n n
k=n n=1 k=n
| {z }

der limes superior und



\ \
[
lim inf An = lim ( Ak ) = Ak
n n
k=n n=1 k=n
| {z }

der limes inferior von (An )nN .

(3.3) Bemerkung: Es ist mit (An )n A:


lim supn An A, lim inf n An A (siehe (1.8) und (1.9)) und
lim supn An = { ; liegt in unendlich vielen der An s} heit: unendlich viele
der Ai treten ein.
lim inf n An = { ; liegt in allen An s bis auf endlich viele} heit: alle bis
auf endlich viele der Ai treten ein (fast alle Ai s treten ein).
Beweis: siehe Ubung.

(3.4) Lemma: (, A, P ) WR, (An )n A. Dann gelten:

i) P (
S
n=1 An ) = P (limn An ) = limn P (An ), falls (An )n (Stetigkeit von
P von unten).
ii) P (
T
n=1 An ) = P (limn An ) = limn P (An ), falls (An )n (Stetigkeit von
P von oben).
iii) P (lim supn An ) = limn P (T
S
k=n Ak )
P (lim inf n An ) = limn P (
k=n Ak )

17
Einf. in d. Stochastik f. Inf. 1.3 Eigenschaften von Wahrscheinlichkeitsraumen

iv) P (
S P
n=1 A n ) n=1 P (An ) (Sub--Additivitat).

Beweis:

i) Seien B1 = A1 , Bn+1 = An+1 \An , n N.


S(Bn )n paarweise Sdiskunkt undC S
B
n=1 n = B 1 n=2 (A n An1 ) n=1 An
| {z }
An
und
S
n=1 A n i : Ai
/ Aj , j < iS Bi
S
und S i=1 Bn .
Also: n=1 nA =
B
n=1 n .
Damit:
P( = P( -Add. P
S S
n=1 An )P n=1 Bn ) = n=1 P (Bn P)
m
= P (A1 ) + n=2 P (B Pnm) = P (A1 ) + limm n=2 P (Bn )
= P (A1 ) + limm n=1 P (Bn+1 ) = limm P (Am ).
| {z }
P (An+1 )P (An )
| {z }
P (Am+1 )P (A1 )

ii) Mit
T de Morgan Saus i):
n=1 A = ( n=1 An C )C , (An C )n
Tn
P ( n=1 An ) = 1 P ( C i) C
S
n=1 An ) = 1 limm P (Am ) = limm P (Am )
iii) P (lim supn An ) = P (limnT
S S
k=n Ak ) = limn P (T k=n Ak )
P (lim inf n An ) = P (limn
k=n Ak ) = limn P ( k=n Ak )

iv) analog zu (3.1) vi) mit Verwendung der -Additivitat (in (3.1) fur endlich viele
Ereignisse).

(3.5) Lemma: (Siebformel von Sylvester Poincare)


Fur Ereignisse (An )nN in einem WR (, A, P ) gilt:
n
[ n
X X
P( Ak ) = P (Ak ) P (Ai1 Ai2 )
k=1 k=1 1i1 <i2 n
X
+ P (Ai1 Ai2 Ai3 )
1i1 <i2 <i3 n

18
Einf. in d. Stochastik f. Inf. 1.3 Eigenschaften von Wahrscheinlichkeitsraumen

n
\
n+1
... + (1) P( Ak ).
k=1

Speziell: n = 2: P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ).

Struktur von (3.5) aus der Kombinatorik bekannt: Einschluss-Ausschluss-Prinzip.


(3.5) kann zur Losung kombinatorischer Aufgaben verwendet werden.

(3.6) Beispiel: Sei n = {; : {1, ..., n} {1, ..., n} bijektiv}, das heit, n ist die
Menge aller Permutationen aus n Dingen.
((2.5), k = n) |n | = (n)n = n!.
Seien A = { n ; (i) 6= i, 1 i n} die Menge der fixpunktfreien Permutatio-
nen und P die Laplaceverteilung auf n .
Weiterhin: SnAi := C{ n ; (i) = i}, 1 i n (Fixpunkt an Stelle i).
A = ( i=1 Ai ) S
P (A) = 1 P ( i=1PAi )
1 i=1 P (Ai ) + 1i1 <i2 n P (Ai1 Ai2 ) ... + (1)n+1 P ( nk=1 Ak )
(3.5) Pn T
=
Nun ist:
|Ai | = (n 1)! (eine Stelle fest, alle anderen permutiert)
i1 < i2 : |Ai1 Ai2 | = (n 2)! (zwei Stellen fest, alle anderen permutiert)
usw., das heit, |AiP 1 ... Aik | = P
(n k)!, i1 < ... < ik
P (A) = 1 n!1 nk=1 (1)k+1 1i1 <...<ik n (n k)!
= 1P nk=1 (1)k+1 (nk)! n
P 
n!
k
= nk=0 (1)k k!1 .
Weiterhin: Bn,m = { n ; hat genau m Fixpunkte}
= { n ; (ij ) =Pij , 1 j m, ij 6= il fur j 6= l, (i) 6= i i 6= ij }.
P (Bn,m ) = m! 1
nm k 1
k=0 (1) k!, (A Bn,0 )
n
(denn: genau m Fixpunkte m Moglichkeiten der Auswahl von m Fixpunkten;
unter den ubrigen n m Stellen keine Fixpunkte (s.o.);
nm
1 n
X 1
(1)k .

P (Bn,m ) = m (n m)!
n!
|{z} k=0
k!
n!=|n | | {z }
s.o.: bestimmte Anzahl

Bemerkung: Interpretation uber Sortierprobleme.


Gegeben Feld der Lange n.
Gesucht: Wahrscheinlichkeit, dass mindestens k n Elemente des Feldes schon an
der richtigen Stelle stehen, wenn die Elemente bezuglich eines ordinalen Merkmals
sortiert werden sollen.
Voraussetzung: Laplaceraum: Jede der n! moglichen Anordnungen hat Wahrschein-
lichkeit n!1 .

Wahrscheinlichkeit, dass mindestens ein Element an der richtigen Stelle: 1


P (A).
Wahrscheinlichkeit, dass in einem Feld der Lange n bereits k Elemente richtig
sortiert sind: P (Bn,k ).

19
Einf. in d. Stochastik f. Inf. 1.3 Eigenschaften von Wahrscheinlichkeitsraumen

Ai : Menge aller Eingabefolgen mit der richtigen Sortierung des i-ten Elements.

(3.7) Bemerkung: Es gilt:


nm nm
X 1 X 1 X 1
| (1) e1 | = |
k
(1)k (1)k |
k=0
k! k=0
k! k=0 k!

X 1 1
=| (1)k | ,
k=nm+1
k! (n m + 1)!
da alternierende Reihe.
Unterscheidung:
1 1
n 8 und m 5 m!
5!
1 1
n 8 und m 4 (nm+1)!
5!

Ist n 8 und m beliebig, dann ist

e1 1 1 1
|P (Bn,m ) | < 0, 01
m! m! (n m + 1)! 5!

(3.8) Beispiel: n Personen geben Hut an Gaderobe ab, Ruckgabe zufallig:


Gesucht: Wahrscheinlichkeit, dass niemand den eigenen Hut erhalt.
Pn 1
, P (Bn,0 ) = P (A) = k=0 (1)k k!1 e0! 0, 37
mit einem Fehler von 0, 01; unabhangig von n.
Folgerung aus Sylvester-Poincare.

(3.9) Korollar (Bonferroni-Ungleichungen)


Seien A1 , ..., An A in WR (, A, P ). Dann gilt:
n n n
X X X
[
P (Ak ) P (Ai1 Ai2 ) P ( Ak ) P (Ak ).
k=1 1i1 <i2 n k=1
(3.1) k=1

Weitere Bonferroni-Ungleichungen entstehen durch Abbruch der Siebformel nach


Termen gerader oder ungerader Ordnung.

20
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

1.4 Bedingte Wahrscheinlichkeit


Idee: Verarbeitung von Vorinformation, bzw. Zusatzinformation.
Fur A A ist P (A) Wahrscheinlichkeit des Eintretens; jetzt bekannt / gefordert:
B A tritt ein.
, Einfluss auf P (A)?
(4.1) Beispiel:

i) Wurfel: Frage: Wahrscheinlichkeit fur die 2 unter der Bedingung, dass eine
gerade Zahl auftritt.
, P ({2}|{2, 4, 6}) = 13
also: WR wird eingeschrankt.
ii) Ziehen von Kugeln ohne Zurucklegen.
Urne mit 2 weien und 3 schwarzen Kugeln, Ziehen von 2 Kugeln.
P (2. Kugel schwarz | 1. Kugel ist wei) = 34 , allgemein?
Hier Laplace-Experiment: || = 5 4
weie Kugeln: Nr. 1, 2
schwarze Kugeln: Nr. 3, 4, 5
Ereignis A: 2. Kugel ist schwarz.
Ereignis B: 1. Kugel ist wei.
A B = {(1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5)}, |A B| = 6.
B = {(1, 2), (1, 3), (1, 4), (1, 5), (2, 1), (2, 3), (2, 4), (2, 5)}, |B| = 8.
6 8
P (A B) = 20 , P (B) = 20 .
6
3 P (AB)
4
= P (A|B) = P (B)
= 20
8 .
20

(4.2) Beispiel: relative Haufigkeiten


Befragung von 100 Personen.
weiblich mannlich
A 10 20 30
Praferenz zu Produkt A oder B?
B 50 20 70
60 40 100
weiblich mannlich
A 0,1 0,2 0,3
Tabelle der relativen Haufigkeiten:
B 0,5 0,2 0,7
0,6 0,4 1,0
relative Haufigkeit fur B in der Gruppe der Frauen:
rel. Haufigkeit fur B und Frau
rel. Haufigkeit fur Frau
= 0,5
0,6
= 56 .

(4.3) Definition: Sei (, A, P ) ein WR.


Fur jedes B A mit P (B) > 0 wird durch P (A|B) = P P(AB)
(B)
,AA
eine Wahrscheinlichkeitsverteilung P (|B) auf A definiert, die sogenannte bedingte
Verteilung unter (der Hypothese) B.
P (A|B) heit elementar bedingte Wahrscheinlichkeit von A und B.

21
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

Bemerkung: (, A, P (|B)) ist ein WR,


weil P (A|B) = P (A B|B), (B, {A B; A A}, P (|B)) auch ein WR ist,
| {z }
Spur--Algebra
der sogenannte induzierte oder eingeschrankte WR.
Zur Wohldefiniertheit: P (|B) ist WV, denn:

i) P (A|B) 0,
P (B)
ii) P (|B) = P (B)
= 1,
S S P P P (Ai B)
iii) P ( P( Ai B) P ( (Ai B)) P (Ai B)
S
i=1 Ai |B) = P (B)
= P (B)
= P (B)
= ,
P (B)
| {z }
P (Ai |B)
wobei (Ai )i paarweise disjunkt.

(4.4) Lemma: A, B, A1 , A2 , ...S A


P (A) > 0, P (B) > 0, P ( n1
i=1 Ai ) > 0
Dann:

i) P (A|B) = P (B|A) PP (B)(A)

ii) P ( ni=1 Ai ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 A2 ) ... P (An | n1


T T
i=1 Ai )

Beweis:
P (A) P (BA) P (A)
i) P (B|A) P (B)
= P (A)
= P (A|B)
P (B)
Tn1
ii) P (A1 ) P (A2 |A1 ) ... P (An | i=1 Ai ) T
1 A2 ) P (A1 A2 A3 ) P( n Ai )
= P (A1 ) P (A
P (A1 )
P (A1 A2 )
... T i=1
P ( n1 A )
i=1 i

(4.5) Beispiel: Wahrscheinlichkeit, dass die drei Spieler je genau ein As haben.
Ai : Spieler i erhalt genau ein As.
P (A1 A2 A3 ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 A2 )
Modell :
10 Karten an Spieler 1, dann
10 Karten an Spieler 2, dann
10 Karten an Spieler 3, dann
2 Karten in den Skat (o.B.d.A. aus Symmetriegrunden).
(4)(28)
P (A1 ) = 1 32 9 ( hypergeometrische Verteilung).
(10)
(3)(19)
P (A2 |A1 ) = 1 22 9
(10)
(2)(10)
P (A3 |A1 A2 ) = 1 12 9 , Losung.
(10)
(4.6) Lemma: (Formel der lokalen Wahrscheinlichkeit)
Gegeben: A A, (Bn )n A, Bn paarweise disjunkt und A
S
n=1 Bn

22
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

S
(haufig: Bn = , das heit, disjunkte Zerlegung von )
Dann gilt:
X
P (A) = P (A|Bn ) P (Bn ).
n=1

Ist P (Bk ) = 0, so ist zunachst P (A|Bk ) nicht definiert, setze dann: P (Bk )P (A|Bk ) =
0.

Beweis:
Wegen A
S S
n=1 Bn ist A = n=1 (A B )
| {z n}
= P P disjunkt
P (A) -Add. n=1 P (A Bn ) = n=1 P (A|Bn ) P (Bn )

(4.7) Beispiel:

i) Serienartikel wird parallel auf drei Fertigungsanlagen produziert gemeinsa-


mes Transportband.
Megenanteile der drei Anlagen werden (etwa durch unregellmaige Ausfallzei-
ten) als Wahrscheinlichkeit angesetzt:
P (A1 ) = 0, 3, P (A2 ) = 0, 2, P (A3 ) = 0, 5 mit
Ai : Artikel wurde durch Anlage i hergestellt

Weiterhin:
1 2 3
Wahrscheinlichkeit fur fehlerhaften Artikel bei Anlage: .
0,05 0,03 0,09
Gesucht:
Wahrscheinlichkeit, dass ein zufallig gepruftes Stuck fehlerhaft ist?
Dazu: B: Stuck ist fehlerhaft

Voraussetzung:
P (B|A1 ) = 0,P 05, P (B|A2 ) = 0, 03, P (B|A3 ) = 0, 09
(4.6) 3
P (B) = i=1 P (B|Ai ) P (Ai ) = 0, 066.
ii) Eine unter 1000000 Munzen hat Zahl auf beiden Seiten; alle Anderen sind fair

Symbol / Zahl: jede Seite fallt mit Wahrscheinlichkeit 21 .
Eine zufallig ausgewahlte Munze wird 20 mal geworfen. Ergebnis: 20 mal Zahl.
Frage:
Wahrscheinlichkeit, dass Munze trotzdem fair.
Dazu:

23
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

A: faire Munze wird gezogen.


B: unfaire Munze wird gezogen (= AC ).
6
P (A) = 101016 = 1 106 , P (B) = 106
z20 : Es fallt 20 mal Zahl.

P (z20 ) = P (z20 |A) P (A) + P (z20 |B) P (B) (lokale Wahrscheinlichkeit)
| {z }
1
220
= 220 (1 106 ) + 106
(4.4)(i) P (A)

P (A|z20 ) = P (z20 |A) P (z20 )
= 0, 4881.

(4.8) Satz: (Bayessche Formel)


Seien A, (Bn )n A, Bn paarweise disjunkt, A
S
n=1 Bn und P (A) > 0.
Dann gilt:
P (Bk |A) = PP (BPk(A|B
)P (A|Bk )
n )P (Bn )
k N.
n=1
Beweis:
P (Bk |A) = P (A|BPk(A)
)P (Bk )

Beh. mit (4.6), Formel der lokalen Wahrscheinlichkeit



Bayessche Formel:
Hier wird von Wirkung auf Ursache Bk zuruckgeschlossen.

Beispiel:
Arzt stellt Symptom A fest, dass von verschiedenen Krankheiten B1 , ..., Bn herruhren
kann.
relative Haufigkeit einer Krankheit bekannt P (Bi )
Wenn Krankheit Bk vorliegt, dann relative Haufigkeit fur das Auftreten von Sym-
ptom A bekannt P (A|Bk ).
Gesucht:
Wenn Symptom A auftritt, wie gro ist dann die Wahrscheinlichkeit fur Krankheit
Bk ?
Bemerkung:
P (Bk ) heien a priori.
P (Bk |A) heien a posteriori.

(4.9) Beispiel:
i) Fortsetzung von (4.7)(i)
Gesucht:
Wahrscheinlichkeit, dass ein gepruftes und ein einwandfreies Stuck auf Anlage
3 hergesellt wurde.
P (A3 ) P (B C |A3 )
P (A3 |B C ) = P3 = 0, 49
C
i=1 P (Ai ) P (B |Ai )

P (B C A1 ) P (A1 ) P (B A1 )
P (B C |A1 ) = =
P (A1 ) P (A1 )

24
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

ii) medizinisches Diagnoseverfahren fur Krankheit


in 90 Prozent der Falle wird ein Kranker als krank erkannt (Verfahren

liefert richtigerweise positiven Befunde)
in 5 Prozent der Falle wird ein Gesunder als krank eingestuft (d.h., posi-
tiver, aber falscher Befund)
Modell:
1 % der Bevolkerung leidet an der Krankheit. Bestimme Wahrscheinlichkeit,
dass eine zufallig ausgewuhlte Testperson gesund ist, falls Diagnose positiven
Befund liefert.
Losung:
G: Person gesund.
B: Verfahren liefert positiven Befund.
Voraussetzung:
P (B|GC ) = 0, 9, P (B|G) = 0, 05, P (GC )0, 01.
P (B) = P (B|GC ) P (GC ) + P (B|G) P (G)
= 0, 9 0, 01 + 0, 05 0, 99 = 0, 0585.
Also:
P (G|B) = P (B|G)P
P (B)
(G)
= 0, 846
C
(Aber: P (B|G ) = 0, 9, P (B|G) = 0, 01 (0, 001)
P (G|B) = 0, 52 (0, 10))

(4.10) Beispiel: (Gestorter Nachrichtenkanal)


Gesendet:
0 oder 1 uber n Stationen
S0 S1 ... Sn
Voraussetzung:
Wahrscheinlichkeit fur korrekte Ubermittlung von Si nach Si+1 ,
i = 1, 2, ..., p (0, 1).
Gesucht:
Wahrscheinlichkeit pn , dass Sn die von S0 gesendete Nachricht erhalt.
Modell:
n = {(0 , ..., n1 ); j {0, 1}, 0 j n 1}
(i : Nachricht von Si an Si+1 )
Sei Em := { n ; 0 = m1 , 1 m n} (Sm erhalt korrekte Nachricht)
Mit pm := P (Em ), 1 m n, ist:
Voraussetzung:
p1 = 1
C
pn = P (En ) = P (En1 En ) + (En1 En )
P (E |E ) P (E ) + P (E |E ) P (E C )
C
| n{z n1} | {zn1} | n{z n1} | {zn1}
p pn1 1p 1pm1
= (2p 1) pn1 + 1 p0 , n 2
(Induktion) pn = 21 + 12 (2p 1)n1
limn pn = 12 (|2p 1| < 1)

25
Einf. in d. Stochastik f. Inf. 1.4 Bedingte Wahrscheinlichkeit

p\n 10 100
0,9 0,57 0,5
0,99 0,92 0,57
0,999 0,99 0,91

26
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

1.5 Stochastische Unabhangigkeit


Heuristisch:
Zwei Ereignisse A und B sind unabhangig, falls P (A) nicht von der Kenntnis des Eintre-
tens oder Nicht-Eintretens von B abhangt, d.h., P (A|B) = P (A), bzw. P (B|A) = P (B).

Beispiel:
Urne mit 2 weien und 3 schwarzen Kugeln
, Ziehen von 2 Kugeln mit Zurucklegen
= {(i, j); 1 i, j 5}, || = 52
weie Kugeln Nr. 1, 2
schwarze Kugeln Nr. 3, 4, 5
A: 2. Kugel schwarz , A = {(i, j) ; j {3, 4, 5}} mit |A| = 5 3.

B: 1. Kugel wei , B = {(i, j) ; i {1, 2}} mit |B| = 2 5.

P (A) = 15 25
= 35 , P (B) = 10
25
= 25
6
P (A B) = 25
6
P (A|B) = 252 = 35 = P (A)
5
Klar, denn wegen Zurucklegen beeinflussen sich die Ziehungen nicht.
Weiterhin:
P (A) = P (A|B) = P P(AB)
(B)
(I)
P (A B) = P (A) P (B) (II)
Definition uber (I): P (B) > 0 als Voraussetzung
Definition uber (II): keine Voraussetzung
(5.1) Definition:
Gegeben WR (, A, P ). A, B A heien stochastisch unabhangig, falls P (A B) =
P (A) P (B).

(5.2) Lemma:

i) Mit A, B sind auch A, B C und AC , B C stochastisch unabhangig.


ii) Ist P (B) > 0, so gilt:
A, B stochastisch unabhangig P (A|B) = P (A).
iii) Ist A eine Nullmenge, d.h., P (A) = 0, so sind A, B stochastisch unabhangig
B A.

Beweis:

i) Voraussetzung:
A, B stochastisch unabhangig.
P (A B C ) = P (A) P (A B) = P (A) P (A) P (B) = P (A) (1 P (B)) =
P (A) P (B C )
P (AC B C ) = P ((AB)C ) = 1P (AB) = 1(P (A)+P (B)P (AB)) =
1 (P (A) + P (B) P (A) P (B)) = (1 P (A)) (1 P (B))
ii) siehe oben

27
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

iii) P (A) = 0 P (A B) P (A) = 0 P (A B) = 0


(5.3) Bemerkung:
Unabhangigkeit abhangig von WV.
Sei = {1, 2, 3}, A = {1}, B = {1, 2}
P = 1 , Q: Laplaceverteilung
1 (A B) = 1 (1) = 1 = 1 (A) 1 (B),
aber Q(A B) = 31 6= 29 = 13 23 = Q(A) Q(B)
Nun allgemeinere Definition fur 2 und mehr Ereignisse.
(5.4) Definition:
Familie (Ai )iI A, heit paarweise stochastisch unabhangig, falls
P (Ai Aj ) = P (Ai ) P (Aj ) i, j I, i 6= j.

(5.5) Beispiel:
Werfen von zwei unverfalschten Wurfeln, d.h.,
Laplaceverteilung uber = {(i, j); i, j {1, ..., 6}}.
Ai =
Wurfel i zeigt gerade Zahl, i = 1, 2
P (A1 A2 ) = P (A1 ) P (A2 ) = 14 , d.h., A1 , A2 sind stoch. unabhangig.
Weiterhin A3 = Summe der Augenzahl ist gerade
P (A3 |A1 ) = P (A3 ) und P (A3 |A2 ) = P (A3 ), d.h., {A1 , A2 , A3 } paarweise un-
abhangig.
Aber P (A1 A2 A3 ) 6= P (A1 )P (A2 )P (A3 ), denn P (A1 A2 A3 ) = P (A1 A2 ) = 14 .
P (A1 ) P (A2 ) P (A3 ) = 81 .

Starkerer Begriff der stochastischen Unabhangigkeit notig.


(5.6) Definition:
Eine Familie (Ai )iI heit stochastisch unabhangig (auch vollstandig stochastisch
unabhangig), falls fur jede endliche Auswahl von Ereignissen gilt:
\ Y
P ( Aj ) = P (Aj ) J 6= , J I, J < .
jJ jJ

Bemerkung:

i) (Ai )i stoch. unabhangig (Ai )i paarweise stoch. unabhangig. Umkehrung gilt


nicht, siehe Beispiel (5.5).
ii) Jede Teilfamilie einer stoch. unabhangigen Familie ist stoch. unabhangig.
iii) Beachte: (5.6) liefert System von Gleichungen:
z.B. A, B, C stoch. unabhangig, falls
P (A B) = P (A) P (B)
P (A C) = P (A) P (C)
P (B C) = P (B) P (C) und
P (A B C) = P (A) P (B) P (C).

28
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

(5.7) Satz:

i) Seien (Ai )iI eine Familie stoch. unabhangiger Ereignisse, k


/ I und P (Ak )
{0, 1}.
(Ai )iI{k} stoch. unabhangig.
ii) (Ai )iI stoch. unabhangig und Bi {Ai , AC
i , , } i I (Bi )iI stoch.
unabhangig.
iii) Sei I = {1, ..., n}, n N fest gewahlt.
(Ai )iITstoch. unabhangig
i } i N.
P ( nj=1 Bi ) = ni=1 P (Bi ) Bi {Ai , AC
Q

(5.8) Beispiel:
Experiment liefert mit Wahrscheinlichkeit p ein Ereignis A, mit q = 1 p Ereignis
AC .
Experiment wird n-mal unabhangig ausgefuhrt Modell = {(1 , ..., n ); i

{|{z} 1 }, 1 i n}.
0 , |{z}
C
=A =A

Interpretiert man experimentelle Unabhangigkeit als stochastische Unabhangigkeit:
jedesP mit k Komponenten
Pn gleich Eins Wahrscheinlichkeit p() = pk (1 p)nk .
Wegen p() = k=0 nk pk (1 p)nk = 1


ist (, p) ein endlicher WR. Dieses Modell heit Bernoulli-Modell.

(5.9) Bemerkung:
Sei die Familie (Ai )i{1,...,n} stoch. unabhangig oder kurz A1 , ..., An stoch. unabhangig,
dann gilt:
n n n n
[ \ (5.2) Y Y
P( Ai ) = 1 P ( AC
i ) 1 P (AC
i ) = 1 (1 P (Ai )).
i=1 i=1
= i=1 i=1

(5.10) Beispiel:
Das Ziegen-Problem (aus der Show Lets make a deal).

Situation:

3 Turen, dahinter 1 Auto, 2 Ziegen


Kandidat wahlt
Eingriff des Quizmasters
Er offnet eine der beiden nicht gewahlten Turen, hinter der eine Ziege steht
und erlaubt dem Kandidaten, seine Entscheidung zu andern.

Frage: Anderung der Entscheidung oder nicht?


Konkret (o.B.d.A. wegen Symmetrie):
Kandidat wahlt Tur 1, Quizmaster offnet Tur 3.
Soll Kandidat bei Tur 1 bleiben oder Tur 2 wahlen?
Dazu (ohne spezifizierten WR):

29
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

Auto hinter Tur i, Vor.: P (Ai ) = 13 .


Ai =
Ki = Kandidat wahlt Tur i, Vor.: P (Ki ) = 13 .
Ai , Kj unabhangig, 1 i, j 3.
Qi = Quizmaster offnet Tur i (nicht unabhangig von Ai , Kj ).
Rechnung:
1 K1 Q3 ) 3 |A1 K1 )
P (A1 |K1 Q3 ) = P (A
P (K1 Q3 )
= P P(Q(K 1 Q3 )
P (A1 K1 ) ()
Es ist: P (K1 Q3 ) = P (K1 Q3 A1 ) + P (K1 Q3 A2 ) + P (K1 Q3 A3 )
| {z }
=0
= P (Q3 |A1 K1 ) P (A1 K1 ) + P (Q3 |A2 K1 ) P (A2 K1 )
| {z } | {z } | {z } | {z }
zusatzl. Vor. 12 1 1 1
weg. unabh.
9 9

= 21 19 + 1 19 = 1
6
1
() = 21 13 = 1
3
.
6
Aber: P (A2 |K1 Q3 ) analog
= 3
2
.
D.h., die Anderung der Entscheidung verdoppelt die Gewinnwahrscheinlichkeit!
(5.11) Bemerkung:
Relation stoch. unabhangig ist nicht transitiv, d.h., aus A1 , A2 und A2 , A3 stoch.

unabhangig folgt nicht notwendigerweise, dass A1 , A3 stoch. unabhangig.
, WR (, A, P ) mit = {(0, 0), (0, 1), (1, 0), (1, 1)}, P : Laplace-Verteilung.
A1 = {(0, 0), (0, 1)}, A2 = {(0, 1), (1, 0)}, A3 = {(1, 0), (1, 1)}
P (Ai ) = 21 , i = 1, 2, 3 und
P (A1 A2 ) = P ((0, 1)) = 14 = P (A1 ) P (A2 )
P (A2 A3 ) = P ((1, 0)) = 14 = P (A2 ) P (A3 ), aber
P (A1 A3 ) = P () = 0 6= 14 = P (A1 ) P (A3 ).
Folgen von stoch. unabhangigen Ereignissen spielen eine zentrale Rolle in der Stochastik.
Simulation
Munzwurf, Frage: Wann fallt zum ersten Mal Zahl?
diskrete Vert. mit P ({0}) > 0
Frage: Wann ist Summe der Ereignisse zum ersten Mal groer als S?
Irrfahrt: Werte jeweils +1 oder 1.

Fragen: Wann uberschreitet Summenpfad erstmals die Grenze S+ ?

30
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

(5.12) Wiederholung:
Bestimmung von Wahrscheinlichkeiten fur lim sup An , lim inf An , (An )n A Folge
von Ereignissen
[
\ \
[
lim sup An = Ak , lim inf An = Ak .
n n
n=1 k=n n=1 k=n

(5.13) Bemerkung:
Sei (An )nN A.
(An )n heit konvergent lim supn An = lim inf n An .
Es gilt stets:
S limTinf n An lim sup
Tn

An , denn:
Sei n=1 k=n Ak n0 : k=n0 Ak
S Ak k n0

T S
k=n Ak n 1 n=1 k=n Ak
Weiterhin
\
[ \
[
(lim sup An )C = ( Ak )C = AC C
k = lim inf An .
n n
n=1 k=n n=1 k=n

(5.14) Lemma (von Borch-Cantelli):


Seien (, A, P ) ein WR und (An )nN A.
Dann gilt:
P
i) n=1 P (An ) < P (lim supn An ) = 0.
ii) Ist
Pzusatzlich (An )n stoch. unabhangig:
n=1 P (An ) = P (lim supn An ) = 1.

Beweis:

i) Wegen SAk n NP
T S S
n=1 k=n Ak k=n

ist P (lim supn An ) P ( k=n Ak ) k=n P (Ak ) n 0.
T
ii) Es ist P (lim supn An ) s.o
=
1 P (lim inf n A C 3.4
n ) =
1 limn P ( C
k=n Ak )
Unabh. x
1 limn k=n (1 P (Ak )) (1xe )
Q P
=
1 limn exp{ k=n P (Ak )}
= 1, daraus folgt Beh.

(5.15) Bemerkung:

i) Analog gilt (mit de Morgan)


P C
n=1 P (An ) < P (lim inf n An ) = 1.
(An )n stoch. unabhangig C
P
n=1 P (An ) = P (lim inf n An ) = 0.
ii) Fur stoch. unabhangige Ereignisse (Ai )i gilt stets
P (lim supn An ), P (lim inf n An ) {0, 1}.

P(An )n A, falls eine unabhangige Teilfolge (Ank )k von (An )n existiert mit
iii) Sei
k=1 P (Ank ) = , dann folgt P (lim supn An ) = 1.

31
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

(5.16) Beispiel:

i) Unendliche Folge von Urnen, je eine Kugel wird gezogen; Urne n enthalt eine
weie und n 1 schwarze Kugeln,
An =
gezogene Kugel aus der n-ten Urne ist wei
1
P P(A n ) = n (Ziehung unabhangig)
n=1 P (An ) = P (lim supn An ) = 1.
Das heit, mit Wahrscheinlichkeit 1 werden unendlich viele weie Kugeln ge-
zogen.
ii) WiePi), aber n-te Urne enthalt n2 1 schwarze Kugeln
n=1 P (An ) < P (lim supn An ) = 0.
Das heit, mit Wahrscheinlichkeit 1 werden nur endlich viele weie Kugeln
gezogen.
Beachte: Die Anzahl kann nicht so gewahlt werden,
dass P (lim supn An ) (0, 1).

(5.17) i) Unabhangiges Werfen eines Wurfels.


Gesucht: Wahrscheinlichkeit, unendlich oft die 6 zu wurfeln.
P d.h., P (An ) = 6 n N
1
An =
6 im n-ten Wurf,
(An )n unabhangig, P (An ) = P (lim supn An ) = 1
Beachte: uberabzahlbares Modell.
zum Beispiel Munzwurf = {(n )nN ; n {0, 1}, n N}
Dualdarstellung der reellen Zahlen in (0, 1).
ii) Gesuchte Wahrscheinlichkeit, unendlich oft 2 Sechsen hintereinander zu werfen.
Bn,n+1 =
6 im n-ten Wurf und im (n + 1)-ten Wurf, nicht unabhangig mit n.
1
P (Bn,n+1 ) = 36 , aber (B2n,2n+1 )n unabhangige Familie.
(5.15) iii) P (lim supn Bn,n+1 ) = 1.

(5.18) Bemerkung (Produktexperimente):


Idee: Modelle (i , Ai , Pi ) bekannt, 1 i n.
zum Beispiel: Ziehen mit Zurucklegen aus der Urne, oder Wurfeln.
Ziel: Modell fur Experiment, das aus unabhangiger Hintereinanderausfuhrung der
Teilexperimente besteht, zum Beispiel n-maliges
Qn Ziehen, n-maliger Wurfelwurf.
= {(1 , ..., n ); i i , 1 i n} = j=1 i
(i nicht notwendig identisch)= ni=1 i .

(5.19) Definition:
Fur diskrete
Qn WR (i , Ai , Pi ), 1 i n, heit (, A, P ) mit
= i=1 i = { = (1 , ..., nQ ); i i , 1 i n}
und P definiert durch P () = ni=1 Pi (i )
(P := ni=1 Pi )
(A ist Potenzmenge zu )
Produkt der WR (i , Ai , N Pi ), 1 i n,
Bezeichnung (, A, P ) = ni=1 (i , Ai , Pi ).

32
Einf. in d. Stochastik f. Inf. 1.5 Stochastische Unabhangigkeit

(5.20) Beispiel:
Binomialverteilung, n-fache Wiederholung eines Experiments mit den Ausgangen 0
oder 1.
= {0, 1}n , P () = pk (1 p)nk , falls k die Anzahl der Einsen in = (1 , ..., n )
und Pi (1), 1 i n.
Bezeichnung: p Erfolgswahrscheinlichkeit.
i = 1 Erfolg im i-ten Teilexperiment n.
Bernoulli-Experimente
Pn mit Erfolgswahrscheinlichkeit p.
Ek = { ; i=1 i = k}= gesamter Erfolg; k n.
P (Ek ) s.o.
= k
n
p k
(1 p)nk

Die durch P (Ek ) (Ei s sind disjunkt) definierte WV auf {0, 1, ..., n} heit Binomi-
alverteilung.

33
Einf. in d. Stochastik f. Inf.

2 Zufallsvariablen auf diskreten Wraumen


2.6 Zufallsvariablen
Zufallsvorgange werden beschrieben durch WR (, A, P ).
Dabei haufig:
selbst nicht von Interesse, sondern Funktion X von .
zum Beispiel:
: n-facher Munzwurf X(): Anzahl Zahl

: Telefongesprach X(): Dauer
: Aktienmarkt X(): Kurs einer Aktie
Frage: Ist Grundraum vollstandig beschreibbar?
Nicht alle Einflussvariablen beschreibbar?
Also: neue Form der Modellierung Zufallsvariablen.

(6.1) Beispiel:

i) Fortsetzung von (5.20): n-facher unabhangiger Munzwurf = {0, 1}n


P () = pk (1 p)nk , falls
 k Einsen in .
N P0n
Betrachte Abbildung X:
7 i=1 i
n
P ({P ; X() = k}) = k p (1 p)nk , 0 k n.
k

Wegen nk=0 nk pk (1 p)nk = 1 definiert P 0 (k) := nk pk (1 p)nk eine




WV auf 0 = {0, 1, ..., n}, i.e. (s.o.) Binomialverteilung b(, p).


ii) Fortsetzung von (1.7), Problem von de Mere.
= {(1 , 2 , 3 ); i {1, ..., 6}, i = 1, 2, 3} und Laplaceverteilung auf , oder
= {1, ..., 6}3 .
27 25
P P
Schon gesehen: P ( = 11) = 216 > 216 = P ( = 12).
Allgemeiner:
Gesucht ist qr := P ({ , 1 +2 +3 = r}) fur 3 r 18, klar 18
P
r=3 qr = 1,
27 25
d.h., q11 = 216 , q18 = 216 .
21
(weiterhin zumBeispiel: q10 = q11 , q9 = q12 , q8 = q13 = 216 , ...)
Betrachte: X:
R .
(1 , 2 , 3 ) 7 1 + 2 + 3
Dann wird durch X eine WV P X auf 0 = {3, ..., 18} erzeugt,
wobei P X (r) = qr .
(Klar: hier keine Laplaceverteilung.)
Beachte:
Abbildung X : R, R nicht abzahlbar, aber abzahlbar Bild von
unter X ist abzahlbar.
Moglich 1 6= 2 , aber X(1 ) = X(2 ) = x.
Dann P X (x) = P ({ ; X() = x}).
Struktur in den Beispielen:
Gegeben diskreter WR, Abb. X : R.

34
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

Problem: Ist P X (k) := P ({ ; X() = k}); k X().


Oder allgemeiner ist P X (B) := P ({ , X() B}) = P (X 1 (B)),
B P(X()) ein diskreter WR uber X() (6= , abzahlbar)?
Dazu Urbildfunktion betrachten.

(6.2) Definition:
Sei T : 0 eine Abbildung.
P(0 ) P()

1
Die Abbildung T :
A0 7 T 1 (A0 ) := { ; T () A0 }
heit die zu T gehorige Urbildfunktion.
(6.3) Eigenschaften der in (6.2) definierten Urbildfunktion. Seien A0 , B 0 , A0i P(0 ).
i) T 1 () = , T 1 (0 ) =
ii) T 1 (A0 \B 0 ) = T 1 (A0 )\T 1 (B 0 )
speziell: T 1 (B 0C ) = (T 1 (B 0 ))C
iii) T 1 ( iI Ai ) = iI T 1 (Ai )
T T

iv) T 1 ( iI Ai ) = iI T 1 (A0i )
S S
0
speziell fur
Pdisjunkte Bi
(Symbol
X fur disj. Vereinigung)
1 0
Bi ) = iI T 1 (Bi0 ).
P
T (
iI
| {z }

S 0
iI Bi

v) A0 B 0 T 1 (A0 ) T 1 (B 0 )
vi) Ist S : 0 00 beliebige Abbildung, dann gilt (S T )1 = T 1 S 1 .
(6.4) Lemma:
Sei (, A, P ) ein diskreter WR und X : R eine Abbildung.
Dann ist P X : P(R) [0, 1] mit P X (A) = P (X 1 (A)) = P ({ ; X() A})
eine diskrete WV uber (einer Teilmenge von) R, bzw. uber X().
Beweis:
P X ist definiert uber Urbildfunktion; damit (siehe (6.3)):
P X (A) 0 A R,
P X (R) = P (X 1 (R)) = P ({ ; X() R}) = P () = 1.

35
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

zur -Additivitat:
Sei (Bi )iN eine Folge disjunkter Teilmengen von R. Dann gilt:
X
X X
X
X
X 1 1 1
P ( Bi ) = P (X ( Bi )) = P ( X (Bi )) = P (X (Bi )) = P X (Bi ).
i=1 i=1 i=1 i=1 i=1

Fur nicht-abzahlbare ist Einschrankung an Abbildung X erforderlich, um eine


Aussage wie in (6.4) zu treffen.

(6.5) Definition:
Eine Abbildung X : 0 von einem Messraum (, A) in einen anderen Messraum
(0 , A0 ) heit messbar, falls fur alle A0 A0 gilt: X 1 (A0 ) A.
Bemerkung:
Die Elemente einer -Algebra heien auch messbare Mengen. Dann (6.5) heit X
messbar, falls die Urbilder messbarer Mengen wieder messbar sind.

(6.6) Definition:
Eine messbare Funktion im Sinne von (6.5) von einem WR in einen anderen heit
Zufallsvariable (ZV), bzw. Zufallsvektor, falls 0 = Rn (auch Zufallsgroe).
Der Betriff der ZVen ist zur Modellierung einer der Wesentlichen in der Wahr-
scheinlichkeitstheorie.
Diese Abbildung beinhaltet das jeweils interessierende Merkmal der jeweiligen Tei-
laspekte eines eventuell komplexen Modells (vergleiche Einleitung).
Falls Teilapsekt eines Zufallsexperiments durch ZV beschreibar, betrachte nur noch
diese ZV und deren Verteilung ohne Ruckgriff auf die explizite Gestalt des zugrun-
deliegenden WRs.

(6.7) Bemerkung:

i) Ist A = P() wie beim diskreten WR, so ist jede Abbildung X : 0


messbar.
ii) Kurzschreibweise:
{x A} := X 1 (A) = { ; X() A}
dann auch kurz: P (x A).
iii) Die Komposition messbarer Funktionen ist messbar.

(6.8) Definition:
Das Wahrscheinlichkeitsma P X , definiert durch P X (A) = P (X 1 (A)), A R,
heit Verteilung von X unter P .
Bezeichnung:
X hat Verteilung P X , X ist verteilt wie P X , X P X , X P .

(6.9) (Beispiel) (binary search):


= {0, 1, ..., 2n 1} mit Laplaceverteilung.
(geordnetes Feld der Lange 2n 1 plus zusatzliche Moglichkeiten)
1, : mogliche Platznummer des Schlusselelements (ist zu suchen).

36
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

= 0: gesuchtes Element ist nicht im Feld vorhanden.


|{z} hier fur n = 3, also 23 1 Schritte.

Start
A1 = Schlusselelement wird in genau einem Schritt gefunden.
= {2n1 } (Element in der Mitte des Feldes)
A2 = Schlusselelement wird in genau zwei Schritten gefunden.
= {2n2 , 3 2n2 }
Ak = Schlusselelement wird in genau k Schritten gefunden.
= {(2j 1)2nk ; 1 j 2k1 }, 1 k n.
Damit:
k1
|Ak | = 2k1 und P (Ak ) = 22n , 1 k n.
...
Von der Laplaceverteilung uber 0, 1, ..., 2n 1,
das heit, P (Element nicht im Feld)= 21n (als implizite Vor.).
Weiter:
Bk = Pk nach hochstens k n Schritten beendet.
Suche
Bk = i=1 Ai , also
k k
X 1 X i1 2k 1
P (Bk ) = P (Ai ) = n 2 = .
i=1
2 i=1 2n
n
(ungunstigster Fall: Bn ; P (< n Schritte) = P (Bn1 ) = 2 21
n < 21 .
Bis hier alte Beschreibung.
Nun: 
k Ak ,
Sei ZV X definiert durch X() =
n A0 An [A0 = {0}].
X zahlt die Schritte bis zum Abbruch des Verfahrens und ordnet jeder Platznummer
, die in genau k {1, ..., n 1} Schritten erreichbar ist, den Wert k zu.
X = n, falls Schlusselelement nicht in Liste (d.h., alles abgesucht), bzw. maximale
Schrittzahl
 benotigt wird.
k Ak ,
X() =
n A0 {An }.
Verteilung P X ist diskret und bestimmt durch
P (Ak ) = 2k1n 1 k < n,
P (X = k) = 1 1
P (A0 An ) = P (A0 ) + P (An ) = 2 n + 2 k = n.
Entsprechend (vgl. Beispiel):
k
P (X k) = ki=1 P (X = 1) = 2 21
P
n .

(Beispiel, Fortsetzung von (6.1)):


i) ZV X ist Binomialverteilung, falls
P X (k) = P (X = k) = nk pk (1 p)nk .


ii) ZV X ist Poissonverteilung, falls fur ein > 0 gilt:


P X (k) = P (X = k) = k! e , k N0 .
k

37
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

iii) Seien 6= 0, P diskrete WV uber , A .


Die Funktion IA : R(statt IA auch 1|A ),
1 A,
definiert durch IA () =
0 / A,
heit Indikatorfunktion von A und ist ZV.
Dabei IA b(1, p) mit p = P (A), denn
P (IA = 0) = P ({ ; IA () = 0}) = P (AC ) = 1 p,
P (IA = 1) = P ({ ; IA () = 1}) = P (A) = p.
Weiterhin gilt:
IAB = max(IA , IB ),
IAB = IA + IB , falls A B = ,
IAB = min(IA , IB ) = IA IB ,
IAC = 1 IA .
Zum Zusammenhang ZVen X1 , ..., Xn und ZVektor (X1 , ..., Xn ):

Aufbau eines Vektors durch verschiedene ZVen.


Zerlegung eines Vektors in Komponenten.

(6.10) (Beispiel, verallgemeinerte Bernoulli-Experimente):


Zufallsexperiment liefert eines von m 2 moglichen Ergebnissen Ai
(zum Beispiel Maschine fallt auf Grund von Defekt i aus, 1 i n).
Voraussetzung:
A1 , ..., Am disjunkt, P (Aj ) = pj , 1 j m, m
P
j=1 pj = 1.
n
Nun: n-malige Versuchswiederholung Pm = {1, ..., m} .
Frage: P (|A1 | = k1 , ..., |Am | = km , j=1 kj = n).
| {z }
Verteilung des Defekts
Setze Xj (ZV), zahlt die Defekte Aj bei m Versuchen, 1 j m.
Also P (X1 = k1 , ..., Xm = km )
= P ({ ; X1 () = k1 , ..., Xm () = km })
= P X1 ,...,Xm ({(k  1 , ..., nk
km )})
1 ...km1
= kn1 nk
 k1
k2
1
... km
p1 ... pkmm
m
N
n!
Q ki Pm
= k1 !...k m!
i=1 p i , kj 0 , 1 j m, j=1 kj = n.
Durch diesen Ausdruck ist eine endliche diskrete Pm WV uber
{(X1 , ..., Xm ) R ; Xj N0 , j {1, ..., m}, j=1 Xj = n},
m

kurz uber Rm erklart.

Bezeichnung:
(X1 , ..., Xm ) genugt der Multinomial- / Polynomialverteilung mit den Paramtern n, p1 , ..., pm .
Bez.: M (n, p1 , ..., pm ).
Speziell: m = 2: M (n, p1 , p2 ) = b(m, p1 ), da p1 + p2 = 1.
(6.11) Definition:
Seien X1 , ..., Xm ZVen. Die Verteilung von X = (X1 , ..., Xm ) heit die gemeinsame
Verteilung der ZVen X1 , ..., Xm .

38
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

Bezeichnung:
P X = P (X1 ,...,Xm ) .
Die Verteilung von (Xi1 , ..., Xil ), 1 i1 < ... < il m, l < m, heit l-dimensionale
Randverteilung (Marginalverteilung) zu (i1 , ..., il ). Die Verteilung von Xi heit die
i-te Randverteilung (Marginalverteilung), 1 i m.
Bemerkung:
Die gemeinsame Verteilung ist durch die Angabe aller Wahrscheinlichkeiten
P (X1 A1 , ..., Xm Am ), Ai Ai bestimmt.

(6.12) Lemma:
P X sei eine diskrete WV uber Rn .
Randverteilung von (Xi1 , ..., Xim ) wird bestimmt durch
P (Xi1 ,...,Xim ) (B) = P ((Xi1 , ..., Xim )1 (B)) = P ((X1 , ..., Xn )1 (B Rnm ))
mit B P(Rm )
und B Rnm := {(X1 , ..., Xm ) Rn ; (Xi1 , ..., Xim ) B}
zum Beispiel n = 2:
P X1 (B) = P X1 ,X2 (B R)
Also P (Xi1 ,...,Xim ) (B) = P X (B Rnm ).

(6.13) (Beispiel:) (Fortsetzung von Beispiel (6.10))


Bestimmung der ersten Randverteilung; sei B = {k}.
m
n! pk
P X1 (B) = P X (B Rm1 ) =
X X Y
... pki i 1
k2 km
k2 ! ... km ! i=2 k!
" m
#
X
kj = n k
j=2

X X (n k)! m  k i k
n! Y pi ki p 1
= ... (1 p1 )
(n k)! k k
k2 ! ... km ! i=2 1 p1 k!
2 m
  m  k i m
n X X (n k)! Y pi Y
= pk1 ... (1 p1 )kj
k k km
k2 ! ... km ! i=2 1 p1 j=2
|2 {z   
}
p2 pm
=1,(Multinormalverteilung mit (nk) 1p1
... 1p1
)
 
n
= pk1 (1 p1 )nk .
k

(6.14) Bemerkung und Beispiel:


Die eindimensionale Randverteilung legen die gemeinsame Verteilung nicht eindeu-
tig fest.
Seien X, Y ZVen auf WR (, A, P ) mit
X() = Y () = {0, 1}2
[(0, 0), (0, 1), (1, 0), (1, 1) Werte fur X, Y ]

39
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

X, Y : R2 , X = (X1 , X2 ), Y = (Y1 , Y2 ) mit


P X (0, 1) = P X (1, 0) = 12
P X (0, 0) = P X (1, 1) = 0
P Y (0, 0) = P Y (1, 1) = 12
P Y (0, 1) = P Y (1, 0) = 0.

X2 \X1 0 1 Y2 \Y1 0 1
0 0 12 0 1
2
0
1
1 2
0 1 0 12
P X und P Y sind verschiedene 2-dimensionale Verteilungen,
aber P X1 = P Y1 und P X2 = P Y2 .
0 + 12

X1 X X X j=0
P (j) = P ({j} ) = P (j, 0) + P (j, 1) = 1
2
+0 j=1
 1
+0 j=0
P Y1 (j) = P Y ({j} ) = P Y (j, 0) + P Y (j, 1) = 2
0 + 12 j=1
P X2 = P Y2 analog.
Nun unabhangig von ZVen.
(6.15) Definition:
Eine Familie von ZVen Xi : (, A, P ) (i , Ai , P Xi ), i I heit stochastisch
unabhanging (oder die ZVen Xi , i I heien stochastisch unabhangig), falls die
Mengensysteme Xi1 (Ai ) unabhangig sind, d.h., jedes Reprasentantensystem Bi
Xi1 (Ai ), i I, bildet eine unabhangige Familie von Ereignissen.

T Xi , i I sind Q
(6.16) Die ZVen stochastisch unabhangig
P ( i=j {Xi Ai }) = i=j P (Xi Ai ) J I, |J| < und Ai Ai , i J.
(6.17) Satz:
Sind die ZVen Xi : i , i I stochastisch unabhangig und sind die Abbildun-
gen fi : i 0i messbar, so sind die ZVen fi Xi , i I stochastisch unabhangig.
Weiterhin:
Seien Ij I fur j J disjunkte Teilmengen und gi : iIj i j messbar.
gj (Xi , i Ij ), j J, stochastisch unabhangig (messbare Funktionen von ZVen
mit disjunkten Indexmengen).
(Beispiel:)
X1 , X2 , X3 unabhangig
X2 , (X1 , X3 ) unabhangig
X22 , (X1 X3 ) unabhangig
(6.18) Lemma:
Sei (, A, P ) ein diskreter WR. Dann gilt:
Xi , i I, stoch. unabh.
Y
P (Xj = xj , j J) = P (Xj = xj ) xj Xj (), j J, J I, |J| < .
jJ

40
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

(6.19) Bemerkung:
Es gilt mit (6.18):
P X = P (X1 ,...,Xn ) = ni=1 P Xi , also:
X1 , ..., Xn stoch. unabhangig.
n n
P Xi (Ai ) Ai Ai
Y Y
P (X1 ,...,Xn ) (ni=1 Ai ) = P (Xi Ai ) =
i=1 i=1
" n n
#
X Y (s.o.) Y
P X (ni=1 Ai ) = P X ({ = (1 , ..., n ); i Ai }) = P Xi (i ) P Xi (Ai ) .
;i Ai i=1
= i=1

(6.20) Bemerkung:
Es gilt:
Die ZVen X und Y sind stoch. unabhangig unter P .
ZVen f (X) und g(Y ) sind stoch. unabh. f, g : R1 R1 , f, g messbar.
Jetzt: Verteilung der Summe zweier unabh. ZVen.

(6.21) Satz:
X, Y seien stoch. unabh. ZVen auf Z mit den Zahldichten f , bzw. g.
(d.h., P (X = n) = f (n), P (Y = m) = g(m))
Dann hat X + Y die Zahldichte h gegeben durch

f (k j)g(j), k Z = P (X + Y = k).
X X
h(k) = f (j)g(k j) =
j Z j Z
Bezeichnung:
h ist Faltung der Dichten f und g: h = f g.
Beweis:P
Es ist jZ P (X = j) = jZ P (Y = j) = 1.
P

= X X
P (X + Y = k) P (X + Y = k, Y = j) = P (X + j = k, Y = j)
lokale W
j Z j Z
= X
P (X = k j) P (Y = j) .
stoch. unabh. |
j
{z
Z } | {z }
f (kj) g(j)

(6.22) (Beispiel:)

(i) Seien X, Y unabhangige b(1, p)-vert. ZVen,


d.h., P (X = 0) = 1 p, P (X = 1) = p.
P (X = 0) P (Y = 0) k=0
P (X + Y = k) = P (X = 0) P (Y = 1) + P (X = 1) P (Y = 0) k = 1
P (X = 1) P (Y = 1) k=2

41
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen


(1 p)2 k = 0
2p(1 p) k = 1 = k2 pk (1 p)2k , k {0, 1, 2}

=
2
p k=2
i.e. Binomialverteilung b(2, p) per Induktion.
P X1 , ..., Xn stoch. unabhangig b(1 p)-vert. ZVen
Seien
ni=1 Xi besitzt eine b(n, p)-Verteilung.
(ii) Seien X, Y unabh. X po (), Y po (), , > 0 (siehe (2.18)).
k
X X kj j
P (X + Y = k) = P (X = k j)P (Y = j) = e e

j N
0 j=0
(k j)! j!

k  
e(+) X k kj j
=
k! j=0
j
| {z }
(+)k

d.h., X + Y po ( + ).
Bisher zur Beschreibung des Zufalls
Zahldichte p : Z p() = P
P
1
WV P : A [0, 1], P (A) = A p(), A A.

Weiteres Hilfsmittel:
(6.23) Definition:
Seien (A0 , A, P ) einWR und X eine ZV mit WV P X .
Die Funktion F X :
R1 R1
x 7 P X ((, x])
heit die zu P X gehorige Verteilungsfunktion von X.
(Wenn Zusammenhang klar: F Verteilungsfunktion von X,
X verteilt nach F, ..., X F ).

(6.24) Bemerkung:

(i) Sei P X die Zahldichte von P X , dann ist

P X (), X R.
X X
F X (x) = P X ((, x]) = P X () =
x x
suppP X

(ii) Fur P X ((, x]) schreibt man (siehe (6.7)):


P X ((, x]) = P (X 1 ((, x]))
= P ({ ; X() (, x]}) = P (X x),
d.h., F X (x) ist die Wahrscheinlichkeit dafur, dass die ZV X Werte x an-
nimmt.

(6.25) Lemma:
Sei F X die zu P X gehorige Verteilungsfunktion. Dann gilt:

42
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

a) (i) F X ist monoton wachsend.


(ii) F X ist rechtsseitig stetig.
(iii) limx F X (x) = 1, limx F X (x) = 0.
b) P X ist durch F X eindeutig bestimmt.

Beweis (nur a)):

(i) Seien x1 x2 beliebig. Wegen (, x1 ] (, x2 ]


ist F X (x1 ) = P X ((, x1 ]) P X ((, x2 ]) = F X (x2 ).
(ii) Sei (xn )nN eine Folge mit xn x, n und (xn )n mon. fallend.
Mit An := (, xn ], n N gilt dann:
An An+1 , n N und n=1 An = (, x] =: A.
T


lim F X (xn ) = lim P X (An ) = P X (A) = F X (x).
Stetigkeit von oben n n

(iii) Sei (xn )nN monoton wachsend xn , n .


Dann: An R fur An := (, xn ].

lim F X (xn ) = lim P X (An ) = P X (R) = 1.


n n

Zweiter Grenzwert analog.

(6.26) Bemerkung:

(i) F X ist durch P X ebenfalls eindeutig bestimmt, denn:


F X Verteilungsfunktion zu P 0 mit Zahldichte p0 .
p0 (x) = F X (x) F X (x) = p(x) x R.
(ii) Es gilt pX (x) = F X (X) F X (x) (siehe oben),
d.h., F X stetig in x R pX (x) = 0 (sonst Sprung)
(pX (x) = 0 F X linksseitig stetig; F X rechtsseitig stetig
F X stetig.)
Weiter:
hochstens abzahlbar viele Punkte x R mit pX (x) > 0 (sonst
P
p() = ).
hochstens abzahlbar viele Unstetigkeitsstellen von F X .
(iii) zu (6.25)(b): WV uber R ist eindeutig bestimmt durch:
P X ((, x]), x R.
(iv) Sei {x1 , x2 , ...}, xi < xi+1 , i N eine Abzahlung des Tragers von P X . Dann:

P X ((, xi+1 )) = P X ((, xi ]) + P X ((xi , xi+1 )) ,


| {z } | {z }
F X (xi ) =0, da nicht in Trager

d.h., F X ist eine Treppenfunktion:



Sprunge an den Tragerpunkten, konstant sonst.

43
Einf. in d. Stochastik f. Inf. 2.6 Zufallsvariablen

(6.27) (Beispiel:)
Verteilungsfunktion der b(5, 12 )-Verteilung.

1 x 1 5x
 5
  
X x {0, ..., 5},
p (x) = x 2 2
0 sonst.

D.h., supp(pX ) = {0, ..., 5}



0 Pbxc
x < 0,
F X (x) = 1 5

25
i=0 i
0 x 5,
1 x > 5.

(6.28) Definition:
Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit der WV P X .
Die durch F X (x) := P X ((, x1 ] ... (, xn ]), (x1 , ..., xn ) Rn
definierte Funktion heit (multivariante) Verteilungsfunktion.
(n=1: siehe (6.23))

(6.29) Bemerkung:
Sind X1 , X2 stochastisch unabhangig, so gilt:
F (X1 ,X2 ) (x1 , x2 ) = F X1 (x1 ) F X2 (x2 ), (x1 , x2 ) R2 .
Beweis direkt aus Definition mit Ai = (, xi ].
Insbesondere:
Bei stochastisch unabhangigen ZVen ist die gemeinsame Verteilungsfunktion ein-
deutig durch die Verteilungsfunktion der eindimensionalen Randwerte bestimmt.

44
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

2.7 Erwartungswerte
(Beispiel:)
Wurfelspiel:
Ergebnis i {1, ..., 6} Auszahlung i Euro.
Durchschnittlich zu erwartende Auszahlung:
1
6
1 + 16 2 + ... + 16 6 = 3, 5.
Bezeichnung:
3,5 ist der Erwartungswert der ZV

{1, ..., 6} R,

X:
i 7 i,

wobei P X Laplace-Verteilung uber {1, ..., 6}.

(7.1) Definition:
Sei (, P(), P ) ein diskreter WR.

(i) Sei X() R+ oder


P X() R .

EX := E(X) := X()P ({})


heit Erwartungswert von X (unter P ).
(ii) Sei X eine reelle ZV mit
E(max(X, 0)) < P oder E(min(X, 0)) > .
Dann heit EX := X()P ({})
der Erwartungswert von X (unter P ).

(7.2) Bemerkung:

(i) Fur nichtnegative ZV ist Erwartungswert immer wohldefiniert, EX = er-


laubt.
(ii) Fur
P ZV mit postitiven und negativen Werten muss Wohldefinition der Reihe
X()P ({}) gewahrleistet werden.
Werden
P nur endliche Erwartungswerte betrachtet, kann absolute Konvergenz
( |X()|P () < ) gefordert werden.
( Anderung der Summationsreihenfolge erlaubt!)
(iii) Im Folgenden wird stets die Wahrscheinlichkeit der auftretenden Erwartungs-
werte vorausgesetzt.
(iv) EX hangt nur von der Verteilung von X ab:
Sei x1 , x2 , ... eine Abzahlung von X(), dann

X X
X
X
EX = X() P ({}) = xi P (X = xi ) = xi P X (xi ).
i=1 {;X()=xi } i=1 i=1

xi P X (xi ) erklart werden:


P
D.h., EX kann ebenso uber
EX = xR P X (x), (P X (x) = 0, falls x
P
/ supp(P )).

45
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(v) Erwartungswerte (als mogliche Kenngroen) dienen dem Vergleich von Vertei-
lungen (an Hand einige Kenngroen).

(7.3) (Beispiele:)

(i) Sei X b(n, p):


n   n
X
X n k X
EX = k P (k) = k p (1 p)nk
k=0 k=1 | {z }
k
n(n1
k1 )

n  
X n1
=np pk1 (1 p)nk
k=1
k1
n1  
X n1 k
np p (1 1)(n1)k = n p.
k
|k=0 {z }
=1, denn b(n1,p)-Vert.

(ii) Sei X po ().



X
X
X k
EX = k p (k) = k e
k=0 k=1
k!


X k1
=e = .
k=1
(k 1)!
| {z }
1

(iii) Fortsetzung von (6.9) binary search



ZV X zahlt Schritte bis zum Abbruch des Verfahrens X() {1, ..., n}.
Dort gesehen:
 k1n
2 1 k n 1,
P (X = k) = 1 1
2n
+ 2
k = n.
n n1  
X X
i1n 1 1
EX = iP (X = i) = i2 +n +
i=1 i=1
2n 2
n
X n n+1
= i 2i1n + n
= ... = n 1 + n ,
i=1
2 2
d.h., die erwartete Schrittzahl bis zum Abbruch des Algorithmus ist - fur groe
n - praktisch nur um Einen besser als im worst case.
( average case Analyse)

46
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(iv) ZV X mit Verteilung P X


Trager:
P N; P X (n) =const n12 
1 2 6
n=1 n2 = 6 , also const = 2
P
EX = n=1 n const n12 = .
(v) ZV X mit Verteilung P X .
Trager: {xi , i N; xP i 2i
i = (1) i }
und P X (xi ) = 21i , ( 1
i=1 2i = 1).
Dann:
E(max(X, 0)) =
P 22i 1
i=1 2i 22i = ,
E(min(X, 0)) = 22i1 1
P
i=1 2i1 22i1 = ,
d.h., Erwartungswert von X unter P existiert nicht.
Aber:
P P
X i 1
i=1 xi P (xi ) = i=1 (1) i = ln(2)
hangt von der Summationsreihenfolge ab (nicht absolut konvergent).
(vi) Sei X = IA . Dann
X X
EIA = IA () P () = P () = P (A).
A

Fur ZVen mit Werten in N0 gibt es andere Berechnungsmoglichkeiten fur den Erwar-
tungswert. Dazu zunachst:
(7.4) Lemma:
(an )nN Folge R+
P
P aus , b
P n := j=n aj .
Dann gilt: n=1 bn = n=1 n an .
Beweis:

P
1.Fall: n=1 n an <
X

X X = XX X
n an = an an = bj .
n=1 n=1 j=1
da abs. konv. j=1 n=j j=1
| {z }
bj

P
2.Fall: n=1 n an =
Also N 0 k0 N mit kn=1 n an N k k0 .
P
Fur solche k gilt:
k
X k
X n
X k X
X k
k X
X
X
N n an = an 1= an an bj ,
n=1 n=1 j=1 j=1 n=j j=1 n=j j=1
| {z }
bj
P P
d.h., n=1 bn N N 0 n=1 bn = .

47
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(7.5) Korollar:
Seien (, P(), P ) ein diskreter WR und X : N0 .
Dann gilt:

X
X
X
X X
EX = n P (n) = P ([n, )) = P (X n)
n=1 n=1 n=1

Zusatz: P (X n) = P (X > n 1) = 1 P (X n 1) = 1 F X (n 1),


d.h., Verteilungsfunktion als Ausgangspunkt zur Ereigniswertbildung.
Beweis:
direkt aus (7.4) mit an := P X (n), n N und bn = P X ([n, )).
(7.6) Beispiel:
Munzwurf: Kopf mit Wahrscheinlichkeit p (0, 1), n-fache, unabh. Wdh.
ZV X beschreibt Wartezeit bis zum ersten Auftreten von Kopf.
Dann:
Wahrscheinlichkeit, dass Kopf zum ersten Mal im n-ten Versuch auftritt:
P X (n) = p (1 p)n1 , n N.
Bezeichnung:
geometrische Verteilung

X X
X X
X
X
EX = P (X n) = P (k) = p(1 p)k1
n=1 n=1 k=n n=1 k=n

X
n1
X
k1
X 1
=p (1 p) (1 p) = (1 p)n1 = .
n=1 n=1
p
|k=1 {z }
1
p

Nun betrachten wir Ereigniswerte bei Abbildungen von ZVen.


(7.7) Satz:
Seien (, P(), P ) ein diskreter WR, X : Rk ein Zufallsvektor und f : Rk R
eine messbare Abbildung. Ferner ex. der Ereigniswert der ZV f X. Dann:
X
E(f X) = (f X)() P () (hier Kenntnis des Grundraums erforderlich)

= X X
xP f X (x) = f (t) P X (t)(= EP X (f )) (hier nicht)
s.o.
x R k
t R
Beweis:
X X X
E(f X) = xP f (x) (x) = xP (x1 (f 1 (x))) = xP X ({f = X})
x R x R x R
X X X X X
x P X (x) = f (t)P X (t) = f (t) P X (t).
x R t{f =X} x R t{f =X} t R k

Nun zu Eigenschaften von Ereigniswerten.

48
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(7.8) Lemma:
Seien X, Y ZVen mit endlichen Ereigniswerten, a R.

(i) E(a) = a
(ii) E(aX) = aEX (Skalaritat)
(iii) E(|X + Y |) E|X| + E|Y | (-Ungleichung)
(iv) E(X + Y ) = EX + EY
(v) X Y EX EY (Ordnungserhaltung)
speziell: Y 0 EY 0, EX E|X|
(vi) E|X| = 0 P (X 6= 0) = 0

Beweis:
P P
(i) Ea = a P () = a P () = a 1 = a

P P
(ii) E(aX) = aX() P () = a X() P () = a EX
P
(iii) E|X
P + Y | = |X() + Y ()|P ()
P (|X()| + |Y ()|)P
P ()
= |X()|P () + |Y ()|P ()
= E(X) + E(Y )

(iv)

(v)
P
(vi) E|X| = 0 |X()|P () =0
| {z }
0 , also=0
|X()|P () = 0
X() P () = 0
P (X 6= 0) = 0

(7.9) Lemma:
Seien (Xi )iI ZVen mit endlich vielen Ereigniswerten. Dann:

(i) E(supiI Xi ) supiI EXi


(ii) E(inf iI Xi ) inf iI EXi

Beweis:

(i) Fur festes i0 PI: P


E(supi Xi ) = (supi Xi ())P () Xi0 () P () = EXi0 .
Da i0 beliebig, gilt Bezeichung auch fur sup.
(ii) Analog oder mit supi Xi = inf i (Xi ).

P (X = k) = p (1 p)k1 , k N, p (0, 1).

49
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(7.10) Satz (Multiplikationssatz):


X, Y unabhangig und E|X| < , E|Y | < .
Dann E(X Y ) < und E(X Y ) = EX EY .
Beweis:
Seien {xi , i N} der Trager von X und
{yi , i N} der Trager von Y .

! ! X
X
X
X
Y = X
EXEY = xi P (xi ) yi P (yj ) xi yj P X (xi )P Y (yj )
i=1 j=1
abs.Konv. i=1 j=1


= XX () X
xi yj P (X,Y ) (xi , yj ) z P XY (z) = E(X Y )
unabh. i=1 j=1
z
=
R
() Satz (7.7) mit f : R2 R, f (x, y) = x y angewendet auf Vektor (X, Y ).

(7.11) Satz / Definition:


Seien X, Y ZVen und c R, k N:

(i) E((X c)k ), (f (x) = (X c)k in (7.7)), heit k-tes Moment von X um c (unter
P ) (nichtzentrales Moment, falls c = 0 (zentrales) Moment).
(ii) E((X EX)2 ), (c = EX, k = 2 in (i)), heit Varianz (Streuung) von X;
Bez.: Var X.
(iii) E((X EX)(Y EY )) heit Kovarianz von X und Y ;
Bez.: Cov(X, Y ).

Jetzt zu Ungleichungen fur Erwartungswerte (Momente).

(7.12) Satz: (Jensensche Ungleichung)


Seien X eine ZV, f : R R eine konvexe Funktion, so dass E(f X) und EX ex.
Dann gilt:
E(f X) f (EX).
Beweis:
siehe Literatur

(7.13) Korollar:
Seien X, Y reellwertige ZV.

(i) 0 |X| |Y |, E|Y | <


EX, E|X| < (folgt direkt aus (7.8)).
(ii) EX k < fur ein k N EX l < l k.
(iii) EX 2 < E((X + a)2 ) < a R (inbesondere Var X < ).

50
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(7.14) Korollar (Ungleichung von Lyapunoff):


X reellw. ZV, E(|X|r ) < fur ein r (0, ).
Dann ex. auch E(|X|s ) 0 < s r und es gilt:
1 1
(E(|X|r )) r (E(|X|s )) s .
Beweis:
|X|s |X|r + 1 Ex. von E(|X|s ).
r
Rest mit (7.12): f (x) = |X| s und |X|s , also:
r r
E(|X|r ) = E((|X|s ) s ) (E(|X|s )) s .

(7.15) Lemma (Eigenschaften der Varianz):


Sei Var X < .

(i) Var (aX + b) = a2 Var X a, b R.


(ii) Var X = EX 2 (EX)2 .
(iii) Var X = 0 P (X 6= EX) = 0.
(iv) Var X = minaR E((X a)2 ).

Beweis:
P
(ii) Var(X)
P =2 i=1 (xi )2 P X
P(xi ), ( := EX)
= i=1 xi P (xi ) 2 i=1 xi P X (xi ) + 2
X

= EX 2 2(EX)2 + (EX)2 = EX 2 (EX)2 .


(i) Var (aX + b) = E[(aX + b E(aX + b))2 ]
= E[(aX + b aEX b)2 ]
= E(a2 (X EX)2 )
= a2 E((X EX)2 )
= a2 Var X.
(iii) Var X = 0 i (xi )2 P X (xi ) = 0
P
xi = 0 i mit P X (xi ) 6= 0.
(iv) E((X a)2 ) = E((X + a)2 )
E(X )2 +2( a) E(X ) +( a)2
| {z } | {z }
Var X 0
= Var X + ( a)2 Var X
mit = = a,

d.h., EX minimiert die mittlere quadratische Abweichung von X zu a.

(7.16) (Beispiele:)

(i) X b(n, p) Var X = n p(1 p).


(ii) X po () Var X = = EX,
siehe Ubung.

(7.17) Bezeichnung:
Eine ZV X mit EX = 0 und Var X = 1 heit standardisiert.

51
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

Weiterhin:
Sei ZV Y gegeben mit EY = (< ) und 0 <Var Y =: 2 .
Dann:
X := Y EY1 = Y erfullt EX = 0 und VarX = 1.
(VarY ) 2
Dieser Vorgang heit Standardisierung.
Vorteil: Tabellierung.

(7.18) Satz:
Seien X, Y ZVen mit VarX, VarY < . Dann gilt:
Var(X + Y ) =Var(X)+Var(Y ) + 2Cov(X, Y ),
(wobei Cov(X, Y ) = E((X EX)(Y EY )) = E(X Y ) E(X)E(Y ),
dann Cov(X, Y ) = E(X Y XEY Y EX + EXEY )
= E(XY ) EXEY EY EX + EXEY ).
Beweis:
2 2
(Wegen |X Y | X +Y2
ist E(X Y ) < E(X + Y )2 ex.)
Var(X + Y ) = E((X + Y EX EY )2 )
= E[((X EX) + (Y EY ))2 ]
=Var(X)+Var(Y ) + 2Cov(X, Y ).
Bemerkung:
Varianzoperator nicht linear.
Korrekturterm Cov(X, Y ).
Ma fur den linearen Zusammenhang von X und Y .

(7.19) Korollar:
X1 , ..., Xn reellen ZVen mit EXi2 < fur i = 1, ..., n.
Dann (vollstandige Induktion)
n
! n n X n
X X X
Var Xi = Var(Xi ) + 2 Cov(Xi , Yj ).
i=1 i=1 i=1 j=i+1

(7.20) (Cauchy-Schwarz-Ungleichung:)
ZVen X, Y mit EX 2 , EY 2 < . Dann:

(E(X Y ))2 EX 2 EY 2 ,

wobei = a R mit P (aX = Y ) = 1 mit Wahrscheinlichkeit 1 Vielfache



voneinander.
Beweis:
0 E(X + aY )2 = EX 2 + 2aE(XY ) + a2 EY 2 =: h(a) hat Minimum in
a = E(XY
EY 2
)
, falls EY 2 > 0
))2 ))2
h(a ) = EX 2 2 (E(XY EY 2
+ (E(XY
EY 2
0.
2
Falls EY = 0 P (Y = 0) = 1 E(X Y ) = 0.
Dabei = E(X + aY )2 = 0 P (X + aY = 0) = 1.

(7.21) Eigenschaften der Kovarianz:

52
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

(i) Cov(X, Y ) = E(X Y ) EX EY .


(ii) Cov(X, X) =Var(X).
(iii) Cov(X, Y ) =Cov(Y, X).
(iv) Cov(aX + b, Y ) = a Cov(X, Y ).
(v) (Cov(X, Y ))2 Var(X)Var(Y ).
(vi) X, Y unabh. Cov(X, Y ) = 0.

Beweis:

(i) (7.18).
(ii) aus Definition.
(iii) aus Definition.
(iv) aus Definition.
(v) mit Cauchy-Schwarz
1
Cov(X, Y ) = E((X EX)(Y EY )) (Var(X)Var(Y )) 2 .
(vi) Cov(X, Y ) = E(XY ) EX EY = 0,
denn Multiplikationsansatz: E(XY ) = EX EY .

(7.22) Bemerkung:

(i) Die Kovarianz ist eine symmetrische Bilinearform.


(ii) aus (7.21) (iv) folgt:
X, Y unabh. Var(X + Y ) =Var X+Var Y .
(iii) X, Y heien unkorreliert, falls Cov(X, Y ) = 0.
Cov(X,Y )
(iv) Korr(X, Y ) := 1 [1, 1]
(Var(X)Var(Y )) 2
heit Korrelationskoeffizient.

53
Einf. in d. Stochastik f. Inf. 2.7 Erwartungswerte

Anwendung zu (ii):
X1 , ..., Xn stoch. unabhangig, id. verteilt
n
1X
Var ( Xi )
n i=1
| {z }
arithm. Mittel aus Stichprobe vom Umfang n
n
1 X 1
= Var(Xi ) = Var(X1 ).
n2 i=1
n

(7.23) Bemerkung:
Aus Unkorreliertheit folgt i.a. nicht die Unabhangigkeit.
Seien = {1, 2, 3}, P () = 31 , .
X, Y ZVen mit X(1) = 1, X(2) = 0, X(3) = 1, Y (1) = Y (3) = 1, Y (2) = 0.
gemeinsame WV.
P (X,Y ) ({(1, 1)}) = P ({1}) = 13
P (X,Y ) ({(0, 0)}) = P ({2}) = 13
P (X,Y ) ({(1, 1)}) = P ({3}) = 13
mit Randverteilung:
P (X = 1) = P (X = 0) = P (X = 1) = 13
P (Y = 0) = 13 , P (Y = 1) = 23
und
P XY ({1}) = P (X,Y ) ({(1, 1)}) = 13
P XY ({0}) = P ({2}) = 13
P XY ({1}) = P ({1}) = 13
EX = 13 (1 + 0 + 1) = 0, EY = 0 13 + 1 23 = 23
E(X Y ) = 13 (1 + 0 + 1) = 0, d.h.,
E(X Y ) = EX EY , dies bedeutet X, Y sind unkorreliert, aber nicht stoch. un-
abhangig.
P (X = 1, Y = 1) = 13 6= 13 23 = P (X = 1)P (Y = 1).

54
Einf. in d. Stochastik f. Inf. 2.8 Das schwache Gesetz groer Zahlen

2.8 Das schwache Gesetz groer Zahlen


X1 , ..., XPn stoch. unabhangig, identisch verteilt.
n Pn
s.o. E( n i=1 Xi ) = n i=1 EXi = n
1 1
n
=
(Bez.: P EXi = , Var Xi =P 2)
n 2 2
Var( n1 ni=1 Xi ) = n12 Var( ni=1 Xi ) = n12 ni=1 Var Xi =
P
n2
= n
, siehe Statistik.

Ziel:
arithmetisches Mittel von unabhangigen Zufallsvariablen mit demselben Ereigniswert
konvergiert gegen .

Zum Konvergenzbegriff:
punktweise Konvergenz:
fn (x) := c nx , x, c R, n N
limn fn (x) = c x R.
Sei nun (Xn )n Folge von ZVen mit
P (Xn = c) = 1 21n , P (Xn = 2c) = 21n , n N, c 6= 0,
hier keine punktweise Konvergenz, sondern
P (|Xn c| > ) = P (Xn = 2c) = 21n 0 0 < < |c|.

Bezeichnung:
Xn konvergiert stoch. gegen c.

(8.1) Definition:

(i) Folge (Xn )n von ZVen uber (, A, P ) heit stoch. konvergent gegen 0, falls

lim P (|Xn | > ) = 0 > 0.


n

Bezeichnung:
P -limn Xn = 0. [Bindestrich, nicht Minus]
(ii) (Xn )n heit stoch. konvergent gegen c R, bzw. gegen ZV X,
falls P -limn (Xn c) = 0, bzw. P -limn (Xn X) = 0.
Bezeichnung:
P -limn Xn = c, bzw. P -limn Xn = X oder
P P
Xn c, bzw. Xn X.

(8.2) Satz:
P P
Xn X und Xn Y P (X = Y ) = 1.
Beweis:
Sei > 0 beliebig.
{|X Y | > } {|Xn X| > 2 } {|Xn Y | > 2 }
|X Xn + Xn Y |

(|X()Y ()| > |X Xn |+|Xn Y | > |X Xn | > 2
oder |Xn Y | > 2 })

55
Einf. in d. Stochastik f. Inf. 2.8 Das schwache Gesetz groer Zahlen


P ({|X Y | > }) P ({|Xn X| > }) + P ({|Xn Y | > })
| {z 2 } | {z 2 }
0 fur n 0 fur n
P ({|X
S Y | > }) = 10 > 0C hat A :=S{X = Y },
C
A
P = n=1 {|X Y | > n
}, P (A ) = P ( n=1 ...)
1
n=1 P ({|X Y |} > n }) = 0
P (AC ) = 0 P (A) = 1.

(8.3) Satz:
P
(i) Xn P
X, Yn Y , g : R R stetig.
P
g(Xn , Yn ) g(X, Y ).
(ii) Xn X (punktweise Konvergenz, d.h., X() = limn Xn () .
P
Xn X.

Fur den Nachweis der stochastischen Konvergenz sind Ungleichungen fur Wahr-
scheinlichkeiten nutzlich.
Beweis:
X
E(g(|X|)) = g(|X|)P X (X)
x R
X X
= g(|X|)P X (X) + g(|X|)P X (X)
|X|> |X|<
X X
= g(|X|)P X (X) g() P X (X)
|X|> |X|
| {z }
P (|X|)

(8.5) Bemerkung:
Spezialfalle von (8.4).

(i) g(t) := tk , k > 0, t > 0.


k
P (|X| ) E|X|k
Abschatzung gegen absoluten Moment der Ordnung k.
(ii) g(t) = t2 Anwendung auf Y := X EX
P (|X EX| ) Var2 X Tschebyscheff-Ungleichung
(iii) gt (x) = etx , t > 0, x > 0
t|X|
P (|X| ) = Eeetx
(iv) Beweis von (8.4)
 ohne Ruckgriff auf diskrete WR.
g(), falls |X()| >
Sei Y () =
0, sonst
Y g(|X|) E(g(|X|)) EY = g()P (|X| ).

56
Einf. in d. Stochastik f. Inf. 2.8 Das schwache Gesetz groer Zahlen

(8.6) Satz (eine Version vom schwachen Gesetz groer Zahlen):


Seien (Xi )iN paarweise unkorrelierte ZVen
mit EXi = i N und Var(Xi ) < i N.
DannP gilt:
P (| n1 ni=1 XP
i | ) n2 0, d.h.,
n
P -limn n1 i=1 Xi = .
D.h., das arithmetische Mittel von Einzelversuchen ( beschrieben durch X1 , X2 , ...)
konvergiert stoch. gegen den (unbekannten) Erwartungswert D.
Beweis:
mit Tschebyscheff
Pn Pn
E( n1 P 1
i=1 Xi ) = n P EXi = ,
i=1
Var( n1 ni=1 Xi ) = n12 ni=1 Var Xi
n
Pn 1 X
1
P (| n i=1 Xi | ) 2 Var Xi n2
n
| i=1{z }
2

Beispiel:
Arithmetisches Mittel der Schatzung fur den EW
haufiges Wurfeln: Xi = {1 : falls 6 fallt, 0 : sonst}.
Aussage:
relative Haufigkeit fur das Wurfeln einer 6 konvergiert stoch.
gegen den Erwartungswert 16 .

(8.7) (Beispiel:)
diskreter WR (, A, P ), A , P () = p
0 < p < 1 n-fache unabhangige Wdh. des Zufallsexp.
Produktraum.
A =A
tritt beim i-ten Versuch auf
i
Seien Xi = IAi , 1 i n, stoch. unabhangige, ident. Verteilung.
EXi = P (AiP ) = p, Var Xi = p(1 p) (b(1, p)Verteilung).
P -limn n ni=1 Xi = p.
1
1
P
D.h., falls p unbekannt, dann ist das arithmetische Mittel n
Xi ein grober Schatzer
1
Pn
fur diesen Parameter ( n i=1 Xi ist die rel. Haufigkeit von A bei n Versuchen).

(8.8) (Beispiel:)
evtl. gefalschte Munzte
, Qualitatskontrolle, Stichprobe vom Umfang n.
Wie oft werfen (wieviele Bauteile uberprufen), damit p = Wahrscheinlichkeit fur
Zahl mit einer Sicherheitswahrscheinlichkeit von 0, 95 auf 0, 01 genau berechnet
werden kann?
Mit (8.7) Xi = I Zahl im i-ten Versuch, EX = p, p unbekannt.
(Xi )iN ZVen unabhangig, id. verteilt b(1, p)
1
P (| n1 ni=1 Xi p| 0, 01) n0,01
p(1p)
P
2 n0,012
4

f (x) = x(1 x), x = (0, 1), Max. fur f ?

57
Einf. in d. Stochastik f. Inf. 2.8 Das schwache Gesetz groer Zahlen

n 40,0112 0,05 = 2010000


4
= 50000.
grobe Abschatzung, d.h., n sehr gro ex. bessere.

Ich werde nach diesem 8. Kap. eine Pause einlegen, da ich in drei Wochen eine Schein-
klausur zu schreiben habe und noch an meinem Proseminar arbeiten muss.
Ich habe aber vor, dann spater (naturlich noch vor der Klausur), das Skript zu Ende zu
fuhren, sofern dies erforderlich ist. Der Professor deutete an, dass samtliche Inhalte der
Vorlesung im Internet verfugbar sein werden.

58