Sie sind auf Seite 1von 320

Stochastik für Informatiker

Mein Verständnis
T.S., Bahnhofsviertel Stand 11.8.2018

Einführung .................................................................................... 5
Verwendete Abkürzungen......................................................................................................................................... 6
Kapitel 0 ....................................................................................... 7
Grundlegendes .............................................................................................................................................................. 7
Ergebnisraum (Sample Space) ........................................................................................................................................ 7
Ereignisraum (Event Space) ............................................................................................................................................. 8
Einschluß-Ausschluß Regel (inclusion-exclusion principle).........................................................................11
Kapitel 1 ..................................................................................... 16
Den Zufall als Zufallsvariable repräsentieren........................................................................................................16
Indikatorvariablen ............................................................................................................................................................... 26
Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie ..................................................27
Wahrscheinlichkeiten als Verhältnisse .....................................................................................................................34
Das Geburtstagsproblem als Stellvertreter für Wahrscheinlichkeit von Kollisionen ....................... 45
Die Exponentialapproximation des Geburtstagsproblems .............................................................................49
Kapitel 2 ..................................................................................... 53
Permutationen als das Legostein Modell .................................................................................................................53
Eigenschaften von Permutationen .............................................................................................................................. 68
Der Binomialkoeffizient als das T-Shirt Modell ....................................................................................................79
Rein zufällige Stichprobe ohne Zurücklegen ..........................................................................................................90
Besetzungen als das Apfelmodell (Stars & Bars) .................................................................................................92
Besetzungsbeispiele von total geordneten Mengen ........................................................................................ 100
Kapitel 3 .................................................................................... 105
Einführung in Diskrete Verteilungen ................................................................................................................ 105
Was ist eine Verteilung ................................................................................................................................................... 105
Gewichtsfunktionen als Maß für diskrete Zufallsvariablen ........................................................................ 106
Verteilungsfunktionen diskreter Zufallsvariablen ........................................................................................... 110
Der Erwartungswert .............................................................................................................................................. 116
Herleitung über das Gesetz der großen Zahlen ................................................................................................. 116
Eigenschaften des Erwartungswertes .................................................................................................................... 121
Der Erwartungswert aus diskreter Sicht .............................................................................................................. 132
Das Wunder der Indikatorvariablen ....................................................................................................................... 137
Law of the unconscious statistician (l.o.t.u.s.) im diskreten Fall .............................................................. 142
Das Stichprobenmittel .................................................................................................................................................... 146
Die Varianz................................................................................................................................................................ 149
Eigenschaften der Varianz ............................................................................................................................................ 151
Der Verschiebungssatz ................................................................................................................................................... 154
Die Kovarianz....................................................................................................................................................................... 157
Eigenschaften von Kovarianzen ................................................................................................................................. 158
Die Standardabweichung .............................................................................................................................................. 169
Das Wurzel-n-Gesetz........................................................................................................................................................ 172
Die Stichprobenvarianz .................................................................................................................................................. 173
Die Stichprobenkovarianz............................................................................................................................................. 177
Populationen vs. Stichproben ..................................................................................................................................... 180
Einfache Lineare Regression ............................................................................................................................... 183
Pearson Product Moment.............................................................................................................................................. 184
Affin Lineare Prognose ................................................................................................................................................... 186
„Beste“ Prognose ................................................................................................................................................................ 189
Unabhängigkeit / Abhängigkeit von Zufallsvariablen .................................................................................. 191
Bedingte Wahrscheinlichkeiten ................................................................................................................................. 199
Bedingter Erwartungswert .......................................................................................................................................... 201
Trefferzeiten und Irrfahrten ........................................................................................................................................ 204
Bedingte Varianz ................................................................................................................................................................ 211
Konvergenz ............................................................................................................................................................... 215
Konvergenz in Verteilung.............................................................................................................................................. 215
Konvergenz in Wahrscheinlichkeit .......................................................................................................................... 216
Fast sichere Konvergenz ................................................................................................................................................ 216
Beispiele diskreter Verteilungen ........................................................................................................................ 217
Uniforme Verteilung auf ℤ (diskret)........................................................................................................................ 218
Bernoulli Verteilung ......................................................................................................................................................... 222
Binomialverteilung ........................................................................................................................................................... 227
Multinomialverteilung .................................................................................................................................................... 236
Multivariate hypergeometrische Verteilung ....................................................................................................... 243
Negative Binomialverteilung ....................................................................................................................................... 247
Geometrische Verteilung ............................................................................................................................................... 249
Inverse Hypergeometrische Verteilung ................................................................................................................. 251
Poisson Verteilung ............................................................................................................................................................ 252
Kapitel 4 .................................................................................... 254
Einführung in Kontinuierliche Verteilungen................................................................................................... 254
Dichtefunktionen als Wahrscheinlichkeitsgeber .............................................................................................. 255
Verteilungsfunktionen .................................................................................................................................................... 259
Der Erwartungswert aus kontinuierlicher Sicht ............................................................................................... 261
Die Varianz aus kontinuierlicher Sicht ................................................................................................................... 262
Transformationen kontinuierlicher Zufallsvariablen................................................................................... 264
Verteilungsfunktionsfunktion Technik .................................................................................................................. 264
Change of Variable ............................................................................................................................................................ 266
Zentraler Grenzwertsatz ....................................................................................................................................... 274
Beispiele kontinuierlicher Verteilungen .......................................................................................................... 279
Uniforme Verteilung auf ℝ (kontinuierlich) ....................................................................................................... 280
Exponentialverteilung..................................................................................................................................................... 283
Normalverteilung .............................................................................................................................................................. 287
Kapitel 5 .................................................................................... 292
Approximationen .................................................................................................................................................... 292
Binomial-Normalapproximation ............................................................................................................................... 293
Binomial-Poissonapproximation............................................................................................................................... 296
Multinomial-hypergeometrische Verteilung Approximation..................................................................... 298
Geometrische Verteilung - Exponentialapproximation ................................................................................. 301
Markow-Ungleichung ...................................................................................................................................................... 303
Tschebyscheff-Ungleichung ......................................................................................................................................... 304
Kapitel 6 .................................................................................... 306
Tipps & Tricks .......................................................................................................................................................... 306
Ermittle Grenzverteilung anstatt stationäre Verteilung ............................................................................... 306
Berechne Nullstellen iterativ ....................................................................................................................................... 310
Überpüfe Ergebnisse........................................................................................................................................................ 313
FAQ .............................................................................................................................................................................. 314
Einführung
Die Stochastik ist als mathematisches Teilgebiet nicht mehr wegzudenken. Die Fähigkeit, Aussagen
über mit Zufallsprozessen behaftete Systemen zu treffen, macht die Stochastik als mathematische
Disziplin in der modernen Gesellschaft unersetzlich. Von selbstfahrenden Autos, die sich mit
bedingter Wahrscheinlichkeit lokalisieren über Wettervorhersagen bis zur Schlangentheorie
(Queue Theory): Die hier vorgestellten Prozesse finden in jeder noch so kleinen Nische
Verwendung.
Dabei geht der Betrachtungshorizont weit über die „Prognose von zukünftigen Ereignissen“ hinaus:
Durch die Einführung einer Zufallsvariable rücken Systeme in den Anschauungsbereich, die sich gar
nicht primär mit der Zukunft beschäftigen aber probibalistischer Natur sind. Dies sind schon
Situationen, wo aufgrund von inpräzisen Messgeräten Toleranzen entstehen. Ein Roboter weiß zum
Beispiel nicht mit eindeutiger Genauigkeit wo er sich exakt befindet, kann aber mit Hilfe der
Wahrscheinlichkeitstheorie einen fundierten best guess über seine momentane Position abgeben.
Ein Algorithmus zur Gesichtsmustererkennung wählt aus einer ganzen Reihe visueller Konturen
nur diejenigen aus, die mit der größten Wahrscheinlichkeit als Gesicht klassifiziert werden.

Auch in der Komplexitätstheorie findet Wahrscheinlichkeitslehre Verwendung. Viele Probleme, die


sich in der Informatik als nicht effizient berechenbar darstellen, können durch stochastische
Heuristiken1 effizient approximiert werden. Die Komplexitätsanalyse eines Algorithmus kann man
nun auf Situationen beschränken, die auch eher eintreten : Würde man ausschließlich Worst-Case
Performance betrachten, wäre der Sortieralgorithmus Quicksort mit einer Laufzeit von 𝑂(𝑛2 ) keine
bessere Wahl als ein Bubblesort. Die Stochastik hilft uns aber eine Average Laufzeit zu bestimmen,
welche Quicksort mit einer Durchschnittslaufzeit von 𝑂(𝑛 ∙ 𝑙𝑜𝑔(𝑛)) wieder für viele Sachlagen
legitimiert.
Damit beantwortet sich die Frage „Warum Wahrscheinlichkeiten in der Informatik?“ wie von selbst.
Stochastik ist somit ein mächtiges Werkzeug in unserem Arsenal, um fundierte Entscheidungen in
einer mit Unsicherheit behafteten Welt zu treffen.
Dieses Buch beinhaltet genug Themen, so dass der Leser für eine einführende Veranstaltung über
Wahrscheinlichkeitslehre gewappnet ist. Angelehnt sind alle Themen am „Stochastik für
Informatiker“ Modul der Goethe Universität Frankfurt am Main.

1 z.B. der Ant-Colony Algorithm als Approximation für das Traveling Salesman Problem
Verwendete Abkürzungen

Buchstabe Bedeutung
Ω Ergebnismenge (Grundmenge)
Σ oft Ereignismenge
𝜇 Erwartungswert
Wahrscheinlichkeitsmaß, Kapitel 1
𝑃 Wahrscheinlichkeitsmaß
𝜇̅ Stichprobenmittel, arithmetisches Mittel
𝜎 Standardabweichung
𝑠𝑡𝑑 Standardabweichung
𝜎2 Varianz
̅𝜎̅̅2̅ Stichprobenvarianz
̅̅̅2̅𝑛
𝜎 biased Stichprobenvarianz
̅𝜎̅̅2̅𝑛−1 unbiased Stichprobenvarianz

𝑁 Größe einer Population


𝜌 Korrelationskoeffizient
Gewichtsfunktion (im offiziellen Skript)
𝑓𝑥 Gewichtsfunktion
Dichtefunktion
𝜋 Permutation
Zahl Pi
𝐹𝑥 Verteilungsfunktion

Es kann sein, dass einige Symbole in einzelnen Aufgaben andere Bedeutungen zugewiesen
bekommen.
Kapitel 0

Grundlegendes

Bevor wir beginnen können, müssen wir erstmal sicherstellen, dass wir „dieselbe Sprache“
sprechen.
Dies hat folgenden Vorteil: Der Schwierigkeitsgrad des gesamten Buches sinkt enorm, wenn die
grundlegenden Definitionen verstanden werden.

Zu oft werden Zufallsvariablen mit Ereignissen verwechselt oder der Ergebnisraum mit dem
Ereignisraum. In den meisten Fällen ist dies auch nicht weiter schlimm, diese Formalien bei der
Anwendung in den Hintergrund treten. Aber spätestens beim Lesen von Lektüre macht es Sinn, die
von den kommenden Dingen schonmal gehört zu haben.

Dabei lassen wir einiges bewusst aus (z.B. was eine Wahrscheinlicheit überhaupt ist), weil dies im
weiteren Verlauf noch genau erläutert wird.

Ergebnisraum (Sample Space)


Der Ergebnisraum (auch Ergebnismenge, Grundmenge, Sample Space, Stichprobenraum aber nie
Ereignisraum) enthält alle möglichen Ausgänge eines Zufallsexperiments.

Dieser Raum wird meist mit dem griechischen Buchstaben Ω (Omega) bezeichnet. Aber auch
andere Buchstaben sind geläufig, wie z.B. 𝑈 (für Universum).

In diesem Buch wird meistens Ω verwendet.


Werfe ich z.B. einen Basketball in einen Korb, so hat eine mögliche
Ergebnismenge die Form
Ω1 ≔ {𝑇𝑟𝑒𝑓𝑓𝑒𝑟, 𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}.
Möchten wir simulieren, dass nicht jeder Treffer gültig ist, so können wir
einfach eine neue Ergebnismenge bilden, die diese Informationen
beinhaltet, wie z.B.
Ω2 ≔ {𝑔ü𝑙𝑡𝑖𝑔𝑒𝑟 𝑇𝑟𝑒𝑓𝑓𝑒𝑟, 𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟, 𝑢𝑛𝑔ü𝑙𝑡𝑖𝑔𝑒𝑟 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}.
Ereignisraum (Event Space)
Der Ereignisraum (auch Ereignismenge, Event Space aber nie Ergebnisraum) enthält alle möglichen
Teilmengen von Ausgängen eines Zufallsexperiments.

Dieser Raum wird oft mit dem griechischen Buchstaben Σ (Sigma) bezeichnet. Aber besonders hier
sind auch andere Buchstaben geläufig, wie z.B. 𝐵 (als Abkürzung der borelschen Sigma Algebra).

In diesem Buch wird Σ verwendet.


Werfe ich erneut einen Basketball in einen Korb, so hat eine mögliche Ereignismenge die Form

Σ ≔ {{𝑇𝑟𝑒𝑓𝑓𝑒𝑟}, {𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}, {𝑇𝑟𝑒𝑓𝑓𝑒𝑟, 𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}, {}}.

Somit wird schnell ersichtlich, dass die Ereignismenge alle möglichen Kombinationen von
Ausgängen darstellt. Da die Ereignismenge meist alle Teilmengen von der Ergebnismenge Ω erhält,
ist natürlich auch die leere Menge enthalten.
Ein Element 𝜎 ∈ Σ heißt Ereignis. Ist das Element einelementig2 heißt es elementares Ereignis.
Im obigen Beispiel sind somit jeweils die Elemente {𝑇𝑟𝑒𝑓𝑓𝑒𝑟} sowie {𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}
Elementarereignisse.

Tipp
Man kann sich auch merken:

Ein Elementarereignis ist entweder ein beliebiges Element aus der Ergebnismenge 𝛺
versehen mit Mengenklammern oder die leere Menge.

Da die Ereignisse 𝜎 ∈ Σ in der Darstellung Mengen sind, gelten für sie auch sämtliche
Mengenoperatoren mit deren Implikationen.
Die wichtigsten sind hier aufgelistet:
Seien 𝐴, 𝐵 ∈ Σ Ereignisse aus Ω.

Definition 0.1
𝐴 ⊆ 𝐵 gilt, wenn das Auftreten von 𝐴 auch das Auftreten von 𝐵 impliziert.

2 Das bedeutet, die Menge 𝜎 ∈ Σ hat die Kardinalität eins.


Definition 0.2
𝐴 und 𝐵 sind disjunkt, wenn sie in einem Experiment nie gemeinsam auftreten können.

Definition 0.3
𝐴 ∪ 𝐵 ist das Ereignis, welches auftritt, wenn entweder 𝐴 oder 𝐵 auftreten (Vereinigung).
Dabei ist das oder einschließend.

Definition 0.4
𝐴 ∩ 𝐵 ist das Ereignis, welches auftritt, wenn 𝐴 und 𝐵 gemeinsam auftreten (Durchschnitt).

Sind 𝐴 und 𝐵 disjunkt, gilt 𝐴 ∩ 𝐵 = {}.


Definition 0.5
𝐴\𝐵 ist das Ereignis, welches auftritt, wenn 𝐴 ohne 𝐵 auftritt (Differenz).

Sind 𝐴 und 𝐵 disjunkt, gilt 𝐴\𝐵 = 𝐴.

Definition 0.6
𝐴𝐶 ist das Komplement von 𝐴.

Bisher befanden sich die Mengen 𝐴, 𝐵 ∈ Σ im gleichen Universum Ω. Nun bilden wir eine
Produktmenge 𝐾 als Kollektion von Universen, genauer
𝐾 ≔ Ω1 × Ω2 × … .× Ω𝑛 , 𝑚𝑖𝑡 𝑛 ∈ ℕ.

Für K gilt:

Definition 0.7
𝑛

⋃ 𝐴𝑖 bedeutet mindestens ein Event 𝐴𝑖 ∈ Ωi der Kollektion tritt auf.


𝑖=1

Definition 0.8
𝑛

⋂ 𝐴𝑖 bedeutet jedes Event 𝐴𝑖 ∈ Ωi der Kollektion tritt auf.


𝑖=1
Diese letzten beiden Definitionen sind wichtig, haben wir nämlich eine Folge von
Zufallsexperimenten können wir so ausdrücken, dass mindestens ein Versuch ein Erfolg sein soll
bzw. alle Versuche erfolgreich sein sollen.

Einschluß-Ausschluß Regel (inclusion-exclusion principle)

Hantieren wir mit normalen Mengen (keine Multimengen), so ist die Multiplizität jedes Elements
gleich eins.

Das bedeutet folgende Mengen sind identisch:


𝑀1 = {1,2,3},
𝑀2 = {1,1,1,1,1,2,3,1,1,1}.
Dabei sind sie formal nicht nur identisch in ihrem Inhalt sondern auch in ihrer Mächtigkeit. Durch
die Multiplizitätsregel ist gewährleistet, dass beide Mengen die gleiche Kardinalität aufweisen.
Somit gilt
|𝑀1 | = |𝑀2 | = 3.

Dies bringt uns aber nicht sofort ersichtliches Verhalten, wenn wir Mengen zusammenlegen. Bilden
wir die Vereinigung aus 𝑀1 und 𝑀2 erhöht sich nämlich die Kardinalität von 𝑀1 ∩ 𝑀2 nicht.
Es gilt hier sogar
|𝑀1 ∪ 𝑀2 | = |𝑀1 | = |𝑀2 | = 3.

Erneut ist dieser Umstand eine Folge der Multiplizitätsregel, da 𝑀1 sowie 𝑀2 die gleichen Elemente
enthalten.
Was ist aber, wenn wir nicht den Inhalt der Mengen 𝑀1 und 𝑀2 kennen, sondern nur die
Kardinalität? Wie würden wir dann die Mächtigkeit der Vereinigungsmenge |𝑀1 ∪ 𝑀2 | bestimmen
können?
Die Lösung ist die Einschluß-Auschluß Regel.

Achtung
Sobald aus 𝑛 Mengen mindestens zwei ein gleiches Element teilen, so muss bei der Vereinigung
die Einschluß-Auschluß Regel verwendet werden!

Wir summieren einfach die Kardinalitäten der Einzelmengen zusammen und ziehen die Anzahl von
Elementen ab, die beide teilen.
Bei unserem obigen Beispiel wäre dies
|𝑴𝟏 | + |𝑴𝟐 | − |𝑴𝟏 ∩ 𝑴𝟐 | = 𝟑 + 𝟑 − 𝟑 = 3.

Dies lässt sich auf 𝑛 Mengen verallgemeinern:


Definition 0.9
Seien 𝐴𝑖 Mengen. Dabei ist beliebig, ob sie untereinander disjunkt sind oder nicht.

Für die Kardinalität der Vereinigungsmenge gilt dann:


𝑛 𝑛 𝑛 𝑛

|⋃ 𝐴𝑖 | = ∑|𝐴𝑖 | − ∑ |𝐴𝑖 ∩ 𝐴𝑗 | + ∑ |𝐴𝑖 ∩ 𝐴𝑗 ∩ 𝐴𝑘 | − ⋯ + (−1)𝑛−1 ∙ |𝐴1 ∩ … ∩ 𝐴𝑛 |


𝑖=1 𝑖=1 1≤𝑖<𝑗 1≤𝑖<𝑗<𝑘

Tipp
Die Formel funktioniert natürlich auch bei disjunkten Mengen, da die Kardinalität der leeren
Schnittmenge null ist.

Die Funktionsweise dieser Formel ist sehr einfach. Wir stellen uns einfach alle 𝑛 Mengen als Venn3
Diagramm vor, visualisiert mit 𝑛 = 3.

Um die Anzahl der Elemente der Vereinigung 𝐴 ∪ 𝐵 ∪ 𝐶 zu ermitteln, fällt uns auf, dass wir beim
bloßen addieren der Einzelkardinalitäten |𝐴| + |𝐵| + |𝐶| einige Elemente doppelt oder gar dreifach
gezählt haben!

Da genau diese Elemente nur in den Vereinigungen vorkommen können, verwenden wir folgendes
Schema:

3Da die Einschluß-Ausschluß Formel auch bei disjunkten Mengen funktioniert, kann allgemeingültig ein Venn
Diagramm visualisiert werden anstatt ein Euler Diagramm.
Wir addieren zuerst alle Einzelmengen |𝑨| + |𝑩| + |𝑪|.
Aufgrund der Überlappungen gilt: |𝑨| + |𝑩| + |𝑪| ≥ |𝐴 ∪ 𝐵 ∪ 𝐶|.
Nun ziehen wir die paarweisen Überlappungen ab:

|𝑨 ∪ 𝑩| |𝑨 ∪ 𝑪| |𝑪 ∪ 𝑩|
Nun gilt aber:
|𝑨| + |𝑩| + |𝑪| − |𝑨 ∪ 𝑩| − |𝑨 ∪ 𝑪| − |𝑪 ∪ 𝑩| ≤ |𝐴 ∪ 𝐵 ∪ 𝐶|

Der Relationsoperator wechselt die Richung! Dies ist der Fall, da wir die Schnittmenge
𝐴 ∩ 𝐵 ∩ 𝐶 dreimal abgezogen haben. Das ist einmal zu viel.
Unsere momentan addierte Menge sieht so aus:

Also müssen wir noch den Schnitt |𝑨 ∩ 𝑩 ∩ 𝑪| hinzuaddieren und wir erhalten:
|𝑨| + |𝑩| + |𝑪| − |𝑨 ∪ 𝑩| − |𝑨 ∪ 𝑪| − |𝑪 ∪ 𝑩| + |𝑨 ∩ 𝑩 ∩ 𝑪| = |𝐴 ∪ 𝐵 ∪ 𝐶|

Für zwei Ereignisse folgt aus der Einschluß-Auschluß Formel:


Definition 0.10
Seien 𝐴 und 𝐵 Mengen. Dabei ist beliebig, ob sie disjunkt sind oder nicht.

Es gilt dann:

|𝐴 ∪ 𝐵| = |𝐴| + |𝐵| − |𝐴 ∩ 𝐵|

Dies ist auch der Ursprung des Additionssatzes der Stochastik:

Definition 0.11
Seien 𝐴, 𝐵 ∈ Ω Ereignisse. Dabei ist beliebig, ob sie unabhängig sind oder nicht.

Es gilt dann:

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

Diesen Umstand nennt man Additionssatz.

Gewiefte Mathematiker erkennen sofort, dass man bei 𝑛 disjunkten Mengen nur die
Einzelkardinalitäten addieren muss. Dies ist der Fall, da jeder Durchschnitt unter den Mengen eine
leere Menge ergibt und diese Mächtigkeit null besitzt.

Definition 0.12
Seien 𝐴𝑖 Mengen. Dabei sind sie untereinander disjunkt.

Für die Kardinalität der Vereinigungsmenge gilt dann:


𝑛 𝑛

|⋃ 𝐴𝑖 | = ∑|𝐴𝑖 |
𝑖=1 𝑖=1

Beispiel 1.1

Im Frankfurter Bahnhofsviertel leben 2000 Menschen. Davon besitzen 200 Leute ein
Skateboard, 100 Leute Schlittschuhe und 50 Leute Schlitteschuhe sowie ein Skateboard.

Geben Sie die Wahrscheinlichkeit ein, dass eine zufällig gewählte Person Schlittschuhe
oder ein Skateboard besitzt.

Ersteinmal bestimmen wir die Ereignisse:


𝐴 = {𝑃𝑒𝑟𝑠𝑜𝑛 𝑏𝑒𝑠𝑡𝑖𝑧𝑡 𝑆𝑘𝑎𝑡𝑒𝑏𝑜𝑎𝑟𝑑}
𝐵 ≔ {𝑃𝑒𝑟𝑠𝑜𝑛 𝑏𝑒𝑠𝑖𝑡𝑧𝑡 𝑆𝑐ℎ𝑙𝑖𝑡𝑡𝑠𝑐ℎ𝑢ℎ𝑒}
Wir merken sofort, dass die beiden Ereignisse nicht disjunkt sind, da es Leute gibt, die ein
Skateboard sowie Schlittschuhe haben.

Somit verwenden wir die Einschluß-Auschluß Formel:

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

200 + 100 − 50 250 1


⇔ = =
2000 2000 8

Wir werden in der Stochastik noch ähnliche Fälle begegnen, wo sich der Wert einer Reihe von
Ereignissen erheblich leichter berechnen lässt, wenn die Ereignisse disjunkt sind.
Ein prominentes Beispiel ist die Summe von unkorellierten Varianzen.
Kapitel 1

Den Zufall als Zufallsvariable repräsentieren


Zufallsvariablen (auch Zufallsgröße) sind ein wichtiger Bestandteil der Stochastik.
Die Essenz von Zufallsgrößen lässt sich zusammenfassen als:
„Zufallsvariablen sind Funktionen, deren Funktionswert vom Zufall abhängt.“

Definition 1.1
Eine Zufallsvariable 𝑋: Ω → 𝑆 ist eine messbare Funktion.4
Hierbei ist Ω die Menge der möglichen Ausgänge eines Zufallsexperiments.
Außerdem gehören beide Mengen Ω und 𝑆 zu unterschiedlichen Messräumen.

Dabei gibt eine Zufallsvariable selbst keine Wahrscheinlichkeit wieder, sondern weist einem
möglicherweise unquantifizierbaren Ausgang lediglich eine numerische Eigenschaft zu.

Eine Zufallsvariable widerspiegelt Unsicherheit. In den meisten Fällen (ausgenommen u.a. sichere
Ergeignisse, dazu später mehr) ist nicht eindeutig klar, welchen genauen Wert eine Zufallsvariable
in einer Betrachtung annehmen wird.

Zufallsgrößen können dabei alles Mögliche simulieren, z.B. Fehltertoleranzen bei Messgeräten aber
auch Ausgänge bei einem Würfelwurf. Selbst Funktionen und Verarbeitungen können mit
Zufallsvariablen versehen werden.

Eine wichtige Unterscheidung ist die zwischen diskreten und kontinuierlichen Zufallsvariablen.

4en.wikipedia.org/wiki/Random_variable
Definition 1.2
Eine diskrete Zufallsvariable hat eine abzählbare Zielmenge.

Definition 1.3
Eine kontinuerliche Zufallsvariable hat eine überabzählbare Zielmenge.

Definition 1.4
Eine gemischte Zufallsvariable hat eine Zielmenge, deren Abzählbarkeit von bestimmten
Realisierungen der Zufallsvariable abhängt.

FAQ: Wie kann ich mir eine gemischte Zufallsvariable vorstellen?


Frage: Bei einer diskreten und kontinuierlichen Zufallsvariable sind mir entsprechende
Beispiele aus der realen Welt sofort ersichtlich. Wie kann ich mir intuitiv eine gemischte
Zufallsvariable vorstellen?

Antwort: Betrachten wir folgende Situation:

Justin wirfst eine Münze. Erhält er in einem Wurf Kopf, dann kriegt er 2€. Bei Zahl, wirft
Justin einen Dartpfeil in das Einheitsintervall [0,1] und erhält den genauen Betrag auf sein
Konto überwiesen.

Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃(𝑋) keine aus):

Sei 𝜔 ∈ Ω die Eingabe für unsere Zufallsvariable 𝑋 .

2€, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓


𝑋(𝜔) = {
𝑊𝑒𝑟𝑡 𝑑𝑒𝑠 𝐷𝑎𝑟𝑡𝑤𝑢𝑟𝑓𝑠 𝑎𝑢𝑓𝑠 𝐸𝑖𝑛ℎ𝑒𝑖𝑡𝑠𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙

Wir sehen, dass die Abzählbarkeit des Funktionswert 𝑋(𝜔) (also der Zielmenge) vom
Ausgang des Experiments abhängt.

Interessant für später: Es ist sehr wohl möglich den Wert eines einzelnen kontinuierlichen
Elements zu bestimmen (der Pfeil kann z.B. auf genau 0,23000̅ landen). Erst wenn
Wahrscheinlichkeiten ins Spiel kommen, ist die Wahrscheinlichkeit 𝑃({𝑋 = 𝜔}) bei einer
uniform kontinuierlichen Verteilung gleich null.

Gemischte Zufallsvariablen kommen besonders oft bei mehrstufigen Experimenten vor und
sind deshalb definitiv keine Exoten. Wir werden auf den Wert und Nutzen dieser Variablen
am Ende dieses Dokuments eingehen.

Wenn wir einen Würfel rollen, ist der Ausgangs des Experiments strikt genommen keine Zahl. In
Wirklichkeit zeigt halt nur eine Augenseite nach oben, dessen Zahlenwert wir interpretieren.
Zufallsvariablen erlauben es uns, den Ausgang eine Experiments wirklich als Zahl aufzufassen.
Damit haben wir den mächtigen Werkzeugkoffer der Mathematik zur Verfügung, um mehr über
bestimmte Eigenschaften unserer Modellierung zu erfahren. Erst Zufallsvariablen ermöglichen es
uns, überhaupt Erwartungswerte, Varianzen und viel mehr auszurechnen.

FAQ: Wieso ist eine Zufallsvariable eine Funktion?


Frage: Wieso ist eine Zufallsvariable als Funktion 𝑋: 𝛺 → 𝑆 definiert? Kann man nicht einfach
den Ausgang eines realen Experiments direkt als Funktionswert überführen?

Antwort: Zufallsvariablen quantifizieren Geschehnisse aus der realen Welt. Nicht jedes reale
Ereignis lässt sich nämlich numerisch erfassen.

Die Bedingung, dass der Wertebereich 𝑆 messbar5 ist, bedeutet nicht automatisch, dass eine
Zufallsvariable ausschließlich Zahlen zuweist.

Im Allgemeinen6 gilt jedoch: 𝑆 = ℝ.

Betrachten wir folgende Situation: Wir werfen eine zweiseitige Münze.

Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):

Wir erstellen nun eine gültige Zufallsvariable 𝑋, die einem realen Ereignis (der Münzwurf)
einen numerischen Wert (meistens eine Zahl) zuordnet und eine ungültige Zufallsvariable 𝑌,
die nichtmessbare reale Ergebnisse ohne Modifikation überträgt.

Sei 𝜔 ∈ Ω die Eingabe für unsere Zufallsvariable 𝑋 sowie 𝑌 .

1, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓
𝑋(𝜔) = {
0, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙

𝐾𝑜𝑝𝑓, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓


𝑌(𝜔) = {
𝑍𝑎ℎ𝑙, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙

5 am Ende des Kapitels folgt eine kurze Wiederholung bezüglich Messbarkeit


6 https://en.wikipedia.org/wiki/Random_variable#Extensions
Unser 𝑋 ist eine gültige Zufallsvariable, weil es unseren Ausgang 𝜔 in einen messbaren Raum
𝑆 überträgt. Da wir unser 𝑆 ⊂ ℝ reellwertig gewählt haben, können wir sogar
Erwartungswerte, Abweichungen und viel mehr berechnen.

Das 𝑌 ist dagegen ungültig. Die Menge {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙} ist nicht messbar. Auch würde es wenig
Sinn machen.
Es lassen sich mit 𝑌 keine Varianzen, Erwartungswerte und viel mehr berechnen.

Wichtig für die Kreativität: Die Art und Weise, wie ein reales Ereignis quantifiziert werden soll steht
einem vollkommen offen.
Somit ist für das selbe Experiment im Kasten oben auch folgende Zufallsvariable 𝑇 gültig:
250, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓
𝑇(𝜔) = {
100, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙

Es sollte aber darauf Wert gelegt werden, dass die Zuordnungen leicht interpretiertbar sind.
Der Erwartungswert 𝐸(𝑇) = 17,5 würde für andere Personen nämlich leicht den Eindruck
erwecken, dass das Spiel nicht fair ist.
Hier einige Beispiele von Zufallsvariablen:

Beispiel 1.2

Wir wählen rein zufällig aus einer festen Menge von 𝑛 Personen. Von der gezogenen
Person betrachten wir das ganzzahlige Gehalt.

Diese Zuordnung können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus)

Sei 𝜔 ∈ S die Eingabe für unsere Zufallsvariable 𝑋.


Dabei entspricht ein 𝜔 einer gezogenen Person.

𝑋(𝜔) = 𝐺𝑎𝑛𝑧𝑧𝑎ℎ𝑙𝑖𝑔𝑒𝑠 𝐺𝑒ℎ𝑎𝑙𝑡 𝑑𝑒𝑟 𝑃𝑒𝑟𝑠𝑜𝑛

Unser Ergebnisraum Ω enthält alle möglichen Ausgänge unseres Zufallsexperiments. Jeder


Ausgang ist das Gehalt einer Person.

Daraus folgt:

Ω ≔ {𝐺𝑒ℎ𝑎𝑙𝑡
⏟ 0, 𝐺𝑒ℎ𝑎𝑙𝑡 1, … , 𝐺𝑒ℎ𝑎𝑙𝑡 (𝑛 − 1) }
𝑛−𝑣𝑖𝑒𝑙𝑒 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛
Weil jeder Ausgang der Ergebnismenge selbst eine Zahl ist, ist das Zufallsexperiment schon
quantifiziert. Eine sinnvolle Zuordnung 𝑋: Ω → 𝑆 ist folglich eine Identitätszuordnung, die
jedem Gehalt aus der Ergebnismenge Ω den gleichen Wert zuordnet.

𝑆 ≔ {𝐺𝑒ℎ𝑎𝑙𝑡 0, 𝐺𝑒ℎ𝑎𝑙𝑡 1, … , 𝐺𝑒ℎ𝑎𝑙𝑡 (𝑛 − 1)}

Diese Zufallsvariable ist diskret, weil der Wertebereich (Zielbereich von 𝑋) abzählbar ist.
Beispiel 1.3

Wir gehen in den Frankfurter Zoo und selektieren zufällig Tiere. Jedem Tier weisen wir
sein genaues Alter zu.

Diese Zuordnung lässt sich ebenfalls per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):):

Sei 𝜔 ∈ Ω die Eingabe für unsere Zufallsvariable 𝑋.


Dabei entspricht jedes 𝜔 einem gezogenen Tier.

𝑋(𝜔) = 𝐺𝑒𝑛𝑎𝑢𝑒𝑠 𝐴𝑙𝑡𝑒𝑟 𝑑𝑒𝑠 𝑇𝑖𝑒𝑟𝑒𝑠

Unser Definitionsbereich (oder auch Zielbereich von 𝑋) sieht dann aus wie folgt:

Ω ≔ {𝑖|𝑖 𝑖𝑠𝑡 𝑒𝑖𝑛 𝑔𝑒𝑧𝑜𝑔𝑒𝑛𝑒𝑠 𝑇𝑖𝑒𝑟}

Ein sinnvoller Wertebereich 𝑆 ist dann wie folgt:

S ≔ {𝑎| 𝑎 𝑖𝑠𝑡 𝑑𝑎𝑠 𝑔𝑒𝑛𝑎𝑢𝑒 𝐴𝑙𝑡𝑒𝑟 𝑑𝑒𝑠 𝑇𝑖𝑒𝑟𝑒𝑠 𝑚𝑖𝑡 𝑎 ∈ ℝ+}

Der Wertebereich repräsentiert das exakte Alter des Tieres. Das exakte Alter kann jede mögliche
reelle Zahl sein. Ein Tier kann sogar 𝜋 Jahre alt sein!
Folglich ist die Zufallsvariable kontinuierlich.
Tipp
Tipp: exakte Zeit, genaue Längen, exakte Flächen sind in exakter Arithmetik stets kontinuierlich,
da reell.

Achtung
Werden die reellen Zahlen auf rationale gerundet, sind wir wieder im diskreten Modell,
weil rationale Zahlen abzählbar sind.

Verlangen wir lediglich, dass das Alter der Tiere im Beispiel 1.3 auf bis zu zwei
Nachkommastellen genau ist, haben wir endlich viele Möglichkeiten. Somit ist die Zufallsvariable
dann diskret.

Da der vom Computer darstellbare Zahlenbereich eine Teilmenge von ℚ ist, sind im PC in
Theorie sämtliche Zufallsvariablen diskret. Dennoch lassen sich zumeist kontinuierliche Modelle
mit den entsprechenden Lösungsmethoden anwenden, wenn dies auch in exakter Arithmetik der
Fall wäre.

Oft kommt es vor, dass Zufallsvariablen auf Produktmengen von messbaren Mengen zuweisen. Dies
bedeutet, dass Anstatt eine Zahl eine Menge als Zuordnung rauskommt.

Definition 1.5
Eine Zufallsvariable 𝑋: Ω → 𝑆 𝑛 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 𝑛 > 1 bildet auf eine Produktmenge einer
messbaren Menge 𝑆 ab.

Diese Zufallsvariablen sind dennoch nützlich, weil die Komponenten der entstehenden Tupel ja
selbst einer messbaren Menge 𝑆 angehören.

Der Typ der Zufallsvariable (kontinuierlich, reell, gemischt) ergibt sich dann aus den Typen der
Komponenten.

Beispiel 1.4

Wir werfen Dartpfeile auf eine Scheibe. Jedem getroffenen Punkt wird seine Position
zugeordnet.

Diese Zuordnung können wir ebenfalls per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):

Sei 𝜔 ∈ Ω die Eingabe für unsere Zufallsvariable 𝑋.


Dabei entspricht 𝜔 der Position, an der der Dartpfeil die Scheibe getroffen hat.

𝑋(𝜔) = 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛, 𝑎𝑛 𝑑𝑒𝑚 𝐷𝑎𝑟𝑡𝑝𝑓𝑒𝑖𝑙 𝑑𝑖𝑒 𝑆𝑐ℎ𝑒𝑖𝑏𝑒 𝑔𝑒𝑡𝑟𝑜𝑓𝑓𝑒𝑛 ℎ𝑎𝑡

Unser Ergebnisraum (oder auch Definitionsbereich von 𝑋) sieht dann aus wie folgt:

Ω ≔ {(𝑥, 𝑦)|(𝑥, 𝑦) ∈ (𝐾𝑜𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑒𝑛𝑚𝑒𝑛𝑔𝑒 𝑑𝑒𝑟 𝐷𝑎𝑟𝑡𝑠𝑐ℎ𝑒𝑖𝑏𝑒) 𝑚𝑖𝑡 𝑥, 𝑦 ∈ ℝ}


Ein sinnvoller Wertebereich 𝑆 ist dann wie folgt:

𝑆 ≔ {(𝑥, 𝑦)|(𝑥, 𝑦) ∈ (𝐾𝑜𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑒𝑛𝑚𝑒𝑛𝑔𝑒 𝑑𝑒𝑟 𝐷𝑎𝑟𝑡𝑠𝑐ℎ𝑒𝑖𝑏𝑒) 𝑚𝑖𝑡 𝑥, 𝑦 ∈ ℝ}

Es gilt 𝑆 ⊂ 𝑅 2. Streng genommen weist 𝑋 somit keine Zahlen sondern Vektoren zu.

Diese Zufallsvariable ist kontinuierlich, weil jede Komponente 𝑥, 𝑦 des Tupels (𝑥, 𝑦)
überabzählbar ist.

Bei Erwartungswerten, Varianzen und vielen anderen Operationen muss bei solchen
Zufallsvariablen aber besonders acht gegeben werden.

Weil die meisten Zufallsvariablen zu Zahlenwerten evaluieren, können sie auch mit Konstanten
multipliziert, dividiert oder gar mit anderen Zufallsvariablen summiert werden.
Dadurch ist es auch möglich, neue Zufallsvariablen durch Kaskadierung zu formen.

Beispiel 1.5

Die Mitarbeiter einer Computerfirma haben jeden Morgen ein einzigartiges Ritual: Anstatt
Arbeitszeiten vorher festzulegen, fässt der Abteilungsleiter in zwei Behälter, die jeweils
mit zwölf Zetteln gefüllt sind. Jeder Zettel eines Behälters ist beschriftet mit je einer Zahl
aus {0,1,2, . . . ,11}.
Der Abteilungsleiter holt aus jedem Behältnis je einen Zettel heraus.
Der Wert der beiden Zettel wird summiert und ergibt die am Tag abzulegende Arbeitszeit
für jedem Mitarbeiter.

Mehrere Situationen hängen hier vom Zufall ab: Erstens steht zuvor nicht fest, welcher Zettel
aus der ersten Tonne gezogen wird. Außerdem wissen wir auch nicht, welchen Zettel der
Abteilungsleiter aus der zweiten Tonne ziehen wird.
Das Endergebnis, die Summe der beiden Zettel, hängt zuletzt auch noch vom Ergebnis der
ersten beiden Ziehungen ab.

Für jeden Zufallsprozess können wir je eine Zufallsvariable bestimmen.

Fangen wir mit den Behältern an.

Seien 𝑇1 , 𝑇2 die Zufallsvariablen für die Tonnen.

𝑇1 = 𝑇2 = {𝑖|0 ≤ 𝑖 ≤ 11, 𝑖 ∈ ℕ}

Seien 𝜔1 , 𝜔2 ∈ Ω die Eingaben für unsere Zufallsvariable 𝑇1 , , 𝑇2 .

Interessant für später: Die Zufallsvariablen 𝑇1 und 𝑇2 sind unabhängig, weil wir aus zwei
verschiedenen Tonnen fassen.

Unsere abzuleistende Arbeitszeit sei dann die Zufallsvariable 𝑌 mit:


𝑌 = 𝑇1 + 𝑇2

Dabei ist 𝑌 eine von 𝑇1 , 𝑇2 abhängige Zufallsvariable.

Frage: Wie kann ich mir den Wertebereich von 𝑌 vorstellen?

Antwort: Da die Zufallsvariablen 𝑇1 und 𝑇2 jeweils jeden Wert von 0 bis 11 annehmen
können, stellt 𝑌 alle möglichen Kombinationen von gültigen Arbeitszeiten 𝑇1 + 𝑇2 dar.

Der Wertebereich 𝑆𝑌 von 𝑌 definiert sich dann wie folgt:

𝐸𝑌 ≔ {𝑥 + 𝑦| ∀(𝑥, 𝑦) ∈ 𝑆𝑇1 × 𝑆𝑇2 }

Achtung
Zufallsvariablen, die auf Produktmengen abbilden lassen sich nicht mit normalen binären
Verknüpfen wie Addition, Subtraktion, Multiplikation verknüpfen.
Verknüpfungen der Vektorrechnung sind aber erlaubt, wenn die Elemente der Produktmenge
Zahlen sind.
Zum oberen Achtung gibt es noch ein Anti-Beispiel:

Beispiel 1.6 (Antibeispeil)

Folgendes Experiment wiederholen wir zwei Mal: Wir werfen Dartpfeile auf eine Scheibe.
Jedem getroffenen Punkt wird seine Position zugeordnet.
Wir bilden die Summe der beiden Dartpfeilpositionen.

Auf dem ersten Blick könnte sich dies leicht modellieren lassen:

Seien respektiv 𝜔1 ∈ Ω1 , 𝜔2 ∈ Ω2 unsere Eingaben für 𝑋1 , 𝑋2.


Dabei entspricht 𝜔𝑖 der Position, an der der Dartpfeil die Scheibe getroffen hat.

𝑋1 (𝜔1 ) = 𝑋2 (𝑤2 ) = 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛, 𝑎𝑛 𝑑𝑒𝑚 𝐷𝑎𝑟𝑡𝑝𝑓𝑒𝑖𝑙 𝑑𝑖𝑒 𝑆𝑐ℎ𝑒𝑖𝑏𝑒 𝑔𝑒𝑡𝑟𝑜𝑓𝑓𝑒𝑛 ℎ𝑎𝑡

Ω1 = Ω2 ≔ {(𝑥, 𝑦)|(𝑥, 𝑦) ∈ (𝐾𝑜𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑒𝑛𝑚𝑒𝑛𝑔𝑒 𝑑𝑒𝑟 𝐷𝑎𝑟𝑡𝑠𝑐ℎ𝑒𝑖𝑏𝑒) 𝑚𝑖𝑡 𝑥, 𝑦 ∈ ℝ}

𝑆1 = 𝑆2 ≔ {(𝑥, 𝑦)|(𝑥, 𝑦) ∈ (𝐾𝑜𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑒𝑛𝑚𝑒𝑛𝑔𝑒 𝑑𝑒𝑟 𝐷𝑎𝑟𝑡𝑠𝑐ℎ𝑒𝑖𝑏𝑒) 𝑚𝑖𝑡 𝑥, 𝑦 ∈ ℝ}

Jetzt fehlt doch eigentlich nur noch 𝑌, welches die Summe der beiden Dartwürfe darstellt.

𝑌=⏟
𝑋1 + 𝑋2
𝐟𝐚𝐥𝐬𝐜𝐡!

Aber es geht nicht auf. Was ist hier falsch gelaufen?


Analysieren wir einmal unser 𝑌 genauer.

𝑌= 𝑋
⏟1 + 𝑋
⏟2
𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑀𝑒𝑛𝑔𝑒 𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑀𝑒𝑛𝑔𝑒
Die Zufallsvariablen von denen 𝑌 abhängt evaluieren zu Mengen. Unser Standard-Plus
Operator ist eine Funktion mit zwei Variablen.
Genauer:
+: 𝑆 × 𝑆 → 𝑆

Setzen wir nun unsere Zufallsvariablen 𝑋1 , 𝑋2 in unsere +(𝑎, 𝑏) Funktion ein erhalten wir
einen Typenfehler:
+( 𝑋
⏟1 , 𝑋
⏟2 )
∈𝑆2 ∈𝑆2

Um 𝑌 zu verwirklichen müssten wir einen neuen Verknüpfungstyp erstellen von der Form
∗: 𝑆 2 × 𝑆 2 → 𝑆 2

Die wäre z.B. der Fall, wenn wir das + der Vektoraddition verwenden.
Da wir dies aber nicht getan haben, erhalten wir einen Typenfehler.

Tipp
Jede Verknüfpung ist eine Funktion. Deshalb sollte man genau den Verknüpfungstyp und die
Auswertung der Variablen kennen, bevor man Zufallsvariablen kaskadiert.
Indikatorvariablen
Indikatorvariablen sind besondere Zufallsvariablen. Sie haben nämlich nur die binären Ausgänge
„0“ und „1“. Sie dienen dazu Ereignisse zu Indizieren.

Eine Indikatorvariable hat konsequenterweise die Form


1, 𝑤𝑒𝑛𝑛 {𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑠 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠} 𝑡𝑟𝑖𝑡𝑡 𝑒𝑖𝑛
𝐼{𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑠 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠} = { .
0, 𝑤𝑒𝑛𝑛 {𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑠 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠} 𝑛𝑖𝑐ℎ𝑡 𝑒𝑖𝑛𝑡𝑟𝑖𝑡𝑡
Die Wahrscheinlichkeit, dass die Indikatorvariable „wahr“ wird (den Wert eins ausgibt) ist gleich
der Wahrscheinlichkeit des gewünschtes Ereignisses.

𝑃({𝐼{𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑠 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠} = 1}) = 𝑃({𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑠 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠}).

Somit können wir jedes Ereignis aus unserer Ereignismenge Σ durch Zufallsvariablen
repräsentieren.

Indikatorvariablen werden später eine so große Rolle spielen, dass der entsprechende Abschnitt
Kapitel 3: Das Wunder der Indikatorvariablen genannt wird.

Beispiel 1.7

Repräsentiere das Ereignis „Ich würfle eine Zahl größer vier.“ als Indikatorvariable.

Sei 𝐴 das Ereignis


𝐴 ≔ {5,6}.

Wir bestimmen die Indikatorvariable 𝐼𝐴 als

1, 𝑤𝑒𝑛𝑛 𝐴
𝐼𝐴 = { .
0, 𝑤𝑒𝑛𝑛 𝑛𝑖𝑐ℎ𝑡 𝐴

Zum Verständnis gilt per Definition:


2
𝑃({𝐼𝐴 = 1}) = 𝑃(𝐴) = .
6
Kurze Wiederholung: Wahrscheinlichkeitsräume und die
Maßtheorie

Um Wahrscheinlichkeiten besser zu verstehen, schauen wir uns kurz an, wie


Wahrscheinlichkeitsräume mit der Maßtheorie in Verbindung stehen.

Messraum

Definition 1.6
Ein Tupel (Ω, Σ) heißt Messraum (measurable space), wenn7

• Ω eine Grundmenge ist


• Σ eine o-Algebra auf der Grundmenge Ω ist

Dabei ist Σ ⊆ 𝜬(Ω), wobei 𝜬(Ω) die Potenzmenge von Ω ist.

Ein Beispiel einer Grundmenge (Ergebnismenge) Ω und einer o-Algebra Σ auf Ω ist der Ausgang
eines Münzwurfs, mit:
Ω = {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}

Σ = {{𝐾𝑜𝑝𝑓}, {𝑍𝑎ℎ𝑙}, {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}, {}}

Definition 1.7
Eine o-Algebra Σ ⊆ 𝜬(Ω), wobei 𝜬(Ω) die Potenzmenge von Ω ist, hat folgende
Eigenschaften:8

Die Grundmenge Ω ist Element von Σ


Ω∈Σ

Von einer Teilmenge ist auch das Komplement in Σ


A ∈ Σ ⇒ Ac ∈ Σ, 𝑚𝑖𝑡 𝐴𝑐 = Ω\𝐴

Sind die einzelnen Teilmengen von Ω Elemente von Σ, so auch deren


Vereinigung.
𝑛

𝐴𝑘 , A𝑘+1 , … , A 𝑛 ∈ Σ ⇒ ⋃ 𝐴𝑖 ∈ Σ
𝑖=𝑘

7 https://de.wikipedia.org/wiki/Messraum_(Mathematik)
8 https://de.wikipedia.org/wiki/%CE%A3-Algebra
FAQ: Wo ist der Nutzen der o-Algebra für 𝚺
Frage: Wieso soll Σ eine o-Algebra auf der Grundmenge Ω sein?

Antwort: Nur wenig später werden wir lernen, dass nur Teilmengen von Ω Wahrscheinlichkeiten
bekommen können, die auch in der Ereignismenge Σ vorkommen.

Wir würfeln einen sechsseitigen Würfel.


Die Werte in Ω definieren sich als die angezeigte Augensumme des Würfels, also

Ω = {1,2,3,4,5,6}

Wir bilden nun 𝚺𝟏 , 𝚺𝟐 und vergleichen:



𝚺𝟏 = 𝜬(Ω): = {{}, {1}, {2}, … {1,2,3,4,5,6}}

𝚺𝟐 ⊂ 𝜬(Ω): = {{}, {1}, {2}, {4}, {5}, {6}, {1,2,3,4,5,6}}

∗ 𝜬(Ω) ist die Potenzmenge von Ω

𝚺𝟏 ist eine gültige o-Algebra. Das bedeutet, dass jeder Ausgang des Würfelns in Ω auch messbar
ist und somit später Wahrscheinlichkeiten erhalten kann.

Teilmenge 𝚺𝟐 ist hingegen keine gültige o-Algebra, weil das zweite Kriterium
A ∈ Σ ⇒ Ac ∈ Σ, 𝑚𝑖𝑡 𝐴𝑐 = Ω\𝐴
verletzt wurde.
Somit wäre dies auch später kein gültiger Wahrscheinlichkeitsraum. Dies ist aber auch gut so,
weil wir dann z.B. 𝑃({1} ∪ {2}) nicht definieren könnten, weil {{1,2}} nicht Teil von 𝚺𝟐 ist.

Tipp
Eine Zufallsvariable 𝑋: Ω → 𝑆 ist eine messbare Funktion, die zwischen Messräumen
strukturerhaltend abbildet.

Mehr dazu:
Wikipedia - Measurable Function

Definition 1.8
Jede Teilmenge A ∈ Σ, ist messbar.9

Das bedeutet, dass aus unserer obigen Menge Σ ⊆ 𝜬(Ω), also

Σ = {{𝐾𝑜𝑝𝑓}, {𝑍𝑎ℎ𝑙}, {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}, {}}

9 https://de.wikipedia.org/wiki/Messraum_(Mathematik)
die Teilmengen {𝐾𝑜𝑝𝑓}, {𝑍𝑎ℎ𝑙}, {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}{} messbar sind. Dies gilt auch für die leere Menge,
schließlich ist diese ja auch Teilmenge von Ω. Diese Anforderung ist sehr wichtig. Denn nur
messbare Mengen können später durch unser Maß P Wahrscheinlichkeiten bekommen.
In der Stochastik nennen wir Ω Ergebnisraum und Σ Ereignismenge.
Jedes 𝐴 ∈ Σ nennt man Ereignis.

Das Tupel (Ω, Σ) ist formal ein Messraum. Ein stochastischer Messraum wird auch Ereignisraum
genannt (nicht zu verwechseln mit Ereignismenge). Noch ist unser Wahrscheinlichkeitsraum aber
nicht fertig.
Wir müssen eine Funktion 𝑃 einführen, die unseren Teilmengen Wahrscheinlichkeiten zuordnet.

Maßraum

Definition 1.9
Ein Maßraum (Ω, Σ, μ) ist ein Messraum (Ω, Σ) versehen mit einem Maß μ.

Ein Maßraum ist also nichts weiteres, als ein Messraum mit einem Maß.
Ferner gilt:

Definition 1.10
Das Maß μ ist auf Σ definiert.10

Jetzt sehen wir auch, warum wir in der Definition eines Messraums forderten, dass alle Elemente
von Σ messbar sind: Weil unser Maß μ darauf agiert. Ein Maß μ ist dabei eine Funktion, die jeder
Teilmenge einer Obermenge einen nichtnegativen Zahlenwert zuordnet. Etwas genauer:

Definition 1.11
Sei (Ω, Σ, μ) ein Maßraum.
Ein Maß μ ist eine Funktion μ: Σ → [0, +∞] für die gilt:

• Das Maß der leeren Menge ist null


μ(∅) = 0 (Das Maß der leeren Menge ist null.)

• Maße sind additiv

Sei 𝐴𝑛 eine Folge paarweise disjunkter Mengen aus Σ:


𝑛 𝑛

μ (⋃ 𝐴𝑖 ) = ∑ μ(𝐴𝑖 )
𝑖=1 𝑖=1

10 https://de.wikipedia.org/wiki/Ma%C3%9Fraum
Tipp
Ist 𝐴𝑛 eine Folge paarweise Mengen aus Σ, die nicht disjunkt sind, müssen wir die Einschluss-
Auschluss Regel verwenden.
Dazu später mehr.

Sind alle Teilmengen in Σ disjunkt, ist gerade die Additivität von μ ausschlaggebend. Das bedeutet,
dass das Maß von zusammengefassten Teilmengen nicht größer oder kleiner sein kann, als wenn
man die Objekte separat zusammen zählt.
Getreu nach dem Motto: Der gefüllte Sack ist nicht schwerer/leichter als die Summe seiner
Elemente. Der Wert von μ kann dabei als „Größe der Teilmengen hinsichtlich des Maßes μ“
interpretiert werden.

Jede Teilmenge A, die echt kleiner als Teilmenge B ist, bekommt durch unser Maß 𝜇 auch einen
kleineren Zahlenwert als B. Als würde man mit einem Lineal Legosteine messen.
Des Weiteren gilt:

Definition 1.12
Für ein normiertes Maß gilt:
𝜇(Ω) = 1

Tipp
Die obere Definition lässt sich gut merken als:

Der gesamte Sack wiegt genau 1. Somit darf die Summe der Inhalte (paarweise disjunkte
Teilmengen in Σ) diesen Wert nicht überschreiten.

In der Stochastik nennt man ein normiertes Maß 𝑃. Somit ist unser alleits bekanntes
𝐏: 𝚺 → [𝟎, 𝟏] nichts weiter als eine Funktion.
Da der Definitionsbereich von 𝑃 die Ereignismenge Σ ist, können auch nur Elemente aus Σ mit
Wahrscheinlichkeiten versehen werden.
Wir erinnern uns aus der Definition eines Messraums, dass sich in Σ die Teilmengen von Ω
befinden.
Deshalb sieht man auch oft Mengenklammern in der Argumentliste von 𝑃, also
𝑃({𝐴}), 𝑚𝑖𝑡 𝐴 ∈ Σ
anstatt
𝑃(𝐴)
Der Übersicht halber werden die Klammern aber oft weggelassen.
Ein Wahrscheinlichkeitsraum (Ω, Σ, P) ist somit ein Messraum (Ω, Σ, μ) mit normiertem μ.

Visualisiert ist ein Wahrscheinlichkeitsraum, der die Ausgänge eines fairen Münzwurfs
repräsentiert.
Wie bei der Sackanalogie zuvor, ist die Teilmenge {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙} größer als {𝐾𝑜𝑝𝑓} oder {𝑍𝑎ℎ𝑙}
allein. Da die Mengen disjunkt sind, hat das gemeinsame Maß 𝑃({𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}) einfach die
summierten Einzelgewichte 𝑃({𝐾𝑜𝑝𝑓}) + 𝑃({𝑍𝑎ℎ𝑙}) als Gewicht (und somit Wahrscheinlichkeit).
Zufallsvariablen 𝑋: Ω → Ω′ sind messbare Funktionen, die zwischen Messräumen strukturerhaltend
abbilden.

Definition 1.13
Eine Zufallsvariable entspricht in der Verteilung einem Bildmaß.
Somit transportiert eine Zufallsvariable jeden Ausgang aus Ω, der dem Messraum (Ω, Σ) angehört, in
einen anderen Messraum (Ω′ , Σ′ ). Anstatt Ω′ schreiben wir auch 𝑆, woraus 𝑋: Ω → 𝑆 folgt.

Definition 1.14
Sei 𝑋: Ω → 𝑆 eine Zufallsvariable und 𝑘 ∈ 𝑆, 𝐴 ⊆ 𝑆.

𝑃({𝑋 = 𝑘}) = 𝑃(𝑋 −1 ({𝑘})) = 𝑃𝑋 ({𝑘}) = 𝑃({𝜔 ∈ Ω: 𝑋(𝜔) = 𝑘})

𝑃({𝑋 ∈ 𝐴}) = 𝑃(𝑋 −1 (𝐴)) = 𝑃𝑋 ({𝐴}) = 𝑃({𝜔 ∈ Ω: 𝑋(𝜔) ∈ 𝐴})11

Tipp
Die obere Definition nennt man das inverse image einer Funktion.

Achtung
Ein häufiger Fehler ist es, 𝑃({𝑋 = 𝑘}) mit einem Ereignis {𝑘} ∈ Σ zu verwechseln.
Laut der obigen Definition gehört {𝑘} ∈ Σ ′ aber dem von 𝑋: Ω → 𝑆 abgebildeten Messraum (𝑆, Σ′ )
an.
Also: 𝑘 ∈ 𝑆 𝑏𝑧𝑤. {𝑘} ∈ Σ′.

Da der Abbildungsraum (S, Σ ′ ) ein Messraum ist, besitzt dieser kein Wahrscheinlichkeitsmaß. Dies
ist aber auch nicht nötig, da wir in der obigen Definition gelernt haben, dass sich jedes 𝑘 ∈ 𝑆 über
das Rückbild 𝑃𝑋 ({𝑘}) wieder zu (Ω, Σ, P) überführen lässt. Da (Ω, Σ, P) ein Wahrscheinlichkeitsraum
ist, gilt das Maß 𝑃 für beide Messräume (Ω, Σ) und (𝑆, Σ′ ).

Somit ist sichergestellt, dass bei einem Münzwurf beide Maßaufrufe 𝑃𝑋 ({1}) und 𝑃({𝐾𝑜𝑝𝑓}) die
gleiche Wahrscheinlichkeit ausgeben.

Aber nach welchen Kriterien verteilt unsere Maßfunktion die Wahrscheinlichkeiten an die
Ereignisse in Σ?

Hier gibt es viele Freiheiten. Haben wir Zufallsvariablen definiert, so kann P im kontinuierlichen

11 hier
Fall kann eine Verteilungsfunktion sein, im diskreten eine Gewichtsfunktion.
Aber auch ohne Zufallsvariablen kann man Verteilungen (siehe Kapitel 3) ermitteln, indem man
einfach die Wahrscheinlichkeit für jedes Elementarereignis nacheinander aufschreibt.
Wahrscheinlichkeiten als Verhältnisse
Wahrscheinlichkeitswerte lassen sich als Verhältnisse zwischen einer Grundmenge Ω und seinen
Teilmengen 𝐵𝑖 ∈ Σ auffassen.

Grundsätzlich beantworten Wahrscheinlichkeiten die Frage:


„Wie groß ist der Anteil der blauen Fläche im Vergleich zum gelben Rechteck?“12

Verbinden wir dies nun mit Zufallsvariablen, so ergibt sich ein analoges Bild:

„Wie wahrscheinlich ist es, dass eine rein zufällige Auswahl eines Punktes aus dem Quadrat in die
blaue Fläche fällt?“
Zuvor haben wir gelernt: Zufallsvariablen 𝑋: Ω → 𝑆 stellen Abbildungen zwischen Messräumen dar.
Wir definieren die Grundmenge unserer Abbildung als 𝑆 und eine beliebige Teilmenge als 𝐴 ∈ Σ′.

12 Vorlesung 1a_k von Prof. Wakolbinger


„Wie wahrscheinlich ist es, dass eine Zufallsvariable X mit Zielbereich S in das Ereignis A fällt?“
Wir erinnern uns, dass Zufallsvariablen, sich als diskret, kontinuierlich oder gemischt
kategorisieren lassen. Die kontinuierliche Antwort auf die obere Frage lautet:
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝐴
𝑃(𝑋 ∈ 𝐴) =
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝑆
Dabei muss A messbar sein.

Achtung
Die Wahrscheinlichkeit, dass eine uniform verteilte kontinuierliche Zufallsvariable auf einen
einzelnen Punkt fällt, also 𝑃(𝑋 = 𝜔) 𝑚𝑖𝑡 𝜔 ∈ 𝑆, beträgt null.
Intuitiv lässt sich dies dadurch begründen, dass ein einzelner Punkt keine Fläche repräsentiert.

Nehmen wir nämlich eine uniforme Verteilung dieses Punktes auf der Fläche 𝑆 an hätte dies zur
Folge:
|𝐴| ∗ 1 ∗∗
𝑃(𝑋 = 𝜔) = = = 𝑢𝑛𝑑𝑒𝑓𝑖𝑛𝑖𝑒𝑟𝑡
|𝑆| ∞
∗ 𝑤𝑒𝑖𝑙 𝑋 𝑢𝑛𝑖𝑓𝑜𝑟𝑚 𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡
1
∗∗ 𝑖𝑠𝑡 𝒏𝒊𝒄𝒉𝒕 𝑛𝑢𝑙𝑙 𝑠𝑜𝑛𝑑𝑒𝑟𝑛 𝑢𝑛𝑑𝑒𝑓𝑖𝑛𝑖𝑒𝑟𝑡13

1
Aus praktischen Gründen gilt hier ist null, weil die Wahrscheinlichkeit sich asymptotisch der

Null annähert.

Bezüglich dies und weiterer scheinbarer Paradoxa gibt es im Kapitel kontinuierliche


Wahrscheinlichkeiten mehr.

Die diskrete Sicht auf die obige Frage, „Wie wahrscheinlich ist es, dass eine Zufallsvariable X mit
Zielbereich S in das Ereignis A fällt?“ behandelt die Menge S sowie die Teilmenge A als eine
abzählbare Menge von Punkten.

Die Anzahl der Gesamtpunkte von S kann beliebig hoch sein, hauptsache sie ist abzählbar.
Die diskrete Version des vorherigen Bildes ist vorstellbar als:

13 https://www.mathsisfun.com/calculus/limits-infinity.html
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝐴 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑃𝑖𝑥𝑒𝑙 𝑣𝑜𝑛 𝐴
𝑃(𝑋 ∈ 𝐴) = =
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝑆 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑃𝑖𝑥𝑒𝑙 𝑣𝑜𝑛 𝑆

Tipp
Generell lassen sich Wahrscheinlichkeiten intuitiv einprägen als:

𝐴𝑛𝑧𝑎ℎ𝑙 𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒


𝑃(𝑋 ∈ 𝐴) =
𝐴𝑛𝑧𝑎ℎ𝑙 𝑚ö𝑔𝑙𝑖𝑐ℎ𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒

In der realen Welt ist uns das genaue Verhältnis 𝑃(𝐴) oft nicht bekannt. Wir erinnern uns an die
Hypothesentests aus dem Stochastikunterricht aus der Schule. Woher soll denn eine Firma wissen,
dass z.B. genau 𝑝 = 0.2 ihrer Spielzeuge kaputt sind, damit wir via Hypothesentest prüfen können,
ob unsere Stichprobe diesen Spezifikationen entspricht?
In anderen Worten: Oft ist uns der blaue Anteil 𝐴 vom gelben Rechteck S unbekannt.
Um diesen zu ermitteln, greifen wir z.B. auf Monte-Carlo Methoden zurück.

Geschichte
Monte-Carlo Verfahren wurden Mitte der 1940’er Jahre von Stanislaw Ulam entworfen,
während eines krankheitsbedingten Urlaubs von seiner Arbeit an Atomwaffen am Los
Alamos National Laboratory.

Um sich die Zeit zu vertreiben, spielte er die Canfield Variante vom Kartenspiel Solitaire mit
52 Karten. Im Verlaufe der Zeit stellte er sich die Frage, wie hoch die
Gewinnwahrscheinlichkeit eines solchen Spiels sei.

Nach der Realisierung, dass die Beantwortung dieser Frage komplizierte kombinatorische
Berechnungen nach sich zieht, begann er nach Methoden zu suchen, die
Gewinnwahrscheinlichkeit zu approximieren.

Ihm kam die Idee, das Spiel einfach sehr sehr oft zu spielen und den Anteil der Gewinne mit
der Gesamtanzahl der Spiele ins Verhältnis zu setzen. Dieses Verhältnis war dann eine
Schätzung der gesuchten Wahrscheinlichkeit.
Je öfter er das Spiel spielt, umso genauer seine Schätzung, so seine Prognose.
Zusammen mit John von Neumann integrierte er diese Methode später in seine Arbeit.
Aufgrund der geheimen Natur des Atomwaffenprojekts, tauften sie die Methode Monte-Carlo,
benannt nach dem gleichnamigen Kasino in Monaco, welches von Ulams Onkel frequentiert
wurde.

Der Kerngedanke von Monte-Carlo Verfahren lässt sich leicht in einem Satz zusammenfassen:
„Monte-Carlo Methoden basieren auf dem Prinzip, Schätzungen durch wiederholte zufällige
Stichproben zu ermitteln.“

Beispiel 1.8
Betrachten wir folgende Situation:

Ein Hersteller von Spielzeug hat eine große Ladung seiner Produkte an mehrere
Einkaufsketten ausgeliefert.
Aufgrund eines Defekts an einer der Produktionsmaschinen, geht der Hersteller davon aus,
dass ein signifikanter Anteil des Spielzeugs kaputt ist.

Der Hersteller hat nur die Kapazitäten einen Teil des gesamten Spielzeug zu testen. Dennoch
ist er verpflichtet, den Kaufhäusern Auskunft darüber zu geben, wie viel Prozent vom
Gesamtvolumen des ausgelieferten Spielzeugs defekt ist. Dies ist notwendig, damit die
Kaufhäuser ihre Hypothesentests durchführen können.

Ermitteln Sie einen Schätzwert M, welcher den Prozentsatz an insgesamt defekten


Spielzeugen angibt, ohne dass der Hersteller jedes einzelne Spielzeug kontrollieren muss.

Dieses stochastische Problem lässt sich geometrisch überführen. Dabei repräsentiere die
Fläche S die Gesamtladung an Spielzeug und die Teilfläche A den Anteil der kaputten
Spielzeuge.

Es gilt nun den Anteil 𝑃(𝐴) = 𝑝 zu finden. Da der Hersteller nicht das komplette Spielzeug
untersuchen kann, aber sehr wohl Teile davon, eignet sich das Monte-Carlo Verfahren, um p
zu approximieren.

Im Sachzusammenhang bedeutet dies, um unseren Wert 𝑃(𝐴) = 𝑝 zu schätzen ziehen wir


wiederholt Stichproben aus unserer Grundmenge S . Den Wert der Stichproben mitteln wir
und erhalten unseren Schätzwert M. Hierbei gilt: Je größer unsere Stichprobengröße und je
öfter die Wiederholung des Stichprobenziehens, umso eher konvergiert unser Schätzwert M
zum tatsächlichen p.

Sei X eine Zufallsvariable mit Zielbereich S.


Wir definieren eine neue Zufallsvariable Z, mit folgenden Eigenschaften:

𝑍𝑖 ≔ 1𝐴 (𝑋𝑖 ), 𝑚𝑖𝑡 𝑖 = 1,2, … , 𝑛

Dabei ist:
1, 𝑤𝑒𝑛𝑛 𝑥 ∈ 𝐴
1𝐴 (𝑥) = {
0, 𝑠𝑜𝑛𝑠𝑡

Somit ist 𝑍𝑖 ein Indikator des Ereignisses „𝑋𝑖 fällt in A“.14

Dies lässt sich auch alternativ schreiben als:

𝑍𝑖 ≔ 1{𝑋𝑖 ∈𝐴}

Jetzt definieren wir unseren Schätzer für die gesuchte Wahrscheinlichkeit p.

Dabei ist der Schätzer M selbst auch eine Zufallsvariable, weil er aus den Zufallsvariablen 𝑍𝑖
besteht(siehe Kaskadierung von Zufallsvariablen aus dem Abschnitt zuvor).

Die Definition des Schätzer M ist somit:

1
𝑀𝑛 ≔ (𝑍 + ⋯ + 𝑍𝑛 )
𝑛 1
1
Wir multiplizieren mit , weil wir den Anteil von Treffern in Relation mit der Gesamtanzahl
𝑛
der Stichprobe setzen möchten.
Der Wertebereich 𝐸𝑀 von M ist jede mögliche Anzahl von „Treffern“ bei n Ziehungen.

0 1 𝑛
𝐸𝑀 ≔ { , , … , }
𝑛 𝑛 𝑛

Der Schätzer M kann somit nur abzählbare Werte annehmen. Lässt sich die gesuchte
Wahrscheinlichkeit p nicht als
𝑎
𝑚𝑖𝑡 0 ≤ 𝑎 ≤ 𝑛
𝑛
darstellen, so ist M bestenfalls ein gerundeter Wert von p.

14 Vorlesung 1a_k, Prof. Wakolbinger


Der Spielzeughersteller kann nun z.B. eine Stichprobengröße von 100 wählen, daraus die
kaputten Spielzeuge zählen und das Experiment k-mal wiederholen. Der Mittelwert ist dann
unser gesamter Schätzwert R für p.

𝑘
1
𝑅 = ∑ 𝑀100 ≈ 𝑝
𝑘
𝑖=1

Tipp
Der genaue Anteil p wird durch ein Monte-Carlo Verfahren nicht ermittelt, wenn p eine
transzendente Zahl ist.

Dies ist der Fall, weil die Ergebnisse vom z.B. obigen Monte-Carlo Verfahren abzählbar sind,
transzendente Zahlen wie 𝜋 aber überabzählbar.
Folglich entspricht unser Schätzwert dann einer (oft guten) Rundung.

Beispiel 1.9
Probiere es selbst aus!
Betrachten wir folgende Situation:

Die Fläche S sei ein Einheitsquadrat mit den Ausmaßen 1000x1000. Zusätzlich existiere die
Teilfläche A ⊆ S. Gesucht ist das Verhältnis P(A) = p über die Monte-Carlo Methode aus der
Vorlesung 1_k bzw. dem Beispiel zuvor.

Nun bist du gefragt: Öffne das C++ Programm „Monte-Carlo Simulation“ mit einem Compiler
deiner Wahl und kompiliere es.
Dafür muss kein Compiler installiert werden, es reicht den Programmcode in einen
Onlinecompiler wie http://www.tutorialspoint.com/compile_cpp11_online.php zu füttern.

Das Programm lässt einen den tatsächlichen Anteil P(A) = p wählen. Anschließend wähle
1
eine Stichprobengröße n für den Schätzer 𝑀𝑛 ≔ (𝑍1 + ⋯ + 𝑍𝑛 ) .
𝑛

Sieh, wie sich die Genauigkeit der Schätzung in Abhängigkeit von der Stichprobengröße n
ändert.

Hier ein Beispiel (Histogramme in Excel erstellt):

Sei 𝑝 = 0.234
Ein Ergebnis für n=10

H I S T O GRA M M - S TI C H PR OB EN GRÖ ß E 1 0
7
ANZAHL

0 1
NICHTTREFFER/TREFFER VON ZV ZI

Daraus folgt:
𝑀10 = 0.3

Ein Ergebnis für n=1000


H I S T O GRA M M - S TI C H PR OB EN GRÖ ß E 1 0 0 0
765
ANZAHL

235

1 2
NICHTTREFFER/TREFFER VON ZV ZI

Daraus folgt:
𝑀1000 = 0.235

Tipp
Um zufällige Ziehungen für ein Monte-Carlo Verfahren zu generieren, werden Zufallszahlen
benötigt.
Dabei müssen die Ziehungen nicht komplett zufällig sein.
Zufallsgeneratoren wie die rand() Funktionen in Java oder C++ sind Pseudo-Zufallsgeneratoren.
Sie generieren nicht tatsächlich zufällige Zahlen. Dies ist aber meistens auch nicht notwendig,
weil es oft ausreicht, dass die Pseudozufallszahlen uniform verteilt „erscheinen“.

Da aber solche Algorithmen deteministischer Natur sind, leiden diese Generatoren unter
Periodizität. Irgendwann werden sich die Zufallszahlen in genau der gleichen Reihenfolge
wiederholen.

Der unterliegende Algorithmus, der die Zufallszahlen generiert, ist also extrem wichtig für die
Verlässlichkeit eines Monte-Carlo Verfahrens.

Mehr Info: Scratchapixel-Monte Carlo Method in Practice

Wie beim obigen Beispiel gezeigt, lassen sich Ergebnisse von Messungen in Histogrammen
festhalten.
Histogramme sind visuelle Darstellungen von Häufigkeiten.

Beispiel 1.10
Betrachten wir folgende Situation:

Der Fachbereich Mathematik der Universität Hanoi hat eine Klausur geschrieben. Die
Klausurpunkte sind definiert von 0 bis 110. Ab 100 Punkten hat man aber schon mit Prädikat
exzellent bestanden.

Ein möglicher Ausgang dieses Tests lässt sich wie folgt visualisieren:

HISTOGRAMM PUNKTE IN DER


KLAUSUR VON 0-110
ANZAHL DER SCHÜLER MIT DIESEN NOTEN

6
5

5
3

3
2

2
1

1
0

0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 100+
KLAUSURPUNKTE
Weitere Eigenschaften von Wahrscheinlichkeiten:

Definition 1.15
Wahrscheinlichkeiten sind immer positiv und haben immer Werte aus [0,1].

FAQ: Wieso sind Wahrscheinlichkeiten immer positiv und aus [𝟎, 𝟏]?
Frage: Wieso gibt es keine negativen Wahrscheinlichkeiten und warum sind
Wahrscheinlichkeiten ausschließlich Zahlen aus dem Intervall [0,1]?

Antwort: Wir sehen Wahrscheinlichkeiten als Verhältnisse zwischen einer Auswahl von
Ereignissen und einer Grundmenge. Dabei gilt dieses Prinzip sowohl für Elemente aus dem
originalen Ergebnisraum Ω als auch andere, durch Zufallsvariablen induzierte Mengen 𝑆
(weil die Wahrscheinlichkeit von jedem Element aus S ja durch das Rückbild im
Ursprungsraum Ω gebildet wird).
Da alle Ergeignisse 𝐴 ∈ Σ Teilmengen von Ω sind, kann unsere Menge 𝐴 nur mit Elementen
aus 𝑆 gefüllt werden.
Daraus folgt: 𝐴 ⊆ Ω.

Die maximale Wahrscheinlichkeit ist die Summe aller möglichen Elementarereignisse. Weil
𝐴 ⊆ Ω, erfüllt eine maximale Wahrscheinlichkeit: 𝐴 = Ω ⟹ |𝐴| = |Ω|.

Daraus folgt

|𝐴| ∗ |Ω|
𝑃(𝐴) = = =1
|Ω | | Ω |
∗ 𝑤𝑒𝑛𝑛 𝐴 = 𝑆

Folglich können Wahrscheinlichkeiten auch nicht negativ sein, weil ein kleinstmögliches
Verhältnis ein leeres Event ist mit 𝐴 ≔ {}.

Dann folgt hieraus für die kleinste Wahrscheinlichkeit:

|𝐴| ∗ 0
𝑃(𝑋 ∈ 𝐴) = = =0
|𝑆| |𝑆|
∗ 𝑤𝑒𝑛𝑛 𝐴 ≔ {}

Bei einem unmöglichen Ereignis muss die Teilmenge 𝐴 ⊆ 𝑆 nicht leer sein.
Es reicht auch, wenn 𝐴 mit Elementen von Ω gefüllt ist, die durch unser Maß 𝑃 jeweils eine
Wahrscheinlichkeit null zugewiesen bekommen haben.

Definition 1.16
Sei 𝐴 ⊆ Ω ein Ereignis.
Ein Ereignis 𝐴 mit 𝑃(𝐴) = 0 nennt man unmögliches Ereignis.
Definition 1.17
Sei 𝐴 ⊆ Ω ein Ereignis.
Ein Ereignis 𝐴 mit 𝑃(𝐴) = 1 nennt man sicheres Ereignis.

Achtung
Besonders bei kontinuierlichen Zufallsvariablen verwendet man oft die Begriffe fast sicher bzw.
fast unmöglich anstatt unmögliches Ereignis und sicheres Ereignis.

Dies ist der Fall, weil kontinuierliche Einzelwahrscheinlichkeiten 𝑃(𝑋 = 𝜔) die


Wahrscheinlichkeit null besitzen, somit also unmögliche Ereignisse sind, aber dennoch eintreten
können.

Mehr dazu: Wikipedia-Almost surely

FAQ: Was ist der Unterschied zwischen 𝑷(𝑨) und 𝑷(𝑿 ∈ 𝑨)?
Frage: Manchmal sehe ich 𝑃(𝐴) und manchmal 𝑃(𝑋 ∈ 𝐴), wobei 𝑋 eine Zufallsvariable mit
Zielbereich 𝑆 ist, um Wahrscheinlichkeiten zu berechnen. Was bedeutet der Unterschied?

Antwort: Für die Beantwortung dieser Frage, ist es notwendig, den vorherigen Abschnitt über
„Wahrscheinlichkeitsräume“ verstanden zu haben.

Die dort gelernten Definitionen kommen im folgenden Beispiel zu tragen:

Wir rollen einen fairen sechsseitigen Würfel. Dabei sind für uns die angezeigten Augenzahlen
relevant.

Das eigentliche Experiment wird in unserem Wahrscheinlichkeitsraum (Ω, Σ, 𝑃) modeliert,


mit:

Ω ≔ {1,2,3,4,5,6}

Σ ≔ {{}, {1}, {2}, … , {1,2,3,4,5,6}}


1
𝑃({𝑖}) = , 𝑚𝑖𝑡 𝑖 ∈ {1,2,3,4,5,6}
6

Da wir mit (Ω, Σ) einen Messraum definiert haben, können wir nun auch eine abbildende
Funktion 𝑋: Ω → 𝑆 bilden, mit:

𝑋(𝜔) = 𝜔, 𝑚𝑖𝑡 𝜔 ∈ Ω
Ein sinnvoller Wertebereich von 𝑋 ist dann die Identität:

S ≔ {1,2,3,4,5,6}

Nun wollen wir die Wahrscheinlichkeit berechnen, dass der gewürfelte Wert größer gleich 5
ist.

Sei 𝐴 ⊆ Ω das gesuchte Ereignis, dass der gewürfelte Wert größer gleich 5 ist. Der Inhalt von
𝐴 sieht dann aus wie folgt:

𝐴 ≔ {5,6}

Nun definieren wir ein 𝐵 ∈ Σ′, mit:

𝐵 ≔ {5,6}

Beide Mengen A und B sehen gleich aus. Beim genauen Betrachten fällt uns aber auf, dass
𝐴 ∈ Σ und somit Bestandteil des ersten Messraums (Ω, Σ) ist.
Aber wir haben 𝐵 ∈ Σ′, was bedeutet, dass 𝐵 Bestandteil des zweiten Messraums (S, Σ′) ist.

Es folgt:

2
𝑃(𝐴) =
6
2
bedeutet, dass der relative Anteil der Menge A zur Menge Ω den Wert 6
beträgt. Dies gleicht
der Wahrscheinlichkeit, dass der gewürfelte Wert größer gleich 5 ist.

2
Aber 𝑃(𝑋 ∈ 𝐵) =
6
bedeutet, die Wahrscheinlichkeit, dass wenn wir in die Menge S greifen und rein zufällig ein
2
Element rausholen, die Wahrscheinlichkeit gleichzeitig in 𝐴 gegriffen zu haben den Wert
6
beträgt.
Da die Wahrscheinlichkeit der Zufallsvariable durch das Maß 𝑃: Σ → [0,1] bestimmt wird, gilt:

𝑃(𝑋 ∈ 𝐵) = 𝑃({𝜔 ∈ Ω: 𝑋(𝜔) ∈ 𝐵}) = 𝑃({𝜔 ∈ 𝐀: 𝑋(𝜔) ∈ 𝐵})

Wir sehen, dass die Wahrscheinlichkeit von 𝐵 durch 𝐴 bestimmt wird, weshalb es nicht
verwunderlich ist, dass beides die selbe Wahrscheinlichkeit aufweist.

Da das Maß 𝑃 nur Mengen aus dem ersten Messraum akzeptiert, ist das durch 𝑃(𝑋 ∈ 𝐵)
Rückbild notwendig. Folgenderweise lässt sich 𝑃(𝐵) nicht schreiben.

Tipp
Wichtig:
𝑃𝑋 (𝐵) ≠ 𝑃(𝐵)

Dies ist der Fall, weil 𝑃𝑋 (𝐵) = 𝑃(𝑋 ∈ 𝐵) ein Rückbild zu Ω definiert, 𝑃(𝐵) aber nicht.

Das Geburtstagsproblem als Stellvertreter für Wahrscheinlichkeit


von Kollisionen
Die meisten von uns haben an einem Tag im Jahr Geburtstag. Dabei kommt schnell der Gedanke auf,
dass es bei 365 Tagen im Jahr ziemlich unwahrscheinlich sei, einem Menschen zu begegnen der
auch am selben Tag Geburtstag feiert.
Doch schnell holt einem die Realität ein: Es ist nicht selten, dass man schon in der gleichen
Schulklasse einem Solchen über den Weg läuft.
Das dies stochastisch begründet ist wollen wir nun ermitteln. Dabei beschränkt sich folgende
Betrachtung nicht nur auf Geburstage-sämtliche Situationen, in denen wir Objekte (in diesem Fall
die Menschen mit Geburstagen) auf begrenzte Plätze (in diesem Fall die Geburstage selbst)
aufteilen, lassen sich analog berechnen.
Die zu beantwortende Frage lautet somit: Wie hoch ist die Wahrscheinlichkeit, dass bei 𝑛 Personen
und 𝑟 Tagen keine zwei Personen Geburstag haben?
Betrachten wir ersteinmal die Wahrscheinlichkeit, dass eine Person an einem Tag Geburstag hat.
Wenn wir davon ausgehen, dass die Geburstage uniform auf einem abzählbaren Intervall mit Länge
𝑟 verteilt sind (es ist also an jedem Tag gleichwahrscheinlich, dass jemand Geburstag hat-
Geburstage werden zufällig verteilt), dann gilt für die Einzelwahrscheinlichkeit:
Sei 𝑋𝑖 : Ω → S

1
𝑃(𝑋 = 𝜔) =
𝑟

Wir haben im Schnitt 365 Tage im Jahr. Folglich gilt: 𝑟 = 365.


Diese uniforme Verteilung von Belegungen sinkt den Schwierigkeitsgrad des Geburtstagsproblems
erheblich. Ist dies sichergestellt, lässt sich nämlich die Berechnung auf folgende Überlegung
reduzieren:
Stellen wir uns vor, wir verteilen die Geburstage der 𝑛 Personen sequentiell auf unseren Kalender.
Dabei wollen wir sie so verteilen, dass keine zwei Personen den gleichen Geburtstag haben, sprich
keine Kollision entsteht.
Bei der ersten Person ist noch der gesamte Kalender frei. Von 𝑟 = 365 Kalendertagen können wir
ihn auf jeden der 𝑟 = 365 Tage zuweisen, ohne dass er sich den Geburstag mit einem anderen teilt.
Die Wahrscheinlichkeit, dass die erste Person mit keinem kollidiert ist folglich:
365
𝑃𝑋 (𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = 365 = 1.

grün=noch frei selektierbarer Tag


rot=schon besetzter Tag

Die zweite Person können wir nur noch auf (𝑟 − 1) = 364 setzen, da ein Kalendertag ja schon von
der ersten Person besetzt ist.
Die Wahrscheinlichkeit, dass die zweite Person mit keinem kollidiert ist folglich:
364
𝑃𝑋 (𝑛 = 2 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365

Die dritte Person können wir nur noch auf (𝑟 − 2) = 363 setzen, da ein Kalendertag von der ersten
und ein weiterer Kalendertag schon von der zweiten Person besetzt ist.
Die Wahrscheinlichkeit, dass die dritte Person mit keinem kollidiert ist folglich:
363
𝑃𝑋 (𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365

Umso mehr Personen wir hinzufügen, umso weniger freie Tage haben wir zur Verfügung, auf die
wir darauffolgende Personen setzen können.

Die 𝑛 = 𝑟 Person ist die letzte, die noch an genau einen Tag gesetzt werden kann, ohne dass
mindestens zwei Personen einen Geburstag teilen.

Die Wahrscheinlichkeit, dass die 𝑛 = 𝑟 Person mit keinem kollidiert ist folglich:
1
𝑃𝑋 (𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365

Jede weitere Person führt somit unausweichlich zur Kollision. Dies ist aber auch verständlich, weil
wir in der Situation 𝑛 > 𝑟 mehr Objekte als Behälter haben.
Die Wahrscheinlichkeit 𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) ist somit eine Folge der Form:

𝑟 (𝑟 − 1) (𝑟 − 2) (𝑟 − (𝑛 − 1))
𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) = ∙ ∙ ∙ …∙
𝑟 𝑟 𝑟 𝑟
Dies lässt sich als Graph visualsieren.
Für jede Person, die wir in unsere Berechnung hinzufügen (n wird größer), gehen wir den Baum
herunter. Dabei können wir nur den linken grünen Pfad traversieren, weil jeder andere Pfad eine
Kollision zur Folge hätte (min. zwei Personen haben am selben Tag Geburstag). Wir erinnern uns:
Bei einer Traversierung in Richtung eines Blatts, werden die Wahrscheinlichkeiten multipliziert.

Zur vollständigen Formalisierung definieren wir unseren Zielbereich 𝑆𝑛 und das gesuchte Ereignis
𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) = 𝑃𝑋 (𝐴).
Unser Zielbereich ist bei n-Personen ein 𝑛-Tupel.
𝑆𝑛 ≔ 𝑆1 × 𝑆2 × … × 𝑆𝑛

Daraus folgt wir unsere Zufallsvariable X mit Zielbereich 𝑆𝑛 :


𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 )
Jedes 𝑋𝑖 habe dabei Zielbereich 𝑆.
Sei 𝐴 ⊂ 𝑆𝑛 eine Teilmenge von 𝑆𝑛 . Dabei stehe A für das Ereignis, dass keine Kollision auftritt.

𝐴 ≔ {(𝑎1 , 𝑎2 , … , 𝑎𝑟 )|𝑎𝑖 ≠ 𝑎𝑗 ∀𝑖, 𝑗 ∈ [1, . . , 𝑟]}

Dabei gilt 𝑎𝑖 ≠ 𝑎𝑗 für jedes Element von A, weil 𝑎𝑖 ≠ 𝑎𝑗 bedeutet, dass mindestens zwei Personen
den gleichen Geburstag haben.
Wie zuvor ermittelt, gilt für die Anzahl der Kombinationsmöglichkeiten von 𝐴:
|𝐴| = 𝑟(𝑟 − 1)(𝑟 − 2) … (𝑟 − (𝑛 − 1))

Dieser Ausdruck lässt sich vereinfachen als:


𝑟!
𝑟(𝑟 − 1)(𝑟 − 2) … (𝑟 − (𝑛 − 1)) =
(𝑟 − 𝑛)!

Wir sehen, dass der Nenner mit 𝑟 = 365 konstant bleibt (die Grundmenge verbleibt gleich). Gehen
wir den Baum herunter, multiplizieren sich die Wahrscheinlichkeiten 𝑛-Mal.
Folglich gilt für die schon zuvor gefundene Wahrscheinlichkeit:

𝑟 (𝑟 − 1) (𝑟 − 2) (𝑟 − (𝑛 − 1)) 𝑟!
𝑃(𝑋 ∈ 𝐴) = ∙ ∙ ∙ …∙ = 𝑛
𝑟 𝑟 𝑟 𝑟 𝑟 (𝑟 − 𝑛)!

Mit dem Ergebnis können wir auch spielen:


𝑟! 𝑛! 𝑟! 𝑟 𝑛!
𝑃(𝑋 ∈ 𝐴) = = ∙ =( )∙ 𝑛
𝑟 𝑛 (𝑟 − 𝑛)! 𝑛! 𝑟 𝑛 (𝑟 − 𝑛)! 𝑛 𝑟

Erklärung des Binomialkoeffizienten folgt auf späteren Seiten.

Die Exponentialapproximation des Geburtstagsproblems


Das genaue Ergebnis 𝑃(𝑋 ∈ 𝐴) von zuvor ist aufgrund der schnellwachsenden Natur der Fakultät
bei großem 𝑟! schwer berechenbar. Glücklicherweise lässt sich die gesuchte Wahrscheinlichkeit mit
guter relativer Genauigkeit approximieren.

Eine Möglichkeit ist die Exponentialapproximation.


Dazu formen wir zuerst um:
(𝑛−1) (𝑛−1)
𝑟! 𝑖 ∗ 𝑖
𝑃(𝑋 ∈ 𝐴) = 𝑛 = ∏ (1 − ) = ∏ (1 − )
𝑟 (𝑟 − 𝑛)! 𝑟 𝑟
𝑖=0 𝑖=1

∗ 𝑤𝑒𝑖𝑙 𝑃(𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = 1


Es gilt:
1 − 𝑡 ≤ 𝑒 −𝑡 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑡 ≤ 1
Wir können diese Abschätzung im Bereich [0,1] vornehmen, weil in diesem Intervall
gilt:
1 − 𝑡 = 𝑒 −𝑡 + 𝑜(𝑡), 𝑤𝑒𝑛𝑛 ℎ ↘ 0 ∧ 𝑜(𝑡) ∈ [0,0.4]

Das heißt, beide Terme sind sich in diesem Intervall sehr ähnlich. Eine Visualisierung bestätigt dies:
1-t vs exp(-t)
1.2

0.8
f(t)

0.6

0.4

0.2

0
0 0.5 1 1.5 2 2.5
t

h(t)=1-t exp(-t)

Da Wahrscheinlichkeiten sich sowieso in [0,1] aufhalten, wird unsere Abschätzung nicht wild
ungenau. Außerdem sehen wir, dass sich der relative Fehler zwischen den Termen erst erhöht, je
weiter 𝑡 in Richtung 1 maschiert. Bezogen auf unsere Aufgabe bedeutet dies: Haben wir wenige
Objekte und viele Behälter, ist also die Differenz zwischen 𝑟 und 𝑛 groß, so ist unsere
Exponentialapproximation nicht weit vom tatsächlichen Wert entfernt.

Daraus folgt:

(𝑛−1) (𝑛−1)
𝑖 𝑖 ∗

1(𝑛−1)𝑛
𝑃(𝑋 ∈ 𝐴) = ∏ (1 − ) ≈ ∏ 𝑒 − 𝑟 = 𝑒 2𝑟
𝑟
𝑖=1 𝑖=1
𝑛
∗ 𝑤𝑒𝑖𝑙 𝑒 𝑎 ∙ 𝑒 𝑏 = 𝑒 𝑎+𝑏 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℝ 𝑢𝑛𝑑 𝑒 ∑𝑖=1 𝑖 = 𝑒 0.5𝑛(𝑛+1) (𝐺𝑎𝑢ß𝑠𝑐ℎ𝑒 𝑆𝑢𝑚𝑚𝑒𝑛𝑓𝑜𝑟𝑚𝑒𝑙)

Auch mit diesem Ergebnis können wir spielen.


(𝑛−1)𝑛 1 2𝑟 −1
𝑃(𝑋 ∈ 𝐴) = 𝑒 2𝑟 = (𝑛−1)𝑛
= ( √𝑒 (𝑛−1)𝑛 )
𝑒 2𝑟

Stochastik für Informatiker Übung 1, 4S, WS16/16


Drei Objekten werden Zahlen aus {1, … , 𝑟} zugewürfelt, genauer: sie werden mit dem
Ergebnis einer rein zufälligen Wahl aus {1, … , 𝑟}3 versehen. Wie groß muss r sein, damit die
Wahrscheinlichkeit des Ereignisses „jedes der drei Objekte bekommt eine andere Zahl“
mindestens 0.99 beträgt?

Finden Sie das Ergebnis

(a) Über die exakte Berechnung


𝑛(𝑛−1)
(b) Über die in der Vorlesung betrachtete Näherung 𝑒𝑥𝑝 (− )
2𝑟
(a)
Modell: diskret, Nenner ist mit zurücklegen, Zähler absteigend

Wir lösen den ersten Teil des Problems analog zum Geburstagsproblem. Nur ist hier unser 𝑟
unbestimmt und unser 𝑛 = 3.

𝑆3 ≔ {1, … , 𝑟} × {1, … , 𝑟} × {1, … , 𝑟} = {1, … , 𝑟}3


⇒ 𝑆3 ≔ {(𝑎𝑗 , 𝑎𝑘 , 𝑎𝑖 )|1 ≤ 𝑖, 𝑗, 𝑘 ≤ 𝑟}

Repräsentiere des Ereignis 𝐴 ⊂ 𝑆3 : „Es gibt keine Kollision der drei Objekte“.

𝐴 ≔ {(𝑎𝑗 , 𝑎𝑘 , 𝑎𝑖 ) ∈ 𝑆3 |𝑎𝑖 ≠ 𝑎𝑗 ≠ 𝑎𝑘 ∀𝑖, 𝑗, 𝑘 ∈ [1, . . , 𝑟]}

Sei X eine Zufallsvariable mit Zielbereich 𝑆3 .

𝑟! 𝑟!
𝑃(𝑋 ∈ 𝐴) = =
𝑟 𝑛 (𝑟 − 𝑛)! 𝑟 3 (𝑟 − 3)!

𝑟(𝑟 − 1)(𝑟 − 2)(𝑟 − 3)! 𝑟(𝑟 − 1)(𝑟 − 2) 𝑟(𝑟 − 1)(𝑟 − 2)


𝑃(𝑋 ∈ 𝐴) = = =
𝑟 3 (𝑟 − 3)! 𝑟3 𝑟 ∙ 𝑟2

(𝑟 − 1)(𝑟 − 2)
𝑃(𝑋 ∈ 𝐴) =
𝑟2

Nun können wir gleichsetzen.

0.99 = 𝑃(𝑋 ∈ 𝐴)

(𝑟 − 1)(𝑟 − 2)
⟺ 0.99 = | − 0.99
𝑟2

(𝑟 − 1)(𝑟 − 2)
⟺0= − 0.99
𝑟2

𝑟 2 − 3𝑟 + 2
⟺0= − 0.99 | ∙ 𝑟 2
𝑟2

⟺ 0 = 𝑟 2 − 3𝑟 + 2 − 0.99𝑟 2

1 2
⟺0= 𝑟 − 3𝑟 + 2
100
⟹ 𝑟1 ≈ 299.33, 𝑟2 ≈ 0.668
Das Ergebnis 𝑟2 ≈ 0.668 können wir verwerfen, weil wir nicht weniger Behälter haben
können als Objekte mit der Forderung, keine Kollision zu haben.
Für 𝑟1 gilt: Wir akzeptieren nur ganzzahlige Ergebnisse, weil wir in ganzen Tagen rechnen.
Dabei runden wir gerichtet aufwärts.
Daraus ändert sich unser „=“ zu einem „≥“, da wir minimal größer als 0.99 sind.

0.99 ≥ 𝑃(𝑋 ∈ 𝐴) ⟹ 𝑟̅ = 300

(b)
Es gelten die Definitionen und Zufallsvariablen aus (a).

Wir führen die Exponentialapproximation für 𝑃(𝑋 ∈ 𝐴) genau wie beim Geburtstagsproblem
durch.

𝑛(𝑛−1) 3(3−1) 3
𝑃(𝑋 ∈ 𝐴) ≈ 𝑒 − 2𝑟 = 𝑒− 2𝑟 = 𝑒 −𝑟

Nun können wir gleichsetzen.

0.99 = 𝑃(𝑋 ∈ 𝐴)
3
≅ 0.99 = 𝑒 −𝑟 | ln()
99 3 1
⇔ ln ( )=− |∙𝑟 |∙
100 𝑟 99
ln (
100)
−3
⇔𝑟=
99
ln (
100)

⟹ 𝑟𝑒 ≈ 298.497

Diesmal haben wir nur ein Ergebnis. Hier ergibt die gerundete Version 𝑟̅𝑒 = 299.
Das korrekte ganzzahlige Ergebnis war 𝑟̅ = 300. Auch wenn der relative Fehler mit 𝑟𝑒𝑙 =
|𝑟1−𝑟𝑒 |
≈ 0.0028 sehr gering ausfällt, hat dies Auswirkungen auf unsere Konklusion. Weil für
𝑟1
𝑟̅𝑒 = 299 gilt 𝑃(𝑋 ∈ 𝐴) ≥ 0.99 nämlich noch nicht.
Ist es absolut kritisch, dass 𝑃(𝑋 ∈ 𝐴) ≥ 0.99, dann eignet sich die Exponentialapproximation
in diesem Fall nicht.
Kapitel 2

Permutationen als das Legostein Modell


Oft ist es wichtig zu bestimmen, auf wie viele Arten und Weisen Objekte angeordnet werden
können. Hier kommen Permutationen und später Kombinationen (welches nur unsortierte
Permutationen sind) als hilfreiches Mittel hinzu.

Definition 2.1
Eine Permutation ist eine bijektive Anordnung 𝜋: 𝑆 → 𝑆 einer Menge 𝑆 auf sich selbst.

Diese Menge 𝑆 ist dabei keine typische Menge sondern z.B. eine Multimenge (Multiset). Der
entscheidende Unterschied ist, dass ein Multiset multiple Vielfachheiten eines Elements erlaubt.
Verstehen kann man dies als eine sortierte Reihenfolge aller Elemente einer Menge.
Grundlegend unterscheiden wir zwischen Permutationen mit Wiederholung und Permutationen
ohne Wiederholung. Im englischsprachigen Raum gibt es bei dieser Einteilung gewisse Differenzen,
auf diese wird später eingegangen.
Bei Permutationen ohne Wiederholung sind alle Elemente unserer Menge 𝑆 distinkt. Dies bedeutet,
dass jedes Element von 𝑆 mit einer 1-fachen Vielfachheit auftritt.

Stellen wir uns vor, wir haben 𝑛 = 3 unterschiedliche Legosteine. Der Unterschied kann z.B. in der
Farbe liegen. Hauptsache es sind alle Objekte distinkt.

Diese drei Legosteine erfüllen diese Voraussetzung, weil kein Stein die gleiche Farbe besitzt.
Wir möchten nun wissen, auf wie viele Arten wir die Legosteine linear anordnen können.
Den ersten Stein können wir auf 𝑛 = 3 Positionen setzen.
Den zweiten Stein aber nur noch auf 𝑛 − 1 = 2, da eine beliebige Position schon vom ersten Stein
besetzt ist.

Die Position des dritten Steins ist schon gar nicht mehr frei wählbar, weil zwei Plätze schon von den
Steinen zuvor besetzt wurden. Für den dritten Stein steht somit nur noch 𝑛 − 2 = 1 Position zur
Selektion frei.

Um die Gesamtanzahl der möglichen Zuordnungen zu ermitteln, multiplizieren wir nur noch die
Möglichkeiten der Positionsbesetzung in jeder Stufe.
Dies ergibt 𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) = 3 ∙ 2 ∙ 1 = 6 verschiedene Anordnungen der 𝑛 = 3 distinkten
Legosteine.
Alternativ kann man jede Permutation auch als Graph betrachten. Dabei nimmt analog zur obrigen
Herleitung in jeder Stufe die Anzahl an Kanten ab, bis am Ende nur noch ein Blatt übrig bleibt.
Beachte: Jeder Weg zu einem Blatt gibt eine einzigartige Permutation wieder.

Hier ergibt sich die die Gesamtanzahl der Blätter wie oben aus 𝑛!.
Die folgende Abbildung zeigt alle möglichen Anordnungen der Legosteine.
Die Nummern entsprechen je einem Weg von der Wurzel bis zu einem Blatt aus dem
Permutationsbaum zuvor.

Dies lässt sich wie folgt verallgemeinern:

Definition 2.2
Eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen besitzt 𝑛! einzigartige bijekte Abbildungen
auf sich selbst.

Die Eigenschaften der Fakultätsfuntkion (𝑛!) werden im weiteren Verlauf weiter defininiert.

Tipp
Die obere Definition 2.2 lässt sich einprägsam merken als:

„Habe ich 𝑛 viele unterschiedliche Objekte, kann ich sie auf 𝑛! viele Arten anordnen.“

Beispiel 2.1
Betrachten wir folgende Situation:

Justin besitzt sieben verschiedene Pokale. Diese Pokale stellt er jeden Morgen in einer geraden
Line nebeneinander auf einen Tisch.

Wie viele Tage kann er jeden Morgen die Pokale anders anordnen, bevor sich eine Anordnung
wiederholt?

Zuerst beantworten wir die folgenden Fragen:

Ist die Reihenfolge relevant?


Ja, also haben wir eine Permutation (und keine Kombination).

Welches Permutationsmodell liegt zugrunde?


Permutation ohne Wiederholung, weil alle Objekte distinkt.

Ist die Permutation zirkulär*?


Nein, weil die Pokale werden in einer Line hintereinander angeordnet.
*dazu auf den folgenden Seiten mehr

Nun können wir berechnen:

Enthalte die Multimenge 𝑆 unsere betrachteten Objekte, mit


𝑆 ≔ {𝑃𝑜𝑘𝑎𝑙 1, 𝑃𝑜𝑘𝑎𝑙 2, … , 𝑃𝑜𝑘𝑎𝑙 7}

Die Multiplizität (Vielfachheit) jedes Elements 𝑎 ∈ 𝑆 sei 1-fach.

Enthalte die Menge M alle bijektiven Abbildungen der Form 𝑃: 𝑆 → 𝑆.

Die Multiplizität (Vielfachheit) jedes Elements 𝑎 ∈ 𝑀 sei 1-fach.

Daraus folgt:
|𝑀| = 7! = 5040

Somit kann Justin die Figuren 5040 Tage unterschiedlich anordnen, bevor sich eine Anordnung
wiederholt.

Was ist wenn gar nicht alle 𝑛 Legosteine ziehen möchten? Vielmehr, wollen wir manchmal nur
wissen, auf wie viele Arten wir die ersten 𝑟 𝑚𝑖𝑡 0 ≤ 𝑟 < 𝑛 Legosteine anordnen können.

Dann gilt:

Definition 2.3
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.

Die Anzahl von sortierten 𝑟-elementige Teilmengen 𝐴 ⊂ 𝑆 𝑟 beträgt:15

𝑛!
𝑃(𝑛, 𝑟) = 𝑛𝑃𝑟 ≡
(𝑛 − 𝑟)!

Tipp
Die obere Definition 2.3 lässt sich einprägsam merken als:

„Ich kann auf 𝑛𝑃𝑟 verschiedene Arten 𝑟 Objekte aus 𝑆 ziehen. Dabei ist die Reihenfolge
relevant (da Permutation).“

Diese Definition ist enorm wichtig, um später den Binomialkoeffizienten zu verstehen.

Bedeuten tut dies bloß, dass wir den Permutationsbaum vom Anfang nur 𝑟 Stufen nach unten gehen
anstatt bis zu den Blättern.
Stellen wir uns vor, wir haben wieder 𝑛 = 3 unterschiedlich gefärbte Legosteine wie zuvor.

15 http://mathworld.wolfram.com/Permutation.html
Wir wollen nun wissen, auf wie viele Arten wir 𝑟 = 2 Legosteine anordnen können. Somit
interessieren wir uns nur für die ersten 𝑟 = 2 Bausteine, alle nachfolgenden sind irrelevant.

Daraus folgt:
3!
3𝑃2 = =6
(3 − 2)!
Auch in diesem Fall erhalten wir sechs Permutationen.

Die folgende Abbildung zeigt alle möglichen 𝑟 = 2 Anordnungen der Legosteine.


Die Nummern entsprechen je einem Weg von der Wurzel bis zur zweiten Ebene vom
Permutationsbaum zuvor.
Tipp
Ist unser 𝑟 um genau eins kleiner als unser 𝑛, also 𝑟 + 1 = 𝑛, dann gilt:

𝑛𝑃𝑟 = 𝑛!

Dies ist der Fall, weil wir in der vorletzten Ebene (vom Baum aus gesehen) genauso viele
Knoten haben wie Blätter.

Analog fragen wir uns nun, auf wie viele Arten wir 𝑟 = 1 Legosteine anordnen können.
Dies bedeutet, wir befinden uns in der ersten Ebene des Baums.

Daraus folgt:
3!
3𝑃1 = =3
(3 − 1)!
Auch dieses Ergebnis stimmt.
Die folgende Abbildung visualisiert alle Möglichkeiten, einen Stein zu ziehen.
Beispiel 2.2
Betrachten wir folgende Situation:

Wie viele Möglichkeiten gibt es, drei Pokale auf 20 Sportler zu verteilen?

Zuerst beantworten wir die folgenden Fragen:

Ist die Reihenfolge relevant?


Ja, also haben wir eine Permutation (und keine Kombination).

Welches Permutationsmodell liegt zugrunde?


Permutation ohne Wiederholung, weil alle Objekte distinkt.

Ist die Permutation zirkulär*?


Nein, weil die Sportler werden in einer Line hintereinander angeordnet.
*dazu auf den folgenden Seiten mehr

Nun können wir berechnen:

Enthalte die Multimenge 𝑆 unsere betrachteten Objekte, mit


𝑆 ≔ {𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟 1, 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟 2, … , 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟 20}

Die Multiplizität (Vielfachheit) jedes Elements 𝑎 ∈ 𝑆 sei 1-fach.

Die Anzahl von sortierten 3-elementige Teilmengen 𝐴 ⊂ 𝑆 3 beträgt:

20!
20𝑃3 = = 6840
(20 − 3)!

Somit kann man drei Pokale 20 Sportlern auf 6840 Arten verleihen.

Bei Permutationen mit Wiederholung ist mindestens ein Element unserer Menge 𝑆 nicht einzigartig.
Dies bedeutet, dass mindestens ein Element von 𝑆 mit einer Vielfachheit größer eins auftritt.
Stellen wir uns vor, wir haben erneut 𝑛 = 3 Legosteine. Diesmal haben aber zwei Legosteine
dieselbe Farbe.

Erneut möchten wir wissen, auf wie viele sich die Legosteine linear anordnen lassen.
Wir fangen sequentiell mit den Steinen an, die distinkt sind.

Den ersten Stein können wir beim Modell „ohne Wiederholung“ auf 𝑛 = 3 Positionen setzen.
Den zweiten Stein können wir aber nicht wie beim Modell „ohne Wiederholung“ auf 𝑛 − 1 = 2
Positionen setzen!

Dies ist der Fall, weil wir diesmal gleich zwei gelbe Steine auf einmal in der Hand halten.
2
Das heißt in diesem Fall, haben wir nur 𝑛 − 2 = 1 bzw. ( ) Möglichkeiten die zwei Steine
2
gemeinsam zu platzieren.
Da die gelben Steine somit eine Äquivalenzklasse bilden, ist es auch egal welcher von den zwei
gelben Steinen an erster und welcher an letzter Position gesetzt wird, weil wir sie nicht
unterscheiden können.

Um die Gesamtanzahl der möglichen Zuordnungen zu ermitteln, multiplizieren wir, analog zum
Modell „ohne Wiederholung“, die Möglichkeiten der Positionsbesetzung in jeder Stufe.
Dies ergibt 𝑛 ∙ (𝑛 − 2) = 3 ∙ 1 = 3 verschiedene Anordnungen der 𝑛 = 3 Legosteine.
Das folgende Bild visualisiert alle möglichen Anordnungen.
Die Anordnungen lassen sich aber auch leichter berechnen mit dem Multinomialkoeffizienten.

Definition 2.4
Es existiere eine Multimenge 𝑆 mit |𝑆| = 𝑛.

Zusätzlich existiere die Hilfsfunktion 𝑓: 𝑆 → ℕ mit

𝑛, 𝑤𝑒𝑛𝑛 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡 𝑣𝑜𝑛 𝑎𝑖 ∈ 𝑆 𝑖𝑠𝑡 𝑛


𝑓(𝑎) ≔ { …
1, 𝑤𝑒𝑛𝑛 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡 𝑣𝑜𝑛 𝑎𝑖 ∈ 𝑆 𝑖𝑠𝑡 1

Außerdem existiere die Hilfsmenge 𝐻 ≔ {𝑘1 , 𝑘2 , … , 𝑘𝑚 | 𝑘𝑖 = 𝑓(𝑎𝑖 )}


Die Hilfsmenge speichert somit die Multiplizität jedes Elements von 𝑆.
Zusätzlich sei die Vielfachheit von mindestens einem Element 𝑘𝑖 ∈ 𝑆 größer gleich eins.

Dann ist

𝑛 𝑛!
𝑀 = (𝑘 , 𝑘 , … , 𝑘 ) =
1 2 𝑚 𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑚 !

die Anzahl der Permutationen von 𝑘1 + 𝑘2 + ⋯ + 𝑘𝑚 Objekten.

Tipp
Dies lässt sich leicht merken als:

„Nehme die Fakultät der Gesamtanzahl der Objekte geteilt durch die Fakultät der Vielfachheit
jedes Objekts“.

Im Legosteinbeispiel oben kommen wir somit viel schneller auf


3!
=3
1! ∙ 2!
verschiedene Anordnungen.
Beispiel 2.3
Betrachten wir folgende Situation:

Auf wie viele Arten kann man die Buchstaben des Wortes „Mississippi“ anordnen?

Zuerst beantworten wir die folgenden Fragen:

Ist die Reihenfolge relevant?


Ja, also haben wir eine Permutation (und keine Kombination).

Welches Permutationsmodell liegt zugrunde?


Permutation mit Wiederholung, weil alle Duplikate vorhanden.

Ist die Permutation zirkulär*?


Nein, weil die Buchstaben werden in einer Line hintereinander angeordnet.
*dazu auf den folgenden Seiten mehr

Nun können wir berechnen:

Enthalte die Multimenge 𝑆 unsere betrachteten Objekte, mit


𝑆 ≔ {𝑀, 𝑖, 𝑠, 𝑠, 𝑖, 𝑠, 𝑠, 𝑖, 𝑝, 𝑝, 𝑖}

Folgende Tabelle listet die Multiplizität jedes Elements auf:

Element M i s p
Vielfachheit 1 4 4 2

Daraus folgt:

11!
𝑀= = 34650
1! ∙ 4! ∙ 4! ∙ 2!

Man kann die Buchstaben auf 34650 Arten anordnen und erhält immer wieder ein neues
Wort.
Achtung
In einigen englischsprachigen Lektüren haben die Modelle etwas andere Bedeutungen:

Permutation With Repetition16


Die Anzahl der Permutationen, wenn Objekte mehrfach verwendet werden können.

Dies berechnet sich einfach als:


Eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen besitzt im Model „Permutation With Repetition“
|𝑆 𝑛 | Anordnungen.

Siehe die Anzahl der Tage im Geburtstagsproblem, Kombinationsmöglichkeiten beim


mehrfachen Würfeln etc.
Ist streng genommen keine Permutation, weil keine bijektive Abbildung von 𝑆 auf 𝑆 selbst.17

Permutation With Repetition of Indistinguishable Objects


Entspricht unserer Permutation mit Wiederholung

Permutation Without Repetition


Entspricht unserer „Permutation ohne Wiederholung“

Mehr dazu: Wikipedia-Permutation

Bisher waren alle unsere Permutationen linear. Das bedeutet, die Legosteine zu Beginn, die Pokale
in Beispiel 2.1, die Sportler in Beispiel 2.2, die Buchstaben in Beispiel 2.3: Alle diese Anordnungen
konnte man auf einer geraden Line repräsentieren (alle Elemente wurden sequentiell geordnet).
Stellen wir uns nun vor, wir sitzen an einen runden Tisch mit 𝑛 = 4 Gästen.

Wir fragen uns, auf wie viele Arten wir die Gäste anordnen können, so dass in jeder Anordnung
mindestens ein Gast einen anderen Nachbarn hat wie zuvor. Dabei bedeutet „anderer Nachbar“
auch, dass wenn eine Person die vorher links neben einem saß nun rechts sitzt.

16 https://www.mathsisfun.com/combinatorics/combinations-permutations.html
17 https://en.wikipedia.org/wiki/Permutation#Permutations_with_repetition
Unsere Menge 𝑆 ≔ {1,2,3,4} besteht aus den Gästen. Diese lässt sich aber nicht wie gewohnt
permutieren, denn es fällt uns folgendes auf:
Die Permutationen (1,2,3,4), (4,1,2,3), (3,4,1,2) und (2,3,4,1) sind eigentlich verschieden aber in
unserem Beispiel ändert dies nichts über die Sitzverhältnisse zwischen den Gästen!
Gast 1 sitzt noch immer neben Gast 2 und Gast 4, genauso sitzt Gast 2 noch immer neben Gast 1 und
Gast 2 usw.

Dies ist der Fall, weil eine Permutation, in der jedes Element um den gleichen Wert verschoben
wird, einer Rotation des Kreises entspricht.
Wir lösen dieses Problem indem wir ein beliebiges Element an einen beliebigen Platz fix setzen und
die verbleibenden (𝑛 − 1) auf die restlichen (𝑛 − 1) Plätze verteilen.
Halten wir z.B. die „1“ an der ersten Position konstant, so hat der erste frei setzbare Gast
(𝑛 − 1) = 3 Möglichkeiten gesetzt zu werden.

Das X bedeutet: Zahl ist an dieser Position konstant


Der zweite frei zuweisbare Gast hat dann noch (𝑛 − 2) = 2 wählbare Plätze.

Der letzte belegbare Gast kann lediglich an (𝑛 − 3) = 1 freien Platz platziert werden.

Für die Gesamtanzahl der Kombinationen multiplizieren wir, wie auch in den anderen Modellen, die
Platziermöglichkeiten pro Gast.
Somit können wir die Gäste auf (𝑛 − 1) ∙ (𝑛 − 2) ∙ (𝑛 − 3) = 3 ∙ 2 ∙ 1 = 6 verschiedene Arten
hinsetzen.
Die folgende Abbildung zeigt alle möglichen Kombinationen der Gäste an.
Interessant ist z.B. die Permutation 4 und 5 in dem Bild. Der Gast 1 hat zwar immernoch Gast 3 und
Gast 4 als Nachbarn, relativ gesehen von seinem Blickpunkt haben sich aber die Nachbarn
gewechselt. Sein ursprünglicher linker Nachbar Gast 4 ist nun in der Permutation 5 sein rechter
Nachbar. Sein ursprünglicher rechter Nachbar Gast 3 ist nun sein linker Nachbar.
Somit ist dies tatsächlich eine gültige Anordnung.

Man spricht hier von zirkulärer Permutation. Der Rechenweg lässt sich verallgemeinern.

Wollen wir Objekte ohne Wiederholung (alle distinkt) um einen Kreis (in diesem Fall der runde
Tisch) permutieren und der Kreis ist fix (man kann ihn nicht aus der Ebene heben und umgekehrt
wieder hinstellen) gilt:

Definition 2.5
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.

Die Anzahl der Möglichkeiten diese 𝑛 Objekte um einen fixen Kreis anzuordnen beträgt

𝑃𝑛 = (𝑛 − 1)! .

Ist unser Kreis nicht fix, so gilt18:

Definition 2.6
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.

Die Anzahl der Möglichkeiten diese 𝑛 Objekte um einen fixen Kreis anzuordnen beträgt
1
𝑃𝑛 = (𝑛 − 1)! .
2

Tipp
Definitionen 2.5 und 2.6 lassen sich leicht unterscheiden.

Unterscheiden wir zwischen Anordnungen im Uhrzeigersinn und gegen den Uhrzeigersinn,


dann haben wir einen fixen Kreis, ergo gilt Definition 2.5.

Unterscheiden wir nicht zwischen Anordnungen im Uhrzeigersinn und gegen den


Uhrzeigersinn, so ist der Kreis nicht fix und es greift Definition 2.6.

Zirkuläre Permutationen haben im Vergleich zu linearen Permutationen keinen festen


Bezugspunkt. In anderen Worten: Im Gegensatz zu linearen Permutationen hat eine zirkuläre
Permutation keinen bestimmbaren Anfang und Ende.

18 http://mathworld.wolfram.com/CircularPermutation.html
Beispiel 2.4
Betrachten wir folgende Situation:

Justin hat 25 Leute zu seiner Geburstagsfeier eingeladen. Auf wie viele Arten kann
er seine Gäste um einen runden Tisch verteilen, wenn zwei der eingeladenen Gäste immer
neben ihn sitzen?

Zuerst beantworten wir die folgenden Fragen:

Ist die Reihenfolge relevant?


Ja, also haben wir eine Permutation (und keine Kombination).

Welches Permutationsmodell liegt zugrunde?


Permutation ohne Wiederholung, weil alle Objekte distinkt.

Ist die Permutation zirkulär*?


Ja, weil die Gäste werden um einen Kreis angeordnet

Nun können wir berechnen:

Justin lädt 25 Personen ein. Da er selbst aber auch am Tisch sitzt, befinden sich 26 Personen
am Tisch.
Zusätzlich möchte er aber immer neben zwei bestimmten Personen sitzen. Somit sind die
Positionen von zwei Personen fix. Folglich haben wir 26 − 2 = 24 Personen zu verteilen.
Die Permutation ist zirkulär, deshalb gilt 𝑃24 = (𝑛 − 1)! = 23! .
Daraus folgt:
Justin kann seine Gäste auf 23! verschiedene Arten am Tisch verteilen, wenn er immer neben
zwei Personen sitzen möchte.

Tipp
Im verallgemeinerten Fall spricht man von „Necklace Combinations“.

Mehr dazu: hier und hier

Weitere Beispiele gibt es unter: Gradestack.com

Eigenschaften von Permutationen

Wir können auch rein zufällige Permutationen entstehen lassen.


Für eine rein zufällige Permutation im Modell ohne Wiederholung gilt:
Haben wir eine Ausgangszahl 𝑍10 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) 𝑚𝑖𝑡 𝑎𝑖 ∈ ℕ , wobei alle Ziffern distinkt sind
(∀𝑎𝑖 : 𝑎𝑖 ≠ 𝑎𝑗 , weil Modell ohne Wiederholung), so gilt für eine rein zufällige Permutation von 𝑍:

Sei 𝑆 die Menge aller Permutationen mit


𝑆 ≔ {𝑀𝑒𝑛𝑔𝑒 𝑎𝑙𝑙𝑒𝑟 𝑃𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛𝑒𝑛 𝑣𝑜𝑛 (𝑎1 , 𝑎2 , … , 𝑎𝑛 )}.

Sei 𝑋 eine diskrete, uniform verteilte* Zufallsvariable mit Zielbereich S.


Jedes 𝑋 repräsentiert somit eine Permutation (𝑎1 , 𝑎2 , … , 𝑎𝑛 ).
*Was genau eine Verteilung ist, siehe Vorlesung 2b_k

Zusätzlich wissen wir, dass im Modell ohne Wiederholung die Anzahl der linearen Permutationen
bei 𝑛! liegt.
Daraus folgt für jedes 𝑎 ∈ 𝑆:
1
𝑃(𝑋 = 𝑎) =
𝑛!
Da das Auftreten jeder Permutation gleichwahrscheinlich ist, nennt man
dies eine rein zufällige Permutation im Modell ohne Wiederholung.

FAQ: Wie kann man eine rein zufällige Permutation entstehen lassen?
Frage: Wie ist es möglich eine rein zufällige von 𝑛 Zahlen Permutation entstehen zu lassen?

Antwort: Für lineare Permutationen: Man stelle sich vor, man hat eine perfekt durchmischte
Urne mit 𝑛 Kugeln.
Jede dieser Kugeln ist beschriftet mit je einer Zahl aus 𝑎1 , 𝑎2 , … , 𝑎𝑛 . Man ziehe jetzt ohne
Zurücklegen alle 𝑛 Kugeln. Der Zahlenwert der ersten gezogene Kugel steht nun an der ersten
Position unserer neuen Permutation, der Zahlenwert der zweiten gezogenen Kugel an der
zweiten Stelle unserer neuen Position,…,der Zahlenwert der 𝑛-ten gezogenen Kugel an der 𝑛-
ten Stelle unserer neugewonnenen Permutation.

Dies kann man auch als Baum visualisieren. Dabei sieht der Baum genauso aus wie die
Permutationsbäume zu Beginn des Kapitels. Die Kanten sind nun aber mit (uniformen)
Wahrscheinlichkeiten versehen. Wir gehen einen beliebigen Pfad von der Wurzel zu einem
Blatt. Voila, unsere Permutation ist entstanden.

Für eine rein zufällige Permutation im Modell mit Wiederholung gilt das Analogon:

Haben wir eine Ausgangszahl 𝑍 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) 𝑚𝑖𝑡 𝑎𝑖 ∈ ℕ , wobei mindestens zwei Ziffern gleich
sind (Modell mit Wiederholung), so gilt für eine rein zufällige Permutation von 𝑍10:
Sei 𝑆 die Menge aller Permutationen mit
𝑆 ≔ {𝑀𝑒𝑛𝑔𝑒 𝑎𝑙𝑙𝑒𝑟 𝑃𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛𝑒𝑛 𝑣𝑜𝑛 (𝑎1 , 𝑎2 , … , 𝑎𝑛 )}.

Sei 𝑋 eine diskrete, uniform verteilte Zufallsvariable mit Zielbereich S.


Jedes 𝑋 repräsentiert somit eine Permutation (𝑎1 , 𝑎2 , … , 𝑎𝑛 ).
Zusätzlich wissen wir, dass im Modell mit Wiederholung die Anzahl der linearen Permutationen bei
𝑛!
𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑓𝑓𝑖𝑧𝑖𝑒𝑛𝑡 = , 𝑗𝑒𝑑𝑒𝑠 𝑘𝑖 𝑔𝑖𝑏𝑡 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡 𝑣𝑜𝑛 𝑒𝑖𝑛𝑒𝑚 𝑎𝑖 𝑎𝑛
𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑚 !
(Definition 2.4) liegt.
Daraus folgt für jedes 𝑎 ∈ 𝑆:
𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑚 !
𝑃(𝑋 = 𝑎) =
𝑛!
Für eine rein zufällige Permutation der Länge 𝑛 gilt:
Diesmal haben wir keine Ausgangszahl. Die zu entstehende Permutation ist völlig beliebig, hat aber
die Länge 𝑛.
Somit können Zahlen auch beliebig oft hintereinander auftreten (z.B. 𝑛-mal die 1).
Sei die zu entstehende Zahl 𝐹 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) 𝑚𝑖𝑡 𝑎𝑖 ∈ ℕ.

Sei 𝑆 die Menge aller vorhanden Ziffern in unserem betrachteten Zahlsystem, also
𝑆 = {0,1,2,3, … 9}.

Sei 𝑋 eine diskrete, uniform verteilte Zufallsvariable mit Zielbereich S.


Jedes 𝑋 repräsentiert somit eine Ziffer {0,1,2,3 … ,9}.
Sei 𝑌 eine diskrete, uniform verteilte Zufallsvariable mit Zielbereich 𝑆 𝑛 , also:
𝑌 = (𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ).
Daraus folgt für jedes 𝑎 ∈ 𝑆 𝑛 :
1 1
𝑃(𝑌 = 𝑎) = 𝑛 = 𝑛
|𝑆| 10
Diese Verteilung generiert eine tatsächliche Zufallszahl der Länge 𝑛.

FAQ: Wie kann man eine Zufallszahl der Länge n entsehen lassen?
Frage: Wie ist es möglich eine Zufallszahl der Länge 𝑛 entstehen zu lassen?

Antwort: Man stelle sich vor, man hat eine perfekt durchmischte Urne mit 𝑛 Kugeln.
Jede dieser Kugeln ist beschriftet mit je einer Zahl aus 0,1, … ,9 (wenn wir das Dezimalsystem
verwenden). Man ziehe jetzt mit Zurücklegen 𝑛 Kugeln. Der Zahlenwert der ersten gezogene
Kugel steht nun an der ersten Position unserer neuen Permutation, der Zahlenwert der
zweiten gezogenen Kugel an der zweiten Stelle unserer neuen Position,…,der Zahlenwert der
𝑛-ten gezogenen Kugel an der 𝑛-ten Stelle unserer neugewonnenen Permutation.

Dies kann man auch wieder als Baum visualisieren. Dabei hat jedes Nichtblatt des Baumes
genau zehn Kinder (Anzahl der Ziffern im Dezimalsystem). Folglich hat jede Kante hat eine
1
Wahrscheinlichkeit 10. Wir gehen einen beliebigen Pfad von der Wurzel zu einem Blatt, um
unsere Zufallszahl zu generieren.
Weil Permutationen bijektive Abbildungen auf sich selbst sind, zerfällt jede Permutation in
Zyklen.19

Dies lässt eine alternative Schreibweise für Permutationen entstehen, die Cycle Notation.
Wir wissen, dass eine Permutation eine Abbildung 𝜋: 𝑆 → 𝑆 ist (Definition 2.1).
Für unsere Notation wenden wir diese Funktion wiederholt auf ein beliebig gewähltes 𝑥 ∈ 𝑆 an.
Die entstehende Sequenz schreiben wir in Klammern in der Form (𝑥, 𝜋(𝑥), 𝜋((𝜋(𝑥)), … ) auf.

Da wir aus dem oberen Bild und Vorlesung2a_k wissen, dass jede Permutation in Zyklen zerfällt,
kommen wir bei Mehrfachanwendung von 𝜋 auf ein 𝑥 irgendwann wieder bei 𝑥 an (es schließt sich
ein Kreis).

19 Vorlesung2_ak, Prof Wakolbinger


Dies machen wir mit allen Elementen von 𝑥. Wenn unsere Klammern alle Elemente von unserer
Orignalmenge 𝑆 beinhalten, ist unsere Notation vollständig.

Veranschaulichung: Nehmen wir uns z.B. die Zahl 1 aus dem oberen Bild. Wenden wir 𝜋(1) an,
landen wir bei der 6. Nun nehmen wir 𝜋(6) und erhalten 3. Schließlich landen wir bei 𝜋(3) wieder
bei der 1. Der erste Kreis ist somit geschlossen.

Der rote Kreis im Bild lässt sich somit mit (1 → 6 → 3) = (1,6,3) beschreiben.

Jetzt haben wir aber noch zwei verbleibende Kreise im Bild, den grünen und blauen.
Nehmen wir uns jetzt also die 5. Wenden wir 𝜋(5) an, landen wir bei der 7. Der folgende
Funktionswert 𝜋(7) = 5 schließt wieder unseren Kreis.

Der grüne Kreis im Bild lässt sich mit (5 → 7) = (5,7) beschreiben.


Der blaue Kreis ist vom Schema her gleich dem grünen Kreis. Er lässt sich durch (2 → 4) = (2,4)
beschreiben.
Unsere gesamte Permutation (1,2,3,4,5,6,7) → (6,4,1,2,7,3,5) ist somit gleich:
(1,6,3)(5,7)(2,4).

Tipp
Da bei der Kreisdarstellung die Funktion 𝜋(𝑥) mehrfach angewendet wird, ist es egal bei
welchem 𝑥 wir starten.

Die Darstellung
(1,6,3)

ist somit äquivalent zu


(6,3,1).

Genauer gesagt, ist in der Kreisdarstellung jede Klammer 𝑎 und 𝑏 äquivalent, wenn gilt:

(𝑢1 , 𝑢2 , … , 𝑢𝑘 ) ⇔ ⏟
⏟ (𝑢1+𝑖 , 𝑢2+𝑖 , … , 𝑢𝑘+𝑖 ) , 𝑚𝑖𝑡 𝑖 ∈ ℕ
𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑎 𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑏

Technisch gehen, ist Klammer b rotiert.


Außerdem wird mathematisch gesehen aus 𝜋(𝑥) eine Übergangsfunktion.

Um zwei Klammern auf Äquivalenz zu prüfen hilft es oft die Pfeile mitzuschreiben:

(1 → 6 → 3) ⇎ (6 → 1 → 3), 𝑤𝑒𝑖𝑙 𝜋(6) ≠ 1

Auch ist es egal in welcher Reihenfolge die Klammern geschrieben werden:

(542)(31) ⇔ (31)(542)

Tipp
Die Funktionsschreibweise 𝜋 = (1,2,3,4,5,6,7) → (6,4,1,2,7,3,5) hat auch Alternativen, z.B.

1234567 7652314
𝜋=( )=( )
6412735 5374162

Beispiel 2.5
Betrachten wir folgende Situation:
Schreibe die Permutation (4,2,6) → (2,4,6) in Zyklendarstellung.

Wir wählen ein beliebiges Element und wenden die Funktion 𝜋(𝑥) an, bis wir zum gleichen
Element zurückkommen (einen Kreis schließen).

Fangen wir mit der 4 an.


(4, 𝜋(4), 𝜋(𝜋(4)) = (4,2,4) ⇔ (4,2)

Die 6 bleibt alleine übrig und bildet folglich mit sich selbst einen Kreis.

Daraus folgt für die gesuchte Kreisdarstellung:


(4,2)(6)
Zyklen haben auch Längen. Dabei ist die Länge eines Zyklus die Anzahl der Objekte die in einem
Kreis partizipieren. Pauschal gesagt: „Die Länge eines Zyklus ist die Anzahl der Elemente in der
Klammer.“

Zum Beispiel ist (2,6,3,5,4,0)


⏟ ein Zyklus mit der Länge 6.
6 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝑒

Manchmal möchten wir wissen, wie viele Permutationen von 𝑘 Elementen mit 𝑗 disjunkten Zyklen
existieren.

Definition 2.7
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.
Dabei ist 𝑘 ≥ 1 (wir permutieren keine leere Menge).

Die Stirling Zahl erster Art 𝑠(𝑘, 𝑗) gibt die Anzahl der Permutationen von 𝑆 mit genau
𝑗 Zyklen.

(1) 𝑠(𝑘, 𝑘) = 1
(2) 𝑠(𝑘, 1) = (𝑘 − 1)!
(3) 𝑠(𝑘, 𝑗) = 𝑠(𝑘 − 1, 𝑗 − 1) + 𝑠(𝑘 − 1, 𝑗) ∙ (𝑘 − 1), 𝑤𝑒𝑛𝑛 𝑘 > 𝑗 > 1

Beispiel 2.6
Betrachten wir folgende Situation:

Bestimme die Anzahl der möglichen Permutationen mit 2 Zyklen von 𝑆 = {1,2,3}.

In diesem Fall ist unser 𝑗 = 2 und unser |𝑆| = 𝑘 = 3. Wir befinden uns somit im Fall (3).

𝑠(3,2) = 𝑠(2,1)
⏟ + 𝑠(2,2)
⏟ ∙2=3
=1 =1

Es gibt drei Permutationen mit 2 Zyklen. Diese sind:


𝜋1 = (1)(2,3)
𝜋2 = (2)(1,3)
𝜋1 = (3)(1,2)
Zyklen der Länge 1 nennt man Fixpunkte einer Permutation. Dies bedeutet, dass eine Zahl sich nach
Anwendung der Permutation 𝜋 nicht ändert.

Zum Beispiel sind 3 und 6 Fixpunkte der Permutation:


𝜋 = (1,2,3,4,5,6) → (2,1,3,5,4,6) ⇔ (1,2) (3)
⏟ (4,5) (6)⏟
𝐿ä𝑛𝑔𝑒 1 𝐿ä𝑛𝑔𝑒 1

Beispiel 2.7
Betrachten wir folgende Situation:
Bestimme die Anzahl der Fixpunkte der Permutation 𝜋 = (1 2 3 4 5 6 7)
3412765

Wir sehen, dass 𝜋(6) = 6 ist. Das bedeutet, die Zahl 6 wird auf sich selbst abgebildet. Folglich
ist dies der einzige Fixpunkt unserer Permutation.

Manchmal möchten wir wissen, wie viele Permutationen von 𝑘 Elementen mit 𝑗 Fixpunkten
existieren.

Definition 2.8
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.

Die Rencontres Zahlen f(𝑘, 𝑗) geben die Anzahl der Permutationen von 𝑆 mit genau
𝑗 Fixpunkten.

(1) 𝑗 < 0 𝑜𝑑𝑒𝑟 𝑘 < 𝑗: 𝑓(𝑘, 𝑗) = 0


(2) 𝑓(0,0) = 0
(3)𝑘 > 1 ∧ 𝑘 ≥ 𝑗 ≥ 0, :
𝑓(𝑘, 𝑗) = 𝑓(𝑘 − 1, 𝑗 − 1) + 𝑓(𝑘 − 1, 𝑗) ∙ (𝑘 − 1 − 𝑗) + 𝑓(𝑘 − 1, 𝑗 + 1) ∙ (𝑗 + 1)

Es existiert auch eine alternative Definition der Rencontres Zahlen, die das Gleiche aussagt:

Definition 2.9
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.

Die Zahl 𝑘 ≥ 0 repräsentiere die Anzahl der Fixpunkte.

Dann gilt für 𝑘 = 0:

(1) 𝐷0,0 = 1
(2) 𝐷1,0 = 0
(3)𝐷𝑛+2,0 = (n + 1)(𝐷𝑛+1,0 + 𝐷𝑛.0 )

Generell gilt für 𝑘 > 0:

𝑛
𝐷𝑛,𝑘 = ( ) ∙ 𝐷𝑛−𝑘,0 .
𝑘
Tipp
Außer wenn |𝑆| = 0 (wir permutieren null Elemente), sind die Ergebnisse aus Definition 2.8
und Definition 2.9 absolut gleich.
Welche Formel verwendet wird, steht somit offen.

Tipp
Für die Rencontres Zahlen existieren im Internet Tabellen für viele Werte, so dass eine
manuelle Berechnung oft nicht mehr notwendig ist.

Ein super Artikel der Definition 2.7 und 2.8 sehr ausführlich erklärt: Wikipedia-Cycles and
Fixed Points

Die Rencontres Zahlen lassen sich für schnelle Berechnungen abschätzen.

Definition 2.10
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.

Die Zahl 𝑘 ≥ 0 repräsentiere die Anzahl der Fixpunkte.

Dann gilt:

𝑛!
𝐷𝑛,0 = ⌈ ⌉ , 𝑤𝑒𝑛𝑛 𝑛 𝑔𝑒𝑟𝑎𝑑𝑒, ∀𝑛 ≥ 1
𝑒

𝑛!
𝐷𝑛,0 = ⌊ ⌋ , 𝑤𝑒𝑛𝑛 𝑛 𝑢𝑛𝑔𝑒𝑟𝑎𝑑𝑒, ∀𝑛 ≥ 1
𝑒

Für die Anzahl der fixpunktfreien Permutationen (engl. Derangement) lässt sich auch folgende
Formel verwenden:

Definition 2.11
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.

!0 = 1
!𝑛 = {!1 = 0 ,
(𝑛 − 1)(! (𝑛 − 1) + ! (𝑛 − 2)) , 𝑤𝑒𝑛𝑛 𝑛 ≥ 2

Wobei ! 𝑛 das Subfactorial repräsentiert.


Beispiel 2.8
Betrachten wir folgende Situation:

Zehn Kollegen treffen sich zum vorweihnachtlichen „Wichteln“. Dabei kauft jeder genau ein
Geschenk. Diese Geschenke werden in einen Sack gepackt und wieder zufällig an die Kollegen
verteilt.
Wie viele Möglichkeiten gibt es diese Geschenke zu verteilen, wenn eine Person wieder das
Geschenk erhält, was er selbst gekauft hat?

Machen wir uns zuerst die Situation klar. Eine Person bekommt nach Anwendung einer
Permutation 𝜋 wieder genau sein Geschenk zurück. Seine Abbildung ist somit konstant. Wir
suchen die Anzahl der Permutationen mit 𝑘 = 1 Fixpunkt. Es existieren 𝑛 = 6 Personen.

Benutzen wir die Recontre Zahlen. Wir verwenden die Berechnung aus Definition 2.9.

5
𝐷5,1 = ( ) ∙ 𝐷
⏟ 4,0 = 45
1
=9,𝑠𝑖𝑒ℎ𝑒 𝐷𝑒𝑓.2.10

Da für 𝑘 = 0 auch Definition 2.11 zutrifft, können wir 𝐷4,0 mit dem Subfactorial berechnen. Es
kommt dasselbe raus.

Es gibt somit 45 Möglichkeiten die 6 Geschenke so zu verteilen, dass eine Person sein eigenes
Geschenk zurückerhält.

Stochastik für Informatiker Aufgabe 18, WS17/18

𝑋 (𝑛) sei eine rein zufällige Permutation von 1, … , 𝑛.

a) Berechnen Sie die erwartete Anzahl der Fixpunkte von 𝑋 (𝑛) .

(𝑛)
b) Für 0 ≤ 𝑘 ≤ 𝑛 sei 𝑓𝑘 die Anzahl der Permutationen von 1, … , 𝑛 mit genau
𝑘 Fixpunkten.
(𝑛) (𝑛−𝑘)
Finden Sie eine Beziehung zwischen 𝑓𝑘 und 𝑓0 .

(𝑛)
c) Es sei 𝑝𝑘 die Wahrscheinlichkeit des Ereignisses, dass 𝑋 (𝑛) genau 𝑘 Fixpunkte
(𝑛)
hat. Zeigen Sie, dass für jedes 𝑘 ∈ ℕ0 die Folge 𝑝𝑘 für 𝑛 → ∞ gegen das
Poissongewicht zum Parameter 1 konvergiert.

a) Über Fixpunkte haben wir schon zuvor geredet. Insgesamt ähnelt die Fragestellung
den Aufgaben in Kapitel 3: Das Wunder der Indikatorvariablen. Wir definieren also
1, 𝑤𝑒𝑛𝑛 𝐼𝑛𝑑𝑒𝑥 𝑘 𝑒𝑖𝑛𝑒𝑛 𝐹𝑖𝑥𝑝𝑢𝑛𝑘𝑡 ℎ𝑎𝑡
𝐼𝑘∈{ℎ𝑎𝑡 𝐹𝑖𝑥𝑝𝑢𝑛𝑘𝑡} = { .
0, 𝑠𝑜𝑛𝑠𝑡
Aufgrund der Stochastik für Informatiker Aufgabe 8 WS17/18 wissen wir,
dass jeder Index 𝑘 die gleiche Auftrittswahrscheinlichkeit eines neuen Zyklus hat.
Das kann man auch auf die Auftrittswahrscheinlichkeit eines Fixpunkts für Element 𝑘
übertragen.
Somit gilt:
1
𝑃(𝐼𝑘 = 1) = .
𝑛
Die erwartete Anzahl der Fixpunkte ist folglich insgesamt:
1
𝐸[𝐼1 + 𝐼2 + ⋯ + 𝐼𝑛 ] = 𝑛 ∙ = 1.
𝑛

b) Dem aufmerksamen Leser wird klar:


(𝑛) (𝑛)
𝑓𝑘 ist nichts weiters als unsere zuvor erklärten Recontres Zahlen! Also 𝑓𝑘 = 𝐷𝑛,𝑘 .
Im Internet gibt es Recontres Tabellen, mit denen man Stichprobenartig untersuchen
(𝑛) (𝑛−𝑘)
kann, ob es Zusammenhänge zwischen 𝑓𝑘 und 𝑓0 gibt.
Aber auch ohne Recontres Zahlen können wir was über die Beziehung der beiden
Symbole aussagen.

Dazu wird aber wissen vom nächsten Kapitel Der Binomialkoeffizient als das T-Shirt
Modell vorausgesetzt, insbesondere das gedankliche Modell der Treffer/Nichttreffer.

Nehmen wir ohne Beschränkung der Allgemeinheit ein Beispiel. Sei 𝑛 = 5 und 𝑘 = 2.
(5)
Dann hat 𝑓3 die Form:
(5)
𝑓3 = {(1,2,4,5,3), (4,2,3,5,1), … }.
Nehmen wir nun 𝑘 = 2 Elemente fix:
(_, _, 𝟑, 𝟒, _).
Die anderen Positionen sind dann mit den restlichen 𝑛 − 𝑘 = 3 Zahlen frei füllbar.
Um rauszufinden auf wie viele Arten sich diese restlichen Positionen befüllen lassen,
entfernen wir die markierten Zahlen 𝟑, 𝟒 aus der Menge.
Es bleiben dann 𝑛 − 𝑘 = 3 viele Zahlen übrig:
(, _, _, _).
Wichtig: Wir dürfen bei der Platzierung der Restzahlen nicht vergessen, dass kein
weiterer Fixpunkt entstehen darf.
(𝑛−𝑘)
Diese lassen sich auf 𝑓0 viele Arten ohne Fixpunkt befüllen.

(𝑛) 𝑛
Da 𝑓𝑘 einfach nur bedeutet, dass wir ( ) verschiedene 𝑘 − 𝑇𝑢𝑝𝑒𝑙 auf diese Weise
𝑘
markieren, gilt:

(𝑛) 𝑛 (𝑛−𝑘)
𝑓𝑘 = ( ) ∙ 𝑓0 .
𝑘
Der Binomialkoeffizient als das T-Shirt Modell
Bei Permutationen haben wir Objekte angeordnet. Dabei haben wir zwischen der Reihenfolge
unterschieden.
Wir sagten (1,2,3) ist eine andere Anordnung als (3,2,1). Wir haben Legosteine angeordnet und
zwischen (𝑟𝑜𝑡, 𝑔𝑟ü𝑛, 𝑏𝑙𝑎𝑢) und (𝑏𝑙𝑎𝑢, 𝑔𝑟ü𝑛, 𝑟𝑜𝑡) unterschieden.
Der einzige Unterschied zwischen einer Kombination und einer Permutation ist das bei einer
Kombination die Reihenfolge der Objekte egal ist.
Die Verbindung zu Permutationen wird besonders in der folgenden Definition verdeutlicht:

Definition 2.12
Eine Kombination ist eine Permutation mit irrelevanter Reihenfolge der Objekte.

Auch hier unterscheiden wir zwischen Kombinationen mit Wiederholung und Kombinationen ohne
Wiederholung.

Bei Kombinationen ohne Wiederholung sind wie auch bei Permutationen ohne Wiederholung alle
Objekte unserer Menge 𝑆 distinkt. Schauen wir uns unser Legobeispiel vom Beginn des Kapitels
nocheinmal an.
Wir haben 𝑛 = 3 unterschiedliche Bausteine. Diese ergaben 3! = 6 verschiedene Permutationen.

Jetzt fragen wir uns, wie viele verschiedene Kombinationen mit 𝑟 = 3 Bausteinen gibt es?
Da wir die Reihenfolge der Farben nicht beachten, gibt es nur eine mögliche Kombination von drei
Bausteinen. Dies erscheint auf dem ersten Blick vielleicht paradox.
Intuitiver wird es aber, wenn man die Frage paraphrasiert zu: „Auf wie viele Arten kann ich drei
Bausteine ziehen?“ oder „Auf wie viele Arten kann ich meine 𝑛 = 3 Bausteine in eine Gruppe der
Größe 𝑟 = 3 aufteilen?“.

Gedanklich stellen wir uns vor, dass wir bei der Aufzählung unserer Kombinationen die Farbe der
Legosteine nicht mehr beachten. Wir markieren alle vorhandenen Legosteine schwarz und färben
die zu ziehenden 𝑟 Steine weiß. Die Anzahl der Permutationen zwischen den weißen und
schwarzen Steinen bildet die Anzahl unserer möglichen Kombinationen. Um dies vollständig zu
verstehen, betrachten wir den Binomialkoeffizienten als das T-Shirt Modell.
Vergegenwärtigen wir uns folgenden Sachverhalt: Eure Freundin trägt gerne eure T-Shirts zum
schlafen, weil sie so bequem sind. Ihr wollt eurem „Girl“ eine Freude machen, indem ihr T-Shirts zu
ihr nach Hause bringt.
Also stehen wir zu Hause vor einem langem großem Regal voller T-Shirts. Dabei hat jedes dieser T-
Shirts hat eine andere Farbe (alle T-Shirts sind distinkt).

Wir haben 𝑛 T-Shirts im Regal. Wir bringen 𝑟 T-Shirts zu ihr. Während wir unseren Koffer packen,
fragen wir uns auf wie viele Arten wir unsere 𝑛 T-Shirts in eine Gruppe der Größe 𝑟 aufteilen
können. Pauschal gesagt: Auf wie viele Arten können wir unseren Koffer mit 𝑟 T-Shirts
von 𝑛 Gesamtshirts packen?
Sagen wir, in unserem Regal sind 𝑛 = 5 T-Shirts und wir möchten ihr 𝑟 = 3 bringen.

Für unser erstes T-Shirt, welches in den Koffer kommt, haben wir n=5 Möglichkeiten zu wählen.
Da wir ein T-Shirt nun in den Koffer gepackt haben, haben wir nur noch 𝑛 − 1 = 4 T-Shirts übrig.
Das zweite in den Koffer zu packende T-Shirt muss also eins von den vier übrigen sein.

Das letzte T-Shirt, welches wir unserer Freundin bringen, muss eins von den 𝑛 − 2 = 3 restlichen
sein.

Insgesamt gibt es somit


𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) = 5 ∙ 4 ∙ 3 = 60
Möglichkeiten 𝑘 = 3 T-Shirts aus 𝑛 = 5 Gesamtshirts zu ziehen.

Aber ist es wirklich relevant in welcher Reihenfolge wir die T-Shirts in den Koffer packen? Nein,
schließlich wollen wir eine Kombination und keine Permutation. Also teilen wir die 60
Anordnungen durch die Anzahl der Möglichkeiten, drei T-Shirts zu permutieren.
Folglich ist unser Endergebnis

5!
5𝑐3 = = 10.
3! ∙ (5 − 3)!
Folgende Graphik visualisert unsere vorhanden Kombinationen. Um diese in unser gedankliches
Modell zu überführen, malen wir unsere vorhanden 𝑛 T-Shirts schwarz, die zu ziehenden 𝑟 = 3
Shirts weiß und bilden alle möglichen Permutationen aus diesen.

Tipp
Wie im obigen Bild zu sehen, lassen sich Kombinationen alternativ als Permutationen
vorstellen, die zweigefärbt sind.
Dies ist auch für das spätere Verständnis der Binomialverteilung mit Treffer/Nichttreffer
nützlich.

Unsere gerade durchgeführte Berechnung lässt sich mit dem Binomialkoeffizienten vereinfachen.

Definition 2.13
Sei 𝑆 eine Menge mit |𝑆| = 𝑛 distinkten Elementen.
Sei 0 ≤ 𝑟 ≤ 𝑛 die Anzahl der Elemente einer Teilmenge 𝐴 ⊂ 𝑆.

Es gibt dann
𝑛! 𝑛
𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑒𝑓𝑖𝑧𝑖𝑒𝑛𝑡 ≔ 𝑛𝑐𝑟 = =( )
𝑟! ∙ (𝑛 − 𝑟)! 𝑟

Möglichkeiten diese Teilmenge 𝐴 zu bilden.

Tipp
Der einzige Unterschied zwischen dem Binomialkoeefizienten 𝑛𝑐𝑟 und der Anzahl der
Permutationsteilmengen 𝑛𝑃𝑟 ist das Teilen durch 𝑟!. Dies machen wir, um aus der
Permutation (Reihenfolge relevant) eine Kombination (Reihenfolge irrelevant) zu machen.
Wir entfernen also Äste von unserem Permutationsbaum.

Insbesonders gilt:
1
∙ 𝑐 = 𝑃
𝑟! 𝑛 𝑟 𝑛 𝑟
Man kann sich den Unterschied aber auch so einprägen:

Bei 𝑛𝑃𝑟 hat die zu bildende Teilmenge 𝐴 die Form 𝑆 𝑟 (weil bei Tupeln (𝑎, 𝑏) die Reihenfolge
relevant ist).

Bei 𝑛𝑐𝑟 hat die zu bildende Teilmenge 𝐴 die Form 𝐴 ⊂ 𝑆 (weil bei Teilmengen {𝑎, 𝑏} die
Reihenfolge irrelevant ist).

Dabei ist unser 𝑟 nie größer als 𝑛. Das macht auch Sinn, weil wir können ja nicht mehr T-Shirts vom
Kleiderbügel nehmen, als wir im Schrank haben.
Außerdem kann unser Ergebnis nur 1 werden, wenn gilt:

Definition 2.14
Wenn 𝑟 = 𝑛, dann ist 𝑛𝑐𝑟 = 1.

Wenn 𝑛 = 0 (folglich ist dann auch 𝑟 = 0), dann ist 𝑛𝑐𝑟 = 1

Dies war z.B. im Legobeispiel der Fall.

FAQ: Warum ist 𝒏𝒄𝒓 = 𝟏, wenn r=n?


Frage: Warum ist laut Definition 2.14 𝑛𝑐𝑟 = 1, wenn 𝑟 = 𝑛?

Antwort: Wir haben 𝑛 Objekte. Es gibt nur eine Möglichkeit daraus eine Gruppe (keine
mathematische Gruppe, sondern wirklich Gruppe im Sinne von Agglomeration) der Größe
𝑟 = 𝑛 bilden.

In unserem gedanklichen Modell sind alle T-Shirts weiß und kein Shirt schwarz. Somit gibt es
nur eine Permutation der weißen Shirts. Dies ist z.B. in unserem Einleitungsbeispiel mit den
Legosteinen der Fall. Alle Steine sind nur noch weiß.

Algebraisch lässt sich das auch lösen:


𝑛! ∗ 𝑛! 𝑛!
𝑛𝑐𝑟 = = = =1
𝑟! ∙ (𝑛 − 𝑟)! 𝑛! ∙ (𝑛 − 𝑛)! 𝑛! ∙ 0!

∗ 𝑤𝑒𝑖𝑙 𝑟 = 𝑛

FAQ: Warum ist 𝟎𝒄𝟎 = 𝟏, wenn n=0?


Frage: Warum ist laut Definition 2.14 0𝑐0 = 1, wenn 𝑛 = 𝑟 = 0?

Antwort: Dies lösen wir algebraisch.

0! 1
0𝑐0 = = =1
0! ∙ (0 − 0)! 1
Beispiel 2.9

Justin geht mit drei männlichen Freunden und seiner Freundin auf eine Party. Als die
Fünfergruppe ankommt stellt sie fest, dass das Event überfüllt ist. An der Tür werden sie vor
folgender Wahl gestellt: „Wir lassen nur zwei männliche Personen in Begleitung von einer Dame
rein“.
Folglich bleiben immer zwei Personen draußen. Auf wieviele Arten ist es den Freunden möglich,
unter diesem Regelwerk die Party zu betreten?

Wir möchten Gruppen der Größe 𝑟 = 3 mit irrelevanter Reihenfolge bilden.

Sei 𝑆 die Menge unserer Personen:

𝑆 ≔ {𝐽𝑢𝑠𝑡𝑖𝑛, 𝐹𝑟𝑒𝑢𝑛𝑑 1, 𝐹𝑟𝑒𝑢𝑛𝑑 2, 𝐹𝑟𝑒𝑢𝑛𝑑 3, 𝐹𝑟𝑒𝑢𝑛𝑑𝑖𝑛}

Wir definieren 𝑛 als die Anzahl der Freunde, also:

|𝑆| = 𝑛 = 5

Gesucht ist die Anzahl 𝑟 = 3 elementiger Teilmengen 𝐴 ⊂ 𝑆.

Dabei ist aber nicht jede Kombination gültig: Die Kombination

𝑎 = {𝐽𝑢𝑠𝑡𝑖𝑛, 𝐹𝑟𝑒𝑢𝑛𝑑 1, 𝐹𝑟𝑒𝑢𝑛𝑑 2} 𝑚𝑖𝑡 𝑎 ∈ 𝑆

ist für unseren Sachverhalt ungültig, weil die Menge nur aus Männern besteht.

Es soll schließlich jede Teilmenge Justins Freundin enthalten. Diese Situation erinnert uns an
Beispiel 2.4 (Geburtstagsfeier). Dort hatten wir Fixpunkte, nämlich zwei Personen20, die in jeder
Permutation neben dem Gastgeber saßen.

Justins 𝐹𝑟𝑒𝑢𝑛𝑑𝑖𝑛 ist somit bezüglich der Kombination fix. Das heißt in unserer Gruppe der Größe
𝑟 = 3 wechseln nur die Männer. Also rechnen wir:

4
𝑛−1𝑐𝑟−1 =( )=6
2

Dies ist gut zu sehen, wenn man sich das Ganze visualisiert. Die Freundin wird als schwarze
Kugel dargestellt, die sich nicht bewegt (fix ist).
Diese schwarze Kugel ist nicht natürlich zu verwechseln mit unseren 𝑛 − 𝑟 schwarzen Kugeln im
gedanklichen Modell.

20streng genommen hatten wir drei Fixpunkte, weil die Berechnung einer zirkulären Permutation noch einen
hinzufügt
Tatsächlich sind das alle Möglichkeiten, aus fünf Personen Dreiergruppen zu bilden, wo die
Freundin auf jeden Fall dabei ist.

Interessant ist, dass wir auch Gruppen bilden können, wo Justin (die grüne Kugel) nicht dabei ist
(z.B. Kombination Nr. 4). Ob ihm das gefallen wird?

Dies bringt uns zur folgenden rekursiven Definition des Binomialkoeffizienten:

Definition 2.15
Sei 0 < 𝑟 < 𝑛.
Seien die Basisfälle:
𝑛𝑐1 = 𝑛
𝑛𝑐0 = 1.

Dann folgt:

𝑛 𝑛−1 𝑛−1
𝑛𝑐𝑟 =( )=(
𝑟
)+( )
𝑟 𝑟−1

Diese Identität wird auch Pascal’s rule 21genannt.

Tipp
Folgende Interpretation aus der Folie Vorlesung2a_k ist hilfreich:

𝑛 𝒏−𝟏 𝒏−𝟏
( )=( )+( )
𝑟 𝒓 𝒓−𝟏

Anzahl der Möglichkeiten, aus 𝑛 − 1 Männern und einer Frau ein 𝑟 köpiges Komitee
auszuwählen.
Entweder die Frau ist nicht dabei…oder sie ist dabei…

21 https://en.wikipedia.org/wiki/Pascal%27s_rule
Dies erinnert uns an Beispiel 2.9: Dort war die Frau immer dabei, also rechneten wir den
roten Teil.

Hätten wir gesagt, eine Frau darf nicht in Begleitung der Männer sein, so hätten wir den
blauen Teil gerechnet.

Wäre es uns die Anwesenheit einer Dame egal gewesen, dann hätten wir standardmäßig
𝑛𝑐𝑟 = 5𝑐3 gerechnet.

Das Pascal‘sche Dreieck ist eine trianguläre Visualisierung der Binomialkoeffizienten.

Das Dreieck geht dabei nach unten abzählbar unendlich weiter. Es entsteht also eine Pyramide, die
auf unendlich breitem Fundament steht. Uns interessiert oft aber nur eine Bestimmte Zeile.
Das Tolle: Eine Zeile lässt sich berechnen ohne die vorherigen Zeilen berechnet zu haben22.
Dabei wird das Dreieck wie folgt erstellt:

Sei 𝑓: ℕ × ℕ → ℕ eine Funktion mit:


𝑛
𝑓(𝑛, 𝑟) = ( )
𝑟

Der 𝑟-te Eintrag jeder 𝑛-ten Zeile entspricht 𝑓(𝑛, 𝑟). Dabei gilt: 0 ≤ 𝑟 ≤ 𝑛.

22ähnlich der Zahl 𝜋, wo der BBP Algorithmus eine beliebige Stelle 𝜋′𝑠 berechnet, ohne die vorherigen Stellen
berechnet zu haben
Tipp
Hier einige nützliche Hinweise zum Paskalschen Dreieck.
• das Dreieck ist in der Mitte immer symmetrisch
• am Rand befinden sich immer Einsen
• der Wert eines Eintrags ist die Summe der beiden Einträger darüber
• jede Zeile hat genau einen Eintrag mehr als die Vorzeile
• die zweite Diagonale ist eine Aufzählung der natürlichen Zahlen ohne null

Der letzte Hinweis lässt sich schwer vorstellen, also hier eine Visualisierung:
Tipp
Die Symmetrie des Paskalschen Dreiecks hat eine große Bedeutung für die
Binomialverteilung.
Teilen wir das paskalsche Dreieck in der 𝑛-ten Zeile durch 2𝑛 , so entsteht analog eine um den
1
Erwartungswert symmetrische Binomialverteilung mit 𝑝 = .
2

Der binomische Lehrsatz ist eine Verallgemeinerung des Paskalschen Dreiecks.

Definition 2.16
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 𝑥, 𝑦 ∈ ℝ.
𝑛
𝑛
(𝑥 + 𝑦)𝑛 = ∑ ( ) 𝑥 𝑟 𝑦 𝑛−𝑟
𝑟
𝑟=0

Dies nennt man den binomischen Lehrsatz.

Beispiel 2.10
Berechne (𝑥 + 2)2

Anstatt binomischer Formeln wenden wir aus Spaß den binomischen Lehrsatz an.

2
(𝑥 + 2)2 = ∑ (2) 𝑥 𝑟 𝑦 2−𝑟 = (2) 22 + (2) 2𝑥 + (2) 𝑥 2 = 𝑥 2 + 2𝑥 + 4
𝑟 0 1 2
𝑟=0

Wie auch bei Permutationen, lassen sich rein zufällige Kombinationen generieren. Dies wird auch
„das Erstellen von rein zufälligen 𝑟-elementigen Teilmengen“ genannt.

Wir möchten nun die Wahrscheinlichkeit ermitteln, aus einer Menge 𝑃 eine beliebige 𝑟-elementige
Teilmenge zu ziehen.

Sei 𝑃 unsere Ursprungsmenge mit |𝑃| distinkten Elementen.


Sei die Ereignismenge 𝑆 definiert als:
𝑆 ≔ {𝑡: 𝑡 ⊆ 𝑃, |𝑡| = 𝑟}
Wir wissen für Kombinationen ohne Wiederholung:
|𝑃|
|𝑆| = |𝑃|𝑐𝑟 =( )
𝑟
Sei 𝑌 eine Zufallsvariable mit Definitionsbereich 𝑆.
Daraus folgt:

Sei 𝑝𝑖 ∈ 𝑃
1
𝑃(𝑌 = {𝑝1 , 𝑝2 , … , 𝑝𝑟 }) =
|𝑃|
( )
𝑟
FAQ: Wie kann man eine rein zufällige Kombination entstehen lassen?
Frage: Wie ist es möglich eine rein zufällige 𝑟-elementige Kombination von 𝑛 Zahlen
entstehen zu lassen?

Antwort: Wir haben eine Multimenge 𝑆 ≔ {𝑎1 , 𝑎2 , … , 𝑎𝑛 }.


Für Permutationen mit sowie ohne Wiederholung: Man stelle sich vor, man habe eine perfekt
durchmischte Urne mit 𝑛 Kugeln.
Jede dieser Kugeln ist beschriftet mit je einem Element aus unserer Ursprungsmenge 𝑆. Man
ziehe jetzt ohne Zurücklegen 𝑟 Kugeln. Die gezogenen Elemente fügen wir in eine Menge
𝐵 ≔ {𝑡1 , 𝑡2 , … , 𝑡𝑟 : 𝑡𝑖 ∈ 𝑆} ein*.
Schon sind wir fertig.

*anstatt einem Tupel wie bei Permutationen, da Reihenfolge ja irrelevant

Eine andere Möglichkeit: Wir erinnern uns an unserem gedanklichen Modell der
Kombinationen*, wo wir die Elemente einer Menge 𝑆 in 𝑟 weiße und 𝑛 − 𝑟 schwarze Kugeln
aufteilen.

Diese 𝑟 und 𝑛 − 𝑟 schwarze Kugeln packen wir in eine Urne. Wir ziehen nun alle Kugeln
nacheinander ohne zurücklegen.
Ziehen wir eine weiße Kugel im 𝑖-ten Zug, so fügen wir das Element 𝑎𝑖 ∈ 𝑆 in unsere
Zielmenge 𝐵 ≔ {𝑡1 , 𝑡2 , … , 𝑡𝑟 : 𝑡𝑖 ∈ 𝑆} ein. Haben wir alle Kugeln aus der Urne gezogen, so sind
wir fertig.
*siehe Beginn des Abschnitts „Kombinationen“

Die Anzahl der Kombinationen bei Objekten mit Wiederholung (nicht alle Objekte von 𝑆 sind
distinkt) werden später hier hinzugefügt.
Rein zufällige Stichprobe ohne Zurücklegen
Wir befinden uns im Legoland vor einer großen Kiste mit 20 unterschiedlichen Legosteinen. Da wir
zuvor im „Lego-Lotto“ gewonnen haben, dürfen wir in diese hineingreifen und uns 5 Steine
herausnehmen. Der Twist: Jedes Mal wenn wir einen Stein entnehmen, kommt wieder ein von den
anderen verschiedener Stein in die Kiste hinzu. Plötzlich überkommt uns der innere Stochastiker:
Wie viele Kombinationsmöglichkeiten der gezogenen Legosteine gibt es eigentlich?
Das Obere kann man als 𝑟 = 5-fache Stichprobe auffassen. Würden wir keinen Stein nach jeder
Ziehung hinzufügen, hätten wir eine eine „𝑛-fache Stichprobe ohne Zurücklegen“. Die Berechnung
würde uns leicht fallen, weil wir zuvor in Der Binomialkoeffizient als das T-Shirt Modell genau
diesen Fall betrachtet haben.

Nun fügen wir nach jeder jeder Ziehung einen Stein hinzu. Gefühlt würde das einer Reduktion der
Kombinationsmöglichkeiten gleichkommen, da wir nun in jedem Schritt eine nichtabnehmende
Anzahl an Legosteinen zur Verfügung haben.
Zur Hilfe kommt uns unser gedankliches Modell des Binomialkoeffizienten. Unsere Anzahl an 𝑛 =
20 Legosteinen sei symbolisiert durch entsprechend viele schwarze Steine. Von denen färben wir 5
weiß, was unserer 𝑟 = 5-fachen Stichprobe entspricht.

Von 𝑛 Steinen färben wir 𝑟 weiß.

Als wir die Kombinationen in Der Binomialkoeffizient als das T-Shirt Modell betrachteten,
verwendeten wir bis jetzt ein identisches gedankliches Modell. Wenn unsere Stichprobe nur
unterschiedliche Steine enthalten würde, hätte unsere Modellierung auch kein Problem. Wir
müssen aber irgendwie simulieren, einen Stein mehrfach zu ziehen.
Dazu fügen wir 𝑟 − 1 viele „Zählsteine“ hinzu. Diese tun, wie der Name schon sagt, zählen, wie oft
wir Steine selektieren. Dabei werden diese nur aktiviert, wenn wir einen Stein mehr als einmal
selektieren.

Zu den vorhandenen Steinen fügen wir 𝑟 − 1 viele „Zählsteine“ hinzu.

Ziehen wir z.B. zweimal denselben Legostein, erhalten wir folgendes:

Obige Stichprobe entählt zweimal denselben Stein.


Verallgemeinert lässt sich daraus folgern:

Definition 2.17
Sei 𝑛 ∈ ℕ 𝑢𝑛𝑑 0 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.

Die Anzahl von Stichprobenkombinationen 𝑛 distinkter Objekte mit Zurücklegen beträgt

𝑛+𝑟−1
( ).
𝑟

Unsere Anzahl an Legosteinstichproben mit Zurücklegen beträgt also


20 + 5 − 1
( ) = 42504.
5
Beispiel 2.11

Der junge Jonas ist Multimilliardär. Als besonderes Zeichen der Zuneigung, hat sich sein
Vater folgendes ausgedacht: Immer, wenn Jonas ein Spielzeug aus seiner Kiste nimmt,
wird von seinen Buttlern sofort ein neues in die Kiste gepackt. Dabei ist der Tyo des
hinzugefügten Spielzeugs identisch mit dem zuvor entnommenen. Jonas entnimmt der
Kiste jeden Tag vier Spielzeuge und wirft diese weg.
Wie hoch ist die Wahrscheinlichkeit, dass Jonas nach neun Tagen genau dreimal dieselbe
Stichprobe an Spielzeugtypen gezogen hat?

Die Wahrscheinlichkeit einer bestimmten Stichprobe


beträgt
1 1 1
𝑝= = = .
𝑛+𝑟−1 17 + 4 − 1 4845
( ) ( )
𝑟 4

Dies ist der Fall, weil die Kiste in jedem Schritt immer dieselbe Anzahl an Spielzeugen hat.

Der Rest ist 𝑋~𝐵𝑖𝑛(9, 𝑝) binomialverteilt:

9
𝑃(𝑋 = 3) = ( ) ∙ 𝑝3 ∙ (1 − 𝑝)6 ≈ 7.37 ∙ 10−10 .
3

Das Ergebnis ist nicht überraschend: Da es eine so große Anzahl an möglichen


Stichprobenkombinationen gibt, ist es sehr unwahrscheinlich genau drei identische zu haben.
Besetzungen als das Apfelmodell (Stars & Bars)
An einem sonnigen Nachmittag sammelt Justin mit seinen drei Kindern Äpfel. Jedes dieser Kinder
hat dabei seinen eigenen Behälter.
Schon am ersten Apfelbaum haben sie ein Problem: Justin ist die einzige Person mit einer
ausreichenden Größe, um den Baum zu erreichen. Somit obliegt ihm die Verantwortung zu
entscheiden, welches Kind wie viele Äpfel bekommt.

Dabei fragt er sich, auf wie viele Arten die 𝑛 = 6 Äpfel in die 𝑟 = 3 Behälter gefüllt werden können.

Solch einer Situation sind wir bei Kombinationen noch nicht begegnet: Alle Objekte unserer
Betrachtung sind diesmal nicht distinkt.

Das heißt alle Äpfel bilden eine Äquivalenzklasse bezüglich dem Gleichheitsoperator.
Überraschenderweise ist dies aber nicht weiter schlimm: Uns interessieren nämlich nicht die Äpfel
selbst sondern die möglichen Füllstände (Besetzungen) eines Behälters.
Um die Besetzungen der Eimer zu repräsentieren durchführen wir folgenden gedanklichen Kniff:
Wir legen die Äpfel linear in eine Reihe hin. Zwischen den Äpfel legen wir 𝑟 − 1 = 2 Trennstäbe hin.
Diese Begrenzungen simulieren jeweils die „Ränder“ der jeweiligen Eimer. Alle Äpfel vor dem
ersten Stab kommen dann in den ersten Eimer, alle Äpfel zwischen der ersten und zweiten
Begrenzung kommen in den zweiten Eimer und alle Äpfel danach in den dritten.
Dabei bedeuten zwei Stäbe hintereinander, dass ein Eimer nichts bekommt.

Um zu erfahren, wie viele unterschiedliche Besetzungen der Eimer existieren, müssen wir doch nur
noch herausfinden, auf wie viele verschiedene Arten wir die Stäbe verteilen können.
Hier hilft uns das gedankliche Modell des Binomialkoeffizienten, welches schon im Kapitel zuvor
erklärt wurde. Wir fügen die 𝑟 − 1 = 2 Stäbe zu unseren Kugeln hinzu und färben sie weiß. Danach
suchen wir alle Möglichkeiten, die weißen Kugeln auf unsere 𝑛 + 𝑟 − 1 = 8 große Kugelmenge zu
verteilen.

𝑛+𝑟−1 8
Justin hat somit ( ) = ( ) = 28 Möglichkeiten die Eimer zu befüllen.
𝑟−1 2
Dies bringt uns zu folgender Besetzungsformel:
Definition 2.18
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.

Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl nichtnegativer 𝑟-Tupel mit Summe 𝑛
gleich
der Anzahl der Multimengen mit Kardinalität (𝑟 − 1) aus einer Menge mit 𝑛 + 1 Elementen23,
also

𝑛+𝑟−1 𝑛+𝑟−1
( )=( )
𝑟−1 𝑛

Tipp
Faustregel: Möchte ich die Anzahl der Besetzungen von 𝑛 Elementen mit 𝑟 Eimern
ausrechnen und:

• die Besetzungen lassen sich mit „Trennstäben“ simulieren


• einzelne Eimer dürfen leer sein

Rechne:
𝑛+𝑟−1
𝑛+𝑟−1𝑐𝑟−1 =( )
𝑟−1

FAQ: Wie kann ich die vorherige Definition verstehen?


Frage: Beim Apfelbaumbeispiel redeten wir über Trennstäbe aber die darauffolgende Definition
kommt mir an mit Multimengen und Zahlen.
Wie soll ich das noch verstehen?

Antwort: Stellen wir uns vor, wir haben ein Gleichungssystem mit 𝑟 = 2 Variablen24.
Das Ergebnis des Gleichungssystem ist die positive Zahl 𝑛=4.

𝑥1 + 𝑥2 = 4

Ich möchte nun wissen, wie viele verschiedene ganzzahlige nicht negative Lösungen es für die
Variablen 𝑥1 und 𝑥2 gibt.
Aber hey, unsere Variablen 𝑥1 und 𝑥2 sind doch dann einfach nur Eimer die wir befüllen wollen.
Somit können wir ohne Verlust unsere Aufgabe in unser Apfelbaumsituation konvertieren.
Folgendes Bild visualisiert dies:

23 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
24 http://math.stackexchange.com/questions/910809/how-to-use-stars-and-bars-combinatorics
5
Somit gibt es ( ) = 5 nicht negative Zuweisungen für unsere Variablen.
1

Justin wäre aber kein guter Vater, wenn er den Apfeleimer eines seiner Kinder leer lassen würde.
Also fragt er sich, auf wie viele Arten er die Eimer füllen kann mit mindestens einem Apfel pro
Eimer.
Das bedeutet, dass keine zwei Stäbe hintereinander oder an einen Rand platziert werden dürfen.

Wie verhindern wir dies? Indem wir die Stäbe ausschließlich in den Zwischenräumen zwischen
zwei Äpfeln platzieren!

Dies können wir auch ohne Probleme in unser gedankliches Modell mit den Binomialkoeffizienten
überführen:
𝑛−1 5
Justin hat somit ( ) = ( ) = 10 Möglichkeiten sechs Äpfel zu verteilen, so dass jeder Eimer
𝑟−1 2
mindestens einen Apfel hat.
Für Eimer mit Mindestfüllwert eins gilt:

Definition 2.19
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.

Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl positiver (größer null) 𝑟-Tupel mit
Summe 𝑛 gleich der Anzahl der (𝑟 − 1)-elementigen Teilmengen einer Menge mit 𝑛 − 1
Elementen25, also
gleich

𝑛−1
𝑛−1𝑐𝑟−1 =( )
𝑟−1

Tipp
Faustregel: Möchte ich die Anzahl der Besetzungen von 𝑛 Elementen mit 𝑟 Eimern
ausrechnen und:

• die Besetzungen lassen sich mit „Trennstäben“ simulieren


• einzelne Eimer dürfen nicht leer sein

Rechne:
𝑛−1
𝑛−1𝑐𝑟−1 =( )
𝑟−1

25 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
FAQ: Wie kann ich die vorherige Definition verstehen?
Frage: Wie soll ich jetzt diese Definition verstehen?

Antwort: Fast genau so wie die Definition zuvor. Stellen wir uns nochmal vor, wir haben ein
Gleichungssystem mit 𝑟 = 2 Variablen.
Das Ergebnis des Gleichungssystem ist erneut die positive Zahl 𝑛=4.

𝑥1 + 𝑥2 = 4

Ich möchte nun wissen, wie viele verschiedene ganzzahlige positive Lösungen es für die
Variablen 𝑥1 und 𝑥2 gibt.
Diesmal kann eine Variable folglich keinen Wert kleiner 1 annehmen, weil Positivität der
Variablen gefordert ist.26
Daraus folgt:

3
Somit gibt es ( ) = 3 positive Zuweisungen für unsere Variablen.
1

Beispiel 2.12
Lil Wayne hält einen Vortrag in einer Schulkasse mit 25 Schülern. Um sein Image eines
Rappers zu bewahren, springt er plötzlich auf einen abgedeckten Tisch und schreit „Let’s
make it rain“.
Ohne Vorwarnung wirft er ein Bündel mit einhundert identischen 50$ Scheinen in die Luft.
Auf wie viele Arten können die 25 Schüler die Geldscheine einsammeln, wenn jeder
mindestens einen 50$ Schein fängt?

Wir sehen die Schüler als unsere 𝑟 = 25 Behälter und die hundert Geldscheine als unsere
𝑛 = 100 Äpfel.
Es gilt:
𝐽𝑒𝑑𝑒𝑟 𝑆𝑐ℎü𝑙𝑒𝑟 𝑓ä𝑛𝑔𝑡 𝑚𝑖𝑛𝑑. 𝑒𝑖𝑛𝑒𝑛 50$ 𝑆𝑐ℎ𝑒𝑖𝑛 ⇔ 𝑗𝑒𝑑𝑒𝑟 𝐸𝑖𝑚𝑒𝑟 𝑚𝑖𝑡 𝑚𝑖𝑛𝑑. 𝑒𝑖𝑛𝑒𝑛 𝐴𝑝𝑓𝑒𝑙 𝑔𝑒𝑓ü𝑙𝑙𝑡

26Positivität der Zahl Null hängt oft vom Kontext ab. Siehe
http://math.stackexchange.com/questions/26705/is-zero-positive-or-negative
Somit rechnen wir:

𝑛−1 100 − 1
𝑛−1𝑐𝑟−1 =( )=( ) ≈ 6 ∙ 1022
𝑟−1 25 − 1

Die 25 Schüler können die 100 Scheine auf ungefähr 6 ∙ 1022 Arten einsammeln, wenn jeder
Schüler mindestens einen Geldschein erhält.

Tipp
Unsere Methode die Anzahl von Besetzungszahlen visuell mit Trennstäben zu erklären heißt
in englischer Literatur stars and bars.

Nützliche Formeln:

Definition 2.20
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.

Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl positiver (größer null) 𝑟-Tupel mit
Summe 𝑛 gleich der Anzahl der (𝑟 − 1)-elementigen Teilmengen einer Menge mit 𝑛 − 1
Elementen27, also
gleich
𝑛
𝑛 𝑚−1
( )= ∑( )
𝑟 𝑟−1
𝑚=𝑟

Tipp
Die obere Definition lässt sich pauschal erläutern als:

𝑛
Die Anzahl der positiven 𝑟 Tupel, die kleiner gleich 𝑛 sind ist ( ).
𝑟

Ein sehr schöner Beweis und weitere Erläuterungen lassen sich hier finden:
Math.Stackexchange-Sums of stars and bars

27 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
Stochastik für Informatiker Aufgabe 10, WS17/18

Es sei 𝑆10,3 die Menge der Besetzungen von 3 Plätzen mit 10 Objekten.

a) Geben Sie die Anzahl der Elemente von 𝑆10,3 an, indem Sie
(i) die in der Vorlesung diskutierte Bijektion zwischen 𝑆10,3 und der Menge aller
01-Folgen der Länge 12 mit genau zwei Nullen verwenden.
(ii) das entsprechende de Finetti-Dreieck (Dreiecksdiagramm) entlang seiner
Zeilen abzählen.
b) Warum hat {𝑏 ∈ 𝑆10,3 : 𝑏𝑗 ≥ 1 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗} genau so viele Elemente wie 𝑆7,3 ?
c) 20 Objekte werden gemäß einer uniform verteilten Besetzung auf 5 Plätze gesetzt.
Wie wahrscheinlich ist es, dass dabei kein Platz leer bleibt.

a) Wir haben 𝑛 = 10 Äpfel und 𝑟 = 3 Plätze. Die in der Vorlesung disktuierte Bijektion
ist genau unser Stars & Bars Modell. Somit gilt:

𝑛+𝑟−1 12
𝑆10,3 = ( ) = ( ) = 66.
𝑟−1 2

b) Algebraische Veranschaulichung:
Die Menge {𝑏 ∈ 𝑆10,3 : 𝑏𝑗 ≥ 1 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗} ist äquivalent zu: Menge aller
Apfelbesetzungen mit zehn Äpfeln und drei Eimern, wo jeder Eimer mit mindestens
einem Apfel gefüllt ist.
𝑛−1 9
Die obere Anzahl beträgt ( ) = ( ).
𝑟−1 2
Es gilt:

𝑛+𝑟−1 9 𝑛−1 9
𝑆7,3 = ( )=( )=( ) = ( ) ✓.
𝑟−1 2 𝑟−1 2
Da beide Seiten gleich sind, ist 𝑆10,3 identisch mit der oben genannten Menge.

c) Sei 𝐴 das gesuchte Ereignis.


Es gibt
𝑛−1 19
( ) = ( ) = 3876
𝑟−1 4
Arten, die Objekte aufzuteilen, ohne dass ein Platz leer bleibt.
Es gibt

𝑛+𝑟−1 24
( ) = ( ) = 10626
𝑟−1 4

Möglichkeiten zur Besetzung.

𝐴𝑛𝑧𝑎ℎ𝑙 𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒 3876


𝑃(𝐴) = = ≈ 0.364.
𝐴𝑛𝑧𝑎ℎ𝑙 𝑚ö𝑔𝑙𝑖𝑐ℎ𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒 10626
Besetzungsbeispiele von total geordneten Mengen
In unserer Apfelmodellierung von zuvor (Stars und Bars) haben wir die Apfelelemente nicht mit
einem Relationsoperator versehen.
Das bedeutet, es wurde von uns kein Operator entworfen, der Verhältnisse wie 𝐴𝑝𝑓𝑒𝑙1 < 𝐴𝑝𝑓𝑒𝑙2
beschreibt.
Dies war auch nicht notwendig, da die Einführung einer Größenrelation uns nicht in der
Fragestellung geholfen hätte, auf wie viele Arten man 𝑛 identische Äpfel auf 𝑟 Eimer verteilen kann.
Es kann aber natürlich auch vorkommen, dass uns Probleme entgegnen, die die Existenz eines
Größenrelationsoperators in unserer Ergebnismenge Ω verlangen.
Solche Mengen nennt man geordnete Mengen. Die Menge
ℕ ≔ {0} ∪ ℤ+
ist eine geordnete Menge, da man einzelne Elemente 𝑛 ∈ ℕ mit einem Relationsoperator
vergleichen kann.

Somit erlaubt ℕ die Evaluierung eines solchen Ausdrucks:


2 ≤ 3.
Man unterscheidet generell zwischen total und partiell geordneten Mengen. Man kann schonmal
festhalten: Jede total geordnete Menge ist auch eine partiell geordnete Menge. Andersrum gilt dies
nicht. Das „Warum“ wird beim Vergleich der Axiome schnell ersichtlich:

Definition 2.21
Gegeben sei eine Menge 𝑀 mit den Elementen 𝑎, 𝑏, 𝑐 ∈ 𝑀 und dem Relationsoperator ≤.

Diese Menge ist total geordnet, wenn für alle 𝑎, 𝑏, 𝑐 ∈ 𝑀 gilt:

1. Wenn 𝑎 ≤ 𝑏 und 𝑏 ≤ 𝑎, dann 𝑎 = 𝑏 (Antisymmetrie)


2. Wenn 𝑎 ≤ 𝑏 und 𝑏 ≤ 𝑐, dann 𝑎 ≤ 𝑐 (Transitivität)
3. 𝑎 ≤ 𝑏 oder* 𝑏 ≤ 𝑎 (Totalität)

*einschließendes oder

Die Menge ℕ der natürlichen Zahlen ist eine total geordnete Menge. Dies gilt auch für ℤ, ℚ und ℝ.
Definition 2.22
Gegeben sei eine Menge 𝑀 mit den Elementen 𝑎, 𝑏, 𝑐 ∈ 𝑀 und dem Relationsoperator ≤.

Diese Menge ist partiell geordnet, wenn für alle 𝑎, 𝑏, 𝑐 ∈ 𝑀 gilt:

1. Wenn 𝑎 ≤ 𝑏 und 𝑏 ≤ 𝑎, dann 𝑎 = 𝑏 (Antisymmetrie)


2. Wenn 𝑎 ≤ 𝑏 und 𝑏 ≤ 𝑐, dann 𝑎 ≤ 𝑐 (Transitivität)
3. Wenn 𝑎 ≤ 𝑎 (Reflexivität)

Die Mengen ℕ, ℤ, ℚ und ℝ sind partiell geordnete Mengen, weil jede total geordnete Menge eine
partiell geordnete Menge ist.

FAQ: Wo ist nun der Unterschied zwischen den Ordnungen?


Frage: Beide Ordnungen haben drei Axiome. Wo ist nun der Unterschied zwischen den beiden?

Antwort: Schauen wir uns die Axiome genauer an, so stellen wir fest, dass die totale Ordnung
eigentlich vier Axiome besitzt.

Viele Quellen (inklusive Wolfram Alpha) fügen nämlich die Reflexivitätsbedingung


Wenn 𝑎 ≤ 𝑎 (Reflexivität)
aus der partiellen Menge zur totalen hinzu.

Dies ist aber nicht notwendig, weil die Totalitätsbedingung


𝑎 ≤ 𝑏 oder 𝑏 ≤ 𝑎 (Totalität)
Reflexivität zur Folge hat.

Die Totalitätsbedingung liefert aber noch ein weiteres Detail: Sie fordert nämlich, dass alle
Elemente der Menge 𝑀 untereinander vergleichbar sind.

Dies ist bei unseren Zahlenmengen ℕ natürlich der Fall, da wir ja jede Zahl aus ℕ mit einer
anderen Zahl aus ℕ vergleichen dürfen.

Die partielle Ordnung fordert dies nicht. Wir könnten somit eine Menge konstruieren, wo nur
bestimmte Elemente mit dem Relationsoperator verträglich sind.

Tipp
Um eine Ordnung herzustellen, muss nicht zwingend der Relationsoperator ≤ verwendet
werden.
Jeglicher Operator, der die oberen Axiome erfüllt stellt eine Ordnung her, siehe hier.
Nun können wir ein anderes Beispiel entwerfen. Stellen wir uns vor, wir haben 𝑛 Äpfel.

Um den Überblick zu behalten, versehen wir jeden Apfel mit einem Etikett. Auf jedem Etikett steht
eine einzigartige Zahl. Somit ist jeder Apfel nummeriert. Es gilt: Keine zwei Äpfel teilen dieselbe
Nummerierung.

Wir nennen zwei Äpfel benachbart, wenn die Etikettennummern direkte Nachfolger sind.

Zum Beispiel sind die Äpfel mit den Nummern 1 und 2 benachbart.

Die Äpfel mit den Nummern 1 und 3 sind dagegen nicht benachbart, da 3 kein direkter
Nachfolger von 1 ist.
Die Frage: Auf wie viele Arten können wir aus 𝑛 Äpfeln 𝑟-viele wählen, so dass keiner dieser Äpfel
benachbart ist?
In anderen Worten: Wie viele Teilmeingen der Größe 𝑟 lassen sich aus einer geordneten Menge der
Größe 𝑛 bilden, wobei die Elemente der Teilmengen untereinander nicht benachbart sind?
Erneut hilft uns hier eine Variation von Stars & Bars28.
Wir haben 𝑛 viele Äpfel.

Es bleiben nach dem ziehen von 𝑟 Äpfel genau 𝑛 − 𝑟 viele übrig. Wichtig: In diesem Schritt
entfernen wir die Etikettennummer aus der Modellierung, weil uns nur die übriggebliebenen Äpfel
interessieren.
Dabei agieren diese Äpfel wie „Templates“: Sie stehen für die entstehende Restmenge nach einer
validen Selektion von 𝑟 Äpfeln. Wenn wir also die Etikettennummern der gezogenen 𝑟 Äpfel
festlegen, kennen wir die Etikettennummern der Restäpfel.

Diese 𝑛 − 𝑟 vielen Äpfel haben genau 𝑛 − 𝑟 + 1 viele Lücken (inklusive Anfang und Ende).

Jede dieser Lücken repräsentiert dabei etwas Einzigartiges: Nämlich eine gültige Stelle, aus der wir
unsere 𝑟 Äpfel selektieren können.
Dies ist der Fall, da zwischen den Lücken ja immer ein „Apfel“ ist und Nachbarschaftskonflikte
somit ausgeschlossen sind.

28 Siehe Abschnitt zuvor.


Erst nach der Selektion der 𝑟 Äpfel nehmen wir die Etiketten wieder in unsere Modellierung auf. Ist
zum Beispiel 𝑛 = 4 und 𝑟 = 2, so ergeben sich folgende drei Möglichkeiten entsprechende
Teilmengen zu wählen:

Jeder der drei rechteckigen Kästen entspricht einer Teilmenge. Die schwarzen „unnummerierten“ Äpfel bekommen erst
ein Etikett,, nachdem die blauen Lücken bestimmt wurden. Ein blauer Apfel ist Teil der jeweiligen 𝑟 = 2 elementigen
Teilmenge.

Daraus ergibt sich folgende allgemeine Formel:

Definition 2.23
Gegeben sei eine geordnete Menge 𝑀 (keine Multimenge) mit |𝑀| = 𝑛.

Die Anzahl der möglichen 𝑟 elementigen Teilmengen, wo kein Element benachbart ist,
beträgt
n−r+1
𝑛−𝑟+1𝑐𝑟 = ( ).
r

Beispiel 2.13

In einem Marathon laufen 370 Sportler. Dabei sind diese durchnummeriert von 1 bis 370.
Wenn alle die gleichen Siegchancen besitzen, wie wahrscheinlich ist es, dass keiner der
ersten 12 Zielläufer die direkt konsekutive Nummer eines anderen dieser 12 Zielläufer
trägt?

Die Nummern aus der Nummerierung sind eine Teilmenge von ℕ, somit sind sie vollständig
geordnet.
Außerdem hat jeder Sportler eine eigene Nummer, sprich keine zwei Personen tragen die
gleiche Nummerierung. Damit benötigen wir auch keine Multimenge zur Modellierung, da die
Multiplizität jedes Elements gleich eins ist.

Daraus folgt:
Ω ≔ {𝑆𝑝𝑜𝑟𝑡𝑒𝑟1 , 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟2 , … , 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟𝑛 }

𝐴 ⊆ Ω ≔ {𝑛𝑖𝑐ℎ𝑡𝑏𝑒𝑛𝑎𝑐ℎ𝑏𝑎𝑟𝑡𝑒 𝑍𝑖𝑒𝑙𝑙ä𝑢𝑓𝑒𝑟}
370
Es gibt 370𝑐323 = ( )-viele 𝑘 = 12 elementige Teilmengen insgesamt. Von denen gibt es
12
370 − 12
laut unserer oberen Definition genau 370−12𝑐12 = ( )-viele ohne benachbarte
12
Elemente.

Somit ist die Lösung:

370−12
( )
12
𝑃(𝐴) = 370 ≈ 0,669
( )
12

Tipp
Für alternative Erklärungen und Herleitungen siehe hier und hier.
Kapitel 3

Einführung in Diskrete Verteilungen

Zufallsvariablen aber auch einfache Ereignisse induzieren Verteilungen. Die Verteilung eines
Zufallsprozesses zu erkennen ist von elementarer Bedeutung. Oft lassen sich Fragestellungen
massiv vereinfachen, wenn man eine komplizierte Verteilung in eine einfachere approximativ
überführen kann.

Zu Beginn des Kapitels beantworten wir was eine Verteilung ist, beginnen mit der Konstruktion von
Gewichten und Gewichtsfunktionen für diskrete Zufallsvariablen, entdecken den Erwartungswert
und die Varianz und schließen mit vielen Beispielen für diskrete Verteilungen ab.

Was ist eine Verteilung

Definition 3.1
Eine Verteilung beschreibt die Zuteilung von Wahrscheinlichkeiten durch unsere
Maßfunktion 𝑃.

Eine Verteilung lässt sich folglich auf mehrere Arten spezifizieren, z.B. als Dichtefunktion bei
kontinuierlichen Zufallsvariablen, Gewichtsfunktion bei diskreten Zufallsvariablen und mehr29.

Auch eine einfache Auflistung aller Ereignisse mit der dazugehörigen Wahrscheinlichkeit entspricht
einer Angabe einer Verteilung.
Bei einem Münzwurf ist somit
1
𝑃(𝑋 = 𝐾𝑜𝑝𝑓) = 𝑃(𝑋 = 𝑍𝑎ℎ𝑙) =
2
eine gültige Angabe der durch 𝑃 induzierten Verteilung.

Erinnern wir uns an die Definition eines Messraums (Kapitel 1), so fällt uns auf: Unsere Verteilung
ist nichts anderes als unsere Messfunktion 𝜇. Somit erfüllt eine gültige Angabe einer Verteilung
auch sämtliche Axiome von 𝜇. Folgendes Axiom ist dabei besonders wichtig (Wiederholung):

29 https://en.wikipedia.org/wiki/Probability_distribution
Definition 3.2
Die Summe aller Einzelwahrscheinlichkeiten unserer Verteilung ergibt 1.

Wird somit nach Angabe einer Verteilung gefragt, müssen wir immer prüfen, ob sich die
Wahrscheinlichkeiten aller unserer Elementarereignisse 30auf 1 summieren.
Da eine sequentielle Angabe von Einzelwahrscheinlichkeiten bei diskreten Zufallsvariablen schnell
unhandlich wird und bei kontinuierlichen gar unmöglich ist, behelfen wir uns mit den Werkzeugen
der Analysis (Sprichwort: Gewichtsfunktion, Dichtefunktion).

Ein spezifisches Beispiel:


Bei einer binomialverteilten Zufallsvariable 𝑋 reicht als Angabe der Verteilung somit die bloße
Angabe der Gewichtsfunktion mit spezifischen Parametern 𝑛, 𝑝. Dies lässt sich auch abkürzen mit
𝑋~𝐵𝑖𝑛(𝑛, 𝑝). Dies bedeutet: X ist Binomialverteilt mit Parametern 𝑛, 𝑝.

Grundsätzlich gilt: Solange erkennbar ist, nach welchen Kriterien unsere Funktion 𝑃
Wahrscheinlichkeiten zuteilt, erhält man eine gültige Angabe der Verteilung.

Das statstische Gegenstück zur Wahrscheinlichkeitsverteilung ist die Häufigkeitsverteilung.

Gewichtsfunktionen als Maß für diskrete Zufallsvariablen

Dieskrete Zufallsvariablen erhalten ihre Wahrscheinlichkeiten über Gewichtsfunktionen


(probability mass functions).
Wir sagen eine Zufallsvariable X hat die Gewichtsfunktion 𝑓𝑋 .
Dabei muss 𝑋 keine reelle Zufallsvariable sein.

Tipp
Das kleine 𝑋 in 𝑓𝑋 gibt an, für welche Zufallsvariable zuständig ist.

Eine andere Zufallsvariable Y hat in dieser Notation dann die Gewichtsfunktion 𝑓𝑌 .

Diese Art der Notation hatten wir auch schon zu Beginn erlebt, nämlich:
𝑃({𝑋 = 𝑘}) = 𝑃𝑋 ({𝑘})

Auch beim bedingten Erwartungswert werden wir das „subscript“ in der Notation wieder
begegenen.

30Falls vergessen wurde, was der Unterschied zwischen einem Ereignis und Elementarereignis ist, siehe
Kapitel 0.
Tipp
Gewichtsfunktionen schreibt man üblicherweise mit kleinem Buchstaben, um sie von
Verteilungsfunktionen zu unterscheiden.

Definition 3.3
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 |𝑆| ⊆ ℕ eine diskrete Zufallsvariable.

Sei 𝑖 ∈ 𝑆 ein Element des Zielbereichs von 𝑋.

Für die Gewichtsfunktion 𝑓𝑋 : 𝑆 → [0,1] gilt:31

𝑃(𝑋 = 𝑖) = 𝑓𝑋 (𝑖)

Tipp
Will ich die Wahrscheinlichkeit 𝑃(𝑋 = 𝑖) wissen, greift unser Wahrscheinlichkeitsmaß 𝑃
somit auf die Gewichtsfunktion 𝑓𝑋 (𝑖) zurück, sofern 𝑋 diskret ist.

Tipp
In der Vorlesung wird anstatt 𝑓𝑋 (𝑖) auch 𝜌(𝑖) geschrieben.

Gewichtsfunktionen kann man sich als Verteiler von Wahrscheinlichkeiten vorstellen.


Stellen wir uns vor, unsere Zufallsvariable repräsentiert den Inhalt eines Apfelsacks. Zusätzlich hat
jedes Sackelement (ein Apfel, also) ein Gewicht in Kilogramm.
Die Gewichtsfunktion bestimmt, wie hoch der relative Anteil des Gewichts eines „Apfels“ zum
Gesamtsackgewicht ist.

31 https://en.wikipedia.org/wiki/Probability_mass_function
Da alle Äpfel im Sack nicht mehr als der Sack selbst wiegen können, kann der Wert der
Verteilungsfunktion nie den Wert 1 übersteigen und 0 unterbieten.
Nehme ich somit zufällig Äpfel aus dem Sack und teile sie in zwei disjunkte Haufen 𝐴1 und 𝐴2 auf,
so sind 𝐴1 ⊂ 𝑆 und 𝐴2 ⊂ 𝑆 zusammen höchstens so schwer wie 𝑆 selbst.
Dies kommt uns doch bekannt vor, oder nicht? Das obrige gleicht nämlich unserer Definition eines
Maßes, welches wir schon zu Beginn kennengelernt haben.
Bilden wir somit Mengen 𝐴 ⊆ 𝑆 summieren wir bei der Gewichtsangabe einfach nur die
Funktionswerte unserer Gewichtsfunktion aller in 𝐴 enthaltenen Elemente.
Diese Summation wird in der folgenden Definition festgehalten:

Definition 3.4
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 𝑆 ⊆ ℕ eine diskrete Zufallsvariable.

Sei 𝐴 ⊆ 𝑆 eine Teilmenge der Bildmenge von 𝑋.

Es gilt:
𝑃(𝑋 ∈ 𝐴) = ∑ 𝑓𝑋 (𝑖) = ∑ 𝑃(𝑋 = 𝑖)
𝑖∈𝐴 𝑖∈𝐴

Beispiel 2.14

Geben Sie die Verteilung eines fairen n-Würfelwurfs an.

Wir probieren verschiedene, equal legitime Arten aus.

1. Möglichkeit: Angabe einer Verteilungsfunktion


Sei 𝑋: Ω → 𝑆 eine Zufallsvariable. Wir definieren:

Ω = {nach oben zeigender Würfelwert}


𝑆 = {1,2,3,4, … , 𝑛}

Aus der Aufgabe folgt:


1
𝑓𝑋 (𝑖) = , ∀𝑖 ∈ 𝑆
𝑛

2. Möglichkeit: Angabe der Elementarereigniswahrscheinlichkeiten

Sei Ω = {nach oben zeigender Würfelwert}

Somit gilt:
1
𝑃({𝜔}) = , ∀𝜔 ∈ Ω
𝑛

3. Möglichkeit: Angabe der Elementarereigniswahrscheinlichkeiten über o-Algebra


Sei 𝑊 = (Ω, Σ, 𝑃) ein Wahrscheinlichkeitsraum.

Außerdem:
Ω = {nach oben zeigender Würfelwert}
Σ = Potenzmenge(Ω)

Somit gilt:
1
𝑃({∀𝜎 ∈ Σ: |𝜎| = 1}) =
𝑛

4. Möglichkeit: Grafische Angabe


Verteilungsfunktionen diskreter Zufallsvariablen
Unsere Gewichtsfunktionen (pmf’s) beantworteten bisher nur die Frage nach der
Wahrscheinlichkeit einer einzelnen Realisierung, also 𝑃(𝑋 = 𝑖).

Eine Verteilungsfunktion, auch cumulative distribution function (cdf) genannt, gibt die
Wahrscheinlichkeit an, dass 𝑋 höchstens einen Wert annimmt, also 𝑃(𝑋 ≤ 𝑖).
Dabei ist die Wahrscheinlichkeit die 𝑃(𝑋 ≤ 𝑖) ausgibt nur eine Summe der
Einzelwahrscheinlichkeiten 𝑃(𝑋 = 𝑘), 𝑚𝑖𝑡 𝑘 ≤ 𝑖.

Definition 3.5
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 𝑆 ⊆ ℕ eine diskrete Zufallsvariable.

Seien 𝑖, 𝑘 ∈ 𝑆.

𝑃(𝑋 ≤ 𝑖) = ∑ 𝑓𝑋 (𝑘) = ∑ 𝑃(𝑋 = 𝑘)


𝑘≤𝑖 𝑘≤𝑖

Tipp
Die Wahrscheinlichkeiten lassen sich so einfach summieren, weil jedes Element 𝑘 ∈ 𝑆
disjunkt ist bezüglich der Zusammensetzung aus der Ursprungsmenge Ω.

Das heißt, dass ein Ausgang eines Zufallsexperiments (Element aus Ω) auf nur auf einen Wert
𝑘 ∈ 𝑆 abgebildet werden kann und nicht mehrere.

Dies ist der Fall, weil 𝑋: Ω → 𝑆 eine Funktion ist und eine Funktion eindeutige Zuweisungen
liefert, siehe Kapitel 1: Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie.

Tipp
Die englischen Abkürzungen pmf (Gewichtsfunktion) und cdf (diskrete Verteilungsfunktion)
lassen sich leicht verwechseln..

Visualisiert wird dies am besten durch ein kleines Beispiel.


Wir würfeln einen sechsseitigen Würfel. Dessen Gewichtsfunktion sieht aus wie folgt:

Würfelwurf (pmf)
1/6
Wahrscheinlichkeit

0
1 2 3 4 5 6
Augenzahl
Die vorherige Tabelle gibt uns die Einzelwahrscheinlichkeit 𝑃(𝑋 = 𝑖). Da wir wissen, dass bei der
Verteilungsfunktion der Wert 𝑃(𝑋 ≤ 𝑘) nur die Summe aller Einzelwahrscheinlichkeiten
𝑃(𝑋 = 𝑖), 𝑚𝑖𝑡 𝑖 ≤ 𝑘 ist, sieht die Verteilungsfunktion aus wie das diskrete Integral:

1
Würfelwurf (cdf)
Wahrscheinlichkeit

5/6
2/3
1/2
1/3
1/6
0
- 1/6 0 1 2 3 4 5 6

Augenzahl

4
Die Wahrscheinlichkeit, dass die gewürfelte Augenzahl höchstens 4 beträgt, ist somit 𝑃(𝑋 ≤ 4) = .
6

Um unseren Würfelwurf als Verteilungsfunktion zu definieren, bietet sich folgender Versuch an:
𝑖
𝑃(𝑋 ≤ 𝑖) = 𝐹𝑋 (𝑖) = , 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2, . . ,6}.
6
Dies ist aber noch nicht vollständig korrekt. In diesem Fall wäre der Definitionsbereich der
Verteilungsfunktion die Menge der Augenzahlen, 𝑆 = {1,2, … ,6}.

Der Ausdruck 𝑃(𝑋 ≤ 𝑖) bedeutet aber buchstäblich: „Gib mir die Wahrscheinlichkeit höchstens die
Augenzahl i zu würfeln“.

Auch wenn es praktisch unmöglich ist, erfüllen die Zahlen 0,-1,-2,-3,... auch dieses Kriterium, weil es
gilt −3 ≤ 𝑖, 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2, … ,6}.

Dies ist ein Grund, weshalb Verteilungsfunktionen fast immer über den gesamten Zahlkörper
definiert werden, in dem sich die Zufallsvariable befindet. Für diskrete Zufallsvariablen ist dies ℤ,
der Körper der ganzen Zahlen.
Für kontinuierliche Zufallsvariablen ist dies ℝ, der Körper der reellen Zahlen.
Dabei decken wir auch die oberen Fälle 𝑃(𝑋 ≥ 𝑖) ab.

Eine korrekte Verteilungsfunktion für unser Würfelexperiment wäre


𝑖
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2, … ,6}
6
𝐹𝑋 (𝑖) = 0, 𝑤𝑒𝑛𝑛 𝑖 ≤ 0 .

{1, 𝑤𝑒𝑛𝑛 𝑖 ≥ 7
Tipp
Bauernregel: Wenn eine Verteilungsfunktion keine Klammer zur Fallunterscheidung hat,
dann deckt sie wahrscheinlich nicht den gesamten Definitionsbereich des Zahlkörpers ab.

Dies ist nicht immer wahr, da es viel Freiraum gibt Funktionen zu definieren, für unsere im
Skript behandelten Fälle aber mehr als ausreichend.

Da Wahrscheinlichkeiten immer positiv oder null sind, lassen sich folgende Regeln schnell ableiten:

Definition 3.6
Eine Verteilungsfunktion ist immer monoton steigend.

FAQ: Warum nicht streng monoton steigend?


Frage: In der oberen Definition steht, eine Verteilungsfunktion sei immer monoton steigend.
Warum nicht streng monoton steigend?

Antwort: Weil es möglich ist, dass wir einzelnen Elementen die Wahrscheinlichkeit null
zuweisen.

Zum Beispiel hat folgende Zufallsvariable


𝑋: Ω → 𝑆, 𝑚𝑖𝑡 𝑆 = {0,1,2,3,4,5,6}
und der Verteilung
1
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {0,1,5,6}
𝑓𝑋 (𝑖) = {4
0, 𝑠𝑜𝑛𝑠𝑡

keine streng monotone Verteilungsfunktion, da ein Plateau zwischen den Werten 2,3,4 existiert.

Definition 3.7
Ist eine Zufallsvariable uniform verteilt, ist die Verteilungsfunktion immer streng monoton
steigend.

Uniform verteilte Zufallsvariablen haben eine streng monoton steigende Verteilungsfunktion, wie
im Würfelbeispiel zu Beginn des Abschnitts.

Tipp
Verteilungsfunktionen werden meistens mit einem großen Buchstaben „𝐹“ gekennzeichnet,
Gewichtsfunktionen hingegegen mit einem kleinen „𝑓“.

Da der Relationsoperator „< " eine geordnete Menge verlangt(siehe Kapitel 2: Besetzungsbeispiele
von Total geordneten Mengen), gibt es Verteilungsfunktionen ausschließlich für reellwertige32

32Reellwertig heißt, dass eine Zufallsvariable 𝑋 auf eine Teilmenge des reellen Zahlenraum abbildet, wie z.B.
ℤ oder ℝ. Somit steht reellwertig für diskrete sowie kontinuierliche Zufallsvariablen, solange sie auf Zahlen
abbilden.
Zufallsvariablen. Dies steht im Kontrast zu Gewichtsfunktionen, die auch für Zufallsvariablen
definiert werden können, die nicht auf Zahlen abbilden.
Außerdem werden auch die restlichen Eigenschaften des Operators „≤ " übernommen.

Definition 3.8
𝑃(𝑐 ≤ 𝑋 ≤ 𝑐) = 𝑃(𝑋 = 𝑐), 𝑚𝑖𝑡 𝑐 ∈ ℝ

Dabei sollte der kleiner-gleich Operator („≤“) nicht mit dem kleiner-Operator („<“) verwechselt
werden.

Für diskrete Zufallsvariablen gilt:

Definition 3.9
𝑃(𝑋 < 𝑐) = 𝑃(𝑋 ≤ 𝑐 − 1), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡

Wollen wir größer-gleich („≥“) ausdrücken, so nutzt man folgende Äquivalenz aus:

Definition 3.10
𝑃(𝑋 ≥ 𝑐) = 1 − 𝑃(𝑋 ≤ 𝑐 − 1), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡

Natürlich gilt für den größer Operator:

Definition 3.11
𝑃(𝑋 > 𝑐) = 1 − 𝑃(𝑋 ≤ 𝑐), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡

Tipp
Da bei kontinuierlichen Zufallsvariablen Einzelwahrscheinlichkeiten der Form 𝑃(𝑋 = 𝑐)
nicht exisiteren, wird dort sehr viel mit diesen Relationsregeln gearbeitet.

FAQ: Beweise mir die Regeln


Frage: Kannst du mir die oberen drei Relationsregeln beweisen?

Antwort: Aber klar doch!

a)
𝑐

𝑃(𝑐 ≤ 𝑋 ≤ 𝑐) = ∑ 𝑃(𝑋 = 𝑖) = 𝑃(𝑋 = 𝑐)


𝑖=𝑐
b)
∞ +∞ 𝑐−1

𝑃(𝑋 ≥ 𝑐) = ∑ 𝑃(𝑋 = 𝑖) = ∑ 𝑃(𝑋 = 𝑖) − ∑ 𝑃(𝑋 = 𝑖) = 1 − 𝑃(𝑋 ≤ 𝑐 − 1)


𝑖=𝑐 ⏟
𝑖→−∞ ⏟
𝑖→−∞
𝑃(Ω)=1 𝑃(𝑋≤𝑐−1)

c) Man substituiere
𝑃(𝑋 > 𝑐) = 𝑃(𝑋 ≥ 𝑐 + 1), 𝑤𝑒𝑛𝑛 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡
und führe den Beweis b) durch.

Tipp
In Aufgabenstellungen gibt es Stichwörter, die angeben, um welchen Relationsoperator es
sich handelt.

Wort Bedeutung
„höchstens c“ 𝑃(𝑋 ≤ 𝑐)
„weniger als c“ 𝑃(𝑋 < 𝑐)
„mindestens c“ 𝑃(𝑋 ≥ 𝑐)
„mehr als c“ 𝑃(𝑋 > 𝑐)

Beispiel 3.1

Gegeben ist eine Zufallsvariable

1
, 𝑤𝑒𝑛𝑛 𝑖 = 1
25
5
𝑋: Ω → ℕ, 𝑚𝑖𝑡 𝑓𝑋 (𝑖) = , 𝑤𝑒𝑛𝑛 𝑖 = 2
25
19
{ 25 , 𝑤𝑒𝑛𝑛 𝑖 = 3
Berechne 𝑃(𝑋 < 3).

Wichtig: Unsere Funktion 𝑓𝑋 (𝑖) ist eine Gewichts- und keine Verteilungsfunktion. Dies
erkennen wir am kleinen Buchstaben „𝑓“ und daran, dass sie für eine Verteilungsfunktion
nicht vollständig definiert wäre (𝑃(𝑋 ≥ 1) ≠ 1).

Folglich berechnen wir:


6
𝑃(𝑋 < 3) = 𝑃(𝑋 ≤ 2) =
25
Beispiel 3.2

Ein Raumschiff von SpaceX fliegt zum Mars. Die im All vorhandene Radioaktivität stört die
Computersysteme. Die Wahrscheinlichkeit, dass ein Bit auf eine falsche Position geflippt
wird beträgt 1/125.

Die Fehlerwahrscheinlichkeit jedes Bits ist dabei unabhängig: Hat ein String viele Fehler
wirkt sich das nicht auf die Fehlerwahrscheinlichkeit des nächsten Bits aus.

Der Computer verschickt einen 256 langen String. Wie hoch ist die Wahrscheinlichkeit,
dass mehr als 3 Bits fehlerhaft sind?

Es repräsentiere
𝑌 = 𝐹1 + 𝐹2 + ⋯ + 𝐹256
die Anzahl der Fehler unseres Strings.
Wir bemerken: Die Fehlerwahrscheinlichkeit bleibt konstant. Somit ziehen wir mit
zurücklegen. Außerdem macht dies alle alle Zufallsvariablen 𝐹𝑖 unabhängig.

Folglich ist
1
𝑋~𝐵𝑖𝑛 (𝑛 = 256, 𝑝 = ).
125

Es gilt:
3
256 1 𝑖 124 𝑛−𝑖
𝑃(𝑋 > 3) = 1 − 𝑃(𝑋 ≤ 3) = 1 − ∑ ( )∙( ) ∙( ) ≈ 0,16
𝑖 125 125
𝑖=0

Eine Einführung der Binomialverteiung gibt es in Kapitel Binomialverteilung.

Beispiel 3.3

Ist folgendes eine gültige cdf?

𝑖
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2,3,4}
10
3
, 𝑤𝑒𝑛𝑛 𝑖 = 5
𝐹𝑋 (𝑖) = 10
𝑖
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {6,7,8,9,10}
10
0, 𝑤𝑒𝑛𝑛 𝑖 < 1
{1, 𝑤𝑒𝑛𝑛 𝑖 > 10

Nein, da 𝐹𝑋 nicht monoton steigend ist (verifizierbar über eine schnelle Zeichnung).
Der Erwartungswert
Hinweis: Sofern nicht anders erwähnt (Abschnitt „Der Erwartungswert aus diskreter Sicht“) gilt
diese Einführung des Erwartungswertes für diskrete sowie kontinuierliche Zufallsvariablen.
Besonderheiten kontinuierlicher Erwartungswerte werden im Abschnitt „Der Erwartungswert aus
kontinuierlicher Sicht“ im Kapitel „Einführung in kontinuierliche Verteilungen“ erläutert.

Im vorherigen Kapitel lernten wir, dass reellwertige Zufallsvariablen Zufallsprozesse


quantifizieren. Dies bedeutet, dass wir Ausgängen eines Zufallsexperiments Zahlenwerte zuweisen
(siehe Kapitel 1: Zufallsvariablen).
Der Vorteil besteht darin, dass wir nun deskriptive Kenngrößen einer Verteilung ermitteln können.
Eine dieser Größen ist der Erwartungswert, dessen grundlegende Definition für jede Art 33 von
Zufallsvariablen gleich bleibt.

Definition 3.12
Der Erwartungswert ist der Durchschnittswert einer Zufallsvariablen nach sehr vielen
Wiederholungen desselben Zufallsexperiments.

Diese Definition lässt sich auch mathematisch beschreiben. Grundstein hierfür ist das „Gesetz der
Großen Zahlen34“.

Tipp
Der Erwartungswert einer Zufallsvariablen 𝑋 wird oft mit griechischen Buchstaben 𝜇 (Mü)
angegeben.
Es gilt: 𝐸[𝑋] = 𝜇𝑋 .

Wenn wir nur eine Zufallsvariable betrachten, wird das kleine 𝑥 auch oft weggelassen.

Herleitung über das Gesetz der großen Zahlen


Wir werfen eine zweiseitige Münze. Modelliert wird dies mit einer Zufallsvariablen 𝑋:
1, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓
𝑋(𝜔) = {
0, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙
Dieses Experiment wiederholen wir nun 100 mal.
Folgendes Histogramm hält unsere Ergebnisse fest:

33Die Beschreibung gilt für diskrete, kontinuierliche sowie auch gemischte Zufallsvariablen.
34Auch andere Sätze der Stochastik bauen auf dieses Gesetz auf (z.B. zentraler Grenzwertsatz), weshalb es
wichtig ist, das „Gesetz der großen Zahlen“ zu verstehen. Dies vereinfacht spätere Kapitel massiv.
Münzwurf Ergebnisse
1
Wurfergebnis

0
1 50 99
Anzahl der Münzwürfe (n)

Da unsere Münze nicht gezinkt ist, sprich keine Münzenseite wird bevorzugt, sieht die
Häufigkeitsverteilung recht uniform aus.

Nun bilden wir den Durchschnitt (Stichprobenmittel) unserer Messung. Dabei berechnen wir
diesen progessiv: Anstatt gleich das arithmetische Mittel aller 100 Würfe zu bilden, tun wir dies
nach jedem einzelnen Wurf. Somit haben wir 100 arithmetische Mittel. Das Stichprobenmittel nach
dem n-ten Schritt wird durch die rote Linie repräsentiert.

1
Wurfergebnis

0
1 50 99
Anzahl der Münzwürfe (n)

Während unser Durchschnitt (rote Linie) zu Beginn noch starke Ausschwankungen zeigt,
1
konvergiert er im Verlauf der Würfe gegen 2. Dies ist für dieses Experiment auch der
Erwartungswert 𝜇. Ein Fortführen der Münzwürfe lässt die Ausschwankungen nur kleiner werden.

Bestätigt wird dies durch das Gesetz der großen Zahlen:


Definition 3.13
Sei 𝑋𝑖 eine Folge von unabhängigen, identisch verteilten Zufallsvariablen.

Deren Stichprobenmittel sei definiert als


1
𝑋̅𝑛 = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ).
𝑛

Wenn 𝑋̅𝑛 einen Erwartungswert besitzt, so besagt das Gesetz der großen Zahlen, dass

lim 𝑋̅𝑛 = 𝜇.
𝑛→+∞

Somit ist 𝜇 = 𝐸[𝑋𝑖 ] auch der Erwartungswert eines Folgenglieds. Da alle Folgenglieder
identisch verteilt und unabhängig sind, haben alle den gleichen Erwartungswert, also 𝐸[𝑋𝑖 ] =
𝐸[𝑋𝑗 ].

Tipp
Intuitiv besagt das „Gesetz der großen Zahlen“, dass je öfter ich ein unabhängiges
Zufallsexperiment wiederhole, desto eher konvergiert der Durchschnitt dieser
Wiederholungen zum Erwartungswert 𝜇.

Dies wird in einer schwachen und starken Variante des Gesetzes ausgedrückt. Diese beiden
Versionen beschäftigen sich aber lediglich mit der Art der Konvergenz von 𝑋̅𝑛 .
Dennoch interessieren uns beide Varianten, da uns stochastische Konvergenz noch begegnen wird.

Definition 3.14
Das schwache Gesetz der großen Zahlen besagt

lim P(|𝑋̅𝑛 − 𝜇| > ϵ) = 0 , 𝑚𝑖𝑡 𝜖 → 0 ∧ 𝜖 > 0 (Stochastische Konvergenz).


𝑛→+∞

Tipp
Dies lässt sich lesen als:

„Die Wahrscheinlichkeit, dass die absolute Differenz zwischen dem Erwartungswert eines
Einzelexperiments 𝐸[𝑋] = 𝜇 und dem Durchschnitt vieler Wiederholungen positiv ist läuft
gegen null.“
Tipp
Das schwache Gesetz konvergiert stochastisch.
Was stochastische Konvergenz genau ist siehe Konvergenz in Wahrscheinlichkeit.

Definition 3.15
Das starke Gesetz der großen Zahlen besagt

𝑃 ( lim 𝑋̅𝑛 = 𝜇) = 1.
𝑛→+∞

Tipp
Dies lässt sich lesen als:

„Die Wahrscheinlichkeit, dass der Erwartungswert eines Einzelexperiments 𝐸[𝑋] = 𝜇 gleich


dem Durchschnitt vieler Wiederholungen ist beträgt eins.“

Tipp
Salopp gesprochen besagt das schwache Gesetz, dass bei ausreichend großem 𝑛 unser 𝑋̅𝑛
dem Erwartungswert 𝜇 unendlich ähnlich wird.

Das starke Gesetz hingegen verlautbart, dass Ereignisse der Form 𝑃 ( lim 𝑋̅𝑛 ≠ 𝜇) als
𝑛→+∞
unmöglich kategorisiert werden können.35

Tipp
Für Beweise des starken sowie schwachen Gesetzes siehe hier.

Im Endeffekt besagt uns das Gesetz der großen Zahlen, dass Repetitionen uns einen
Informationszuwachs liefern. Je öfter wir ein unabhängiges Experiment wiederholen, desto mehr
wissen wir über die Form der Verteilung.

Foglich ist es unverwunderlich, dass unser Monte-Carlo Experiment aus Kapitel 1 darauf basiert.
Dort haben wir den Schätzer als
1
𝑀𝑛 ≔ (𝑍1 + ⋯ + 𝑍𝑛 ), 𝑚𝑖𝑡 𝑍𝑖 𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝐼𝑛𝑑𝑖𝑘𝑎𝑡𝑜𝑟𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒
𝑛
definiert.

35https://www.quora.com/What-is-the-difference-between-weak-law-and-strong-law-of-large-number-in-
probability-theory
̅𝑛 . Da die 𝑍𝑖 ’s Indikatorvariablen sind, die ein Ereignis
Wenn wir genau hinschauen, gilt 𝑀𝑛 = 𝑋
𝐴 ∈ Σ indizieren, gilt

𝑃(𝐴) = 𝑃 ( lim 𝑀 ) = 𝐸[𝑍𝑖 ].36


⏟ 𝑛→+∞ 𝑛
𝐺𝑒𝑠𝑒𝑡𝑧 𝑑𝑒𝑟 𝑔𝑟𝑜ß𝑒𝑛 𝑍𝑎ℎ𝑙𝑒𝑛

Somit liefert das Gesetz der großen Zahlen eine Begründung, warum eine Erhöhung der
Stichprobengröße zu einem repräsentativeren Ergebnis führt.
Eine genaue Größe, also ein spezifisches 𝑛, wird hingegen nicht angegeben-es bleibt bei „großen
Zahlen“.

Tipp
Wir werden noch verschiedene Methoden kennenlernen, abzuschätzen, ob eine
Stichprobengröße geeignet ist.

36Für eine Wiederholung, warum der Erwartungswert einer Indikatorvariablen die Wahrscheinlichkeit des
der durch die Variable indizierten Ereignisses liefert, siehe Kapitel 1: Zufallsvariablen.
Eigenschaften des Erwartungswertes

Hat man den Graph einer Gewichtsfunktion (diskrete Zufallsvariablen) oder Dichtefunktion
(kontinuierliche Zufallsvariable) vor sich, so lässt sich der Erwartungswert leicht approximieren37.
Eine physikalische Analogie des Erwartungswerts ist nämlich der Massenmittelpunkt38.
Nehmen wir an, vor uns befindet sich die Gewichts- oder Dichtefunktion einer beliebigen
Verteilung.
Wir versuchen nun den Graph auf unserem Zeigefinger zu balancieren. Der Punkt, an dem sich der
Graph balancieren lässt ohne runterzufallen ist der Erwartungswert. Dies setzt natürlich voraus,
dass die Verteilung einen Erwartungswert besitzt.

Der Erwartungswert 𝜇 ist an der Stelle, wo man die Verteilung mit dem Finger balancieren könnte.
Da der Graph assymetrisch ist, ist 𝜇 nicht am Hochpunkt.

Somit lassen sich einige Regeln schnell ableiten:

Definition 3.16
1
Bei symmetrischen Verteilungen, wie der Normal-, der Binomial- (mit 𝑝 = ) oder der
2
uniformen Verteilung ist der Erwartungswert immer in der Mitte. Achtung: Gilt nicht für die
Cauchy Verteilung, die keinen Erwartungswert besitzt.

37 Zeigt der Graph eine Verteilungsfunktion ist es nicht so leicht zu erkennen.


38 MIT Professor in einem der Wahrscheinlichkeitsvideos
Die Normalverteilung ist eine symmetrische Verteilung. Die uniforme Verteilung hat 𝜇immer in der Mitte.
Der Erwartungswert 𝜇 ist ein location parameter, der den
Standort der Verteilung angibt.

Dies macht auch Sinn, weil sonst würde uns der Erwartungswert ja „vom Finger fallen“.

Haben wir folglich 𝜇 bei einer symmetrischen Verteilung, wissen wir wie sich der Verteilungsgraph
verschoben hat. Folgende Regel bietet sich deshalb an:

Definition 3.17
Der Erwartungswert ist oft ein location parameter39 einer symmetrischen Verteilung..

Auch bei manchen nichtsymmetrischen Verteilungen dient 𝜇 als location parameter.


Achtung: Punktsymmetrie ist auch eine Symmetrie!

Der Graph ist punktsymmetrisch und hat 𝜇 somit in der Mitte.

39 https://en.wikipedia.org/wiki/Location_parameter
Aus unserer Balanceregel können wir auch intuitive Regeln für nichtsymmetrische Verteilungen
bilden:

Definition 3.18
1
Bei nichtsymmetrischen Verteilungen, wie der Exponential-, der Binomial- (mit 𝑝 ≠ ) oder
2
der Poissonverteilung ist der Erwartungswert nie das globale Maximum der Verteilung, aber
eventuell in der Nähe.

Diese Verteilung ist nicht symmetrisch und nicht uniform. Folglich


ist 𝜇 auch nicht beim globalen Maximum,, da uns sonst der Graph
runterfallen würde (Gewicht auf der rechten Seite höher als auf der linken).

Eine der wichtigsten Eigenschaften des Erwartungswert ist die Linearität. Nicht nur erlaubt diese
es uns Konstanten aus der Erwartungswertberechnung zu trennen, sondern auch Summen von
Zufallsvariablen zu vereinfachen.

Definition 3.19
Seien 𝑋, 𝑌 beliebige40 Zufallsvariablen.

I. 𝐸[𝑋 + 𝑐] = 𝐸[𝑋] + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ

II. 𝐸[𝑐𝑋] = 𝑐𝐸[𝑋], 𝑚𝑖𝑡 𝑐 ∈ ℝ

III. 𝐸[𝑋 + 𝑌] = 𝐸[𝑋] + 𝐸[𝑌]

Dies gilt auch, wenn 𝑋 und 𝑌 nicht unabhängig voneinander sind.

Beweise der ersten beiden Kriterien werden im Verlaufe des Kapitels für den diskreten Fall gezeigt.
Zur Übung dieser drei fundamentalen Gesetze gibt es einige Beispiele.

Beispiel 3.4

Die Geschwindigkeitsmessung eines Marsrovers wird als Zufallsvariable 𝑋 repräsentiert.


Die erwartete Geschwindkeit beträgt 6 𝑚𝑖𝑙𝑒𝑠/ℎ𝑜𝑢𝑟.

40 Egal, ob diskret, kontinuierlich, gemischt. Eigenschaften auch egal (abhängig, unabhängig).


Die Europäische Weltraumorganisation (ESA) empfängt die Geschwindigkeitsdaten auch.
Da die ESA aber in metrischen Einheiten rechnet, wird die Marsrovergeschwindigkeit
konvertiert. Was ist die erwartete Geschwindkeit in 𝑘𝑚/ℎ?

Wir transformieren die Zufallsvariable 𝑋 in eine neue Zufallsvariable 𝑌, mit

𝑌 = 1,60934 ∙ 𝑋

Dabei sind die 1,60934 der Konvertierungsfaktor für die Umrechnung der Einheiten.

Laut der Aufgabenstellung gilt: 𝐸[𝑋] = 6 𝑚𝑖𝑙𝑒𝑠/ℎ𝑜𝑢𝑟.

Durch die Linerität des Erwartungswerts (Gesetz II) ergibt sich:

𝐸[𝑌] = 𝐸[1,60934 ∙ 𝑋] = 1,60934 ∙ 𝐸[𝑋] = 1,60934 ∙ 6 𝑘𝑚/ℎ

Beispiel 3.5

Sei
𝑅2 = {𝑓(𝑥) = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐}, 𝑚𝑖𝑡 𝑎, 𝑏, 𝑐 ∈ ℝ
der Raum aller Polynomfunktionen zweiten Grades.

Wir entnehmen diesem Raum Funktionen gemäß einer Wahrscheinlichkeitsverteilung. Es


repräsentiere 𝑋 den 𝑦-Wert des Ordinatenabschnitts einer gewählten Funktion.
Der erwartete Ordinatenabschnitt beträgt
𝜋
𝐸[𝑋] = .
6

Wenn die Wahrscheinlichkeitsverteilung bestehen bleibt, was ist der erwartete


Ordinatenabschnitt aller um 4 verschobenen Funktionen,
𝑌 = 𝑋 + 4?

Erinnerung: Ordinate ist Synonym für die Achse des Bildbereichs einer Funktion.
Ordinatenabschnitt ist gleichbedeutend der Nullstelle der Bildbereichsachse, also der Wert
𝑓(0) ist der Ordinatenabschnitt.

Da die Funktionen gemäß Wahrscheinlichkeitsverteilung von 𝑋 verschoben werden, nutzen


wir die Linearität des Erwartungswerts aus.

𝜋
𝐸[𝑌] = 𝐸[𝑋 + 4] = + 4.
6
Beispiel 3.6

Gegeben ist eine Folge von unabhängigen Zufallsvariablen


X1 , X2 , … , Xn .

Diese repräsentieren eine Wiederholung des gleichen Zufallsexperiments und haben alle
jeweils den Erwartungswert 𝜇.

Was ist der Erwartungswert E[X1 + X2 + ⋯ + Xn ]?

Alle 𝑋𝑖 ’s haben den gleichen Erwartungswert. Laut der Linearität des Erwartungswerts gilt:

𝐸[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = 𝐸[𝑋1 ] + 𝐸[𝑋2 ] + ⋯ + 𝐸[𝑋𝑛 ] = 𝑛𝐸[𝑋1 ]

Beispiel 3.7

Gegeben ist eine Folge von abhängigen Zufallsvariablen


𝑋1 , 𝑋2 , … , 𝑋𝑛
mit den jeweiligen Erwartungswerten
𝜇𝑋1 , 𝜇𝑋 2 , … , 𝜇𝑋 𝑛 .

Was ist der Erwartungswert 𝐸[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ]?

Da die Linearität des Erwartungswerts nicht von der Abhängigkeit der Zufallsvariablen
beeinflusst wird, gilt:
𝑛

𝐸[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = 𝐸[𝑋1 ] + 𝐸[𝑋2 ] + ⋯ + 𝐸[𝑋𝑛 ] = ∑ 𝜇𝑖


𝑖=1

Stochastik für Informatiker Aufgabe 10, WS15/16

Es sei 𝑋1 , … , 𝑋10 eine rein zufällige Permutation von 1, … ,10. Berechnen Sie die
Wahrscheinlichkeit, dass die Zufallsvariable 𝑌 ≔ 𝑋1 + 𝑋2 + 𝑋3 mindestens |7 − 𝜇| von
ihrem Erwartungswert 𝜇 entfernt ausfällt, also die Wahrscheinlichkeit des Ereignisses
{|𝑌 − 𝜇| ≥ |7 − 𝜇|}.
Zuerst müssen wir wissen, welchen Wert 𝜇 = 𝐸[𝑌] überhaupt hat.

Wir wissen, die Zufallsvariablen 𝑋1 + 𝑋2 + 𝑋3 sind abhängig, weil sie Teil einer Permutation
𝑋1 , … , 𝑋10 sind41.

Dazu nutzen wir aus, dass die Linerität des Erwartungswerts auch für abhängige
Zufallsvariablen gilt:

𝐸[𝑌] = 𝐸[𝑋1 + 𝑋2 + 𝑋3 ] = 𝐸[𝑋1 ] + 𝐸[𝑋2 ] + 𝐸[𝑋3 ]

Jedes 𝑋𝑖 ist für sich genommen identisch verteilt. Durch die Linearitätsregel verschwindet die
Abhängigkeit von 𝑋2 zu 𝑋1 bei der Berechnung des Erwartungswerts.

Folglich haben alle 𝑋1 , 𝑋2 sowie 𝑋3 den gleichen Erwartungswert.

Wir wissen, dass die Permutation rein zufällig geschieht. Somit ist die Wahrscheinlichkeit,
dass eine Zahl 𝑎 auf Position 𝑖 kommt 1/10.

Wir berechnen somit:

1 1 1
𝐸[𝑋𝑖 ] = 1 ∙ +2∙ + ⋯ + 10 ∙ = 5,5
10 10 10

Daraus folgt:
𝐸[𝑋1 ] + 𝐸[𝑋2 ] + 𝐸[𝑋3 ] = 3 ∙ 5,5 = 16,5 = 𝐸[𝑌]

Wir setzen ein:

𝑃{|𝑌 − 𝜇| ≥ |7 − 𝜇|} = 𝑃{|𝑌 − 16,5| ≥ |7 − 16,5|}.

Wir versuchen nun die Betragsklammern zu eliminieren. Dies geht durch


simples ausrechnen:

|7 − 16,5| = 9,5

Die Betragsklammern bei |𝑌 − 16,5| lassen sich nicht so leicht entfernen,


da hier der Betrag von 𝑌 abhängt. Das heißt, 𝑌 kann entweder sehr klein sein oder sehr groß
und die Gleichung ist immernoch erfüllt.
Die Klammer lässt sich somit durch eine Fallunterscheidung auflösen:

|𝑌 − 16,5| ⟺ (𝑌 − 16,5) ∨ (−𝑌 + 17,5)

Durch die aufgelöste Klammer lassen sich nun die Ungleichungen des gesuchten Ereignisses
rekonstruieren:

41Wir wissen aus Kapitel 1: Permutationen als das Legosteinmodell, dass eine Permutation eine bijektive
Funktion ist. Somit haben keine zwei 𝑋𝑖 den gleichen Wert. Kennen wir also 𝑋1 haben wir Informationen über
den Ausgang der anderen Zufallsvariablen (ziehen ohne zurücklegen), weil diese nicht mehr den Wert von 𝑋1
annehmen können.
I. 𝑌 − 16,5 ≥ 9,5
II. −𝑌 + 16,5 ≥ 9,5

Wir lösen beide nach 𝑌 auf:

I. 𝑌 ≥ 26
II. 𝑌≤7

Jeder Wert von 𝑌 der eine der beiden Ungleichungen erfüllt ist Teil unser Ereignismenge.
Wer zählen diese Werte nun zusammen. Um das Zählen zu vereinfachen, tragen wir erstmal
nur die Permutationen von 𝑋1 , 𝑋2 , 𝑋3 in die Tabelle an, die sich in den Elementen
unterscheiden.
Das bedeutet keine Zeile darf die gleichen Elemente haben.

Wir tun dies, um weniger Elemente Zählen zu müssen, da wir diese später über unsere
Permutationsregeln nachtragen können.

𝑋1 𝑋2 𝑋3 𝑋1 + 𝑋2 + 𝑋3
10 9 8 27
10 9 7 26
1 2 3 6
1 2 4 7

Wir haben jetzt 4 Elemente die mindestens eine der Ungleichungen erfüllen.
Aus Kapitel 1: Permutationen wissen wir, dass die Anzahl der Permutationen jeder
dreielementigen Kombination 3! = 6 beträgt (siehe Kapitel 2: Permutationen als das
Legosteinmodell).

Somit hat unsere Menge


|{|𝑌 − 16,5| ≥ 9,5}| = 4 ∙ 3! = 24
Elemente.

Insgesamt gibt es
10!
𝑛 𝑐𝑟 = 10 𝑐3 = = 720
7!
Belegungen von 𝑋1 , 𝑋2 , 𝑋3 insgesamt(siehe Kapitel 2: Permutationen als das Legosteinmodell).

Die Wahrscheinlichkeit des gesuchten Ereignisses beträgt somit


24 1
𝑃{|𝑌 − 16,5| ≥ 9,5} = = .
720 30

Alternativ kann man auch sagen es gibt 10! Permutationen insgesamt, wovon 24 ∙ 7! Den
gewünschten Anforderung erfüllen.
Die 7! Entsteht aus der Tatsache, dass sobald die ersten drei Belegungen unsere Ungleichung
erfüllen, die restlichen 7 egal sind (und diese können auf 7! Arten angeordnet werden).

Dabei kommt man auf das selbe Ergebnis, denn


24 ∙ 7! 1
𝑃({|𝑌 − 16,5| ≥ 9,5}) = =
10! 30

Es ist auch möglich unsere Relation umzudrehen (siehe Kapitel 3: Verteilungsfunktionen


diskreter Zufallsvariablen):

𝑃({|𝑌 − 16,5| ≥ 9,5}) = 1 − 𝑃({|𝑌 − 16,5| ≤ 9,5}).

Dies macht hier aber weniger Sinn, weil wir dann mehr Elemente zu zählen haben.

Der Erwartungswert einer Konstanten ergibt wieder die Konstante. Ist auch wenig verwunderlich,
weil eine Konstante nur einen Wert annehmen kann.

Definition 3.20
𝐸[𝑐] = 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ

Beispiel 3.8

Gegeben ist die Funktion

𝑓(𝑥) = sin(𝑥)2 + cos(𝑥)2 .

Was ist der erwartete Funktionswert 𝐸[𝑓(𝑥)]?

Da die Funktion immer konstant ist (sin(𝑥)2 + cos(𝑥)2 ist eine Identität), gilt

𝐸[𝑓(𝑥)] = 𝐸[1] = 1.

Manchmal haben wir es mit Produkten von Zufallsvariablen zu tun. Sind diese unabhängig (Siehe
Kapitel Unabhängigkeit / Abhängigkeit von Zufallsvariablen), so gilt auch hier die Linearität:

Definition 3.21
Seien 𝑋, 𝑌 beliebige unabhängige Zufallsvariablen.

I. 𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌]

Sind die Zufallsvariablen aber nicht unabhängig, so kommen Kovarianzen hinzu:


Definition 3.22
Seien 𝑋, 𝑌 beliebige Zufallsvariablen. Dabei dürfen sie auch abhängig sein.

II. 𝐸[𝑋𝑌] = 𝐶𝑜𝑣(𝑋, 𝑌) + 𝐸[𝑋]𝐸[𝑌]42

Beispiel 3.9

Gegeben seien zwei unabhängige Münzwürfe 𝑋, 𝑌.

Was ist 𝐸[𝑋𝑌]?

Beide Münzwürfe sind unabhängig, also gilt die Linearitätsregel.

1 1 1
𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌] = ∙ = .
2 2 4

Der Erwartungswert einer Funktion ist im allgemeinen nicht dasselbe, wie eine Funktion des
Erwartungswerts:

Definition 3.23
Seien 𝑋 und 𝑌 = 𝑔(𝑥) beliebige Zufallsvariablen.

Es gilt
𝐸[𝑔(𝑋)] ≠ 𝑔(𝐸[𝑋]), 𝑎𝑢ß𝑒𝑟 𝑔(𝑋)𝑖𝑠𝑡 𝑙𝑖𝑛𝑒𝑎𝑟.

FAQ: Wie ist 𝐄[𝐠(𝐗)] = 𝐠(𝐄[𝐗])wenn g(x) linear?


Frage: Wie ist 𝐸[𝑔(𝑋)] = 𝑔(𝐸[𝑋]) wenn 𝑔(𝑋) linear ist?

Antwort: Dies folgt aus den Lineritätsbedingungen des Erwartungswerts, weil


𝐸[𝑐𝑋 + 𝑑] = 𝑐[𝑋] + 𝑑, 𝑚𝑖𝑡 𝑐, 𝑑 ∈ ℝ

42 Zur Erklärung wie man Kovarianzen berechnet, siehe Kapitel 3: Die Kovarianz
Obwohl obiges intuitiv erscheint, ist dies ein häufiger Fehler, wie folgendes Beispiel zeigt:

Beispiel 3.10

Gegeben sei ein zweistufiges Experiment.

Im ersten Schritt würfle ich eine Zahl mit einem sechsseitigen Würfel. Die Augenzahl
werde durch die Zufallsvariable 𝑋 repräsentiert.
Der Erwartungswert von 𝑋 beträgt 𝐸[𝑋] = 3,5.

Im nächsten Schritt gewinne ich das Spiel, wenn meine Augenzahl größer als drei ist.
Sonst verliere ich.

Dies wird durch die Zufallsvariable


1, 𝑤𝑒𝑛𝑛 𝑋 ≤ 3
𝑌={
0, 𝑤𝑒𝑛𝑛 𝑋 ≥ 4
modelliert.

Was ist 𝐸[𝑌]?

Wir wissen, dass 𝑋 im langfristigen Mittel den Wert 3,5 annimmt. Somit könnte man leicht
denken, dass 𝐸[𝑌] = 0, weil 3,5>3.

Dies stimmt aber nicht. Berechnet man den Erwartungswert über die im nächsten Abschnitt
eingeführte diskrete Formel, erhält man 𝐸[𝑌] = 0,5.

Dies macht auch Sinn, da 𝑌 uniform verteilt ist.

Eine univariate reellwertige Verteilung gibt als Ergebnis immer einen einzelnen Zahlwert.
Zum Beispiel ist die Folge
𝑌=⏟
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 , 𝑚𝑖𝑡 𝑋𝑖 ∈ ℝ
𝑒𝑟𝑔𝑖𝑏𝑡 𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙

eine univariate reellwertige Verteilung, weil 𝑌 als Ergebnis immer eine einzelne Zahl ist.
Dagegen ist
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) , 𝑚𝑖𝑡 𝑋𝑖 ∈ ℝ
𝑌=⏟
𝑖𝑠𝑡 𝑒𝑖𝑛 𝑛−𝑇𝑢𝑝𝑒𝑙

eine multivariate Verteilung, weil 𝑌 ein Tupel ist.


Wenig erstaunlich sind dann folgende Regeln:
Definition 3.24
Der Erwartungswert 𝐸[𝑋] einer univariaten Verteilung ergibt immer eine Zahl.

Definition 3.25
Der Erwartungswert 𝐸[𝑌] eine 𝑛-variaten Verteilung ergibt ein 𝑛-Tupel. Commented [TS1]: Stimmt das?

Eine multivariate Verteilungen ist die Multinomialverteilung aus Kapitel Multinomialverteilung.


Für jede Art von Zufallsvariablen, diskret, kontinuierlich oder gemischt, berechnet sich der
Erwartungswert nach folgender Formel:

Definition 3.26
Sei 𝑋: Ω → 𝑆 eine beliebige Zufallsvariable definiert auf den einen Wahrscheinlichkeitsraum
(Ω, Σ, P)43.

Der Erwartungswert bildet sich dann aus dem Lebesgue-Integral

𝐸[𝑋] = ∫ 𝑋(𝜔) 𝑑𝑃(𝜔) , 𝑚𝑖𝑡 𝜔 ∈ Ω


Ω

Achtung
Die obere Definition verwendet das Lebesgue Integral. Dieses ist eine Verallgemeinerung des
Riemann Integrals aus der Schule.

In der „Stochastik für Informatiker“ Vorlesung wird dieses mit sehr hoher Wahrscheinlichkeit
nicht gebraucht.

Für die explizite Berechnung des Erwartungswerts mit den uns bekannten Integral- und
Summenbegriffen siehe die Unterpunkte „Der diskrete Erwartungswert“ und „Der
kontinuierliche Erwartungswert“.

Fortan werden wir das Lebesgue Integral in diesem Skript nicht mehr verwenden.

Nicht jede Wahrscheinlichkeitsverteilung besitzt einen Erwartungswert. Mit diesen Spezialfällen,


wie Cauchy Verteilungen, beschäftigen wir uns aber in unserem Nachfolgeskript Stochastik für
Informatiker 2-Algorithmen.

Tipp
Für ein Beispiel einer Verteilung ohne Erwartungswert siehe hier.

43 Definition eines Wahrscheinlichkeitsraums siehe Kapitel 1


Achtung
Weil nicht jede Verteilung einen Erwartungswert besitzt, ist der Durchschnitt einer sehr großen
Anzahl von Stichproben nicht immer ein Indikator für die Zukunft.

Somit lassen sich nicht immer Fehlerbeschränkungen oder obere Schranken der Form Markow-
Ungleichung angeben.

Der Erwartungswert aus diskreter Sicht


Aus Kapitel 1 wissen wir, dass eine diskrete Zufallsvariable einen abzählbaren Zielbereich hat.
Somit haben wir es bei der Berechnung des Erwartungswertes auch nur mit abzählbar vielen
Realisierungen zu tun. Dabei muss die Anzahl der diskreten Realisierungen nicht endlich sein. Dies
steht im Kontrast zu kontinuierlichen Zufallsvariablen, die überabzählbar viele Realisierungen
besitzen.
Im Abschnitt zuvor haben wir die Berechnung des Erwartungswertes über das
Lebesgue-Integral definiert. Dieses wird bei diskreten Werten zur Summe.
Somit gilt:

Definition 3.27
Sei 𝑋: Ω → 𝑆 eine diskrete Zufallsvariable.

𝐸[𝑋] = ∑ 𝑖 ∙ 𝑃(𝑋 = 𝑖) , 𝑚𝑖𝑡 𝑖 ∈ 𝑆


𝑖∈𝑆

Der Erwartungswert jeder diskreten Verteilung basiert auf der obigen Mittelwertberechnung. Oft
kann man diese Summe aber in handliche Formeln abkürzen, so dass sich die Berechnung
vereinfacht.

Zum Beispiel ist für eine X~𝐵𝑖𝑛(𝑛, 𝑝)44 verteilte Zufallsvariable 𝐸[𝑋] = 𝑛𝑝.
Oder für Y~𝐺𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ(𝑝) gilt
1
𝐸[𝑌] = .
𝑝
Diese Abkürzungen werden durch das Verwenden von Indikatorvariablen, geometrischen Reihen
und sonstigen Tricks erreicht.

44Falls wir vergessen haben, was X~𝐵𝑖𝑛(𝑛, 𝑝) bedeutet, der schaue Kapitel 2: diskrete Verteilungen und
Kapitel 4: Beispiele von diskreten Verteilungen
Somit sind diese Abkürzungen zwar sehr nützlich aber nicht immer notwendig, weil wir den
Erwartungswert auch durch Ausrechnen der obigen Summenformel bestimmen können.45
Schnell werden uns aber Zufallsvariablen mit sehr großen Zielbereichen begegnen. Deshalb lohnt es
sich sehr, bei einer Aufgabe immer zu schauen, ob man eine bekannte Verteilung vor sich hat.
Diese bekannte Verteilung hat dann nämlich vielleicht eine geschlossene Formel zur
Erwartungswertberechnung, was einem viel Zeit erspart.

Einige Grundbeweise von Erwartungswerten diskreter Zufallsvariablen sollten uns bewusst sein.
Die versprochenen Linearitätsbeweise gibt es deshalb hier in Form einer original Übungsaufgabe.

Effiziente Algorithmen Übung 2.2, SS16

Sei 𝑋 eine reellwertige Zufallsvariable über einen endlichen Ereignisraum und 𝑘 ∈ ℝ eine
Konstante. Zeige die folgenden Äquivalenzen:

a) 𝔼[𝑋 + 𝑘] = 𝑘 + 𝔼[𝑋]46

b) 𝔼[𝑘𝑋] = 𝑘𝔼[𝑋]

a) Wir setzen einfach die Definition ein und verwenden die üblichen Rechengesetze.

𝐸[𝑋 + 𝑘] = ∑((𝑖 + 𝑘) ∙ 𝑃(𝑋 = 𝑖)) = ∑ (𝑖 ∙ 𝑃(𝑋 = 𝑖) + (𝑘 ∙ 𝑃(𝑋 = 𝑖)))


𝑖∈𝑆 𝑖∈𝑆
= ∑(𝑖 ∙ 𝑃(𝑋 = 𝑖)) + ∑(𝑘 ∙ 𝑃(𝑋 = 𝑖))47
𝑖∈𝑆 ⏟
𝑖∈𝑆
=𝑘
= ∑(𝑖 ∙ 𝑃(𝑋 = 𝑖) +) + 𝑘 = 𝐸[𝑋] + 𝑘
𝑖∈𝑆

b) Analog zum Aufgabenteil zuvor.


𝐸[𝑘𝑋] = ∑(𝑐𝑖 ∙ 𝑃(𝑋 = 𝑖)) = 𝑐 ∑(𝑖 ∙ 𝑃(𝑋 = 𝑖)) = 𝑐𝐸[𝑋]
𝑖∈𝑆 𝑖∈𝑆

45 Bei einer abzählbar undendlichen Zielmenge (wie es bei der Geometrischen Verteilung der Fall ist)
kommen wir ohne Limesbetrachtung bei der manuellen Berechnung der Summe auf einen Nährwert.
46 Um möglichst dicht an der Originalaufgabenstellung zu bleiben, übernehmen wir auch die Typografie des

doppelten 𝔼 anstatt 𝐸 wie wir es im Rest des Skripts schreiben.


47 Weil die Summe aller Wahrscheinlichkeiten 𝑃(𝑋 = 𝑖) ergibt eins, somit steht dort 𝑘 ∙ 1 (siehe Kapitel 1 und

Kapitel 2).
Beispiel 3.11

Sei
𝑅 = {𝑓(𝑥) = 𝑏𝑠𝑖𝑛(𝑥)2 + 𝑏𝑐𝑜𝑠(𝑥)2 }, 𝑚𝑖𝑡 𝑏 ∈ ℕ ∧ 𝑏 ≤ 20.
der Raum aller Polynomfunktionen vierten Grades.

Wir entnehmen diesem Raum Funktionen gemäß einer uniformen


Wahrscheinlichkeitsverteilung. Es repräsentiere 𝑋 die Anzahl der Nullstellen 𝑝 ∈ ℝ ∧
𝑓(𝑝) = 0 im Intervall [0,3𝜋] der gezogenen Funktion.

f(x) = sin(𝑥)2 + cos(𝑥)2

Was ist 𝐸[𝑓(𝑥)]?

Da die Funktion immer konstant ist (sin(𝑥)2 + cos(𝑥)2 ist eine Identität), gilt

𝐸[𝑓(𝑥)] = 𝐸[1] = 1.
Schauen wir uns nochmal unsere Erwartungswertformel an.

𝐸[𝑋] = ∑ 𝑖 ∙ 𝑷(𝑿 = 𝒊) , 𝑚𝑖𝑡 𝑖 ∈ 𝑆


𝑖∈𝑆

Da 𝑋 diskret ist, wissen wir dass unser Maß 𝑃 die Gewichtsfunktion 𝑓𝑋 (𝑖) repräsentiert.

Somit gilt 𝑷(𝑿 = 𝒊) = 𝑓𝑋 (𝑖)48.


Bildet unsere Zufallsvariable auf eine Teilmenge von ℕ ab, so lässt sich der Erwartungswert auch
über die Verteilungsfunktion bestimmen.

Definition 3.28
Sei 𝑋: Ω → ℕ eine diskrete Zufallsvariable mit Werten aus {0,1,2,3, … }.
+∞

𝐸[𝑋] = ∑ 𝑃(𝑋 ≥ 𝑖)49


𝑖=1

48 Siehe Kapitel 2: Was ist eine Verteilung?


49 https://en.wikipedia.org/wiki/Expected_value#Formulas_for_special_cases
Tipp
Ist die Bildmenge der Zufallsvariablen endlich, so muss die Summe nicht bis zur
Unendlichkeit gerechnet werden.

Wir haben dann also

Sei 𝑋: Ω → 𝑆 mit 𝑆 ⊂ ℕ eine diskrete Zufallsvariable mit Werten aus {0,1,2,3, … , 𝑛}.
𝑛

𝐸[𝑋] = ∑ 𝑃(𝑋 ≥ 𝑖)
𝑖=1

Die theoretischen Konsequenzen dieser „Bauernregel“ werden im Kasten „Achtung“


behandelt.

Achtung
In der Praxis lässt sich der obige Tipp uneingeschränkt verwenden. In der Theorie entstehen
hingegen Probleme.
Damit die Berechnung von 𝐸[𝑋] über die Verteilungsfunktion immer funktioniert, müsste 𝑋
eigentlich immer in ganz ℕ abbilden und nicht potentiell in nur einer Teilmenge.
Also 𝑋: Ω → ℕ.

Dazu genügt ein kleines Beispiel:

Wir haben eine Zufallsvariable 𝑋: Ω → {0,1,4}.

Bei der Erwartungswertswertberechnung über die Verteilungsfunktion kriegen wir nun


Probleme, weil
4

𝐸[𝑋] = ∑ 𝑃(𝑋 ≥ 𝑖) = 𝑃(𝑋 = 1) + 2 ∙ 𝑃(𝑋 = 2) + 3 ∙ 𝑷(𝑿


⏟ = 𝟑) + 4 ∙ 𝑃(𝑋 = 4).
𝑖=1 𝑢𝑛𝑑𝑒𝑓𝑖𝑛𝑖𝑒𝑟𝑡

Die Zahl Drei gehört nicht zur Bildmenge von 𝑋. Ergo ist der Funktionswert 𝑷(𝑿 = 𝟑) nicht
definiert50.

Die obere Summation geht nur auf, wenn wir alle Werte, die nicht zur ursprünglichen Bildmenge
von 𝑋 gehören, in unsere Bildmenge aufnehmen und mit Wahrscheinlichkeit null versehen.

Den Beweis gibt es in Form einer ehemaligen Übungsaufgabe.

50Wir haben im Kapitel 1 gelernt, dass die Wahrscheinlichkeit eines Ereignisses, welches sich nicht auf die
Grundmenge Ω rückführen lässt undefiniert ist (und nicht null).
Effiziente Algorithmen Übung 2.2, SS16

Sei 𝑋 eine ganzzahlige Zufallsvariable, die nur positive Werte annimmt.

a) Beweise, dass
∞ ∞ ∞ 𝑖

∑ ∑ 𝑃(𝑋 = 𝑖) = ∑ ∑ 𝑃(𝑋 = 𝑖).


𝑘=1 𝑖=𝑘 𝑖=1 𝑘=1

b) Formuliere die linke Seite als eine einfache (statt zweifache) Summe von
Wahrscheinlichkeiten.

c) Was steht auf der rechten Seite?

a) Unsere erste Bemerkung: Die Veranstaltung „Effiziente Algorithmen“ setzt auf


weniger Formalitäten als die „Stochastik für Informatiker“ Vorlesung.

Die ganzzahlige Zufallsvariable hat die Form 𝑋: Ω → ℕ und der Index 𝑖 ∈ ℕ ist
zusätzlich ein Element des Bildbereichs von 𝑋. Der Index 𝑘 hingegen ist lediglich ein
Summationsindex und gehört nicht zum Zielbereich von 𝑋.

Dies ist aber nicht weiter schlimm.

Schauen wir uns die linke Summe


∞ ∞

∑ ∑ 𝑃(𝑋 = 𝑖)
𝑘=1 𝑖=𝑘
an.

Die Summation können wir als Array repräsentieren

𝑖=1 𝑖=2 𝑖=3 𝑖 = 𝑖−1 +1


𝑘=1 𝑃(𝑋 = 1) 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=2 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=3 𝑃(𝑋 = 3) …
𝑘 = 𝑘−1 + 1 …

Jede Iteration der äußersten Summe mit Index 𝑘 repräsentiert eine Zeile.

Bei unserer rechten Summe


∞ 𝑖

∑ ∑ 𝑃(𝑋 = 𝑖)
𝑖=1 𝑘=1
ensteht dieselbe Tabelle.

Diesmal hat die äußerste Summe den Index 𝑖. Anstatt eine Zeile repräsentiert die
äußerste Summation nun eine Spalte.
𝑖=1 𝑖=2 𝑖=3 𝑖 = 𝑖−1 +1
𝑘=1 𝑃(𝑋 = 1) 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=2 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=3 𝑃(𝑋 = 3) …
𝑘 = 𝑘−1 + 1 …

Somit findet lediglich ein Zeilen/Spaltentausch statt und die linke sowie rechte
Summe müssen äquivalent sein.

b) Unsere Formel für den Erwartungswert berechnet die linke Summe in genau
derselben Reihenfolge.
∞ ∞ ∞ ∞

∑ ∑ 𝑃(𝑋 = 𝑖) = ∑ 1 − 𝑃(𝑋 ≤ (𝑖 − 1)) = ∑ 𝑃(𝑋 ≥ 𝑖)


𝑘=1 𝑖=𝑘 𝑖=1 𝑖=1

c) Berechnet wird der Erwartungswert einer ganzzahligen positiven Zufallsvariable.

Betrachten wir die Formel (oder das obige Array), fällt auf, dass
∞ ∞

∑ ∑ 𝑃(𝑋 = 𝑖) = 0 ∙ 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 2 ∙ 𝑃(𝑋 = 2) + ⋯ = 𝐸[𝑋]


⏟.
𝑘=1 𝑖=𝑘 𝑤𝑒𝑛𝑛 𝑋:Ω→ℕ

Die Formel hilft sehr, wenn wir nur die Verteilungsfunktion aber keine Gewichtsfunktion zur
Verfügung haben.
Dies kann potentiell sehr hilfreich bei kontinuierlichen Zufallsvariablen werden, da dort eine
analoge Äquivalenz gilt.

Das Wunder der Indikatorvariablen


Indikatorvariablen (auch Bernoulli Variaben, siehe Bernoulli Verteilung) sind nicht nur praktisch,
um Ereignisse aus der Grundmenge simulieren.
Auch die Erwartungswertberechnung ist extrem einfach, weil es geschieht ein kleiner Wunder:

Definition 3.29
Sei 𝐴 ⊆ Ω ein Ereignis und
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡
eine Indikatorvariable, die ein Ereignis A indiziert.

Es gilt:

𝐸[𝐼𝐴 ] = 𝑃(𝐴)
FAQ: Beweise mir das.
Frage: Beweise mir die obige Definition.

Antwort:
Sei 𝐴 ⊆ Ω ein Ereignis und

1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡
eine Indikatorvariable, die ein Ereignis A indiziert.

Da die von uns verwendeten Indikatorvariablen immer diskret sind51, gilt für den
Erwartungswert:

𝐸[𝐼𝐴 ] = ∑ 𝑖 ∙ 𝑃(𝑋 = 𝑖) = 1 ∙ 𝑃(𝑋 = 𝐴) + 0 ∙ 𝑃(𝑋 ≠ 𝐴) = 𝑃(𝑋 = 𝐴)


𝑖∈𝑆

Der Erwartungswert einer Indikatorvariablen gibt somit die Wahrscheinlichkeit des indizierten
Ereignisses an. Warum dies wichtig ist? Weil wir nun Fragen, wie „Wie oft können wir Ereignis 𝐴
erwarten?“ beantworten können.
Bestätigt wird die Wichtigkeit dieser Eigenschaft dadurch, dass sie auch immer wieder vorkommt.

Effiziente Algorithmen Übung 3.4, SS16

50 Freunde fahren gemeinsam auf ein Festival, wobei jeder sein eigenes Zelt mitbringt,
und besuchen dort ein Konzert. Als sie spät in der Nacht zurückkehren, sind sie nicht
mehr im Stande ihr eigenes Zelt zu finden (sie werden später behaupten, dass es zu
dunkel gewesen sei). Sie beschließen also, dass sich jeder zufällig vor ein noch leeres Zelt
stellt und dann in diesem schläft. Aufgrund der Umstände kann angenommen werden,
dass diese Wahl komplett zufällig geschieht und jede Aufteilungen gleich wahrscheinlich
ist.

Berechne mit Hilfe von Indikator-Variablen die erwartete Anzahl an Campern, die in
ihrem eigenen Zelt nächtigen.

Wir bilden das Elementarereignis


𝐴 = {𝑍𝑒𝑙𝑡 𝑤𝑢𝑟𝑑𝑒 𝑔𝑒𝑓𝑢𝑛𝑑𝑒𝑛}.

Jeder sucht sein Zelt zufällig. Dabei können auch mehrere Personen beim gleichen Zelt
landen. Dies ist wichtig, weil es das Zufallsexperiment unabhängig macht. Die
Wahrscheinlichkeit, dass eine einzelne Person sein Zelt findet beträgt somit
1
𝑃(𝐴) = .
50
51Der Begriff „Indikatorvariable“ lässt viele Freiheiten zu. Die in diesem Buch (sowie Vorlesung) behandelten
sind immer diskret.
Wir indizieren 𝐴 mit
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡

Wir bilden die Zufallsvariable 𝐼50 , 𝑚𝑖𝑡

𝐼50 = 𝐼𝐴1 + 𝐼𝐴2 + ⋯ + 𝐼𝐴50.

Dabei ist 𝐼50 keine Indikatorvariable, da es Werte zwischen 0 und 50 annehmen kann (und
nicht nur 0 und 1).
Daraus folgt:

50 50
1
𝐸[𝐼50 ] = ∑ 𝐼𝐴𝑖 = ∑ 𝐸[𝐼𝐴𝑖 ] = 50 ∙ =1
⏟ 50
𝑖=1 ⏟
𝑖=1 𝐸[𝐼𝐴𝑖]=𝑃(𝐴)
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑑𝑒𝑠 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡𝑠

Auch wenn es traurig klingt, in Erwartung findet nur eine Person sein eigenes Zelt wieder.

Effiziente Algorithmen Übung 3.3, SS16

a) Sei 𝑌 eine Bernoulli-Variable mit Parameter 𝑝, d.h. 𝑌 ist eine Indikator-


Variable mit 𝑃(𝑌 = 1) = 𝑝.
Dann ist 𝑋 = (1 + 𝛽)𝑌 für beliebiges fixiertes 𝛽 auch eine Zufallsvariable.
Berechne den Erwartungswert 𝔼[𝑋] in Abhängigkeit von 𝛽 und 𝑝.

a) Wir haben ein zweistufiges Experiment. Außerdem gilt 𝑋 = 𝑔(𝑌). Somit greift das
„law of the unconscious statistician“ und wir können 𝐸[𝑋] mit der Verteilung von 𝑌
berechnen.
𝐸[𝑋] = 𝐸[(1 + 𝛽)𝑌 ] = 𝑔(1) ∙ 𝑝 + 𝑔(0) ∙ (1 − 𝑝) = (1 + 𝛽)1 ∙ 𝑝 + (1 + 𝛽)0 ∙ (1 − 𝑝)
= 1 + 𝑝𝛽

Stochastik für Informatiker Aufgabe 11, WS15/16

Wir betrachten ein zufälliges „Würfeln“ und 𝑟 = 3. Die Ausgänge 1,2,3 haben dabei die
Wahrscheinlichkeiten 𝑝1 = 1⁄6 , 𝑝2 = 1⁄3 und 𝑝3 = 1⁄2. Die Anzahl der Würfe sei 𝑛 = 10.

a) Was ist der Erwartungswert der Anzahl der Würfe, für die der jeweils nächste
Wurf eine höhere Augenzahl hat?
b) Was ist die erwartete Anzahl der Runs? (Beispiel: Die Folge (2,3,3,1,1,2,3,1,1,1,) hat
6 Runs.)
Repräsentiere 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋10 ) die Würfelfolge.

a) Wenn ein Wurf größer ist als der vorherige, dann ist dies ein Ereignis.

𝐴: = {𝑉𝑜𝑟𝑔ä𝑛𝑔𝑒𝑟𝑤𝑢𝑟𝑓 𝑖𝑠𝑡 𝑘𝑙𝑒𝑖𝑛𝑒𝑟 𝑎𝑙𝑠 𝑁𝑎𝑐ℎ𝑓𝑜𝑙𝑔𝑒𝑤𝑢𝑟𝑓}


⟺ {𝑋𝑖 < 𝑋𝑖+1 }.

Da wir wissen möchten, wie oft 𝐴 auftritt, nehmen wir Indikatorvariablen zur Hand.

Wir indizieren 𝐴 mit

1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡

Jetzt bestimmen wir noch die Auftrittswahrscheinlichkeit von 𝐴. Dies ist lediglich die
Summe der Wahrscheinlichkeiten, die 𝐼𝐴 wahr werden lassen.

𝑃(𝐼𝐴 = 1) = 𝑃({𝑋𝑖 < 𝑋𝑖+1 }) = 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 2}) + 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 3})
+𝑃({𝑋𝑖 = 2, 𝑋𝑖+1 = 3})
1 1 1 1 1 1 11
= ∙ + ∙ + ∙ = .
6 3 6 2 3 2 36

Da eine Indikatorvariable immer zwei Zufallsvariablen betrachtet, müssen wir beim Erwartungswert bis 9 summieren und nicht bis 10.
52

11 11
𝐸[𝐼𝐴 1 + 𝐼𝐴 2 + ⋯ + 𝐼𝐴 9 ] = 9 ∙ = .
36 4

Wir können bei zehn Würfen also 11


/4 Paare erwarten, wo der Vorgänger einen kleineren Wert hat als der Nachfolger.

b) Wir zählen Runs. Dabei inkrementieren wir diesen Zähler, sobald die Nachfolgezahl
einen anderen Wert hat als die Vorgängerzahl (weil sonst endet der Run ja nicht).

Dieses Ereignis widerspiegelt

𝐴: = {𝑉𝑜𝑟𝑔ä𝑛𝑔𝑒𝑟𝑤𝑢𝑟𝑓 ℎ𝑎𝑡 𝑎𝑛𝑑𝑒𝑟𝑒𝑛 𝑊𝑒𝑟𝑡 𝑎𝑙𝑠 𝑁𝑎𝑐ℎ𝑓𝑜𝑙𝑔𝑒𝑟𝑤𝑢𝑟𝑓 }


⟺ {𝑋𝑖 ≠ 𝑋𝑖+1 }.

Wir indizieren 𝐴 mit

52Dies kann man sich gedanklich klar machen, wenn man nur 𝑛 = 2mal würfelt. Die erste Indikatorvariable
𝐼𝐴1 braucht genau zwei Würfe, die folgende 𝐼𝐴 2 braucht nur einen mehr. Wenn man das für 𝑛 = 10 Würfe
duchgeht, dann hat man genau neun Indikatorvariablen.
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡

Jetzt bestimmen wir erneut die Auftrittswahrscheinlichkeit von 𝐴. Dies ist lediglich die
Summe der Wahrscheinlichkeiten, die 𝐼𝐴 wahr werden lassen.

𝑃(𝐼𝐴 = 1) = 𝑃({𝑋𝑖 ≠ 𝑋𝑖+1 })


= 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 2}) + 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 3}) + 𝑃({𝑋𝑖 = 2, 𝑋𝑖+1 = 3}
+ 𝑃({𝑋𝑖 = 2, 𝑋𝑖+1 = 1} + 𝑃({𝑋𝑖 = 3, 𝑋𝑖+1 = 1} + 𝑃({𝑋𝑖 = 2, 𝑋𝑖+1 = 2}
11
=
18

Da eine Indikatorvariable immer zwei Zufallsvariablen betrachtet, müssen wir beim


Erwartungswert wir zum Erwartungswert die Konstante „1“ hinzuaddieren.

Dies kann man sich vor Augen halten, wenn man zwei Würfellungen mit den Werten (1,1)
macht.
In diesem Fall würde 𝐼𝐴 den Wert null haben. Die obere Würfellung repräsentiert aber
einen Run. Grund dafür ist, dass 𝐼𝐴 nur neue Runs hinzuzählt aber nicht den Startrun.

Erneut haben wir auch nur neun Indikatorvariablen, weil 𝐼𝐴 immer zwei Würfe
betrachtet.

11
𝐸[𝐼𝐴 1 + 𝐼𝐴 2 + ⋯ + 𝐼𝐴 9 + 1] = 9 ∙ + 1 = 6,5.
18

Wir können bei zehn Würfen also 6,5 Runs erwarten.


Law of the unconscious statistician (l.o.t.u.s.) im diskreten Fall
Wir haben zwei diskrete Zufallsvariablen 𝑋: Ω → 𝑆𝑋 und 𝑌 = SX → 𝑆𝑌 .
Folgendermaßen ist 𝑌 = 𝑔(𝑋) eine abhängige Zufallsvariable, da es eine Funktion von 𝑋 ist.

Für den Erwartungswert 𝐸[𝑌] lässt sich nun unsere bekannte Formel verwenden.

𝐸[𝑌] = ∑ 𝑖 ∙ 𝑷(𝒀 = 𝒊),


𝑖∈𝑆𝑌

Unser Maß 𝑷(𝒀 = 𝒊) greift dabei zur Wahrscheinlichkeitsberechnung auf unsere Grundmenge Ω
zurück.
Dabei „bündelt“ das Wahrscheinlichkeitsmaß für jedes 𝒊 alle Elementarereignisse 𝜔 ∈ Ω, die zu
𝑔(𝜔) = 𝒊 führen.

Das Wahrscheinlichkeitsmaß P bündelt für jedes 𝒊 alle


Elementarereignisse 𝜔 ∈ 𝛺, die zu 𝑔(𝜔) = 𝒊 führen. Dies wird durch die roten Kreise symbolisiert.
Um 𝐸[𝑌] zu berechnen, muss also die Verteilung von 𝑌 bekannt sein53.

Das „Law of the unconscious statistician“ (l.o.t.u.s.) besagt, dass wir 𝐸[𝑌] auch mit der Verteilung
von 𝑋 ermitteln können.

Definition 3.30
Seien 𝑋, 𝑌 diskrete Zufallsvariablen.

Zusätzlich ist
𝑌 = 𝑔(𝑋).

Dann gilt

𝐸[𝑌] = ∑ 𝑔(𝑘) ∙ 𝑷(𝑿 = 𝒌) 54


𝑘∈𝑆𝑋

Tipp
Ob die Zufallsvariablen diskret oder kontinuierlich sind, spielt für l.o.t.u.s keine Rolle. Für
Erwartungswerte im kontinuierlichen Fall, siehe Kapitel Der Erwartungswert aus
kontinuierlicher Sicht.

Bei der Berechnung „bündeln“ wir nun andere Elementarereignisse zusammen, nämlich die, die zu
X führen.

53 Die Verwendung von 𝑷(𝒀 = 𝒊) in unserer Erwartungswertformel setzt voraus, dass 𝑷(𝒀 = 𝒊) (die
Verteilung von 𝑌) bekannt ist.
54 https://en.wikipedia.org/wiki/Law_of_the_unconscious_statistician
Beispiel 3.12

Der Stochastiker Peter baut ein „zufälliges Haus“ mit quadratischer Grundfläche 𝑎2 . Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].

Die Zufallsvariable 𝑋 repräsentiere diese zufällige gezogene Zahl.


Der endgültige Flächeninhalt wird durch die Zufallsvariable 𝑌 = 𝑔(𝑋) = 𝑋 2 repräsentiert.

Welchen Wert hat die erwartete Grundfläche des Hauses?

Wir suchen 𝐸[𝑌].

Da 𝑌 eine direkte Funktion aus 𝑋 ist greift das „l.o.t.u.s.“. Für die Erwartungswertberechnung
probieren wir einmal die „klassische“]\ Variante (über die Verteilung von 𝑌) und das
erwähnte Gesetz (über die Verteilung von 𝑋).

Berechnung über die Verteilung von 𝑌

1 1 1 1 1
𝐸[𝑌] = ∑ 𝑖 ∙ 𝑃(𝑌 = 𝑖) = 25 ∙ + 36 ∙ + 49 ∙ + 64 ∙ + 81 ∙ = 51
5 5 5 5 5
𝑖∈𝑆𝑌

Berechnung über die Verteilung von 𝑋

1 1 1 1 1
𝐸[𝑌] = ∑ 𝑔(𝑋 = 𝑘) ∙ 𝑃(𝑋 = 𝑘) = 𝑔(5) ∙ + 𝑔(6) ∙ + 𝑔(7) ∙ + 𝑔(8) ∙ + 𝑔(9) ∙ = 51
5 5 5 5 5
𝑘∈𝑆𝑋

Beispiel 3.13

Der Stochastiker Peter baut ein „zufälliges Haus“ mit rechteckiger Grundfläche 𝑎𝑏. Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].

Die Zufallsvariable 𝑋 repräsentiere diese zufällige gezogene Zahl.


Der endgültige Flächeninhalt wird durch die Zufallsvariable
𝑋2 , 𝑤𝑒𝑛𝑛 𝑋 2 ≤ 50
𝑌 = 𝑔(𝑋) = {
100, 𝑤𝑒𝑛𝑛 𝑋 2 > 50
repräsentiert.

Welchen Wert hat die erwartete Grundfläche des Hauses?

Erneut suchen wir 𝐸[𝑌].

Diesmal ist 𝑔(𝑋) aber etwas komplizierter.


Berechnung über die Verteilung von 𝑌

1 1 1 2
𝐸[𝑌] = ∑ 𝑖 ∙ 𝑃(𝑌 = 𝑖) = 25 ∙ + 36 ∙ + 49 ∙ + 100 ∙ = 62
5 5 5 5
𝑖∈𝑆𝑌

Diese Art 𝐸[𝑌] zu berechnen ist nun aufwendiger, weil wir immer im Kopf behalten müssen,
welche Elementarereignisse quadriert größer 50 sind. Somit hat eine Realisierung die
Wahrscheinlichkeit 2/5 (die blau gefärbte).

Berechnung über die Verteilung von 𝑋

1 1 1 1 1
𝐸[𝑌] = ∑ 𝑔(𝑋 = 𝑘) ∙ 𝑃(𝑋 = 𝑘) = 𝑔(5) ∙ + 𝑔(6) ∙ + 𝑔(7) ∙ + 𝑔(8) ∙ + 𝑔(9) ∙ = 62
5 5 5 5 5
𝑘∈𝑆𝑋

Diesmal müssen wir nicht nachdenken, welche Realisierungen die


Auftrittswahrscheinlichkeit 2/5 haben. Dies ist der Fall, weil wir diesmal mit der Verteilung
von 𝑋 multiplizieren, welche unfirom mit dem Wert 1/5 ist.

Achtung
Auch wenn es auf dem ersten Blick nicht so aussieht, führen beide Erwartungswertberechnungen
dieselbe Summenberechnung aus.
Beim „l.o.t.u.s.“ werden lediglich Summenglieder „entfaltet“, indem sie ausgeklammert werden.

Wir können das Gesetz nur verwenden, wenn 𝑌 eine Funktion von 𝑋 ist. Praktisch bedeutet dies,
dass jeder Ast des Wahrscheinlichkeitsbaum nach unten nie dicker wird. Dies hat zur Folge, dass
die Erwartungswertberechnung von 𝑋 nie weniger Summenglieder enthält als die von 𝑌.

Beispiel 3.14

Der Stochastiker Peter baut ein „zufälliges Haus“ mit zufälliger Grundfläche 𝑎𝑏. Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].

Die Zufallsvariable 𝑋 repräsentiere diese zufällige gezogene Zahl.


Der endgültige Flächeninhalt wird durch die Zufallsvariable
𝑋2 , 𝑚𝑖𝑡 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑝 = 0,5
𝑌={
2 ∙ 𝑋, 𝑚𝑖𝑡 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑝 = 0,5
repräsentiert.

Lässt sich die erwartete Grundfläche des Hauses über die Verteilung von 𝑋 berechnen?

Nein, weil 𝑌 keine eindeutige Wertezuweisung besitzt und somit keine Funktion ist.

Tipp
Wichtige „Integralberechnungsalgorithmen“, wie Importance Sampling oder Markov Chain
Monte Carlo basieren bei der Berechnung von Integralen auf diesen Satz.
Das Stichprobenmittel
Den Durchschnitt eines aufgetretenen Zufallsexperiments (Realisierung) nennt man das
arithmetische Mittel, Stichprobenmittel, Mittelwert oder Mean.

Definition 3.31
Das arithmetische Mittel (auch Stichprobenmittel) ist der Durchschnitt einer Realisierung.

Als Symbol wird häufig mit 𝜇̅ (Mü mit Strich) verwendet.


Obwohl die diskrete Formel des Erwartungswerts identisch ist mit dem arithmetischen Mittel, gibt
es einige wichtige Differenzen.
Wir verwenden den Begriff des arithmetischen Mittels nämlich ausschließlich für Realisierungen
einer Zufallsvariablen. Dies bedeutet, dass wir nur vom arithmetischen Mittel, Mittelwert oder
Mean sprechen, wenn uns eine Häufigkeitsverteilung vorliegt.

Folglich befinden wir uns bei Mittelwertfragen in der Statistik.

Achtung
Der Begriff „Mittelwert“ oder „Mean“ ist nicht zu verwechseln mit dem Median, der das mittlere
Folgenglied 𝑎0,5𝑛 einer Folge 𝑎1 , 𝑎2 , … , 𝑎𝑛 darstellt.

Stellen wir uns vor, wir befinden uns auf einen Kindergeburtstag mit 20 Kindern. Jedes Kind bringt
eine bestimmte Anzahl an Kuchen mit. Insgesamt gibt es 18 Kuchen.
Es entsteht folgendes Histogramm55.

Mitgebrachte Kuchen zum Geburtstag


10
Anzahl mitgebrachte Kuchen

9
8
7
6
5
4
3
2
1
0
0 1 2 3
Anzahl Kinder

Falls wir vergessen haben was ein Histogramm oder Häufigkeitsverteilung ist, siehe Kapitel 1:
55

Wahrscheinlichkeiten als Verhältnisse


Die Antwort auf die Frage, wie viele Kuchen die Kinder im Schnitt mitgebracht haben lässt sich
leicht mit dem arithmetischen Mittel beantworten:
𝟎 ∙ 𝟏𝟎 + 𝟑 ∙ 𝟏 + 𝟐 ∙ 𝟔 + 𝟑 ∙ 𝟏
𝐷𝑢𝑟𝑐ℎ𝑠𝑐ℎ𝑛𝑖𝑡𝑡𝑙𝑖𝑐ℎ𝑒 𝐾𝑢𝑐ℎ𝑒𝑛𝑎𝑛𝑧𝑎ℎ𝑙 = = 0,9
𝟐𝟎

Im Schnitt brachte jedes einzelne Kind also 0,9 Kuchen mit. Wichtig: Da dies für jedes der 20 Kinder
gilt, müssen wir beim multiplizieren mit 20 wieder auf unsere Originalanzahl der 18 Kuchen
kommen.

Dies ist in der Tat der Fall, weil 0,9 ∙ 20 = 18.

Das ergibt folgende Formel:

Definition 3.32
Sei 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge.

Das arithmetische Mittel 𝜇 berechnet sich wie folgt:


𝑛
1
𝜇̅ = ∑ 𝑎𝑖
𝑛
𝑖=1

Färben wir die Bestandteile der Formel entsprechend den Farben unseres Kuchenbeispiels ein, so
werden uns sofort die Gemeinsamkeiten klar.

Jedes Glied der folgenden Sequenz repräsentiert ein Kind mit der Anzahl seiner mitgebrachten
Kuchen:
0,0,0,0,0,0,0,0,0,0
⏟ , 1,1,1
⏟ , 2,2,2,2,2,2
⏟ , 3.
10 𝑚𝑎𝑙 3 𝑚𝑎𝑙 6 𝑚𝑎𝑙

Setzen wir dies in unsere Formel ein folgt:


20
1 1
𝜇̅ = ∑ 𝑎𝑖 = ∙ (𝟎
⏟+ 𝟎 + ⋯ + 𝟎 + 𝟏 + 𝟏 + 𝟏 + ⏟
𝟐 + 𝟐 + ⋯+ 𝟐+ 𝟑
𝟐𝟎 𝟐𝟎 10 𝑚𝑎𝑙 6 𝑚𝑎𝑙
𝑖=1
𝟏𝟎 𝟑 𝟔 𝟏
=𝟎∙ +𝟏∙ +𝟐∙ +𝟑∙ = 0,9
𝟐𝟎 𝟐𝟎 𝟐𝟎 𝟐𝟎
Der Erwartungswert entspricht somit ohne Änderungen der Formel des artihmetischen Mittels: Die
roten Zahlen sind die Realisierungen 𝑖 der betrachteten Zufallsvariable und die blau/grünen Brüche
die Wahrscheinlichkeiten 𝑃(𝑋 = 𝑖).
Dennoch lässt sich nicht sofort sagen, dass beim nächsten Geburtstag in Erwartung 0,9 Kuchen
mitgebracht werden. Eine Äquivalenz zwischen 𝜇 und 𝜇̅ verbietet uns nämlich das „Gesetz der
großen Zahlen“ (siehe Abschnitt zuvor).
Benötigt werden für eine stochastische Prognose nämlich mehrere Realisierungen. Wir müssten
somit noch viele Kindergeburtstage inklusive Mittelwertberechnung veranstalten, bevor wir sagen
könnten der Erwartungswert beträge 0,9.
Es lasse sich merken: „Der Erwartungswert baut auf Mittelwerten auf, ein einzelner Mittelwert ist
aber kein Erwartungswert.“
Aus dem Abschnitt von zuvor ist auch bekannt, dass nicht jede Verteilung einen Erwartungswert
besitzt. Dies hat der Folge, dass eine sehr große Anzahl von Stichproben nicht immer ein Indikator
für die Zukunft ist.
Sehr oft wird 𝜇̅ benutzt um den Erwartungswert 𝜇 zu approximieren. Denn oft ist uns das
tatsächliche 𝜇 nicht bekannt (siehe Kapitel 3: Populationen vs. Stichproben).
Die Varianz
Hinweis: Sofern nicht anders erwähnt (Abschnitt „Die Varianz aus diskreter Sicht“) gilt diese
Einführung der Varianz für diskrete sowie kontinuierliche Zufallsvariablen. Da die Ermittlung der
Varianz auf die Berechnung von Erwartungswerten basiert, die in den respektiven Kapiteln gelernt
wurden, gibt es keine separaten Abschnitte für kontinuierliche oder diskrete Varianzen.

Wir sind in Miami. Unsere Freundin ist in Kuba. Uns trennen 250km des nordatlantischen Oceans.
Um unser geringfügig bemessenes Studenteneinkommen aufzubessern, schickt sie uns jeden Tag
tonnenweise Waren per Boot.
Sie teilt uns mit, dass eine Bootladung in Erwartung zwei Tonnen erhält. Dennoch kommen einige
Boote leer an und andere vollkommen überfüllt.

Was ist passiert?


Obwohl uns der Erwartungswert den Durchschnittswert einer Wahrscheinlichkeitsverteilung
angibt, können die Werte einzelner Realisierungen mitunter ziemlich stark schwanken.56
Dies liegt an der Natur von 𝜇. Wenn der Lehrer die Klausurnote 2 erwartet, bedeutet dies noch
lange nicht, dass es keinen Schüler geben kann der eine 5 schreibt.

Im Inselbeispiel zu Beginn hätte uns somit interessiert, wie groß der erwartete Abstand zu den
erwarteten zwei Tonnen pro Boot ist.
Eine Antwort auf diese Frage gibt uns die Varianz.

Definition 3.33
Die Varianz 𝜎 2 misst den erwarteten quadratischen Abstand einer Verteilung zu derem
Erwartungswert.

Tipp
Die Varianz hat häufig den Buchstaben 𝜎 2 (Sigma zum Quadrat).

Das Quadrat sollte immer mitgeschrieben werden, da


𝜎 = √𝜎 2 der Standardabweichung entspricht.

Formalisiert sieht dies aus wie folgt:

Definition 3.34
Sei 𝑋 eine Zufallsvariable beliebigen Typs und 𝜇 = 𝐸[𝑋] deren Erwartungswert.

𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝜇)2 ].

Wichtig: Da wir den quadrierten Abstand verwenden, quadieren sich die Einheiten.
Rechnet unsere Zufallsvariable 𝑋 in €, so gibt 𝑉𝑎𝑟(𝑋) ein Ergebnis in €2 aus.

56 Siehe den Graph zu Kapitel 3: Das Gesetz der großen Zahlen


Um also ein „tatsächliches“ Streumaß zu erhalten, ziehen wir aus der Varianz die Quadratwurzel
und erhalten die Standardabweichung (siehe Kapitel 3: Die Standardabweichung).

Tipp
Trotz der quadrierten Einheiten, ist der Wert 𝑉𝑎𝑟(𝑋) nicht bedeutunglos.

• Realisierungen mit großen Abweichungen vom Erwartungswert diese erhalten durch


die Quadratur mehr Gewicht.

• Summen von Varianzen unkorellierter Zufallsvariablen lassen sich wesentlich


leichter berechnen als deren Summen von Standardabweichungen

Tipp
Die Varianz an sich ist kein neues Konzept, da es nur eine Transformation der betrachteten
Zufallsvariable darstellt.

Anstatt
𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )2 ]
können wir auch eine neue Zufallsvariable
𝑌 = (𝑋 − 𝜇
⏟𝑥 )2
𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙
bilden und
𝐸[𝑌] = 𝑉𝑎𝑟(𝑋)
berechnen.

Somit ist die Varianz nichts weiter, als der Erwartungswert einer um 𝜇𝑋 zentrierten
Verteilung.

Hat eine Verteilung keinen Erwartungswert, so kann sie auch keine Varianz besitzen.
Ein Beispiel eines solchen Falls ist die Cauchy-Verteilung.
Eigenschaften der Varianz

Da die Varianz ein Streumaß darstellt lassen sich auch hier einige Faustregeln ableiten:

Definition 3.35
Varianzen sind immer positiv.

Tipp
Varianzen quadrieren Abstände und diese sind immer positiv, siehe Metrik.

Definition 3.36
Je gestauchter ein Gewichts- oder Dichtegraph um den Erwartungswert 𝜇 ist, desto kleiner ist
die Varianz.

Definition 3.37
Die uniforme Verteilung auf [𝛼, 𝛽], 𝑚𝑖𝑡 𝛼, 𝛽 ∈ ℝ hat die größte Varianz aller konkaven
Gewichts- oder Dichtegraphen.57

Eine annähernd symmetrische Verteilung mit dem


Erwartungswert nahe der Mitte Eine uniforme Verteilung

Dies macht auch intuitiv Sinn: Je unwahrscheinlicher Werte fernab des Erwartungswerts sind, also
je enger der Graph um 𝜇, desto kleiner wird auch die erwartete Gesamtstreuung sein. Da die
Varianz nur das Quadrat der tatsächlichen Streuung ist, muss 𝑉𝑎𝑟[𝑋] folglich auch sinken.

Die uniforme Verteilung auf [𝛼, 𝛽], 𝑚𝑖𝑡 𝛼, 𝛽 ∈ ℝ gibt dagegen auch Werten fernab von 𝜇 eine relativ
hohe Auftrittswahrscheinlichkeit. Folglich ist hier die erwartete Streuung höher.
Analog zum Erwartungswert, besitzt auch die Varianz lineare Transformationen, welche sich aber
etwas unterscheiden:

57http://stats.stackexchange.com/questions/142651/does-the-uniform-distribution-have-the-greatest-
variance-among-all-concave-distr
Definition 3.38
Seien 𝑋, 𝑌 beliebige58 Zufallsvariablen.

I. 𝑉𝑎𝑟[𝑋 + 𝑐] = 𝑉𝑎𝑟[𝑋], 𝑚𝑖𝑡 𝑐 ∈ ℝ

II. 𝑉𝑎𝑟[𝑐𝑋] = 𝑐 2 𝑉𝑎𝑟[𝑋], 𝑚𝑖𝑡 𝑐 ∈ ℝ

III. 𝑉𝑎𝑟[𝑋 + 𝑌] = 𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] + 2𝐶𝑜𝑣[𝑋, 𝑌]

𝑉𝑎𝑟[𝑋 − 𝑌] = 𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] − 2𝐶𝑜𝑣[𝑋, 𝑌]

Das Verhalten der Varianz bei Summen von Zufallsvariablen werden wir in Kapitel 3:
Kovarianzen untersuchen

Die erste Lineratitätsregel lässt sich graphisch beweisen:

Verschieben wir eine Verteilung um eine Konstante 𝑐 ∈ ℝ, so ändert sich


die Form der Wahrscheinlichkeitsverteilung nicht, ergo bleibt die Varianz erhalten.

Daraus folgt:

Definition 3.39
Die Varianz ist translationsinvariant.

Algebraisch beweisen wir die zweite Linearitätsregel:

𝐸[(𝑐𝑋)2 ] − 𝐸[𝑐𝑋]2 59 = 𝑐 2 (𝐸[𝑋 2 ] − 𝐸[𝑋]2 ) = 𝑐 2 𝑉𝑎𝑟[𝑋]


𝑉𝑎𝑟[𝑐𝑋] = ⏟
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧

Für die dritte Regel benötigen wir Kovarianzen, welche im weiteren Verlauf des Kapitels vorgestellt
werden.

58 Egal, ob diskret, kontinuierlich, gemischt. Eigenschaften auch egal (abhängig, unabhängig).


59 Benutzt den Verschiebungssatz, der in Kapitel 3: PLATZHALER vorgestellt wird
Haben wir ausschließlich eine Konstante 𝑐 ∈ ℝ vor uns, so existiert keine Streung um den
Erwartungswert, da nur 𝑐 auftreten kann.

Definition 3.40
Die Varianz einer Konstante ist null, also
𝑉𝑎𝑟[𝑐] = 0, 𝑤𝑒𝑛𝑛 𝑐 ∈ ℝ

Daraus lässt sich schließen:

Definition 3.41
Ist die Varianz einer diskreten Verteilung null, so handelt es sich um eine Konstante.

Ist die Varianz einer kontinuierlichen oder gemischten Verteilung null, so handelt es sich fast
sicher60 um einer Konstante.

Achtung
Betrachtet 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 alle Werte einer Population (komplettes Ziehen ohne
Zurücklegen) anstatt einer kleineren Stichprobe, so ist 𝑌 eine Konstante (Totalerhebung).

Folglich ist 𝑉𝑎𝑟[𝑌] = 0.

Ziehen wir also z.B. alle sechs nummerierten Kugeln aus einer Urne ohne Zurücklegen, so hat die
entstehende Zufallsvariable 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋6 die Varianz null.

Für weitere Erläuterungen dieses Beispiels inklusive ehemalige Übungsaufgabe siehe Die
Kovarianz.

Ein daraus folgendes Theorem, welches oft die Berechnung der Kovarianz (siehe Die Kovarianz)
vereinfacht:

Definition 3.42
Ziehen wir alle Individuen einer Population, so ist die Varianz 𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[𝑋1 + 𝑋2 +
⋯ 𝑋|𝑆| ]61 null.

Dies macht auch Sinn, weil, wenn wir alle Individuen betrachten, es keine Streuung um den
Erwartungswert mehr geben kann,

60 Für die Unterschiede zwischen “sicheres Ereignis” und “fast konstant sicher” siehe Kapitel 1.
61 Es gilt 𝑋: Ω → 𝑆, somit ist |𝑆| die Gesamtanzahl der Population.
Der Verschiebungssatz

Varianzen lassen sich auf viele Arten berechnen. Eine haben wir schon im Abschnitt zuvor
kennengelernt, nämlich die Berechnung über den Erwartungswert 𝐸[(𝑋 − 𝜇)2 ]. Der
Verschiebungssatz (engl. König-Huygens formula oder variance translation theorem) ist eine
weitere Alternative.
Oft ist die Berechnung von 𝑉𝑎𝑟[𝑋] sogar schneller, wenn wir schon den Erwartungswert 𝐸[𝑋] = 𝜇
haben.

Definition 3.43
Sei 𝑋 eine Zufallsvariable beliebigen Typs.

𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 .

FAQ: Kannst du mir das beweisen?


Frage: Die Transformation ist mir nicht intuitiv. Kannst du diese bitte beweisen?

Antwort: Wir machen dies algebraisch.

𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸[𝑋 2 ] − 2𝜇𝐸[𝑋] + 𝐸[𝜇]2


⏟ = 𝐸[𝑋 2 ] − ⏟ 2
𝐸[𝑋]
𝑏𝑖𝑛𝑜𝑚𝑖𝑠𝑐ℎ𝑒 𝐹𝑜𝑟𝑚𝑒𝑙+𝐿𝑖𝑛𝑒𝑟𝑖𝑡ä𝑡 𝑣𝑜𝑛 𝐸[𝑋 2 −2𝜇𝑋+𝜇2 ] 𝑤𝑒𝑖𝑙 𝜇∙𝐸[𝑋]=𝐸[𝑋]2

Bitte beachte, weil


𝜇 = 𝐸[𝑋]
dass
𝜇𝐸[𝑋] = 𝐸[𝑋]2 .
und
𝐸[𝜇]2 = 𝜇2 = 𝐸[𝑋]2 .

Beispiel 3.15

Berechne die Varianz eines faires sechsseitigen Würfelwurfs.

Ein sechsseitiger Würfelwurf ist diskret, weshalb wir auf die diskrete
Erwartungswertberechnung zurückgreifen.

Wir probieren einmal den Standardweg und einmal den Verschiebungssatz aus.

• Über 𝐸[(𝑋 − 𝜇)2 ]

1+2+3+4+5+6
𝐸[𝑋] = = 3,5
6
𝐸[(𝑋 − 𝜇)2 ]
(1 − 3,5)2 + (2 − 3,5)2 + (3 − 3,5)2 + (4 − 3,5)2 + (5 − 3,5)2 + (6 − 3,5)2
= ≈ 𝟐, 𝟗𝟏
6

• Über den Verschiebungssatz

1+2+3+4+5+6 2 7 2
𝐸[𝑋]2 = ( ) = ( ) = 12,25
6 2

12 + 22 + 32 + 42 + 52 + 62 91
𝐸[𝑋 2 ] = = ≈ 15,16
6 6

𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 ≈ 15,16 − 12,25 = 𝟐, 𝟗𝟏

Beispiel 3.16

Berechne die Varianz eines um 0 zentrierten fairen Münzwurfs

Es repräsentiere

1, 𝑤𝑒𝑛𝑛 𝑋(𝜔) = 𝐾𝑜𝑝𝑓


𝑋(𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡

Wenn 𝑋, eine symmetrische Verteilung, auf 0 zentriert ist, bedeutet dies, dass wir 𝑋 so
transformieren müssen, dass der Erwartungswert 𝐸[𝑋] = 0.

Dies tun wir mit einer Einführung einer weiteren Zufallsvariable:


𝑌 = 𝑋 − 𝐸[𝑋].

Daraus folgt:
1
𝑌=𝑋− .
2

Jetzt berechnen wir 𝐸[𝑌 2 ].

1 1 1 1 1
𝐸[𝑌 2 ] = ∙ + ∙ = .
4 2 4 2 4
Nun lässt sich die Varianz berechnen:

1
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2 = .
4

Aufgrund der Lineratität der Varianz hätte es auch funktioniert, einfach die Varianz von 𝑋,
dem um 0,5 zentrierten Münzwurf zu berechnen.
Definition 3.44
Da Varianzen immer positiv sind und der Verschiebungssatz keine Betragsstriche verwendet,
gilt folgendes : 𝐸[𝑋 2 ] ≥ 𝐸[𝑋]2 .

Ein Nachteil des Verschiebungssatzes sind seine nicht optimalen numerischen Eigenschaften: Wenn
𝐸[𝑋]2 ≫ 𝑉𝑎𝑟[𝑋], dann kann durch Auslöschung fälschlicherweise 𝑉𝑎𝑟[𝑋] = 0 ermittelt werden.

FAQ: Wieso ist der Verschiebungssatz numerisch supotimal?


Frage: Wieso ist der Verschiebungssatz denn numerisch suboptimal?

Antwort: Stellen wir uns vor, 𝐸[𝑋]2 = 106 𝑉𝑎𝑟[𝑋].

Dann haben wir:

𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 1000𝑉𝑎𝑟[𝑋].

Daraus folgt
𝐸[𝑋 2 ] = 1001𝑉𝑎𝑟[𝑋].

Somit ist 𝐸[𝑋 2 ] auch eine sehr große Zahl. In der Tat ist 𝐸[𝑋 2 ] = 1001𝑉𝑎𝑟[𝑋] relativ gesehen
nur unwesentlich größer als 1000𝑉𝑎𝑟[𝑋]. Wenn wir Pech haben, ist das Limit des
verwendeten fundamentalen Datentyps erreicht und 𝐸[𝑋 2 ] sowie 𝐸[𝑋]2 werden auf den
selben Wert gerundet.
Dies ergibt dann fälschlicherweise die Varianz null.

Mehr über Auslöschung siehe hier und die Mathematik 1: WS14/15 Vorlesung von Herr Dr.
Bosse.

Somit ist die offensichtliche Berechnung 𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝜇)2 ] nicht selten die bessere Wahl. Es
gibt noch andere numerisch günstige Varianten zur Varianzberechnung. Diese werden in diesem
Skript aber nicht vorgestellt.
Die Kovarianz
Die Linearität des Erwartungswerts erlaubte es uns, bei mehreren Zufallsexperimenten
𝑌 = 𝑋1 + ⋯ + 𝑋𝑛 die Berechnung von 𝐸[𝑌] auf die Summation der einzelnen Erwartungswerte
𝐸[𝑌] = 𝐸[𝑋1 ] + ⋯ 𝐸[𝑋𝑛 ] zurückzuführen.

Das Besondere war, dass entgegen jeglicher Intuition diese Tatsache selbst bei abhängigen
Zufallsexperimenten stand hielt.

Bei der Varianz ist dies nicht der Fall62.

Definition 3.45
Bei abhängigen Zufallsvariablen 𝑋1 , 𝑋2 , … , 𝑋𝑛 gilt

𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] ≠ 𝑉𝑎𝑟[𝑋1 ] + 𝑉𝑎𝑟[𝑋2 ] + ⋯ + 𝑉𝑎𝑟[𝑋3 ]

Abhilfe verschafft die Kovarianz.

Definition 3.46
Die Kovarianz (engl. covariance) misst, wie stark zwei Zufallsvariablen 𝑋1 und 𝑋2
voneinander abhängen.

Wie die Varianz auch, ist die Kovarianz über den Erwartungswert definiert:

Definition 3.47
Seien 𝑋 und 𝑌 zwei beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig oder
identisch verteilt sein.

Dann gilt:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸[𝑋]) ∙ [𝑌 − 𝐸[𝑌]).

Eine wichtige Umformung ist:

Definition 3.48
Seien 𝑋 und 𝑌 zwei beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig oder
identisch verteilt sein.

Die Kovarianzformel lässt sich alternativ berechnen als:


𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌].

Dies läuft getreu dem Motto: „Wissen wir die Realisierung von 𝑋1 haben wir Informationen über die
62

möglichen Realisierungen von 𝑋2 , ergo ändert sich die erwartete Streuung (Varianz) um 𝜇 .“
FAQ: Ich verstehe die obige Umformung nicht.
Frage: Ich verstehe die obige Umformung der Kovarianz nicht. Kannst du es mir beweisen?

Antwort: Klar.

𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸[𝑋]) ∙ [𝑌 − 𝐸[𝑌]) = ⏟


𝐸[𝑋𝑌 − 𝑋𝐸[𝑌] − 𝑌𝐸[𝑋] + 𝐸[𝑋]𝐸[𝑌])
𝐾𝑙𝑎𝑚𝑚𝑒𝑟𝑛 𝑎𝑢𝑠𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑧𝑖𝑒𝑟𝑒𝑛
= 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] − 𝐸[𝑌]𝐸[𝑋] + 𝐸[𝑋]𝐸[𝑌] = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌]

Dabei muss hier müssen wir hier aufpassen, dass wir Tatsachen wie
𝐸 [𝑋 𝐸[𝑌]
⏟ ] = 𝐸[𝑋]𝐸[𝑌]

𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙 ü𝑏𝑒𝑟 𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡
nicht übersehen.

Die Kovarianz ist also nichts weiter, als die mit Wahrscheinlichkeiten gewichtete Summe der
multiplizierten Abstände der einzelnen Verteilungen zu ihren Erwartungswerten.
Daraus folgt, dass die Kovarianz nicht einheitenlos ist. Analog zur Varianz, sind die Einheiten das
Quadrat der Einheiten der gemeinsamen Verteilung von 𝑋, 𝑌.

Tipp
Eine Konsequenz ist, dass sich, wie auch bei der Varianz, Kovarianzen von Experimenten mit
verschiedenen Einheiten nicht vergleichen lassen. Um dies zu beheben, wird in Pearson
Product Moment der Korrelationskoeffizient eingeführt, der ein objektiveres Vergleichen von
Abhängigkeiten erlaubt.

Eigenschaften von Kovarianzen

Kovarianzen müssen nicht positiv sein. Oft sind die Vorzeichen sogar wichtiger als der eigentliche
Wert, weil sie uns Aufschluss über die Art der Abhängigkeit geben:

Definition 3.49
• Ist 𝐶𝑜𝑣(𝑋, 𝑌) < 0, so haben 𝑋 und 𝑌 einen inversen monotonen Zusammenhang. Dies
bedeutet, dass hohe Werte von 𝑋 niedrige Werte von 𝑌 zur Folge haben und
umgekehrt.
Folglich 𝑋, 𝑌 sind korreliert (und somit abhängig).

• Ist 𝐶𝑜𝑣(𝑋, 𝑌) > 0, so haben 𝑋 und 𝑌 einen monotonen Zusammenhang. Dies bedeutet,
dass hohe Werte von 𝑋 hohe Werte von 𝑌 zur Folge haben und niedrige Werte von 𝑋
niedrige Werte von 𝑌 zur Folge haben.
Folglich 𝑋, 𝑌 sind korreliert (und somit abhängig).

• Ist 𝐶𝑜𝑣[𝑋, 𝑌] = 0, so besteht kein monotoner Zusammenhang. Es kann keine Aussage


über die Korrelation von 𝑋 oder 𝑌 getroffen werden.
Achtung
Ist 𝐶𝑜𝑣(𝑋, 𝑌) ≠ 0 so sind die Variablen automatisch abhängig voneinander.

Sie können aber auch abhängig sein, wenn 𝐶𝑜𝑣(𝑋, 𝑌) = 0, müssen aber nicht.

Die Vorzeichenaufteilung lässt sich in einem Schaubild der gemeinsamen Verteilung von 𝑋, 𝑌
zeigen. Dabei repräsentiert der Graph lediglich die Koordinaten (𝑋(𝜔), 𝑌(𝛼)) der möglichen
Realisierungen und nicht deren Produkt.

Graph der gemeinsamen Verteilung von 𝑋 und 𝑌. Die Erwartungswerte


sind verzeichnet.

Das Prinzip ist einfach. Die Kovarianz 𝐸[(𝑿 − 𝑬[𝑿])(𝒀 − 𝑬[𝒀]) betrachtet die einzelnen
Realisierungen: Falls ein Ausgang von 𝑋 kleiner ist als 𝐸[𝑋], so landet dieser „links“ von 𝐸[𝑋].
Dieser ist dann vom Vorzeichen negativ, weil (𝑿 − 𝑬[𝑿]) nicht den Betrag nimmt.
Ist eine einzelne Realisierung 𝜔 kleiner als der Erwartungswert 𝐸[𝑋],
so landet diese links von 𝐸[𝑋] auf der x-Achse.
Hinweis: Da wir 𝜔 nur eine einzelne Realisierung ist von vielen
schreiben wir 𝑋(𝜔) anstatt 𝑋.

Ist die Folgerealisierung 𝑌(𝛼) aber größer als ihr Erwartungswert, so hat 𝑌(𝛼) − 𝐸[𝑌] ein positives
Vorzeichen. Das Produkt (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]) ergibt dann eine negative Zahl.

Da 𝑋(𝜔) − 𝐸[𝑋]) < 0 und 𝑌(𝛼) − 𝐸[𝑌]>0 befinden wir uns im


linken oberen Rechteck.

Ist 𝑌(𝛼) dagegen kleiner als sein Erwartungswert, so hat 𝑌(𝛼) − 𝐸[𝑌] ein negatives Vorzeichen. Das
Produkt (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]) ergibt dann eine positive Zahl.

Da 𝑋(𝜔) − 𝐸[𝑋]) < 0 und 𝑌(𝛼) − 𝐸[𝑌]<0 befinden wir uns im


linken unteren Rechteck.
Die gleiche Logik folgt natürlich, wenn 𝑋(𝜔) größer als sein Erwartungswert ist. Die Kovarianz
stellt diese Berechnung mit allen möglichen Realisierungen beider Zufallsvariablen an.

Die Kovarianz stellt berechnet den Abstand zum Erwartungswert von jeder Realisierung
der gemeinsamen Verteilung.

Jedes Paar (𝑋(𝜔), 𝑌(𝛼)) repräsentiert einen Abstand (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]). Diesen
gewichten wir mit der Auftrittswahrscheinlichkeit 𝑃(𝑋 = 𝜔, 𝑌 = 𝛼). Letztlich bilden die Summe alle
gewichteten Abstände und schon haben wir die Kovarianz 𝐸[(𝑿 − 𝑬[𝑿])(𝒀 − 𝑬[𝒀]).
Sind zwei Zufallsvariablen 𝑋, 𝑌 unabhängig (siehe Abschnitt Unabhängigkeit / Abhängigkeit von
Zufallsvariablen), dann ist die Kovarianz immer null.

Definition 3.50
Seien 𝑋, 𝑌 beliebige unabhängige Zufallsvariablen.

𝐶𝑜𝑣(𝑋, 𝑌) = 0

FAQ: Warum ist die Kovarianz für manchmal null?


Frage: Warum ist die Kovarianz unabhängiger Zufallsvariablen null?

Antwort: Intuition: Die Kovarianz ist ein Maß der Abhängigkeit zwischen zwei Variablen. Sind
sie vollkommen unabhängig voneinander, so sollte dieses Maß auf keinen Fall eine
Abhängigkeit zeigen.

Dies tut es auch nicht.

Algebraisch:

𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] = 𝐸[𝑋]𝐸[𝑌]


⏟ − 𝐸[𝑋]𝐸[𝑌] =0
𝑑𝑎 𝑋,𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔,𝑠𝑖𝑒ℎ𝑒 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡
Wichtig:
𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌], 𝒏𝒖𝒓 𝑤𝑒𝑛𝑛 𝑋, 𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔 (siehe Eigenschaften des Erwartungswertes).

Weitere wichtige Eigenschaften der Kovarianz sind:

Definition 3.51
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.

I. 𝐶𝑜𝑣[𝑋, 𝑋] = 𝑉𝑎𝑟[𝑋]

II. 𝐶𝑜𝑣[𝑋, 𝑐] = 0, 𝑚𝑖𝑡 𝑐 ∈ ℝ

III. 𝐶𝑜𝑣[𝑋, 𝑌] = 𝐶𝑜𝑣(𝑌, 𝑋) (Symmetrie)

IV. 𝐶𝑜𝑣[𝑎𝑋, 𝑏𝑌] = 𝑎𝑏𝐶𝑜𝑣[𝑋, 𝑌], 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℝ

All dies haben wir getan, damit es uns endlich möglich ist Varianzen mehrerer Zufallsvariablen
zusammenzurechnen. Nun sind wir so weit:

Definition 3.52
Seien 𝑋1 , … , 𝑋𝑛 beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig sein.
𝑛 𝑛−1 𝑛

𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = ∑ 𝑉𝑎𝑟[𝑋𝑖 ] + 2 ∙ ∑ ∑ 𝐶𝑜𝑣[𝑋𝑖 , 𝑋𝑗 ]


𝑖=1 𝑖=1 𝑗=𝑖+1

Für zwei Variablen lässt sich das obere leicht abkürzen:

Definition 3.53
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.

𝑉𝑎𝑟[𝑋, 𝑌] = 𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] + 2𝐶𝑜𝑣(𝑋, 𝑌)

Sind 𝑋, 𝑌 unabhängig, so geschieht eine Offenbarung:

Definition 3.54
Seien 𝑋1 , … , 𝑋𝑛 beliebige unabhängige Zufallsvariablen.
𝑛

𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = ∑ 𝑉𝑎𝑟[𝑋𝑖 ]
𝑖=1

Wir können dann einfach die Varianzen addieren! Dies ist der Fall, da bei unabhängigen
Zufallsvariablen 𝐶𝑜𝑣(𝑋, 𝑌) immer null ergibt und deren Kovarianzen somit wegfallen.
Tipp
Ein wunderschöner Beweis woher die 2 herkommt bei
𝑛 𝑛−1 𝑛

𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = ∑ 𝑉𝑎𝑟[𝑋𝑖 ] + 𝟐 ∙ ∑ ∑ 𝐶𝑜𝑣[𝑋𝑖 , 𝑋𝑗 ]


𝑖=1 𝑖=1 𝑗=𝑖+1

Findet sich hier.


Beispiel 3.17

In einer Urne befinden sich vier nacheinander nummerierte Kugeln. Wir entnehmen
dieser rein zufällig zwei Kugeln 𝑌 = (𝑋1 , 𝑋2 ).

Berechne die Kovarianz und 𝑉𝑎𝑟[𝑌].

Wir haben eine bivariate Verteilung vor uns, da 𝑌 ein Zweiertupel repräsentiert.

Unsere Varianzberechnungen beeinflusst dies nicht.

Fangen wir mit der Varianz an.

𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = 𝐸[(𝑋 − 𝐸[𝑋1 ])(𝑌 − 𝐸[𝑋2 ])].

Wir benötigen also erstmal die Erwartungswerte 𝐸[𝑋] und 𝐸[𝑌]. Die Kugeln sind laut Aufgabe
nacheinander von eins bis sechs nummeriert.
1 1 1 1
𝐸[𝑋1 ] = 𝐸[𝑋2 ] = 1 ∙ + 2 ∙ + 3 ∙ + 4 ∙ = 2,5.
4 4 4 4

𝑉𝑎𝑟[𝑋1 ] = 𝑉𝑎𝑟[𝑋2 ] = 𝐸[𝑋12 ] − 𝐸[𝑋1 ]2 = 7,5 − 2,52 = 1,25.

Nun geht es weiter: Wir erwarten, dass die Kovarianz negativ ist. Wir basieren unsere
Vermutung darauf, dass wenn wir eine Kugel mit hohem Wert aus der Urne ziehen die
restlichen gezogenen dazu tendieren kleiner zu sein sein und umgedreht.

𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = 𝐸[(𝑋 − 𝐸[𝑋])(𝑌 − 𝐸[𝑌])]


4 4

= ∑ ∑(𝑖 − 2,5)(𝑗 − 2,5) ∙ 𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗)


𝑖=1 𝑗=1
= (1 − 2,5)((2 − 2,5) + (3 − 2,5) + (4 − 2,5))
+ (2 − 2,5)((1 − 2,5) + (3 − 2,5) + (4 − 2,5))
+ (3 − 2,5)((1 − 2,5) + (2 − 2,5) + (4 − 2,5)) + (4
5
− 2,5)((1 − 2,5) + (2 − 2,5) + (3 − 2,5)) = − .
12

Alternativ können wir die Kovarianz natürlich auch so berechnen:


4 6

𝐸[𝑋𝑌] = ∑ ∑ 𝑖 ∙ 𝑗 ∙ 𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗) = 5,83̅


𝑖=1 𝑗=1

5
𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] = 5,83̅ − 2,52 = −
12

Nun können wir die Varianz der Summe aus 𝑋1 , 𝑋2 berechnen.


5 5
𝑉𝑎𝑟[𝑋1 , 𝑋2 ] = 1,25 + 1,25 + 2 ∙ − = .
12 3

Folgende Definition vereinfacht die Berechnung der Kovarianz oft massiv:

Definition 3.55
Seien 𝑋1 , 𝑋2 , … 𝑋3 identisch verteilt.

𝑉𝑎𝑟[𝑋1 , 𝑋2 , … , 𝑋3 ] = 𝑛𝑉𝑎𝑟[𝑋1 ] + 𝑛(𝑛 − 1)𝐶𝑜𝑣[𝑋1 , 𝑋2 ].63

Tipp
Zufallsvariablen sind meistens identisch verteilt, wenn sie aus derselben Population ziehen,
z.B. bei einer Urne, Stadtbevölkerung etc.

Somit liese sich das obere Urnenbeispiel problemlos auf weitere Kugeln erweitern, und wir könnten
die Kovarianz einfach ermitteln, da wir 𝐶𝑜𝑣[𝑋1 , 𝑋2 ] schon berechnet haben.

Die Cauchy-Schwarz Ungleichung ist sehr hilfreich, um die Kovarianz abzuschätzen oder sein
eigenes Ergebnis zu kontrollieren.

Definition 3.56
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.

𝐶𝑜𝑣[𝑋, 𝑌]2 ≤ 𝑉𝑎𝑟[𝑋]𝑉𝑎𝑟[𝑌]

Folgende Checkliste hilft beim Berechnen der Kovarianz:

Tipp
Wollen wir die Kovarianz einer Verteilung 𝑋1 , 𝑋2 , … 𝑋𝑛 schnell berechnen, gehen wir nach
folgendem Schema vor:

1. Wir bestimmen den Typ: Sind unsere Variablen unabhängig, dann ist die Kovarianz
null.

2. Ziehen wir alle Individuen aus einer Population (Totalerhebung) und 𝐸[𝑋1 ], 𝐸[𝑋2 ], …
sowie 𝑉𝑎𝑟[𝑋1 ], 𝑉𝑎𝑟[𝑋2 ], … sind gegeben oder lassen sich leicht berechnen, dann gilt:

𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = 0 (siehe Kapitel 3: Die Varianz)

und wir lösen das Gleichungssystem

0 = 𝑛𝑉𝑎𝑟[𝑋1 ] + 𝑛(𝑛 − 1)𝐶𝑜𝑣[𝑋1 , 𝑋2 ], 𝑤𝑒𝑛𝑛 𝑇𝑜𝑡𝑎𝑙𝑒𝑟ℎ𝑒𝑏𝑢𝑛𝑔

63http://math.stackexchange.com/questions/848013/covariance-of-random-variables-with-identical-
distribution
nach 𝐶𝑜𝑣[𝑋1 , 𝑋2 ] auf.

3. Ist die Totalerhebung oben nicht erfüllt, dann lösen wir direkt den Erwartungswert
𝐶𝑜𝑣[𝑋, 𝑌] = 𝐸[(𝑋 − 𝐸[𝑋])(𝑌 − 𝐸[𝑌])].

4. Haben wir hier Probleme, gehen wir über den Erwartungswert von 𝐸[𝑋𝑌], also
𝐶𝑜𝑣[𝑋, 𝑌] = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌].

5. Kommen wir oben nicht weiter, schätzen wir den Wert über die Cauchy-Schwarz
Ungleichung und dem Erwarteten Vorzeichen ab

𝐶𝑜𝑣[𝑋, 𝑌]2 ≤ 𝑉𝑎𝑟[𝑋]𝑉𝑎𝑟[𝑌].

6. Ist uns auch das nicht möglich, malen wir einen Scatter Graph und schätzen lediglich
das erwartete Vorzeichen ab, um den Typ der Korrelation zu bestimmen.

Stochastik für Informatiker Aufgabe 17, WS15/16

Die Brutto-Stundensätze für studentische und wissenschaftliche Hilfskräfte an der


GU betragen (in Euro) derzeit
A) (ohne Bachelorabschluss) 9,00
B) (mit Bachelor-, ohne Masterabschluss) 10,50
C) (mit Masterabschluss) 14,00.
In einem (fiktiven) Fachbereich sind derzeit 100 Hilfskräte angestellt, davon 60 in der
Kategorie A, 30 in der Kategorie B und 10 in der Kategorie C.

a) Berechnen Sie den Erwartungswert und die Varianz des (als Zufallsexperiments
aufzufassenden!) Stundensatzes einer rein zufällige aus der Gesamtheit (der
„Population“) der 100 Hilfskräfte gezogenen Person.

b) Alle 100 Personen werden in rein zufälliger Reihenfolge aufgerufen, dabei


ergeben sich die zufälligen Werte 𝑊1 , … , 𝑊100 . Wie groß ist die Varianz von
𝑊1 + ⋯ + 𝑊100 ?

c) Stellen Sie die in b) gefundene Varianz auch über die in der Vorlesung
hergeileitete Formel (für die Varianz einer Summe von Zufallsvariablen) dar und
berechnen Sie daraus 𝐶𝑜𝑣(𝑊1 , 𝑊2 ).

d) 10 Personen werden rein zufällig


(i) mit
(ii) ohne Zurücklegen gezogen, dabei ergeben sich die zufälligen Werte
𝑊1 , … , 𝑊10 . Berechnen Sie sowohl im Fall i) als auch im Fall ii) den
1
Erwartungswert und die Varianz des Stichprobenmittels 10 (𝑊1 + ⋯ + 𝑊10 ).
e) Um welchen Faktor wird die Standardabweichung des Stichprobenmittels in der
Situation der Aufgabe d) kleiner, wenn 40 mal statt 10 mal gezogen wird?
Um welchen Faktor wird sie in der Situation von d) ii) kleiner, wenn 40 mal statt
10 mal gezogen wird?

Repräsentiere𝑊 = (𝑊1 , 𝑊2 , … , 𝑊100 ) die gezogenen Personen.

a) Wir fangen immer mit dem Erwartungswert an. Da alle Stundenten aus der selben
Population gezogen werden, sind alle 𝑊𝑖 ’s identisch verteilt (aber nicht unabhängig).

Der Erwartungswert ist folglich für jeden gleich.

60 30 10
𝐸[𝑊1 ] = 9€ ∙ + 10,50€ ∙ + 14€ ∙ = 9,95€.
100 100 100

Wir wir mittlerweile wissen, können wir die Varianz auf mehrere Arten berechnen.
Es wird der Verschiebungssatz (siehe Kapitel 3: Der Verschiebungssatz) genutzt.

𝑉𝑎𝑟[𝑊1 ] = 𝐸[𝑊12 ] − 𝐸[𝑊1 ]2 .

Uns fehlt 𝐸[𝑊12 ], welches wir als Nebenrechnung ermitteln:

𝐸[𝑊12 ] = (9€)2 ∙ 0,6 + (10,50€)2 ∙ 0,3 + (14€)2 ∙ 0,1 = 101,275€2.

𝑉𝑎𝑟[𝑊1 ] = 𝐸[𝑊12 ] − 𝐸[𝑊1 ]2 = (101,275 − 9,952 )€2 = 2,2725€2 .

b) Wir haben im Kapitel 3: Eigenschaften der Varianz gelernt, dass wenn wir alle
Individuen einer Population ziehen, die Varianz immer null beträgt (Totalerhebung).

Folglich ist 𝑉𝑎𝑟[𝑊1 + 𝑊2 + ⋯ + 𝑊100 ] = 0.

c) Wir erwarten eine negative Kovarianz (wenn wir jemanden mit hohem
Stundengehalt wählen, tendiert unsere nächste Wahl dazu, einen mit weniger Gehalt
zu nehmen (Ziehen ohne Zurücklegen).

Die 𝑊𝑖 ’s sind identisch verteilt. Somit haben sie alle die gleiche Kovarianz
untereinander, also 𝐶𝑜𝑣(𝑊𝑖 , 𝑊𝑗 ) = 𝐶𝑜𝑣(𝑊𝑎 , 𝑊𝑏 ). Somit lässt sich die berechnet
abkürzen zu (siehe Kapitel 3: Eigenschaften von Kovarianzen)

𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊100 ] = 𝑛𝑉𝑎𝑟[𝑊1 ] + 𝑛(𝑛 − 1)𝐶𝑜𝑣(𝑊𝑖 , 𝑊𝑗 ).

Es gilt 𝑛 = 100.

Außerdem haben wir in der Aufgabe zuvor festgestellt, dass gilt:


𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊100 ] = 0.

0 = 100 ∙ 2,2725€2 + 100 ∙ 99𝐶𝑜𝑣(𝑊𝑖 , 𝑊𝑗 ).

Wir lösen auf und erhalten:


̅̅̅̅.
𝐶𝑜𝑣(𝑊𝑖 , 𝑊𝑗 ) = −0,022954

1 1 1
d) (i)𝐸 [10 (𝑊1 + ⋯ + 𝑊10 )] = ⏟
10
(𝐸[𝑊1 ] + ⋯ + 𝐸[𝑊10 ]) = ∙ 10 ∙ 9,95€ = 9,95€.
10
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡
Dies Ergebnis ist wenig überraschend, weil das Stichprobenmittel soll ja auch den
tatsächlichen Erwartungswert 𝐸[𝑊1 ] wieder geben (siehe Kapitel 3: Das Gesetz der
großen Zahlen).

Wir Ziehen mit Zurücklegen, ergo sind die Zufallsvariablen identisch verteilt und
unabhängig mit jeweiliger Kovarianz null.

Ergo brauchen wir nur summieren:

1 1 1
𝑉𝑎𝑟 [ (𝑊 + ⋯ + 𝑊10 )] = (𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊10 ) = ∙ 10 ∙ 𝑉𝑎𝑟[𝑊1 ]
10 1 ⏟
100 ⏟
100
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑆𝑢𝑚𝑚𝑒 𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑖.𝑖.𝑑.𝑍𝑉
= 0,2725€2 .

(ii) Da die Linearität des Erwartungswerts auch für abhängige Zufallsvariablen gilt
(siehe Kapitel 3: Eigenschaften des Erwartungswerts) bleibt er wie in (i).

Für die Varianz müssen wir diesmal die Kovarianz hinzuzählen, da die Variablen
abhängig sind (Ziehen ohne Zurücklegen).

1 1
𝑉𝑎𝑟 [ (𝑊 + ⋯ + 𝑊10 )] = (𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊10 )
10 1 ⏟
100
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑉𝑎𝑟𝑖𝑎𝑛𝑧
1
= (10𝑉𝑎𝑟[𝑊1 ] + 10 ∙ 9 ∙ 𝐶𝑜𝑣(𝑊1 , 𝑊2 ) ≈ 0,206€2 .
100

e) Die Berechnung sind identisch mit der Aufgabe zuvor, nur diesmal ist 𝑛 = 40.

1 1
(i) 𝑉𝑎𝑟 [40 (𝑊1 + ⋯ + 𝑊40 )] = 1600 ∙ 40 ∙ 𝑉𝑎𝑟[𝑊1 ] ≈ 0,0568€2 .

Für den Faktor gilt:


0,0568
≈ 0,2.
0,2725
1 1
(ii) 𝑉𝑎𝑟 [ (𝑊1 + ⋯ + 𝑊40 )] = (40𝑉𝑎𝑟[𝑊1 ] + 40 ∙ 39 ∙ 𝐶𝑜𝑣(𝑊1 , 𝑊2 ) ≈ 0,034€2 .
40 1600

Für den Faktor gilt:


0,034
≈ 0,165.
0,206
Die Standardabweichung

Definition 3.57
2
Die Standardabweichung 𝑠𝑡𝑑 = 𝜎 = √𝜎 2 ist die Quadratwurfel der Standardabweichung 𝜎 2 .

Wir erinnern uns: Die Varianz hat die Einheiten der Ursprungsverteilung quadriert. Dies war ein
Fall vom quadrierten Abstand. Die Standardabweichung bringt die quadrierten Einheiten wieder in
ihr Originalformat zurück.
Somit werden große Abstände vom Erwartungswert nicht mehr höher gewichtet. Das Resultat ist
ein repräsentativeres Maß für die Streuung.
Der bei 𝜎 entstehende Wert lässt sich somit einfacher interpretieren.
1
Wenn ein fairer Münzwurf die Standardabweichung 𝜎 = 2 hat, bedeutet dies, dass der langfristige
1
Abstand zum Erwartungswert tatsächlich ist.
2

Dies stimmt auch, da unser Münzwurf um den Erwartungswert 0,5 zentriert ist und beide
1
Realisierungen 1 und 0 von diesem „tatsächlich“ nur entfernt sind.
2

Beispiel 3.18

Berechne die Standardabweichung eines fairen Würfelwurfs.

Es repräsentiere 𝑋 die gewürfelte Augenzahl.


Wir haben in anderen Beispielen bereits hergeleitet, dass
𝑉𝑎𝑟[𝑋] = 2,91.

Somit gilt für die Standardabweichung:

𝜎 = √2,91 ≈ 1,70

Wichtig: Im Gegensatz zu Varianzen, können wir Standardabweichungen verschiedener


Verteilungen nicht einfach summieren.
Da Standardabweichungen aber durch quadrieren leicht in Varianzen überführt werden können,
konvertieren wir diese bei Summationen immer in jene.

Somit gilt:

Definition 3.58
Seien 𝑋1 , … , 𝑋𝑛 beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig sein.

𝑠𝑡𝑑(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = √𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ].
FAQ: Warum quadrierten Abstand?
Frage: Die Standardabweichung gibt die tatsächliche Streuung wieder. Ich sehe es aber
kritisch, dass sie als die Wurzel der Varianz 𝜎 = √𝐸[(𝑋 − 𝐸[𝑋])2 ] definiert ist, weil
Wurzelziehen numerisch leicht zu fehlern führen kann.
Wäre es nicht besser den tatsächlichen Abstand 𝜎 = 𝐸[|𝑋 − 𝐸[𝑋]|] zu nehmen, um
numerische Fehler zu vermindern?

Antwort: Hier unterscheidet man zwischen Theorie und Praxis. Für mathematische Formeln,
Theoreme und Sätze benutzt man oft die Varianz, weil sie mit dem Erwartungswert
vergleichbare Linearitätsregeln besitzt. Dies macht Berechnungen flexibler und oft einfacher.

In der Praxis kann man in der Tat die Standardabweichung als 𝜎 = 𝐸[|𝑋 − 𝐸[𝑋]|] definieren
und erhält dasselbe Ergebnis. Dennoch ist es auch in der Praxis nützlich, 𝜎 als Wurzel der
Varianz zu sehen.

Einfachster Fall ist eine Folge von Zufallsvariablen. Wir haben in der Definition oben
kennengelernt, dass wir Standardabweichungen der einzelnen Variablen nicht addieren
können. Varianzen lassen sich aber schon addieren (inklusive Kovarianz), weshalb es sich
dann sehr lohnt, die Standardabweichung in Varianzen zu überführen.

Hier einige Worte von Prof. Dr. A. Wakolbinger:

Sie fragen, warum man als “gängiges" Maß für die Schwankung einer zenrtierten
Zufallsvariablen X (wobei “zentriert bedeutet, dass E[X]=0) anstelle von deren
Standardabweichung sqrt{E[X^2]} nicht die erwartete absolute Abweichung E[|X|]
verwendet.

Ein erster, durchaus handfester Grund, ist der, dass die klassische Standardabweichung auf
viel übersichtlichere Formeln für die entsprechenden Größen von Summen unabhängiger
Zufallsvariablen führt als die Verwendung von E[|X|].

Ein tieferer Grund hierfür liegt - und das mag auf den ersten Blick erstaunen - in der
“Geometrie der Zufallsvariablen”. Mit Zufallsvariablen kann (und will) man rechnen: man
kann aus ihnen Linearkombinationen bilden und sie deshalb als Vektoren auffassen.

Der Begriff, um den es Ihnen geht, sollte dann für eine zentrierte Zufallvariable X der Länge
des entsprechenden Vektors entsprechen.

Nun entspricht für zentrierte Zufallsvariable die Unkorreliertheit gerade dem “Aufeinender
senkrecht stehen" (der “Orthogonalität”) der entsprechenden Vektoren, wenn man (was sich
anbietet) E[YZ] als Skalarprodukt von Y und Z verwendet.

In der Tat wissen wir ja auch, dass für unkorrelierte zentrierte Zufallsvariable Y, Z
gilt: 𝐸[(𝑌 + 𝑍)2 ] = 𝐸[𝑌 2 ] + 𝐸[𝑍 2 ].
Das ist nichts anderes als die Beziehung des Pythagoras. Daraus folgt z.b., dass für
unabhängige, identisch verteilte
𝑋1 , … , 𝑋𝑛 gilt: Die Standardabweichung von 𝑋1 + ⋯ + 𝑋𝑛 ist die Standardabweichung von
2
√𝑛. 𝜎1 (𝑊𝑢𝑟𝑧𝑒𝑙 𝑛 𝐺𝑒𝑠𝑒𝑡𝑧).
Dieses berühmte (und so einfache) “Wurzel n”-Gesetz hat keine ähnlich schöne
Entsprechung, wenn man 𝐸[|𝑋|] statt √𝐸[𝑋 2 ] als Schwankungsmaß einer zentrierten
Zufallsvariable 𝑋 verwenden würde.

Hier ist noch ein Zahlenbeispiel:

Seien 𝑋1 , 𝑋2 unabhängig und uniform auf {−1,1} verteilt, und 𝑋: = 𝑋1 + 𝑋2 .


𝑋1 und 𝑋2 haben "Länge Eins”, gleichgültig ob man E[|Zi|] oder sqrt{E[Z^2]} als “Längenmaß”
verwendet. Wie Sie sich leicht überzeugen können, ist E[X|] = 1 und sqrt{E[X^2]} = \sqrt
2. Letzteres entspricht der Länge der Diagonale des Einheitsquadrats, ersteres hat keine so
schöne geometrische Deutung.

Gegenüber diesen mathematisch-geometrischen Vorteilen (die, wie schon bemerkt, in vielen


schönen exakten Formel resultieren) fällt der von Ihnen am Ende erwähnte numerische
Aspekt weniger ins Gewicht.

Allerdings ist - gerade mit Blick auf unerwünschte “Verzerrungen” - zu erwähnen, dass die
von Ihnen favorisierte “erwartete absolute Abweichung” unter statistischen Gesichtspunkten
eine neue Bedeutung gewinnt, nämlich dann, wenn man “große Abweichungen” weniger
ernst nehmen (bzw. sie als “Ausreißer” behandeln) will. Dann wird man auf den sogenannten
Median einer Verteilung geführt: während der Erwartungswert von X diejenige Zahl ist, die
unter allen rellen Zahlen a die Größe E[(X-a)^2] minimiert, ist der Median von X diejenige
Zahl, die unter allen rellen Zahlen a die Größe E[|X-a|] minimiert.

Tipp
Da die Kovarianz Realisierungen der Zufallsvariablen 𝑋, 𝑌 multiplikativ und nicht additiv
verknüpft, müssen die Zahlenwerte von 𝑋, 𝑌 nicht diesselben Einheiten haben!
Das Wurzel-n-Gesetz
Wir wissen bereits, dass wir Varianzen unabhängiger Zufallsvariablen ohne Rücksicht auf
Kovarianzen addieren können. Sind diese noch identisch verteilt, nehmen wir die Varianz eines
beliebigen Folgenglieds 𝑛-mal.
Dies ergibt ein praktisches Gesetz für die Berechnung der Standardabweichung:

Definition 3.59
Seien 𝑋1 , … , 𝑋𝑛 beliebige unabhängige und identisch verteilte Zufallsvariablen.

√𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = √∑ 𝑉𝑎𝑟[𝑋𝑖 ] = √𝑛 ∙ 𝑉𝑎𝑟[𝑋1 ] = √𝑛 ∙ √𝑉𝑎𝑟[𝑋1 ] = √𝑛𝜎1


𝑖=1

Dabei ist 𝜎1 die Standardabweichung des ersten Folgenglieds.

In anderen Worten: Die Standardabweichung von 𝑛 unabhängig, identisch verteilten


Zufallsvariablen ist das „Wurzel n-fache“ der Standardabweichung einer Zufallsgröße.
Somit wächst unsere Standardabweichung zwar polynomiell aber langsam. Dies ist nützlich. Haben
wir ungenaue Messgeräte erhöht sich die erwartete Streuung nur langsam.
Die Stichprobenvarianz

Wie dem Stichprobenmittel (engl. sample variance) 𝜇̅ oft nicht das tatsächliche 𝜇 bekannt ist, so
kennen wir oft auch nicht die tatsächliche Varianz 𝜎 2 einer Verteilung.

Dies kommt häufig vor, weil wir Informationen über jedes Individuum einer Population haben
müssten um 𝐸[(𝑋 − 𝜇)2 ] zu berechnen64.
Besitzt eine Verteilung aber eine Varianz, so lässt sich diese in vielen Fällen durch die
Stichprobenvarianz ̅𝜎̅̅2̅ approximieren.

Definition 3.60
Die Stichprobenvarianz ̅𝜎̅̅2̅ ist die Varianz einer Stichprobe.

Folglich ist ̅𝜎̅̅̅2 genau wie 𝜇̅ eine statistische Messung: Es wird vorrausgesetzt, dass uns Daten eines
schon eingetretenen Zufallsexperiments vorliegen.

Die Formel ist absolut identisch zur Berechnung der probabilistischen Varianz, nur anstatt mit
Wahrscheinlichkeiten gewichten wir hier mit der Anzahl der Stichproben.

Definition 3.61
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge von Realisierungen.

Die auch Populationsvarianz (auch biased 65 Stichprobenvarianz) ist definiert als


𝑛
̅𝜎̅̅2̅ = 𝑆𝑛 = 1 ∑(𝑎𝑖 − 𝜇̅ )2 .
𝑛
𝑖=1

FAQ: Warum quadrierten Abstand?


Frage: Warum substrahieren wir mit 𝜇̅ anstatt 𝜇?

Antwort: Weil, wenn wir 𝐸[𝑋] ermitteln können wir genug Informationen besitzen66, um auch
gleich 𝑉𝑎𝑟[𝑋] zu berechnen. Wir bemerken aber: Unser Mittel 𝜇̅ konvergiert in den meisten
Fällen zu 𝐸[𝑋], wenn 𝜇̅ ein guter Schätzer ist (siehe Kapitel 3: Das Gesetz der großen Zahlen).

Deshalb können wir auch immer mit 𝐸[𝑋] subtrahieren, wenn wir es zufällig zur Verfügung
haben.
FAQ: Was bedeutet „biased“?

64 Es gilt zwar 𝑋: Ω → 𝑆 aber in Kapitel 1 lernten wir, dass Wahrscheinlichkeiten auf Teilmengen von Ω
rückgeführt werden.
65 Bias beschreibt den Abstand zwischen 𝜎 ̅2 und dem tatsächlichen 𝜎 2 .
66 Für 𝐸[𝑋] brauchen wir ja die Einzelwahrscheinlichkeiten 𝑃(𝑋 = 𝑖) jeder Realisierung und gerade die sind

uns ja meistens nicht bekannt.


Frage: Wofür steht das biased in der Definition?

Antwort: Ein bias (deutsch Erwartungstreue) beschreibt den Abstand des erwarteten Wert
eines Schätzers 𝑚̅ zum tatsächlichen Wert 𝑚.

Ein biased Schätzer 𝑚


̅ ist schlechter als ein unbiased Schätzer 𝑚
̅, weil letzterer keinen
erwarteten Abstand zum tatsächlichen 𝑚 hat.

Die obere Formel ist aber nicht optimal. Empirische Versuche zeigen, dass sich für Stichproben
𝑛 < 𝑁67 eine bessere Schätzung ergibt wenn man durch 𝑛 − 1 teilt anstatt 𝑛.

Definition 3.62
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge von Realisierungen.

Die unbiased 68 Stichprobenvarianz ist definiert als


𝑛
̅𝜎̅̅2̅ = 𝑆𝑛−1 = 1 ∑(𝑎𝑖 − 𝜇̅ )2 .
𝑛−1
𝑖=1

Auch wenn es nicht intuitiv erscheint, sollte bei der Berechnung der Stichprobenvarianz mit 𝑛 < 𝑁
immer der unbiased Schätzer genommen werden. Haben wir dagegen alle Daten einer Population
vorliegen (𝑛 = 𝑁), dann liefert der biased Schätzer ein genaueres Ergebnis.

Tipp
Manchmal steht ̅𝜎̅̅2̅𝑛 = 𝑆𝑛2 für den biased Schätzer und ̅𝜎̅̅2̅𝑛−1 = 𝑆𝑛−1
2
für den unbiased
Schätzer.

Steht keine Zahl im Subscript sollte angenommen werden, dass automatisch der unbiased
Schätzer ̅𝜎̅̅2̅𝑛−1 gemeint ist.

Tipp
Die Khan-Academy hat eine tolle Videoreihe nur zur Stichprobenvarianz.

Achtung
Es gibt eine Ausnahme, wo der biased Schätzer ̅𝜎̅̅2̅𝑛 = 𝑆𝑛2 immer einen besseren Wert liefert
als der unbiased Schätzer: Wenn uns keine Stichprobe vorliegt sondern wir alle Individuen
einer Population betrachten, also ̅𝜎̅̅2̅𝑁 .

67 𝑁 beschreibt die Größe einer Population, siehe Kapitel 3: Populationen vs. Stichproben
68 Bias beschreibt den Abstand zwischen 𝜎̅2 und dem tatsächlichen 𝜎 2 .
Tipp
Es ist nie falsch die Populationsvarianz anstatt die Stichprobenvarianz als Schätzer zu nutzen.
Die Populationsvarianz neigt nur zu Unterschätzungen, die aber bei einer großen
Stichprobenzahl geringfügig ausfallen.

Da die Varianz im Grunde genommen auch nur der Erwartungswert einer transformierten
Zufallsvariable ist, greift auch hier das Gesetz der großen Zahlen: Das bedeutet: Je mehr
Stichproben (größeres 𝑛) wir ziehen, desto besser wird unser Schätzer.

Beispiel 3.19

1 10
Eine Variable sei 𝑋~𝐵𝑖𝑛(10, ). Die tatsächliche Varianz beträgt 𝑉𝑎𝑟[𝑋] = = 2, 3̅.
3 3

Dies sei uns aber nicht bekannt. Uns stehen nur folgende Informationen, zum Ausgang
eines Experiments 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋10 ) zur Verfügung:
Versuch Wert
𝑋1 0
𝑋2 0
𝑋3 1
𝑋4 0
𝑋5 0
𝑋6 1
𝑋7 1
𝑋8 0
𝑋9 1
𝑋10 0

Berechne die biased ̅̅̅̅


2
𝜎10 und unbiased ̅̅̅̅̅̅̅
2
𝜎10−1 Stichprobenvarianzen für 𝑋.

Hier ist es wichtig, zu verstehen was sich vor uns befindet. Um die Varianz auszurechnen,
können wir nicht einfach
9
̅̅̅̅̅̅
2
1 2
𝜎 𝑛−1 = ∑(𝑎𝑖 − 𝜇̅ )
9
𝑖=1
rechnen, weil uns für die obere Formel nur ein Datenwert zur Verfügung steht, nämlich 4!
Dies ist der Fall, weil eine binomialverteilte Zufallsvariable eine Summe 𝑋1 + 𝑋2 + ⋯ + 𝑋10
zurückgibt und kein Tupel mit den einzelnen Ausprägungen (𝑋1 , 𝑋2 , … , 𝑋10 ).
Die Tabelle beschreibt aber Letzteres.

Die obere Version würde also nur einen guten Schätzer ergeben, wenn unsere Tabelle eine
mit 𝑋1 + 𝑋2 + ⋯ + 𝑋10 verträgliche Form hätte:

Versuch (jeweils 𝑛 = 10 Würfe pro Anzahl der Einsen


Versuch)
1 4
… . ..
𝑚∈ℕ 1

Einfacher ist es eine solche Zufallsvariable aufzuteilen.

Wir versuchen also


𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10
zu bestimmen.

Es sei 𝑀 ein Schätzer mit Auftrittswahrscheinlichkeit 𝑝̅ .


10
1 4
𝑃(𝑋1 = 1) = 𝐸[𝑋1 ]
⏟ ≈ 𝑝̅ = ∑ 𝑎𝑖 =
10 10
𝑑𝑎 𝑋1 𝐼𝑛𝑑𝑖𝑘𝑎𝑡𝑜𝑟𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖=1

Daraus folgt:

4 6
𝑃(𝑀 = 1) = , 𝑃(𝑀 = 0) =
10 10

Nun lassen sich beide Varianzen ̅𝜎̅̅2̅10−1 und ̅𝜎̅̅2̅10 approximieren:


4 2 4 4 2 6
𝑉𝑎𝑟[𝑋1 ] ≈ 𝑉𝑎𝑟[𝑀1 ] = ̅𝜎̅̅2̅10 = (1 − ) ∙ + (0 − ) ∙ = 0,24
10 10 10 10
2 2
̅𝜎̅̅2̅10−1 = (1 − 4 ) ∙ 4 + (0 − 4 ) ∙ 6 = 0.26̅
10 9 10 9

Wir lassen das Experiment 𝑛 = 10 mal laufen. Daraus ergibt sich für ̅𝜎̅̅2̅ über die Linearität
der Varianz für unabhängige Zufallsvariablen (da 𝑋~𝐵𝑖𝑛 müssen die 𝑀𝑖 𝑠 unabhängig sein):

𝑉𝑎𝑟[𝑋1 ] + 𝑉𝑎𝑟[𝑋2 ] + ⋯ + 𝑉𝑎𝑟[𝑋10 ] ≈ 𝑉𝑎𝑟[𝑀1 ] + 𝑉𝑎𝑟[𝑀2 ] + ⋯ + 𝑉𝑎𝑟[𝑀10 ] = 2,4.

𝑉𝑎𝑟[𝑋1 ] + 𝑉𝑎𝑟[𝑋2 ] + ⋯ + 𝑉𝑎𝑟[𝑋10 ] ≈ ̅𝜎̅̅2̅10−1 + ̅𝜎̅̅2̅10−1 + ⋯ + ̅𝜎̅̅2̅10−1 = 2, 6̅.

Da der unbiased ̅𝜎̅̅2̅10−1 Schätzer schon für die Einzelwahrscheinlichkeit die Varianz
überschätzt, tut er dies auch für die Summe.

In diesem Fall wäre der biased Schätzer die bessere Wahl.


Die Stichprobenkovarianz
Analogie zur Stichprobenvarianz: Auch hier haben wir eine biased Version für die Population und
eine unbiased Version für eine Stichprobe der Population.

Definition 3.63
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎⃗ = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ), 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ und
𝑏⃗⃗ = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ), 𝑚𝑖𝑡 𝑏𝑖 ∈ ℝ zwei gleich lange Datensätze.

Die Populationskovarianz (biased Stichprobenkovarianz) ist definiert als


𝑁
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(𝑎𝑖 − ̅̅̅)(𝑏
𝜇𝑎⃗⃗ 𝑖 − ̅̅̅)
𝜇𝑦⃗⃗
𝑁
𝑖=1

Definition 3.64
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎⃗ = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ), 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ und
𝑏⃗⃗ = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ), 𝑚𝑖𝑡 𝑏𝑖 ∈ ℝ zwei gleich lange Datensätze.

Die biased Stichprobenkovarianz ist definiert als


𝑛
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(𝑎𝑖 − ̅̅̅)(𝑏
𝜇𝑎⃗⃗ 𝑖 − ̅̅̅)
𝜇𝑦⃗⃗
𝑛−1
𝑖=1

Tipp
Es ist nie falsch die Populationskovarianz anstatt die Stichprobenkovarianz als Schätzer zu
nutzen. Die Populationskovarianz neigt nur zu Unterschätzungen, die aber bei einer großen
Stichprobenzahl geringfügig ausfallen.
Beispiel 3.20

Das Wetteramt des afrikanischen Königreichs Zamunda hat folgende Daten aller
aufgezeichneten Urlaubstage veröffentlicht:

Temperatur in °𝐶 Anzahl der Urlauber


22 10
24 12
23 13
19 7
30 35
35 40
31 29
17 3

Berechne und interpretiere die Kovarianz dieser Daten!

Zuerst müssen wir unsere Mittelwerte berechnen.

(22 + 24 + 23 + 19 + 30 + 35 + 31 + 17)°𝐶
𝜇𝑎 =
̅̅̅ = 25,125°𝐶
8

(10 + 12 + 13 + 7 + 35 + 40 + 29 + 3)𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
𝜇𝑏 =
̅̅̅ = 18,625 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
8

Da dies alle aufgezeichneten Urlaubstage (𝑛 = 𝑁) sind, gibt uns die Populationsvarianz ein
besseres Ergebnis.
8
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(22 − 25,125)(10 − 18,625) + (24 − 25,125)(12 − 18,625) + ⋯
8
𝑖=1
594,9013
+ (17 − 25,125)(3 − 18,625) ≈ ≈ 74,36
8
Wir haben eine positive Kovarianz. Wenn die Temperatur steigt, so kommen auch mehr
Touristen. Weil uns die Zahl selbst nicht viel sagt, berechnen wir noch die Korrelation (siehe
Kapitel Pearson Product Moment) aus:

Es ergeben sich nach Nebenrechnungen folgende Standardabweichungen:

̅̅̅
𝜎 𝑎 ≈6,26.
𝜎
̅̅̅𝑏 ≈ 13,94.

594,9013
Unsere Korelation beträgt somit ≈ 0,85.
5,861∙13.04

Folglich sind die zwei Datensätze 𝑎⃗, 𝑏⃗⃗ sehr linear korreliert.
Beispiel 3.21

Erneut betrachten wir das Wetteramt des afrikanischen Königreichs Zamunda.

Da die Tinte des Druckers nicht ausreichte, erreicht uns nur ein Teil der Urlaubsstatistik.

Temperatur in °𝐶 Anzahl der Urlauber


22 10
24 12
23 13
19 7

Schätze die Korrelation ab!

Wir berechnen unsere Stichprobenmittelwerte:

(22 + 24 + 23 + 19)°𝐶
𝜇𝑎 =
̅̅̅ = 22°𝐶
4

(10 + 12 + 13 + 7)𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
𝜇𝑏 =
̅̅̅ = 10,5 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
4
Die Einheiten (°𝐶 𝑢𝑛𝑑 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟) lassen wir zur Übersicht weg. Da wir eine Stichprobe
haben, nutzen wir die Stichprobenkovarianz.
4
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(22 − 22)(10 − 10.5) + ⋯ + (19 − 22)(7 − 10.5) = 5, 3̅.
3
𝑖=1
Wie wir sehen, ist unsere Stichprobe zu klein, um ein repräsentatives Ergebnis zu liefern.
Das Vorzeichen ist aber noch immer positiv, weshalb wir über die Art der Korrelation
(positiv korreliert) noch richtige Folgerungen treffen.

Es ergeben sich nach Nebenrechnungen folgende Standardabweichungen:


𝜎𝑎 ≈ 2,1602.
̅̅̅
𝜎
̅̅̅𝑏 ≈ 2,64.

Unsere Korelation beträgt somit ungefähr 0,929.

Folglich sind die Datensätze 𝑎⃗, 𝑏⃗⃗ sehr linear korreliert.

Obwohl die Kovarianz im Vergleich zur Voraufgabe einen weit anderen Wert hat, ist die
Korrelation ziemlich ähnlich. Dies ist ein weiteres Beispiel, welches bezeugt, dass man die
Kovarianz zweier Datensätze allein am Zahlenwert eher nicht vergleichen kann (lediglich das
Vorzeichen bietet eine gute Vergleichsbasis).
Der Grad der linearen Abhängigkeit, die Korrelation, kann dagegen ein besseres Bild
zeichnen.
Populationen vs. Stichproben
Wir sind in Hillary Clintons Wahlkampfteam. Um fundierte Wahlvermutungen anstellen zu können
entwickeln wir eine Umfrage mit der einfachen Frage:
„Werden Sie in der kommenden Wahl für Hillary Clinton stimmen?“.
Dabei gibt es ein Problem: Wir können nicht jeden einzelnen der 218 Mio. wahlberechtigten
Amerikaner befragen.
Da wir aber von probabilistischen Konvergenzen und Indikatorvariablen gehört haben (Herleitung
über das Gesetz der großen Zahlen und Das Wunder der Indikatorvariablen), sind wir uns im klaren
darüber, dass eine große Stichprobe ausreicht, um die Meinung der Bevölkerung abzuschätzen.
Obwohl wir vielleicht nie die tatsächliche Meinung aller Wähler kennen werden (schließlich
registriert sich nicht jeder Wahlberechtigte auch zur Wahl), vertrauen wir auf die Validität der
Stochastik, um unser Problem zu lösen.

Definition 3.65
Eine Population repräsentiert die Menge alle relevanten „Teilnehmer“ einer Betrachtung.

Im oberen Beispiel wäre die Menge der Amerikaner unsere Population. Dabei müssen diese
Teilnehmer nicht menschlich sein: Auch alle relevanten Ausgänge von Messungen,
Zufallsexperimenten oder Naturphänomenen Phänomen können eine Population darstellen.

Definition 3.66
Eine Stichprobe ist eine Teilmenge einer Population.

Stichproben sind nichts weiteres als Teilmengen einer Population. In der Tat müssten wir
Parallelen zum ersten Kapitel sehen: Denn Wahrscheinlichkeiten sind auf Populationen definiert69.

Definition 3.67
Bei einem Wahrscheinlichkeitsraum (Ω, Σ, 𝑃) repräsentiert Ω die Population und Σ die Menge
der Stichproben70.

Dabei ist unsere Population nicht immer nur Ω: Haben wir eine Zufallsvariable 𝑋: Ω → 𝑆, so kann
auch 𝑆 zur relevanten Population werden (und Ω ist dann eine Art „Metapopulation“ im
Hintergrund). Da 𝑋 ja einen eigenen Messraum (𝑆, Σ ′ ) darstellt, ist dann Σ′ die Menge der
Stichproben zur Population 𝑆.
Ereignisse sind somit nichts weiteres als Stichproben von Populationen, da sie Teilmengen dieser
darstellen.
Dies deckt sich auch mit unserer Grunddefinition aus Kapitel 1, nämlich

69 Wenn man der Philosophie folgt, dass Ω alle möglichen Ausgänge (und somit Stichproben) eines
Zufallsexperiments enthält
70 Wenn uns (Ω, Σ, 𝑃) nichts sagt, sollten wir Kapitel 1 wiederholen.
𝐴𝑛𝑧𝑎ℎ𝑙 𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒
𝑃(𝑋 ∈ 𝐴) = .
𝐴𝑛𝑧𝑎ℎ𝑙 𝑚ö𝑔𝑙𝑖𝑐ℎ𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒

Wie die Einleitung des Abschnitts zeigt, können wir Wahrscheinlichkeiten nicht immer auf
Grundpopulationen definieren: Hillary’s Wahlkampfteam berechnet die Siegwahrscheinlichkeit
schließlich anhand einer Stichprobe. Unsere Schätzer im Monte-Carlo Experiment aus Kapitel 1,
aber auch das Stichprobenmittel sowie die Stichprobenvarianz aus Kapitel 3 basieren auf einer
Stichprobenmenge71.

Tipp
Als Bauernregel lässt sich sagen: Ist die Grundmenge Ω eines Wahrscheinlichkeitsraums
selbst eine Stichprobe, dann werden alle induzierten Wahrscheinlichkeiten dieses Raums
auch nur Schätzer sein.

Die Anzahl der Individuen einer Population wird meistens mit 𝑁 bezeichnet. Haben wir einen
Datensatz vor uns liegen, so interessieren uns Wahrscheinlichkeitsräume weniger: Wir brauchen
keine Wahrscheinlichkeiten um das arithmetische Mittel oder die Populationsvarianz zu berechnen.

Tipp
Im englischen bezeichnet Frequency eine Häufigkeitsverteilung und Distribution eine
Wahrscheinlichkeitsverteilung.

Aus den oben genannten Gründen sind Häufigkeitsverteilungen und


Wahrscheinlichkeitsverteilungen aber dennoch eng verbunden: Haben wir genug Häufigkeiten
(Stichproben) können wir Wahrscheinlichkeiten bilden. Und Wahrscheinlichkeiten sind nur ein
Indikator für zukünftig entstehende Häufigkeiten.
Folgende Tabelle fasst die Unterschiede und empfohlene Einsatzgebiete nochmal zusammen.

Name Symbol, Formel(diskret) Einsatzgebiet


Abbk.

71 Hier ist die Grundmenge Ω selbst das Ergebnis einer Stichprobe.


Erwartungs- 𝜇, 𝐸[𝑋] 𝐸[𝑋] = ∑ 𝑖 ∙ 𝑃(𝑋 = 𝑖) Wahrscheinlichkeitsverteilung
wert verschieben
𝑖∈𝑆

Varianz 𝜎 2 , 𝑉𝑎𝑟[𝑋] 𝐸[(𝑋 − 𝐸[𝑋])2 ] Wahrscheinlichkeitsverteilung


vertikal skalieren
𝑛
Stichproben- 𝜇̅ 1 • Mittelwert einer
mittel ∑ 𝑎𝑖 Häufigkeitsverteilung
𝑛
𝑖=1 berechnen
• Erwartungswert 𝐸[𝑋]
approximieren
𝑛
Stichproben- ̅̅̅̅̅̅
𝜎 2
𝑛−1 1 • Mittelwert einer Stichprobe
varianz ∑(𝑎𝑖 − 𝜇̅ )2 bilden
𝑛−1
(unbiased) 𝑖=1 • Populationsvarianz
approximieren
• Wahrscheinlichkeitsvarianz
𝑉𝑎𝑟[𝑋] approximieren
Stichproben- ̅𝜎̅̅̅2
𝑁 1
𝑁
• Populationsvarianz
varianz ∑(𝑎𝑖 − 𝜇̅ )2 berechnen72
𝑁
(biased) 𝑖=1
Kovarianz 𝐶𝑜𝑣(𝑋, 𝑌) 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] • Kovarianz einer
Wahrscheinlichkeitsverteilung
berechnen
Populations- ̅̅̅̅̅̅̅̅̅̅̅̅ 𝑁
• Populationskovarianz
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) 1
kovarianz ∑(𝑎𝑖 − ̅̅̅)(𝑏
𝜇𝑎⃗⃗ 𝑖 − ̅̅̅)
𝜇𝑦⃗⃗ berechnen
𝑁
𝑖=1
̅̅̅̅̅̅̅̅̅̅̅̅ 𝑛
Stichproben- 𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) 1 • Stichprobenkovarianz
kovarianz ∑(𝑎𝑖 − ̅̅̅)(𝑏
𝜇𝑎⃗⃗ 𝑖 − ̅̅̅)
𝜇𝑦⃗⃗ berechnen
𝑛−1
𝑖=1

72Wir teilen durch 𝑁, weil wir zuvor feststellten, dass eine biased Stichprobenvarianz am besten nur
verwendet warden sollte, wenn wir Zugriff auf die Gesamtpopulation haben.
Einfache Lineare Regression
Hinweis: Wenn wir den Abschnitt Die Kovarianz verstanden haben, fällt uns dieses Kapitel
wesentlich leichter,
Uns ist mittlerweile bekannt, dass Zufallsvariablen sowie Ereignisse manchmal über
Abhängigkeiten verfügen. Zum Beispiel steht das Ereignis 𝐴 = {𝐷𝑖𝑒 𝑆𝑜𝑛𝑛𝑒 𝑠𝑐ℎ𝑒𝑖𝑛𝑡} mit
𝐵 = {𝐷𝑟𝑎𝑢ß𝑒𝑛 𝑖𝑠𝑡 𝑒𝑠 ℎ𝑒𝑙𝑙} sicherlich im starken Verhältnis.
Sehr angenehm sind für uns aber Zusammenhänge, die sich quantifizieren lassen. Transformieren
wir die obige Abhängigkeit in Zufallsvariablen der Form
1, 𝑤𝑒𝑛𝑛 𝑆𝑜𝑛𝑛𝑒 𝑠𝑐ℎ𝑒𝑖𝑛𝑡
𝑋={
0, 𝑠𝑜𝑛𝑠𝑡
1, 𝑤𝑒𝑛𝑛 𝑑𝑟𝑎𝑢ß𝑒𝑛 ℎ𝑒𝑙𝑙
𝑌={
0, 𝑠𝑜𝑛𝑠𝑡
so haben wir einen quantifizierbaren Zusammenhang geschaffen.
Nun überlegen wir uns: Ist es nicht der Fall, dass wenn die Sonne scheint (also 𝑋 = 1) es auch
draußen hell ist (𝑌 = 1)? Reicht es somit nicht in den meisten Fällen aus, lediglich den Wert von 𝑋
zu kennen, um auch auf 𝑌 zu schließen?
Die Antwort ist ein klares „Ja“! Auch wenn nur eine schwache Abhängigkeit zwischen 𝑋 und 𝑌
besteht, ist es für uns ein Informationszuwachs73 bezüglich 𝑌 , den Wert von 𝑋 zu kennen.

Definition 3.68
In der Regression versucht man abhängige Variablen 𝑌1 , … , 𝑌𝑚 durch Verkettung
unabhängiger Variablen 𝑋1 , … , 𝑋𝑛 zu „erklären“.

Wir beschäftigen uns hier mit dem Spezielfall der einfachen linearen Regression.

Definition 3.69
In der einfachen linearen Regression modellieren wir eine Abhängigkeit der Form

𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖, 𝑚𝑖𝑡 𝛽𝑖 , 𝜖 ∈ ℝ ,

Dabei ist 𝜖 meistens keine Konstante sondern entspricht einer Verteilung (z.B. 𝜖~𝑁(0,1)).

Tipp
Die einfache lineare Regression ist ein Spezialfall der linearen Regression, die sich mit
allgemeinen Polynomen der Form
𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽𝑚 𝑋𝑚 … + 𝛽2 𝑋2 + 𝛽1 𝑋1 + 𝛽0 + 𝜖, 𝑚𝑖𝑡 𝛽𝑖 , 𝜖 ∈ ℝ
beschäftigt.
Das Modul „Machine Learning“ der Goethe Universität beschäftigt sich fast ausschließlich mit
linearer Regression.

73 Dies steht im Kontrast zu unkorellierten Zufallsvariablen, wo uns das Wissen von 𝑋 nichts über 𝑌 aussagt.
Oft kommt einem die berechtigte Frage: Aber woher wollen wir wissen, ob 𝑌 sich durch ein
Polynom der Form 𝑓(𝑋) + 𝜖 darstellen lässt?
Die Antwort klingt trivial: Wir probieren es einfach aus! Oft reicht es nämlich für unsere Zwecke
völlig aus, wenn 𝑌 sich annähernd durch unser Regressionspolynom beschreiben lässt.
Die Konstante 𝜖 deckt solche Abweichungen von unserer Regressionsgerade nämlich ab.
Folgende Liste gibt eine Anzahl von Indikatoren, die uns sagen können, ob sich die abhängige
Variable 𝑌 gut durch ein lineares Regressionspolynom 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖 darstellen lässt:

Tipp
Wenn wir eine Prognose der Form 𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖 schaffen wollen, hilft es zu
prüfen, ob:

1. Wenn 𝐶𝑜𝑣(𝑋, 𝑌) ≈ 0, dann brauchen wir nicht weiter rechnen, da 𝑋, 𝑌 quasi


unabhängig sind.
𝐶𝑜𝑣(𝑋,𝑌)
2. Ist |𝑃𝑃𝑀(𝑋, 𝑌)| = | | ≥ 0.2, dann besteht macht es Sinn mit der
√𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌)
Regression fortzufahren.

Pearson Product Moment


Um zu wissen, ob sich zwei Variablen 𝑋, 𝑌 durch eine Gerade darstellen lassen, lohnt es sich, dass
Pearson Product Moment (PPM) auszurechnen.
Dieses ist ein Maß der linearen Korrelation. Somit gibt das PPM an, ob zwischen 𝑋, 𝑌 eine lineare
Abhängigkeit besteht.

Definition 3.70
Das Pearson Product Moment quantifiziert den linearen Zusammenhang zweier Variablen.

Es ist definiert als:


𝐶𝑜𝑣(𝑋, 𝑌)
𝑃𝑃𝑀(𝑋, 𝑌) = .
√𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌)

Wie oben zu sehen, normiert das Pearson Product Moment die Kovarianz in Bezug auf die
Standardabweichung. Dies ermöglicht es, auch unterschiedliche Verteilungen bezüglich ihres PPM
Wertes zu vergleichen.
Dabei liegen die Werte immer im Intervall [−1, +1].

Definition 3.71
Die Werte des Pearson Product Moments liegen immer im Intervall [−1, +1].
Folgende Interpretationsmöglichkeiten bieten sich:

Definition 3.72
Ist 𝑃𝑃𝑀(𝑋, 𝑌) = 0, so besteht kein linearer Zusammenhang zwischen 𝑋, 𝑌.

Definition 3.73
Ist 𝑃𝑃𝑀(𝑋, 𝑌) > 0, so besteht ein positiv linearer Zusammenhang zwischen 𝑋, 𝑌.

Definition 3.74
Ist 𝑃𝑃𝑀(𝑋, 𝑌) < 0, so besteht ein negativ linearer Zusammenhang zwischen 𝑋, 𝑌.

Dabei nehmen wir lediglich an, dass 𝑌 sich durch eine Linearkombination von 𝑋’s darstellen lässt.
Stellen wir uns folgendes Szenario vor: Wir haben einen Datensatz, der den Zusammenhang
zwischen Fahrzeuglänge und Preis beschreibt

Länge in Meter (𝑋) Durchschnittlicher Fahrzeugpreis in € (𝑌)


3 8000
3.50 9000
4 13000
4.50 24000
5 41000
5.50 55000

Offensichtlich ist die Länge mit dem Preis positiv korreliert. Aber wie gut lässt sich dieser
Zusammenhang affin linear (also als Gerade) darstellen?

Das Product Moment hat folgende Antwort dazu:


𝐶𝑜𝑣(𝑋, 𝑌) 14250
𝑃𝑃𝑀(𝑋, 𝑌) = = ≈ 0.9529.
√𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌) √0.72916 ∙ √307666666.667

Im obigen Beispiel haben wir für die Berechnung der Varianz die Populationsformel 𝜎 2 genutzt und
nicht den unbiased Schätzer ̅𝜎̅̅2̅𝑛−1 , da wir den Datensatz nicht als Stichprobe betrachten.
Malen wir die Daten auf, so wird der annähernd positive lineare Zusammenhang klar:
Der fast linerare Zusammenhang zwischen 𝑋, 𝑌 ist leicht ersichtlich

Tipp
In der Vorlesung Stochastik für Informatiker der Goethe Universität Frankfurt, wird das
Pearson Product Moment als Korrelationskoeffizient 𝜅 bezeichnet.

Affin Lineare Prognose


Wir haben nun genug Werkzeuge für unsere erste Prognose. Da das Pearson Product Moment uns
den Grad der linearen Abhängigkeit angibt, ist es nicht verwunderlich, dass es für lineare
Prognosen auch eine große Rolle spielt.

Tipp
Affin lineare Prognose bedeutet einfach nur ein Regressionspolynom der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽1 𝑋 + 𝛽0 , 𝑚𝑖𝑡 𝛽𝑖 ∈ ℝ.

Ohne das Word affin würde man streng genommen eine Ursprungsgerade der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽0 𝑋, 𝑚𝑖𝑡 𝛽0 ∈ ℝ
meinen.

Die gesuchten Koeffizienten 𝛽0 , 𝛽1 für unser Polynom haben folgende Form:

Definition 3.75
Wenn wir 𝑌 auf Basis von 𝑋 auf affine Weise vohersagen wollen, also ein Polynom der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽1 𝑋 + 𝛽0 , 𝑚𝑖𝑡 𝛽𝑖 ∈ ℝ gesucht ist, dann minimieren folgende Koeffizienten den
erwarteten Fehler:

𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌)
𝜎𝑋

𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋
FAQ: Warum sind die 𝜷′ 𝒔 so definiert?
Frage: Ach, komm schon! Warum sollen die oberen Werte für die 𝛽′𝑠 denn die beste affin
lineare Prognose bilden?

Antwort: Ich komme nicht. Schau dir diesen Beweis an:


2
𝐸 [(𝑌 − 𝑓(𝑋)) ] = 𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ].

Also:

𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ] = 𝐸[𝑌 2 ] − 2𝛽1 𝐸[𝑋𝑌] + 𝛽12 𝐸[𝑋 2 ] − 2𝛽0 𝐸[𝑌] + 2𝛽0 𝛽1 𝐸[𝑋] + 𝛽02 .

Wir minimieren den Abstand. Dafür muss die Ableitung für 𝛽0 sowie 𝛽1 null werden.

𝜕𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ]
=0
𝜕𝛽0
⟺ −2𝐸[𝑌] + 2𝛽1 𝐸[𝑋] + 2𝛽0 =0
⟺ 𝛽0 = −𝛽1 𝜇𝑋 + 𝜇𝑌 .

Dasselbe für 𝛽0 :
𝜕𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ]
=0
𝜕𝛽1
⟺ −2𝐸[𝑋𝑌] + 2𝛽1 𝐸[𝑋 2 ] + 2𝛽0 𝐸[𝑋] =0
𝐸[𝑋𝑌] − 𝛽0 𝐸[𝑋]
⟺ 𝛽1 =
𝐸[𝑋 2 ]
Da 𝛽0 schon gelöst wurde, entsteht:
𝐸[𝑋𝑌] − 𝛽0 𝐸[𝑋]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] − (−𝛽1 𝐸[𝑋] + 𝐸[𝑌])𝐸[𝑋]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] + 𝛽1 𝐸[𝑋]2 − 𝐸[𝑋]𝐸[𝑌]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌]

𝐸[𝑋]2 𝐶𝑜𝑣(𝑋,𝑌)
⟺ 𝛽1 [1 − ] =
𝐸[𝑋 2 ] 𝐸[𝑋 2 ]
𝐶𝑜𝑣(𝑋, 𝑌) 𝐸[𝑋 2 ]
⟺ 𝛽1 = ∙
𝐸[𝑋 2 ] 𝐸[𝑋 2 ] − 𝐸[𝑋]2

𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
𝐶𝑜𝑣(𝑋, 𝑌) 𝜎𝑌
⟺ 𝛽1 = = 𝑃𝑃𝑀(𝑋, 𝑌).
𝑉𝑎𝑟[𝑋] 𝜎𝑋

Die Wahl der 𝛽’s minimiert also den erwarteten quadratischen Abstand zu 𝑌.

Wir halten fest: Hat man die Kovarianz 𝐶𝑜𝑣[𝑋, 𝑌] so besitzt man schon alle notwendigen Werte für
die Berechnung der affin linearen Regression! Dies ist der Fall, weil wir für die Kovarianz sowieso
den Erwartungswert und die Varianz von 𝑋 und 𝑌 berechnen müssen.
Wakolbinger Buch Aufgabe

Diese Aufgabe lässt sich im Buch Elementare Stochastik (Götz Kersting, Anton Wakolbinger)
finden.

𝑍1 und 𝑍2 seien Zufallsvariablen mit Erwartungswert 0, Varianz 1 und Kovarianz ½.


Es sei 𝑋 = 2𝑍1 + 1, 𝑌 = 𝑍1 − 𝑍2 .
2
Für welche Gerade 𝑔(𝑋) = 𝛽1 𝑋 + 𝛽0 wird 𝐸 [(𝑌 − 𝑔(𝑋)) ] minimal?

Wie wir bewiesen haben, hat diese Gerade die Koeffizienten

𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌),
𝜎𝑋

𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋 .

Also rechnen wir los!


𝜇𝑋 = 𝐸[2𝑍1 + 1] = 1,

𝜇𝑌 = 𝐸[𝑍1 − 𝑍2 ] = ⏟
𝐸[𝑍1 ] − ⏟
𝐸[𝑍2 ] = 0.
=0 =0
𝜎𝑋2 = 𝑉𝑎𝑟[2𝑍1 + 1] = 4.
𝜎𝑌2 = 𝑉𝑎𝑟[𝑍1 − 𝑍2 ] = 𝑉𝑎𝑟[𝑍1 ] + 𝑉𝑎𝑟[𝑍2 ]
⏟ + 2⏟
𝐶𝑜𝑣[𝑋, 𝑌] = 3.
𝑉𝑎𝑟[−𝑍2 ]=𝑉𝑎𝑟[𝑍2 ] 0.5
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(2𝑍1 + 1, 𝑍1 − 𝑍2 ) = 2𝐶𝑜𝑣(𝑍1 , 𝑍1 − 𝑍2 )
⏟ = 2[𝐶𝑜𝑣(𝑍1 , 𝑍1 ) + 𝐶𝑜𝑣(𝑍1 , −𝑍2 )]
𝐸𝑖𝑔𝑒𝑛𝑠𝑐ℎ𝑎𝑓𝑡𝑒𝑛 𝐾𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧
= 2[𝑉𝑎𝑟[𝑍1 ] − 𝐶𝑜𝑣(𝑍1 , 𝑍2 )] = 2 ∙ [1 − 0.5] = 1.

𝜎𝑌 √3 𝐶𝑜𝑣(𝑋, 𝑌) √3 1 1
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌) = ∙ = ∙ = .
𝜎𝑋 2 2 ∙ √3 2 2 ∙ √3 4

1 1
𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋 = 0 − ∙ 1 = .
4 4

Also:
𝑓(𝑋) = 0.25(𝑋 + 1).

Häufiger Fehler ist es, die falsche Basis bei der Berechnung der Prognose zu nutzen. Möchte man
nämlich 𝑋 auf Basis von 𝑌 berechnen, hat 𝛽1 den Wert
𝜎𝑋
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌)
𝜎𝑌
anstatt
𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌).
𝜎𝑋
Das 𝑃𝑃𝑀(𝑋, 𝑌) bleibt aber unabhängig von der Basis gleich, da die Kovarianz symmetrisch ist, also
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋).
„Beste“ Prognose
Unsere Datensätze kommen nicht immer in linerer Form: Es gibt genug Fälle, wo die Kovarianz
𝐶𝑜𝑣(𝑋, 𝑌) verschwindet, die Daten aber dennoch eindeutig abhängig sind:

Stochastik für Informatiker Aufgabe 25, WS17/18

𝑋 sei uniform verteilt auf [−1,1], 𝑌 ≔ 𝑋 2 . Sind 𝑋 und 𝑌


(i) unkorreliert
(ii) unabhängig?
1 1
Hinweis zu (ii) Betrachten sie die Ereignisse {|𝑋| < } und {𝑌 > }.
2 4

(i) Es gilt:
Da 𝑋 uniform verteilt auf [−1,1] ist, gilt 𝐸[𝑋] = 0.
𝑋 2 hat die Form einer Parabel mit Scheitelpunkt 𝐸[𝑋 2 ]. Somit ist
laut unserer „auf dem Finger Balanzierregel“(Eigenschaften des Erwartungswertes)
𝐸[𝑋 2 ] = 0.
𝑋 3 hat die Form eines 𝑆 mit Sattelpunkt bei im Ursprung. Auch hier gilt
laut der gleichen Regel 𝐸[𝑋 3 ] = 0.

Somit:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑋, 𝑋 2 ) = 𝐸[𝑋 ∙ 𝑋 2 ] − ⏟
𝐸[𝑋]𝐸[𝑋 2 ] = 𝐸[𝑋 3 ] = 0.
=0
Somit sind 𝑋, 𝑋 2 unkorreliert.
1 1
(ii) Da 𝑌 = 𝑋 2 ist 𝑌 < wenn |𝑋| < .
4 2

1 1 1
Es gilt: 𝑃 (|𝑋| < ) = , da 𝑋 ja uniform auf [−1,1]. Somit ist zwangsweise 𝑃 (𝑌 > ) =
2 2 4
1 1 1
1 − 𝑃 (𝑌 < ) = 1 − = .
4 2 2

Aber:

1 1 1 1
𝑃
⏟(|𝑋| < 2 , 𝑌 > 4) = 0, da wenn |𝑋| < ja 𝑌 < .
2 4
𝑔𝑒𝑚𝑒𝑖𝑛𝑠𝑎𝑚𝑒 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡

Somit:

1 1 1 1 1
𝑃 (|𝑋| < , 𝑌 > ) = 0 ≠ = 𝑃 (|𝑋| < ) 𝑃 (𝑌 > ) .
2 4 4 2 4

Somit ist die Bedingung für Unabhängigkeit nicht erfüllt.

Das Pearson Product Moment würde uns in solchen Fällen nur eine Konstante Funktion 𝑓(𝑋) = 𝛽0
mit 𝛽0 = 𝜇𝑌 zurückgeben.

Tipp
Eine Konstante Prognose 𝛽0 = 𝜇𝑌 ist nicht nutzlos! Das Bestimmtheitsmaß 𝑅 2 nutzt 𝛽0 quasi
als „Basisprognose“, mit dem man alle anderen Prognosen vergleicht.

Wir brauchen also eine Prognose, die Nichtlinearitäten im Datensatz optimal abbildet.

Definition 3.76
Gilt 𝑋(𝜔) = 𝑎, dann ist die beste Prognose von 𝑌 auf Basis von 𝑋 eine Funktion der Form

𝑓(𝑎) = 𝐸[𝑌|𝑋 = 𝑎], 𝑚𝑖𝑡 𝑋(𝜔) = 𝑎.

Diese Funktion ist im Allgemeinen nicht stetig.

Wir berechnen somit einfach nur den bedingten Erwartungswert 𝐸[𝑌|𝑋 = 𝑎] für jede Realisierung
von 𝑋! Das kann natürlich langwierig werden, wenn 𝑋 viele Werte annehmen kann (oder gar
kontinuierlich ist), weshalb man oft nur kleinere Datensätze per Hand berechnet.

Beispiel 3.22

Sei 𝑋~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(20,0.6), und

𝑌~𝑁(0,1) , wenn 𝑋 = 0 und 𝑌~exp(3), wenn 𝑋 = 1. Berechne die beste Prognose von 𝑌
auf Basis von 𝑋.
Es gilt:
1
𝐸[𝑌|𝑋 = 0] = 0 und 𝐸[𝑌|𝑋 = 1] = .
3

Somit hat unsere beste Prognose die Form:

0, 𝑤𝑒𝑛𝑛 𝑋 = 0
𝑓(𝑋) = {1 .
, 𝑤𝑒𝑛𝑛 𝑋 = 1
3
Unabhängigkeit / Abhängigkeit von Zufallsvariablen

Wir haben schon in Die Kovarianz gesehen, dass einzelne Zufallsvariablen andere beeinflussen
können. Dieser Grad der Korrelation ließ sich sogar quantifizeren, zum Beispiel durch das Pearson
Product Moment. Es lässt sich somit der Eindruck erwecken, dass die Kovarianz das entscheidende
Kriterium ist, um Abhängigkeiten unter Zufallsvariablen zu bestimmen.

Dass dies nicht immer funktioniert, lässt sich schnell an einem einfachen Bespiel zeigen74. Gegeben
seien zwei reelle Zufallsvariablen 𝑋, 𝑌, mit

𝑌 = 𝑋2
und
1
𝑃(𝑋 = 𝑖) = , 𝑓ü𝑟 𝑖 ∈ {−1,0,1}.
3

Offensichtlich wird 𝑌 durch 𝑋 determiniert, da nur die Ausgänge


𝑆 ≔ {(−1,1), (0,0), (1,1)}
möglich sind.
Die Kovarianz ist aber dennoch null, da
2
𝐸[𝑋] = 0, 𝐸[𝑌] = , 𝐸[𝑋𝑌] = 0,
3
woraus
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] = 0.
Das Problem: Die Kovarianz misst ausschließlich den linearen Zusammenhang. Sind zwei
Zufallsvariablen komplett nichtlinear miteinander verbunden, wird dieses Maß folglich
fehlschlagen.
Das dies auch oben der Fall ist, lässt sich schnell durch die gemeinsame Verteilung (𝑋, 𝑌) zeigen:

74Siehe https://stats.stackexchange.com/questions/179511/why-zero-correlation-does-not-necessarily-
imply-independence?noredirect=1&lq=1
Der Zusammenhang zwischen 𝑋, 𝑌 ist vollständig nichtlinear.
Eine lineare Prognose 𝑌 ≈ 𝑤1 𝑋 + 𝑤0 würde folglich 𝑤1 = 0
und 𝑤0 = 𝐸[𝑌] setzen.

Deshalb muss Abhilfe geschaffen werden. Diese kommt in Form von Abhängigkeit/Unabhängigkeit:

Definition 3.77
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.

Wenn
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵),
dann sind 𝐴, 𝐵 unabhängig.

Um zu prüfen, ob zwei Ereignisse unabhängig sind, brauchen wir folglich lediglich das Produkt
𝑃(𝐴) ∙ 𝑃(𝐵) mit der gemeinsamen Verteilung 𝑃(𝐴 ∩ 𝐵) zu vergleichen. Stimmen beide Produkte
überein, so sind 𝐴, 𝐵 unabhängig. Sind die Produkte ungleich, so sind 𝐴, 𝐵 abhängig.
Haben wir mehrere Ereignisse 𝐴1 , … , 𝐴𝑛 , so reicht lediglich paarweises Vergleichen

𝑃(𝐴𝑖 ) ∙ 𝑃(𝐴𝑗 ) = 𝑃(𝐴𝑖 ∩ 𝐴𝑗 ), ∀𝑖, 𝑗

nicht mehr aus. Wir müssen dann alle untereinander auftretenden Kombinationsmöglichkeiten
miteinander vergleichen:
Definition 3.78
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.

Wenn
𝑘 𝑘

𝑃 (⋂ 𝐴𝑖 ) = ∏ 𝑃(𝐴𝑖 ) , 𝑚𝑖𝑡 1 ≤ 𝑘 ≤ 𝑛, 𝑖 ≠ 𝑗
𝑖=1 𝑖=1
sind die Ereignisse 𝐴1 , … , 𝐴𝑛 unabhängig.

Der Aufwand ist notwendig, da die Wahrscheinlichkeit 𝑃(𝐴1 ∩ … ∩ 𝐴𝑛 ) des gemeinsamen


Auftretens von den Abhängigkeiten der Ereignisse untereinander abhängt.
Ein netter Nebeneffekt ist, dass uns dies auch sagt, dass 𝑃(𝐴1 , … , 𝐴𝑘 ), 𝑚𝑖𝑡 𝑘 < 𝑛 unabhängig sind.
Kennen wir das Euler Diagramm von zu untersuchenden Ereignissen, lässt sich manchmal sofort
ablesen, ob diese unabhängig oder abhängig sind:

Definition 3.79
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.

Sind mindestens zwei Mengen 𝐴𝑖 , 𝐴𝑗 disjunkt, so ist 𝐴1 , … , 𝐴𝑛


abhängig.

Das obere macht Sinn, weil wenn 𝐴𝑖 , 𝐴𝑗 disjunkt sind, so wissen wir sofort, dass 𝐴𝑖 und 𝐴𝑗
gleichzeitig auftreten können. Dies zeigt nochmal das folgende Beispiel:

Beispiel 3.23

Gegen seien zwei Mengen 𝐴 = {0}, 𝐵 = {1} mit 𝑃(𝐴), 𝑃(𝐵) > 0, die dieselbe Grundmenge
Ω partitionieren. Lässt sich eine Aussage
bezüglich Abhängigkeit / Unabhängigkeit treffen, ohne die genauen zugrunde liegenden
Wahrscheinlichkeiten zu kennen?

Ja. Weil 𝐴, 𝐵 im selben Wahrscheinlichkeitsraum definiert sind und beide Elemente


disjunkt, haben wir:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)
⏟ ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴)
⏟ ∙ 𝑃(𝐴) = 0.
=0 =0

Aber: 𝑃(𝐴) ∙ 𝑃(𝐵) ≠ 0, 𝑑𝑎 𝑖𝑛 𝐴𝑢𝑓𝑔𝑎𝑏𝑒𝑛𝑠𝑡𝑒𝑙𝑙𝑢𝑛𝑔 𝑃(𝐴), 𝑃(𝐵) > 0.

Ersteres ist der Fall, weil 𝐴 nicht eintreffen kann sobald 𝐵 geschehen ist und umgedreht.
Nach dem Motto: Haben wir im Münzwurf Kopf angezeigt, so kann nicht gleichzeitig Zahl
erscheinen.
Wenn wir dieses Buch genau studiert haben, so fällt uns auf, dass wir hier über Ereignisse reden
und nicht Zufallsvariablen75.
Für diskrete Zufallsvariablen ist dies kein Problem, da wir das soeben gelernte ohne Probleme dort
anwenden können, also zu überprüfen, ob
𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) = 𝑃(𝑋 = 𝑖) ∙ 𝑃(𝑌 = 𝑗), ∀𝑖, 𝑗, 𝑗 ≠ 𝑗.
Bei kontinuierlichen Zufallsvariablen müssen wir etwas tricksen, da dort punktweise
Wahrscheinlichkeiten ja nicht möglich sind:

Definition 3.80
Seien 𝑋, 𝑌 kontinuierliche Zufallsvariablen und 𝑓𝑋 , 𝑓𝑌 deren Dichtefunktionen.

Wenn die Dichtefunktion der gemeinsamen Verteilung

𝑓𝑋 (𝑖) ∙ 𝑓𝑌 (𝑗) = 𝑓𝑋,𝑌 (𝑖, 𝑗)

erfüllt, so sind 𝑋, 𝑌 unabhängig.

Äquivalent lässt sich auch prüfen, ob die gemeinsame Verteilungsfunktion

𝐹𝑋 (𝑖) ∙ 𝑌𝑌 (𝑗) = 𝐹𝑋,𝑌 (𝑖, 𝑗)

genügt.

Beispiel 3.24

Seien 𝑋, 𝑌 kontinuierliche Zufallsvariablen mit gemeinsamer Dichtefunktion


2
𝑓𝑋,𝑌 (𝑖, 𝑗) = 𝑖, 𝑚𝑖𝑡 0 ≤ 𝑖 ≤ √2, 0 ≤ 𝑗 ≤ 1.

2
𝑓𝑋 (𝑖) = 𝑖, 𝑚𝑖𝑡 0 ≤ 𝑖 ≤ √2,
𝑓𝑌 (𝑗) = 1, 𝑚𝑖𝑡 0 ≤ 𝑗 ≤ 1.

Sind 𝑋, 𝑌 abhängig oder unabhängig?

Optional prüfen wir zuerst, ob die gemeinsame Verteilungsfunktion


überhaupt gültig ist:
2
√2 1

∫ ∫ 𝑖 𝑑𝑗 𝑑𝑖 = 1.
0 0
Rechnet man das obere Integral nach, so sieht man, dass die Gleichung erfüllt ist.

75Falls wir den formalen Unterschied zwischen Ereignissen und Zufallsvariablen vergessen haben, so können
wir Ereignisraum (Event Space) und Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie
wiederholen.
Zur Bestimmung der Abhängigkeit/Unabhängigkeit überprüfen wir:
𝑓𝑋 (𝑖) ∙ 𝑓𝑌 (𝑗) = 𝑖.
Dies ist offensichtlich erfüllt, weshalb 𝑋, 𝑌 unabhängig sind.

Jede gemeinsame Wahrscheinlichkeit 𝑃(𝐴1 ∩ … ∩ 𝐴𝑛 ) bzw. 𝑃(𝑋1 = 𝑖, … 𝑋𝑛 = 𝑙) lässt sich auflösen.

Definition 3.81
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.

𝑃(𝐴1 ∩ … ∩ 𝐴𝑛 ) = 𝑃(𝐴1 ∩ … ∩ 𝐴𝑛−1 |𝐴𝑛 ) ⋅ 𝑃(𝐴𝑛 ).


Dabei ist die Reihenfolge der 𝐴𝑖 ′𝑠 beliebig.

Insbesonders gilt somit bei zwei Ereignissen:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴).

Die obere Zerlegung ist sehr wichtig, da rekursive Anwendung der Zerlegung jede gemeinsame
Verteilung in eine Kette von bedingten Wahrscheinlichkeiten auflösen kann.

Stochastik für Informatiker Aufgabe 18, WS16/17

Die Verteilung des zufälligen Paares (𝑋1 , 𝑋2 ) mit Werten in 𝑆1 × 𝑆2 lässt sich angeben
durch die Matrix der gemeinsamen Verteilungsgewichte 𝜌(𝑎1 , 𝑎2 ), 𝑎1 ∈ 𝑆1 , 𝑎2 ∈ 𝑆2 . Wir
betrachten vier Beispiele, bei den ersten beiden ist 𝑆1 = {1,2}, 𝑆2 = {𝑏, 𝑐} bei den letzten
beiden ist 𝑆1 = {1,2,3}, 𝑆2 = {𝑏, 𝑐, 𝑑}.

i) ii)
𝑏 𝑐 𝑏 𝑐
1 0.1 0.3 1 0.1 0.3
2 0.15 0.45 2 0.2 0.4

iii) iv)
𝑏 𝑐 𝑑 𝑏 𝑐 𝑑
1 6𝛾 7𝛾 10𝛾 1 6𝛾 7𝛾 10𝛾
2 12𝛾 14𝛾 20𝛾 2 13𝛾 14𝛾 20𝛾
3 18𝛾 21𝛾 30𝛾 3 17𝛾 21𝛾 30𝛾
1
mit 𝛾 = . In welchen Fällen sind 𝑋1 , 𝑋2 unabhängig und in welchen nicht?
138

Die Lösung ist einfach: Wir müssen lediglich prüfen, ob für alle Realisierungen {1,2, 𝑏, 𝑐, … }
𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗) = 𝑃(𝑋1 = 𝑖) ∙ 𝑃(𝑋2 = 𝑗)
erfüllt ist.

Wichtig: Wir haben in der Tabelle lediglich gemeinsame Verteilungsgewichte


𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗)
gegeben.

Um die Einzelwahrscheinlichkeit von z.B. 𝑃(𝑋2 = 𝑏) zu ermitteln, summieren wir lediglich


die marginalen Wahrscheinlichkeiten 𝑃(𝑋1 = 𝑖|𝑋2 = 𝑏) zusammen (der Grund dafür ist im
nachfolgenden FAQ gegeben). Alternativ können wir auch prüfen, ob die Zeilen Vielfache
voneinander sind.

i)
𝑃(𝑋1 = 1) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) = 0.1 + 0.3 = 0.4.
𝑃(𝑋1 = 2) = 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.15 + 0.45 = 0.6.

𝑃(𝑋2 = 𝑏) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) = 0.1 + 0.15 = 0.25.


𝑃(𝑋1 = 𝑐) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.3 + 0.45 = 0.75.

Zwischenprobe:
𝑃(𝑋1 ) = 𝑃(𝑋1 = 1) + 𝑃(𝑋1 = 2) = 0.4 + 0.6 = 1. ✓
𝑃(𝑋2 ) = 𝑃(𝑋2 = 𝑏) + 𝑃(𝑋2 = 𝑐) = 0.25 + 0.75 = 1. ✓

Folglich haben wir richtig summiert.

Nun:
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑏) = 0.4 ∙ 0.25 = 0.1 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏). ✓
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑐) = 0.4 ∙ 0.75 = 0.3 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑐). ✓
𝑃(𝑋1 = 2) ∙ 𝑃(𝑋2 = 𝑏) = 0.6 ∙ 0.25 = 0.15 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏). ✓
𝑃(𝑋1 = 2) ∙ 𝑃(𝑋2 = 𝑐) = 0.6 ∙ 0.75 = 0.45 = 𝑃(𝑋1 = 2, 𝑋2 = 𝑐). ✓

Unser Unabhängigkeitstest verlief erfolgreich, weshalb 𝑋1 , 𝑋2 unabhängig sind.

Alternativ sehen wir, dass die zweite Zeile das 1.5-fache der ersten ist, also
(0.1 ∙ 1.5, 0.3 ∙ 1.5) = ⏟
⏟ (0.15, 0.45),
1.5∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑧𝑤𝑒𝑖𝑡𝑒 𝑍𝑒𝑖𝑙𝑒
was bedeutet, dass 𝑋1 , 𝑋2 unabhängig sind.

ii)
𝑃(𝑋1 = 1) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) = 0.1 + 0.3 = 0.4.
𝑃(𝑋1 = 2) = 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.2 + 0.4 = 0.6.

𝑃(𝑋2 = 𝑏) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) = 0.1 + 0.2 = 0.3.


𝑃(𝑋1 = 𝑐) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.3 + 0.45 = 0.7.

Aber:
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑏) = 0.4 ∙ 0.3 = 0.12 ≠ 𝑃(𝑋1 = 1, 𝑋2 = 𝑏). 
Der Unabhängigkeitstest schlägt fehl, 𝑋1 , 𝑋2 sind abhängig voneinander.

Alternativ sehen wir, dass die zweite Zeile diesmal kein Vielfaches der ersten ist.

iii)
Ab nun würde es langwierig werden, die marginalen Wahrscheinlichkeiten aufzusummieren,
da wir nun noch mehr Kombinationen zu prüfen hätten.

Wir erkennen aber, dass die Zeilen Vielfache voneinander sind, weil
(6𝛾 ∙ 2 + 7𝛾 ∙ 2 + 10𝛾 ∙ 2) = ⏟
⏟ (12𝛾, 14𝛾, 20𝛾),
2∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑧𝑤𝑒𝑖𝑡𝑒 𝑍𝑒𝑖𝑙𝑒
(6𝛾
⏟ ∙ 3 + 7𝛾 ∙ 3 + 10𝛾 ∙ 3) = (18𝛾,
⏟ 21𝛾, 30𝛾).
3∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑑𝑟𝑖𝑡𝑡𝑒 𝑍𝑒𝑖𝑙𝑒

Dies hat zur Folge, dass 𝑋1 , 𝑋2 unabhängig sind.

iv)
Diesmal gibt es keinen multiplikativen Faktor der ersten und dritten Zeile. Ergo sind 𝑋1 , 𝑋2
abhängig voneinander.

FAQ: Warum sind marginalisierte Wahrscheinlichkeiten hilfreich?


Frage: Warum gilt
𝑛

𝑃(𝑋2 = 𝑏) = ∑ 𝑃(𝑋1 = 𝑘, 𝑋2 = 𝑏) ?
𝑘=1

Antwort: Dies funktioniert aufgrund der Zerlegung von 𝑃(𝑋1 = 𝑘, 𝑋2 = 𝑏):


𝑛

𝑃(𝑋2 = 𝑏) = ∑ 𝑃(𝑋1 = 𝑘|𝑋2 = 𝑏) ∙ 𝑃(𝑋2 = 𝑏)


𝑘=1
𝑛

= 𝑃(𝑋2 = 𝑏) ∑ 𝑃(𝑋1 = 𝑘|𝑋2 = 𝑏) = 𝑃(𝑋2 = 𝑏).



𝑘=1
=1

FAQ: Warum implizieren Zeilenvielfache Unabhängigkeit?


Frage: In der Aufgabe 18, WS16/17 haben wir gesehen, dass bei einer Tabelle mit
gemeinsamen Wahrscheinlichkeiten lediglich prüfen müssen, ob diese Vielfache voneinander
sind. Wieso und wann ist dies der Fall?

Antwort: Sehr gute Frage! Diese werde ich aber im folgenden Kästchen beantworten, weil
dies schonmal eine Übungsaufgabe war.

Stochastik für Informatiker Aufgabe 18, WS16/17

Es seien 𝑋1 und 𝑋2 diskrete Zufallsvariablen, deren gemeinsame Verteilungsgewichte von


der Form (∗)𝜌(𝑎1 , 𝑎2 ) = 𝜇1 (𝑎1 )𝜇2 (𝑎2 ) mit nichtnegativen 𝜇1 (𝑎1 ), 𝜇2 (𝑎2 ) sind. Zeigen Sie,
dass dann die Produktformel 𝜌(𝑎1 , 𝑎2 ) = 𝜌1 (𝑎1 )𝜌2 (𝑎2 ), 𝑎1 ∈ 𝑆1 , 𝑎2 ∈ 𝑆2 , gilt, mit 𝜌1 (𝑎1 ) =
∑𝑎′ 𝜌(𝑎1 , 𝑎2 ′) und 𝜌2 (𝑎2 ) = ∑𝑎1′ 𝜌(𝑎1 ′, 𝑎2 ). Prüfen Sie dazu erst nach, dass 𝜌1 (𝑎1 ) =
2
𝜇1 (𝑎1 )𝑘2 mit 𝑘2 = ∑𝑎2′ 𝜇2 (𝑎2 ′) gilt, sowie 𝜌2 (𝑎2 ) = 𝜇2 (𝑎2 )𝑘1 mit 𝑘1 = ∑𝑎1′ 𝜇1 (𝑎1 ′). Warum
folgt aus (∗) der Gleichheit 𝑘1 𝑘2 = 1?
Zuerst dürfen wir uns nicht verwirren lassen. Die 𝜌’s sind normale Gewichtfunktionen. Das
bedeutet
𝜌(𝑎1 , 𝑎2 ) = 𝜌1 (𝑎1 )𝜌2 (𝑎2 ),
ist dasselbe, wie
(∗∗)𝑃(𝑋1 = 𝑎1 , 𝑋2 = 𝑎2 ) = 𝑃(𝑋1 = 𝑎1 ) ∙ 𝑃(𝑋2 = 𝑎2 ).

Wir prüfen somit lediglich, ob die Zufallsvariablen unabhängig sind (also erfüllen(∗∗)),
wenn deren Wahrscheinlichkeit proportional zu Faktoren 𝑘1 , 𝑘2 ist.

Dann mal los!

Zu zeigen:
𝜌1 (𝑎1 ) = 𝜇1 (𝑎1 )𝑘2 mit 𝑘2 = ∑𝑎2′ 𝜇2 (𝑎2 ′).

Es gilt aufgrund marginaler Wahrscheinlichkeiten:


𝜌1 (𝑎1 ) = ∑ 𝜌(𝑎1 , 𝑎2 ′) = ∑ 𝜇1 (𝑎1 )𝜇2 (𝑎2 ′) = 𝜇1 (𝑎1 ) ∑ 𝜇2 (𝑎2 ′).
⏟ 𝑎2 ′ ⏟ 𝑎2 ′ 𝑎2 ′
𝑆𝑢𝑚𝑚𝑒 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙𝑒𝑟 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡𝑒𝑛 𝑆𝑖𝑒ℎ𝑒 𝐴𝑢𝑓𝑔𝑎𝑏𝑒𝑛𝑠𝑡𝑒𝑙𝑙𝑢𝑛𝑔

Zu zeigen:
𝜌2 (𝑎2 ) = 𝜇2 (𝑎2 )𝑘1 mit 𝑘1 = ∑𝑎1′ 𝜇1 (𝑎1 ′).

𝜌2 (𝑎2 ) = ∑ 𝜌(𝑎1 ′, 𝑎2 ) = ∑ 𝜇1 (𝑎1 ′)𝜇2 (𝑎2 ) = 𝜇2 (𝑎2 ) ∑ 𝜇1 (𝑎1 ′).


⏟ 𝑎1 ′ ⏟ 𝑎1 ′ 𝑎1 ′
𝑆𝑢𝑚𝑚𝑒 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙𝑒𝑟 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡𝑒𝑛 𝑆𝑖𝑒ℎ𝑒 𝐴𝑢𝑓𝑔𝑎𝑏𝑒𝑛𝑠𝑡𝑒𝑙𝑙𝑢𝑛𝑔

Zu zeigen:
𝜌(𝑎1 , 𝑎2 ) = 𝜇1 (𝑎1 )𝜇2 (𝑎2 ) ⟺ 𝜌(𝑎1 , 𝑎2 ) = 𝜌1 (𝑎1 )𝜌2 (𝑎2 ).

𝜌1 (𝑎1 )𝜌2 (𝑎2 ) = 𝜇1 (𝑎1 ) ∑ 𝜇2 (𝑎2 ′) ∙ 𝜇2 (𝑎2 ) ∑ 𝜇1 (𝑎1 ′)


⏟ 𝑎2 ′ 𝑎1 ′
𝑆𝑖𝑒ℎ𝑒 𝑜𝑏𝑒𝑛
= 𝜇1 (𝑎1 ) ∙ 𝜇2 (𝑎2 ) ∑ 𝜇2 (𝑎2 ′) ∙ ∑ 𝜇1 (𝑎1 ′)
𝑎2 ′ 𝑎1 ′

= ⏟ 1 , 𝑎2 )
𝜌(𝑎 ∑ 𝜇2 (𝑎2 ′) ∙ ∑ 𝜇1 (𝑎1 ′).
𝜌(𝑎1 ,𝑎2 )=𝜇1 (𝑎1 )𝜇2 (𝑎2 ) ⏟ 𝑎2 ′ 𝑎1 ′
=1,𝑑𝑎 𝑎𝑖 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔

Wie wir sehen, muss 𝑘1 𝑘2 = 1 erfüllt sein, wenn 𝑋1 , 𝑋2 unabhängig sind, da sonst unsere
fundamentale Gleichung
𝜌1 (𝑎1 )𝜌2 (𝑎2 ) = 𝜌(𝑎1 , 𝑎2 ),
nicht erfüllt ist.
Bedingte Wahrscheinlichkeiten

Kovarianzen, Korrelationen, Unabhängigkeiten - wir haben mittlerweile viele Situationen erlebt, in


denen Zusammenhänge zwischen Zufallsprozessen bestehen. Bisher haben wir aber lediglich
erkennen können, ob Zufallsvariablen (oder Ereignisse) abhängig voneinander sind. Definiert
haben wir sie aber noch nicht. Dies wird sich nun ändern.

Definition 3.82
Eine bedingte Wahrscheinlichkeit ist abhängig von der Realisierung eines vorherigen
Ereignisses.

In der Praxis, begegnen uns bedingte Wahrscheinlichkeiten (conditional probabilities) vor allem
bei mehrstufigen Zufallsexperimenten. Das aber bedeutet nicht, dass man mindestens zwei
Zufallsvariablen 𝑋, 𝑌 braucht, um bedingten Wahrscheinlichkeiten zu begegnen. Schon ein
Ausdruck der Form 𝑃(𝑋 > 𝑎|𝑋 < 𝑏) lässt Interpendenzen entsehen, obwohl wir nur eine einzelne
Zufallsvariable haben. Das aber selbst schon Partitionen der Grundmenge Ω bedingte
Wahrscheinlichkeiten entsehen lassen, ist vielleicht nicht sofort ersichtlich:

Definition 3.83
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.

Dann gilt:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴).

Analog gilt für Zufallsvariablen 𝑋: Ω1 → 𝑆1 , 𝑌: Ω2 → 𝑆2 :

𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) = 𝑃(𝑋 = 𝑖|𝑌 = 𝑗) ∙ 𝑃(𝑌 = 𝑗) = 𝑃(𝑌 = 𝑗|𝑋 = 𝑖) ∙ 𝑃(𝑋 = 𝑖).

Tipp
𝑃(𝑋 = 𝑖|𝑌 = 𝑗) lässt sich lesen als
Gebe mir die Wahrscheinlichkeit, dass 𝑋 den Wert 𝑖 annimmt, wenn zuvor 𝑌 den Wert 𝑗
angenommen hat.

Das 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴) gilt folgt aus dem Satz von Bayes:
Definition 3.84
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.

Dann gilt:

𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴).

Analog gilt für Zufallsvariablen 𝑋: Ω1 → 𝑆1 , 𝑌: Ω2 → 𝑆2 :

𝑃(𝑋 = 𝑖|𝑌 = 𝑗) ∙ 𝑃(𝑌 = 𝑗) = 𝑃(𝑌 = 𝑗|𝑋 = 𝑖) ∙ 𝑃(𝑋 = 𝑖).

Tipp
In den Modulen Machine Learning I & II entgegnet einem der Satz von Bayes häufig, um
posterior Wahrscheinlichkeiten herauszufinden.

Beispiel 3.25

Gegeben ist ein zweifacher fairer Münzwurf. Berechne die Wahrscheinlichkeit Kopf zu
werfen, wenn zuvor Zahl geworfen wurde.

Die Münzwürfe sind fair und unabhängig. Deshalb:

𝑃(𝑌 = 𝑍𝑎ℎ𝑙|𝑋 = 𝐾𝑜𝑝𝑓) ∙ 𝑃(𝑋 = 𝐾𝑜𝑝𝑓)


𝑃(𝑋 = 𝐾𝑜𝑝𝑓|𝑌 = 𝑍𝑎ℎ𝑙) =
⏟ 𝑃(𝑌 = 𝑍𝑎ℎ𝑙)
𝑢𝑚𝑔𝑒𝑠𝑡𝑒𝑙𝑙𝑡𝑒𝑟 𝑆𝑎𝑡𝑧 𝑣𝑜𝑛 𝐵𝑎𝑦𝑒𝑠
𝑃(𝑌 = 𝑍𝑎ℎ𝑙, 𝑋 = 𝐾𝑜𝑝𝑓) 0.25 1
= = = .
⏟ 𝑃(𝑌 = 𝑍𝑎ℎ𝑙) 0.5 2
𝐾𝑜𝑛𝑣𝑒𝑟𝑡𝑖𝑒𝑟𝑢𝑛𝑔 𝑖𝑛 𝑔𝑒𝑚𝑒𝑖𝑛𝑠𝑎𝑚𝑒 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡

Im oberen Beispiel wird ersichtlich, dass man natürlich auch bei unabhängigen Zufallsvariablen /
Ereignissen mit bedingten Wahrscheinlichkeiten rechnen kann. Dies ist dann aber nicht sonderlich
spannend, weil dann 𝑃(𝐵|𝐴) = 𝑃(𝐵) gilt.

FAQ: Warum gilt bei Unabhängigkeit 𝑷(𝑩|𝑨) = 𝑷(𝑩)?


Frage: Warum gilt für unabhängige Zufallsvariablen oder Ereignissen 𝑃(𝐵|𝐴) = 𝑃(𝐵)?

Antwort: Erinnere dich an den Satz von Bayes und 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) für unabhängige
Zufallsvariablen:

𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴) ∙ 𝑃(𝐵)


𝑃(𝐵|𝐴) = = = = 𝑃(𝐵).
⏟ 𝑃(𝐴) 𝑃(𝐴) ⏟ 𝑃(𝐴)
𝑢𝑚𝑔𝑒𝑠𝑡𝑒𝑙𝑙𝑡𝑒𝑟 𝑆𝑎𝑡𝑧 𝑣𝑜𝑛 𝐵𝑎𝑦𝑒𝑠 𝑤𝑒𝑖𝑙 𝐴,𝐵 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔

Analog gilt dasselbe für Zufallsvariablen.


Bedingter Erwartungswert
Personen, die einer Vollzeittätigkeit nachgehen, tun dies in den meisten Fällen nicht ehrenamtlich.
In Deutschland gab es im November 2017 44,38 Millionen Erwerbstätige.
Das Durchschnittsgehalt für frische Hochschulabsolventen hat für bestimmte Kategorien folgende
Form:

Studienrichtung Durchschnittliches Jahresgehalt 2017 in €


Wirtschaftswissenschaften 46.000€
Ingenieurwissenschaften 52.000 €
Informatik 49.500 €
Quelle: statistica.de(2018)
Zusätzlich gab es ungefähr folgende Anzahl von Absolventen pro Jahr:

Studienrichtung ungefähre Anzahl Absolventen


Informatik 14.500 (Jahr 2010)
Ingenieurwissenschaften 26.537 (Jahr 2016)
Wirtschaftswissenschaften 60.000
Quelle: destatis.de, statista.com,uni-due.de

Ziehen wir nun rein zufällig einen Absolventen aus einen der drei Fachrichtungen, so können wir
das erwartete Gehalt ja bekanntermaßen über den Erwartungswert bestimmen:
𝑛 101037

𝐸[𝑋] = ∑ 𝑥𝑖 ∙ 𝑃(𝑋 = 𝑖) = ∑ 𝐺𝑒ℎ𝑎𝑙𝑡𝑋𝑖 ∙ , 𝑚𝑖𝑡 𝑋𝑖 𝑖𝑠𝑡 𝑃𝑒𝑟𝑠𝑜𝑛 𝑖.


𝑖=1 𝑖=1

Damit diese Formel funktioniert, ist es auf dem ersten Blick notwendig, dass wir das Gehalt von
jeder einzelnen Person kennen. Somit haben wir 𝑛 = 101037 viele Additionen. Die oberen zwei
Tabellen geben uns aber keine Auskunft über einzelne Personen, sondern nur Personengruppen
zusammengefasst in Studienrichtungen.
Dennoch ist eine Erwartungswertberechnung möglich, da die erste Tabelle ja schon
Erwartungswerte für die einzelnen Studienrichtungen enthält. Die Situation lässt sich also als
zweistufiges Zufallsexperiment darstellen, wobei 𝑋 → {1,2,3} auf die drei Fachbereiche abbildet
und 𝑌 das Durchschnittsgehalt eines des zuvor gezogenen Fachbereichs repräsentiert.
Folgende Grafik repräsentiert diesen Sachverhalt. An den Kanten sind Wahrscheinlichkeiten für 𝑋
abgebildet.
Die erste Stufe repräsentiert den Fachbereich
und die zweite das Durchschnittsgehalt einen von dort
gezogenen Studenten.

Auf genau diese Art lässt sich auch der Erwartungswert zerlegen. Das dies für diskrete
Zufallsvariablen allgemein gilt, sagt folgender Satz:

Definition 3.85
Seien 𝑋, 𝑌 Zufallsvariablen und 𝑋 diskret.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.

Die Zerlegung des Erwartungswerts 𝐸[𝑌] hat dann folgende Form:

𝐸[𝑌] = 𝐸[𝐸[𝑌| 𝑋]] = ∑ 𝐸[𝑌|𝑋 = 𝑎] ∙ 𝑃(𝑋 = 𝑎).


𝑎∈𝑆𝑋

Dies nennt man das Gesetz der totalen Erwartung.

Tipp
Der bedingte Erwartungswert hat mehrere Notationen, z.B.:
𝐸[𝑌| 𝑋] = 𝐸𝑋 [𝑌].

Achtung
In diesem Buch ist die erste Stufe (in unserem Fall 𝑋) keine kontinuierliche Zufallsvariable, da
wir sonst ohne rigorose Definition schnell ins,Borel-Kolgomorov Paradox Territorium gelangen.

Achtung
𝐸[𝑌| 𝑋] ist eine Zufallsvariable und 𝐸[𝑋] eine Zahl.

In unserem Beispiel lässt sich nun das erwartete Gehalt eines gezogenen Studenten aus den drei
Studiengängen sehr leicht berechnen:
𝑛

𝐸[𝑋] = ∑ 𝑥𝑖 ∙ 𝑃(𝑋 = 𝑖) = ∑ 𝐸[𝑌|𝑋 = 𝑎] ∙ 𝑃(𝑋 = 𝑎)


𝑖=1 𝑎∈𝑆𝑋
14500 26537
= 𝐸[𝑌|𝑋 = 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑘] ∙ + 𝐸[𝑌|𝑋 = 𝐼𝑛𝑔𝑒𝑛𝑖𝑒𝑢𝑟𝑠𝑠𝑤𝑖𝑠𝑠. ] ∙
101037 101037
60000
+ 𝐸[𝑌|𝑋 = 𝑊𝑖𝑟𝑡𝑠𝑐ℎ𝑎𝑓𝑡𝑠𝑤𝑖𝑠𝑠. ] ∙
101037
14500 26537 60000
= 49500€ ∙ + 52000€ ∙ + 46000€ ∙ ≈ 23493,11€.
101037 101037 101037

FAQ: Warum gilt das Gesetz der totalen Erwartung?


Frage: Kannst du mir das Gesetz der totalen Erwartung beweisen?

Antwort: Natürlich.

𝐸[𝐸[𝑌| 𝑋]] = ∑ 𝐸[𝑌|𝑋 = 𝑥] ∙ 𝑃(𝑋 = 𝑥) = ∑ ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦|𝑋 = 𝑥) ∙ 𝑃(𝑋 = 𝑥)


𝑥∈𝑆𝑋 𝑥∈𝑆𝑋 𝑦∈𝑆𝑌

= ∑ ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦, 𝑋 = 𝑥) = ∑ 𝑦 ∑ 𝑃(𝑌 = 𝑦, 𝑋 = 𝑥)
𝑥∈𝑆𝑋 𝑦∈𝑆𝑌 𝑦∈𝑆𝑌 ⏟
𝑥∈𝑆𝑋
𝑡𝑜𝑡𝑎𝑙𝑒 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡
= ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦) = 𝐸[𝑌].
𝑦∈𝑆𝑌

Beispiel 3.26

Berechne die erwartete Augenzahl beim nächsten Wurf, wenn zuvor eine 4 gewürfelt
wurde.

Wir setzen in die Formel ein:


6 6 6
1
𝐸[𝑌|𝑋 = 4] = ∑ 𝑗 ∙ 𝑃(𝑌 = 𝑗|𝑋 = 4) = ∑ 𝑗 ∙ 𝑃(𝑌
⏟ = 𝑗) = ∑ 𝑗 = 3,5.
6
𝑗=1 𝑗=1 𝑑𝑎 𝑋,𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔 𝑗=1

Der Erwartungswert eines üblichen fairen Würfelns liegt bei 3,5. Intuitiv erwarten wir somit
auch, dass dies der erwartete Wert ist, wenn wir zuvor eine vier gewüfelt haben, da die Würfe
ja unabhängig voneinander sind.

Und dies ist auch genau der Fall.


Trefferzeiten und Irrfahrten
Niklas, befindet sich in einem Labyrinth. Da er keinen Ariadnefaden dabei hat, geht er rein zufällig
irgendwelche Wege entlang. Somit kann es natürlich auch passieren, dass er die gleichen Wege
mehrmals passiert.
Schematisch lässt sich seine Situation wie folgt darstellen:

Der orangene Knoten repräsentiert die Startposition


und der blaue Knoten den Ausgang.

Dabei startet Niklas im orangenen Knoten. Läuft er nun rein zufällig den Graph entlang, lassen
sich an den Kanten Übergangswahrscheinlichkeiten notieren:

Auch wenn es wie eine ergodische Markovkette


aussieht, so ist es keine, da sie nicht irreduzibel ist
(der Knoten 6 ist eine Sackgasse).

Dank des bedingten Erwartungswertes, können wir nun die erwartete Anzahl der Schritte
ermitteln, bis Niklas aus dem Labyrinth gefunden hat. Dabei bezeichnet ein „Schritt“ einen
Zustandsübergang von einen Knoten in den anderen.
Das Verfahren ist meistens gleich: Sei 𝑋 ∈ {1,2, … ,6} eine Zufallsvariable, die den Raum angibt, in
welchem Niklas sich gerade befindet.
Sei 𝑇 = 𝐼1 + 𝐼2 + ⋯ + 𝐼∞ die Summe von Indikatorvariablen folgender Art:
1, 𝑤𝑒𝑛𝑛 𝑋 ≠ 6
𝐼𝑖 = { .
0, 𝑤𝑒𝑛𝑛 𝑋 = 6

𝑇 gibt somit die Anzahl der Schritte bis zum Treffer an. Da Niklas nicht ins Labyrinth zurückgeht,
nachdem er den Ausgang (𝑋𝑖 = 6) gefunden hat, ist diese Summe höchstwahrscheinlich immer
endlich. Gesucht ist 𝐸[𝑇|𝑋 = 1], was die erwartete Anzahl der Schritte bis zum Ausgang darstellt
vom Startknoten 1.

Wichtig für die folgenden Berechnugen ist, dass wir Gedächtnislosigkeit der Irrfahrt annehmen. Das
bedeutet: Befinden wir uns im Knoten 𝑖, so ist die Übergangswahrscheinlichkeit zum nächsten
Knoten 𝑗 unabhängig vom bisherigen Pfad unserer Irrfahrt.

Unter diesen Umständen lässt sich 𝐸[𝑇|𝑋 = 1] wie folgt zerlegen:


𝟏 𝟏
𝐸[𝑇|𝑋 = 1] = 𝟏 + ∙ 𝑬[𝑻|𝑿 = 𝟑] + ∙ 𝑬[𝑻|𝑿 = 𝟐].
𝟐 𝟐
𝟏 𝟏
Die ∙ 𝑬[𝑻|𝑿 = 𝟑] und ∙ 𝑬[𝑻|𝑿 = 𝟐] sind fast selbsterklärend: Sie entstehen durch die Zerlegung
𝟐 𝟐
von 𝐸[𝑇|𝑋 = 1] in bedingte Erwartungswerte. Aber woher kommt die 𝟏?

Die 𝟏 repräsentiert den Übergang von einen Zustand in den nächsten. Sie stellt somit den „Schritt“
selbst dar.
Die anderen Zustände lassen sich genauso zerlegen:
1 1
E[T|X = 1] = 1 + ∙ E[T|X = 3] + ∙ E[T|X = 2],
2 2
1 1
E[T|X = 2] = 1 + ∙ E[T|X = 1] + ∙ E[T|X = 4],
2 2
1 1
E[T|X = 3] = 1 + ∙ E[T|X = 1] + ∙ E[T|X = 4],
2 2
1 1 1 1
E[T|X = 4] = 1 + ∙ E[T|X = 2] + ∙ E[T|X = 3] + ∙ E[T|X = 5] + ∙ E[T|X = 6],
4 4 4 4
E[T|X = 5] = 1 + 1 ∙ E[T|X = 4],
E[T|X = 6] = 0.

Tipp
Das Ziel E[T|X = Ziel] hat immer den Wert null, also E[T|X = Ziel] = 0.
Dies liegt daran, dass die erwartete Anzahl von Schritten bis zum Ziel, wenn man schon im
Ziel ist, null ist.

Tipp
Bei 𝑛 vielen Unbekannten brauchen wir auch 𝑛 viele linear unabhängige Gleichungen, sonst
haben wir ein unterbestimmtes Gleichungssystem (und somit unendlich viele Lösungen).

Tipp
Man kann eine Analogie zum Floyd-Warshall Algorithmus ziehen: Anstatt nur den kürzesten
Weg von einem Startknoten zu einem anderen zu finden, werden alle kürzesten Wege von
allen Knoten berechnet.

Wir haben 5 Unbekannte und auch 5 Gleichungen (E[T|X = 6] ist nicht unbekannt, da der Wert ja
null ist). Somit brauchen wir nur das Gleichungssystem lösen, um unsere gesuchte Lösung zu
erhalten. Nun wird auch ein weiterer Nutzen der 𝟏 ersichtlich: Ohne sie wäre unser
Gleichungssystem nicht eindeutig.
Außerdem bemerken wir, dass E[T|X = 3] = 𝐸[𝑇|𝑋 = 2], da sie die gleiche rechte Seite haben.
Wir erhalten folgende Ergebnisse:
E[T|X = 1] = 15,
E[T|X = 2] = 14,
E[T|X = 3] = 14,
E[T|X = 4] = 11,
E[T|X = 5] = 12,
E[T|X = 6] = 0.
Niklas braucht somit in Erwartung E[T|X = 1] = 15 Schritte, um bis zum Ausgang zu kommen.
Stellen wir uns nun vor, im Knoten 5 ist ein Monster. Wie hoch ist dann die Wahrscheinlichkeit,
dass Niklas den Ausgang findet bevor er in den Knoten 5 geht?
Die Schematik sieht nun so aus:

Der rote Knoten 5 sollte nicht


getroffen werden. Der Startknoten bleibt unverändert

Wir redefinieren nun 𝑇 zu


1, 𝑤𝑒𝑛𝑛 𝑍𝑖𝑒𝑙 𝑒𝑟𝑟𝑒𝑖𝑐ℎ𝑡 𝑏𝑒𝑣𝑜𝑟 𝐾𝑛𝑜𝑡𝑒𝑛 5
𝑇={ .
0, 𝑤𝑒𝑛𝑛 𝐾𝑛𝑜𝑡𝑒𝑛 5 𝑒𝑟𝑟𝑒𝑖𝑐ℎ𝑡 𝑏𝑒𝑣𝑜𝑟 𝑍𝑖𝑒𝑙

Gesucht ist 𝑃(𝑇 = 1|𝑋 = 1). Für dieses Problem hilft uns nun die totale Wahrscheinlichkeit:
1 1
𝑃(𝑇 = 1|𝑋 = 1) = ∙ 𝑃(𝑇 = 1|𝑋 = 2) + ∙ 𝑃(𝑇 = 1|𝑋 = 3).
2 2
Diesmal addieren wir keine 1 hinzu, da die neue Fragestellung sich mit Wahrscheinlichkeiten
befasst anstatt Übergangsschritten. Erneut zerlegen wir auch die anderen Zustände:
1 1
𝑃(𝑇 = 1|𝑋 = 1) = ∙ 𝑃(𝑇 = 1|𝑋 = 2) + ∙ 𝑃(𝑇 = 1|𝑋 = 3),
2 2
1 1
P(𝑇 = 1|𝑋 = 2) = ∙ 𝑃(𝑇 = 1|𝑋 = 1) + ∙ 𝑃(𝑇 = 1|𝑋 = 4),
2 2
1 1
P(𝑇 = 1|𝑋 = 3) = ∙ 𝑃(𝑇 = 1|𝑋 = 1) + ∙ 𝑃(𝑇 = 1|𝑋 = 4),
2 2
1 1 1 1
P(𝑇 = 1|𝑋 = 4) = 𝑃(𝑇 = 1|𝑋 = 2) + 𝑃(𝑇 = 1|𝑋 = 3) + ⏟P(𝑇 = 1|𝑋 = 5) + ⏟𝑃(𝑇 = 1|𝑋 = 6),
4 4 4 4
=0 =1

P(𝑇 = 1|𝑋 = 5) = 0,
P(𝑇 = 1|𝑋 = 6) = 1,

Tipp
Das Ziel P(𝑇 = 1|𝑋 = 𝑍𝑖𝑒𝑙) hat immer den Wert 1, also P(𝑇 = 1|𝑋 = 𝑍𝑖𝑒𝑙) = 1.
Dies liegt daran, dass die Wahrscheinlichkeit vor der zu vermeidenden Menge zum Ziel zu
gelangen, wenn man im Ziel ist, eins beträgt.

Tipp
Das zu vermeidende Menge P(𝑇 = 1|𝑋 = 𝑆𝑒𝑛𝑘𝑒) hat immer den Wert 0, also
P(𝑇 = 1|𝑋 = 𝑆𝑒𝑛𝑘𝑒) = 0.
Dies liegt daran, dass die Wahrscheinlichkeit das Ziel vor den zu vermeidenden Zuständen zu
treffen, wenn man in einem zu vermeidenden Zustand ist, null beträgt.

Wir erhalten folgende Wahrscheinlichkeiten:


1
𝑃(𝑇 = 1|𝑋 = 1) = ,
2
1
P(𝑇 = 1|𝑋 = 2) = ,
2
1
P(𝑇 = 1|𝑋 = 3) = ,
2
1
P(𝑇 = 1|𝑋 = 4) = ,
2
P(𝑇 = 1|𝑋 = 5) = 0,
P(𝑇 = 1|𝑋 = 6) = 1,

Tipp
Schwierigkeiten würden entstehen, wenn man uns nach der erwarteten Anzahl der Schritte,
die Niklas geht, wenn er den Ausgang vor den Monster erreichen will fragen würde.
Dies liegt daran, dass bei unserer bisherigen Definition 𝐸[𝑇|𝑋 = 5] = ∞ wäre.

Tipp
Unser Graph ist nicht irreduzibel. Das bedeutet, es gibt mindestens einen Knoten, der als
„Senke“ agiert (z.B. die Zielzustände).
Stochastik für Informatiker Aufgabe 43S, WS17/18

Wir betrachten die gewöhnliche Irrfahrt in ℤ2 : von jedem Punkt geht man jedesmal einen
Schritt der Größe 1, unabhängig von der Vorgeschichte mit Wahrscheinlichkeit ¼ nach
Osten, Norden, Westen oder Süden.

a) Berechnen Sie die Wahrscheinlichkeit dafür, dass man ausgehend von dem in der
untenstehenden Skizze mit 3 bezeichneten Punkt die Menge {1,2,3} nach Norden
oder Osten verlässt.
b) Berechnen Sie die erwartete Anzahl der Schritte bis zum erstmaligen Verlassen
der Menge {1,2,3} bei Start in 1.

Ausschnitt des Graphen aus einer Irrfahrt in ℤ2

a) Wir vergleichen es mit Niklas‘ Labyrinthsituation aus dem Anfangsbeispiel: Wir


bemalen die Türen blau und die Monsterknoten rot:
Modifizierte Abbildung mit blauen „Türen“ und
roten „Monsterknoten“

Wir lassen das Gleichungssystem entstehen. Zwei Dinge müssen wir beachten:

Einmal, dass wir in einem Schritt nicht diagonal laufen können, sondern nur
horizontal und vertikal (unsere Irrfahrt in ℤ2 ändert jeweils nur eine Koordinate des
Positionsvektors).

Zweitens, dürfen wir nicht vergessen, dass 𝑃(𝑇|𝑋 = 𝑍𝑖𝑒𝑙) = 1, wenn 𝑋 ein Zielknoten
ist.

1 1
𝑃(𝑇|𝑋 = 3) = ∙ 1 + ∙ 𝑃(𝑇|𝑋 = 1),
2 4
1 1
𝑃(𝑇|𝑋 = 1) = ∙ 𝑃(𝑇|𝑋 = 2) + ∙ 𝑃(𝑇|𝑋 = 3),
4 4
1 1
𝑃(𝑇|𝑋 = 2) = ∙ 1 + ∙ 𝑃(𝑇|𝑋 = 1).
2 4

Wir erhalten folgende Wahrscheinlichkeiten:

4
𝑃(𝑇|𝑋 = 3) = ,
7
2
𝑃(𝑇|𝑋 = 1) = ,
7
4
𝑃(𝑇|𝑋 = 2) = .
7

b) Unsere neue Skizze hat nun folgende Form:


Folgende Gleichungssysteme entstehen:

1 1
𝐸[𝑇|𝑋 = 1] = 1 + ∙ 𝐸[𝑇|𝑋 = 2] + ∙ 𝐸[𝑇|𝑋 = 3],
4 4
1
𝐸[𝑇|𝑋 = 2] = 1 + ∙ 𝐸[𝑇|𝑋 = 1],
4
1
𝐸[𝑇|𝑋 = 3] = 1 + ∙ 𝐸[𝑇|𝑋 = 1].
4

Folgende Trefferzeiten entsehen:

12
𝐸[𝑇|𝑋 = 1] = ,
7
10
𝐸[𝑇|𝑋 = 2] = ,
7
10
𝐸[𝑇|𝑋 = 3] = .
7
Bedingte Varianz
Es gibt auch bedingte Varianzen. Diese sind definiert als:

Definition 3.86
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.

Die bedingte Varianz ist definiert als:

𝑉𝑎𝑟[𝑌|𝑋] = 𝐸[(𝑌 − 𝐸[𝑌|𝑋])2 |𝑋].

Da Varianzen 𝑉𝑎𝑟[𝑌] = 𝐸[(𝑌 − 𝐸[𝑌]2 )] lediglich Erwartungswerte darstellen, liegt die Vermutung
nahe, dass es auch hier eine Zerlegung geben könnte. Dass es die tatsächlich gibt, zeigt folgende
Definition:

Definition 3.87
Seien 𝑋, 𝑌 Zufallsvariablen und 𝑋 diskret.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.

Die Zerlegung des der Varianz 𝑉𝑎𝑟[𝑌] hat dann folgende Form:

𝑉𝑎𝑟[𝑌] = 𝐸[𝑉𝑎𝑟[𝑌|𝑋]] + Var[𝐸[𝑌|𝑋]].

Dies nennt man das Gesetz der totalen Varianz.

Auch hier beschränken wir uns in diesem Buch auf Zufallsvariablen mit diskreter erster Stufe. Auch
wenn die Formel auf dem ersten Blick kompliziert aussieht, geschieht hier nichts neues: Wir wissen
bereits wie man Varianzen berechnet und auch bedingte Erwartungswerten haben wir schon
gesehen. Im Endeffekt sind 𝑉𝑎𝑟[𝑌|𝑋] = 𝑍 und 𝐸[𝑌|𝑋] = 𝑊 nämlich auch wieder nur
Zufallsvariablen.

Schreibt man die Gleichung nun so auf

𝑉𝑎𝑟[𝑌] = 𝐸 [ ⏟
𝑍 ] + Var [ 𝑊
⏟ ],
𝑉𝑎𝑟[𝑌|𝑋] 𝐸[𝑌|𝑋]

so wird einem der Zusammenhang zum Gelernten vielleicht klarer. Folglich kann man mit der
Anwendung sofort beginnen:

Stochastik für Informatiker Aufgabe 38S, WS17/18

a) 𝑋 sei Bernoulli(1/3)-verteilt. Gegeben {𝑋 = 0} sei 𝑌 𝐸𝑥𝑝(3)-verteilt und gegeben


{𝑋 = 1} sei −𝑌 𝐸𝑥𝑝(5)-verteilt. Berechnen Sie 𝐸[𝑌] und 𝑉𝑎𝑟[𝑌].

b) 𝑌 sei uniform verteilt of [0,1] ∪ [10,20]. Berechnen Sie 𝐸[𝑌] und 𝑉𝑎𝑟[𝑌].
a) Wir haben ein zweizufiges Experiment. Dies kann man
wie folgt visualisieren:

Es gibt hier nur ein Problem: Wenn {𝑋 = 1}, dann ist −𝑌~ exp(5) verteilt.
Da wir aber 𝐸[𝑌] ausrechnen wollen, brauchen wir die Verteilung von 𝑌 und nicht
−𝑌.

Aber wie schließen wir auf die Verteilung von 𝑌 von −𝑌?
Ganz einfach: Definieren wir 𝑀 = 𝑌, so ist 𝑀 eine transformierte Zufallsvariable.
Wir können auf die Verteilung von 𝑀 nun über die in Transformationen
kontinuierlicher Zufallsvariablen vorgestellten Techniken schließen.

Sei 𝑦 ∈ [0, −∞].


−𝑦

𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(−𝑌 ≥ −𝑦) = 1 − 𝑃(−𝑌 ≤ −𝑦) = 1 − ∫ 5𝑒 −5𝑠 𝑑𝑠


0
= 1 − [1 − 𝑒 5𝑦 ] = 𝑒 5𝑦 .

Daraus folgt:
𝑓𝑌 (𝑦) = 5𝑒 5𝑦 , 𝑚𝑖𝑡 𝑦 ∈ [0, −∞].

Dabei darf nicht vergessen werden, dass 𝑦 negativ ist! Sonst würde das obere nicht
aufgehen, da bei positiven 𝑦 der Ausdruck 𝑒 5𝑦 divergiert! Die resultierende
Verteilung ist somit einfach nur eine um die Ordinate gespiegelte
1
Exponentialverteilung. Foglich ist der Erwartungswert − . Die Varianz wird dagegen
5
von −𝑌~𝐸𝑥𝑝(5) übernommen, da die Spiegelung des Supports nicht die Streuung um
den Erwartungswert beeinflusst.
Malt man die Verteilungen von −𝑌 und 𝑌 nebeneinander wird
ersichtlich, dass 𝑌 den umgedrehten Support von −𝑌 hat. Auch sieht
man, dass die Verteilungen sonst gleich aussehen, weshalb 𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[−𝑌].

Nun kann man rechnen:

1 2 1 1 7
𝐸[𝑌] = 𝐸[𝐸[𝑌| 𝑋]] = ∙ +− ∙ = .

3 ⏟ 3 5 ⏟
3 45
𝜆−1 1−𝑝 𝑝

𝑉𝑎𝑟[𝑌] = 𝐸[𝑉𝑎𝑟[𝑌|𝑋]] + Var[𝐸[𝑌|𝑋]].

Nebenrechnung:
1
1 2 1 1 59
𝐸[𝑉𝑎𝑟[𝑌|𝑋]] = ∑ 𝑉𝑎𝑟[𝑌|𝑋 = 𝑖] ∙ 𝑃(𝑋 = 𝑖) = ∙ + ∙ = .

9 3 25 3 675
𝑖=0
𝜆 −2
2

Var[𝐸[𝑌|𝑋]] = 𝐸 [(𝐸[𝑌|𝑋] − 𝐸[𝐸[𝑌|𝑋]]


⏟ ) ] = 𝐸[(𝐸[𝑌|𝑋] − 𝐸[𝑌])2 ]
=𝐸[𝑌]
1

= ∑(𝐸[𝑌|𝑋 = 𝑖] − 𝐸[𝑌])2 ∙ 𝑃(𝑋 = 𝑖)


𝑖=0
1 7 2 2 1 7 2 1 128
= ( − ) ∙ + (− − ) ∙ = .
3 45 3 5 45 3 2025
Also:
59 128 61
𝑉𝑎𝑟[𝑌] = + = .
675 2025 405

b) Normalerweise ist der Erwartungswert einer uniform verteilten Zufallsvariable kein


Problem. Diesmal ist unser Intervall aber nicht stetig! Die Lösung? Wir machen
einfach ein zweistufiges Experiment daraus!
Wir definieren 𝑋 wie folgt:

1, 𝑤𝑒𝑛𝑛 𝜔 ∈ [0,1]
𝑋(𝜔) = { .
0, 𝑤𝑒𝑛𝑛 𝜔 ∈ [10,20]
Die Realisierungen 0,1 von 𝑋 spielen dabei keine Rolle. Wir sind nur an den
Wahrscheinlichkeiten interessiert. Folglich muss 𝑋 nichteinmal eine reelle
Zufallsvariable sein, solange die Ereignisse 𝜔 ∈ [0,1] und 𝜔 ∈ [10,20] unterscheidbar
sind.
Folgende Definition wäre also auch möglich:

"𝐻𝑒𝑙𝑙𝑜", 𝑤𝑒𝑛𝑛 ∈ [0,1]


𝑋(𝜔) = { .
"𝑊𝑜𝑟𝑙𝑑", 𝑤𝑒𝑛𝑛 𝜔 ∈ [10,20]

Wichtig ist nun die Ermittlung der Auftrittswahrscheinlichkeiten:


Man stelle sich die Intervalle als ein |[0,1]| + |[10,20]| = 11 Meter langes
Band vor.

Die Wahrscheinlichkeit, dass ein zufällig gewählter Punkt den ersten


1 1
Meterabschnitt trifft ist . Folglich ist 𝑃({𝑋 ∈ [0,1]}) = . Analog kommen wir auf
11 11
10
𝑃({𝑋 ∈ [10,20]}) = .
11

Nun können wir rechnen:


1 1 10 301
𝐸[𝑌] = 𝐸[𝐸[𝑋|𝑌]] = ∙ + 15 ∙ = .
2 11 11 22

𝑉𝑎𝑟[𝑌] = 𝐸[𝑉𝑎𝑟[𝑌|𝑋]] + 𝑉𝑎𝑟[𝐸[𝑌|𝑋]].


1 1 100 10 91
𝐸[𝑉𝑎𝑟[𝑌|𝑋]] = ∙ + ∙ = .

12 11 ⏟
12 11 12
𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑢𝑛𝑖𝑓𝑜𝑟𝑚 [0,1] 𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑢𝑛𝑖𝑓𝑜𝑟𝑚 [10,20]
2
1 301 1 301 2 10 4205
𝑉𝑎𝑟[𝐸[𝑌|𝑋]] = ( − ) ∙ + (15 − ) ∙ = .
2 22 11 22 11 242

Also:
91 4205
𝑉𝑎𝑟[𝑌] = + ≈ 24,95.
12 242
Konvergenz

Durch das Gesetz der großen Zahlen wissen wir, dass selbst Einzelwahrscheinlickeiten sich als
Resultat von Grenzprozessen sehen lassen, weil für eine Indikatorvariable 𝐼 gilt:
𝐼1 + ⋯ + 𝐼𝑛
𝑃(𝐼 = 1) = 𝑝 = 𝐸[𝐼] = lim .

𝑛→∞ 𝑛
𝑠𝑡𝑎𝑟𝑘𝑒𝑠 𝐺𝑒𝑠𝑒𝑡𝑧 𝑑𝑒𝑟 𝑔𝑟𝑜ß𝑒𝑛 𝑍𝑎ℎ𝑙𝑒𝑛

Tipp
Wenn man Wahrscheinlichkeiten als Resultat von Grenzprozessen sieht, dann nennt man das
auch die „frequentistische Strömung“ der Wahrscheinlichkeitslehre.
Im Gegensatz dazu steht die „bayesianische Betrachtungsweise“, die Wahrscheinlichkeiten
als „quantifizierbares Maß“ von Glauben sehen.

Manchmal stehen diese Strömungen konträr zueinander. In vielen Fällen lassen sich aber
beide Ansichten vereinen, z.B: über „de Finetti’s Austauschbarkeitstheorem“.

Die bayesianische Betrachtungsweise ist besonders im Bereich des statistischen Lernens, wie
„Machine Learning“ extrem relevant.

Wie in der Analysis auch, gibt es verschiedene Arten Konvergenz von Zufallsvariablen
auszudrücken. Hier werden einige Bekannte vorgestellt.

Konvergenz in Verteilung

Definition 3.88
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen mit gemeinsamer Verteilungsfunktion 𝐹𝑛 konvergiert
in Verteilung zu einer Verteilungsfunktion 𝐹, wenn:

lim 𝐹𝑛 (𝑥) = 𝐹(𝑥).


𝑛→∞

Das heißt, dass die Verteilung einer immer länger werdenden Folge {𝑋𝑛 } von Zufallsvariablen im
Limit durch eine andere Verteilungsfunktion 𝐹 dargestellt werden kann.

Berühmtes Beispiel ist der zentrale Grenzwertsatz aus Zentraler Grenzwertsatz.


Dieser besagt in seiner klassischen Form, dass eine Summe von unabhängigen, identisch verteilten
Zufallsvariablen 𝑋1 + ⋯ + 𝑋𝑛 zu einer Normalverteilung konvergieren.

Tipp
Die Konvergenz in Verteilung ist eine schwache Art der Konvergenz. Selbst wenn die
Verteilungsfunktionen 𝐹𝑛 , 𝐹 sich im Grenzwert annähern, bedeutet dies nicht, dass die
korrespondierenden Dichtefunktionen 𝑓𝑛 , 𝑓 dasselbe tun.
Aber: Konvergieren die Dichtefunktionen zueinander, so tun dies auch die
Verteilungsfunktionen (Scheffé’s Theorem).
Konvergenz in Wahrscheinlichkeit

Definition 3.89
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen konvergiert in Wahrscheinlichkeit zu einer
Zufallsvariable 𝑌, wenn:

lim 𝑃(|𝑋𝑛 − 𝑌| > 𝜖) = 0.


𝑛→∞

Intuitiv bedeutet die Konvergenz in Wahrscheinlichkeit, dass 𝑋𝑛 und 𝑌 sich immer ähnlicher
werden je weiter 𝑛 zunimmt. Das bedeutet aber nicht, dass sie auch automatisch identisch werden,
also, dass 𝑋𝑛 = 𝑌, 𝑤𝑒𝑛𝑛 𝑛 → ∞. Dies impliziert, dass es noch stärkere Arten der Konvergenz geben
muss.

Das schwache Gesetz der großen Zahlen aus Herleitung über das Gesetz der großen Zahlen
konvergiert in Wahrscheinlichkeit.

Tipp
Die Konvergenz in Wahrscheinlichkeit impliziert eine Konvergenz in Verteilung.

Fast sichere Konvergenz

Definition 3.90
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen konvergiert in fast sicher zu einer Zufallsvariable 𝑌,
wenn:

lim 𝑃(𝑋𝑛 = 𝑌) = 1.
𝑛→∞

Dies bedeutet, dass die Verteilung von 𝑋𝑛 und 𝑌 im Grenzwert überall identisch ist, außer bei den
Elementen, die eine Dichte von null haben.

Das starke Gesetz der großen Zahlen aus Herleitung über das Gesetz der großen Zahlen konvergiert
fast sicher.

Tipp
Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit und somit Konvergenz
in Verteilung.
Es kann somit als stärkste Form der vorgestellten Konvergenzarten gesehen werden.
Beispiele diskreter Verteilungen

In diesem Kapitel werden einige konkrete Verteilungen diskreter Zufallsvariablen vorgestellt. Zu


Beginn jeder Verteilung gibt es eine kleine Übersicht in Tabellenform.

Diese beinhaltet nützliche Formeln, um wichtige Charakteristiken wie den Erwartungswert oder
die Varianz schnell auszurechnen.

Natürlich lässt sich nicht jede diskrete Wahrscheinlichkeitsverteilung in die vorgestellten


einordnen. Dies ist aber nicht weiter schlimm, weil wir in den vorherigen Abschnitten gelernt
haben, wie wir dennoch Erwartungswerte etc. erreichnen können.
Manchmal lassen sich Verteilungen durch andere, einfacher zu berechnende Verteilungen
abschätzen. Ein beliebtes Beispiel ist die Normalapproximation für eine binomialverteilte
Zufallsvariable – und umgekehrt.

Auf solche Approximationseigenschaften wird zum Teil eingegangen.

An manchen Stellen werden Beweise vorgestellt. Diese sind nicht notwendig, um die Verteilungen
zu „benutzen“, helfen aber beim Verständnis weiter.
Am Ende jedes Abschnitts gibt es Beispiele. Diese kombinieren Wissen aus vergangenen aber auch
kommenden Kapiteln. Somit sind sie nicht geordnet nach Schwierigkeitsgrad.
Uniforme Verteilung auf ℤ (diskret)

Uniforme Verteilung auf 5 Klassen. Die summierte Massefunktion ist stets streng
monoton steigend.

Definitionen 𝑎. 𝑏 ∈ ℤ
𝑛 = 𝑎 + 𝑏 − 1 (𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑙ä𝑛𝑔𝑒 𝑧𝑤𝑖𝑠𝑐ℎ𝑒𝑛 𝑎, 𝑏)
𝑘 ∈ ℤ ∧ (𝑎 ≤ 𝑘 ≤ 𝑏)
oft benutzte Notation 𝑋~𝑈{𝑎, 𝑏} oder 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 1
𝑛
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝑘−𝑎+1
𝑛
Erwartungswert 𝑎+𝑏
(𝑀𝑖𝑡𝑡𝑒 𝑑𝑒𝑟 𝑉𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔)
2
Varianz
Symmetrisch um 𝜇 ja

Die diskrete uniforme Verteilung zeichnet sich dadurch aus, dass jede Realisierung von 𝑋 die
gleiche Auftrittswahrscheinlichkeit hat.

Dies ist häufig der Fall, z.B. beim rein zufälligen Ziehen.
Allein die Wortphrase „Ich ziehe 𝑥 Elemente rein zufällig.“ deutet schon an, dass ich bei meiner
Ziehung kein Objekt präferiere. Keine Präferierung hat zur Folge, dass jedes Element
gleichwahrscheinlich gezogen wird.

Tipp
Hat ein Roboter mehrere Möglichkeiten und die Präferenz dieser Möglichkeiten ist uniform
verteilt, dann ist dem Roboter egal was geschieht.

Dies widerspiegelt auch die Gewichtsfunktion:


Definition 4.1
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.

Sei 𝑛 = 𝑎 + 𝑏 − 1 (𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑙ä𝑛𝑔𝑒 𝑧𝑤𝑖𝑠𝑐ℎ𝑒𝑛 𝑎, 𝑏).

Für die Gewichtsfunktion 𝑓𝑋 gilt:


1
𝑓𝑋 (𝑘) = 𝑃(𝑋 = 𝑘) = .
𝑛

Faustregel: Je mehr Realisierungen eine uniform verteilte Zufallsvariable hat, desto „tiefer“ hängt
die Gewichtsfunktion. Dies ist der Fall, da die Summe aller Realisierungen ja immer eins ergeben
muss. Würden wir die Zahl der Ausgänge erhöhen ohne die Einzelwahrscheinlichkeiten zu sinken,
dann wäre die Gesamtwahrscheinlichkeit größer eins.

Uniform verteilte Zufallsvariable mit zwei Ausgängen. Uniform verteilte Zufallsvariable mit fünf Ausgängen.

Da die Verteilungsfunktion nur das (diskrete) Integral der Gewichtsfunktion ist, gilt:
Definition 4.2
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.

Sei 𝑛 = 𝑎 + 𝑏 − 1 (𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑙ä𝑛𝑔𝑒 𝑧𝑤𝑖𝑠𝑐ℎ𝑒𝑛 𝑎, 𝑏).

Für die Verteilungsfunktion 𝐹𝑋 gilt:


𝑘−𝑎+1
𝐹𝑋 (𝑘) = 𝑃(𝑋 ≤ 𝑘) = .
𝑛

Da unsere Gewichtsfunktion für jedes Element im Intervall positiv definiert ist, gilt:

Definition 4.3
Die Verteilungsfunktion 𝐹𝑋 ist streng monoton steigend.

Beispiel 3.27

Sei 𝑋~𝑢𝑛𝑖𝑓(−5,7).

Berechne 𝑃(𝑋 ≥ 2).

Es gilt: 𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 ≤ 1) (Verteilungsfunktionen diskreter Zufallsvariablen).

Wichtig: Das Ganzzahlenintervall [−5,7] hat 𝑛 = 13 Zahlen (inklusive null).

Weg 1, um 𝑃(𝑋 ≤ 1) zu berechnen.

𝑘 − 𝑎 + 1 1 − (−5) + 1 7
𝑃(𝑋 ≤ 1) = = = .
𝑛 13 13

Weg 2, um 𝑃(𝑋 ≤ 1) zu berechnen.

1
𝑃𝑋 ≤ 1) = 𝑃(𝑋 = −5) + 𝑃(𝑋 = −4) + ⋯ + 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = 7 ∙ .
13
7 6
𝑃(𝑋 ≥ 2) = 1 − = .
13 13

In Kapitel 3: Eigenschaften des Erwartungswerts haben wir gelernt, dass symmetrische


Verteilungen ihren Erwartungswert in der Mitte haben. Somit ist der Erwartungswertswert genau
die Mitte des Intervalls [𝑎, 𝑏].
Definition 4.4
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.

Es gilt:
𝑎+𝑏
𝐸[𝑋] = .
2

Die Varianz ist definiert als.

Definition 4.5
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.

Es gilt:
(𝑏 − 𝑎 + 1)2 − 1
𝑉𝑎𝑟[𝑋] = .
12

FAQ: Warum ist die Varianzformel so komisch?


Frage: Gerade wo ich dachte, die uniforme Verteilung verstanden zu haben, kommst du mir so
doof. Warum teilen wir bei der Varianz durch zwölf anstatt durch 𝑛?

Antwort: Ein Beweis bringt Klarheit.

Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ 𝑢𝑛𝑑 𝑏 > 𝑎.


𝑎+𝑏 2
𝑉𝑎𝑟[𝑋] = ⏟𝐸[𝑋 2 ] − 𝐸[𝑋]2 = 𝐸[𝑋 2 ] − ( )
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
2

Beispiel 3.28

Jonas hat 15 ferngesteuerte Autos in einer Kiste. Jedes dieser Autos ist mit einer Zahl von
eins bis fünfzehn nummeriert.

Wenn er sehr oft rein zufällig Autos aus dieser Kiste holt (mit Zurücklegen), was ist der
erwartete Zahlenwert eines gezogenen Autos?

Wir berechnen den Erwartungswert.

Sei 𝑋~𝑢𝑛𝑖𝑓{1,15}.

1 + 15
𝐸[𝑋] = = 8.
2
Bernoulli Verteilung

Pmf mit 𝑝 = 0.2. Cmf mit 𝑝 = 0.2.

Definitionen 𝑝 ∈ [0,1] (die Wahrscheinlichkeit)


𝑘∈0,1
oft benutzte Notation 𝑋~𝐵𝑒𝑟𝑛{𝑝}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝑝, 𝑓ü𝑟 𝑘 = 1
{
1 − 𝑝, 𝑓ü𝑟 𝑘 = 0
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 1, 𝑓ü𝑟 𝑘 = 1
{
1 − 𝑝, 𝑓ü𝑟 𝑘 = 0
Erwartungswert 𝑝
Varianz 𝑝(1 − 𝑝)
Symmetrisch um 𝜇 1
nur wenn 𝑝 =
2

Die Bernoulli Verteilung gibt die Wahrscheinlichkeit binärer Zufallsvariablen wieder. Sie entspricht
somit der Wahrscheinlichkeitsverteilung eines Münzwurfs.

Tipp
Hat unser Zufallsexperiment nur zwei Ausgänge, so ist es bernoulliverteilt.

Tipp
Weil jede Indikatorvariable bernouliverteilt ist, heißen sie auch Bernoulivariablen.

Sei 𝑋~𝐵𝑒𝑟𝑛{𝑝}. Es ist üblich mit 𝑝 die Wahrscheinlichkeit von 𝑋 = 1 zu indizieren, also
𝑃(𝑋 = 1) = 𝑝.

Die Gegenwahrscheinlichkeit wird häufig mit 𝑞 charakterisiert:


𝑃(𝑋 = 0 ) = 1 − 𝑝 = 𝑞.
FAQ: Warum 𝒑 und 𝟏 − 𝒑?
Frage: Warum haben die binären Elementarereignisse jeweils die Wahrscheinlichkeit 𝑝
und 1 − 𝑝?

Antwort: Die Gesamtwahrscheinlichkeit aller Elementarereignisse muss per Definition den


Wert 1 ergeben.
Wenn eines unserer Ausgänge schon die Wahrscheinlichkeit 𝑝 hat, so muss der andere den
Rest, nämlich 1 − 𝑝 haben, damit
𝑃(𝑋 = 1⋁𝑋 = 0) = 𝑝 + (1 − 𝑝) = 1
erfüllt ist.

Der Erwartungswert ist 𝐸[𝑋] = 𝑝 und die Varianz hat den Wert 𝑉𝑎𝑟[𝑋] = 𝑝(1 − 𝑝) = 𝑝 ∙ 𝑞.

FAQ: Beweis Erwartungswert


Frage: Beweise mir 𝐸[𝑋] = 𝑝.

Antwort: Sei 𝑋~𝐵𝑒𝑟𝑛(𝑝).

𝐸[𝑋] = 1 ∙ 𝑝 + 0 ∙ (1 − 𝑝) = 𝑝.

FAQ: Beweis Varianz


Frage: Warum hat die Varianz den Wert?

Antwort: Sei 𝑋~𝐵𝑒𝑟𝑛(𝑝).

𝑉𝑎𝑟[𝑋] = (1 − 𝑝)2 ∙ 𝑝 + (0 − 𝑝)2 ∙ (1 − 𝑝) = (𝑝2 − 2𝑝 + 1)𝑝 + (𝑝2 − 𝑝3 ) = −𝑝2 + 𝑝


= 𝑝(1 − 𝑝).

Beispiel 3.29

1
Berechne die Standardabweichung eines gezinkten Münzwurfs mit 𝑃(𝑋 = 𝐾𝑜𝑝𝑓) = 3.

1
Sei 𝑋~𝐵𝑒𝑟𝑛 ( ).
3

1 1 2 2
𝐸[𝑋 2 ] − 𝐸[𝑋]2 =
𝑉𝑎𝑟[𝑋] = ⏟ −( ) = .
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
3 3 9

2
𝜎(𝑋) = √ .
9
Stochastik für Informatiker Aufgabe 14S, WS15/16

Es seien 𝑛 und 𝑟 natürliche Zahlen. Wir betrachten eine rein zufällige Abbildung
𝐹: {1, … , 𝑛} → {1, … , 𝑟}.

c) Berechnen Sie für 𝑛 = 𝑟 die Wahrscheinlichkeit, dass


(i) 𝐹 injektiv
(ii) 𝐹 fixpunktfrei (d.h. 𝐹(𝑖) ≠ 𝑖 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑖 = 1, … , 𝑛)
ist. Was ergibt die Stirling-Näherung bei (i)? Finden Sie die Grenzwerte dieser
Wahrscheinlichkeiten für 𝑛 → ∞.
d) Berechnen Sie für 𝑛 = 10 und 𝑟 = 5 die Wahrscheinlichkeit, dass 𝐹 surjektiv ist.

c)
(i) Eine Funktion 𝐹: 𝐴 → 𝐵 ist injektiv, wenn jedes 𝑎 ∈ 𝐴 höchstens ein
𝑏 ∈ 𝐵 zugewiesen wird. Doppelte Zuweisungen, wie
𝐹(𝑎1 ) = 𝑏1 und 𝐹(𝑎2 ) = 𝑏1, sind somit nicht erlaubt.

In unserer Aufgabe sind die Definitions- und Bildmenge gleich groß, weil wir
𝑛 = 𝑟 gesetzt haben.
𝐹 kann somit nur injektiv sein, wenn es auch bijektiv ist. Da kein Element
doppelt zugewiesen werden darf, hat das erste Element aus
{1, … , 𝑛}
genau 𝑛 viele Zuweisungsmöglichkeiten. Das zweite Element hat (nachdem
das erste zugewiesen wurde) dann nur noch 𝑛 − 1 viele Möglichkeiten usw.
(Permutationen als das Legostein Modell).

Es gibt folglich 𝑛! viele bijektive Zuweisungsmöglichkeiten. Die Anzahl aller


Zuweisungsmöglichkeiten beträgt aber 𝑛𝑛 , da eine rein zufällige gezogene
Funktion ja nicht bijektiv sein muss.

Die Wahrscheinlichkeit beträgt somit


𝑟! 𝑛! (𝑛 − 1)!
𝑃({𝐹 𝑖𝑠𝑡 𝑖𝑛𝑗𝑒𝑘𝑡𝑖𝑣}) = 𝑛 = = .
𝑟 (𝑛 − 𝑟)! 𝑛⏟𝑛 𝑛𝑛−1
𝑑𝑎 𝑟=𝑛

Die Aufgabe ist somit analog zum Das Geburtstagsproblem als Stellvertreter
für Wahrscheinlichkeit von Kollisionen.

Unsere Stirling Nährung ist definiert als:


𝑛 𝑛
𝑛! ≈ √2𝜋𝑛 ( ) .
𝑒

Daraus folgt:
𝑛 𝑛
√2𝜋𝑛 ( 𝑒 )
𝑃({𝐹 𝑖𝑠𝑡 𝑖𝑛𝑗𝑒𝑘𝑡𝑖𝑣}) ≈ .
𝑛𝑛

Da Stirlings Formel asymptotisch dicht an 𝑛! ist, können wir diese für unsere
Grenzwertbetrachtung nutzen:
𝑛 𝑛
√2𝜋𝑛 ( 𝑒 )
lim = 0.
𝑛→+∞ ⏟ 𝑛𝑛
𝑁𝑒𝑛𝑛𝑒𝑟 𝑤ä𝑐ℎ𝑠𝑡 𝑠𝑐ℎ𝑛𝑒𝑙𝑙𝑒𝑟 𝑎𝑙𝑠 𝑍äℎ𝑙𝑒𝑟

Wenn wir somit den Definitionsbereich unserer Abbildung erhöhen, desto


kleiner die Wahrscheinlichkeit, dass diese Funktion injektiv ist.
Dies macht auch Sinn. Wenn wir z.B. 𝑛 = 1000 Zahlen haben, ist es
wahrscheinlich, dass mindestens zwei zum gleichen Wert abgebildet werden.

(ii) Sei
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ {𝐹(𝑖) ≠ 𝑖 }
𝐼{𝐹(𝑖)≠𝑖 } (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡

eine Bernoullivariable (Indikatorvariable), die uns angibt, ob Element 𝑖 aus


{1, … , 𝑛}
fixpunktfrei ist.

Ein einzelnes Element 𝑖 hat 𝑛 mögliche Zuweisungen, von denen 𝑛 − 1


fixpunktfrei sind.
Daraus folgt:
𝑛−1
𝑃(𝐼 = 1) = .
𝑛
Es gilt:
𝑛
(𝑛 − 1)
𝑃(𝐼1 = 1, 𝐼2 = 1, 𝐼3 = 1 … , 𝐼𝑛 = 1) = ⏟
𝑃(𝐼1 = 1) ∙ … ∙ 𝑃(𝐼𝑛 = 1) = ( ) .

𝑛
𝑑𝑎 𝐼 𝑠 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔

Stellen wir uns vor, wir hätten die zusätzliche Anforderung, dass unsere
fixpunktfreie Abbildung bijektiv sein soll.
Dann geben uns die Rencontres Zahlen aus Kapitel 2 sehr schnell eine
rekursive Antwort.

Die Anzahl der fixpunktfreien Permutationen (was ja eine bijektive Abbildung


ist) von 𝑛 Zahlen beträgt:

1, 𝑤𝑒𝑛𝑛 𝑛 = 0
𝐷𝑛+2,0 = {0, 𝑤𝑒𝑛𝑛 𝑛 = 1
(𝑛 + 1)(𝐷𝑛+1,0 + 𝐷𝑛,0 ), 𝑠𝑜𝑛𝑠𝑡

Oder als geschlossene Formel (Approximation):


𝑛!
⌈ ⌉, 𝑤𝑒𝑛𝑛 𝑛 𝑔𝑒𝑟𝑎𝑑𝑒
𝐷𝑛,0 = { 𝑒
𝑛!
⌊ ⌋, 𝑤𝑒𝑛𝑛 𝑛 𝑢𝑛𝑔𝑒𝑟𝑎𝑑𝑒
𝑒

Daraus folgt für die Wahrscheinlichkeit:


𝑛!
⌈𝑒⌉
, 𝑤𝑒𝑛𝑛 𝑛 𝑔𝑒𝑟𝑎𝑑𝑒
𝑃({𝐹 𝑖𝑠𝑡 𝑓𝑖𝑥𝑝𝑢𝑛𝑘𝑡𝑓𝑟𝑒𝑖 𝑢𝑛𝑑 𝑏𝑖𝑗𝑒𝑘𝑡𝑖𝑣}) = 𝑛!
𝑛!
⌊𝑒⌋
{ 𝑛! , 𝑤𝑒𝑛𝑛 𝑛 𝑢𝑛𝑔𝑒𝑟𝑎𝑑𝑒
d) Eine Funktion 𝐹: 𝐴 → 𝐵 ist surjektiv, wenn mindestens zwei 𝑎𝑖 ∈ 𝐴 auf dasselbe
𝑏 ∈ 𝐵 zugewiesen werden. Mehrfache Zuweisungen, wie
𝐹(𝑎1 ) = 𝑏1 und 𝐹(𝑎2 ) = 𝑏1 sind somit notwendig.

Nun haben wir 𝑛 = 10 Zahlen im Definitions- und 𝑟 = 5 Zahlen im Wertebereich.


Somit ist der Definitionsbereich größer als der Wertebereich. Foglich sind doppelte
Zuweisungen unausweichlich.

Also:
𝑃({𝑚𝑖𝑛𝑑𝑒𝑠𝑡𝑒𝑛𝑠 𝑒𝑖𝑛𝑒 𝑑𝑜𝑝𝑝𝑒𝑙𝑡𝑒 𝑍𝑢𝑤𝑒𝑖𝑠𝑢𝑛𝑔}) = 1 = 𝑃({𝐹 𝑖𝑠𝑡 𝑠𝑢𝑟𝑗𝑒𝑘𝑡𝑖𝑣}).

Interessanter wäre der andere Fall gewesen, nämlich 𝑟 = 10 und 𝑛 = 5.

Beispiel 3.30

1
Berechne die Standardabweichung eines gezinkten Münzwurfs mit 𝑃({𝑋 = 𝐾𝑜𝑝𝑓}) = .
3

1
Sei 𝑋~𝐵𝑒𝑟𝑛 (3).

1 1 2 2
𝐸[𝑋 2 ] − 𝐸[𝑋]2 =
𝑉𝑎𝑟[𝑋] = ⏟ −( ) = .
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
3 3 9

2
𝜎(𝑋) = √ .
9
Binomialverteilung

Definitionen 𝑝 ∈ [0,1] (die Wahrscheinlichkeit)


𝑛, 𝑘 ∈ ℕ
oft benutzte Notation 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝑛
( ) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘
𝑘
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝑘
𝑛
∑ ( ) ∙ 𝑝𝑖 ∙ (1 − 𝑝)𝑛−𝑖
𝑖
𝑖=0
Erwartungswert 𝑛∙𝑝
Varianz 𝑛 ∙ 𝑝(1 − 𝑝)
Symmetrisch um 𝜇 1
nur wenn 𝑝 =
2

Anna und José werfen eine Münze 𝑛 = 6-mal. Dabei ist diese gezinkt, mit
Auftrittswahrscheinlichkeit 𝑝 = 0.7 für Kopf. Wenn nach den Würfen genau 𝑘 = 4-viele Köpfe
auftauchen, dann gewinnt Anna, sonst José. Wir fragen uns, wie wahrscheinlich es ist, dass Anna
gewinnt.
Zuerst schauen wir uns an, welche Münzpermutationen überhaupt einen Sieg für sie darstellt:

𝐺𝑒𝑤𝑖𝑛𝑛𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛1 = (𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙, 𝑍𝑎ℎ𝑙)


𝐺𝑒𝑤𝑖𝑛𝑛𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛2 = (𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙)

𝐺𝑒𝑤𝑖𝑛𝑛𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛𝑚 = (𝑍𝑎ℎ𝑙, 𝑍𝑎ℎ𝑙, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓)
Jede dieser Permutationen lässt sich als Pfad im Kombinationsbaum darstellen:
Die Gewinnerpermutation (𝐾𝑜𝑝𝑓, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙, 𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙) als Baum visualisiert. Dafür steht ein grüner
Knoten für „Kopf“ und ein roter Knoten für „Zahl“). Der Wurzelknoten (dunkelgrün) ist nur von theoretischer Natur,
damit wir auch einen Baum haben (und keinen Wald der Einzelpfade).

Unsere Wahrscheinlichkeit 𝑃({𝐴𝑛𝑛𝑎 𝑔𝑒𝑤𝑖𝑛𝑛𝑡}) lässt sich folglich als Summe aller
Pfadwahrscheinlichkeiten zum Gewinn darstellen.

Uns fällt auf, dass wir jeden Wurf durch Indikatorvariablen modellieren können:
1, 𝑤𝑒𝑛𝑛 𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝐾𝑜𝑝𝑓
𝐼{𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝐾𝑜𝑝𝑓} = {
0, 𝑤𝑒𝑛𝑛 𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝑍𝑎ℎ𝑙
Die Wahrscheinlichkeit der obigen Gewinnpermutation (Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)
lautet somit:
𝑃({(Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)}) = 𝑃({(𝐼1 = 1, 𝐼2 = 1, … , 𝐼7 = 0)}).

Da die Würfe unabhängig voneinander sind, lässt sich schreiben:


𝑃({(𝐼1 = 1, 𝐼2 = 1, … , 𝐼7 = 0)}) = 𝑃({𝐼1 = 1}) ∙ 𝑃({𝐼2 = 1}) ∙ … ∙ 𝑃({𝐼7 = 0}).

Wir wissen aus der Aufgabenstellung, dass 𝑃({𝐼𝑗 = 1}) = 𝑝 = 0.7.

Somit ist beträgt die Wahrscheinlichkeit des obigen Baumpfades:


𝑃({(Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)}) = 0.7 ∙ 0.7 ∙ 0.3 ∙ 0.7 ∙ 0.3 ∙ 0.7 ∙ 0.3 = 0.74 ∙ 0.33
= 0.00064827.
Dies ist aber lediglich die Wahrscheinlicheit für einen Gewinnpfad.

Tipp
Im hessischen Abitur nennt man dies „Modell mit Zurücklegen, Reihenfolge relevant“.

Wir bemerken: Jeder einzelne Gewinnpfad hat die gleiche Auftrittswahrscheinlichkeit


𝑝4 (1 − 𝑝)3 = 0.74 ∙ 0.33 , da sich lediglich die Reihenfolge der Münzrealisierungen, aber nicht die
Indikatorwahrscheinlichkeiten ändern. Das bedeutet,
𝑃({(Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)}) = 𝑃({(Zahl, Kopf, Kopf, Zahl, Kopf, Zahl, Kopf)}) = 𝑒𝑡𝑐.
Nun kommt der entscheidende Schritt: Um entscheiden zu können, ob Anna gewinnt, ist es doch
egal welche Gewinnpermutation wir wählen. Die Gewinnpfade sind aus unserer Sicht alle
äquivalent.
Folglich brauchen wir für die Gesamtwahrscheinlichkeit 𝑃({𝐴𝑛𝑛𝑎 𝑔𝑒𝑤𝑖𝑛𝑛𝑡}) einfach nur die
Wahrscheinlichkeiten aller Gewinnpfade aufsummieren. Aber wie viele Pfade gibt es?
Diese Frage haben wir schon beantwortet in Der Binomialkoeffizient als das T-Shirt Modell.

𝑛
Die Anzahl der Gewinnpfade aus 𝑛 = 7 Würfen und 𝑘 = 4 Treffern ist ( ).
𝑘
Somit gilt für Anna:
7
𝑃({𝐴𝑛𝑛𝑎 𝑔𝑒𝑤𝑖𝑛𝑛𝑡}) = ( ) ∙ 0.74 ∙ 0.33 .
4
Allgemein lässt sich dies aufschreiben als:
𝑛
𝑃({𝑋 = 𝑘}) = (⏟) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘

𝑘
𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑇𝑟𝑒𝑓𝑓𝑒𝑟𝑝𝑓𝑎𝑑𝑒 𝑖𝑚 𝐵𝑎𝑢𝑚 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑒𝑖𝑛𝑒𝑠 𝑒𝑖𝑛𝑧𝑒𝑙𝑛𝑒𝑛 𝑃𝑓𝑎𝑑𝑒𝑠

Definition 4.6
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].

Es gilt:
𝑛
𝑃({𝑋 = 𝑘}) = ( ) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘 .
𝑘

Tipp
Im hessischen Abitur lernte man diese Verteilung unter der Rubrik „Reihenfolge irrelevant,
mit Zurücklegen“. Achtung: Die Multinomialverteilung zählt aber auch zur oberen
Bezeichnung.

Die Binomialverteilung ist einer der am häufigsten vorkommenden Verteilungen. Sobald in einem
binären Baum jeder Knoten durch dieselbe Indikatorvariable simuliert werden kann, lässt sich die
Binomialverteilung anwenden.
Tipp
Faustregel: „Sobald wir ein Modell mit Zurücklegen haben, wo wir zwischen zwei
Realisierungen, nämlich „Treffer“ und „Nichtreffer“ unterscheiden, kann man die
Binomialverteilung verwenden. Dabei ist vorausgesetzt, dass die einzelnen Realisierungen
unabhängig und identisch verteilt sind.“

Tipp
Oft lässt sich auch die Wahrscheinlichkeit eines Modells „ohne Zurücklegen, Reihenfolge
irrelevant“ mit der Binomialverteilung bzw. Multinomialverteilung approximieren.

Mehr dazu unter Multinomial-hypergeometrische Verteilung Approximation.

Beispiel 3.31

Die Wahrscheinlichkeit in einer Frankfurter U-Bahn nach dem Fahrausweis kontrolliert


zu werden betrage 10%.

Wenn André zehn mal mit der U-Bahn fährt, wie hoch ist die Wahrscheinlichkeit genau
zweimal kontrolliert zu werden?

Zuerst konvertieren wir die zehn Prozent in eine einheitenlose Wahrscheinlichkeit:


𝑝 = 10% = 0.1.

Wir gehen davon aus, dass die einzelnen U-Bahnfahrten die Kontrollwahrscheinlichkeit nicht
beinflussen (Fahrten sind unabhängig).

Sei 𝑋~𝐵𝑖𝑛{𝑛, 𝑝}, 𝑤𝑜𝑏𝑒𝑖 𝑛 = 10 𝑢𝑛𝑑 𝑝 = 0.1.

Dann ist die gesuchte Wahrscheinlichkeit:


10
𝑃({𝑘 = 2}) = ( ) ∙ 0.12 ∙ (1 − 0.1)10−2 ≈ 0.193.
2

Der Erwartungswert einer binomialverteilten Zufallsvariable lässt sich (fast) genauso einfach
berechnen, wie in der Bernoulliverteilung:

Definition 4.7
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].

Dann gilt:
𝐸[𝑋] = 𝑛 ∙ 𝑝.

FAQ: Beweis Erwartungswert


Frage: Beweise mir 𝐸[𝑋] = 𝑛𝑝.

Antwort: Spätestens beim Erwartungswert lässt sich die Abstammung der


Bernoulliverteilung nicht mehr verleugnen.
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}.

Daraus folgt:
𝑋= ⏟𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑏𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡𝑒 𝑍𝑢𝑓𝑎𝑙𝑙𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛

𝐸[𝑋] = 𝐸[(𝑋1 , 𝑋2 , … , 𝑋𝑛 )] = ⏟
𝐸[𝑋1 ] + ⏟
𝐸[𝑋2 ] + ⋯ + 𝐸[𝑋
⏟ 𝑛 ] = 𝑛 ∙ 𝑝.
=𝑝 =𝑝 =𝑝

Varianz ist auch sehr einfach zu ermitteln:

Definition 4.8
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].

𝑉𝑎𝑟[𝑋] = 𝑛 ∙ 𝑝 ∙ (1 − 𝑝) = 𝑛𝑝𝑞.

FAQ: Beweis Varianz


Frage: Beweise mir 𝑉𝑎𝑟[𝑋] = 𝑛𝑝𝑞.

Antwort: Sicher!

Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}.


Sei 𝑞 = 1 − 𝑝.

Daraus folgt:
𝑋= ⏟𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑏𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡𝑒 𝑍𝑢𝑓𝑎𝑙𝑙𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛

𝑉𝑎𝑟[𝑋] = 𝑉𝑎𝑟[(𝑋1 , 𝑋2 , … , 𝑋𝑛 )] = ⏟
𝑉𝑎𝑟[𝑋1 ] + ⏟
𝑉𝑎𝑟[𝑋2 ] + ⋯ + ⏟
𝑉𝑎𝑟[𝑋𝑛 ] = 𝑛 ∙ 𝑝 ∙ 𝑞.
=𝑝𝑞 =𝑝𝑞 =𝑝𝑞
Die Kovarianzterme fallen weg, weil die 𝑋𝑖 unabhängig sind.

Die Werte unserer notwendigen Parameter 𝑛, 𝑝 geben Ausschluß über das Aussehen der Verteilung.

Definition 4.9
Ist die Auftrittswahrscheinlichkeit 𝑝 klein, so verschiebt sich die Verteilung nach links.

Definition 4.10
Ist die Auftrittswahrscheinlichkeit 𝑝 groß, so verschiebt sich die Verteilung nach rechts.
Da 𝑝 = 0.5, ist der Graph symmetrisch um den
Erwartungswert.

Die resultierende Verteilung ist normalerweise nicht symmetrisch. Wählen wir aber 𝑝 = 0.5, so
erhalten wir eine Achsensymmetrie um den Erwartungswert.

Definition 4.11
Ist die Auftrittswahrscheinlichkeit 𝑝 = 0.5 groß, so ist die Verteilung achsensymmetrisch um
ihren Erwartungswert.

Für spätere Approximationen ist es interessant zu wissen, dass die Binomialverteilung unter
bestimmten Konditionen sich einer Normalverteilung bzw. Poissonverteilung annährt.

Definition 4.12
Ist die Auftrittswahrscheinlichkeit 𝑝 groß (Faustregel: 𝑝 ≥ 0.5) und die Anzahl der Ziehungen
𝑛 auch (Faustregel: 𝑛 ≥ 50), so lässt sich die Binomialverteilung mit einer
𝑍~ ⏟𝑁(𝑛 ∙ 𝑝, 𝑛 ∙ 𝑝 ∙ 𝑞 ) verteilten Variable approximieren.
𝑁𝑜𝑟𝑚𝑎𝑙𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔
Definition 4.13
Ist die Auftrittswahrscheinlichkeit 𝑝 klein (Faustregel: 𝑝 < 0.2) und die Anzahl der
Ziehungen n groß (Faustregel: 𝑛 ≥ 50), so lässt sich die Binomialverteilung mit einer
𝑍~𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑛 ∙ 𝑝) verteilten Variable approximieren.

Dazu gibt es aber in im späteren Kapitel 5 mehr Aufschluß drüber.

Stochastik für Informatiker Aufgabe 10, WS16/17

𝑋 sei binomialverteilt zu den Parametern 𝑛 und 𝑝. Berechnen Sie 𝐸[𝑋 2 ], indem Sie 𝑋 als
eine Summe von Zählvariablen schreiben.

Wir haben zu Beginn des Abschnitts gelernt, dass die Binomialverteilung nichts weiteres, als
eine Akkumulation von Bernoullivariablen ist.

Diese Bernoullivariablen repräsentieren jene „Zählvariablen“.

Also:

Sei 𝑋~𝐵𝑒𝑟𝑛{𝑛, 𝑝}.

𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 , 𝑚𝑖𝑡 𝑋𝑖 ~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝).

𝐸[𝑋 2 ] = 𝐸[(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )2 ]) = 𝐸[(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )])

𝐸[(𝑋12 + 𝑋1 𝑋2 + ⋯ + 𝑋1 𝑋𝑛 + 𝑋22 + 𝑋2 𝑋1 + ⋯ + 𝑋2 𝑋𝑛 + ⋯ + 𝑋𝑛2 + 𝑋𝑛 𝑋1 + ⋯ 𝑋𝑛 𝑋𝑛−1 )]


=⏟
𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑎𝑢𝑓𝑔𝑒𝑙ö𝑠𝑡
= 𝑛(𝑛 − 1)𝐸[𝑋𝑖 𝑋𝑗 ] + 𝑛𝐸[𝑋𝑘2 ], 𝑚𝑖𝑡 𝑖 ≠ 𝑗 𝑢𝑛𝑑 𝑖, 𝑗, 𝑘 ∈ {1, … , 𝑛}
= 𝑛(𝑛 − 1)𝑝2 + 𝑛𝑝.

Daraus folgt:

𝐸[𝑋 2 ] = 𝑛(𝑛 − 1)𝑝2 + 𝑛𝑝 = 𝑛2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝.

Wir können unser Ergebnis kontrollieren über die Varianz.


Da 𝑋 binomialverteilt ist, ist uns ja bekannt:
𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝).

Somit müssen wir auf genau denselben Wert kommen, wenn wir den Verschiebungssatz
anwenden.

𝐸[𝑋 2 ] − 𝐸[𝑋]2 = 𝑛
𝑉𝑎𝑟(𝑋) = ⏟ ⏟2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 − (𝑛𝑝)2 = 𝑛𝑝 − 𝑛𝑝2 = 𝑛𝑝(1 − 𝑝).
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧 𝑢𝑛𝑠𝑒𝑟 𝑜𝑏𝑖𝑔𝑒𝑠 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠
Stochastik für Informatiker Aufgabe 14S, WS17/18

e) Folgern Sie, dass für ein 𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝)-verteiltes 𝑋 gilt:


𝑋 2 𝑝𝑞
𝐸[(𝑋 − 𝑛𝑝)2 ] = 𝑛𝑝𝑞 und 𝐸 [( − 𝑝) = ].
𝑛 𝑛

Mit der Information aus der vorherigen Aufgabe (Stochastik für Informatiker Aufgabe 10,
Wintersemester 16/17) können wir losrechnen und einsetzen.

𝐸[(𝑋 − 𝑛𝑝)2 ] = ⏟
𝐸[𝑋 2 − 2𝑛𝑝𝑋 + 𝑛2 𝑝2 ] = ⏟
𝐸[𝑋 2 ] − 2𝑛𝑝𝐸[𝑋] + 𝐸[𝑛2 𝑝2 ]
𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑎𝑢𝑓𝑔𝑒𝑙ö𝑠𝑡 𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑑𝑒𝑠 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡𝑠
𝐸[𝑋 2 ] − 2𝑛2 𝑝2 + 𝑛2 𝑝2 = ⏟
=⏟ 𝑛2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 − 2𝑛2 𝑝2 + 𝑛2 𝑝2 = −𝑛𝑝2 + 𝑛𝑝
𝑑𝑎 𝐸[𝑋]=𝑛𝑝 𝑠𝑖𝑒ℎ𝑒 𝐴𝑢𝑓𝑔𝑎𝑏𝑒 𝑧𝑢𝑣𝑜𝑟 𝑓ü𝑟 𝐸[𝑋 2 ]
= 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞, 𝑑𝑎 𝑞 = (1 − 𝑝).
2
𝑋 𝑋 2 2𝑝𝑋 𝑛2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 −𝑛𝑝2 + 𝑛𝑝
𝐸 [( − 𝑝) ] = 𝐸 [ 2 − + 𝑝2 ] = 2
− 2𝑝2 + 𝑝2 =
𝑛 𝑛 𝑛 𝑛 𝑛2
𝑛𝑝(1 − 𝑝) 𝑝(1 − 𝑝) 𝑝𝑞
= = = .
𝑛2 𝑛2 𝑛
Stochastik für Informatiker Aufgabe 4, WS17/18

Es sei 𝑛 ∈ ℕ. Wir nennen 𝑎 = (𝑎1 , … , 𝑎𝑛 ) eine 01-Folge der Länge 𝑛, falls 𝑎𝑖 ∈ {0,1},
𝑖 = 1, … , 𝑛. Wir sagen, dass 𝑎 das Muster 0110 enthält, falls 𝑎𝑖 𝑎𝑖+1 𝑎𝑖+2 𝑎𝑖+3 = 0110 für ein
𝑖 ∈ {1, … , 𝑛 − 3}. Für 𝑘 ∈ ℕ sei nun 𝑋 = (𝑋1 , … , 𝑋4𝐾 ) eine rein zufällige 01-Folge der Länge
4𝑘. Warum gilt folgende Aussage:
1 𝑘
𝑃(𝑋 𝑒𝑛𝑡ℎä𝑙𝑡 𝑑𝑎𝑠 𝑀𝑢𝑠𝑡𝑒𝑟 0110) ≥ 1 − (1 − 4 ) ?
2

Wir teilen unsere 4𝑘 lange 01 Folge in 4-Element große Stücke auf, also:

𝑎 = (𝑎
⏟1 , 𝑎2 , 𝑎3 , 𝑎4 , ⏟
𝑎5 , 𝑎6 , 𝑎7 , 𝑎8 , … ⏟
𝑎𝑛−3 , 𝑎𝑛−2 , 𝑎𝑛−1 , 𝑎𝑛 ).
ℎ1 ℎ2 ℎ𝑘

Dies hat den Vorteil, dass jedes Stück unabhängig vom Vorgängerstück ist. Diese gruppierte
Menge 𝑀 = (ℎ1 , … , ℎ𝑘 ) hat dann 𝑘 viele Elemente.

Wir definieren nun eine Indikatorvariable 𝐼𝑢 auf 𝑀 mit

1, 𝑤𝑒𝑛𝑛 ℎ𝑢 = (0,1,1,0)
𝐼𝑢 = { .
0, 𝑠𝑜𝑛𝑠𝑡

Trivial: Die 𝐼𝑢′ 𝑠 sind unabhängig und identisch verteilt.

Die Indikatorwahrscheinlichkeit beträgt

1
𝑃(𝐼𝑢 = 1) = 𝑃(𝑎𝑢1 = 0, 𝑎𝑢2 = 1, 𝑎𝑢3 = 1, 𝑎𝑢4 = 0) = ⏟
𝑃(𝑎𝑢1 = 0) ∙ … ∙ 𝑃(𝑎𝑢4 = 0) = .
24
𝑑𝑎 𝑎𝑢𝑐ℎ 𝑑𝑖𝑒 𝑎𝑖′ 𝑠 𝑖.𝑖.𝑑
Sei 𝑋 = 𝐼1 + 𝐼2 + ⋯ + 𝐼𝑘 eine Zufallsvariable. Offensichtlich ist 𝑋 binomialverteilt mit
1
Parametern 𝑛 = 𝑘, 𝑝 = 24 .

Dann gilt:

𝑘 1 0 1 𝑘−0 1 𝑘
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 − ( ) ∙ ( 4 ) ∙ (1 − 4 ) = 1 − (1 − 4 ) .
0 2 2 2
Wir wissen: Wenn 𝐼𝑢 = 1 dann gibt es auf jeden Fall eine 0110 Folge. Da wir die Menge 𝑎 aber
uniform gruppiert haben, schlägt unsere Indikatorvariable nicht an, wenn eine 0110 Folge
sich zwischen zwei Gruppen befindet, wie z.B.

1,1,0,0
⏟ , 1,1,0,0
⏟ .
ℎ1 ℎ2
Somit ist unsere Wahrscheinlichkeit eine untere Abschätzung für mindestens ein
Vorkommen von 0110. Folglich:
1 𝑘
𝑃(𝑋 𝑒𝑛𝑡ℎä𝑙𝑡 𝑑𝑎𝑠 𝑀𝑢𝑠𝑡𝑒𝑟 0110) ≥ 1 − (1 − 4 ) .
2
Multinomialverteilung

Definitionen {𝑝1 , 𝑝2 , … 𝑝𝑛 } 𝑚𝑖𝑡 𝑝𝑖 ∈ [0,1]


𝑛

∑ 𝑝𝑖 = 1
𝑖=1
{𝑘1 , 𝑘2 , … , 𝑘𝑛 },
𝑚𝑖𝑡 𝑘𝑖 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡 𝑑𝑒𝑠 𝑂𝑏𝑗𝑒𝑘𝑡𝑠 𝑖
𝑛

𝑚 = ∑ 𝑘𝑖 , 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑂𝑏𝑗𝑒𝑘𝑡𝑒


𝑖=1
oft benutzte Notation 𝑋~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙{{𝑘1 , 𝑘2 , … , 𝑘𝑛 }, {𝑝1 , 𝑝2 , … 𝑝𝑛 }}
Gewichtsfunktion (pmf) 𝑃(𝑋 = (𝑔1 , … , 𝑔𝑛 )) 𝑚!
∙ (𝑝1 )𝑘1 ∙ … ∙ (𝑝𝑛 )𝑘𝑛 ,
𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑛 !
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ (𝑔1 , … , 𝑔𝑙 ))) Gibt es nicht, Grund im Text beschrieben.

Erwartungswert 𝐸[𝑋𝑖 ] = 𝑚 ∙ 𝑝𝑖
Varianz 𝑉𝑎𝑟[𝑋𝑖 ] = 𝑚 ∙ 𝑝𝑖 (1 − 𝑝𝑖 )
Symmetrisch um 𝜇 1
Möglich, z.B. wenn 𝑛 = 2 𝑢𝑛𝑑 𝑝𝑖 = 𝑓ü𝑟 𝑖 ∈
2
{1,2}
(es liegt dann Binomialverteilung vor mit 𝑝 =
1
)
2

Die Multinomialverteilung beschreibt die Wahrscheinlichkeitsverteilung von 𝑛 Objekten, die in 𝑚


Klassen eingeordnet sind.
Sie ist somit eine Verallgemeinerung der Binomialverteilung, welche eine
Wahrscheinlichkeitsverteilung von 𝑛 Objekten, die in 𝑚 = 2 Klassen eingeordnet sind beschreibt.
Die Auftrittswahrscheinlichkeit 𝑝𝑖 eines Objektes aus der 𝑖-ten Klasse bleibt dabei konstant (Ziehen
mit Zurücklegen).

Tipp
Wir haben 𝑚 Farben und 𝑛 Bälle in einer Urne. Jeder Ball ist mit einer der 𝑚 Farben eingefärbt.

Wir ziehen nun alle 𝑙 Bälle aus der Urne und vermerken uns die gezogene Farbe. Da wir die Bälle
nach jeder Ziehung wieder in die Urne zurücklegen, bleibt die Auftrittswahrscheinlichkeit 𝑝𝑖 des
𝑖-ten Balls konstant.
Die Wahrscheinlichkeit, eine bestimmte Farbkombination zu ziehen ist multinomialverteilt.

Wir haben n=7 Bälle und ziehen 𝑙 = 3 davon. Die Wahrscheinlichkeit, die Farbkombination
(𝑋1 = 𝑏𝑙𝑎𝑢, 𝑋2 = 𝑔𝑟ü𝑛, 𝑋3 = 𝑔𝑟ü𝑛) zu ziehen (mit Zurücklegen) ist multinomialverteilt. Die Reihenfolge der
gezogenen Kugeln ist dabei egal.

Die Gewichtsfunktion ist lediglich der Multinomialkoeffizient multipliziert mit den


Auftrittswahrscheinlichkeiten der einzelnen Klassen.

Falls wir Herleitung und Definition des Multinomialkoeffizienten vergessen haben, können wir
jenes dies im Abschnitt Permutationen als das Legostein Modell nachlesen.

Dabei beschreibt 𝑙 die Anzahl der Ziehungen und 𝑔𝑖 die Vielfachheit des 𝑖-ten Objekts:
𝑙!
∙ (𝑝1 ) 𝑔1 ∙ … ∙ (𝑝𝑛 ) 𝑔𝑛 .
𝑔1 ! ∙ 𝑔2 ! ∙ … ∙ 𝑔𝑠 !

𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑓𝑓𝑖𝑧𝑖𝑒𝑛𝑡

Da die Ziehungen untereinander unabhängig und mit Zurücklegen sind (konstante


Wahrscheinlichkeit 𝑝𝑖 ) ist die Verknüpfung (𝑝1 )𝑔1 ∙ … ∙ (𝑝𝑛 ) 𝑔𝑛 der Auftrittswahrscheinlichkeiten
auch legitim.
Ein Beispiel macht aber alles klarer:
Beispiel 3.32

Katrin benötigt eine Funktion, die ein Array mit Ganzzahlen generiert. Katrin hat sich
dabei einen besonderen Algorithmus ausgedacht:

int* KatrinsGenerator (int 𝑛){


int A[];
• ziehe 𝑛 Zahlen (𝑎1 , … , 𝑎𝑛 ) im Ganzzahlintervall [1, … , 𝑛] rein zufällig
• A={𝑎1 , … , 𝑎𝑛 }
return A;
}

Wie hoch ist die Wahrscheinlichkeit, dass KatrinsGenerator beim Funktionsaufruf


KatrinsGenerator(8) die Zahlen {1,1,2,5,7,8,8,8} generiert werden?

Wir wollen, dass folgende Kombination gezogen wird. Die Reihenfolge ist dabei egal.

𝑋 = {1,1,2,5,7,8,8,8}.

Die Zahlen werden rein zufällig im Intervall [1, … , 𝑛] gezogen. Da 𝑛 = 8, ergeben sich die
Wahrscheinlichkeiten:
1
𝑃({1}) = ⋯ = 𝑃({8}) = .
8

Da jedes Element rein zufällig gezogen wird, bleibt die Auftrittswahrscheinlichkeit konstant
(ziehen mit Zurücklegen).

Aufgrund dieser Informationen ist unser Sachverhalt multinomialverteilt.

Folgende Objektklassen sind vorhanden:

𝑂𝑏𝑗𝑒𝑘𝑡𝑘𝑙𝑎𝑠𝑠𝑒𝑛 = {1,2,3,4,5,6,7,8}.

Folgende Vielfachheiten der Objekte sind gewünscht:

𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡𝑒𝑛 = {𝑔1 = 2, 𝑔2 = 1, 𝑔5 = 1, 𝑔7 = 1, 𝑔8 = 3}.

Daraus folgt:
𝑙! 8! 1 8
𝑃({𝑋 = {1,1,2,5,7,8,8,8}}) = ∙ (𝑝1 )𝑔1 ∙ … ∙ (𝑝𝑛 ) 𝑔𝑛 = ∙( ) .
𝑔1 ! ∙ 𝑔2 ! ∙ … ∙ 𝑔𝑠 ! 2! ∙ 1! ∙ 1! ∙ 1! ∙ 3! 8

Wichtig: Hätten wir verlangt, dass die Reihenfolge relevant wäre, dann wäre die
1 8
Wahrscheinlichkeit ( ) gewesen, weil wir das obere Ergebnis dann durch den
8
Multinomialkoeffizienten wieder geteilt hätten!
Beispiel 3.33

Beweise, dass die Multinomialverteilung

𝑚!
𝑃(𝑋 = {𝑘1 , … , 𝑘𝑚 }) = ∙ (𝑝1 )𝑘1 ∙ … ∙ (𝑝𝑛 )𝑘𝑛 ,
𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑛 !

bei 𝑛 = 2 die Binomialverteilung mit 𝑙 Ziehungen ergibt!

Sei 𝑛 = 2. Daraus folgt:

𝑚! 𝑘 𝑚−𝑘1 𝑚! 𝑘 𝑚−𝑘1
𝑃(𝑋 = {𝑘1 , 𝑘2 }) = ∙𝑝 1 ∙ 𝑝⏟2 = ∙ 𝑝1 1 ∙ 𝑝2
𝑘1 ! ∙ 𝑘2 ! 1 𝑘
⏟1 ! ∙ (𝑚 − 𝑘1 )!
𝑑𝑎 𝑘2 =𝑚−𝑘1
𝐹𝑜𝑟𝑚𝑒𝑙 𝑑𝑒𝑠 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑓𝑓𝑖𝑧𝑖𝑒𝑛𝑡𝑒𝑛
𝑚 𝑘
= (𝑘 ) 𝑝1 1 ∙ (1 − 𝑝1 )𝑚−𝑘1 .
1

Stochastik für Informatiker Aufgabe 12, WS15/16

Wir betrachten ein Brett mit 25 Feldern, 10 davon weiß und 15 schwarz, sowie 25
Spielsteine, ebenfalls 10 davon weiß und 15 schwarz.
Acht Spielsteine werden rein zufällig aus den 25 gewählt und rein zufällig (ohne
Mehrfachbelegungen) auf die Felder verteilt.

a)
(i) Wie wahrscheinlich ist es, dass ein bestimmtes weißes Feld besetzt wird?
(ii) Wie wahrscheinlich ist es, dass ein bestimmtes weißes Feld besetzt wird
und zwar mit einem weißen Stein?
(iii) Berechnen Sie den Erwartungswert der Anzahl der weißen Felder,
die mit weißen Steinen besetzt werden.

b) Berechnen Sie die Wahrscheinlichkeit, dass


(i) Genau 3 weiße Steine gewählt werden,
(ii) Genau 3 weiße Felder besetzt werden,
(iii) 3 weiße Felder mit weißen Steinen und 5 schwarze Felder mit
schwarzen Steinen besetzt werden.

a)

25
(i) Dies ist ein Kombinationsproblem. Es gibt insgesamt ( ) Möglichkeiten, die 25
8
Felder zu besetzen.
Somit ist der Nenner unseres Bruches definiert (alle möglichen Ereignisse).

Für die Anzahl aller gültigen Ereignisse, fixieren wir ein bestimmtes Feld mit
einem Stein. Dann haben wir 24 frei wählbare Felder und 7 Spielsteine übrig.
Für die Anforderung, dass wir einen Die restlichen 24 Felder lassen sich dann mit
bestimmten weißen Stein betrachten sollen, 24
den restlichen 7 Steinen belegen. Es gibt ( )
fixieren wir ein beliebiges Feld mit einem Stein 7
(linke obere Ecke). solcher Belegungen.

24
Es gibt also ( ) Belegungen, die unseren fixierten weißen Stein enthalten.
7
Folglich ist die gesuchte Wahrscheinlichkeit:
24
( ) 8
𝑃({𝑒𝑖𝑛 𝑏𝑒𝑠𝑡𝑖𝑚𝑚𝑡𝑒𝑠 𝑤𝑒𝑖ß𝑒𝑠 𝐹𝑒𝑙𝑑 𝑤𝑖𝑟𝑑 𝑏𝑒𝑠𝑒𝑡𝑧𝑡}) = 7 = .
25 25
( )
8

(ii) Hier können wir mit bedingten Wahrscheinlichkeiten arbeiten.


Zuerst kürzen wir unser Ereignis ab:
𝐴 = {𝑖𝑛 𝑏𝑒𝑠𝑡𝑖𝑚𝑚𝑡𝑒𝑠 𝑤𝑒𝑖ß𝑒𝑠 𝐹𝑒𝑙𝑑 𝑤𝑖𝑟𝑑 𝑏𝑒𝑠𝑒𝑡𝑧𝑡}.

Dann folgt:
𝑃(𝐴 ∩ {𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}) = 𝑃(𝐴) ∙ 𝑃({𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}|𝐴).

Die Wahrscheinlichkeit, dass ein fixiertes Feld einen weißen Spielstein erhält ist
10
(weil zehn von 25 Steinen weiß sind).
25

Daraus folgt:

8 10
𝑃(𝐴) ∙ 𝑃({𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}|𝐴) = ∙ = 0,128.
25 25

(iii) Zuerst kürzen wir unser Ereignis erneut ab:

𝐴 = {𝑖𝑛 𝑏𝑒𝑠𝑡𝑖𝑚𝑚𝑡𝑒𝑠 𝑤𝑒𝑖ß𝑒𝑠 𝐹𝑒𝑙𝑑 𝑤𝑖𝑟𝑑 𝑏𝑒𝑠𝑒𝑡𝑧𝑡}.

Wir definierten eine Indikatorvariable wie folgt:

1, 𝑤𝑒𝑛𝑛 𝜔 𝑖𝑠𝑡 𝑤𝑒𝑖ß𝑒𝑠 𝐹𝑒𝑙𝑑


𝐼(𝜔)𝐴 = {
0, 𝑠𝑜𝑛𝑠𝑡
Es gilt:
8
𝑃({𝐼 = 1}) = . .

25
𝑠𝑖𝑒ℎ𝑒 𝐴𝑢𝑓𝑔𝑎𝑏𝑒𝑛𝑡𝑒𝑖𝑙𝑒 𝑧𝑢𝑣𝑜𝑟

Daraus folgt:

8
𝐸[(𝐼1 , 𝐼2 , … , 𝐼8 )] = 𝐸[𝐼1 ] + 𝐸[𝐼2 ] + ⋯ + 𝐸[𝐼8 ] = 8 ∙ = 2,56.
25
d

b)

(i) Wir ziehen ohne Zurücklegen. Es liegt eine hypergeometrische Verteilung vor.
10 15
( )( )
𝑃({𝑋 = 3}) = 3 5 .
25
(ii) Wir besetzen die Felder ohne Doppelbesetzung (äquivalent zu „Ziehen ohne
Zurücklegen“). Da es auch hier 10 weiße Felder und 15 schwarz gibt, erhalten wir
dasselbe Ergebnis wie oben.

(iii)

Der Erwartungswert ist diesmal keine einzelne Zahl. Vielmehr erhalten wir einen Vektor, der das
erwartete Auftreten jeder einzelnen Klasse ausgibt.

Definition 4.14
Sei 𝑋~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙{{𝑘1 , 𝑘2 , … , 𝑘𝑛 }, {𝑝1 , 𝑝2 , … 𝑝𝑛 }}
und
𝑛

𝑚 = ∑ 𝑘𝑖 .
𝑖=1

Dann gilt:
𝐸[𝑋] = (𝑚 ∙ 𝑝1 , 𝑚 ∙ 𝑝2 , … , 𝑚 ∙ 𝑝𝑛 ).

Wenn man genau hinschaut, erkennt man, dass das Obere dem Erwartungswert 𝑛 ∙ 𝑝 aus der
Binomialverteilung ähnelt (nur variiert das 𝑝𝑖 diesmal mit den Klassen).
Die Varianz lässt sich analog als „klassenspezifische Binomialverteilungsvarianz“ sehen.
Definition 4.15
Sei 𝑋~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙{{𝑘1 , 𝑘2 , … , 𝑘𝑛 }, {𝑝1 , 𝑝2 , … 𝑝𝑛 }}
und
𝑛

𝑚 = ∑ 𝑘𝑖 .
𝑖=1

Dann gilt:
𝑉𝑎𝑟[𝑋] = (𝑚 ∙ 𝑝1 (1 − 𝑝1 ), … , 𝑚 ∙ 𝑝𝑛 (1 − 𝑝𝑛 )).

Stochastik für Informatiker Aufgabe 12, WS17/18

60 Karten, von denen 10 die Farbe blau, 20 die Farbe rot und 30 die Farbe grün haben,
werden perfekt gemischt und dann mit Zurücklegen eine nach der anderen gezogen.

(i) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau, 3 rot und
3 grün sind?
(ii) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau und die
anderen 6 rot oder grün sind?

Wir haben 3 verschiedene Klassen und die Karten werden nach jedem Zug in den Stapel
zurückgelegt. Somit bleibt die Wahrscheinlichkeit 𝑝𝑖 des Auftritts der Klasse 𝑖 in jedem Zug
gleich. Die Situation ist somit multivariat verteilt.

Die Klassenwahrscheinlichkeiten sind somit:

10 20 30
𝑝𝑏𝑙𝑎𝑢 = , 𝑝𝑔𝑟ü𝑛 = , 𝑝𝑟𝑜𝑡 = .
60 60 60

(i) Wir setzen direkt in die Formel der multivariaten Verteilung ein:
10! 104 ∙303 ∙203
𝑃({4 𝑏𝑙𝑎𝑢𝑒, 3 𝑟𝑜𝑡𝑒 𝑢𝑛𝑑 3 𝑔𝑟ü𝑛𝑒 𝐾𝑎𝑟𝑡𝑒𝑛}) = ∙ ≈ 0.015.
4!∙3!∙3! 6010
(ii) Wir addieren die Wahrscheinlichkeiten der roten und grünen einfach zusammen:
10! 104 ∙ (50)6
𝑃({4 𝑏𝑙𝑎𝑢, 𝑟𝑒𝑠𝑡 𝑟𝑜𝑡 𝑜𝑑𝑒𝑟 𝑔𝑟ü𝑛}) = ∙ = 0.054.
4! ∙ 6! 6010
Multivariate hypergeometrische Verteilung

Pmf für zwei Klassen, also 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾 . Summierte Massefunktion derselben Verteilung wie
links.

Definitionen {𝐾1 , 𝐾2 , … , 𝐾𝑐 } ∈ ℕ𝑐 , 𝑎𝑙𝑠𝑜 𝑐 𝐾𝑙𝑎𝑠𝑠𝑒𝑛


𝑐

𝑁 = ∑ 𝐾𝑖 , 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑎𝑙𝑙𝑒𝑟 𝑂𝑏𝑗𝑒𝑘𝑡𝑒


𝑖=1
𝑛 ∈ {0, … , 𝑁}, 𝑆𝑡𝑖𝑐ℎ𝑝𝑟𝑜𝑏𝑒𝑛𝑔𝑟öß𝑒
0 ≤ 𝑘𝑖 ≤ 𝐾𝑖
oft benutzte Notation 𝑋~ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ({𝐾1 , 𝐾2 , … , 𝐾𝑐 })
Gewichtsfunktion (pmf) 𝑃(𝑋 = (𝑘1 , … , 𝑘𝑐 )) 𝐾
∏𝑐𝑖=1 ( 𝑖 )
𝑘𝑖
𝑁
( )
𝑛
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ (𝑘1 , … , 𝑘𝑐 )) 𝑘1 𝑘𝑐 𝐾1 𝐾
( ) ∙ … ∙ ( 𝑐)
𝑖1 𝑖𝑐
∑…∑
𝑁
𝑖1 𝑖𝑐 ( )
𝑛
Erwartungswert 𝐾𝑖
𝐸[𝑋𝑖 ] = 𝑛 ∙
𝑁
Varianz 𝐾𝑖 𝐾𝑖 𝑁−𝑛
]
𝑉𝑎𝑟[𝑋𝑖 = (1 − ) ∙ 𝑛
𝑁 𝑁 𝑁−1
Symmetrisch um 𝜇 möglich, wenn z.B: 𝐾1 = 𝐾2 bei zwei
Klassen

Bei der multinomialen Verteilung zogen wir quasi Kugeln mit Zurücklegen. Ziehen wir nun anstatt
ohne Zurücklegen, landen wir bei der multivariaten hypergeometrische Verteilung. In einer
gewissen Art und Weise, bildet die hypergeometrische Verteilung viele Sachverhalte besser ab.
Wenn wir z.B. in einer Umfrage eine repräsentative Stichprobe aus der Bevölkerung ziehen, so
entfernen wir die befragte Personen ja aus unserer Grundmenge anstatt sie potentiell erneut zu
befragen.
Da die multinomiale Verteilung sich aber leichter berechnen lässt, findet sie dennoch auch in
hypergeometrisch verteilten Situationen häufig Anwendung (siehe Abschnitt Multinomial-
hypergeometrische Verteilung Approximation).
Einige werden sich daran erinnern, dass die Binomialverteilung ein netter Spezialfall der
Multinomialverteilung mit 𝑐 = 2 Klassen war. Eine solch praktischer „Sonderfall“ begegnet uns
auch hier:

Definition 4.16
Sei 𝑋~ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ({𝐾1 , 𝐾2 }), also es existieren 2 Klassen.
Wir reparameterisieren:
Sei 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾. Zusätzlich beschreibe 𝑋 die Anzahl der Treffer von 𝐾.
Dann gilt:
plt.bar(x,y1,align='center',width=0.5,tick_label=[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,1
9,20],edgecolor="black",alpha=1)
𝐾 𝑁−𝐾
( )( )
𝑃(𝑋 = 𝑘) = 𝑘 𝑛 − 𝑘
𝑁
( )
𝑛

Bei zwei Klassen können wir also 𝑃(𝑋 = (𝑘1 , 𝑘2 )) zu 𝑃(𝑋 = 𝑘) reparameterisieren.

FAQ: Woher kommt die pmf?


Frage: Die Gewichtsfunktion kann ich mir also nun wirklich nicht herleiten.

Antwort: Mein Kind. Sei 𝑋~ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ({𝐾1 , 𝐾2 }).

Wir reparameterisieren:
Sei 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾. Zusätzlich beschreibe 𝑋 die Anzahl der Treffer von 𝐾.

Wir haben also eine Urne mit 𝐾 roten und 𝑁 − 𝐾 blauen Kugeln.

𝑁
Wir können auf ( ) viele Arten 𝑛 viele Kugeln ziehen mit irrelevanter Reihenfolge und ohne
𝑛
Zurücklegen(siehe Der Binomialkoeffizient als das T-Shirt Modell).

𝐾
Wir können auf ( ) viele Arten 𝑘 viele rote Kugeln ziehen mit irrelevanter Reihenfolge und
𝑘
ohne Zurücklegen.

𝑁−𝐾
Wir können auf ( ) viele Arten 𝑛 − 𝑘 viele blaue Kugeln ziehen mit irrelevanter
𝑛−𝑘
Reihenfolge und ohne Zurücklegen.

𝑁
Es gibt somit ( ) Gesamtziehmöglichkeiten von 𝑛 Kugeln.
𝑛
𝐾 𝑁−𝐾
Es gibt ( ) ( ) Gesamtziehmöglichkeiten von roten und blauen Kugeln. Dabei müssen
𝑘 𝑛−𝑘
wir beide Terme multiplizieren und nicht addieren. Grund: Der Kombinationsbaum aller
𝐾
Möglichkeiten rote Kugeln zu ziehen hat ( ) Blätter. Zu jedem Blatt hängen wir jetzt
𝑘
𝑁−𝐾
( ) Möglichkeiten an, blaue Kugeln zu ziehen.
𝑛−𝑘

Daraus folgt :
𝐾 𝑁−𝐾
( )( )
𝑃(𝑋 = 𝑘) = 𝑘 𝑛 − 𝑘 .
𝑁
( )
𝑛

Beispiel 3.34

60 Karten, von denen 10 die Farbe blau, 20 die Farbe rot und 30 die Farbe grün haben,
werden perfekt gemischt und dann ohne Zurücklegen eine nach der anderen gezogen.

(i) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau, 3 rot und
3 grün sind?
(ii) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau und die
anderen 6 rot oder grün sind?
Dies ist eine minimal veränderte Version der zuvor berechneten Beispielaufgabe 12
WS17/18.

10 20 30
( )∙( )∙( )
4 3 3
(i) 𝑃(𝑋 = (4,3,3)) = 60 ≈ 0.01289. Dies ist etwas geringer als beim
( )
10
Ziehen mit Zurücklegen (Wert: 0.015).
10 40
( )∙( )
4 6
(ii) 𝑃(𝑋 = (4 𝑏𝑙𝑎𝑢, 3 𝑟𝑜𝑡 𝑜𝑑𝑒𝑟 𝑔𝑟ü𝑛)) = 60 ≈ 0.0106. Dies ist geringer als
( )
10
beim Ziehen mit Zurücklegen (Wert: 0.054).

Stochastik für Informatiker Aufgabe 15, WS17/18

Aus einer Population bestehend aus 40 Hessen und 60 Bayern wurde eine Stichprobe vom
Umfang 20 (d.h. eine 20-elementige Teilmenge der Population) herausgegeriffen. In
dieser befanden sich 5 Hessen und 15 Bayern.

1. Was ist der Erwartungswert der Anzahl der Hessen in einer rein zufäligen
Stichprobe vom Umfang 20?
2. Wie wahrscheinlich ist in einer rein zufällig gezogenen Stichprobe eine Anzahl von
Hessen, die vom (in a) berechneten Erwartunsgwert minestens so weit abweicht
wie die beobachtete Anzahl 5?

1. Sei 𝑋~ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ({40,60}). Zusätzlich sei 𝑁 = 100, 𝑛 = 20 und 𝐾 = 40. Es


gilt:
Laut unserer Erwartungswertformel für hypergeometrisch verteiltes 𝑋 gilt:
40
𝐸[𝐾] = 20 ∙ = 8.
100
2. Wir beobachteten in der Stichprobe laut Aufgabenstellung 5 Hessen. Der Abstand
dieser Hessenanzahl zum Erwartungswert 𝐸[𝐾] = 8 beträgt 8 − 5 = 3. Somit:

𝑃(|𝑋 − 𝐸[𝐾]| ≥ 3) = 𝑃(|𝑋 − 8| ≥ 3)


= 𝑃(𝑋 − 8 ≥ 3) + 𝑃(−𝑋 + 8 ≥ 3)
= 𝑃(𝑋 ≥ 11) + 𝑃(𝑋 ≤ 5).
Dabei nicht vergessen, dass |−𝑥| ⟺ |𝑥|.

Die Wahrscheinlichkeit lässt sich nun berechnen:


40 60
( )( )
𝑃(𝑋 ≥ 11) = ∑20
𝑖=11 =
𝑖 20−𝑖
100 ≈ 0.101,
( )
20
5 40 60
( )( )
𝑃(𝑋 ≤ 51) = ∑ = 𝑖 20 − 𝑖 ≈ 0.0994.
100
𝑖=0 ( )
20

Daraus folgt: 𝑃(|𝑋 − 8| ≥ 3) ≈ 0.2.


Negative Binomialverteilung

Definitionen 𝑝 ∈ [0,1] (die Wahrscheinlichkeit)


𝑟, 𝑘 ∈ ℕ
oft benutzte Notation 𝑋~𝑁𝐵{𝑟, 𝑝}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝑘+𝑟−1
( ) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑟
𝑘
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝐵(𝑝, 𝑘 + 1, 𝑟)
1− , 𝑚𝑖𝑡 𝐵(∙,∙,∙) 𝐵𝑒𝑡𝑎𝑓𝑢𝑛𝑘𝑡𝑖𝑜𝑛
𝐵(𝑘 + 1, 𝑟)
𝐵(∙,∙) 𝑢𝑛𝑣𝑜𝑙𝑙𝑠𝑡ä𝑛𝑑𝑖𝑔𝑒 𝐵𝑒𝑡𝑎𝑓𝑢𝑛𝑘𝑡𝑖𝑜𝑛.
Erwartungswert 𝑟∙𝑝
1−𝑝
Varianz 𝑟∙𝑝
(1 − 𝑝)2
Symmetrisch um 𝜇 nein, aber abhängig von den Parametern kann
sie sehr symmetrisch aussehen

Situation: Wir werfen so lange eine Münze, bis wir 𝑟 Kopf erhalten haben. Die negative
Binomialverteilung beschreibt also die Wahrscheinlichkeit, bei 𝑘 + 𝑟 Versuchen 𝑟 Misserfolge zu
erzielen. Die negative Binomialverteilung ist somit eine Verallgemeinerung der geometrischen
Verteilung.

FAQ: Wie ist diese Verteilung mit der geometrischen verwandt?


Frage: Warum ist diese Verteilung mit der geometrischen Verteilung verwandt?

Antwort: Sei 𝑋~𝑁𝐵(1, 𝑝), mit 𝑟 = 1.


Dann:
𝑘
𝑃(𝑋 = 𝑘) = ( ) ∙ 𝑝𝑘 ∙ (1 − 𝑝)1 = 𝑝𝑘 ∙ (1 − 𝑝).
𝑘

Sei 𝑞 = (1 − 𝑝). Dann:

𝑃(𝑋 = 𝑘) = (1 − 𝑞)𝑘 ∙ 𝑞.
Dies gleicht der Definition der geometrischen Verteilung. Die Substitution war notwendig,
weil die hypergeometrische Verteilung im Gegensatz zur geometrischen 𝑟 als Misserfolg
klassizifiert.

Achtung
Wie oben zu sehen, wird 𝑟 als „Misserfolg“ anstatt „Erfolg“ betrachtet. Dies ist gegensätzlich zur
geometrischen Verteilung in üblicher Parameterisierung.

Die Herleitung der Formel ist kombinatorisch: Wenn ich nach 𝑟 Misserfolgen abbreche, habe ich
eine Wahrscheinlichkeit von (1 − 𝑝)𝑟 für das gemeinsame Auftreten dieser. 𝑃(𝑋 = 𝑘) bedeutet,
dass ich das Experiment 𝑟 + 𝑘 mal wiederhole. Die 𝑘 Erfolge haben eine Wahrscheinlicheit von 𝑝𝑘 .

Die Erfoge und Misserfolge können in verschiedenen Reihenfolgen vorkommen: Bei 4 Würfen mit
𝑟 = 3, 𝑘 = 1 sind folgende Permutationen möglich:
𝐸, 𝑀, 𝑀, 𝑀
𝑀, 𝐸, 𝑀, 𝑀
𝑀, 𝑀, 𝐸, 𝑀
𝑀, 𝑀, 𝑀, 𝐸.
𝑘+𝑟 4
Das sind ( ) = ( ) = 4 Permutationen. Da wir aber das Experiment genau nach dem 𝑟-ten
𝑘 1
Misserfolg abbrechen, streichen wir die 𝑀, 𝑀, 𝑀, 𝐸 Permutation aus unserer Liste.
𝑘+𝑟−1 3
Somit haben wir ( ) = ( ) Möglichkeiten übrig.
𝑘 1
Beispiel 3.35

Die Wahrscheinlichkeit, dass ein System in der Minute crashed beträgt 0.01. Jonas muss
zur Arbeit, wenn das System zweimal gecrasht ist.

(i) Wie hoch ist die Wahrscheinlichkeit, dass er nach 200 Minuten zur Arbeit muss?

(ii) Was ist die erwartete Anzahl an Minuten, bis er zur Arbeit gerufen wird?

Sei 𝑋~𝑁𝐵(2,0.99).

198 + 2 − 1
(i) 𝑃(𝑋 = 200) = ( ) ∙ 0.99198 ∙ (0.01)2 ≈ 0.272
198
𝑟∙𝑝 2∙0.99
(ii) 𝐸[𝑋] = = = 198.
1−𝑝 0.01
Im Schnitt wird er alle 198 Minuten zur Arbeit gerufen.
Geometrische Verteilung

Die pmf’s ähneln den pdf’s der Exponentialverteilung. Die cmf’s ähneln den cdf’s der Exponentialverteilung.

Definitionen 𝑝 ∈ [0,1] (die Wahrscheinlichkeit)


𝑘 ∈ ℕ\{0} bzw. 𝑘 ∈ ℕ (alternative
Parameterisierung)
oft benutzte Notation 𝑋~𝐺𝑒𝑜𝑚{𝑝}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝑝(1 − 𝑝)𝑘−1

alternativ wird manchmal 𝑝(1 − 𝑝)𝑘


verwendet, was nicht mit dem Oberen
identisch ist.
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 1 − (1 − 𝑝)𝑘

1 − (1 − 𝑝)𝑘+1 bei der alternativen


Parameterisierung
Erwartungswert 1
𝑝
Varianz 1−𝑝
𝑝2
(beide Parameterisierungen)
Symmetrisch um 𝜇 nein

Die Binomialverteilung gab uns die Wahrscheinlichkeit von 𝑘 Erfolgen bei 𝑛 Versuchen. Die
geometrische Verteilung beschreibt die Anzahl der Versuche bis zum ersten Erfolg. Dabei sind die
Versuche 𝑋1 , 𝑋2 , … unabängige, identisch verteilte Bernoullivariablen.

Von der Warte her ist die Massefunktion intuitiv: Will ich beim 𝑘-ten Versuch meinen ersten
Treffer, muss ich 𝑘 − 1 Misserfolge haben. Da die Warscheinlichkeiten unabhängig und
gleichverteilt sind, lässt sich eine multiplikative Folge 𝑃(𝑋 = 𝑘) = 𝑝(1 − 𝑝)𝑘−1 aufbauen.
Die Verteilung heißt geometrisch, weil der Wert von Parametern wie der Erwartungswert das
Ergebnis geometrischer Reihen sind. Das Besondere ist der Definitionsbereich von 𝑋: Solange die
Auftrittswahrscheinlichkeit 𝑝 nicht „1“ ist, ist es potentiell möglich nahezu unendlich oft ein
Bernoulliexperiment zu wiederholen bevor der erste erste Erfolg eintritt (wenn auch
unwahrscheinlich). Deshalb ist der Wertebereich ganz ℕ\{0} .

FAQ: Der Erwartungswert ist 1/p?


1
Frage: Der Erwartungswert ist lediglich ? Ich bitte dich..
𝑝

Antwort: Sei 𝑋~𝐺𝑒𝑜𝑚(𝑝).


Es gilt:

𝐸[𝑋] = ∑ 𝑖 ∙ 𝑝(1 − 𝑝)𝑖−1


𝑖=1

= 𝑝 ∑ 𝑖 ∙ (1 − 𝑝)𝑖−1 .
𝑖=1

Sei 𝑆 = ∑∞
𝑖=1 𝑖 ∙ (1 − 𝑝)
𝑖−1
.

Dann:
𝑆 = 1 + 2(1 − 𝑝) + 3(1 − 𝑝)2 + ⋯

Also:
(1 − 𝑝)𝑆 = (1 − 𝑝) + 2(1 − 𝑝)2 + ⋯

Folglich:
⏟− 1) + (1 − 𝑝)2 (3
𝑆 − (1 − 𝑝)𝑆 = 1 + (1 − 𝑝) (2 ⏟− 2) + ⋯
=1 =1
Sei 𝐾 = 𝑆 − (1 − 𝑝)𝑆.
Dann:

𝐾 − (1 − 𝑝)𝐾 =1
1.
⇔ 𝐾 =
𝑝
Somit:
1
𝑆 − (1 − 𝑝)𝑆 =
𝑝
1
⇔ 𝑆 = 2.
𝑝

Letzlich:

1
𝑝 ∑ 𝑖 ∙ (1 − 𝑝)𝑖−1 =𝑝∙
⏟ 𝑝2
𝑖=1
𝑆
= 𝐸[𝑋].

Um 𝐾 und 𝑆 zu lösen, haben wir in alternativer Form zweimal die Summenformel für
geometrische Reihen verwendet.
Tipp
Die geometrische Verteilung kann man als diskretes Analogon der Exponentialverteilung
sehen. Siehe Geometrische Verteilung - Exponentialapproximation und Exponentialverteilung
für mehr.

Inverse Hypergeometrische Verteilung

Verteilungen mit relativ vielen Misserfolgen ( 𝑁 ≫ 𝐾 )


erreichen viel schneller drei Misserfolge als welche mit
relativ wenig Misserfolgen (𝑁 ≈ 𝐾)

Definitionen 𝑁 ∈ ℕ 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝑒


𝐾 ≤ 𝑁 𝐴𝑛𝑧𝑎ℎ𝑙 𝐸𝑟𝑓𝑜𝑙𝑔𝑒
𝑟 ∈ {0,1, … , 𝑁 − 𝐾} 𝐴𝑛𝑧𝑎ℎ𝑙 𝑀𝑖𝑠𝑠𝑒𝑟𝑓𝑜𝑙𝑔𝑒
𝑢𝑚 𝐸𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡 𝑧𝑢 𝑠𝑡𝑜𝑝𝑝𝑒𝑛
oft benutzte Notation 𝑋~𝑁𝐻𝐺𝑁,𝐾,𝑟
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝑘+𝑟−1 𝑁−𝑟−𝑘
( )( )
𝑘 𝐾−𝑘
𝑁
( )
𝐾
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘)

Erwartungswert 𝑟𝐾
𝑁−𝐾+1
Varianz (𝑁 + 1)𝑟𝐾 𝑟
(1 − )
(𝑁 − 𝐾 + 1)(𝑁 − 𝐾 + 2) 𝑁−𝐾+1
Symmetrisch um 𝜇 nein

Die Definition gleicht der Negative Binomialverteilung, nur diesmal ohne Zurücklegen der Elemente.
Es gibt in der Bevölkerung also 𝐾 Erfolge und 𝑁 − 𝐾 Misserfolge. Dabei darf 𝑟 natürlich kleiner als
𝑁 − 𝐾 sein, weil wir das Experiment vielleicht schon bei einem Misserfolg abbrechen möchten. Es
ist wenig verwunderlich, dass diese Verteilung gewisse Approximationseigenschaften bezüglich der
negativen Binomialverteilung Verteilung hat.
Poisson Verteilung

Massefunktionen von zwei Poisson verteilten Summierte Massefunktion von denselben Zufallsvariablen
Zufallsvariablen. Bei bestimmten Parametern ähnelt der wie im Bild links. Bei bestimmten Parametern sieht die
Graph einer Binomialverteilung. cmf wie ein „S“ aus, was eine Sigmoid Funktion
widerspiegelt.

Definitionen 𝜆 ∈ ℝ+
𝑥∈ℕ
oft benutzte Notation 𝑋~ Poisson(𝜆)
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝜆𝑘 −𝜆
𝑒
𝑘!
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝑘
𝜆𝑖
∑ 𝑒 −𝜆
𝑖!
𝑖=0
Erwartungswert 𝜆

Varianz 𝜆
Symmetrisch um 𝜇 nein

Die Binomialverteilung war sehr nützlich, Auftrittswahrscheinlichkeiten zu simulieren. Sagen wir


ein Meteor schlägt auf unseren Planeten ein. Die Wahrscheinlichkeit 𝑝, dass er ein auf ein 1-
kilometerlanges Autobahnstück fällt, betrage 0.2. Diskretisieren wir das Autobahnstück in Meter, so
1
hat der Meteor eine 0.2 ∙ Wahrscheinlichkeit, ein bestimmtes Meterstück zu treffen. Dies lässt
1000
sich leicht verifizieren, denn addieren wir alle Meterstücke 𝑝1 + 𝑝2 + ⋯ 𝑝100 zusammen, so ergibt
1
sich wieder unsere Ausgangswahrscheinlichkeit 𝑝1 + 𝑝2 + ⋯ 𝑝100 = 1000 ∙ 0.2 ∙ = 0.2. Diese
1000
Diskretisierung lässt sich beliebig fortführen. Auffällig ist, dass die Auftrittswahrscheinlichkeit mit
zunehmender Verfeinerung kleiner wird und gegen null strebt. Im Limit wird die
Auftrittswahrscheinlichkeit somit zu einer Wahrscheinlichkeitsdichte.
Die Poissonverteilung beschreibt die Wahrscheinlichkeit von 𝑘 Ereignissen in einem Intervall. Im
Vergleich zur Binomialverteilung, nimmt die Poissonverteilung keine abzählbare Diskretisierung
des Intervalls an.
Tipp
Die nicht abzählbare Diskretisierung wird dadurch erreicht, dass nun Wartezeiten zwischen
Treffern exponentialverteilt anstatt geometrisch verteilt sind.

Für weitere Details inklusive Herleitung der Poissonverteilung siehe die Abschnitte Binomial-
Poissonapproximation und Exponentialverteilung.
Kapitel 4

Einführung in Kontinuierliche Verteilungen

Ob Würfelspielen oder Münzwürf, nahezu jede Situation die wir behandelten war abzählbar.
Spätestens seit Cantor76 ist uns aber bekannt, dass der Horizont der Mathematik über die diskrete
Welt hinausgeht. Dennoch ist nicht alles komplett neu: Viele unserer erlernten Techniken haben
auch in der kontinuierlichen Welt ihre Berechtigung.

Zum Beispiel gilt der Verschiebungssatz 𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 noch immer. Aber auch viele
diskrete Verteilungen haben ein kontinuierliches Analogon: Die (diskrete) geometrische Verteilung
hat die Exponentialverteilung als ihr kontinuierliches Gegenstück. Die (diskrete)
Binomialverteilung konvergiert für bestimmte Parameter zur kontinuierlichen Normalverteilung.
Es gibt sogar so viele Gemeinsamkeiten, dass es sich lediglich lohnt, die Differenzen aufzuschreiben.
Die Abschnitte zum kontinuierlichen Erwartungswert fallen somit überraschend kurz aus und auch
der Rest fühlt sich für einige vielleicht eher an wie eine „Zusammenfassung“ als Einführung in die
kontinuierliche Stochastik. Aber keine Sorge: Unser diskretes Fundament ist mitterweile stark
genug, um etwaige Lücken selbst aufzufüllen.
Wir können die künftigen Kapitel also mit offenen Armen empfangen und exklamieren „It’s a brave
new world!“.

76Cantors Diagonalisierung bewies, dass die (abzählbare) Menge der natürlichen Zahlen kleiner ist, als die
der überabzählbaren reellen.
Dichtefunktionen als Wahrscheinlichkeitsgeber
Anmerkung
Dies ist das kontinuierliche Gegenstück zum Abschnitt Gewichtsfunktionen als Maß für
diskrete Zufallsvariablen.

Wie im Abschnitt Den Zufall als Zufallsvariable repräsentieren kennengelernt, zeichnen sich
kontinuerliche Zufallsvariablen durch eine überabzählbare Anzahl an möglichen Realisierungen
aus. Dies kommt häufiger vor als man zu Beginn vielleicht denkt: Zeiten, Längen, Größen-wir
weisen so vielen Dingen aus dem echten Leben beliebige Zahlen aus einem Intervall zu.

Es kommt häufiger vor, dass physikalische Prozesse


ihre Werte aus einem kontinuierlichen Intervall entnehmen.

Dabei darf nicht vergessen werden, dass kontinuierliche Zufallsvariablen nicht unbedingt
„realitätsnaher“ sind als diskrete. Es lässt sich argumentieren, dass Theorien wie „Plank time“ oder
„Plank length“ scheinbar kontinuerliche Sachverhalte diskretisieren.

Obwohl kontinuierliche Verteilungen in vielen Fällen als Grenzprosse diskreter Verteilungen


gesehen werden können, stellen überabzählbar viele Realisierungen uns vor neuen
Herausforderungen.

FAQ: Was für neue Herausforderungen gibt es denn?


Frage: Vor welchen neuen Fragstellungen stellen uns kontinuierliche Verteilungen denn?

1
Antwort: Beispiel: Haben wir eine Menge der Form 𝐴 ≔ { , 1}, so hat bei einer uniformen
2
1 1
Verteilung jedes Element die Wahrscheinlichkeit 𝑃({𝑎𝑖 }) = |𝐴| = 2. Diskretisierungen wir die
1 2 9 10
Strecke 0 → 1 nun in 10 Teilstücke der Form 𝐴 ≔ { , , … , , }, so ist die
10 10 10 10
1
Einzelwahrscheinlichkeit kleiner, nämlich 𝑃({𝑎𝑖 }) = . Wir bemerken: Je mehr Punkte wir
10
hinzufügen, desto geringer die Einzelwahrscheinlichkeit eines Elements bei einer uniformen
Verteilung.

Zunehmende Diskretisierung von (0,1].

Somit geht auch die Einzelwahrscheinlichkeichkeit 𝑃({𝑎𝑖 }) gegen null. Wie sieht also eine
Einzelwahrscheinlichkeit der kontinuierlichen uniformen Verteilung auf [0,1] aus? Sieht man
1
die kontinuierliche Version als Grenzprozess der diskreten, so hätte man 𝑃({𝑎𝑖 }) = . Dies

dürfen wir aber nicht rechnen, da in regulärer Analysis ∞ nichtmal eine Zahl ist.

Ein größes Problem ist das Rechnen mit infinitismall kleinen Zahlen. Konnten wir für die
Gesamtwahrscheinlichkeit 𝑃(Ω) noch alle Elementarereignisse zusammenzählen, also 1 = 𝑃(Ω) =
∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ), so geht dies bei kontinuierlichen Verteilungen nicht mehr: Die Summe
∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) lässt sich für überabzählbare 𝑆 einfach nicht berechnen. Einerseits würde sie nicht
terminieren, weil es ja unendlich viele 𝑎𝑖 in 𝑆 gibt. Dies wäre überraschenderweise aber das
kleinere Problem, da die geometrische Verteilung ja auch (abzählbar) unendlich viele
Realisierungen vorweist, die in Wahrscheinlichkeit aber konvergieren. Das größere Problem ist,
dass überhaupt nicht klar wäre, wie die Summe überhaupt ∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) beginnen soll. Was ist
der Iterant 𝑎1 aus 𝑆. Was ist der zweite Iterant 𝑎2 aus 𝑆?

Tipp
Aufgrund der nichtexistenten Auswahlregel für Iteranden aus kontinuierliche Mengen gibt es
das Axiom of Choice in der Zermelo Fränkel Mengenlehre.

Weitere Probleme gibt es auch in den Fundamentalen Bausteinen, mit denen wir unsere
Wahrscheinlichkeitstheorie aufbauten: Die maßtheoretischen Elemente, vorgestellt in Kurze
Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie, funktionieren ohne Modifikation
nicht mehr. Die Potenzmenge, die bei diskreten Zufallsvariablen immer gültige Sigma Algebren
lieferte, ist für reelle Mengen plötzlich nicht mehr intuitiv definiert.

Tipp
Die Existenz einer Potenzmenge für jede beliebige Menge existiert das Axiom of Power Set in
der Zermelo Fränkel Mengenlehre.

All diese Probleme können aber mitigiert werden: Zuerst holen wir uns mit der borelschen
Hiearchie77 die Eigenschaften der 𝜎-Algebra zurück. Dann lösen wir das nichtlösbare
Summenproblem: Anstatt diskret ∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) zu summieren integrieren wir ∫ 𝑓(𝑥)𝑑𝜇(𝑥)
einfach.

77 (die aber keine tatsächliche Potenzmenge der reellen Zahlen darstellt)


Die Probleme sind aber noch nicht vorbei: Wir können im Allgemeinen nicht einfach 𝑃(𝑋 = 𝑎𝑖 ) =
𝐴𝑛𝑧𝑎ℎ𝑙 𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒
𝑓(𝑥) setzen. 𝑃(𝑋 = 𝑎𝑖 ) = repräsentiert die Wahrscheinlichkeit von 𝑎𝑖
𝐴𝑛𝑧𝑎ℎ𝑙 𝑚ö𝑔𝑙𝑖𝑐ℎ𝑒 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒
unter abzählbar vielen Ereignissen. Bei überabzählbar vielen Elementen ist diese
Wahrscheinlichkeit aber null, da der Nenner gegen unendlich strebt. Was können wir tun? Der
Integrationsbegriff liefert uns schon gültige Maße, die uns helfen mit Überabzählbarem umzugehen.
Um diese zu nutzen, betrachten wir Wahrscheinlichkeiten als relative Flächenanteile.

Der rote Anteil als relativer Anteil zur hellblauen Fläche dahinter. Dies is die Wahrscheinlichkeit, dass 𝑋
ins Intervall [472,482] fällt, also 𝑃(472 < 𝑋 < 482).

Somit ist klar, dass 𝑃(𝑋 = 𝑎𝑖 ) = 0 für alle 𝑎𝑖 in allen kontinuierlichen Verteilungen, da eine einzelne
Zahl keine Fläche darstellt.
Dichtefunktionen 𝑓𝑋 (𝑥) sind das kontinuierliche Analogon zu Gewichtsfunktionen, kennengelernt in
Gewichtsfunktionen als Maß für diskrete Zufallsvariablen. In der oberen Grafik ist der blaue Graph
die Dichtefunktion.

Tipp
Dichtefunktionen werden oft mit kleinem 𝑓 und Verteilungsfunktionen mit großem 𝐹 notiert.

Zum Beispiel ist 𝑓𝑋 (𝑥) = 𝑒 −𝑥 , 𝑚𝑖𝑡 𝑥 ≥ 0 die Dichtefunktion für eine standardexponentialverteilte
Zufallsvariable. Aber Vorsicht: 𝑓𝑋 (𝑥) ≠ 𝑃(𝑋 = 𝑥). Dichtefunktionen geben keine
Wahrscheinlichkeiten wieder. Sonst wäre
𝑓𝑋 (0) + 𝑓𝑋 (0.5) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 0.5) = 1 + 𝑒 −0.5 > 1. Dies steht im Widerspruch mit der
Voraussetzung, dass Wahrscheinlichkeiten nicht größer als 1 sein dürfen.

FAQ: Wieso 𝒇𝑿 (𝒙) ≠ 𝑷(𝑿 = 𝒙)?


Frage: Warum sind Dichtefunktionen keine Wahrscheinlichkeiten? Das macht für mich keinen
Sinn.

Antwort: Bei überabzählbaren Mengen musst du deine Intuition reevaluieren.


Wahrscheinlichkeiten kontinuierlicher Zufallsvariablen haben wir soeben als relative
Flächenanteile kennengelernt. Für 𝑃(𝑋 = 𝑥) bräuchten wir somit den kleinsten relativen
Flächenanteil der Verteilung. Aber was ist der kleinste Flächenanteil? Wir bemerken schnell,
dass dies ein einzelner Punkt ist. Dieser hat Maß null, weshalb 𝑃(𝑋 = 𝑥) = 0. Aber was ist der
kleinste relative Flächenanteil, mit positiver Wahrscheinlichkeit? Dies ist Äquivalent zur
Frage, wie dicht 𝑎, 𝑏 in 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) sein können.

Das ist 𝑓𝑋 (𝑥) ∙ 𝑑𝑥, ein infinitesimal dünner Streifen.

Die Dichte als infinitesimal kleiner Streifen mit Höhe 𝑓𝑋 (𝑥) und Breite 𝑑𝑥.

Eine Dichtefunktion 𝑓𝑋 sagt somit allein nichts aus. Sobald wir 𝑓𝑋 aber mit 𝑑𝑥 mutliplizieren,
also die Dichte haben, erhalten wir Wahrscheinlichkeiten.

Achtung
Obwohl 𝑓𝑋 (𝑥)𝑑𝑥 uns formal Wahrscheinlichkeiten gibt, können wir den Wert
nicht berechnen, da man in Standardanalysis nicht mit infinitesimalen 𝑑𝑥 rechnet.

Tipp
Manche nennen 𝑓𝑋 (𝑥) Dichtefunktion und 𝑓𝑋 (𝑥)𝑑𝑥 Dichte.

Beispiel 4.1.

Was ist die Dichtefunktion einer auf [−1,3] uniform verteilten Zufallsvariablen?

1
Das ist 𝑓𝑋 (𝑥) = , 𝑚𝑖𝑡 − 1 ≤ 𝑥 ≤ 3.
4

Probe:
3
𝑃(Ω) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 1. ✓
−1

Verteilungsfunktionen

Anmerkung
Dies ist das kontinuierliche Gegenstück zum Abschnitt Verteilungsfunktionen diskreter
Zufallsvariablen.

Da die Funktionswerte von Dichtefunktionen ohne Aussage sind, erhalten wir nur über Integration
verwendbare Wahrscheinlichkeiten. Diese spiegeln dann die Summe von überabzählbar vielen
infinitesimal kleinen Dichten wieder.

Definition 4.17
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ] und 𝑚1 ≤ 𝑎 ≤ 𝑚2 .
𝑎
𝑃(𝑋 ≤ 𝑎) = 𝐹𝑋 (𝑎) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥
𝑚1

Daraus folgt dann über den Fundamentalsatz der Analysis:

Definition 4.18
𝑑
𝐹 (𝑥) = 𝑓𝑋 (𝑥).
𝑑𝑥 𝑋

Die Dichtefunktion ist somit immer die Ableitung der Verteilungsfunktion. Haben wir somit eine
Verteilungsfunktion, kommen wir durch Ableiten zur Dichtefunktion. Haben wir eine
Dichtefunktion, kommen wir übers Integrieren („Aufleiten“) zur Verteilungsfunktion.
In der Regel ist Ableiten aber einfacher als Integrieren, weil nicht jede Funktion eine geschlossene
Stammfunktion hat (z.B. hat die Normalverteilung keine elementare Stammfunktion).

Beispiel 4.2.

3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ 𝑏. Wie lautet die Verteilungsfunktion? Wie lautet 𝑏?

Wir integrieren einfach:

1 3 4
∫ 𝑥 3 𝑑𝑥 = 𝑥 3 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ 𝑏.
4

Um 𝑏 zu ermitteln rechnen wir:

3 4
1 = 𝑃(Ω) = 𝐹(𝑏) = 𝑏 3 .
4
4 4 3
⇒ 𝑏 = √( ) .
3

Definition 4.19
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝐹(𝑚2 ) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 1
𝑚1

Das Intervall einer Einzelwahrscheinlichkeit ist null:

Definition 4.20
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ] und 𝑚1 ≤ 𝑎 ≤ 𝑚2 .
𝑎
𝑃(𝑎 ≤ 𝑋 ≤ 𝑎) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 0.
𝑎

Da eine Verteilungsfunktion die summierten Wahrscheinlichkeiten vom Definitionsanfang 𝑚1


angibt, ist auch das folgende Lemma nicht überraschend:

Definition 4.21
Jede Verteilungsfunktion 𝐹𝑋 ist monoton steigend, also 𝐹(𝑎) ≤ 𝐹(𝑏), 𝑚𝑖𝑡 𝑎 ≤ 𝑏.

Achtung
Allgemein liest man Intervalle von links nach rechts, also [𝑚1 , 𝑚2 ] induziert 𝑚1 ≤ 𝑚2 . Es gibt
aber auch Fälle, wo man solche Intervalle in entgegengesetzte Richtung orientiert (z.B.
Integrationswege in der Funktionentheorie). In diesen Fällen müssen die Monotonieregeln etc.
natürlich etwas angepasst werden.

Tipp
Für kontinuierliche Zufallsvariablen gilt 𝑃(𝑋 ≤ 𝑏) = 𝑃(𝑋 < 𝑏), da einzelne Punkte
Wahrscheinlichkeit null besitzen, also 𝑃(𝑋 ≤ 𝑏) = 𝑃(𝑋 < 𝑏) + ⏟ 𝑃(𝑋 = 𝑏) = 𝑃(𝑋 < 𝑏).
=0
Der Erwartungswert aus kontinuierlicher Sicht

Anmerkung
Der Erwartungswert wurde im Abschnitt Der Erwartungswert für diskrete sowie
kontinuierliche Zufallsvariablen ausführlich erklärt. Hier kommen nur Beispiele.

Alle Definitionen aus den vorherigen Abschnitten gelten noch immer. Für die Berechnung ändert
sich lediglich, dass unsere Summe zum Riemannintegral wird:

Definition 4.22
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1

Tipp
Siehe die Parallelen:
𝑛

𝐸[𝑋] = ∑ 𝑥𝑖 ∙ 𝑃(𝑋 = 𝑥𝑖 )
𝑖=1

mit
𝑚2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1

Beispiel 4.3.

4 4 3
3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ √(3) . Wie lautet 𝐸[𝑋]?

Wir integrieren einfach:

4 3
𝑚2 √ (4 ) .
3 3
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥 = ∫ 𝑥 ∙ √𝑥𝑑𝑥 ≈ 0.709.
𝑚1 0

Auch andere Sätze, wie z.B. „Law of the unconscious statistician (l.o.t.u.s.) im diskreten Fall” sind
nahezu unverändert:

Definition 4.23
Sei 𝑌 = 𝑔(𝑋) eine kontinuierliche Zufallsvariable, mit Definitionsberechen [𝑥1 , 𝑥2 ], [𝑦1 , 𝑦2 ].
Dann gilt:
𝑦2
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓𝑌 (𝑦)𝑑𝑦.
𝑦1
𝑥2
= ∫ 𝑔(𝑋) ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑥

Die Varianz aus kontinuierlicher Sicht

Anmerkung
Die Varianz wurde im Abschnitt Die Varianz für diskrete sowie kontinuierliche
Zufallsvariablen ausführlich erklärt. Hier kommen nur Beispiele.

Alle Definitionen aus den vorherigen Abschnitten gelten noch immer. Für die Berechnung ändert
sich lediglich, dass unsere Summe zum Riemannintegral wird:

Definition 4.24
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝐸[𝑋])2 ] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1

Tipp
Siehe die Parallelen:
𝑛

𝑉𝑎𝑟[𝑋] = ∑(𝑥𝑖 − 𝐸[𝑋])2 ∙ 𝑃(𝑋 = 𝑥𝑖 )


𝑖=1

mit
𝑚2
𝑉𝑎𝑟[𝑋] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1

Auch der Verschiebungssatz gilt natürlich noch:

Definition 4.25
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].

𝑚2 𝑚2 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 = ∫ 𝑥 2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥 − (∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.) .
𝑚1 𝑚1
Beispiel 4.4.

4 4 3
3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ √( ) . Wie lautet Var[𝑋]?
3

Einfach ausrechnen. Einmal klassisch:

4 3
𝑚2 √ (4 ) .
3
𝑉𝑎𝑟[𝑋] = ∫ 2
(𝑥 − 𝐸[𝑋]) ∙ 𝑓𝑋 (𝑥)𝑑𝑥. = ∫ (𝑥 − 0.709)2 ∙ 3√𝑥𝑑𝑥 ≈ 0.113.
𝑚1 0

Über Verschiebungssatz:
4 3
√ (4 ) .
3 3
2] 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 − 𝐸[𝑋] = ∫ 𝑥 2 ∙ √𝑥 𝑑𝑥 − 0.7092 ≈ 0.113.
0
Transformationen kontinuierlicher Zufallsvariablen

Verteilungen von Zufallsvariablen zu ermitteln ist in vielen Fällen nicht leicht. Oft sind
Zufallsvariablen aber lediglich Transformationen von anderen Zufallsvariablen, deren Verteilung
man kennt. Zieht man z.B. die Seite 𝑋 eines Quadrats gemäß einer rein zufälligen Verteilung, so
haben wir auch Informationen über die Verteilung des zufälligen Flächeninhalts 𝑋 2 .

Den Umstand, dass bestimmte Transformationen auch die unterliegende


Wahrscheinlichkeitsverteilung deterministisch transformieren, machen wir uns zu Nutzen. Dies ist
überraschenderweise aber nicht das erste Mal, dass wir so etwas begegnen. Schließlich ist die
Linearität des Erwartungswert auch einfach nur die Transformation einer affinen Funktion, also
wenn
𝑌 = 𝑎𝑋 + 𝑏 = 𝑔(𝑋), 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℝ
dann folgt
𝑔(𝐸[𝑋]) = 𝐸[𝑔(𝑋)].
Die Situation ist also wie folgt: Wir suchen die Verteilungsfunktion 𝐹𝑌 (𝑦) und Dichtefunktion 𝑓𝑌 (𝑦)
einer transformierten Zufallsvariable 𝑌 = 𝑔(𝑋).
Dabei bieten sich zwei Methoden an, die beide zum selben Ergebnis führen:

Verteilungsfunktionsfunktion Technik
Die Verteilungsfunktion von 𝑌 lässt sich durch elementare Transformationen durch das Lösen einer
Integralgleichung bestimmen. Wir nutzen den Umstand aus, dass Verteilungsfunktionen das
kumulierte Maß eines Wahrscheinlichkeitsraums bestimmen:
𝑔(𝑦)−1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = ⏟
𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≤ 𝑔(𝑦)−1 )
⏟ =∫ 𝑓𝑋 (𝑥) 𝑑𝑥.
𝑤𝑒𝑖𝑙 𝑌=𝑔(𝑋) 𝑔−1 𝑖𝑠𝑡 𝑖𝑛𝑣𝑒𝑟𝑠𝑒 𝐹𝑢𝑛𝑘𝑡𝑖𝑜𝑛 𝑎

Hierbei sind 𝑎, 𝑏 die Intervallgrenzen des Definitionsbereichs von 𝑋.

Tipp
Hat 𝑋 den Definitionsbereich [𝑎, 𝑏], so hat 𝑌 den Definitionsbereich [𝑔(𝑎), 𝑔(𝑏)].

Die Dichtefunktion ist dann lediglich die Ableitung:


𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ .
Beispiel 4.5.

Es sei 𝑋 uniform auf [0,2] verteilt. Berechne die Dichte- sowie Verteilungsfunktion von 𝑋 2 .

Es gilt:
𝑌 = 𝑔(𝑋) = 𝑋 2 .

Somit ist:
𝑋 = √𝑌 = 𝑔(𝑌)−1 .

Die Dichtefunktion eines auf [0,2] uniform verteilten 𝑋 lautet:


1
𝑓𝑋 (𝑥) = .
2

Tatsächlich hat 𝑋 2 ein Inverses, weil es einen positiven Definitionsbereich hat (wäre 𝑋
uniform verteilt auf [−2,2] hätten wir hier Probleme).

Wir brauchen jetzt nur noch einzusetzen:

𝑔(𝑦)−1
1 1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑋 2 ≤ 𝑦) = 𝑃(𝑋 ≤ √𝑦) = ∫ 𝑑𝑥 = √𝑦.
0 2 2

Die Invervallgrenzen für 𝑌 sind: [𝑔(𝑎), 𝑔(𝑏)] = [0,4]. Formal ist die Verteilungsfunktion
dann:

1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 4
1
𝐹𝑌 (𝑦) = √𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4.
2
{0, 𝑠𝑜𝑛𝑠𝑡

Die Dichtefunktion lautet dann:

1 1
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = ∙ .
4 √𝑦
Formal mit den Intervallgrenzen:

1 1
∙ , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4
𝑓𝑌 (𝑦) = {4 √𝑦 .
0, 𝑠𝑜𝑛𝑠𝑡

Tipp
Eine gute Probe ist es, zu schauen ob die Verteilungsfunktion im entsprechenden Intervall
tatsächlich 1 ergibt.
Für jede Verteilungsfunktion muss nämlich gelten:
𝑔(𝑏)
∫ 𝑓𝑌 (𝑦) 𝑑𝑥 = 𝐹𝑦 (𝑔(𝑏)) − 𝐹𝑌 (𝑔(𝑎)) = 1.
𝑔(𝑏)

Im vorherigen Beispiel wäre dies:

1 1
√4 − √0 = 1. ✓
2 2

Tipp
Mehr über diese Verfahren gibt es hier.

Change of Variable

Anstatt die Verteilungsfunktion 𝐹𝑌 (𝑦) wird im Change of Variable Verfahren die Dichtefunktion
𝑓𝑌 (𝑦) zuerst berechnet.
Das Tolle: Diese erhalten wir als direkte Formel ohne jemals integrieren zu müssen.
Das Problem: Es gibt zwei verschiedene Formeln, die jeweils davon abhängen, ob die
Transformation 𝑌 = 𝑔(𝑋) monoton steigend oder fallend ist.
Wir schauen uns ersteinmal die Ursache dafür an. Haben wir diese verstanden, so betrachten wir
eine simple Transformation, um aus beiden Formeln eine einzige zu machen, die stets gültig ist.

Monoton wachsende Transformation

Ist 𝑌 = 𝑔(𝑋) monoton steigend, folgt wie zuvor:


𝑔(𝑦)−1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = ⏟
𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≤ 𝑔(𝑦)−1 )
⏟ =∫ 𝑓𝑋 (𝑥) 𝑑𝑥.
𝑤𝑒𝑖𝑙 𝑌=𝑔(𝑋) 𝑔−1 𝑖𝑠𝑡 𝑖𝑛𝑣𝑒𝑟𝑠𝑒 𝐹𝑢𝑛𝑘𝑡𝑖𝑜𝑛 𝑎

Hierbei sind 𝑎, 𝑏 die Intervallgrenzen des Definitionsbereichs von 𝑋.


Dank Kettenregel erhalten wir dann:
−1
𝑑 𝑔(𝑦) 𝑑 𝑑
𝐹𝑌 (𝑦)′ = ∫ 𝑓𝑋 (𝑥) 𝑑𝑥 = (𝐹 (𝑔(𝑦)−1 ) − 𝐹𝑌 (𝑎)) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑔(𝑦)−1 .
𝑑𝑦 𝑎 𝑑𝑦 𝑌 ⏟ 𝑑𝑦
𝐴𝑛𝑤𝑒𝑛𝑑𝑢𝑛𝑔 𝑑𝑒𝑟 𝐾𝑒𝑡𝑡𝑒𝑛𝑟𝑒𝑔𝑒𝑙

Unsere Dichtefunktion ist also:


𝑑
𝑓𝑦 (𝑦) = 𝐹𝑌 (𝑦)′ = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑔(𝑦)−1 .
𝑑𝑦

Monoton fallende Transformation

Ist 𝑌 = 𝑔(𝑋) monoton fallend, gibt es einen kleinen Unterschied:


𝑔(𝑦)−1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≥ 𝑔(𝑦)−1 ) = 1 − ⏟
𝑃(𝑋 < 𝑔(𝑦)−1 ) = 1 − ∫ 𝑓𝑋 (𝑥) 𝑑𝑥.
𝑎

Der Vergleichsoperator dreht sich.

FAQ: Wieso dreht sich der Vergleichsoperator


Frage: Warum dreht sich der Vergleichsoperator 𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≥ 𝑔(𝑦)−1 )?

Antwort: Dies ist der Fall, weil ein monoton fallender Zusammenhang ein Minuszeichen
beinhaltet. Z.B. ist
𝑌 = −2𝑋 3 ,
eine monoton fallende Transformation. Lösen wir dies nach 𝑋 auf, so hat 𝑔(𝑋)−1 ein
negatives Vorzeichen.

Daraus folgt:

3 𝑦
𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(−2𝑋 3 ≤ 𝑦) = 𝑃 (𝑋 ≥ √− ).
2

Dank Kettenregel erhalten wir nun:


𝑔(𝑦) −1
𝑑 𝑑 𝑑
𝐹𝑌 (𝑦)′ = (1 − ∫ 𝑓𝑋 (𝑥) 𝑑𝑥) = (−𝐹𝑌 (𝑔(𝑦)−1 ) + 𝐹𝑌 (𝑎)) = −𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑔(𝑦)−1 .
𝑑𝑦 𝑎 𝑑𝑦 ⏟ 𝑑𝑦
𝐴𝑛𝑤𝑒𝑛𝑑𝑢𝑛𝑔 𝑑𝑒𝑟 𝐾𝑒𝑡𝑡𝑒𝑛𝑟𝑒𝑔𝑒𝑙

Unsere Dichtefunktion ist also:


𝑑
𝑓𝑦 (𝑦) = 𝐹𝑌 (𝑦)′ = −𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑔(𝑦)−1 .
𝑑𝑦

Zusammenführung beider Funktionen


𝑑
Weil 𝑔(𝑦)−1 stets negativ, wenn 𝑔(𝑋) monoton fallend, können wir für alle Fälle
𝑑𝑦
verallgemeinern:

Definition 4.26
Sei 𝑌 = 𝑔(𝑋) eine Transformation mit existierendem Inversen 𝑔−1 .
Dann gilt für die Dichtefunktion:

𝑑
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 |.
𝑑𝑦

FAQ: Warum funktioniert die zusammengeführte Formel?


𝑑
Frage: Warum lassen wir das negative Vorzeichen weg und nehmen den Betrag| 𝑔(𝑦)−1 |
𝑑𝑦
bei der zusammengeführten Formel?
𝑑
Antwort: Wir wissen ja: 𝑑𝑦 𝑔(𝑦)−1 ist stets negativ, wenn 𝑔(𝑋) monoton fallend.

Sei 𝑤(𝑋)−1 = |𝑔(𝑋)−1 |. Dann gilt:

−𝑤(𝑋)−1 = 𝑔(𝑋)−1 , 𝑤𝑒𝑛𝑛 𝑔(𝑋) 𝑚𝑜𝑛𝑜𝑡𝑜𝑛 𝑓𝑎𝑙𝑙𝑒𝑛𝑑.

Somit ist die Dichtefunktion:


𝑑 𝑑 𝑑
𝑓𝑦 (𝑦) = −𝑓𝑋 (𝑔(𝑦)−1 ) ∙ − 𝑤(𝑦)−1 = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑤(𝑦)−1 = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 |.
𝑑𝑦 𝑑𝑦 𝑑𝑦
𝑑
Wenn 𝑔(𝑋) monoton wachsend, dann ist 𝑔(𝑦)−1 positiv. Also gilt sowieso
𝑑𝑦
𝑑 𝑑
𝑓𝑦 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ 𝑔(𝑋)−1 = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 |.
𝑑𝑦 𝑑𝑦

Wir berechnen nun nochmal dieselbe Beispielaufgabe aus dem vorherigen Unterpunkt, aber
diesmal mit der Change of Variable Variante:

Beispiel 4.6.

Es sei 𝑋 uniform auf [0,2] verteilt. Berechne die Dichte- sowie Verteilungsfunktion von 𝑋 2 .

Es gilt:
𝑌 = 𝑔(𝑋) = 𝑋 2 .

Also:
𝑋 = √𝑌 = 𝑔(𝑌)−1

und

𝑑 1 1
𝑔(𝑦)−1 = ∙ .
𝑑𝑦 2 √𝑌

Die Dichtefunktion eines auf [0,2] uniform verteilten 𝑋 lautet:


1
𝑓𝑋 (𝑥) = .
2

Wir brauchen jetzt nur noch einzusetzen:

𝑑 1 1 1 1 1
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ∙ ∙ = ∙ .
𝑑𝑦 2 2 √𝑌 4 √𝑌

Formal mit den Intervallgrenzen:

1 1
∙ , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4
𝑓𝑌 (𝑦) = {4 √𝑦 .
0, 𝑠𝑜𝑛𝑠𝑡
Die Verteilungsfunktion 𝐹𝑌 (𝑦) ist dann die Stammfunktion von 𝑓𝑌 (𝑦) für die gilt:

∗ 𝐹𝑌 (𝑔(𝑏)) = 1.
Diese Bedingung resultiert aus dem Definitionsbereich [𝑔(𝑎), 𝑔(𝑏)] von 𝑌.
Die allgemeine Stammfunktion ist also:

1 1 1
∫ 𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ ∙ 𝑑𝑦 = √𝑦 + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ.
4 √𝑦 2

Bedingung ∗ liefert uns für 𝑐:


1
𝐹𝑌 (𝑔(𝑏)) = 𝐹𝑌 (4) = √4 + 𝑐 = 1, 𝑤𝑒𝑛𝑛 𝑐 = 0.
2

Die Verteilungsfunktion lautet also:

1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 4
1
𝐹𝑌 (𝑦) = √𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4.
2
{0, 𝑠𝑜𝑛𝑠𝑡

Als wir dieselbe Aufgabe mit der Verteilungsfunktionstechnik berechneten, erhielten wir
dieselben Ergebnisse, was auch Sinn macht.

Tipp
Versuche erst die Verteilungsfunktionstechnik und wenn diese zu aufwändig erscheint (z.B.
wegen komplizierter Integrale), probiere Change of Variable.

Tipp
Wenn man sein Ergebnis kontrollieren möchte, kann man einfach dieselbe Aufgabe mit
beiden Verfahren rechnen.

Stochastik für Informatiker Aufgabe 27, WS17/18

𝑈 sei uniform auf [0,2] verteilt und 𝑋 sei 𝐸𝑥𝑝(3)-verteilt. Berechnen Sie
(i) Den Erwartungswert
(ii) Die Varianz.
(iii) Die Verteilungsfunktion
(iv) Die Dichte

von
a) 𝑈 5
b) 4𝑋 − 3.
Berechnung für 𝑈 5 :

Da 𝑈~𝑈𝑛𝑖𝑓𝑜𝑟𝑚(0,2), gilt:
1
𝑓𝑈 (𝑢) = .
2

Sei 𝑌 = 𝑈 5 = 𝑔(𝑈).
Dank der kontinuierlichen Version des in vorherigen Kapiteln behandelten Law of the
unconscious statistician (l.o.t.u.s.) im diskreten Fall könnten wir den Erwartungswert von 𝑌
berechnen, ohne die Verteilung 𝑓𝑌 (𝑦) zu kennen.
25 2 2
1 1 6 2 16
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓𝑌 (𝑦)𝑑𝑢 = ∫ 𝑔(𝑢) ∙ 𝑓𝑈 (𝑢)𝑑𝑢 = ∫ 𝑢5 ∙ 𝑑𝑢 = [𝑢 ]0 = .
0 ⏟0 0 2 12 3
𝑙.𝑜.𝑡.𝑢.𝑠.
Für die Varianz gilt natürlich noch immer der Der Verschiebungssatz:

2
16 2 1 11 2
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2 = ∫ 𝑔(𝑢)2 ∙ 𝑓𝑈 (𝑢)𝑑𝑢 − ( ) = [𝑢 ]0 ≈ 93.09 − 28,4 = 64.69.
0 3 22
Man hätte aber auch zuerst die Dichte und Verteilungsfunktion berechnen können, und mit
diesen dann den Erwartungswert.

Dies wird aber nicht empfohlen, weil wenn man sich bei der Dichtefunktion etwas
verrechnet hat, dann auch gleich die Erwartungswertberechnung falsch wird.

Um das bisher gelernte zu verfestigen, wenden wir für die Berechnung der
wahrscheinlichkeitsgebenden Funktionen beide Verfahren an.

Vorher bemerken wir, dass 𝑌 im Intervall [0,25 ] definiert ist und 𝑈 in [0,2].

Verteilungsfunktionstechnik
Wir berechnen zuerst die Verteilungsfunktion 𝐹𝑌 (𝑦) direkt.
5
√𝑦 1 15
𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑈 5 ≤ 𝑦) = 𝑃(𝑈 ≤ 5√𝑦) = ∫ 𝑑𝑢 = √𝑦 .
0 2 2

Dann Dichtefunktion:

1 −4
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = 𝑦 5.
10

Change of Variable
Wir berechnen zuerst die Dichtefunktion direkt. Wir bemerken: 𝑌 = 𝑈 5 ist eine auf [0,2]
monoton steigende Abbildung.

Inverse Funktion:
5
√𝑌 = 𝑈 = 𝑔−1 .
𝑑 1 1 −4 1 −4
𝑓𝑌 (𝑦) = 𝑓𝑈 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ∙ ∙𝑦 5 = 𝑦 5.
𝑑𝑦 ⏟
2 5⏟ 10
𝑓𝑈 (𝑔(𝑦)−1 ) | 𝑑 𝑔(𝑦)−1 |
𝑑𝑦
Die Verteilungsfunktion ist somit genau die Stammfunktion von 𝑓𝑌 (𝑦), welche 𝐹𝑌 (25 ) = 1
erfüllt.
1 4 1 1
∫ 𝑦 −5 𝑑𝑦 = 𝑦 5 + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ.
10 2

1 1
1 = 𝐹𝑌 (25 ) = 25∙5 + 𝑐 = 1, 𝑤𝑒𝑛𝑛 𝑐 = 0.
2

Resultat:

Setzen wir die jeweiligen Integralgrenzen ein erhalten wir

1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 25
15
𝐹𝑌 (𝑦) = √𝑦 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 25 ,
2
{0, 𝑠𝑜𝑛𝑠𝑡

1 4
𝑦 −5 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 25
𝑓𝑌 (𝑦) = {10 .
0, 𝑠𝑜𝑛𝑠𝑡

Berechnung für 4𝑋 − 3:

Da 𝑋~𝐸𝑥𝑝(3), gilt:
𝑓𝑋 (𝑥) = 3𝑒 −3𝑥 .

Eine Exponentialverteilung ist im Intervall [0, ∞] definiert.

Sei 𝑌 = 4𝑋 − 3 = 𝑔(𝑋).

Die obige Verteilung ist dann im Intervall [−3, ∞] definiert.

4 5
𝐸[𝑌] = 4𝐸[𝑋] − 3 = −3 = − .
3 4

Dabei fällt uns ein, dass eine 𝐸𝑥𝑝(3)-verteilte Zufallsvariable 𝑋


1 1
den Erwartungswert 𝐸[𝑋] = 𝜆 = 3 hat.

1
𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[4𝑋 − 3] = 42 ∙ 𝑉𝑎𝑟[𝑋]
⏟ = 16 ∙ ≈ 1.7.
𝐸𝑖𝑔𝑒𝑛𝑠𝑐ℎ𝑎𝑓𝑡𝑒𝑛 𝑉𝑎𝑟𝑖𝑎𝑛𝑧
9
Erneut erinnern wir uns, dass eine 𝐸𝑥𝑝(3)-verteilte Zufallsvariable 𝑋
1 1
die Varianz Var[𝑋] = 2 = hat.
𝜆 9

Zur Übung, wenden wir für die Berechnung der wahrscheinlichkeitsgebenden Funktionen
beide kennengelernten Verfahren an.

Verteilungsfunktionstechnik
Wir berechnen zuerst die Verteilungsfunktion 𝐹𝑌 (𝑦) direkt.
𝑦+3
𝑦+3 4 3𝑦+9
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(4𝑋 − 3 ≤ 𝑦) = 𝑃 (𝑋 ≤ )=∫ 3𝑒 −3𝑥 𝑑𝑥 = −𝑒 − 4 + 1.
4 0

Dann Dichtefunktion:

3 3𝑦+9
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = 𝑒 − 4 .
4

Change of Variable
Wir berechnen zuerst die Dichtefunktion direkt. Wir bemerken: 𝑌 = 4𝑋 − 3 ist auf [0, ∞] eine
monoton steigende Abbildung.

Inverse Funktion:
𝑌+3
= 𝑋 = 𝑔−1 .
4

𝑑 −3(
𝑦+3 1 3 3𝑦+9
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ⏟
3𝑒 4 )∙ = 𝑒− 4 .
𝑑𝑦 ⏟
4 4
𝑓 (𝑔(𝑦)−1 )
𝑋
𝑑
| 𝑔(𝑦)−1 |
𝑑𝑦

Die Verteilungsfunktion ist eine Stammfunktion von 𝑓𝑌 (𝑦).


3 3𝑦+9 3𝑦+9
∫ 𝑒 − 4 𝑑𝑦 = −𝑒 − 4 + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ.
4
𝑦+3
Um 𝑐 zu bestimmen, muss 𝑃(𝑌 ≤ 𝑦) = 𝑃 (𝑋 ≤ ) gelten.
4
3𝑦+9 𝑦+3
−3∙(
−𝑒 − 4 +𝑐 =1−𝑒 4 ), 𝑖𝑠𝑡 𝑔ü𝑙𝑡𝑖𝑔, 𝑤𝑒𝑛𝑛 𝑐 = 1.

Also:
3𝑦+9
𝐹𝑌 (𝑦) = 1 − 𝑒 − 4 .

Resultat:

Setzen wir die jeweiligen Integralgrenzen ein erhalten wir


3𝑦+9
1 − 𝑒− 4 , 𝑤𝑒𝑛𝑛 − 3 ≤ 𝑦 < +∞
𝐹𝑌 (𝑦) = { ,
0, 𝑠𝑜𝑛𝑠𝑡
3 3𝑦+9
𝑒− 4 , 𝑤𝑒𝑛𝑛 − 3 ≤ 𝑦 < +∞
𝑓𝑌 (𝑦) = {4 .
0, 𝑠𝑜𝑛𝑠𝑡
Zentraler Grenzwertsatz
Wir befinden uns im frühen 18ten Jahrhundert. Wahrscheinlichkeitstheorie ist jung und der
zentrale Grenzwertsatz existiert noch nicht. Abraham de Moivre erkannte, dass Summen von
Bernoulli-verteilten Zufallsvariablen bei zunehmender Stichprobenanzahl zur Normalverteilung
konvergieren:

Definition 4.27
Wenn 𝑛 groß und 𝑘 in der Nachbarschaft von 𝑛𝑝 so gilt

(𝑘−𝑛𝑝) 2
𝑛 1 −
( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 ≈ 𝑒 2𝑛𝑝(1−𝑝) , 𝑝 > 0.
𝑘 √2𝜋𝑛𝑝(1 − 𝑝)

Geschichte
Der Satz von De Moivre-LaPlace erschien zuerst im Buch Doctrine of Chances (1718) von
Abraham de Moivre. Dieses Buch ist eines der ersten über Wahrscheinlichkeitstheorie.

Tipp
Ohne Computer lässt sich der Satz von DeMoivre-LaPlace (und somit der zentrale
Grenzwertsatz) mit der Galton bean machine visualisieren.

Tipp
Der Satz von DeMoivre-LaPlace bildet die Basis für die Normal-Binomialapproximation aus
Binomial-Normalapproximation.

Ohne es zu wissen, zeigte De Moivre schon damals einen Spezialfall des später auftauchenden
zentralen Grenzwertsatzes.

Eine später vom finnischen Mathematiker Jarl Lindeberg begründete Version hat folgende Form:

Definition 4.28
Seien 𝑋1 , 𝑋2 , … unabhängig und identisch verteilte Zufallsvariablen mit 𝐸[𝑋𝑖 ] = 𝜇 und
𝑉𝑎𝑟[𝑋𝑖 ] = 𝜎 2 .
1
Dann ist das Stichprobenmittel 𝑀 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 annähernd normalverteilt zu den Parametern
𝑉𝑎𝑟[𝑋𝑖 ]
𝜎2 = ,𝜇 = 𝐸[𝑋𝑖 ] für große 𝑛78.
𝑛

1
Es macht Sinn zu unterscheiden zwischen der Verteilung des Mittelwerts (𝑋1 + ⋯ + 𝑋𝑛 ) (sample
𝑛
mean distribution) und der Stichprobensumme 𝑋1 + ⋯ + 𝑋𝑛 (sample sum distribution):

78In der Literator findet man verschiedene Versionen vom zentralen Grenzwertsatzes. Auch die Variante von
Lindeberg existiert in umgeschriebener (aber äquivalenter) Variante,
Definition 4.29
Seien 𝑋1 , 𝑋2 , … unabhängig und identisch verteilte Zufallsvariablen mit 𝐸[𝑋𝑖 ] = 𝜇 und
𝑉𝑎𝑟[𝑋𝑖 ] = 𝜎 2 .

Dann ist für große 𝑛:

1 𝜎2
• Das Stichprobenmittel 𝑀 = ∑𝑛𝑖=1 𝑋𝑖 ist annähernd normalverteilt mit 𝑁 (𝜇, ).
𝑛 𝑛
1
• Die Summe 𝑛 ∑𝑛𝑖=1 𝑋𝑖 ist annähernd normalverteilt mit 𝑁(𝑛 ∙ 𝜇, 𝑛 ∙ 𝜎 2 )

Der große Nutzen liegt darin, Konfidenzintervalle etc. zu ermitteln, obwohl wir die eigentliche
Verteilung der Summe gar nicht kennen.

Tipp
Für mehr Informationen unter welchen Umständen der zentrale Grenzwertsatz gute
Ergebnisse liefert, siehe hier.

Tipp
Da der zentrale Grenzwertsatz im Allgemeinen für Zufallsvariablen der Form i) 𝑋1 + ⋯ + 𝑋𝑛
1
oder ii) (𝑋1 + ⋯ + 𝑋𝑛 ) greift, ist das Prozedere bei den folgenden Aufgaben immer gleich:
𝑛

1. Bringe Zufallsvariable(n) in die notwendige Form i), ii)


2. Ermittle 𝜎 und 𝜇.
3. Nutze Eigenschaften der Normalverteilung für gewünschte Konfidenzintervalle etc.

Stochastik für Informatiker Aufgabe 31, WS17/18

𝑈1 , 𝑈2 , … seien unabhängig und uniform verteilt auf [0,1]. Für 𝑖 = 1,2, … setzen wir 𝑋𝑖 =
𝑈𝑖5 , 𝑖 = 1,2, …, und 𝑌 = 𝑋1 + ⋯ + 𝑋100 .

a) Bestimmen Sie unter Verwendung des zentralen Grenzwertsatzes ein um 𝐸[𝑌]


symmetrisches Intervall 𝐽, für das gilt 𝑃(𝑌 ∈ 𝐽) ≈ 0.95.
1
b) Lösen Sie die zu a) analoge Aufgabe auch noch für 𝑀 = (𝑋1 + ⋯ + 𝑋100 ).
100

a) Die 𝑋𝑖 ’s sind unabhängig und identisch verteilt. Zudem haben sie endliche Varianzen
und Erwartungswerte. Somit sind alle Konditionen für den klassischen zentralen
Grenzwertsatz erfüllt.

Da also 𝑌 = 𝑋1 + ⋯ + 𝑋100 annähernd normalvereilt ist mit 𝑁(𝑛 ∙ 𝜇, 𝑛 ∙ 𝜎 2 ), müssen


wir zuerst 𝜇 = 𝐸[𝑋] und 𝜎 2 = 𝑉𝑎𝑟[𝑌] finden.

Dafür müssen wir aber erstmal die Verteilungs- und Dichtefunktion von 𝑋𝑖 kennen.
Das Prozedere übernehmen wir dabei aus dem Kapitel Transformationen
kontinuierlicher Zufallsvariablen.

1 1, 𝑤𝑒𝑛𝑛 1 < 𝑥
1 𝑥5 1
5
F𝑋 (𝑥) = P(𝑋 ≤ 𝑥) = 𝑃(𝑈 ≤ 𝑥) = 𝑃 (𝑈 ≤ 𝑥5) = ∫ 1𝑑𝑥 = {𝑥 5 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑥 ≤ 1.
0
0, 𝑠𝑜𝑛𝑠𝑡
1 −4
𝑑 𝑥 5 , 𝑤𝑒𝑛𝑛
0 < 𝑥 ≤ 1.
𝑓𝑋 (𝑥) = 𝐹 (𝑥) = {5
𝑑𝑥 𝑋
0, 𝑠𝑜𝑛𝑠𝑡
Für den Erwartungswert gilt dann:

1
1 6 1 1
𝐸[𝑋𝑖 ] = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = [𝑥 5 ] = .
0 6 0 6
1
1 1 25
𝑉𝑎𝑟[𝑋𝑖 ] = ∫ (𝑥 − 𝐸[𝑋])2 𝑓𝑋 (𝑥)𝑑𝑥 = 𝐸[𝑋
⏟ 2 ] − 𝐸[𝑋]2 = − = .
0 𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
11 36 396
Somit:

100
𝐸[𝑌] = .
6
25 625
𝑉𝑎𝑟[𝑌] = 100 ∙ = .
396 99

Daraus folgt:

100 625
𝑌~𝑁 ( , ) .
⏟ 6 99
𝑧𝑒𝑛𝑡𝑟𝑎𝑙𝑒𝑟 𝐺𝑟𝑒𝑛𝑧𝑤𝑒𝑟𝑡𝑠𝑎𝑡𝑧

Nun das Konfidenzintervall bestimmen. Wichtig: Das Intervall ist symmetrisch, also
100
rechts vom Zentrum 𝐸[𝑌] = befinden sich genauso viele Werte wie links.
6

𝑃(𝑎 ≤ 𝑌 ≤ 𝑏) ≈ 0.95
⇔ 𝑃(𝑎 ≤ 𝜎𝑍 + 𝜇 ≤ 𝑏) ≈ 0.95, 𝑚𝑖𝑡 𝑍~𝑁(0,1)
625 100
⇔ 𝑃 (𝑎 ≤ √ 𝑍+ ≤ 𝑏) ≈ 0.95
99 6

1 100 1 100
⇔ 𝑃 (𝑎 − )≤𝑍≤ (𝑏 − ) ≈ 0.95.
6 6
√625 √625
( 99 99 )

Wir wissen: 𝑍 ist standardnormalverteilt. Die Überlegung: Für welche Variablen


𝑚1 , 𝑚2 ist für eine standardnormalverteilte Zufallsvariable folgendes erfüllt:

𝑃(𝑚1 < 𝑍 < 𝑚2 ) ≈ 0.95.


Laut unserer Tabelle für Standardnormalverteilungen für 𝑚1 = −1.96 und 𝑚2 =
1.96.

Somit lösen wir folgendes System:


1 100
(𝑎 − ) = −1.96,
6
√625
99

1 100
(𝑏 − ) = 1.96.
6
√625
99

Das Tolle: Da das gesuchte Intervall symmetrisch ist, brauchen wir nur eine der
Gleichungen lösen (z.B. 𝑎) und die Lösung für 𝑏 links vom Zentrum platzieren
(𝐸[𝑌] + 𝐸[𝑌] − 𝑎 = 𝑏).
100 100
Die Lösung für 𝑎 beträgt: 𝑎 ≈ 11.741, weshalb 𝑏 = + − 11.741 ≈ 21.59.
3 3

Somit hat das gesuchte Intervall die Form 𝐽 ≔ [11.741,21.59].

Taschenrechner, wie der Casio fx-991DEX erlauben es uns das Ergebnis zu


kontrollieren, also
𝑃(11.741 ≤ 𝑌 ≤ 21.59) ≈ 0.95
zu verifizieren. Auch die Nullstellenberechnung lässt sich mit diesem Rechner
automatisieren. Da dieser Rechner sogar fürs Abitur als nicht CAS Taschenrechner
zugelassen ist, findet er im Allgemeinen auch in Universitätsprüfungen verwendung.

Wie das funktioniert siehe im Abschnitt Berechne Nullstellen iterativ.

b) Nun suchen wir ein Konfidenzintervall für unseren Erwartungswertschätzer 𝑀 =


𝑋1 +⋯+𝑋100
.
100

Wir haben:

1 1
𝐸[𝑀] = ∙ 100 ∙ 𝐸[𝑋𝑖 ] = .
100 6
25
1 396 .
𝑉𝑎𝑟[𝑀] = ∙ 100 ∙ 𝑉𝑎𝑟[𝑋𝑖 ] =
1002 100

Laut zentralen Grenzwertsatz gilt:


1 25
𝑀~𝑁 ( , ).
6 39600
Nun lösen wir analog wie zuvor:
𝑃(𝑎 ≤ 𝑀 ≤ 𝑏) ≈ 0.95
⇔ 𝑃(𝑎 ≤ 𝜎𝑍 + 𝜇 ≤ 𝑏) ≈ 0.95, 𝑚𝑖𝑡 𝑍~𝑁(0,1)
25 1
⇔ 𝑃 (𝑎 ≤ √ 𝑍 + ≤ 𝑏) ≈ 0.95
39600 6

1 1 1 1
⇔ 𝑃 (𝑎 − ) ≤ 𝑍 ≤ (𝑏 − ) ≈ 0.95.
6 6
√ 25 √ 25
( 39600 39600 )

Wir wissen: 𝑍 ist standardnormalverteilt. Die Überlegung: Für welche Variablen


𝑚1 , 𝑚2 ist für eine standardnormalverteilte Zufallsvariable folgendes erfüllt:

𝑃(𝑚1 < 𝑍 < 𝑚2 ) ≈ 0.95.

Wir rechnen;
1 1
(𝑎 − ) = −1.96,
6
√ 25
39600

1 1
(𝑎 − ) = 1.96,
6
√ 25
39600

Folglich:
⟹ 𝑎 ≈ 0.11
⟹ 𝑏 ≈ 0.21.
Bei 100 Stichproben fällt der Erwartungswertschätzer zu 95% ins Intervall
[0.11,0.21].
1
Dies ist nicht weit von den tatsächlichen 6 entfernt.

Achtung
Der zentrale Grenzwertsatz sagt nicht, dass die Summen tatsächlich normalverteilt sind, sondern
dem nur annähernd entsprechen. Siehe Konvergenz in Verteilung.
Beispiele kontinuierlicher Verteilungen
Wie im diskreten Kapitel, werden hier einige konkrete Verteilungen kontinuierlicher
Zufallsvariablen vorgestellt. Erneut beinhaltet jede Verteilung eine kleine Zusammenfassung
wichtiger Parameter in Tabellenform.

Im Vergleich kommen hier aber nur drei Verteilungen vor, nämlich die Uniform-, Normal- und
Exponentialverteilung. Das bedeutetet aber nicht, dass andere kontinuierliche Verteilungen, wie die
Gamma-, Beta- oder Chi-Square Verteilung nicht existieren. Sie werden einfach nur nicht weiter
erwähnt.
Uniforme Verteilung auf ℝ (kontinuierlich)

Dichtefunktion einer uniform verteilten Zufallsvariablen Verteilungsfunktion einer uniform verteilten


mit 𝑎 = 3 und 𝑏 = 5. Zufallsvariablen mit 𝑎 = 3 und 𝑏 = 5. Wie auch im
diskreten fall ist 𝐹𝑋 streng monoton steigend.

Definitionen 𝑎. 𝑏 ∈ ℝ, 𝑏 > 𝑎
𝑥 ∈ ℝ ∧ (𝑎 ≤ 𝑥 ≤ 𝑏)
oft benutzte Notation 𝑋~𝑈[𝑎, 𝑏] oder 𝑋~𝑢𝑛𝑖𝑓[𝑎, 𝑏]
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 1
𝑏−𝑎
Verteilungsfunktion (cdf) 𝐹𝑋 (𝑥) 1
∙𝑥
𝑏−𝑎
Erwartungswert 𝑎+𝑏
(𝑀𝑖𝑡𝑡𝑒 𝑑𝑒𝑟 𝑉𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔)
2
Varianz 1
(𝑏 − 𝑎)2
12
Symmetrisch um 𝜇 ja

Die uniforme Verteilung auf ℝ ist das kontinuierliche Gegenstück zur Uniforme Verteilung auf ℤ
(diskret). Anstatt einer diskreten Menge ist unsere Wahrscheinlichkeit nun aber auf einem Intervall
definiert. Vom Grundprinzip her bleibt aber alles unverändert, weshalb es sich lohnt den Abschnitt
über diskrete uniforme Verteilungen zu konsultieren.

FAQ: Warum funktioniert die zusammengeführte Formel?


Frage: Beweis mir den Erwartungswert und die Varianz!

Antwort: Sei 𝑋~𝑢𝑛𝑖𝑓[𝑎, 𝑏].

𝑏 𝑏 𝑏
1 1 𝑥2 1 𝑏2 𝑎2 1 𝑏 2 − 𝑎2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 ∙ 𝑑𝑥 = [ ∙ ] = ∙( − )= ∙
𝑎 𝑎 𝑏−𝑎 2 𝑏−𝑎 𝑎 2 𝑏−𝑎 𝑏−𝑎 2 𝑏−𝑎
1
= (𝑏 + 𝑎) .

2
(𝑎+𝑏)(𝑎−𝑏)=(𝑎 2 −𝑏2 )
𝑏 𝑏
𝑎+𝑏 2 1 1 𝑏
𝑎+𝑏 2
𝑉𝑎𝑟[𝑋] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ (𝑥 − ) ∙ 𝑑𝑥 = ∫ (𝑥 − ) 𝑑𝑥
𝑎 𝑎 2 𝑏−𝑎 𝑏−𝑎 𝑎 2
𝑏 2
1 𝑎+𝑏
= ∫ 𝑥 2 − (𝑎 + 𝑏)𝑥 + ( ) 𝑑𝑥
𝑏−𝑎 𝑎 2
1 𝑏 𝑏 𝑏
𝑎+𝑏 2
= (∫ 𝑥 2 𝑑𝑥 − (𝑎 + 𝑏) ∫ 𝑥 𝑑𝑥 + ∫ ( ) 𝑑𝑥)
𝑏−𝑎 𝑎 𝑎 𝑎 2
1 𝑏 3 − 𝑎3 𝑏 2 − 𝑎2 𝑎+𝑏 2
= ( − (𝑎 + 𝑏) ( )+( ) (𝑏 − 𝑎))
𝑏−𝑎 3 2 2
𝑏 3 − 𝑎3 (𝑎 + 𝑏)2 𝑎+𝑏 2 𝑏 3 − 𝑎3 2(𝑎 + 𝑏)2 𝑎2 + 2𝑎𝑏 + 𝑏 2
= − +( ) = − +
3(𝑏 − 𝑎) 2 2 3(𝑏 − 𝑎) 4 4
3 3) (𝑏 − 𝑎)6(𝑎 + 𝑏) 2 (𝑏 − 𝑎)(3𝑎 + 6𝑎𝑏 + 3𝑏 2 )
2
4(𝑏 − 𝑎
= − +
12(𝑏 − 𝑎) 12(𝑏 − 𝑎) 12(𝑏 − 𝑎)
4(𝑏 − 𝑎)(𝑎 + 𝑎𝑏 + 𝑏 − (𝑏 − 𝑎)6(𝑎 + 𝑏)2 + (𝑏 − 𝑎)3𝑎2 + 6𝑎𝑏 + 3𝑏 2
2 2)
=
12(𝑏 − 𝑎)
4(𝑎2 + 𝑎𝑏 + 𝑏 2 ) − 6(𝑎 + 𝑏)2 + 3𝑎2 + 6𝑎𝑏 + 3𝑏 2 𝑎2 − 2𝑎𝑏 + 𝑏 2
= =
12 12
(𝑏 − 𝑎)2
= .
12

Stochastik für Informatiker Aufgabe 29, WS17/18

𝑈 sei uniform verteilt auf [0,1] und 𝑋 sei standard-exponentialverteilt. Berechnen Sie die
Verteilungsfunktion und Dichte von

d) √2𝑋
1−𝑈
e) .
𝑈

d) Wir nutzen die Verteilungsfunktiontechnik. Sei 𝑌 = √2𝑋.


𝑦2
𝑦2 2 𝑦2
𝐹𝑌 (𝑌) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(√2𝑋 ≤ 𝑦) = 𝑃 (𝑋 ≤ ) = ∫ ⏟
1 𝑑𝑥 = .
2 0 𝑝𝑑𝑓 𝑢𝑛𝑖𝑓𝑜𝑟𝑚[0,1]
2
Ergo:

1, 𝑤𝑒𝑛𝑛 𝑦 > √2
2
𝐹𝑌 (𝑦) = 𝑦 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ √2.
2
{0, 𝑤𝑒𝑛𝑛 𝑦 < 0

𝑑 𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ √2
𝑓𝑌 (𝑦) = 𝐹 (𝑦) = { .
𝑑𝑦 𝑌 0, 𝑠𝑜𝑛𝑠𝑡
1−𝑈
e) Sei 𝑌 = .
𝑈
Nebenrechnung:
1−𝑈
𝑦=
𝑈
1 𝑈
⇔ 𝑦= −
𝑈 𝑈
1
⇔ 𝑦+1 =
𝑈
⇔ 𝑈(𝑦 + 1) = 1.

Also:

1−𝑈 1 1
𝐹𝑌 (𝑌) = 𝑃 ( ≤ 𝑦) = 𝑃(1 ≤ 𝑈(𝑦 + 1)) = 𝑃 ( ≤ 𝑈) = 1 − 𝑃 (𝑈 ≤ )
𝑈 𝑦+1 𝑦+1
1 1
𝑦+1 1− , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦.
=1−∫ ⏟
1 𝑑𝑥 = { 𝑦+1
0 𝑝𝑑𝑓 𝑢𝑛𝑖𝑓𝑜𝑟𝑚[0,1] 0, 𝑤𝑒𝑛𝑛 𝑦 < 0
1−𝑈
Man merke, dass die lim = ∞, weshalb die 𝑦 für alle reellen Zahlen ab 𝑌(1) =
𝑈→0 𝑈
1−1
= 0 definiert ist.
1

1
𝑑 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦.
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦) = {(𝑦 + 1)2
𝑑𝑦
0, 𝑠𝑜𝑛𝑠𝑡
Exponentialverteilung

Dichtefunktion einer standardexponentialverteilten (𝜆 = Verteilungsfunktion einer standardexponentialverteilten


1) Zufallsvariablen. (𝜆 = 1) Zufallsvariablen.

Definitionen 𝜆 ∈ ℝ+
𝑥 ∈ ℝ+
oft benutzte Notation 𝑋~ exp(𝜆)
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 𝜆𝑒 −𝜆𝑥

Verteilungsfunktion (cdf) 𝐹𝑋 (𝑥) 1 − 𝜆𝑒 −𝜆𝑥

Erwartungswert 1
𝜆
Varianz 1
𝜆2
Symmetrisch um 𝜇 nein

In Poisson Verteilung lernten wir die Poissonverteilung kennen. Diese beschrieb die
Auftrittswahrschlichkeiten von unabhängig geschehenden Ereignissen, z.B. die Anzahl der
Telefonanrufe in einer Stunde. Die Exponentialverteilung beschreibt die Wartewahrscheinlichkeit
zwischen Ereignissen eines Poisson Prozesses. Im Telefonbeispiel würde die Exponentialverteilung
somit die Wartezeit zwischen zwei Anrufen angeben. Da beide Verteilungen somit unzertrennlich
sind, ist es wenig überraschend, dass beide auch einige Eigenschaften teilen.

Wenn wir sagen, dass die Auftrittswahrscheinlichkeit von zwischen Ereignissen in einem Poisson
Prozess unabhängig sind, dann meinen wir damit, dass das Auftreten von einem Ereignis weitere
Ereignisse weder begünstigt noch benachteilgt. Für Telefonanrufe bedeutet dies, dass diese
komplett unabhängig sind. Viele Anrufe geben uns somit keine Auskunft darüber, ob auch später
noch viele Anrufe kommen werden sowie umgekehrt.

Das bedeutet, dass die Wartezeit zwischen zwei Anrufen auch unabhängig sein muss: Die
Exponentialverteilung setzt voraus, dass Wartezeiten keinen Einfluss auf Eintrittszeiten eines
Anrufes haben.
Tipp
Diese Eigenschaft heißt auch Gedächtnislosigkeit. Da Markovketten auch gedächtnislos sind
(die Wahrscheinlichkeit eines Zustandsübergang nur abhängig vom momentanen Zustand
und nicht der Vergangenheit) ist es nicht verwunderlich, dass es auch einen Zusammenhang
zwischen kontinuierlichen Markovketten und der Exponentialverteilung gibt. Für mehr siehe
hier.

Genauer: Wenn ich weiß, dass in der Stunde ca. 6 Anrufe ankommen, kann ich im Schnitt eine
Wartedauer von 10 Minuten pro Anruf angeben. Die Wahrscheinlichkeit 𝑃(𝑋 > 𝑠 + 𝑡|𝑋 > 𝑡), dass
ich auf den nächsten Anruf mehr als 𝑠 + 𝑡-Minuten warten muss, wenn ich schon mehr als 𝑡-
Minuten gewartet habe lautet dann:
𝑃(𝑋>𝑠+𝑡,𝑋>𝑡)
𝑃(𝑋 > 𝑠 + 𝑡|𝑋 > 𝑡) = 𝑃(𝑋>𝑡)
𝑒 −𝜆(𝑠+𝑡)
=
𝑒 −𝜆𝑡
−𝜆𝑠
=𝑒
= 𝑃(𝑋 > 𝑠).

Achtung
Gedächtnislosigkeit bedeutet nicht, dass wir überhaupt keine Aussagen über Wartezeiten treffen
können.

Haben wir eine durchschnittliche Wartezeit von 10 Minuten pro Anruf, dann gilt für die
Wahrscheinlichkeit, länger als 10 Minuten zu warten:
1
𝑃(𝑋 ≥ 10) = 𝑒 −10∙10 = 𝑒 −1 .
Die Wahrscheinlichkeit, länger als 10 Minuten zu warten, wenn ich schon fünf Minuten gewartet
habe beträgt aber:
1
(10+5)
𝑒 −10
𝑃(𝑋 > 5 + 10|𝑋 > 5) = 1
𝑒 −105
=
1
= 𝑒 −105
5
= 𝑒 −10 .

Habe ich somit schon fünf Minuten gewartet, erhöht sich die Wahrscheinlichkeit mehr als 10
Minuten zu warten. Die neue Wahrscheinlichkeit ist aber absolut identisch zu
𝑃(𝑋 ≥ 5),
also mehr als fünf Minuten zu warten von Beginn aus.

Es ist natürlich nicht unbedingt realistisch anzunehmen, dass Wartezeiten keinen Einfluss auf
Eintrittswahrscheinlichkeiten habe.
Modelliere ich z.B. die Wartezeit zwischen Werkstattbesuchen eines Autos mit einer
Exponentialverteilung, dann würde es bedeuten, es ist für ein über zwanzig Jahres altes Auto
genauso wahrscheinlich nach dem 25ten Jahr die Werkstatt zu besuchen, wie für ein neues Auto
nach dem fünftem Jahr (vergleiche 𝑃(𝑋 ≥ 5) mit 𝑃(𝑋 ≥ 20 + 5|𝑋 > 5).
Definition 4.30
Sei 𝑋~ exp(𝜆). Dann gilt:

𝑃(𝑋 > 𝑡) = 1 − 𝑃(𝑋 ≤ 𝑡)


𝑡
= 1 − ∫ 𝜆𝑒 −𝜆𝑠 𝑑𝑠
0
= 1 − [−𝑒 −𝜆𝑡 + 1]
= 𝑒 −𝜆𝑡 .

Tipp
Die Exponentialverteilung ist ein Spezialfall der Gammaverteilung, die in einigen
Ausprägungen eine kontinuierliche Version der Fakultätsfunktion 𝑛! darstellt.

Tipp
Die Exponentialverteilung ist die kontinuierliche Version der geometrischen Verteilung.
Deshalb ist es wenig verwunderlich, dass sich beide in bestimmten Fällen annähern. Für
Beispiele, siehe Geometrische Verteilung - Exponentialapproximation.

Beispiel 4.7.

Es sei 3 Minuten die mittlere Wartezeit eines gedächtnislosen Zerfallsprozesses


(Vergleich radioaktiver Zerfall).

(i) Wie hoch ist die Wahrscheinlichkeit, zwischen 2-4 Minuten auf den nächsten
Zerfall zu warten?
(ii) Wie hoch ist die Wahrscheinlichkeit, 6 Zerfalle in einer Stunde zu erleben?

3𝑀𝑖𝑛𝑢𝑡𝑒𝑛
Wenn 3 Minuten die mittlere Zerfallszeit ist, dann ist 𝜆−1 = .
1 𝑍𝑒𝑟𝑓𝑎𝑙𝑙

1
Sei 𝑋~ exp ( ).
3

1
41
𝑃(2 ≤ 𝑋 ≤ 4) = ∫2 𝑒 −3𝑠 𝑑𝑠
3
1 1
(i)
= −𝑒 −3∙4 + 𝑒 −3∙2
≈ 0.2498.

(ii) Die Anzahl von Zerfallen pro Zeiteinheit ist poissonverteilt. Eine mittlere Zerfallszeit
20
von 3 Minuten, entspricht einem erwarteten Zerfall von 𝜆 ∙ 20 = 20 Einheiten pro
Stunde. Aufpassen bei der Reparameterisierung: Wir rechnen nun in Stunden weil
20𝐸𝑖𝑛ℎ𝑒𝑖𝑡𝑒𝑛
sonst bekommen wir mit dem Poisson-Erwartungswert Probleme ( hat
60 𝑀𝑖𝑛𝑢𝑡𝑒𝑛
einen Erwartungswert von ca. 0.33 Einheiten pro Minute. Wir wollen aber einen
Erwartungswert von 20.).
20 𝐸𝑖𝑛ℎ𝑒𝑖𝑡𝑒𝑛
Sei 𝑌~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 ( ). Dann gilt:
1 𝑆𝑡𝑢𝑛𝑑𝑒
206 −20
𝑃(𝑌 = 6) = 𝑒 ≈ 0.000183.
6!

Wie man im vorherigen Beispiel sehen kann, bestimmt 𝜆 aus der Exponentialverteilung auch den
rate Parameter der Poissonverteilung.

Beispiel 4.8.

Jonas wartet schon länger als 5 Minuten auf den Bus. Im Schnitt kommt jede Minute einer.
Wie hoch ist die Wahrscheinlichkeit, dass er noch länger als 2 Minuten warten muss?

1 𝑀𝑖𝑛𝑢𝑡𝑒
Es gilt: 𝜆−1 = . Sei 𝑋~ exp(1).
1 𝐵𝑢𝑠

𝑃(𝑋 > 5 + 2|𝑋 > 5) = 𝑃(𝑋 > 2)


⏟ = 𝑒 −2 ≈ 0.135.
𝐺𝑒𝑑ä𝑐ℎ𝑡𝑛𝑖𝑠𝑙𝑜𝑠𝑖𝑔𝑘𝑒𝑖𝑡

Ob sich seine Situation mit einer Exponentialverteilung modellieren lässt ist fraglich.
Schließlich würde man Gedächtnislosigkeit beim Busverkehr nicht erwarten.

Mehr Aufgaben gibt es im Kapitel Geometrische Verteilung - Exponentialapproximation.


Normalverteilung

Dichtefunktion von 𝑋~𝑁(3,1).


Auch wenn sich die Verteilungsfunktion von 𝑋~𝑁(3,1)
nicht exakt explizit ermitteln lässt, kann man sie
numerisch approximieren.

Definitionen 𝜇 = 𝐸[𝑋]
𝜎 2 = 𝑉𝑎𝑟[𝑋]
oft benutzte Notation 𝑋~𝑁(𝜇, 𝜎 2 )
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 1 1
− (𝑥−𝜇)2
𝑒 2𝜎2
√2𝜋𝜎 2
Verteilungsfunktion (cdf) 𝐹𝑋 (𝑥) keine geschlossene Formel vorhanden.
Manchmal werden Varianten von tanh(x) als
Approximation verwendet.
Erwartungswert 𝜇

Varianz 𝜎2
Symmetrisch um 𝜇 ja

Abgesehen von der uniformen Verteilung, ist die Normalverteilung die wohl am meisten genutzte
kontinuierliche Verteilung überhaupt. Maßgebend verantwortlich dafür ist wohl der zentrale
Grenzwertsatz, der besagt, dass im Limit viele Folgen von Zufallsvariablen in Verteilung zur
Normalverteilung konvergieren (siehe Zentraler Grenzwertsatz und Konvergenz in Verteilung).
Auf dem ersten Blick erscheint es einem, als könnte man nur schwer mit der Normalverteilung
arbeiten: Die Dichtefunktion ist ein komplizierter Term und die Verteilungsfunktion existiert nicht
in geschlossener Form.
Doch der Schein trügt: In der Praxis sind diese Nachteile kaum relevant und die wünschenswerten
Eigenschaften dieser Verteilung kommen zum Vorschein.
Definition 4.31
Sei 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) und 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ) und 𝑋, 𝑌 uabhängig.

Dann gilt:
𝑋 + 𝑌~𝑁(𝜇𝑋 + 𝜇𝑌 , 𝜎𝑋2 + 𝜎𝑌2 ).

Das bedeutet: Eine Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt.

FAQ: Summe normalverteilter Zufallsvaribalen normalverteilt?


Frage: Warum ist eine Summe normalverteilter Zufallsvariablen wieder normalverteilt?

Antwort: Sei 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) und 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ). Über die Konvolutionsformel für Summen von
Zufallsvariablen erhalten wir:
+∞
𝑓𝑋+𝑌 (𝑠) =∫ 𝑓𝑋 (𝑥)𝑓𝑌 (𝑠 − 𝑥)𝑑𝑥
−∞
+∞ 1 1
1 − 2 (𝑥−𝜇𝑋 )2 − 2 (𝑠−𝑥−𝜇𝑌 )2
=∫ 𝑒 2𝜎𝑋 𝑒 2𝜎𝑌 𝑑𝑥
−∞ 2𝜋𝜎𝑋 𝜎𝑌
+∞ − [ 1 (𝑥−𝜇𝑋 )2 (𝑠−𝑥−𝜇𝑌 )2
1 2 +
𝜎𝑌2
]
= ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
2 (𝑠−𝑥)2 2
+∞ − [ 1 𝑥 2 −2𝑥𝜇𝑋 +𝜇𝑋 −2(𝑠−𝑥)𝜇𝑌 +𝜇𝑌
1 2 +
𝜎𝑌2
]
= ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞

Sei 𝜎 2 = 𝜎𝑋2 + 𝜎𝑌2 und 𝜇 = 𝜇𝑋 + 𝜇𝑌 .


2 (𝑠−𝑥)2 2
+∞ − [ 1 𝑥 2 −2𝑥𝜇𝑋 +𝜇𝑋 −2(𝑠−𝑥)𝜇𝑌 +𝜇𝑌
1 2 +
𝜎𝑌2
]
𝑓𝑋+𝑌 (𝑠) = ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
2 2
+∞ − [ 1 𝑥 2 −2𝑥𝜇𝑋 +𝜇𝑋 𝑠2 −2𝑠𝑥+𝑥 2 −2𝑠𝜇𝑌 +2𝑥𝜇𝑌 +𝜇𝑌
1 2 +
𝜎𝑌2
]
= ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
2
1 𝑠2 −2𝑠𝜇𝑌 +𝜇𝑌
− [ ] 2 2 2
2 𝜎𝑌2 +∞ −1[𝑥 −2𝑥𝜇𝑋 +𝜇𝑋 +−2𝑠𝑥+𝑥 +2𝑥𝜇𝑌 ]
𝑒 2 2
𝜎𝑋 𝜎𝑌2
= ∫ 𝑒 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
Rechnet man das Obere weiter, erhält man eine normalverteilte Dichtefunktion 𝑁(𝜇, 𝜎).

Ein alternatives Argument lautet: Wenn wir wissen, dass die Summe 𝑋 + 𝑌 normalverteilt ist,
dann ergeben sich die neuen Parameter 𝜎 und 𝜇 aus den Linearitätsregeln:

𝐸[𝑋 + 𝑌] = 𝐸[𝑋] + 𝐸[𝑌] = 𝜇𝑋 + 𝜇𝑌 = 𝜇,


𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] = 𝜎𝑋2 + 𝜎𝑌2 = 𝜎.
𝑉𝑎𝑟[𝑋 + 𝑌] = ⏟
𝑋,𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔
Achtung
Multiplikationen von normalverteilten Zufallsvariablen sind nicht zwangsweise normalverteilt.
Ist nämlich 𝑍~𝑁(0,1), dann hat 𝑍 2 eine Chi-Square Verteilung!

Definition 4.32
Sei 𝑍~𝑁(0,1).

Die Variable 𝑍 nennt man dann standardnormalverteilt.

Diese standardnormalverteilten Zufallsvariablen sind sehr nützlich beim standartisieren:

Definition 4.33
Sei 𝑍~𝑁(0,1) und 𝑋~𝑁(𝜇, 𝜎 2 ).

Dann gilt:
𝑋 = 𝜎𝑍 + 𝜇.

Somit sind 𝑋 und 𝜎𝑍 + 𝜇 identisch verteilt. Dies ist sehr nützlich und wird häufig verwendet. Wenn
man darüber nachdenkt, dann macht dies auch Sinn: Ist 𝑍~𝑁(0,1), dann gilt 𝐸[𝑍] = 0. Verschiebt
man nun 𝑋 = 𝑍 + 𝑐, dann verschiebt sich auch der Erwartungswert um 𝑐 Einheiten, also 𝐸[𝑋] =
𝐸[𝑍] + 𝑐 = 𝑐.
Folglich hat 𝐸[𝑍 + 𝜇] denselben Erwartungswert wie 𝐸[𝑋] = 𝜇. Für die Varianz gilt die
Linearitätsregel 𝑉𝑎𝑟[𝜎𝑍 + 𝜇] = 𝜎 2 𝑉𝑎𝑟[𝑍] = 𝜎 2 = 𝑉𝑎𝑟[𝑋].
Somit hat 𝜎𝑍 + 𝜇 dieselbe Varianz sowie denselben Erwartungswert wie 𝑋. Da sich eine
Normalverteilung vollständig durch diese beiden Parameter beschreiben lässt, gilt folglich
𝑋 = 𝜎𝑍 + 𝜇.
Der umgekehrte Weg geht natürlich auch: Ziehen wir von 𝑋 dessen Varianz ab und teilen durch die
𝑋−𝜇
Standardabweichung, so gleicht einer standardnormalverteilten Zufallsvariable.
𝜎

Verschiedene Normalverteilungen mit unterschiedlicher Verschiedene Normalverteilungen mit unterschiedlichem


Varianz. Je kleiner 𝜎 2 , desto spitzer und höher wird die Erwartungswert. Positive 𝜇 verschieben die Verteilung
Verteilung. nach rechts, negative nach links.
Tipp
Der statistische 𝑍-Test gleicht grundsätzlich dem oberen Verfahrens.

Tipp
Eine Normalverteilung mit verschwindend kleiner Varianz, also lim
2
𝑁(𝜇, 𝜎 2 ), nennt
𝜎 →0
man Dirac Delta Funktion/Distribution.
Diese spielt besonders bei degenerierten Verteilungen eine wichtige Rolle, weil man so
einzelnen Punkten ein Volumen geben kann.
(Das bedeutet, dass Zufallsvariablen der Form

1, 𝑤𝑒𝑛𝑛 𝑥 = 0.5
𝑋={ , 𝑋 𝑖𝑠𝑡 𝑘𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑒𝑟𝑙𝑖𝑐ℎ
0, 𝑤𝑒𝑛𝑛 𝑥 ≤ 0 ≤ 1

plötzlich eine „gültige“ Verteilungsfunktion haben, anstatt 𝐹𝑋 (𝑥) = 0.

Um die vielen Einsatzmöglichkeiten der Normalverteilung zu entdecken, lohnt es sich die


Abschnitte Zentraler Grenzwertsatz, Approximationen anzuschauen.
Kapitel 5

Approximationen

In den bisherigen Aufgaben wurde viel Aufwand darin gesteckt, die unterliegende
Wahrscheinlichkeitsverteilung überhaupt zu erkennen. Nachdem man diese mühevoll gefunden
hat, gibt es dennoch Situationen, wo wir eine andere Verteilung zur Berechnung nutzen. Gründe
gibt es genug: Die ursprüngliche Verteilung hat vielleicht eine schwer auswertbare Formel oder
braucht unhandlich viele Parameter.
Viele Approximationen zeichnen sich deshalb dadurch aus, die Nutzbarkeit oder Berechenbarkeit
zu vereinfachen. Das Besondere: Da das Riemann Integral sich als diskreter Grenzwert
Riemannsummen darstellen lässt, ist es ist kein Wunder, dass viele kontinuierliche Verteilungen
sich durch diskrete Verteilungen darstellen lassen.

Im Gegensatz zu z.B. Differentialgleichungen geht eine Diskretisierung hier aber nicht immer mit
einer Vereinfachung der Berechenbarkeit einher: Oft sind es genau diese kontinuierlichen
Verteilungen, die sich leichter handhaben lassen als ihre analogen Gegenstücke.
Man darf aber nicht vergessen, dass eine Approximation nur eine Annäherung ist. Und unter
bestimmten Konditionen ist diese Annährung sehr weit vom tatsächlichen Ergebnis entfernt. Aber
keine Sorge: Wir werden auf den folgenden Seiten auf notwendige Konditionen eingehen, um gute
Ergebnisse zu erzielen.
Binomial-Normalapproximation

Bei 𝑛 = 20 Stichproben ist die Verteilung nur schwach Je mehr Stichproben, desto ähnlicher wird die Verteilung
symmetrisch. Dargestellt ist die Binomialverteilung zu einer Normalverteilung. Sie wird auch symmetrischer.
den jeweiligen Parametern.

𝑛 𝑛!
Die Binomialverteilung hat ein Problem: Für große 𝑛 ist der Binomialkoeffizient ( ) = 𝑘!(𝑛−𝑘)! in
𝑘
der Massefunktion nur schwer zu berechnen. Einige Taschenrechner versagen schon beim
1000
Ausdruck ( ). Das Problem ist Fakultätsfunktion. Natürlich kann man versuchen, 𝑛! mit der
50
Stirlingformel zu approximieren. Anstatt verfolgt man aber meistens einen anderen Ansatz: Da man
zeigen kann, dass die Binomialverteilung für große 𝑛 gegen die Normalverteilung konvergiert, kann
man auch gleich diese zur Berechnung nehmen. Zwar ist die Verteilungsfunktion einer
𝑎
Normalverteilung nicht darstellbar, ein Integral der Form 𝑃(𝑋 ≤ 𝑎) = ∫−∞ 𝑓𝑋 (𝑥)𝑑𝑥 ist aber
approximativ gut berechenbar.

Ein weiterer Vorteil: Kennen wir die Parameter 𝑛 und 𝑝 der ursprünglichen Binomialverteilung, so
haben wir auch genug Informationen für die approximative Normalverteilung. Dies liegt daran, dass
für eine Normalverteilung die Parameter 𝐸[𝑋] = 𝑛𝑝 und 𝑉𝑎𝑟[𝑋] = 𝑛𝑝𝑞 schon für eine vollständige
Parameterisierung reichen.

Definition 5.1
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝).

Sind 𝑛 und 𝑝 groß, so konvergiert 𝑋 zur Normalverteilung mit

𝑋 ≈ 𝑁(𝑛𝑝, 𝑛𝑝𝑞).

Tipp
Ab 𝑛 = 50 und 𝑝 = 0.3 kann man es mal mit der Normalapproximation probieren.
Das bedeutet aber auch, dass die Binomialverteilung bei steigendem 𝑛 und 𝑝 immer symmetrischer
wird, weil die Normalverteilung ja auch symmetrisch ist. Spezialfall: 𝑝 = 0.5, dann ist die
Binomialverteilung automatisch symmetrisch.
Hier einige Werte für verschiedene 𝑛, 𝑘 und festem 𝑝 = 0.3:

𝑃(𝑋 ≤ 𝑘), für 𝑝 = 0.3 Binomialverteilung Normalverteilung


𝑘 = 3, 𝑛 = 10 0,6496 0,5
𝑘 = 6, 𝑛 = 20 0,6080 0,5
𝑘 = 15, 𝑛 = 50 0,5691 0,5
𝑘 = 30, 𝑛 = 100 0,5491 0,5

Es ist nicht verwunderlich, dass in diesem Fall bei der Normalverteilung immer 0,5 rauskommt,

weil 𝑃(𝑋 ≤ 𝑘) = 𝑃 (𝑋 ≤ 𝑛𝑝
⏟ ) und 𝑋 ≈ (𝑛𝑝, 𝑛𝑝𝑞).
𝑖𝑛 𝑇𝑎𝑏𝑒𝑙𝑙𝑒

Stochastik für Informatiker Erstklausur Aufgabe 2, WS16/17

Wieviele Versuche muss man in einem Bernoulli-Experiment mit


Erfolgwahrscheinlichkeit 𝑝 = 0.8 mindestens machen, damit die Wahrscheinlichkeit
mindestens 30 Erfolge zu erzielen nicht geringer ist als 0.975? Rechnen Sie mit der
Normalapproximation der Binomialverteilung.

Wir lösen für unbestimmtes 𝑛:

𝑃(𝑋 ≥ 30) ≥ 0,975

Normalapproximation: Sei 𝑀~𝑁(𝑛 ∙ 0.8, 𝑛 ∙ 0.8 ∙ 0.2)

Dann:
𝑃(𝑋 ≥ 30) ≈ 𝑃(𝑀 ≥ 30).

𝑃(𝑀 ≥ 30) ≥ 0,975


⇔ 𝑃 ((√𝑛 ∙ 0.8 ∙ 0.2)𝑍 + 𝑛 ∙ 0.8 ≥ 30) ≥ 0,975, 𝑚𝑖𝑡 𝑍~𝑁(0,1)

1
⇔ 𝑃 (𝑍 ≥ (30 − 𝑛 ∙ 0.8)) ≥ 0,975.
(√𝑛 ∙ 0.8 ∙ 0.2)

Für eine standardnormalverteilte Zufallsvariable gilt: 𝑃(𝑍 ≥ −1,96) ≈ 0,975.


Somit können wir gleichsetzen:

1
(30 − 𝑛 ∙ 0.8) = −1,96
(√𝑛 ∙ 0.8 ∙ 0.2)
⟹ 𝑛 ≈ 44.

Eine Probe bestätigt:


29
𝑛
𝑃(𝑋 ≥ 30) = 1 − 𝑃(𝑋 ≤ 29) = 1 − ∑ ( ) 𝑝𝑖 (1 − 𝑝)𝑛−𝑖 ≈ 0,97967.
𝑖
𝑖=0

Wakolbinger Buch Aufgabe

Diese Aufgabe lässt sich im Buch Elementare Stochastik (Götz Kersting, Anton Wakolbinger)
finden.

Ein Hotel hat 218 Betten. Wieviele Reservierungen durch eine Kongressleitung darf der
Hotelmanager entgegennehmen, wenn erfahrungsgemäß eine Reservierung mit
Wahrscheinlichkeit 0.2 annuliert wird?
Die Hotelleitung nimmt dabei in Kauf, mit 2.5%-iger Wahrscheinlichkeit in Verlegenheit
zu geraten.

Hinweis: Es gilt 𝑃(|𝑍| ≥ 1.96) = 0.05 für 𝑍~𝑁(0,1).

Schauen wir uns die Aufgabenstellung nocheinmal genauer an. Um den Gewinn zu
maximieren, möchte ein Hotelmanager wissen, mit wie vielen Reservierungen er das Hotel
„überreservieren“ kann. Dies funktioniert, da ja nicht jeder Gast, der ein Bett reserviert auch
wirklich kommt. Die Hotelleitung nimmt dabei aber in Kauf, dass in einigen Situationen dann
doch mehr Gäste tatsächlich erscheinen, als Bettten verfügar sind. Dies soll aber möglichst
selten vorkommen, weshalb versucht wird, die Wahrscheinlichkeit dieses Ereignisses auf ≤
0.025 zu begrenzen. Die Situation lässt sich somit mit Airlines vergleichen, die Flugplätze
doppelt reservieren.

Wenn 0.2 die Wahrscheinlichkeit ist, dass ein Gast absagt, so ist 0.8 die Wahrscheinlichkeit,
dass er tatsächlich kommt.

Sei 𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 eine Zufallsvariable, die angibt, ob Gast 𝑖 auch tatsächlich erscheint


(𝑋𝑖 = 1) oder nicht (𝑋𝑖 = 0).

Der Einfachheit her nehmen wir an, dass die einzelnen 𝑋𝑖 ’s unabhängig sind. In Realität ist
dies natürlich nicht immer der Fall, weil wenn Gäste im Verbund erscheinen (z.B.
Fußballmannschaft) höchstwahrscheinlich Abhängigkeiten untereinander entstehen.

In Anbetracht der obigen Annahme ist dann 𝑋~𝐵𝑖𝑛(𝑛, 0.8). Somit kommen in Erwartung 𝜇 =
𝑛𝑝 = 𝑛 ∙ 0.8 Gäste mit Varianz 𝜎 2 = 𝑛 ∙ 0.16 .

Da 𝑛 und 𝑝 groß, können wir mit der Normalapproximation arbeiten.

Es gilt dann:
𝑋~𝑁(𝜇, 𝜎 2 ), 𝑚𝑖𝑡 𝜇 = 𝑛 ∙ 0.8, 𝜎 2 = 𝑛 ∙ 0.16.

Da wir 218 Betten haben, suchen wir


𝑃(𝑋 > 218) ≤ 0.025.
Dies lässt sich umschreiben zu

𝑃(𝑋 ≤ 218) ≥ 0.975.

Konvertieren wir 𝑋 in die Standardnormalverteilung, entsteht:


𝑋−𝜇
𝑃( ≤ 1.96) ≥ 0.975
𝜎
𝑋 − 𝑛 ∙ 0.8
⇔ 𝑃( ≤ 1.96) ≥ 0.975
√𝑛 ∙ 0.16

Wir wollen, dass der 0.975 Korridor bei maximaler Bettenauslastung 𝑋 = 218 endet. Folglich:

218 − 𝑛 ∙ 0.8
= 1.96.
√𝑛 ∙ 0.16

Dies können wir nach 𝑛 umstellen und lösen (z.B. über Newton’s Iterationsvorschrift).

Wir erhalten: 𝑛 ≈ 256,79.


Im Sachzusammenhang runden wir ab und erhalten 𝑛 = 256.

Der Hotelmanager kann also bis zu 256 Reservierungen annehmen, sodass mit einer
Wahrscheinlichkeit von weniger als 0.025 tatsächlich zu wenig Betten zur Verfügung stehen.

Binomial-Poissonapproximation

Bei 𝑛 = 1000, 𝑝 = 0.01 sieht die Binomialverteilung der


Poissonverteilung recht ähnlich.

Während die Normalapproximation die Binomialverteilung für große 𝑛 und 𝑝 annäherte, tut die
Poissonapproximation denselben Job für große 𝑛 und kleine 𝑝.
Definition 5.2
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝).

Ist 𝑛 groß und 𝑝 klein, so konvergiert 𝑋 zur Poissonverteilung mit

(𝑛𝑝)𝑘 −𝑛𝑝
𝑃(𝑋 = 𝑘) ≈ 𝑒 .
𝑘!

FAQ: Warum funktioniert die zusammengeführte Formel?


Frage: Die Poissonverteilung approximiert die Binomialverteilung für große 𝑛 und kleine 𝑝?
Du laberst doch…

Antwort: Nein, sei dir gewiss, ich sage die Wahrheit! Denn für 𝑛 ∈ ℕ:
𝜆
Sei = 𝑝. Dann:
𝑛

𝑘
𝑛 𝑛 𝜆 𝜆 𝑛−𝑘 𝑛! 𝜆 𝑘
lim ( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = lim ( ) ( ) (1 − ) = lim ( ) 𝑒 −𝜆
𝑛→∞ 𝑘 𝑛→∞ 𝑘 𝑛 ⏟ 𝑛 𝑛→∞ 𝑘! (𝑛 − 𝑘)! 𝑛
𝐷𝑒𝑓𝑖𝑛𝑖𝑡𝑖𝑜𝑛 𝑣𝑜𝑛 𝑒 −𝜆
𝑛! 𝜆𝑘 𝑛 ∙ … ∙ (𝑛 − 𝑘 + 1) 𝜆𝑘 −𝜆 𝜆𝑘 −𝜆
= lim ∙ 𝑒 −𝜆 = lim ∙ 𝑒 = 𝑒 .
𝑛→∞ (𝑛 − 𝑘)! ∙ 𝑛𝑘 𝑘! 𝑛→∞ ⏟ 𝑛𝑘 𝑘! 𝑘!
=1 𝑖𝑚 𝐺𝑟𝑒𝑛𝑧𝑤𝑒𝑟𝑡

𝑃(𝑋 = 𝑘), für 𝑝 = 0.01 Binomialverteilung Poissonverteilung


𝑘 = 0, 𝑛 = 10 0,9043 0,9048
𝑘 = 0, 𝑛 = 20 0,8179 0,8187
𝑘 = 0, 𝑛 = 50 0,605 0,6065
𝑘 = 1, 𝑛 = 100 0,3697 0,3678

Stochastik für Informatiker Erstklausur Aufgabe 2, WS16/17

Wir betrachten 1000 faire 01-Münzwurffolgen jeweils der Länge 10, alle unabhängig
voneinander. Berechnen Sie mit der Poisson-Näherung die Wahrscheinlichkeit, dass
genau zwei der 1000 Münzwurffolgen nur aus Einsen bestehen.

Wir nehmen uns die Zeit, um beide Versionen auszurechnen.


Sei 𝜔 = (𝑎1 , 𝑎2 , … , 𝑎10 ) eine 01 Folge und 𝑋𝑖 eine Indikatorvariable, mit

1, 𝑤𝑒𝑛𝑛 𝜔 = (1,1,1 … ,1)


𝑋𝑖 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡
10
Da für jede Folge nur eine von 2 vielen Möglichkeiten nur aus Einsen besteht, haben wir
1 10
𝑃(𝑋𝑖 = 1) = ( ) .
2
1
Sei 𝑋 = 𝑋1 + ⋯ + 𝑋1000 . Im Sachzusammenhang ist 𝑋 binomialverteilt mit 𝑛 = 1000, 𝑝 = .
210

Dann gilt:

1000 1 2 1 998
𝑃(𝑋 = 2) = ( ) ( 10 ) (1 − 10 ) = 0,179664.
2 2 2

Für die Poissonapproximation gilt dann:

1 2
(1000 ∙ ) 1
𝑃(𝑋 = 2) ≈ 210 𝑒 −210 = 0,17957.
2!

Multinomial-hypergeometrische Verteilung Approximation

Die univariate hypergeometrische Verteilung beschreibt ein Ziehen von 𝑁 Objekten ohne
Zurücklegen. Die Binomialverteilung beschreibt ein Ziehen von 𝑁 Objekten mit Zurücklegen. Beide
Verteilungen unterscheiden sich also umso mehr, je mehr Objekte man nicht zurücklegt. Das führt
zur folgenden Überlegung: Hat man viele Objekte, zieht aber nur einen Bruchteil davon ohne
Zurücklegen, so ähnlicher sollten die Resultate beider Verteilungen annähernd ähnlich sein. Und
dies ist in der Tat so:

Definition 5.3
Sei 𝑋~𝐻𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚(𝑁, 𝐾, 𝑛).

Ist 𝑁 groß (Anzahl der Objekte) und 𝑛 klein, so approximiert die Binomialverteilung die
univariate hypergeometrische Verteilung.

Achtung
Nicht sofort ersichtlich muss auch folgendes gelten:

𝑛 ≤ 𝐾, 𝑤𝑒𝑛𝑛 𝑁 − 𝐾 ≥ 𝑛
𝑛 ≤ 𝑁 − 𝐾, 𝑤𝑒𝑛𝑛 𝐾 > 𝑛

Was das bedeutet lässt sich leicht an einem Beispiel erkennen:

Wir ziehen 𝑛 = 3-mal ohne Zurücklegen aus einer Urne mit 𝑁 = 10 grünen und 𝐾 = 2 blauen
Bällen.

Die erste Bedingung 𝑛 ≤ 𝐾, 𝑤𝑒𝑛𝑛 𝑁 − 𝐾 ≥ 𝑛 ist nun nicht erfüllt. Würden wir jetzt die
Binomialapproximation nutzen, so wäre

𝑃(𝑋 = 3) ≠ 0, 𝑚𝑖𝑡 𝑋 = 𝐴𝑛𝑧𝑎ℎ𝑙 𝑏𝑙𝑎𝑢𝑒𝑟 𝐾𝑢𝑔𝑒𝑙𝑛.


Das tatsächliche Ergebnis wäre aber 𝑃(𝑋 = 3) = 0, weil wir nur zwei blaue Kugeln haben und
nicht drei ohne Zurücklegen ziehen können.

Diese Anforderung macht man aber meistens intuitiv richtig, da solche Grenzfälle selten
vorkommen.

FAQ: Warum gilt das Obere?


Frage: Kannst du mir das Obere beweisen?

Antwort: Klar!

𝐾 𝑁−𝐾 𝐾! (𝑁 − 𝐾)!
( )( ) ∙
𝑘 𝑛 − 𝑘 𝑘! (𝐾 − 𝑘)! (𝑛 − 𝑘)! (𝑁 − 𝐾 − 𝑛 + 𝑘)!
lim = lim
𝑁→∞ 𝑁 𝑁→∞ 𝑁!
( )
𝑛 𝑛! (𝑁 − 𝑛)!

= lim
𝑁→∞

PLATZHALTER
Beispiel 5.1

Eine Kiste enthält 1000 Actionfiguren, davon 60 Gatmans und 940 Robb’em’s. Nun werden
50 rein zufällig entnommen. Wie hoch ist die Wahrscheinlichkeit, höchstens 2 Gatmans zu
erhalten?

Da wir ohne Zurücklegen ziehen, ist dies ein Fall für die hypergeometrische Verteilung, mit 𝑁 =
1000, 𝐾 = 60, 𝑛 = 50, 𝑘 = 2.

2 60 1000 − 60
(
)( )
𝑃(𝑋 ≤ 2) = ∑ 𝑖 50 − 𝑖 ≈ 0410665.
1000
𝑖=0 ( )
50

Der Casio fx-991DEX Taschenrechner scheitert übrigens bei der obrigen Berechnung, weil
1000 1000 1000!
Zahlen wie ( ) für ihn zu groß sind (er kürzt den Bruch ( ) = 50!∙950! anscheinend
50 50
nicht).

Was können wir tun? Wir nutzen die Binomialapproximation! Aufpassen: Wir approximieren
stets über die Stichprobengröße 𝑛 = 50 und nicht Populationsgröße 𝑁 = 1000.

2
50 60 𝑖 940 𝑛−𝑖
𝑃(𝑋 ≤ 2) = ∑ ( )( ) ( ) = 0.41624.
𝑖 1000 1000
𝑖=0

Die Binomialapproximation liefert ein super Ergebnis und lässt sich auch mit unserem
Taschenrechner ermitteln.

Approximationen durch die Binomialverteilung wird sehr oft in Aufgaben des hessischen Abiturs
genutzt.

Bayrisches Abitur 2015, Mathe, Vorschlag 1

Bei der Wintersportart Biathlon wird bei jeder Schießanlage auf fünf Scheiben
geschossen. Ein Biathlet tritt bei einem Einzelrennen zu einer Schießanlage an, bei der er
auf jede Scheibe einen Schuss abgibt. Diese Schießeinlage wird modellhaft durch eine
Bernoullikette mit der Länge 5 und der Trefferwahrscheinlichkeit 𝑝 beschrieben. Geben
Sie für die folgenden Ereignisse 𝐴 und 𝐵 jeweils einen Term an, der die
Wahrscheinlichkeit des Ereignisses in Abhängigkeit von 𝑝 beschreibt.

1. 𝐴: "𝐷𝑒𝑟 𝐵𝑖𝑎𝑡ℎ𝑙𝑒𝑡 𝑡𝑟𝑖𝑓𝑓𝑡 𝑏𝑒𝑖 𝑔𝑒𝑛𝑎𝑢 𝑣𝑖𝑒𝑟 𝑆𝑐ℎü𝑠𝑠𝑒𝑛"


𝐵: "𝐷𝑒𝑟 𝐵𝑖𝑎𝑡ℎ𝑙𝑒𝑡 𝑡𝑟𝑖𝑓𝑓𝑡 𝑛𝑢𝑟 𝑏𝑒𝑖 𝑑𝑒𝑛 𝑒𝑟𝑠𝑡𝑒𝑛 𝑏𝑒𝑖𝑑𝑒𝑛 𝑆𝑐ℎü𝑠𝑠𝑒𝑛.

2. Erläutern Sie anhand eines Beispiels, dass die modellhafte Bescheibung der
Schießeinlage durch eine Bernoullikette unter Umständen der Realität nicht
gerecht wird.
1. Sei 𝑋 die Anzahl der Treffer auf der Schießanlage.
5
𝑃(𝐴) = 𝑃(𝑋 = 4) = ( ) 𝑝4 (1 − 𝑝)1 ,
4
𝑃(𝐵) = 𝑝2 (1 − 𝑝)3 .
Beim Ereignis 𝐵 fällt der Binomialkoeffizient weg, weil lediglich bei den ersten zwei
Schüssen getroffen werden soll (und nicht bei zwei beliebigen Schüssen).
2. Unsere Modellierung nimmt an, dass die Trefferwahrscheinlichkeiten unabhängig
voneinander sind. In Realität ist dies aber nicht unbedingt der Fall. Die Präzision kann
z.B. mit der Zeit konstant abnehmen. Dies könnte man simulieren, indem man z.B. die
hypergeometrische Verteilung nutzt mit einstellbarem Parameter 𝑁.
Natürlich kann man auch andere Modelle nutzen zur Simulation von diesem
Sachverhalt.

Die Binomialverteilung ist bekanntermaßen lediglich ein Spezialfall der Multinomialverteilung mit
zwei Objektklassen. Hat man mehr als zwei Klassen, so approximiert die Multinomialvertielung die
multivariate hypergeometrische Verteilung unter den entsprechenden Konditionen.

Definition 5.4
Sei 𝑋~𝐻𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚(𝑁, {𝐾1 , … , 𝐾𝑚 }, 𝑛), wobei 𝐾𝑖 für 𝐾𝑖 viele Objekte der Klasse 𝑖 steht.

Ist 𝑁 groß (Anzahl der Objekte) und 𝑛 klein, so approximiert die Multinomialverteilung die
multivariate hypergeometrische Verteilung.

Geometrische Verteilung - Exponentialapproximation


Wenn man darüber nachdenkt, so sind sich die geometrische Verteilung und Exponentialverteilung
sehr ähnlich. Beide befassen sich mit Trefferzeiten bis zum ersten Erfolg. Beide sind
„gedächtnislos“, i.e. die Erfolgswahrscheinlichkeit in einem Zeitabschnitt hängt nicht von der
Vergangenheit ab. Der einzige auffällige Unterschied: Die Exponentialverteilung ist kontinuierlich
und die geometrische Verteilung diskret.
Da aber beide dennoch den gleichen Sachverhalt, nämlich Wartezeiten, simulieren, ist es nicht
verwunderlich, dass unter gewissen Umständen beide Verteilungen nahezu gleiche Ergebnisse
liefern.
Faustregel: Je feiner die Diskretisierung des kontinuierlichen Zeitintervalls, desto mehr ähneln sich
die geometrische und Exponentialverteilung.

Definition 5.5
Sei 𝑋~𝐺𝑒𝑜𝑚(𝑝).

Ist das betrachtete Zeitintervall ausreichend diskretisiert (z.B. Stunden sind diskretisiert
durch Teilstücke der Länge von Sekunden), ist konvergiert 𝑋 zur Exponentialverteilung, mit

𝑋 ≈ 𝑝𝑒 −𝑝 .

Keine Sorge, auch wenn die Definition vielleicht abschreckend klingt: Diskretisierung bedeutet in
unserem Fall einfach nur, dass wir ein Zeitintervall (welches kontinuierlich ist) in Teilelemente
unterteilen.

1 Stunde unterteilt in kleinere Abschnitte. Diese Abschnitte sind dabei


keine „Längen“ sondern Punkte.

Diese Partition muss dabei nicht immer uniform sein. Adaptive Runge-Kutta Verfahren für
gewöhnliche Differentialgleichungen zeichnen sich unter anderem dadurch aus, dass die Abstände
zwischen den Teilpunkten vom erwarteten Fehler abhängt und so im Allgemeinen nicht uniform ist.
Für die geometrische Verteilung reicht aber ein gleichpartitioniertes Inverall aus. Ein Beispiel in
Form einer orginalen Übungsaufgabe macht vieles klarer:

Stochastik für Informatiker Aufgabe 19, WS17/18

Für 𝑟 ∈ ℕ sei 𝑍1 , 𝑍2 , … ein fortgesetztes 𝑟-Würfeln mit den gleichwahrscheinlichen


Ausgängen 1, … , 𝑟.

b)Es sei 𝑟 = 1000. Man würfelt in jeder Sekunde einmal. Was ist die Wahrscheinlichkeit,
dass man bis zum Ausgang 1 länger als eine Stunde warten muss? Verwenden Sie die
Exponentialapproximation.

Ersteinmal rechnen wir das genaue Ergebnis. Wir würfeln jede Sekunde einmal. Dies sind
1
diskrete Zeitstücke. Die Zeit bis zum ersten Erfolg ist ergo geometrisch verteilt mit 𝑝 = .
1000
Eine Stunde hat 3600 Sekunden. Wenn wir länger als eine Stunde würfeln wollen bis zum
ersten Erfolg, müssen wir zuvor 3600 Misserfolge haben. Also:

999 3600
𝑃(𝑋 ≥ 3600 𝑆𝑒𝑘𝑢𝑛𝑑𝑒𝑛) = ( ) ≈ 0,02727.
1000

Nun zur Exponentialapproximation. Dies würde bedeuten, dass wir nicht nur jede Sekunde,
sondern jede noch so kleine Zeiteinheit würfeln würden. Da unsere Stunde aber ausreichend
diskretisiert ist (in 3600 Punkte) werden beide Verfahren ähnliche Ergebnisse liefern.

1 𝐸𝑟𝑓𝑜𝑙𝑔 3,6 𝐸𝑟𝑓𝑜𝑙𝑔𝑒


Zuerst bemerken wir: 𝜆 = 1000 𝑆𝑒𝑘𝑢𝑛𝑑𝑒𝑛 = 1 𝑆𝑡𝑢𝑛𝑑𝑒
.

Die Konvertierung in Stunden haben wir freiwillig übernommen.


Dann gilt.

𝑃(𝑋 ≥ 1 𝑆𝑡𝑢𝑛𝑑𝑒) = ∫ 3,6𝑒 −3,6𝑥 𝑑𝑥 ≈ 0,02732.
1 𝑆𝑡𝑢𝑛𝑑𝑒

Je mehr Punkte wir dafür verwenden, desto kleiner unser Fehler. Dies ist vergleichbar mit dem
Verhalten unseres Monte-Carlo Schätzers, den wir in Wahrscheinlichkeiten als Verhältnisse
kennenlernten.

Markow-Ungleichung

Die Markow Ungleichung gibt eine obere Schranke für summierte Wahrscheinlichkeiten der Form
𝑃({𝑋 ≥ 𝑎}).
Dabei gibt es aber einige Restriktionen: Einerseits ist Nichtnegativität von 𝑋 gefordert, also 𝑋: Ω →
𝑆, 𝑚𝑖𝑡 S ⊆ ℝ+ . Andererseits fordern wir Positivität für 𝑎, also 𝑎 > 0.
Ist dies erfüllt, ergibt sich folgende handliche Formel:

Definition 5.6
Sei 𝑋 nichtnegativ, also : Ω → 𝑆, 𝑚𝑖𝑡 S ⊆ ℝ+ und 𝑎 > 0.

Dann gilt:

𝐸[𝑋]
𝑃(𝑋 ≥ 𝑎) ≤ .
𝑎

Tipp
Wenn 𝑋 endlich viele negative Werte annehmen kann, z.B. 𝑋: Ω → [−5,20], dann kann man
probieren X zu transformieren, z.B. mit 𝑌 = 𝑋 + 5 und dort dann die Markow Ungleichung
anwenden.

Siehe Transformationen kontinuierlicher Zufallsvariablen.

FAQ: Warum funktioniert die zusammengeführte Formel?


Frage: Ich weiß, dass diese Buch oft auf Beweise verzichtet. Aber ein bisschen Formalität
kann doch sein..

Antwort: Ok. Wenn 𝑋 kontinuerlich und nichtnegativ, dann gilt:


∞ 𝑎 ∞ ∞ ∞

𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 + ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 ≥ ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 ≥ 𝑎 ∙ ∫ 𝑓𝑋 (𝑥)𝑑𝑥
0 ⏟
0 𝑎 𝑎 𝑎
𝐿𝑖𝑛𝑒𝑟𝑎𝑡𝑖ä𝑡 𝑑𝑒𝑠 𝑅𝑖𝑒𝑚𝑎𝑛𝑛 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑙𝑠
= 𝑎 ∙ 𝑃(𝑋 ≥ 𝑎).

Somit haben wir:


𝐸[𝑋] ≥ 𝑎 ∙ 𝑃(𝑋 ≥ 𝑎).

Einfaches teilen durch 𝑎 ergibt:


𝐸[𝑋]
𝑃(𝑋 ≥ 𝑎) ≤ .
𝑎
Beispiel 5.2

Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(10,0.3). Schätze 𝑃(|𝑋 − 𝐸[𝑋]| ≥ 4) mit der Markow-Ungleichung ab!

Sei 𝑌 = |𝑋 − 𝐸[𝑋]|. Aufgrund der Betragsstriche ist 𝑌 nicht negativ. Da 4 auch größer als null ist,
sind alle Voraussetzungen für die Markow Ungleichung erfüllt.

𝐸[𝑋]) ≈ 3,33.

Dann folgt:

3.33
𝑃(𝑌 ≥ 4) = 𝑃(|𝑋 − 3.33| ≥ 4) ≤ = 0.8325.
4

Die tatsächliche Wahrscheinlichkeit beträgt:

𝑃(|𝑋 − 3.33| ≥ 4) = 𝑃(𝑋 = 10) + 𝑃(𝑋 = 9) + 𝑃(𝑋 = 8) ≈ 0.0016.

Die Markow Abschätzung hat zwar recht, ist aber in diesem Fall zu grob, um damit arbeiten zu
können.

Tschebyscheff-Ungleichung

Im vorherigen Beispiel (Seite 304) war die Markow Abschätzung ziemlich ungenau. Die
Tschebyscheff Ungleichung kann in Fragestellungen der Form 𝑃(|𝑋 − 𝐸[𝑋]|) bessere Ergenisse
liefern:

Definition 5.7
Sei 𝑋 und nicht konstant (also 𝜎 ≠ 0).

Dann gilt:
1
𝑃(|𝑋 − 𝐸[𝑋]| ≥ 𝑘 ∙ 𝜎) ≤ .
𝑘2

Im Gegensatz zur Markow Ungleichung dürfen 𝑋 und 𝑘 bei Tschebyscheff auch negative Werte
annehmen. Dafür ist die Markow Ungleichung allgemeiner. Probieren wir das vorherige Beispiel
einmal mit der Tschebyscheff Ungleichung aus:

Beispiel 5.3

Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(10,0.3). Schätze 𝑃(|𝑋 − 𝐸[𝑋]| ≥ 4) mit der Tschebyscheff-Ungleichung ab!

Es gilt 𝐸[𝑋] ≈ 3,33 und 𝜎 = √𝑛𝑝𝑞 = √10 ∙ 0.3 ∙ 0.7 ≈ 1.44913.

Somit:
4 = 𝑘 ∙ 1.44913 ⇒ 𝑘 ≈ 2.76.

Dann folgt:

1
𝑃(|𝑋 − 3.33| ≥ 4) = 𝑃(|𝑋 − 3.33| ≥ 2.76 ∙ 1.44913) ≤ ≈ 0.4761.
1.449132

Dieses Ergebnis ist schon etwas dichter als die Markow Ungleichung am tatsächlichen Ergebnis
0.0016.

Tipp
Bei Fragestellungen der Form 𝑃(|𝑋 − 𝐸[𝑋]| ≥ 𝑎) lohnt es sich zuerst Markow und dann
Tschebyscheff zu nehmen. Da beide Formeln obere Abschätzungen liefern, nimmt man dann
das kleinere Ergebnis der jeweiligen Schätzungen.

Die Markow Ungleichung ermöglicht es uns, grobe Schätzungen Konfidenzintervalle für beliebige
Verteilungen zu ermitteln.

Einfaches Umschreiben der Gleichung zeigt nämlich:


1
1 − 𝑃(𝑘 ∙ 𝜎 ≤ 𝑋 − 𝐸[𝑋] ≤ 𝑘 ∙ 𝜎) ≤ .
𝑘2
Man darf aber nicht vergessen, dass die resultierenden Grenzen ziemlich grob sein können.

Tipp
Wie auch die Markow-Ungleichung hat auch die Tschebyscheff-Ungleichung viele Variationen
und Sonderfälle, die das Approximationsergebnis mitunter bedeutend verbessern können.
Siehe hier.
Kapitel 6

Tipps & Tricks


Oft möchte man einfach nur eine Lösung. Da die Stochastik auch viele Elemente aus der Analysis
und linearen Algebra enthält, haben wir Glück: Viele Rechungen lassen sich vereinfachen oder
sogar volländig automatisieren. Nullstellen finden, stationäre Verteilungen ausrechnen,
Gleichungssysteme lösen: All dies muss nicht mehr manuell getätigt werden. Das Tolle: Wir
basieren sämtliche Tipps auf den kommerziell erhältlichen Casio fx-991DEX Taschenrechner, der
sogar in den meisten Klausuren zugelassen ist.

Damit lässt sich viel Zeit sparen, die man besonders in zeitarmen Situationen für andere Dinge
braucht.

Ermittle Grenzverteilung anstatt stationäre Verteilung

Wir alle kennen die Situation: Besonders bei großen Markovketten ist das Berechnen der
stationären Verteilung 𝐴𝜋 = 1 ∙ 𝜋 aufwändig, weil ein 𝑛 × 𝑛 Gleichungssystem gelöst werden muss.

In vielen Fällen ist das ermitteln der Grenzverteilung einfacher:

lim 𝐴𝑘 𝑥 .
k→∞

In einer ergodischen Kette, also eine Markow Kette die aperiodisch und irreduzibel ist, konvergiert
diese Grenzverteilung auch immer zu der eindeutigen stationären Verteilung.

Wir berechnen also manuell mit dem Tascherechner einfach

𝐴𝑘 𝑥 = 𝐴 ∙ 𝐴 ∙ … ∙ 𝐴𝑥.
Aber wie hoch sollte unser 𝑘 sein? In der Regel konvergieren besonders Ketten mit wenigen
Zuständen (𝑛 < 30) schon nach 5-10 „random walks“ zum gewünschten 𝜋. Und wie sollten wir
unser 𝑥 wählen? 𝑥 ist unser Startvektor mit 𝑛 Einträgen, die in der Summe 1 ergeben müssen, also
∑𝑛𝑖=1 𝑥𝑖 = 1.
Welche genauen Einträge wir nehmen bleibt uns überlassen, je dichter aber unsere Einträge zum
tatsächlichen 𝜋 sind, desto schneller konvergiert unsere Grenzverteilung.

Tipp
Wenn wir gar keine Ahnung haben wie die stationäre Verteilung 𝜋 aussehen könnte, nehmen
1
wir einfach die uniforme Verteilung 𝑥𝑖 = 𝑛.

Die Vorgehensweise wird an einem Beispiel ersichtlich:


Beispiel 6.1

Berechne die Gleichgewichtsverteilung vom unteren Graphen:

Gleichgewichtsverteilung und stationäre Verteilung sind äquivalent.

Der Einfachheit halber reduzieren wir den Graphen:

Das Reduktionsverfahren ist äquivalent zum Verfahren zur Minimierung von deterministischen
endlichen Automaten.

Unsere Übergangsmatrix hat dann folgende Form:

𝑍𝑖𝑒𝑙 ↙/𝑆𝑡𝑎𝑟𝑡 → 𝑎, 𝑏, 𝑑 𝑐 𝑒 𝑓, 𝑔
3
𝑎, 𝑏, 𝑑 0 0 0
4
1
𝑐 1 0 0
3 .
1
𝑒 0 0 1
4
2
𝑓, 𝑔 0 0 0
3

Nun ermitteln wir die Grenzverteilung. Wir haben keine Ahnung wie der Eigenvektor 𝜋 aussehen
könnte, deshalb wählen wir die uniforme Verteilung für 𝑥:

3
0 4
0 0
1 0.25
1 0 0 0.25
3
lim 𝐴𝑘 𝑥 = lim 1 ∙( ).
k→∞ k→∞ 0 0 1 0.25
4
2
0.25
(0 0 3
0)

Wählen wir 𝑘 = 4. Nun kommt der Taschenrechner ins Spiel:


• Wähle im Menü den Punkt Matrizen aus

• Wähle MatA

• Wir haben 𝑛 = 4 Zustände, weshalb wir 4 Zeilen und 4 Spalten brauchen. Gebe also „4“
auf der Tastatur ein und bestätige mit „=“. Die Spalten werden danach abgefragt.

• Gebe die Einträge der Matrix ein.

0.25
0.25
• Gehe mit „AC“ zurück ins Menu. Wiederhole dasselbe für den Startvektor 𝑥 = ( )
0.25
0.25
(wähle aber MatB anstatt MatA).
• Gehe mit „AC“ nun wieder zurück. Der Bildschirm müsste nun so aussehen:

Wähle die „OPTN“ Taste.


• Wähle MatA. Die Matrix 𝐴 erscheint nun als MatA auf dem Bildschirm.

• Multipliziere diese Matrix einige Male mit sich selbst. Am Ende unserer
Multiplikationskette sollte der Vektor 𝑥 stehen (also MatB):

• Drücke „=“ fürs Ergebnis.

Unser so ermittelte Vektor 𝑥 5 hat die Form:


0.234
5 0.333
𝑥 =( ).
0.2656
0.166
0.25
1
3
Die tatsächliche stationäre Verteilung beträgt 𝜋 = . Unser ermittelter Vektor ist folglich
0.25
1
( 6 )
sehr dicht am tatsächlichen Ergebnis. Hätten wir unser 𝑘 noch weiter erhöht, wären wir noch
dichter an 𝜋 gekommen. Aber unser Ergebnis ist für unsere Zwecke gut genug.

Nehmen wir jetzt wieder den Originalgraphen anstatt die reduzierte Version, so gibt es folgende
Grenzverteilung:

1/12
1/12
1/12
𝜋 = 1/3 .
1/4
1/12
(1/12)

Tipp
Die größten Matrizen, die der Casio fx-991DEX abbilden kann, sind 4 × 4. Haben wir mehr
Zustände im Graph so ist es einen Versuch wert ihn zu reduzieren (wie im oberen Beispiel).

Ist man mit dem Taschenrechner geübt, lassen sich solche Aufgaben innerhalb kürzester Zeit lösen.
Unser Rekord liegt bei 2 Minuten (inklusive aufstellen der Matrix 𝐴). Seid Ihr schneller?

Berechne Nullstellen iterativ


In Aufgaben mit gesuchten Konfidenzintervallen kommen häufig Nullstellenberechnungen vor. Für
die meisten Nullstellenprobleme gibt es aber keine geschlossenen Formeln.

Aber wie findet man dann die Nullstellen von komplizierten Ausdrücken wie 𝑓(𝑥) = 𝑥10 − ln(𝑥) +
15? Ganz einfach: Durch numerische Verfahren. Eine bekannte Methode heißt die Newton-Raphson
Iterationsvorschrift:

Man rät einfach ein 𝑥0 aus dem Definitionsbereich von 𝑓(𝑥) und wertet iterativ
𝑓(𝑥0 )
𝑥𝑛 = 𝑥𝑛−1 −
𝑓 ′ (𝑥0 )
aus. Diese Folge konvergiert im Allgemeinen zur gewünschtes Nullstelle schon für kleine 𝑛 ≤ 10.
Beispiel 6.2

Berechne die Nullstelle im ersten Quadranten von 𝑓(𝑥) = 𝑒 −𝑥 + 2𝑒 𝑥 − 9 iterativ bis 𝑛 = 6.

Wir raten: Sei 𝑥0 = 5.

𝑓(𝑥0 ) 𝑒 −5 + 2𝑒 5 − 9
𝑥1 = 𝑥0 − = 5 − ≈ 4.03,
𝑓 ′ (𝑥0 ) −𝑒 −5 + 2𝑒 5

𝑓(𝑥1 ) 𝑒 −4.03 + 2𝑒 4.03 − 9


𝑥2 = 𝑥1 − = 4.03 − ≈ 3.1,
𝑓 ′ (𝑥1 ) −𝑒 −4.03 + 2𝑒 4.03

𝑓(𝑥2 )
𝑥3 = 𝑥2 − ≈ 2.3,
𝑓 ′ (𝑥2 )
𝑓(𝑥3 )
𝑥4 = 𝑥3 − ′ ≈ 1.74,
𝑓 (𝑥3 )
𝑓(𝑥4 )
𝑥5 = 𝑥4 − ′ ≈ 1.51,
𝑓 (𝑥4 )

𝑓(𝑥5 )
𝑥6 = 𝑥5 − ≈ 1.478.
𝑓 ′ (𝑥5 )

Setzen wir 𝑥6 = 1.478 in unsere Funktion ein erhalten wir:

𝑓(1.478 ) ≈ −0.00356.

Da 𝑓(1.5) > 0, sind wir schon ganz nah an der tatsächlichen Nullstelle (Zwischenwertsatz). Für
unsere Zwecke sind wir dicht genug dran.

Da die manuelle Iterationsauswertung mit zunehmenden 𝑘 recht aufwändig ist, automatisiert der
Casio FX-991DEX die Berechnung!

Tipp
Da sich nun von fast beliebigen Funktionen die Nullstellen ermitteln lassen, ist dies unserer
Meinung nach die nützlichste Zusatzfunktion des Casio FX-991DEX.

Beispiel 6.1

Berechne die Nullstelle von


1 100
(𝑎 − ) = −1.96,
6
√625
99

Zuerst stellen wir um:


1 100
(𝑎 − ) + 1.96 = 0.
6
√625
99

• Gebe die Funktion in den Taschenrechner ein. Für die Variable 𝑎 verwende 𝑥, welches
sich links unter der „on“ Taste befindet.

• Drücke „SHIFT“+ „CALC“, um in den iterativen Nullstellenmodus zu gelangen. Wähle


einen Startwert 𝑥0 . In unserem Fall ist 𝑥0 = 20.

• Drücke „=“ und lese das Ergebnis ab.

Achtung
Die Newton-Raphson Methode findet höchstens eine Nullstelle. Hat die Funktionen mehrere
Nullstellen, muss man jeweils verschiedene 𝑥0 probieren. Liegen die Nullstellen dicht
beieinander (evtentuell sogar unter Maschinengenauigkeit) so kann es sehr schwer oder gar
unmöglich werden, alle Nullstellen zu ermitteln.
Überpüfe Ergebnisse
Anders als in der Analysis, ist es in der Stochastik oft nur schwer möglich Ergebnisse zu überprüfen.
Dies liegt daran, dass vermeintliche Lösungen mehr von der Modellierung des Problems abhängen,
als der eigentlichen Rechnung selbst. Einige allgemeingültige Hilfen bieten sich uns dennoch an:

Tipp
Überprüfe Kovarianzen mit der Cauchy Schwarz Ungleichung.

Die ermittelte Kovarianz sollte immer mit der Cauchy-Schwarz Ungleichung (Definition 3.5.6, Seite
165) überprüft werden, also 𝐶𝑜𝑣(𝑋, 𝑌) ≤ 𝑉𝑎𝑟[𝑋]𝑉𝑎𝑟[𝑌]. Man kann dies immer tun, weil man für
die Kovarianzberechnung schon meistens die Varianz ermittelt hat. Die Erfüllung der Ungleichung
gibt natürlich keine hunderprozentige Sicherheit, hilft aber dennoch öfter als man denkt.

Tipp
Berechne die Varianz direkt sowie mit dem Verschiebungssatz.

Sowohl die direkte Berechnung 𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝐸[𝑋])2 ] als auch der Verschiebungssatz 𝑉𝑎𝑟[𝑋] =
𝐸[𝑋 2 ] − 𝐸[𝑋]2 (siehe Der Verschiebungssatz) sollten dieselben Resultate liefern.

Achtung
Der Verschiebungssatz ist numerisch instabil, weshalb es zur Auslöschung der Terme kommen
kann. Die obere Äquivalenz funktioniert also in nicht exakter Arithmetik nicht immer.

Tipp
Überprüfe, ob eine ermittelte Verteilungsfunktion mit Intervallgrenzen 𝑎, 𝑏, 𝑚𝑖𝑡 𝑎 < 𝑏 erfüllt:
𝐹𝑋 (𝑎) = 0, 𝐹𝑋 (𝑏) = 1.

Im Abschnitt Transformationen kontinuierlicher Zufallsvariablen haben wir unter anderem


Verteilungsfunktionen transformierter Zufallsvariablen ermittelt. Eine Verteilungsfunktion
wiederspiegelt die summierte Wahrscheinlichkeit in einem Intervall. Es sollte immer überprüft
werden, dass die Summe aller Wahrscheinlichkeiten „1“ ergibt, also 𝐹𝑋 (𝑏) = 1. Dann sieht man
sofort, dass 𝐹𝑋 (𝑥) = 2𝑥 z.B. keine Verteilungsfunktion einer auf [0,1] uniform verteilten
Zufallsvariablen sein kann, da 𝐹𝑋 (1) = 2.

Tipp
Nutze die Markow und Tschebyscheff Ungleichungen wenn immer möglich.

Überprüfe ermittelte Konfidenzintervalle und Wahrscheinlichkeiten so oft wie möglich mit der
Markow und Tschebyscheff Ungleichung. Besonders bei einer großen Stichprobenanzahl, sind die
so ermittelten Obergrenzen manchmal so genau, dass nur eine Kommastelle sie vom tatsächlichen
Ergebnis trennt.

Tipp
Überprüfe die Annahmen.
Sind die Zufallsvariablen tatsächlich unabhängig oder lediglich unkorreliert? Ist unser Experiment
mit oder ohne Zurücklegen? Jede zusätzliche Annahme schränkt unsere Möglichkeiten zur
Kontrolle weiter ein (z.B. gilt bei Abhängigkeit im Allgemeinen nicht der zentrale Grenzwertsatz).
Die Modellierung des Problems ist der wichtigste Aspekt, der niemals aus den Augen verloren
werden sollte.

FAQ

Warum ist das Buch pink?


Der US-amerikanische Rapper Pharrell veröffentlichte das Buch „Places and Spaces I’ve been“ in
mehreren Versionen, die sich alle lediglich in ihrer Farbe unterschieden.

Dabei war jede Farbe repräsentiert außer weiß, was ja normalerweise der Standard wäre. Anlass
war die Zelebration der Individualität, die sich schon in kleinstem Rahmen, wie der Farbe des
verwendeten Papiers ausdrückt.

Genauso dieses Skript: Es soll zeigen, dass ein Mathebuch auch „pink“ sein kann ohne
Aussagekraft einzubüßen.

Wieso hast du es geschrieben?


Als ich im Jahr 2015 das Buch begann zu schreiben, war es eigentlich eher als eine persönliche
Zusammenfassung gedacht.

Wieso hast du dann weitergemacht?


Im Frühjahr 2016 schickte ich es einem kleinen auserwählten Kreis. Damals war es ungefähr 50
Seiten lang und beinhaltete lediglich eine frühe Version vom Kapitel 1 & 2.
Eines Tages ging ich in das Informatik Lernzentrum. Ich kam mit jemanden den ich zuvor nur
flüchtig kannte ins Gespräch. Wir diskutierten über Stochastik und waren uns in einer Sache
nicht einig. Plötzlich wollte er mir beweisen, dass er recht hatte. Also zitierte er einen Text von
einer stochastischen Exposition die er gelesen hatte. Und völlig unerwartet war diese Exposition
mein Buch, oder besser gesagt die Anfänge davon.

Hatte er recht?
Nein und da liegt das Problem: Mein Text war zu diesem Zeitpunkt falsch: Ich hatte die
korrigierte Version noch nicht veröffentlicht.
Wo gab es Probleme?
Inbesonders die Kapitel über Wahrscheinlichkeitsräume habe ich mehrfach umschreiben
müssen. Es war für mich einfach nicht leicht zu verstehen. Andererseits waren die
Kombinatorikthemen und insbesonders das Bild mit der Giraffe schon von Beginn an relativ fix:
Da gab es nichts zu rütteln.

Welchen professionellen Status hattest du, als du mit dem Skript angefangen hast?
Ich war Informatikstudent im dritten Semester.

Hast du dann Stochastik wenigstens mit einer guten Note bestanden?


Gute Note? Nein!

Für viele Studenten ist Stochastik eines der schwierigeren Basismodule. Wie sollen sie sich denn
noch motivieren, wenn einer ein ganzes BUCH darüber geschrieben hat und gerade so
durchkommt.
Man darf nicht vergessen: Ich fing damit an gerade weil ich so viele Schwierigkeiten hatte. Ab
dem siebten oder so Blatt habe ich nicht mal mehr Übungsabgaben abgegeben. Es war zu
frustrierend. Ich saß bis nachts an den Übungsblättern und habe sie dennoch nicht geschafft. In
der Winterpause habe ich dann beschlossen, dieses Skript zu schreiben, um den Stoff auch zu
verstehen anstatt nur zu rezitieren.

Und der Prozess war sicher nicht einfach…


Richtig! Aber es hat sich so mächtig gelohnt. Fächer wie „Effiziente Algorithmen“ oder
insbesonders „Machine Learning“ hätte ich nie bestanden ohne dieses Skript.

Hat sich dein Arbeitsprozess im Laufe der Zeit verändert?


Ja. Und wer genau hinschaut, kann sogar die Reihenfolge erkennen, in denen ich alles
geschrieben habe.

Es fing mit Kapitel 1 und Kapitel 2 an. Dies sieht man deutlich an den .png Grafiken, die
verwendet werden. Diese .png Grafiken setzten sich bis zum Beginn des Kapitel 3 fort. Dann
entdeckte ich Vektorgrafiken. Mit denen habe ich Kapitel 0 erstellt. Dann den Rest des Kapitel 3,
dann Kapitel 4, dann Kapitel 5, dann Kapitel 6. Das Skript ist in Microsoft Word 2013
geschrieben.

Die Entwicklungsgeschwindigkeit hat sich auch verändert: Während ich zu Beginn noch Tage für
eine Seite brauchte (um diese dann später wieder umzuschreiben), habe ich gegen Ende ca. 4-7
Seiten pro Tag geschrieben.

Plötzlich war alles so „selbstverständlich“, dass die Arbeit wie im Autopilot stattfand. Das
bedeutet nicht, dass das Skript fehlerfrei ist. Aber es ist gut genug, um damit zu lernen und die
Aufgaben zu verstehen, meine ich.

Der Schreibprozess fand in den Jahren 2015-2018 statt.


Wobei der meiste Fortschritt in den 2016 und 2017 und 2018 gemacht wurde.
So viel investierte Zeit…
Hat deine Freundin dich da nicht verlassen?
Das hat sie schon vorher.

Sorry. Wie war die Resonanz?


Zu Beginn recht mäßig. Zudem war Herr Wakolbinger persönlich auch nicht besonders von
meiner Arbeit angetan. Who cares!
Aber im Wintersemester 2017/2018 ist die Resonanz förmlich explodiert. Ich laufe in das
Lernzentrum und sehe manchmal Studenten mit dem Skript im Hintergrund.
Mit „explodiert“ meine ich natürlich, dass ca. 6 Leute sich schonmal mit dem Skript beschäftigten!

Klingt nach nicht viel.


Dennoch: Plötzlich kannte man mich als der „Typ mit dem Skript“.

Also warst du schon fast wie ein VIP?


Groupies hat es mir dennoch nicht gebracht.

Ist das Buch vollständig?


Es ist eher als Fragment anzusehen.

Ich mag keine Bildschirme. Gibt es auch eine physische Version?


Ich habe in der Tat zwei Kopien in Buchform drucken lassen und heimlich in die
Informatik Bibliothek geschmuggelt. Mit Fake ISBN Nummer und allem. Das Besondere: Ich habe
sie auch signiert. Alle meine Gefühle und Gedanken, in einer Signatur. Vielleicht stößt jemand ja
mal auf sie und lernt damit.

Was ist Stochastik für Informatiker 2: Algorithmen?


Pst.

Sag doch: Was für Algorithmen?


Sei ruhig!

OK! Noch irgendetwas anzumerken?


Anmerkungen/ Kritik an folgende Adresse: flashbling@googlemail.com. Diese Adresse ist aktiv
(Stand 2018).

Falls du außerdem bis hierhin gelesen hast. Danke. Du weißt nicht wieviel es mir bedeutet.
Um Besetzungen mit 𝑟 = 3 Behältern darzustellen sind Dreiecksdiagramme (auch ternary plots)
eine praktische Visualisierungsmethode.
Ein Dreiecksdiagramm visualisiert Verhältnisse zwischen genau drei Objekten. Jeder Punkt im
Dreieck gibt ein Verhältnis zwischen den Objekten an. Jedes Objekt befindet sich an einem
Eckpunkt des Dreiecks. Veranschaulichen wir uns dies an einem Beispiel.
Wir haben 𝑛 = 20 Äpfel mit 𝑟 = 3 Eimern. Zuerst beschriften wir die Ecken unseres
Dreiecksdiagramm mit den Eimern 𝐸1 , 𝐸2 , 𝐸3:

WS1516 Übung 2, 7S

(i) (𝑋1 , 𝑋2 , 𝑋3 ) sei eine uniform verteilte Besetzung von 3 Plätzen mit 10 Objekten.
Wie wahrscheinlich ist es, dass kein Platz leer bleibt? Beschreiben Sie die Menge der
zugehörigen Ausgänge in dem in der Vorlesung 2a betrachteten de Finetti-Dreieck.
Wir arbeiten analog

FAQ: Wie lese ich das Diagramm?


Frage: Ich habe so ein Diagramm noch nie gesehen. Wie interpretiere ich es?

Antwort:
FAQ: Gibt es intuitive Beispiele für eine Verarbeitung von X?
Frage: Einzelne Zufallsvariablen kann ich mir vorstellen, aber wo genau liegt der Nutzen
einer Verarbeitung 𝑌 = ℎ(𝑋)?

Antwort: Betrachten wir folgende Situation:

Wir schlagen Golfbälle in ein 1m langes Einheitsintervall [0,1]. Wenn unser Golfball bis 50 cm
weit kommt, erhalten wir 2€. Schaffen wir es, den Golfball zwischen 50cm und 1m rollen zu
lassen, kriegen wir 10€.

Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen an sich haben keine):
Sei 𝜔 ∈ S die Eingabe für unsere Zufallsvariable 𝑋 .

2€, 𝑤𝑒𝑛𝑛 0 ≤ 𝜔 ≤ 0,5


𝑌(𝜔) = {
10€, 𝑤𝑒𝑛𝑛 0.5 < 𝜔 ≤ 1
Aber uns fällt folgendes auf: Die möglichen Ausgänge von 𝑌 hängen selbst vom Zufall ab.
Ohne Zweifel ist diese Zufallsvariable kontinuierlich, denn die Intervalle sind überabzählbar
unendlich. Dennoch ist der Wertebereich von 𝑋 endlich.

Bei einer diskreten Zufallsvariable fordern wir explizit einen abzählbaren Wertebereich und
Zielbereich. Ist der Zielbereich einer Zufallsvariable abzählbar aber der Definitionsbereich
überabzählbar, dann haben wir nämlich eine gemischte Zufallsvariable.

Das könnte Ihnen auch gefallen